rm新世界,新时代RM|登录网址

微軟的一項新AI項目旨在自動為文檔和電子郵件中的圖像添加字幕，以便視覺障礙軟件讀取圖像。

微軟的研究人員在有關(guān)預(yù)印本存儲庫arXiv的論文中解釋了他們的機器學(xué)習(xí)模型的原理。

該模型使用可視語音詞匯預(yù)訓(xùn)練（VIVO），它利用大量成對的圖像標(biāo)簽數(shù)據(jù)來學(xué)習(xí)視覺詞匯。然后，使用帶有適當(dāng)字幕的圖像的第二個數(shù)據(jù)以幫助教AI如何最好地描述圖片。

“理想情況下，每個人都應(yīng)在文檔，網(wǎng)絡(luò)，社交媒體中為所有圖像添加替代文本，因為這可以使盲人訪問內(nèi)容并參與對話。但是，可惜，人們卻沒有?！蔽④汚I平臺小組的軟件工程經(jīng)理Saqib Shaikh說。

總體而言，研究人員希望AI能夠提供Microsoft現(xiàn)有字幕系統(tǒng)兩倍的性能。

為了對新AI的性能進行基準(zhǔn)測試，研究人員將其納入了“無上限”挑戰(zhàn)。在撰寫本文時，Microsoft的AI現(xiàn)在在其排行榜上排名第一。

“無上限的挑戰(zhàn)實際上是如何描述您在訓(xùn)練數(shù)據(jù)中沒有看到的那些新穎的物體？”微軟研究實驗室的首席研究經(jīng)理王麗娟評論道。

希望使用Microsoft自動字幕AI來構(gòu)建應(yīng)用程序的開發(fā)人員已經(jīng)可以這樣做，因為Azure Cognitive Services的Computer Vision軟件包中提供了該功能。

微軟令人印象深刻的SeeingAI應(yīng)用程序?qū)⑹褂眯碌腁I進行更新，該應(yīng)用程序使用計算機視覺描述視力障礙者的周圍環(huán)境。

“圖像字幕是可以實現(xiàn)廣泛服務(wù)的核心計算機視覺功能之一，”Azure AI認(rèn)知服務(wù)的CTO黃表示。

黃繼續(xù)說：“我們AI的這一突破以Azure為平臺，以服務(wù)于更多客戶?！?“這不僅是研究上的突破；在Azure上將突破轉(zhuǎn)化為生產(chǎn)所需的時間也是突破?！?/p>

改進的自動字幕功能也有望在今年晚些時候在Outlook，Word和PowerPoint中使用。
責(zé)任編輯：YYX

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴