微軟的一項新AI項目旨在自動為文檔和電子郵件中的圖像添加字幕,以便視覺障礙軟件讀取圖像。
微軟的研究人員在有關(guān)預(yù)印本存儲庫arXiv的論文中解釋了他們的機器學(xué)習(xí)模型的原理。
該模型使用可視語音詞匯預(yù)訓(xùn)練(VIVO),它利用大量成對的圖像標(biāo)簽數(shù)據(jù)來學(xué)習(xí)視覺詞匯。然后,使用帶有適當(dāng)字幕的圖像的第二個數(shù)據(jù)以幫助教AI如何最好地描述圖片。
“理想情況下,每個人都應(yīng)在文檔,網(wǎng)絡(luò),社交媒體中為所有圖像添加替代文本,因為這可以使盲人訪問內(nèi)容并參與對話。但是,可惜,人們卻沒有?!蔽④汚I平臺小組的軟件工程經(jīng)理Saqib Shaikh說。
總體而言,研究人員希望AI能夠提供Microsoft現(xiàn)有字幕系統(tǒng)兩倍的性能。
為了對新AI的性能進行基準(zhǔn)測試,研究人員將其納入了“無上限”挑戰(zhàn)。在撰寫本文時,Microsoft的AI現(xiàn)在在其排行榜上排名第一。
“無上限的挑戰(zhàn)實際上是如何描述您在訓(xùn)練數(shù)據(jù)中沒有看到的那些新穎的物體?”微軟研究實驗室的首席研究經(jīng)理王麗娟評論道。
希望使用Microsoft自動字幕AI來構(gòu)建應(yīng)用程序的開發(fā)人員已經(jīng)可以這樣做,因為Azure Cognitive Services的Computer Vision軟件包中提供了該功能。
微軟令人印象深刻的SeeingAI應(yīng)用程序?qū)⑹褂眯碌腁I進行更新,該應(yīng)用程序使用計算機視覺描述視力障礙者的周圍環(huán)境。
“圖像字幕是可以實現(xiàn)廣泛服務(wù)的核心計算機視覺功能之一,”Azure AI認(rèn)知服務(wù)的CTO黃表示。
黃繼續(xù)說:“我們AI的這一突破以Azure為平臺,以服務(wù)于更多客戶?!?“這不僅是研究上的突破;在Azure上將突破轉(zhuǎn)化為生產(chǎn)所需的時間也是突破?!?/p>
改進的自動字幕功能也有望在今年晚些時候在Outlook,Word和PowerPoint中使用。
責(zé)任編輯:YYX
-
微軟
+關(guān)注
關(guān)注
4文章
6590瀏覽量
104024 -
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268886
發(fā)布評論請先 登錄
相關(guān)推薦
評論