ICLR(International Conference on Learning Representations)對(duì)于深度學(xué)習(xí)領(lǐng)域的研究人員而言意義非凡。該會(huì)議于4月30日 - 5月3日在溫哥華舉行,全球頂尖AI研究實(shí)驗(yàn)室的專家齊聚一堂,分享了他們的最新研究。NVIDIA的三大NVAIL(NVIDIA AI實(shí)驗(yàn)室)合作伙伴——瑞士AI實(shí)驗(yàn)室 (IDSIA)、紐約大學(xué)和東京大學(xué),也和其他實(shí)驗(yàn)室一起分享了他們的研究成果。
IDSIA研究人員的目標(biāo)是讓機(jī)器人能像人類一樣自然而然地理解物質(zhì)世界;東京大學(xué)的團(tuán)隊(duì)介紹了其改進(jìn)聲音識(shí)別的創(chuàng)新方法;來自紐約大學(xué)和巴斯克大學(xué)的研究團(tuán)隊(duì)介紹了他們?nèi)绾胃倪M(jìn)機(jī)器翻譯語言的能力。
在研究人員和工程師的協(xié)助下,NVAIL項(xiàng)目將助力AI先驅(qū)始終引領(lǐng)潮流,并為學(xué)生提供支持,獲得先進(jìn)的GPU計(jì)算能力。
萬物有起終有落
人類生來就能理解物質(zhì)世界:我們能夠在從未去過的房間中自如行走;如果鞋子掉了,我們知道會(huì)掉在地板上;我們也非常清楚我們不能穿越墻壁。即使是嬰兒也具備一些基本的物理概念。
但機(jī)器卻不能如此輕易地獲得這種能力。“如今,訓(xùn)練深度學(xué)習(xí)模型來理解‘萬物有起終有落’這樣的問題需要大量的數(shù)據(jù)和手動(dòng)標(biāo)記,”IDSIA博士生Sjoerd van Steenkiste說道。他和來自IDSIA以及加州大學(xué)伯克利分校的研究團(tuán)隊(duì)協(xié)作,正在試圖去除海量數(shù)據(jù)和認(rèn)為參與這兩項(xiàng)要求,以求簡化這一流程。
在一篇ICLR論文(Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions,研究人員描述了他們?nèi)绾卧诓煌度肴肆Φ那疤嵯掠?xùn)練神經(jīng)網(wǎng)絡(luò),這一方式被稱為“無監(jiān)督式學(xué)習(xí)”。利用NVIDIA的DGX-1 AI超級(jí)計(jì)算機(jī),他們訓(xùn)練深度學(xué)習(xí)模型在場景中辨別單個(gè)對(duì)象并預(yù)測動(dòng)作的結(jié)果。
最終,該研究能使得訓(xùn)練機(jī)器人及其他機(jī)器與其環(huán)境進(jìn)行交互變得更簡單,van Steenkiste指出。
混音
某些東西混合在一起就會(huì)變得更好:花生醬和巧克力的搭配堪稱完美;金屬結(jié)合后更結(jié)實(shí)、更堅(jiān)固;將兩種農(nóng)作物種在一起產(chǎn)量會(huì)更高。
Yuji Tokozume將同樣的概念應(yīng)用到了深度學(xué)習(xí)之中。這位博士生和另外兩名東京大學(xué)的研究人員正致力于通過使用他們稱之為“between-class”的聲音(即兩種混合在一起的聲音)來訓(xùn)練深度學(xué)習(xí)模型,從而提高聲音識(shí)別能力。該模型在NVIDIA的Tesla P100 GPU加速器上接受訓(xùn)練,以辨別兩種聲音并確定一種聲音與另一種聲音的比率。
在他們的ICLR論文(Learning from Between-class Examples for Deep Sound Recognition,中,其報(bào)告稱,“between-class”學(xué)習(xí)不僅提供了比現(xiàn)有技術(shù)更高的準(zhǔn)確性,而且在被稱為ESC-50的標(biāo)準(zhǔn)數(shù)據(jù)集中超越了人類在環(huán)境記錄上的表現(xiàn)。該團(tuán)隊(duì)運(yùn)用了同樣的方法來提高AI圖像識(shí)別性能。
觀看最近在硅谷舉行的GPU技術(shù)大會(huì)上有關(guān)聲音識(shí)別的“between-class”學(xué)習(xí)方面的討論,了解更多信息。
翻譯能力的缺失
雖然AI在自動(dòng)語言翻譯方面取得了一定成就,但對(duì)于巴斯克語、奧羅莫語和蓋丘亞語等不常見的語言卻作用不大。這是因?yàn)橛?xùn)練深度學(xué)習(xí)模型通常需要大型的數(shù)據(jù)集,這在語言領(lǐng)域中意味著需要大量已被手動(dòng)翻譯為其他語言的文字。
對(duì)于漢語、英語和西班牙語等廣泛使用的語言,可以找到豐富的數(shù)據(jù),因此可以直接將漢語翻譯成英語,或?qū)⑽靼嘌勒Z翻譯成漢語。紐約大學(xué)和巴斯克大學(xué)的研究人員旨在將這一能力賦予使用者較少的語言。
巴斯克大學(xué)博士生Mikel Artetxe指出,目前像巴斯克語這樣的語言(大約有70萬人講這種語言,他們主要位于跨西班牙和法國的地區(qū))必須首先被翻譯成英語或其他主要語言,然后才能轉(zhuǎn)化為其他語言。
奧羅莫語這樣的語言也是如此,非洲之角有超過三千萬人使用奧羅莫語,而南美洲有多達(dá)一千一百萬人使用蓋丘亞語。
研究團(tuán)隊(duì)利用NVIDIA GPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)來執(zhí)行這些翻譯,并且無需任何手動(dòng)翻譯的訓(xùn)練數(shù)據(jù),而是依賴于兩種語言的獨(dú)立文本。在他們的ICLR論文(Unsupervised Neural Machine Translation,研究人員表示,當(dāng)他們添加少量并行數(shù)據(jù)時(shí),準(zhǔn)確度有所提高,但仍遠(yuǎn)低于人工翻譯的準(zhǔn)確性。
“我們的目標(biāo)是能夠翻譯更多的語言并取得更好的結(jié)果”,Artexe說道。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4978瀏覽量
102985 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121111
原文標(biāo)題:機(jī)器自主學(xué)習(xí)、混音識(shí)別、自動(dòng)語言翻譯:NVAIL合作伙伴開創(chuàng)性深度學(xué)習(xí)研究亮相ICLR
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論