RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Facebook研究者擴(kuò)展并增強(qiáng)LASER工具包,并在近期開源這個(gè)項(xiàng)目

電子工程師 ? 來源:lq ? 2019-01-28 09:40 ? 次閱讀

為了加速自然語言處理 (NLP) 在更多語言上實(shí)現(xiàn)零樣本遷移學(xué)習(xí) (zero-shot transfer learning),F(xiàn)acebook 研究者擴(kuò)展并增強(qiáng)了 LASER (Language-Agnostic Sentence Representations) 工具包,并在近期開源了這個(gè)項(xiàng)目。

增強(qiáng)版的 LASER 是首個(gè)能夠成功探索大型多語種句子表征的工具包,共包含 90 多種語言,由 28 種不同的字母表編寫。這項(xiàng)龐大的工作也引發(fā)了整個(gè) NLP 社區(qū)的廣泛關(guān)注。該工具包將所有語言聯(lián)合嵌入到單個(gè)共享空間,而不是為每個(gè)語言單獨(dú)建立模型。目前,F(xiàn)acebook 官方免費(fèi)提供多語言編碼器和 PyTorch 代碼(鏈接:https://github.com/facebookresearch/LASER),以及 100 多種語言的多語言測試集方便社區(qū)使用。

研究者表示,通過零樣本遷移學(xué)習(xí),LASER 能夠?qū)?NLP 模型從一種語言 (如英語) 遷移到其他語言 (包括訓(xùn)練集中的有限語種)。此外,LASER 工具也是第一個(gè)使用單一模型來處理不同語種的自然語言處理庫,包括處理那些稀有語種如卡拜爾語、維吾爾語以及中國的吳語等方言。研究者相信,有朝一日這項(xiàng)工作能夠幫助 Facebook 及其他公司上線特定的 NLP 功能,如用一種語言將電影評(píng)論分類為正面或負(fù)面,然后再部署到其他 100 多種語言上去。

下面讓我們一睹 LASER 工具包的風(fēng)采。

性能和功能亮點(diǎn)

在包含 14 種語種的 XNLI 語料庫中,LASER 工具通過零樣本遷移學(xué)習(xí),為其中 13 種語言實(shí)現(xiàn)跨語種的自然語言處理,并獲得當(dāng)前最佳的推斷準(zhǔn)確率。此外,它還在跨語言文檔分類 (MLDoc 語料庫) 中取得了極有競爭力的結(jié)果。在句子嵌入方面,該工具包在并行語料庫挖掘任務(wù)中也展現(xiàn)了強(qiáng)大的功能,并在 BUCC 共享任務(wù)中為其四種語言對(duì)中的三種建立了當(dāng)前最佳的基準(zhǔn)。值得一提的是,BUCC 是 2018 年建立和使用可比較語料庫的研討會(huì),代表了當(dāng)前該領(lǐng)域的最新進(jìn)展。

除了 LASER 工具包,研究者還基于 Tatoeba 語料庫共享一組 100 多種全新語言對(duì)齊語句的測試集。通過該數(shù)據(jù)集,在多語言相似性搜索任務(wù)上,句子嵌入功能取得了非常優(yōu)秀的結(jié)果,即便是對(duì)那些稀有語種也是如此。

此外,LASER 工具包還具有如下一些優(yōu)點(diǎn):

極快的性能和極高的處理效率:在 GPU 上每秒處理多達(dá) 2000 個(gè)句子。

通過 PyTorch 中實(shí)現(xiàn)句子編碼器具有最小的外部依賴性。

稀有語種可以從多種語言的聯(lián)合訓(xùn)練中收益。

該模型支持在一個(gè)句子中使用多種語言。

隨著新語言的添加,模型性能也會(huì)有所提高,因?yàn)橄到y(tǒng)能夠自動(dòng)學(xué)習(xí)并識(shí)別語言族的特征。

通用的語言無關(guān)性句子嵌入

LASER 中的句子向量表征對(duì)于輸入語言和 NLP 任務(wù)都是通用的。該工具將任何語種的句子映射到高維空間中的一個(gè)點(diǎn),目的是將各語種的語句最終聚合在同一鄰域附近,而這種句子表征可被視為是語義向量空間中的通用語言。如下圖所示,可以看到該空間中的距離與句子語義的接近度是非常相關(guān)的。

左圖展示的是單個(gè)語言的嵌入空間,而右圖顯示的是采用 LASER 工具包方法,它能將所有語言嵌入到同一共享空間中。

LASER 的這種方法是基于神經(jīng)機(jī)器翻譯的基礎(chǔ)技術(shù):即編碼器/*** (encoder/decoder),也稱為序列到序列處理 (sequence-to-sequence)。它為所有的輸入語言設(shè)計(jì)一個(gè)共享編碼器,并使用共享解碼器生成輸出語言。編碼器由五層雙向連接的 LSTM 網(wǎng)絡(luò) (長短期記憶) 組成。

與神經(jīng)機(jī)器翻譯的方法不同的是,LASER 中不引入注意力機(jī)制,而是使用 1024 維、固定大小的向量來表示輸入句子。該向量是通過對(duì) BiLSTM 最后狀態(tài)進(jìn)行最大池化操作后得到的,這使我們能夠比較句子表征的差異,并將它們直接輸入到分類器中。

圖中描述了 LASER 的基本架構(gòu)

這些句子嵌入是通過線性變換的方式初始化解碼器 LSTM,并且還在每個(gè)時(shí)間步驟與其輸入嵌入相連接。為了通過句子嵌入來捕捉輸入序列的所有相關(guān)信息,在架構(gòu)中編碼器和解碼器之間沒有設(shè)置其他連接。

對(duì)于解碼器部分,由于它需要一個(gè)語言標(biāo)識(shí)嵌入,因此需要清楚地知道需要生成哪種語言,并在每個(gè)時(shí)間步驟連接輸入及其句子嵌入。研究者使用具有 50000 個(gè)操作的聯(lián)合字節(jié)對(duì)編碼詞匯表 (BPE),并在所有訓(xùn)練語料庫的連接上進(jìn)行訓(xùn)練。由于編碼器沒有顯式地指示輸入語言信號(hào),因此該方法鼓勵(lì)它學(xué)習(xí)與語言無關(guān)的表征。

不僅如此,研究者還使用英語或西班牙語對(duì)公共并行數(shù)據(jù)中 2.23 億條句子進(jìn)行了系統(tǒng)的訓(xùn)練。對(duì)于每個(gè)小批量,隨機(jī)選擇一種輸入語言并訓(xùn)練模型,使其將句子翻譯成英語或西班牙語中的一種,而不需要讓大多數(shù)語言都與目標(biāo)語言保持一致。

這項(xiàng)工作的開始只是訓(xùn)練不到 10 種的歐洲語言,所有語言都使用相同的拉丁文字;隨后逐漸增加到 21 種語言,這些都是在 Europarl 語料庫中出現(xiàn)的。

實(shí)驗(yàn)結(jié)果表明,隨著所添加的語言數(shù)量的增多,多語言間的遷移性能也得到了提高,而該系統(tǒng)也能夠?qū)W習(xí)到語言族的通用特征。正因?yàn)槿绱耍糠窒∮姓Z言也能夠受益于同一語言族的一些高頻語言的資源。

通過使用在連接所有語言的數(shù)據(jù)庫上訓(xùn)練共享的 BPE 詞匯表,這是完全有可能做到的。對(duì)每種語言的 BPE 詞匯表分布之間對(duì)稱的 Kullback-Leiber 距離進(jìn)行分析和聚類結(jié)果表明,其與語言家族之間存在幾乎完美的相關(guān)性。

圖中顯示了 LASER 能夠自動(dòng)挖掘各種語言之間的關(guān)系,這與語言學(xué)家手動(dòng)定義的語言類別是高度吻合的。

研究者意識(shí)到,單個(gè)共享的 BiLSTM 編碼器能夠處理多個(gè)腳本。他們逐漸擴(kuò)展到那些可用的并行文本中的所有語言,并將 93 種語言并入到 LASER 工具包中,這些語言包括 subject-verb-object (SVO) order (如英語),SOV order (如孟加拉語和突厥語),VSO order (如塔加路語和柏柏爾語),以及 VOS order (如馬達(dá)加斯加語)。

該編碼器能夠推廣到一些未使用的語言,甚至是單語言文本。在訓(xùn)練階段,可以觀察到它在一些地區(qū)語言中展現(xiàn)了突出的能力,包括阿斯圖里亞斯語、法羅語、弗里斯蘭語、卡舒比語、北摩鹿加語馬來語、皮埃蒙特語、斯瓦比亞語和索布語等。這些語言與那些主要語言在不同程度上都有一定的相似之處,但不同語言有其特定的語法或特定詞匯。

上表展示了 LASER 在 XNLI 語料庫上進(jìn)行零樣本遷移學(xué)習(xí)的性能表現(xiàn)。其中,BERT 模型的結(jié)果是從其他 github 項(xiàng)目中提取的。值得注意的是,這些結(jié)果都是通過 Pytorch1.0 實(shí)現(xiàn)的,因此在具體數(shù)值方面可能與原論文中的有所不同,論文中使用的是 Pytorch0.4。

零樣本、跨語言的自然語言推理

該模型在跨語言的自然語言推理任務(wù)上 (NLI) 取得了優(yōu)異的成績,表明模型具有極強(qiáng)的句意表征能力。研究者采用零樣本遷移學(xué)習(xí)的方法,即先在英語上訓(xùn)練 NLI 分類器,在沒有任何模型微調(diào)或其他目標(biāo)語言數(shù)據(jù)的情況下,將訓(xùn)練好的分類器應(yīng)用于其他目標(biāo)語言。對(duì)于 14 種語言的 8 種,零樣本學(xué)習(xí)在諸如英語、俄語、中文和越南語等語言上能夠取得 5%以內(nèi)的表現(xiàn)。

此外,研究者還在斯瓦希里語和烏爾都語等稀有語言上進(jìn)行試驗(yàn),同樣取得了很好的結(jié)果。最后,LASER 方法在 14 種語言中有 13 種語言都取得了優(yōu)于其他零樣本遷移學(xué)習(xí)方法的表現(xiàn)。

相較于先前研究中至少需要一個(gè)英語句子進(jìn)行學(xué)習(xí)的方法,LASER 是一種完全跨語種、并支持不同語言間任何組合的自然語言處理方法。

上圖展示了 LASER 是如何確定 XNLI 數(shù)據(jù)集中不同語言句子間的關(guān)系,而先前研究中的方法都只能考慮同一種語言的前提和假設(shè)。

此外,LASER 也可用于挖掘大型單語言文本數(shù)據(jù)集中的并行數(shù)據(jù)信息。研究表明,只需要計(jì)算所有句子對(duì)之間的距離并選擇最接近的句子對(duì),就能夠提取文本數(shù)據(jù)中的數(shù)據(jù)信息。更進(jìn)一步地說,通過考慮相近句子及其最近鄰居之間的邊界能夠改進(jìn)該方法的表現(xiàn),而通過使用 Facebook 的 FAISS 庫就能夠高效完成這一改進(jìn)。

在共享 BUCC 任務(wù)上,LASER 的表現(xiàn)都遠(yuǎn)遠(yuǎn)超過當(dāng)前最佳的技術(shù)水平。具體來說,該模型將德語/英語的 F1 得分從 85.5 提高到 96.2,將法語/英語的 F1 得分從 81.5 提高到 93.9,俄語/英語的 F1 得分從 81.3 提高到 93.3,中/英語的表現(xiàn)從 77.5 提高到 92.3。正如這些示例所反映的,該模型在各種語言任務(wù)上所取得結(jié)果都是高度同質(zhì)的。

更多詳細(xì)的內(nèi)容介紹可以查看相關(guān)的論文:《Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond》(論文鏈接:https://arxiv.org/abs/1812.10464)。

最后,研究者表明,對(duì)于任意語言對(duì),都可以通過相同的方法來挖掘 90 多種語言的并行數(shù)據(jù)。在未來,這將顯著改善許多依賴于并行數(shù)據(jù)訓(xùn)練的 NLP 應(yīng)用程序,包括那些稀有語言的神經(jīng)機(jī)器翻譯應(yīng)用。

未來的應(yīng)用

LASER 可以應(yīng)用于廣泛的自然語言處理任務(wù)。例如,多語言語義空間的屬性可用于解析句意或搜索具有相似含義的句子,可以通過使用相同語言或通過 LASER 所支持的其他 93 個(gè)語句中的任何一個(gè)就能實(shí)現(xiàn)。未來,研究人員表示將繼續(xù)添加其他的語言支持。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • Facebook
    +關(guān)注

    關(guān)注

    3

    文章

    1429

    瀏覽量

    54719
  • Laser
    +關(guān)注

    關(guān)注

    0

    文章

    22

    瀏覽量

    9288
  • 遷移學(xué)習(xí)
    +關(guān)注

    關(guān)注

    0

    文章

    74

    瀏覽量

    5559

原文標(biāo)題:Facebook增強(qiáng)版LASER開源:零樣本遷移學(xué)習(xí),支持93種語言

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Facebook開源增強(qiáng)版的NLP工具包LASER

    LASER的句子向量表示對(duì)于輸入語言和NLP任務(wù)都是通用的。該工具將任何語言中的一個(gè)句子映射到高維空間中的一個(gè)點(diǎn),目標(biāo)是使任何語言中的相同語句最終位于同一個(gè)域。該表示可以看作是語義向量空間中的一種通用語言。我們已經(jīng)觀察到,空間中的距離與句子的語義緊密程度密切相關(guān)。
    的頭像 發(fā)表于 01-25 08:53 ?4599次閱讀
    <b class='flag-5'>Facebook</b><b class='flag-5'>開源</b>了<b class='flag-5'>增強(qiáng)</b>版的NLP<b class='flag-5'>工具包</b><b class='flag-5'>LASER</b>

    Facebook推出ReAgent AI強(qiáng)化學(xué)習(xí)工具包

    Facebook近日推出ReAgent強(qiáng)化學(xué)習(xí)(reinforcement learning)工具包,首次通過收集離線反饋(offline feedback)來實(shí)現(xiàn)策略評(píng)估(policy evaluation)。
    發(fā)表于 10-19 09:38 ?1577次閱讀

    fastrbf工具包

    求matlab中fastrbf的工具包 ,有誰有這個(gè)工具包呢?求分享?急需
    發(fā)表于 03-05 20:05

    java開源工具包-Jodd框架

    Jodd是一個(gè)Java工具包和微型框架,Jodd 工具包含一些實(shí)用的工具類和小型框架,增強(qiáng)了 JDK 提供很多強(qiáng)大的功能,可以幫助實(shí)現(xiàn)日常的開發(fā)任務(wù),讓代碼更可靠;而Jodd 框架是一
    發(fā)表于 03-19 16:13

    CapSense用這個(gè)工具包來處理使用I2C和UART的工具箱?

    調(diào)諧器或橋控制面板上顯示任何數(shù)據(jù)。有沒有一些例子CapSense用這個(gè)工具包來處理使用I2C和UART的工具箱?即使是一個(gè)簡單的項(xiàng)目,增加一個(gè)中間人,
    發(fā)表于 08-26 10:27

    固件工具包

    固件工具包 修改工具包 高興向大家公布這個(gè)信息! 首先介紹一下這個(gè)工具地用途: 1、修改固件 - 通過此
    發(fā)表于 03-16 14:49 ?71次下載

    AUTOSCOPE開發(fā)工具包

    AUTOSCOPE軟件開發(fā)工具包(SDK)提供了一些必要工具;包括AUTOSCOPE視頻檢測系統(tǒng)和現(xiàn)有交通管理應(yīng)用程序的必要集成工具;開發(fā)新自定義軟件應(yīng)用程序的必要
    發(fā)表于 04-11 21:11 ?37次下載

    微軟在GitHub開源深度學(xué)習(xí)工具包

     為了加速人工智能和語音識(shí)別項(xiàng)目的發(fā)展,微軟研究人員特地開發(fā)出了一款用于深度神經(jīng)網(wǎng)絡(luò)和多GPU加速處理技術(shù)的工具包
    發(fā)表于 01-27 11:54 ?2331次閱讀

    開發(fā)工具包加速亞千兆赫項(xiàng)目

    德克薩斯儀器CC1110迷你開發(fā)工具包是一種價(jià)格低廉、功能齊全的開發(fā)工具包,提供了一個(gè)低功耗的sub-GHz開始快速(868至915兆赫)的無線項(xiàng)目。
    發(fā)表于 07-03 08:57 ?10次下載

    示例項(xiàng)目單擊此處查看使用開發(fā)工具包項(xiàng)目示例

    示例項(xiàng)目單擊此處查看使用開發(fā)工具包項(xiàng)目示例
    發(fā)表于 06-06 08:19 ?6次下載
    示例<b class='flag-5'>項(xiàng)目</b>單擊此處查看使用開發(fā)<b class='flag-5'>工具包</b>的<b class='flag-5'>項(xiàng)目</b>示例

    NVIDIA發(fā)布65個(gè)全新及更新的軟件開發(fā)工具包

    NVIDIA 發(fā)布了 65 個(gè)全新及更新的軟件開發(fā)工具包,包括庫、代碼樣本和指南,為正在推動(dòng)廣泛計(jì)算挑戰(zhàn)前沿的數(shù)據(jù)科學(xué)家、研究者、學(xué)生和開發(fā)帶來更好的特性和功能。 NVIDIA 創(chuàng)始人兼首席執(zhí)行官
    的頭像 發(fā)表于 11-15 16:28 ?2310次閱讀

    農(nóng)村黑客工具包開源分享

    電子發(fā)燒友網(wǎng)站提供《農(nóng)村黑客工具包開源分享.zip》資料免費(fèi)下載
    發(fā)表于 12-14 09:26 ?0次下載
    農(nóng)村黑客<b class='flag-5'>工具包</b><b class='flag-5'>開源</b>分享

    Intel智能邊緣開放開發(fā)經(jīng)驗(yàn)工具包

    Intel智能邊緣開放開發(fā)經(jīng)驗(yàn)工具包
    的頭像 發(fā)表于 10-27 16:21 ?413次閱讀
    Intel智能邊緣開放開發(fā)<b class='flag-5'>者</b>經(jīng)驗(yàn)<b class='flag-5'>工具包</b>

    OneInstall工具包

    電子發(fā)燒友網(wǎng)站提供《OneInstall工具包.exe》資料免費(fèi)下載
    發(fā)表于 08-18 14:54 ?0次下載
    OneInstall<b class='flag-5'>工具包</b>

    NPOI WEG報(bào)表工具包簡介

    很久以前就知道有NPOI這個(gè)報(bào)表工具包,因?yàn)橛蠳I自帶的工具包就沒有詳細(xì)研究過。當(dāng)前工作中幾臺(tái)電腦因?yàn)榘惭bOFFICE版本問題,或其它原因?qū)е伦詭?bào)表無法使用,就找來了一個(gè)群友共享的的
    的頭像 發(fā)表于 11-06 10:05 ?1034次閱讀
    NPOI WEG報(bào)表<b class='flag-5'>工具包</b>簡介
    RM新时代网站-首页