RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌開源了一個(gè)強(qiáng)大的NLP深度學(xué)習(xí)框架Lingvo

DPVg_AI_era ? 來源:lq ? 2019-02-27 09:28 ? 次閱讀

谷歌近日開源了一個(gè)強(qiáng)大的NLP深度學(xué)習(xí)框架Lingvo,側(cè)重于語言相關(guān)任務(wù)的序列模型,如機(jī)器翻譯、語音識(shí)別和語音合成。過去兩年來,谷歌已經(jīng)發(fā)表了幾十篇使用Lingvo獲得SOTA結(jié)果的論文。

近日,谷歌開源了一個(gè)內(nèi)部 NLP 的秘密武器 ——Lingvo。

這是一個(gè)強(qiáng)大的 NLP 框架,已經(jīng)在谷歌數(shù)十篇論文的許多任務(wù)中實(shí)現(xiàn) SOTA 性能!

Lingvo 在世界語中意為 “語言”。這個(gè)命名暗指了 Lingvo 框架的根源 ——它是使用 TensorFlow 開發(fā)的一個(gè)通用深度學(xué)習(xí)框架,側(cè)重于語言相關(guān)任務(wù)的序列模型,如機(jī)器翻譯、語音識(shí)別和語音合成。

Lingvo 框架在谷歌內(nèi)部已經(jīng)獲得青睞,使用它的研究人員數(shù)量激增。過去兩年來,谷歌已經(jīng)發(fā)表了幾十篇使用 Lingvo 獲得 SOTA 結(jié)果的論文,未來還會(huì)有更多。

包括 2016 年機(jī)器翻譯領(lǐng)域里程碑式的《谷歌神經(jīng)機(jī)器翻譯系統(tǒng)》論文 (Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation),也是使用 Lingvo。該研究開啟了機(jī)器翻譯的新篇章,宣告機(jī)器翻譯正式從 IBM 的統(tǒng)計(jì)機(jī)器翻譯模型 (PBMT,基于短語的機(jī)器翻譯),過渡到了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型。該系統(tǒng)使得機(jī)器翻譯誤差降低了 55%-85% 以上,極大地接近了普通人的翻譯水平。

除了機(jī)器翻譯之外,Lingvo 框架也被用于語音識(shí)別、語言理解、語音合成、語音 - 文本轉(zhuǎn)寫等任務(wù)。

谷歌列舉了 26 篇使用 Lingvo 框架的 NLP 論文,發(fā)表于 ACL、EMNLP、ICASSP 等領(lǐng)域頂會(huì),取得多個(gè) SOTA 結(jié)果。全部論文見文末列表。

Lingvo 支持的架構(gòu)包括傳統(tǒng)的RNN 序列模型、Transformer 模型以及包含 VAE 組件的模型,等等。

谷歌表示:“為了表明我們對(duì)研究界的支持并鼓勵(lì)可重復(fù)的研究工作,我們公開了該框架的源代碼,并開始發(fā)布我們論文中使用的模型。”

此外,谷歌還發(fā)布了一篇概述 Lingvo 設(shè)計(jì)的論文,并介紹了框架的各個(gè)部分,同時(shí)提供了展示框架功能的高級(jí)特性的示例。

相關(guān)論文:

https://arxiv.org/pdf/1902.08295.pdf

強(qiáng)悍的貢獻(xiàn)者列表 ——91 位作者!

摘要

Lingvo 是一個(gè) Tensorflow 框架,為協(xié)作式深度學(xué)習(xí)研究提供了一個(gè)完整的解決方案,特別側(cè)重于sequence-to-sequence模型。Lingvo 模型由靈活且易于擴(kuò)展的模塊化構(gòu)建塊組成,實(shí)驗(yàn)配置集中且高度可定制。該框架直接支持分布式訓(xùn)練和量化推理,包含大量實(shí)用工具、輔助函數(shù)和最新研究思想的現(xiàn)有實(shí)現(xiàn)。論文概述了 Lingvo 的基礎(chǔ)設(shè)計(jì),并介紹了框架的各個(gè)部分,同時(shí)提供了展示框架功能的高級(jí)特性的示例。

為協(xié)作研究設(shè)計(jì)、靈活、快速

Lingvo 框架概覽:概述了如何實(shí)例化、訓(xùn)練和導(dǎo)出模型以進(jìn)行評(píng)估和服務(wù)。

Lingvo 是在考慮協(xié)作研究的基礎(chǔ)下構(gòu)建的,它通過在不同任務(wù)之間共享公共層的實(shí)現(xiàn)來促進(jìn)代碼重用。此外,所有層都實(shí)現(xiàn)相同的公共接口,并以相同的方式布局。這不僅可以生成更清晰、更易于理解的代碼,還可以非常簡(jiǎn)單地將其他人為其他任務(wù)所做的改進(jìn)應(yīng)用到自己的任務(wù)中。強(qiáng)制實(shí)現(xiàn)這種一致性的代價(jià)是需要更多的規(guī)則和樣板,但是 Lingvo 試圖將其最小化,以確保研究期間的快速迭代時(shí)間。

協(xié)作的另一個(gè)方面是共享可重現(xiàn)的結(jié)果。Lingvo 為檢入模型超參數(shù)配置提供了一個(gè)集中的位置。這不僅可以記錄重要的實(shí)驗(yàn),還可以通過訓(xùn)練相同的模型,為其他人提供一種簡(jiǎn)單的方法來重現(xiàn)你的結(jié)果。

Lingvo 中的任務(wù)配置示例。每個(gè)實(shí)驗(yàn)的超參數(shù)都在它自己的類中配置,與構(gòu)建網(wǎng)絡(luò)的代碼分開,并檢入版本控制。

雖然 Lingvo 最初的重點(diǎn)是 NLP,但它本質(zhì)上非常靈活,并且研究人員已經(jīng)使用該框架成功地實(shí)現(xiàn)了圖像分割和點(diǎn)云分類等任務(wù)的模型。它還支持 Distillation、GANs 和多任務(wù)模型。

同時(shí),該框架不犧牲速度,并且具有優(yōu)化的輸入 pipeline 和快速分布式訓(xùn)練。

最后,Lingvo 的目的是實(shí)現(xiàn)簡(jiǎn)單生產(chǎn),甚至有一條明確定義的為移動(dòng)推理移植模型的路徑。

使用Lingvo的已發(fā)表論文列表

Translation:

The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation.Mia X. Chen, Orhan Firat, Ankur Bapna, Melvin Johnson, Wolfgang Macherey, George Foster, Llion Jones, Mike Schuster, Noam Shazeer, Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Lukasz Kaiser, Zhifeng Chen, Yonghui Wu, and Macduff Hughes. ACL 2018.

Revisiting Character-Based Neural Machine Translation with Capacity and Compression.Colin Cherry, George Foster, Ankur Bapna, Orhan Firat, and Wolfgang Macherey. EMNLP 2018.

Training Deeper Neural Machine Translation Models with Transparent Attention.Ankur Bapna, Mia X. Chen, Orhan Firat, Yuan Cao and Yonghui Wu. EMNLP 2018.

Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation.Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, ?ukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, and Jeffrey Dean. Technical Report, 2016.

Speech Recognition:

A comparison of techniques for language model integration in encoder-decoder speech recognition.Shubham Toshniwal, Anjuli Kannan, Chung-Cheng Chiu, Yonghui Wu, Tara N. Sainath, Karen Livescu. IEEE SLT 2018.

Deep Context: End-to-End Contextual Speech Recognition.Golan Pundak, Tara N. Sainath, Rohit Prabhavalkar, Anjuli Kannan, Ding Zhao. IEEE SLT 2018.

Speech recognition for medical conversations.Chung-Cheng Chiu, Anshuman Tripathi, Katherine Chou, Chris Co, Navdeep Jaitly, Diana Jaunzeikare, Anjuli Kannan, Patrick Nguyen, Hasim Sak, Ananth Sankar, Justin Tansuwan, Nathan Wan, Yonghui Wu, and Xuedong Zhang. Interspeech 2018.

Compression of End-to-End Models.Ruoming Pang, Tara Sainath, Rohit Prabhavalkar, Suyog Gupta, Yonghui Wu, Shuyuan Zhang, and Chung-Cheng Chiu. Interspeech 2018.

Contextual Speech Recognition in End-to-End Neural Network Systems using Beam Search.Ian Williams, Anjuli Kannan, Petar Aleksic, David Rybach, and Tara N. Sainath. Interspeech 2018.

State-of-the-art Speech Recognition With Sequence-to-Sequence Models.Chung-Cheng Chiu, Tara N. Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J. Weiss, Kanishka Rao, Ekaterina Gonina, Navdeep Jaitly, Bo Li, Jan Chorowski, and Michiel Bacchiani. ICASSP 2018.

End-to-End Multilingual Speech Recognition using Encoder-Decoder Models.Shubham Toshniwal, Tara N. Sainath, Ron J. Weiss, Bo Li, Pedro Moreno, Eugene Weinstein, and Kanishka Rao. ICASSP 2018.

Multi-Dialect Speech Recognition With a Single Sequence-to-Sequence Model.Bo Li, Tara N. Sainath, Khe Chai Sim, Michiel Bacchiani, Eugene Weinstein, Patrick Nguyen, Zhifeng Chen, Yonghui Wu, and Kanishka Rao. ICASSP 2018.

Improving the Performance of Online Neural Transducer Models.Tara N. Sainath, Chung-Cheng Chiu, Rohit Prabhavalkar, Anjuli Kannan, Yonghui Wu, Patrick Nguyen, and Zhifeng Chen. ICASSP 2018.

Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models.Rohit Prabhavalkar, Tara N. Sainath, Yonghui Wu, Patrick Nguyen, Zhifeng Chen, Chung-Cheng Chiu, and Anjuli Kannan. ICASSP 2018.

No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica inEnd-to-End Models.Tara N. Sainath, Rohit Prabhavalkar, Shankar Kumar, Seungji Lee, Anjuli Kannan, David Rybach, Vlad Schogol, Patrick Nguyen, Bo Li, Yonghui Wu, Zhifeng Chen, and Chung-Cheng Chiu. ICASSP 2018.

Learning hard alignments with variational inference.Dieterich Lawson, Chung-Cheng Chiu, George Tucker, Colin Raffel, Kevin Swersky, and Navdeep Jaitly. ICASSP 2018.

Monotonic Chunkwise Attention.Chung-Cheng Chiu, and Colin Raffel. ICLR 2018.

An Analysis of Incorporating an External Language Model into a Sequence-to-Sequence Model.Anjuli Kannan, Yonghui Wu, Patrick Nguyen, Tara N. Sainath, Zhifeng Chen, and Rohit Prabhavalkar. ICASSP 2018.

Language understanding

Semi-Supervised Learning for Information Extraction from Dialogue.Anjuli Kannan, Kai Chen, Diana Jaunzeikare, and Alvin Rajkomar. Interspeech 2018.

CaLcs: Continuously Approximating Longest Common Subsequence for Sequence Level Optimization.Semih Yavuz, Chung-Cheng Chiu, Patrick Nguyen, and Yonghui Wu. EMNLP 2018.

Speech synthesis

Hierarchical Generative Modeling for Controllable Speech Synthesis.Wei-Ning Hsu, Yu Zhang, Ron J. Weiss, Heiga Zen, Yonghui Wu, Yuxuan Wang, Yuan Cao, Ye Jia, Zhifeng Chen, Jonathan Shen, Patrick Nguyen, Ruoming Pang. Submitted to ICLR 2019.

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis.Ye Jia, Yu Zhang, Ron J. Weiss, Quan Wang, Jonathan Shen, Fei Ren, Zhifeng Chen, Patrick Nguyen, Ruoming Pang, Ignacio Lopez Moreno, Yonghui Wu. NIPS 2018.

Natural TTS Synthesis By Conditioning WaveNet On Mel Spectrogram Predictions.Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu. ICASSP 2018.

On Using Backpropagation for Speech Texture Generation and Voice Conversion.Jan Chorowski, Ron J. Weiss, Rif A. Saurous, Samy Bengio. ICASSP 2018.

Speech-to-text translation

Leveraging weakly supervised data to improve end-to-end speech-to-text translation.Ye Jia, Melvin Johnson, Wolfgang Macherey, Ron J. Weiss, Yuan Cao, Chung-Cheng Chiu, Naveen Ari, Stella Laurenzo, Yonghui Wu. Submitted to ICASSP 2019.

Sequence-to-Sequence Models Can Directly Translate Foreign Speech.Ron J. Weiss, Jan Chorowski, Navdeep Jaitly, Yonghui Wu, and Zhifeng Chen. Interspeech 2017.

https://github.com/tensorflow/lingvo/blob/master/PUBLICATIONS.md

開源地址:

https://github.com/tensorflow/lingvo

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6161

    瀏覽量

    105299
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5500

    瀏覽量

    121111
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    488

    瀏覽量

    22033

原文標(biāo)題:谷歌重磅開源NLP通用框架,20多篇最新論文都用了它

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)工具與框架

    卷積神經(jīng)網(wǎng)絡(luò)因其在圖像和視頻處理任務(wù)中的卓越性能而廣受歡迎。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,多種實(shí)現(xiàn)工具和框架應(yīng)運(yùn)而生,為研究人員和開發(fā)者提供強(qiáng)大
    的頭像 發(fā)表于 11-15 15:20 ?256次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    能力,可以顯著提高圖像識(shí)別模型的訓(xùn)練速度和準(zhǔn)確性。例如,在人臉識(shí)別、自動(dòng)駕駛等領(lǐng)域,GPU被廣泛應(yīng)用于加速深度學(xué)習(xí)模型的訓(xùn)練和推理過程。 二、自然語言處理 自然語言處理(NLP)是深度
    的頭像 發(fā)表于 10-27 11:13 ?381次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    :DE5Net_Conv_Accelerator 應(yīng)用場(chǎng)景 :面向深度學(xué)習(xí)開源項(xiàng)目,實(shí)現(xiàn)AlexNet的第層卷積運(yùn)算加速。 技術(shù)特點(diǎn)
    的頭像 發(fā)表于 10-25 09:22 ?214次閱讀

    NVIDIA推出全新深度學(xué)習(xí)框架fVDB

    在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動(dòng)駕駛汽車、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發(fā)表于 08-01 14:31 ?590次閱讀

    PyTorch深度學(xué)習(xí)開發(fā)環(huán)境搭建指南

    PyTorch作為種流行的深度學(xué)習(xí)框架,其開發(fā)環(huán)境的搭建對(duì)于深度學(xué)習(xí)研究者和開發(fā)者來說至關(guān)重要
    的頭像 發(fā)表于 07-16 18:29 ?995次閱讀

    利用Matlab函數(shù)實(shí)現(xiàn)深度學(xué)習(xí)算法

    在Matlab中實(shí)現(xiàn)深度學(xué)習(xí)算法是個(gè)復(fù)雜但強(qiáng)大的過程,可以應(yīng)用于各種領(lǐng)域,如圖像識(shí)別、自然語言處理、時(shí)間序列預(yù)測(cè)等。這里,我將概述
    的頭像 發(fā)表于 07-14 14:21 ?2163次閱讀

    nlp自然語言處理框架有哪些

    許多優(yōu)秀的框架和工具,這些框架和工具為研究人員和開發(fā)者提供強(qiáng)大的支持。以下是些主要的NLP
    的頭像 發(fā)表于 07-09 10:28 ?549次閱讀

    深度學(xué)習(xí)nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域中兩個(gè)非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度
    的頭像 發(fā)表于 07-05 09:47 ?907次閱讀

    深度學(xué)習(xí)常用的Python庫

    深度學(xué)習(xí)作為人工智能的個(gè)重要分支,通過模擬人類大腦中的神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜問題。Python作為種流行的編程語言,憑借其簡(jiǎn)潔的語法和豐富的
    的頭像 發(fā)表于 07-03 16:04 ?624次閱讀

    TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

    深度學(xué)習(xí)作為人工智能領(lǐng)域的個(gè)重要分支,在過去十年中取得了顯著的進(jìn)展。在構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型的
    的頭像 發(fā)表于 07-02 14:04 ?952次閱讀

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

    現(xiàn)場(chǎng)可編程門陣列 (FPGA) 解決 GPU 在運(yùn)行深度學(xué)習(xí)模型時(shí)面臨的許多問題 在過去的十年里,人工智能的再次興起使顯卡行業(yè)受益匪淺。英偉達(dá) (Nvidia) 和 AMD 等公
    發(fā)表于 03-21 15:19

    為什么深度學(xué)習(xí)的效果更好?

    導(dǎo)讀深度學(xué)習(xí)是機(jī)器學(xué)習(xí)個(gè)子集,已成為人工智能領(lǐng)域的項(xiàng)變革性技術(shù),在從計(jì)算機(jī)視覺、自然語言處
    的頭像 發(fā)表于 03-09 08:26 ?618次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的效果更好?

    谷歌模型框架是什么軟件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌開發(fā)的用于機(jī)器學(xué)習(xí)和人工智能的軟件框架,其中最著名的是TensorFlow。TensorFlow是
    的頭像 發(fā)表于 03-01 16:25 ?869次閱讀

    谷歌模型框架是什么?有哪些功能和應(yīng)用?

    谷歌模型框架(Google Model Framework)并不是個(gè)特定的框架,而是指谷歌開發(fā)
    的頭像 發(fā)表于 02-29 18:11 ?1469次閱讀

    邊緣計(jì)算平臺(tái)開源框架有哪些類型

    將詳細(xì)介紹幾種常見的邊緣計(jì)算平臺(tái)開源框架。 Akraino Edge Stack Akraino Edge Stack 是個(gè)開放、輕量級(jí)、靈活的云邊緣平臺(tái)
    的頭像 發(fā)表于 12-27 15:17 ?1303次閱讀
    RM新时代网站-首页