RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

MelNet 捕捉“高層結構”更勝一籌

WpOh_rgznai100 ? 來源:lq ? 2019-07-18 15:13 ? 次閱讀

計算機生成語音領域,正在醞釀著和一場革命。Facebook 工程師們設計創(chuàng)建的機器學習模型 MelNet 就是一個啟示。

下面這段聽起來怪異的話像極了比爾·蓋茨是吧?

但事實上,這幾句話是 Facebook 的工程師們設計創(chuàng)建的機器學習模型 MelNet 生成的。AI 合成逼真語音已不是新鮮事,George Takei、Jane Goodall、Stephen Hawking 等大佬的聲音早已被模仿了個遍,而且逼真程度讓人驚嘆。Facebook 此次合成的聲音樣本還有很多,可以在這里查看:https://audio-samples.github.io/

那么,這次合成比爾·蓋茨聲音背后的技術有何區(qū)別呢?答案是生成聲音的機器學習模型 MelNet是通過一種叫做頻譜圖的技術實現(xiàn)的。而且實驗表明,這個模型的性能高于此前曾紅火一時的 SampleRNN 和 WaveNet 等模型。

MelNet 的出現(xiàn)并非平地一聲雷。最近幾年,語音克隆的質量一直在穩(wěn)步提高,最近著名美國播客 Joe Rogan 的聲音克隆證明了我們到底已經(jīng)走了多遠。追溯到 2016 年,AI 聲音克隆技術已經(jīng)有了很大的發(fā)展,SampleRNN 和 WaveNet 橫空出世,后者是由位于倫敦的人工智能實驗室 DeepMind 創(chuàng)建的機器學習文本到語音轉換程序,該實驗室現(xiàn)在為 Google 智能助理提供支持。

MelNet 技術解讀

在論文中,F(xiàn)acebook 的工程師對 MelNet 進行了詳解,我們從中摘取重要部分進行了解讀。

論文地址:https://arxiv.org/pdf/1906.01083.pdf

本文的主要貢獻如下:

提出了 MelNet。一個語譜圖的生成模型,它結合了細粒度的自回歸模型和多尺度生成過程,能夠同時捕獲局部和全局的結構。

展示了MelNet 在長程依賴性上卓越的性能。

展示了MelNet 在多種音頻生成任務上優(yōu)秀的能力:無條件語音生成任務、音樂生成任務、文字轉語音合成任務。而且在這些任務上,MelNet 都是端到端的實現(xiàn)。

摘要

WaveNet、SampleRNN 和類似程序的基本方法是為 AU 系統(tǒng)提供大量數(shù)據(jù),并用它來分析人聲中的細微差別。(早一點的文本到語音系統(tǒng)不會生成音頻,而是進行重構:將語音樣本切割成音素,然后拼接在一起創(chuàng)建新單詞。)當 WaveNet 和其他模型使用音頻波形進行訓練時,F(xiàn)acebook 的 MelNet 已經(jīng)可以使用更多、包含更豐富信息的密集格式:頻譜圖。

(注:頻譜可以表示一個信號是由哪些頻率的弦波所組成,也可以看出各頻率弦波的大小及相位等信息,是分析振動參數(shù)的主要工具)

為了捕獲音頻波形中的高級結構,本文將時域的波形轉化為二維時頻的表達,通過將高度表達的概率模型和多尺度的生成模型相結合,提出了一種能夠生成高保真音頻樣本的模型,該模型能夠在時間尺度上捕獲結構信息,而現(xiàn)存的時域模型尚未實現(xiàn)該功能。為了驗證模型的有效性,本文將模型運用到多種音頻生成任務,包括無條件語音生成、音樂生成,以及文字轉語音合成。運用人工判別和密度估計的評價方法,本文模型的效果都超越了現(xiàn)存的模型。

MelNet 捕捉“高層結構”更勝一籌

在一篇隨附的論文(https://arxiv.org/pdf/1906.01083.pdf)中,F(xiàn)acebook 的研究人員指出,雖然 WaveNet 生成更高保真的音頻輸出,但 MelNet 在捕捉“高層結構”方面更勝一籌——說話者的聲音中包含了微妙的一致性,而這幾乎無法用文字描述,但是人的耳朵很好地辨別出來。

他們表示,這是因為頻譜圖中捕獲的數(shù)據(jù)比音頻波形中的數(shù)據(jù)“更緊湊”。這種密度允許算法產(chǎn)生更一致的聲音,而不是被波形記錄的極端細節(jié)分散和磨練(使用過于簡單的人類比喻)。

具體來說,在劇烈變化的時間尺度上,音頻波形具有復雜的結構,這對音頻生成模型提出了挑戰(zhàn)。局部結構用于產(chǎn)生高保真音頻,跨越數(shù)萬個時間步長的長程依賴性,則用于產(chǎn)生全局一致的音頻,同時捕獲局部結構和長程依賴性,是一項很具有挑戰(zhàn)的任務。WaveNet 和 SampleRNN 等現(xiàn)存的生成模型擅長捕獲局部依賴性,但是它們無法捕獲長時的高級結構?;诖?,本文引入了一種新的音頻生成模型,它捕獲了比先存模型更為長程的依賴性。該模型主要通過建模2D時頻表示來實現(xiàn)這一目標,如下圖所示。

建模頻譜圖可以簡化捕獲全局結構的任務,但是會削弱與音頻保真度相關的局部特征的捕獲。為了減少信息損失,我們對高分辨率頻譜圖進行了建模。為了限制過度平滑,我們使用了高度表達的自回歸模型,在時間和頻率維度上對分布進行了分解。除此之外,為了捕獲具有數(shù)十萬個維度的頻譜圖中的局部和全局結構,我們采用了多尺度的方法,由粗略到精細的方式生成了頻譜圖。結合這些表征和建模技術,我們可以提出了高度表達、廣泛適用且完全端到端的音頻生成模型 MelNet。

缺陷:無法復制人類聲音在較長時間內(nèi)的變化

但是,MelNet 也有一些缺陷,其中最重要的一點是該模型無法復制人類聲音在較長時間內(nèi)的變化。有趣的是,這類似于我們在 AI 文本生成中的限制,它只能捕獲表面級別的一致性,而不是長期結構。

拋開這些缺陷,MelNet 取得的結果非常好。此外,MelNet 是一個多功能系統(tǒng),它不僅可以產(chǎn)生逼真的聲音,還可以用于生成音樂(雖然有時候輸出有點差強人意,但不能以商業(yè)用途標準來衡量)。

概率模型

本文使用了自回歸模型,將語譜圖 x 的聯(lián)合分布作為條件分布的乘積進行分解。聯(lián)合概率分解如下:

然后,我們用高斯混合模型對其中的每個因子進行建模,每個因子可以被分解如下:

其中圖片: https://uploader.shimo.im/f/EInGnyOdsdgBDRKS.png是某個神經(jīng)網(wǎng)絡的輸出,為了確保網(wǎng)絡輸出能夠參數(shù)化一個有效的高斯混合模型,網(wǎng)絡首先要計算無約束的參數(shù),讓后再對參數(shù)實施以下的限制:

上述限制保證了正的標準差,以及保證了混合系數(shù)的和為 1 。

MelNet 網(wǎng)絡結構

類似圖像空間分布的逐點估計,MelNet 模型在語譜圖的時間和頻率維度上,對元素的分布逐個進行估計。由于語譜圖在頻率軸上,沒有平移不變性,因此本模型用多維遞歸代替了 2D 卷積。該模型和 Gated PixelCNN 的結構較為相似,都采用了多層堆疊(stacks)的結構,它們用于提取輸入中不同片段的特征,進而綜合所有的信息。該模型主要有兩類 stack:

Time-delayed stack: 綜合歷史所有頻譜幀的信息

Frequency-delayed stack: 針對某一頻譜幀,使用該幀中所有元素的信息,以及 time-dealyed stack 的輸出信息,從而計算所有提取到的信息。

這些 stacks 之間相互連接,簡單來講,第 L 層 time-delayed stack 提取的特征,將作為第 L 層 frequency-delayed stack 的輸入。為了能夠訓練更深的網(wǎng)路,兩類 stack 內(nèi)部都采用了殘差連接。最后一層 frequency-delayed stack 的輸出用于計算非受限的高斯混合參數(shù)。

Time-delayed stack

Time-delayed stack 使用了多層多維 RNN來提取歷史頻譜幀的信息,每層多維RNN 都由 3個1-D RNN組成:一個沿著頻率軸向前推進,一個沿著頻率軸向后推進,一個沿著時間軸向前推進,如下圖所示。

每個 Time-delayed stack 的功能可以用下面的式子表示:

Frequency-delayed stack

Frequency-delayed stack 由1個 1-D RNN組成,該 RNN 沿頻率軸向前推進,如下圖所示。

Frequency-delayed stack 具有兩個輸入:前一層的 Frequency-delayed stack 輸出,以及當前層的 Time-delayed stack 輸出。兩個輸入簡單相加后作為當前層的 Frequency-delayed stack 的最終輸入,表達式如下:

在網(wǎng)絡的最后一層中,對 Frequency-delayed stack 進行一個線性映射,從而得到非受限的高斯混合參數(shù):

下圖所示為網(wǎng)絡中每層的 Time-delayed stack 和 Frequency-delayed stack 的連接方式:

Centralized Stack

為了獲取更加集中的特征表示,MelNet 模型選擇性地加入了 Centralized Stack 。Centralized Stack 由一個 RNN 組成,在每個時間步長下,接受一整幀頻譜作為輸入,輸出由 RNN 隱狀態(tài)組成的單個向量,公式如下:

Centralized Stack 的輸出將作為 Frequency-delayed stack 的輸入,因此,F(xiàn)requency-delayed stack 將會有三個輸入。

條件信息

為了將額外的條件信息(例如說話人 ID)加入到模型中,我們將條件特征 z 沿著輸入語譜圖 x 的方向,簡單投影到輸入層,公式如下所示。

學習對齊

如何將語譜幀和離散字符對齊,是端到端文字轉語音任務的關鍵點,為了學習這一功能,MelNet 模型采用了注意力機制,該機制是基于位置的高斯混合注意力的一種直接變體。如下圖所示,為本模型所學習到的對齊效果。

多尺度建模

為了提高合成音頻的保真度,我們生成了高分辨率的語譜圖,它與相應的時域表示具有相同的維度。由于高維的分布對于自回歸模型具有很大的挑戰(zhàn),我們使用了一種多尺度的方法,有效地置換自回歸排序,從而由粗到細地生成語譜圖。

訓練

首先對每幀語譜圖進行降采樣,從而生成不同分辨率的語譜圖。具體做法如下:將語譜圖 x 的列標記為奇列和偶列,所有偶列按順序組合成新的語譜圖,剩余的奇列重復前面的操作,從而得到不同分辨率的語譜圖,具體操作用 split 函數(shù)代替,如下所示:

然后我們用低分辨率的語譜圖來重建高分辨率的語譜圖。在此過程中,我們引入了由一個多維RNN組成的特征提取網(wǎng)絡,它由4 個 1-D RNN 組成,用于在各個低分辨率語譜圖的兩個軸上雙向運行,最終生成高分辨率的語譜圖。

采樣

為了得到高分辨率的結果,我們利用網(wǎng)絡學習到的參數(shù),在受限于圖片: https://uploader.shimo.im/f/vT2XqPWPsYYitpw7.png的情況下,迭代地對圖片: https://uploader.shimo.im/f/WkQfHvaeGq4yQdcd.png進行采樣,公式如下:

當一個完整的語譜圖生成后,采樣過程就停止了迭代,生成的各級別分辨率的語譜圖如下所示:

采樣過程的示意圖如下所示:

實驗結果

數(shù)據(jù)集

Blizzard:由專業(yè)人士以高度動畫的方式進行的有聲讀物敘述

MAESTRO:包括超過 172 小時的鋼琴獨奏表演

VoxCeleb2:超過 2000 小時的語音數(shù)據(jù),包括笑聲、串擾、頻道效果、音樂和其他聲音。 該數(shù)據(jù)集也是多語言的,包括來自 145 個不同國籍的演講者,涵蓋了廣泛的口音、年齡、種族和語言

TED-LIUM 3:包括長達 452 小時的 TED 演講

模型的超參數(shù)

結果

在無條件音頻生成任務上,F(xiàn)acebook 團隊進行了三個子實驗,分別是單說活人語音生成,多說話人語音生成,以及音樂生成,分別使用 Blizzard、VoxCeleb2 和 MAESTRO 數(shù)據(jù)集進行實驗。實驗中,將本文的 MelNet 和 現(xiàn)存的 WaveNet 模型進行比較,采用人工判別的方法來評價兩者的生成長時結構語音的性能,從下圖可以看出,MelNet 的性能要好于 WaveNet 。

在文字轉語音合成的任務上,進行了三個子實驗,分別是單說活人 TTS,多說話人 TTS,以及密度估計實驗。實驗中,將本文的 MelNet 和 現(xiàn)存的 MAESTRO 模型進行比較,從下圖可以看出,MelNet 的性能要好于 MAESTRO 。

對于密度估計實驗,將本文的衍生模型 MelNet: Gaussian 和 MelNet: GMM,與 Diagonal Gaussian、VAE: Global z、VAE: Local z 進行比較,實驗結果如下,可以看到 MelNet 可以極大地改善無條件語音生成和 TTS 的密度估計。

結論

這種用于語譜表示的生成模型 MelNet 將高度表達的自回歸模型與多尺度模型方案相結合,在局部和全局尺度上生成具有真實結構的高分辨率語譜圖。與直接模擬時域信號的模型相比,MelNet 更加適合模擬長程的時間依賴性。實驗表明,MelNet 在各種任務中均表現(xiàn)了優(yōu)秀的性能。

老調(diào)重談:它是把雙刃劍

與以往一樣,這項技術同樣也是一把雙刃劍。它能帶來什么好處呢?答案很明顯,比如幫助創(chuàng)建更高質量的 AI 助手;對于有語言障礙的人,它是實用的語音模型;此外,還可以用于娛樂業(yè)。危險也顯而易見? 比如破壞對傳統(tǒng)證據(jù)形式的信任,以及音頻騷擾、詐騙和越來越普遍的誹謗。

還記得最近的一項研究嗎?如果你想對一段人物特寫視頻進行重新編輯,只需要對視頻所對應的文本內(nèi)容進行修改,隨后人臉會根據(jù)修改的文本內(nèi)容作出與之相配的動作表達,這會造成什么樣的后果難以想象。AI 科技大本營在《“篡改”視頻腳本,讓特朗普輕松“變臉”?AI Deepfake再升級》中對此進行報道。

當然,等到類似技術更加普遍應用之時,會給傳統(tǒng)影視行業(yè)造成巨大沖擊倒是可以預見的,畢竟人臉可以生成,聲音可以生成,明星們連出鏡,甚至配音的麻煩都可以直接跳過,因為 AI 可以幫他們一鍵搞定,也許某一天,我們會發(fā)現(xiàn),明星們的盈利模式將變成“人臉出租”?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Facebook
    +關注

    關注

    3

    文章

    1429

    瀏覽量

    54719
  • 機器學習
    +關注

    關注

    66

    文章

    8406

    瀏覽量

    132558
  • rnn
    rnn
    +關注

    關注

    0

    文章

    89

    瀏覽量

    6886

原文標題:Facebook頻譜圖模型生成比爾·蓋茨聲音,性能完勝WaveNet、MAESTRO

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Oculus Rift與PS VR:誰會更勝一籌

    對于用戶來說,究竟Oculus Rift和PlayStation VR誰更勝一籌呢?我們來進行下對比。
    發(fā)表于 03-21 15:12 ?1240次閱讀

    射頻技術和射頻標識對比分析誰更勝一籌?

    都說射頻技術什么的,還有種叫做射頻標識?這兩者有什么不同,兩者之間有什么聯(lián)系呢,誰更勝一籌呢?射頻(RF)是Radio Frequency的縮寫,表示可以輻射到空間的電磁頻率,頻率范圍從
    發(fā)表于 10-30 07:53

    Si整流器與SiC二極管:誰會更勝一籌

    Si整流器與SiC二極管:誰會更勝一籌
    發(fā)表于 06-08 06:14

    生物識別技術有哪幾種?到底哪種會更勝一籌呢?

    生物識別技術是什么?生物識別技術有哪幾種?到底哪種生物識別技術更勝一籌呢?
    發(fā)表于 06-28 08:25

    為何現(xiàn)在的串行通信傳輸方式會更勝一籌

    為何現(xiàn)在的串行通信傳輸方式會更勝一籌?串行通信要比并行通信的速度更高嗎?
    發(fā)表于 10-15 09:09

    公共云與私有云大比拼 成本計算誰更勝一籌?

    如今,在計算公共云成本與私有云成本時,IT專業(yè)人員有個新的資產(chǎn),以幫助他們應用量化的數(shù)據(jù)來找到他們的答案。個更簡單的計算可能有助于確定企業(yè)實施云計算最具成本意識的地方。 公共云與私有云大比拼 成本計算誰更勝一籌? 多年來,I
    發(fā)表于 11-11 09:55 ?1092次閱讀

    小米mix對比華為Mate9誰更勝一籌?到底哪個值得買?

     華為mate9和小米mix哪個好呢?買小米mix還是華為mate9,誰更勝一籌?華為mate9和小米mix配置參數(shù)到底有什么區(qū)別?華為mate9和小米mix到底哪個值得買?小米mix和華為mate9哪個性價比跟高?
    發(fā)表于 02-21 11:13 ?4074次閱讀

    努比亞M2今日發(fā)布,對比小米6s,誰能更勝一籌

    今天,努比亞又發(fā)布了兩款M系列新機,努比亞M2和M2青春版,據(jù)悉,這兩款手機的主打領域是拍照和續(xù)航功能,3630mAh的電池,加上后置1300萬的雙攝,配上機身的設計風格,亮點確實不少,但是對比即將發(fā)布的小米6,誰又能更勝一籌呢?
    發(fā)表于 03-21 23:28 ?2597次閱讀

    小米電視4 55吋與雷鳥I55參數(shù)對比,誰能更勝一籌?

    那有沒有小伙伴好奇這兩款智能電視究竟誰更勝一籌呢?本期內(nèi)容,小編就為大家?guī)硇∶纂娨? 55吋與雷鳥I55的參數(shù)對比。
    發(fā)表于 05-24 15:51 ?3286次閱讀

    串行傳輸方式都比并行傳輸方式更勝一籌

    無論從通信速度、造價還是通信質量上來看,現(xiàn)今的串行傳輸方式都比并行傳輸方式更勝一籌。
    的頭像 發(fā)表于 12-22 10:05 ?7172次閱讀
    串行傳輸方式都比并行傳輸方式<b class='flag-5'>更勝一籌</b>

    逐鹿新能源汽車:奔馳VS寶馬誰更勝一籌?

    奔馳和寶馬,是大家最喜聞樂見的品牌,在中國人的傳統(tǒng)觀念里,奔馳寶馬是高性能豪華車品牌的象征,也是追求高質量生活水平的佳品。隨著經(jīng)濟發(fā)達,奔馳寶馬已經(jīng)走進平常生活,但是,關于兩者的車誰更勝一籌的話
    發(fā)表于 04-30 22:59 ?716次閱讀

    奔馳和寶馬面對新能源汽車時競爭實力到底誰更勝一籌

    奔馳和寶馬,是大家最喜聞樂見的品牌,在中國人的傳統(tǒng)觀念里,奔馳寶馬是高性能豪華車品牌的象征,也是追求高質量生活水平的佳品。隨著經(jīng)濟發(fā)達,奔馳寶馬已經(jīng)走進平常生活,但是,關于兩者的車誰更勝一籌的話
    發(fā)表于 04-28 17:46 ?4010次閱讀

    微軟、谷歌、英特爾都發(fā)力AI,3巨頭誰更勝一籌

    這個五月科技界巨頭微軟、谷歌、英特爾先后舉辦開發(fā)者大會,這三次大會最大的共同點就是AI,都是他們大力發(fā)展的領域,那么三巨頭誰更勝一籌呢?
    發(fā)表于 05-28 14:23 ?1863次閱讀

    在各項生物識別技術中,哪種識別技術更勝一籌?

    據(jù)估算,到2020年生物識別技術市場規(guī)模將達到250億美元,5年內(nèi)年均增速約14%。其中,人臉識別增速最快,將從2015年的9億美元增長到2020年的24億美元。生物識別市場為何如此之大?在各項生物識別技術中,哪種識別技術更勝一籌?
    發(fā)表于 09-28 17:27 ?1494次閱讀

    UVLED面光源與傳統(tǒng)光源對比:誰更勝一籌?

    之間的對比結果又如何呢?本文將對UVLED面光源與傳統(tǒng)光源進行全面對比,以揭示誰更勝一籌。 、能耗對比 在能耗方面,UVLED面光源相較于傳統(tǒng)光源具有顯著優(yōu)勢。UVLED面光源采用LED發(fā)光技術,具有更高的發(fā)光效率和能量利用率。這意味著在相同的
    的頭像 發(fā)表于 05-10 15:28 ?628次閱讀
    UVLED面光源與傳統(tǒng)光源對比:誰<b class='flag-5'>更勝一籌</b>?
    RM新时代网站-首页