RM新时代能折现吗,RM新时代还出款吗

年初，谷歌推出了音樂生成大模型 MusicLM，效果非常不錯(cuò)。有人稱這比大火的 ChatGPT 還重要，幾乎解決了音樂生成問題。近日，Meta 也推出了自己的文本音樂生成模型 MusicGen，并且非商業(yè)用途免費(fèi)使用。

在進(jìn)入正文前，我們先聽兩段 MusicGen 生成的音樂。我們輸入文本描述「a man walks in the rain, come accross a beautiful girl, and they dance happily」然后嘗試輸入周杰倫《七里香》歌詞中的前兩句「窗外的麻雀在電線桿上多嘴，你說這一句很有夏天的感覺」（支持中文）試玩地址：https://huggingface.co/spaces/facebook/MusicGen 文本到音樂是指在給定文本描述的情況下生成音樂作品的任務(wù)，例如「90 年代吉他即興搖滾歌曲」。作為一項(xiàng)具有挑戰(zhàn)性的任務(wù)，生成音樂要對長序列進(jìn)行建模。與語音不同，音樂需要使用全頻譜，這意味著以更高的速率對信號(hào)進(jìn)行采樣，即音樂錄音的標(biāo)準(zhǔn)采樣率為 44.1 kHz 或 48 kHz，而語音的采樣率為 16 kHz。

此外，音樂包含不同樂器的和聲和旋律，這使音樂有著復(fù)雜的結(jié)構(gòu)。但由于人類聽眾對不和諧十分敏感，因此對生成音樂的旋律不會(huì)有太大容錯(cuò)率。當(dāng)然，以多種方法控制生成過程的能力對音樂創(chuàng)作者來說是必不可少的，如鍵、樂器、旋律、流派等。最近自監(jiān)督音頻表示學(xué)習(xí)、序列建模和音頻合成方面的進(jìn)展，為開發(fā)此類模型提供了條件。為了使音頻建模更加容易，最近的研究提出將音頻信號(hào)表示為「表示同一信號(hào)」的離散 token 流。這使得高質(zhì)量的音頻生成和有效的音頻建模成為可能。然而這需要聯(lián)合建模幾個(gè)并行的依賴流。 Kharitonov 等人 [2022]、Kreuk 等人 [2022] 提出采用延遲方法并行建模語音 token 的多流，即在不同流之間引入偏移量。Agostinelli 等人 [2023] 提出使用不同粒度的多個(gè)離散標(biāo)記序列來表示音樂片段，并使用自回歸模型的層次結(jié)構(gòu)對其進(jìn)行建模。同時(shí)，Donahue 等人 [2023] 采用了類似的方法，但針對的是演唱到伴奏生成的任務(wù)。最近，Wang 等人 [2023] 提出分兩個(gè)階段解決這個(gè)問題：限制對第一個(gè) token 流建模。然后應(yīng)用 post-network 以非自回歸的方式聯(lián)合建模其余的流。

本文中，Meta AI 的研究者提出了 MUSICGEN，這是一種簡單、可控的音樂生成模型，能在給定文本描述的情況下生成高質(zhì)量的音樂。論文地址：https://arxiv.org/pdf/2306.05284.pdf 研究者提出一個(gè)對多個(gè)并行聲學(xué) token 流進(jìn)行建模的通用框架，作為以前研究的概括 (見下圖 1)。為提高生成樣本的可控性，本文還引入了無監(jiān)督旋律條件，使模型能夠根據(jù)給定和聲和旋律生成結(jié)構(gòu)匹配的音樂。本文對 MUSICGEN 進(jìn)行了廣泛的評(píng)估，所提出的方法在很大程度上優(yōu)于評(píng)估基線：MUSICGEN 的主觀評(píng)分為 84.8 (滿分 100 分)，而最佳基線為 80.5。此外，本文還提供一項(xiàng)消融研究，闡明了每個(gè)組件對整體模型性能的重要性。最后，人工評(píng)估表明，MUSICGEN 產(chǎn)生了高質(zhì)量的樣本，這些樣本在符合文本描述，在旋律上也更好地與給定的和聲結(jié)構(gòu)對齊。 ? 本文的主要貢獻(xiàn)有如下幾點(diǎn)： ?

提出了一個(gè)簡單高效的模型：可以在 32khz 產(chǎn)生高質(zhì)量的音樂。MUSICGEN 可以通過有效的碼本交錯(cuò)策略，用單階段語言模型生成一致的音樂；

提出一個(gè)單一的模型，進(jìn)行文本和旋律條件生成，其生成的音頻與提供的旋律是一致的，并符合文本條件信息；

對所提出方法的關(guān)鍵設(shè)計(jì)選擇進(jìn)行了廣泛的客觀及人工評(píng)估。

方法概覽

MUSICGEN 包含一個(gè)基于自回歸 transformer 的解碼器，并以文本或旋律表示為條件。該（語言）模型基于 EnCodec 音頻 tokenizer 的量化單元，它從低幀離散表示中提供高保真重建效果。此外部署殘差向量量化（RVQ）的壓縮模型會(huì)產(chǎn)生多個(gè)并行流。在此設(shè)置下，每個(gè)流都由來自不同學(xué)得碼本的離散 token 組成。以往的工作提出了一些建模策略來解決這一問題。研究者提出了一種新穎的建?？蚣埽梢苑夯礁鞣N碼本交錯(cuò)模式。該框架還有幾種變體?；谀Ｊ?，他們可以充分利用量化音頻 token 的內(nèi)部結(jié)構(gòu)。最后 MUSICGEN 支持基于文本或旋律的條件生成。 音頻 tokenization 研究者使用了 EnCodec，它是一種卷積自編碼器，具有使用 RVQ 量化的潛在空間和對抗重建損失。給定一個(gè)參考音頻隨機(jī)變量 X ∈ R^d?f_s，其中 d 表示音頻持續(xù)時(shí)間，f_s 表示采樣率。EnCodec 將該變量編碼為幀率為 f_r ? f_s 的連續(xù)張量，然后該表示被量化為 Q ∈ {1, . . . , N}^K×d?f_r，其中 K 表示 RVQ 中使用的碼本數(shù)量，N 表示碼本大小。

碼本交錯(cuò)模式

精確扁平化自回歸分解。自回歸模型需要一個(gè)離散隨機(jī)序列 U ∈ {1, . . . , N}^S 和序列長度 S。按照慣例，研究者將采用 U_0 = 0，這是一個(gè)確定性的特殊 token，表示序列的開始。然后他們可以對分布進(jìn)行建模。不精確的自回歸分解。另一種可能是考慮自回歸分解，其中一些碼本需要進(jìn)行并行預(yù)測。比如定義另一個(gè)序列，V_0 = 0，并且 t∈ {1, . . . , N}, k ∈ {1, . . . , K}, V_t,k = Q_t,k。當(dāng)刪除碼本索引 k 時(shí)（如 V_t），這代表了時(shí)間為 t 時(shí)所有碼本的串聯(lián)。任意碼本交錯(cuò)模式。為了試驗(yàn)此類分解，并準(zhǔn)確測量使用不精確分解的影響，研究者引入了碼本交錯(cuò)模式。首先考慮? = {(t, k) : {1, . . . , d?f_r}, k ∈ {1, . . . , K}}，它是所有時(shí)間步和碼本索引對的集合。碼本模式是序列 P=(P_0, P_1, P_2, . . . , P_S)，其中 P_0 = ?,，并且 0 < i ≤ S, P_i ? ?，這樣 P 是?的分區(qū)。研究者通過并行地預(yù)測 P_t 中的所有位置來建模 Q，并以 P_0, P_1, . . . , P_T 中的所有位置為條件。同時(shí)考慮到實(shí)際效率，他們只選擇了「每個(gè)碼本在任何 P_s 中最多出現(xiàn)一次」的模式。 ?

模型條件化

文本條件化。給定與輸入音頻 X 匹配的文本描述，研究者計(jì)算條件張量 C ∈ R^T_C ×D，其中 D 是自回歸模型中使用的內(nèi)部維數(shù)。旋律條件化。雖然文本是當(dāng)今條件生成模型的主要方法，但更自然的音樂方法是以來自另一個(gè)音軌甚至口哨或哼唱的旋律結(jié)構(gòu)為條件。這種方法還允許對模型輸出進(jìn)行迭代優(yōu)化。為了支持這一點(diǎn)，研究者嘗試通過聯(lián)合調(diào)節(jié)輸入的色譜圖和文本描述來控制旋律結(jié)構(gòu)。再最初的試驗(yàn)中，他們觀察到以原始色譜圖為條件通常會(huì)重建原始樣本，導(dǎo)致過擬合。為此，研究者在每個(gè)時(shí)間步中選擇主要的時(shí)頻 bin 來引入信息瓶頸。

模型架構(gòu)

碼本投影和位置嵌入。給定一個(gè)碼本模式，在每個(gè)模式步 P_s 中只有一些碼本的存在。研究者從 Q 中檢索出對應(yīng) P_s 中索引的值。每個(gè)碼本在 P_s 中最多出現(xiàn)一次或根本不存在。 Transformer 解碼器。輸入被饋入到具有 L 層和 D 維的 transformer 中，每一層都由一個(gè)因果自注意力塊組成。然后使用一個(gè)跨注意力塊，該塊由條件化信號(hào) C 提供。當(dāng)使用旋律調(diào)節(jié)時(shí)，研究者將條件化張量 C 作為 transformer 輸入的前綴。 Logits 預(yù)測。在模式步 P_s 中，transformer 解碼器的輸出被轉(zhuǎn)換為 Q 值的 Logits 預(yù)測。每個(gè)碼本在 P_s+1 中最多出現(xiàn)一次。如果碼本存在，則從 D 通道到 N 應(yīng)用特定于碼本的線性層來獲得 Logits 預(yù)測。

實(shí)驗(yàn)結(jié)果 音頻 tokenization 模型。研究對 32 kHz 單聲道音頻使用非因果五層 EnCodec 模型，其步幅為 640，幀率為 50 Hz，初始隱藏大小為 64，在模型的五層中每層都增加一倍。

變壓器模型，研究訓(xùn)練了不同大小的自回歸 Transformer 模型：300M, 1.5B, 3.3B 參數(shù)。

訓(xùn)練數(shù)據(jù)集。研究使用 2 萬小時(shí)的授權(quán)音樂來訓(xùn)練 MUSICGEN。詳細(xì)來說，研究使用了一個(gè)包含 10K 個(gè)高質(zhì)量曲目的內(nèi)部數(shù)據(jù)集，以及分別包含 25K 和 365K 只有樂器曲目的 Shutte rStock 和 Pond5 音樂數(shù)據(jù)集。

評(píng)估數(shù)據(jù)集。研究在 MusicCaps 基準(zhǔn)上對所提出的方法進(jìn)行了評(píng)估，并與之前的工作進(jìn)行了比較。MusicCaps 是由專家音樂家準(zhǔn)備的 5.5K 樣本 (10 秒長) 和跨流派平衡的 1K 子集組成的。下表 1 給出了所提方法與 Mousai、Riffusion、MusicLM 和 Noise2Music 的比較。結(jié)果表明，在音頻質(zhì)量和對提供的文本描述的一致性方面，MUSICGEN 的表現(xiàn)優(yōu)于人類聽眾的評(píng)估基線。Noise2Music 在 MusicCaps 上的 FAD 方面表現(xiàn)最好，其次是經(jīng)過文本條件訓(xùn)練的 MUSICGEN。有趣的是，添加旋律條件會(huì)降低客觀指標(biāo)，但是并不會(huì)顯著影響人類評(píng)分，且仍然優(yōu)于評(píng)估的基線。 ? 研究者在給出的評(píng)估集上使用客觀和主觀度量，在文本和旋律表示的共同條件下評(píng)估 MUSICGEN，結(jié)果見下表 2。結(jié)果表明，用色譜圖條件化訓(xùn)練的 MUSICGEN 成功地生成了遵循給定旋律的音樂，從而可以更好地控制生成的輸出。MUSICGEN 對于在推理時(shí)使用 OVL 和 REL 丟掉色度具有魯棒性。 ? ? 碼本交錯(cuò)模式的影響。研究者使用 2.2 節(jié)中的框架評(píng)估了各種碼本模式，K = 4，由音頻 tokenization 模型給出。本文在下表 3 中報(bào)告了客觀和主觀評(píng)價(jià)。雖然扁平化改善了生成效果，但它的計(jì)算成本很高。使用簡單的延遲方法，只需花費(fèi)一小部分成本就能得到類似的性能。 ? ? 模型大小的影響。下表 4 報(bào)告了不同模型大小的結(jié)果，即 300M、1.5B 和 3.3B 參數(shù)模型。正如預(yù)期的那樣，擴(kuò)大模型大小可以得到更好的分?jǐn)?shù)，但前提是需要更長的訓(xùn)練和推理時(shí)間。主觀評(píng)價(jià)方面，在 1.5B 時(shí)整體質(zhì)量是最優(yōu)的，但更大的模型可以更好地理解文本提示。 ?
責(zé)任編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

建模

建模

+關(guān)注

關(guān)注
1

文章
304

瀏覽量
60765
開源

開源

+關(guān)注

關(guān)注
3

文章
3309

瀏覽量
42471
模型

模型

+關(guān)注

關(guān)注
1

文章
3226

瀏覽量
48807
Meta

Meta

+關(guān)注

關(guān)注
0

文章
270

瀏覽量
11378

原文標(biāo)題：Meta開源文本生成音樂大模型，我們用《七里香》歌詞試了下

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評(píng)論

相關(guān)推薦

基于生成式對抗網(wǎng)絡(luò)的深度文本生成模型

評(píng)論，對音樂作品自動(dòng)生成評(píng)論可以在一定程度上解決此問題。在在線唱歌平臺(tái)上的評(píng)論文本與音樂作品的表現(xiàn)評(píng)級(jí)存在一定的關(guān)系。因此，研究考慮音樂作品

發(fā)表于 04-12 13:47 ?15次下載

基于<b class='flag-5'>生成</b>式對抗網(wǎng)絡(luò)的深度<b class='flag-5'>文本生成</b><b class='flag-5'>模型</b>

受控文本生成模型的一般架構(gòu)及故事生成任務(wù)等方面的具體應(yīng)用

來自：哈工大訊飛聯(lián)合實(shí)驗(yàn)室本期導(dǎo)讀：本文是對受控文本生成任務(wù)的一個(gè)簡單的介紹。首先，本文介紹了受控文本生成模型的一般架構(gòu)，點(diǎn)明了受控文本生成模型

發(fā)表于 10-13 09:46 ?3525次閱讀

基于文本到圖像模型的可控文本到視頻生成

的文本到視頻模型需要大量高質(zhì)量的視頻和計(jì)算資源，這限制了相關(guān)社區(qū)進(jìn)一步的研究和應(yīng)用。為了減少過度的訓(xùn)練要求，我們研究了一種新的高效形式：基于文本到圖像模型的可控

發(fā)表于 06-14 10:39 ?947次閱讀

Meta開源I-JEPA，“類人”AI模型

Meta 宣布推出一個(gè)全新的 AI 模型 Image Joint Embedding Predictive Architecture (I-JEPA)，可通過對圖像的自我監(jiān)督學(xué)習(xí)來學(xué)習(xí)世界的抽象表征

發(fā)表于 06-18 17:47 ?1082次閱讀

語音領(lǐng)域的GPT時(shí)刻：Meta 發(fā)布「突破性」生成式語音系統(tǒng)，一個(gè)通用模型解決多項(xiàng)任務(wù)

繼開源 LLaMA 之后，Meta 在生成式 AI 方向又公布一項(xiàng)重大研究。我們知道，GPT、DALL-E 等大規(guī)模生成模型徹底改變了自然

發(fā)表于 06-18 21:30 ?663次閱讀

Meta發(fā)布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發(fā)布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

發(fā)表于 08-25 09:06 ?1482次閱讀

Meta推出最新版AI代碼生成模型Code Llama70B

Meta近日宣布了其最新版本的AI代碼生成模型Code Llama70B，并稱其為“目前最大、最優(yōu)秀的模型”。這一更新標(biāo)志著Meta在AI代

發(fā)表于 01-30 18:21 ?1442次閱讀

Meta發(fā)布開源大模型Code Llama 70B

近日，Meta宣布推出了一款新的開源大模型Code Llama 70B，這是其“Code Llama家族中體量最大、性能最好的模型版本”。這款新模型

發(fā)表于 01-31 09:24 ?921次閱讀

Meta發(fā)布CodeLlama70B開源大模型

Meta發(fā)布CodeLlama70B開源大模型 Meta發(fā)布了開源大模型CodeLlama70B

發(fā)表于 01-31 10:30 ?1411次閱讀

Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT

Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT Facebook母公司Meta Platforms（META.US）推出了

發(fā)表于 04-19 17:00 ?832次閱讀

Meta Llama 3基礎(chǔ)模型現(xiàn)已在亞馬遜云科技正式可用

亞馬遜云科技近日宣布，Meta公司最新發(fā)布的兩款Llama 3基礎(chǔ)模型——Llama 3 8B和Llama 3 70B，現(xiàn)已正式上線并集成至Amazon SageMaker JumpStart平臺(tái)。這兩款先進(jìn)的生成文本

發(fā)表于 05-09 10:39 ?394次閱讀

Meta即將發(fā)布超強(qiáng)開源AI模型Llama 3-405B

在人工智能領(lǐng)域的激烈競爭中，Meta公司再次擲出重磅炸彈，宣布將于7月23日正式發(fā)布其最新力作——Llama 3-405B，一個(gè)擁有驚人4050億參數(shù)的開源大模型。這一舉措不僅標(biāo)志著Meta

發(fā)表于 07-18 09:58 ?984次閱讀

Meta發(fā)布全新開源大模型Llama 3.1

科技巨頭Meta近期震撼發(fā)布了其最新的開源人工智能（AI）模型——Llama 3.1，這一舉措標(biāo)志著Meta在AI領(lǐng)域的又一重大突破。Meta

發(fā)表于 07-24 18:25 ?1430次閱讀

Meta發(fā)布Llama 3.2量化版模型

近日，Meta在開源Llama 3.2的1B與3B模型后，再次為人工智能領(lǐng)域帶來了新進(jìn)展。10月24日，Meta正式推出了這兩個(gè)模型的量化版

發(fā)表于 10-29 11:05 ?374次閱讀

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA 開發(fā)了一個(gè)全新的生成式 AI 模型。利用輸入的文本和音頻，該模型可以創(chuàng)作出包含任意的音樂、人聲和聲音組合的作品。

發(fā)表于 11-27 11:29 ?327次閱讀