RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

完整關(guān)注跨模態(tài)轉(zhuǎn)換器網(wǎng)絡(luò)

Tensorflowers ? 來源:TensorFlow ? 作者:Shan Yang、Angjoo Ka ? 2021-10-15 10:25 ? 次閱讀

舞蹈是幾乎所有文化中的一種通用語言,也是如今許多人在當代媒體平臺上表達自己的一種方式。跳舞的能力(組織形成與音樂節(jié)拍一致的動作模式)是人類行為的一個基本方面。然而,舞蹈是一種需要練習(xí)的藝術(shù)形式。事實上,舞者若要創(chuàng)造極具表現(xiàn)力的編舞 (Choreography),就需要豐富的舞蹈動作,而這通常需要進行專業(yè)訓(xùn)練。這個過程對人來說很困難,對機器學(xué)習(xí) (ML) 模型來說則更具挑戰(zhàn)性,因為這項任務(wù)要求能夠產(chǎn)生具有高度運動學(xué)復(fù)雜性的連續(xù)動作,同時捕捉到動作和伴奏音樂之間的非線性關(guān)系。

在“ AIChoreographer:利用 AIST++ 生成音樂條件下的 3D 舞蹈 (AIChoreographer:Music-Conditioned 3D Dance Generation with AIST++) ”一文中(載于 ICCV 2021),我們提出了一個完整關(guān)注 (Attention) 跨模態(tài)轉(zhuǎn)換器 (FACT) 模型,此模型可以模仿和理解舞蹈動作,甚至可以提高用戶的編舞能力。提出該模型的同時,我們發(fā)布了一個大規(guī)模的多模態(tài) 3D 舞蹈動作數(shù)據(jù)集 AIST++,該數(shù)據(jù)集包含 5.2 小時的 3D 舞蹈動作,分為 1408 個序列,涵蓋了 10 種舞蹈類型,每個類型都包括從已知相機位置方向拍攝的多視角視頻。通過對 AIST++ 進行廣泛用戶研究,我們發(fā)現(xiàn) FACT 模型無論在質(zhì)量還是數(shù)量上都優(yōu)于日前領(lǐng)先的方法。

我們提出了一個新穎的完整關(guān)注跨模態(tài)轉(zhuǎn)換器 (FACT) 網(wǎng)絡(luò),可以在音樂和新的 3D 舞蹈數(shù)據(jù)集 AIST++(左)的條件下生成真實的 3D 舞蹈動作(右)

AIChoreographer:利用 AIST++ 生成音樂條件下的 3D 舞蹈

https://google.github.io/aichoreographer/

AIST++

https://google.github.io/aistplusplus_dataset/

我們根據(jù)現(xiàn)有的 AIST 舞蹈數(shù)據(jù)庫生成了建議的 3D 運動數(shù)據(jù)集,該數(shù)據(jù)集是一個有音樂伴奏的舞蹈視頻集合,但沒有任何 3D 信息。AIST 包含 10 種舞蹈類型:舊學(xué)派(霹靂、機械舞、鎖舞和威金)和新學(xué)派(Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz 和 Ballet Jazz)。雖然其中包含了舞者的多視角視頻,但這些相機并沒有經(jīng)過校準。

為了實現(xiàn)目的,我們根據(jù)廣泛使用的 SMPL 3D 模型所使用的參數(shù)恢復(fù)了相機校準參數(shù)和 3D 人體動作。由此產(chǎn)生的數(shù)據(jù)庫 (AIST++) 是一個大規(guī)模的 3D 人類舞蹈動作數(shù)據(jù)集,包含了與音樂相配的各種各樣的3D 動作,每一幀都包含大量的注釋:

9 個相機內(nèi)在和外在參數(shù)的視圖;

17 個 COCO 格式的人體關(guān)節(jié)位置(2D 和 3D 形式);

24 個 SMPL 姿勢參數(shù),帶有全局縮放和平移。

這些動作在所有的 10 種舞蹈類型中平均分布,涵蓋了以每分鐘節(jié)拍 (BPM) 為單位的各種音樂節(jié)奏。每種類型的舞蹈包含 85% 的基本動作和 15% 的高級動作(由舞者自由設(shè)計的較長編舞)。

AIST++ 數(shù)據(jù)集還包含多視角同步圖像數(shù)據(jù),使其對其他研究方向(例如 2D/3D 姿勢預(yù)測)很有幫助。據(jù)我們所知,AIST++ 是截止目前最大的 3D 人類舞蹈數(shù)據(jù)集,包含 1408 個序列、30 個主題和 10 個舞蹈類型,并同時包含基本和高級的編舞。

由于 AIST 是一個教學(xué)數(shù)據(jù)庫,因此它記錄了在不同音樂和各種 BPM 下遵循相同編舞的多個舞者,這是舞蹈中常見的做法。這給跨模態(tài)序列到序列的生成帶來了獨特挑戰(zhàn),因為該模型需要學(xué)習(xí)音頻和動作之間的一對多映射。我們在 AIST++ 上精心構(gòu)建了不重疊的訓(xùn)練和測試子集,以確保在子集之間編舞和音樂都不相同。

全注意力跨模態(tài)轉(zhuǎn)換器

(FACT) 模型

我們利用這些數(shù)據(jù)訓(xùn)練 FACT 模型,以便根據(jù)音樂生成 3D 舞蹈。該模型首先使用單獨的動作和音頻轉(zhuǎn)換器對種子動作和音頻輸入進行編碼。然后,將嵌入向量串聯(lián)起來并發(fā)送給跨模態(tài)轉(zhuǎn)換器,該轉(zhuǎn)換器學(xué)習(xí)兩種模態(tài)之間的對應(yīng)關(guān)系并生成 N 個未來動作序列。隨后利用這些序列以自我監(jiān)督 (Self-supervised learning) 的方式來訓(xùn)練模型。所有三個轉(zhuǎn)化器都是聯(lián)合學(xué)習(xí)的端到端。進行測試時,我們在一個自回歸 (GPT-3) 框架中應(yīng)用這個模型,其中預(yù)測的動作充當下一個生成步驟的輸入。因此,F(xiàn)ACT 模型能夠逐幀地生成長時間的舞蹈動作。

FACT 網(wǎng)絡(luò)接收一段音樂 (Y) 和一個 2 秒的種子動作序列 (X),然后生成與輸入音樂相關(guān)的長時間未來動作

FACT 涉及三個關(guān)鍵的設(shè)計選擇,對于根據(jù)音樂產(chǎn)生真實的 3D 舞蹈動作至關(guān)重要。

1. 所有的轉(zhuǎn)換器都使用完整關(guān)注掩碼,它比典型的因果模型更具表現(xiàn)力,因為內(nèi)部令牌可以訪問所有輸入。

2. 我們訓(xùn)練模型來預(yù)測當前輸入以外的 N 個未來動作,而不是僅僅預(yù)測下一個動作。這鼓勵網(wǎng)絡(luò)更多地關(guān)注時間背景,并有助于防止模型在幾個生成步驟后出現(xiàn)動作停滯或分歧。

3. 我們在早期融合了兩個嵌入向量(動作和音頻),并采用了一個深度的 12 層跨模態(tài)轉(zhuǎn)換器模塊,這對于訓(xùn)練一個真正關(guān)注輸入音樂的模型至關(guān)重要。

結(jié)果

我們根據(jù)三個指標來進行性能評估:

動作質(zhì)量:我們計算 AIST++ 測試集中的真實舞蹈動作序列和 40 個模型生成的動作序列之間的 Frechet Inception Distance (FID),每個序列有 1200 幀(20 秒)。我們將基于幾何和運動特征的 FID 分別表示為 FIDg 和 FIDk。

生成多樣性:與此前的研究類似,為了評估模型生成潛水舞蹈動作的能力,我們計算了 AIST++ 測試集上 40 個生成動作的特征空間中的平均歐氏距離,再次比較幾何特征空間 (Distg) 和運動特征空間 (Distk)。

動作與音樂的相關(guān)性:由于沒有設(shè)計良好的指標來衡量輸入音樂(音樂節(jié)拍)和生成的 3D 動作(運動節(jié)拍)之間的相關(guān)性,我們提出了一個新的指標,稱為節(jié)拍對齊得分 (BeatAlign)。

生成舞蹈動作的運動速度(藍色曲線)和運動節(jié)拍(綠色虛線),以及音樂節(jié)拍(橙色虛線)

提取運動節(jié)拍的方式是從運動速度曲線中找到局部最小值

定量評估

我們將 FACT 在這些指標方面的表現(xiàn)與其他最先進的方法進行比較。

我們還通過一項用戶研究,對動作與音樂的相關(guān)性進行了感知評估,在這項研究中,我們要求各位參與者觀看 10 個視頻,視頻中包含我們的一個成果和一個隨機的對照輸出,然后選擇哪個舞者與音樂更同步。這項研究包括 30 名參與者,從專業(yè)舞者到很少跳舞的人都有。與每個基線相比,81% 的人認為 FACT 模型的輸出優(yōu)于 Li et al. 的輸出,71% 的人認為 FACT 優(yōu)于 Dancenet,77% 的人認為它優(yōu)于 Dance Revolution。有趣的是,75% 的參與者更喜歡未配對的 AIST++ 舞蹈動作,而不是 FACT 生成的動作,這并不奇怪,因為原始舞蹈動作具有高度表現(xiàn)力。

定性結(jié)果

與 DanceNet(左圖)和 Li et. al.(中圖)等之前的方法相比,使用 FACT 模型(右圖)生成的 3D 舞蹈更加逼真,與輸入音樂有更高的相關(guān)性。

結(jié)論和討論

我們提出的模型不僅可以學(xué)習(xí)音頻和動作的對應(yīng)關(guān)系,還可以根據(jù)音樂生成高質(zhì)量的 3D 動作序列。根據(jù)音樂生成 3D 動作是一個新興的研究領(lǐng)域,我們希望這項研究能夠為未來的跨模態(tài)音頻到 3D 動作生成鋪平道路。我們還發(fā)布了 AIST++,這是迄今為止最大的 3D 人類舞蹈數(shù)據(jù)集。本文提出的多視角、多類型、跨模態(tài) 3D 動作數(shù)據(jù)集不僅有助于有條件 3D 動作生成方面的研究,還可以幫助一般的人類理解研究。我們將在 GitHub 代碼庫中發(fā)布代碼,并在此處發(fā)布訓(xùn)練好的模型。

雖然我們的研究結(jié)果為音樂條件下的 3D 動作生成問題指出了一個有前景的方向,但尚有更多可探索的空間。首先,我們的方法是基于運動學(xué)的,且我們沒有推理出舞者和地板之間的物理學(xué)相互作用。因此,全局平移可能會導(dǎo)致偽影,如腳部的滑動和懸浮。第二,我們的模型目前具有確定性。探索如何根據(jù)每段音樂產(chǎn)生多種真實舞蹈,這一研究方向極具潛力。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 轉(zhuǎn)換器
    +關(guān)注

    關(guān)注

    27

    文章

    8694

    瀏覽量

    147085
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2875

    瀏覽量

    107480
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7002

    瀏覽量

    88940

原文標題:利用 AIST++ 生成音樂條件下的 3D 舞蹈

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    DAC715完整的單芯片數(shù)模轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《DAC715完整的單芯片數(shù)模轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-29 10:34 ?0次下載
    DAC715<b class='flag-5'>完整</b>的單芯片數(shù)模<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    ADS7842完整的4通道、12位模數(shù)轉(zhuǎn)換器(ADC)數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS7842完整的4通道、12位模數(shù)轉(zhuǎn)換器(ADC)數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-26 10:10 ?0次下載
    ADS7842<b class='flag-5'>完整</b>的4通道、12位模數(shù)<b class='flag-5'>轉(zhuǎn)換器</b>(ADC)數(shù)據(jù)表

    ADS7804完整的12位采樣模數(shù)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS7804完整的12位采樣模數(shù)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-19 10:57 ?0次下載
    ADS7804<b class='flag-5'>完整</b>的12位采樣模數(shù)<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    ADS8504完整的12位采樣模數(shù)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS8504完整的12位采樣模數(shù)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-17 11:46 ?0次下載
    ADS8504<b class='flag-5'>完整</b>的12位采樣模數(shù)<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    ADS8505完整的16位采樣模數(shù)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS8505完整的16位采樣模數(shù)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-17 11:45 ?0次下載
    ADS8505<b class='flag-5'>完整</b>的16位采樣模數(shù)<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    ADS8515完整的16位采樣模數(shù)(A/D)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS8515完整的16位采樣模數(shù)(A/D)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-17 11:44 ?0次下載
    ADS8515<b class='flag-5'>完整</b>的16位采樣模數(shù)(A/D)<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    ADS8519完整的16位采樣模數(shù)(A/D)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS8519完整的16位采樣模數(shù)(A/D)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-17 11:43 ?0次下載
    ADS8519<b class='flag-5'>完整</b>的16位采樣模數(shù)(A/D)<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    ADS7805完整的16位采樣模數(shù)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS7805完整的16位采樣模數(shù)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-17 11:25 ?0次下載
    ADS7805<b class='flag-5'>完整</b>的16位采樣模數(shù)<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    ADS8508完整的12位采樣模數(shù)(A/D)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS8508完整的12位采樣模數(shù)(A/D)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-17 10:34 ?0次下載
    ADS8508<b class='flag-5'>完整</b>的12位采樣模數(shù)(A/D)<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    ADS8509完整的16位采樣模數(shù)(A/D)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS8509完整的16位采樣模數(shù)(A/D)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-17 10:33 ?2次下載
    ADS8509<b class='flag-5'>完整</b>的16位采樣模數(shù)(A/D)<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    ADS7811完整的16位采樣模數(shù)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS7811完整的16位采樣模數(shù)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 06-20 14:11 ?0次下載
    ADS7811<b class='flag-5'>完整</b>的16位采樣模數(shù)<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    ADS7800完整的12位采樣模數(shù)(A/D)轉(zhuǎn)換器數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《ADS7800完整的12位采樣模數(shù)(A/D)轉(zhuǎn)換器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 06-20 14:10 ?0次下載
    ADS7800<b class='flag-5'>完整</b>的12位采樣模數(shù)(A/D)<b class='flag-5'>轉(zhuǎn)換器</b>數(shù)據(jù)表

    電源轉(zhuǎn)換器的浪涌電流可能比穩(wěn)態(tài)電流高很多倍

    電源轉(zhuǎn)換器
    深圳崧皓電子
    發(fā)布于 :2024年06月14日 06:59:06

    網(wǎng)段IP耦合(PLC網(wǎng)段轉(zhuǎn)換器)是什么?

    上述操作,受到廠家的不喜。 對此,物通博聯(lián)提供網(wǎng)段IP耦合(PLC網(wǎng)段轉(zhuǎn)換器)的解決方案,適用于生產(chǎn)網(wǎng)絡(luò)對 PLC、HMI、CNC、DCS、MES等
    的頭像 發(fā)表于 04-18 15:29 ?450次閱讀
    <b class='flag-5'>跨</b>網(wǎng)段IP耦合<b class='flag-5'>器</b>(PLC網(wǎng)段<b class='flag-5'>轉(zhuǎn)換器</b>)是什么?

    網(wǎng)段IP耦合是什么?網(wǎng)段IP耦合的功能作用

    網(wǎng)段IP耦合就是網(wǎng)段隔離適用于生產(chǎn)網(wǎng)絡(luò)對 PLC、HMI、CNC、DCS、MES等網(wǎng)絡(luò)通訊和數(shù)據(jù)采集,兼有
    的頭像 發(fā)表于 12-26 15:55 ?573次閱讀
    RM新时代网站-首页