RM新时代首页,新时代娱乐平台网址

近日，迪士尼研究所和羅格斯大學(xué)的科學(xué)家共同發(fā)表了關(guān)于AI文本生成動(dòng)畫模型的論文。

研究人員表示，這種算法只要在輸入的文本中描述某些活動(dòng)即可，不需要注釋數(shù)據(jù)和進(jìn)行大量訓(xùn)練就能產(chǎn)生動(dòng)畫。

這篇論文中，研究人員進(jìn)一步提出了端到端模型，這種模型可以創(chuàng)建一個(gè)粗略的故事版和電影劇本的視頻，用來描繪電影劇本中的文字。此外，這個(gè)系統(tǒng)還可用于生成訓(xùn)練端到端神經(jīng)系統(tǒng)的訓(xùn)練數(shù)據(jù)。

迪士尼羅格斯大學(xué)關(guān)于AI文本生成動(dòng)畫模型的論文

迪士尼一直十分關(guān)注AI領(lǐng)域的進(jìn)展，多年來一直嘗試將AI技術(shù)融入自己的各項(xiàng)產(chǎn)業(yè)當(dāng)中，也曾多次與大學(xué)或其他研究機(jī)構(gòu)合作，開發(fā)了一系列訓(xùn)練模型。這次，迪士尼又將文本轉(zhuǎn)換視頻的技術(shù)進(jìn)一步加強(qiáng)，使模型自動(dòng)生成動(dòng)畫。

一、更復(fù)雜的文本如何轉(zhuǎn)換成動(dòng)畫？

迪士尼的文字轉(zhuǎn)換為動(dòng)畫AI系統(tǒng)圖解

將文本轉(zhuǎn)換為動(dòng)畫并不是一項(xiàng)簡(jiǎn)單的任務(wù)，大多數(shù)將文本轉(zhuǎn)換為視頻的工具不能處理復(fù)雜句子，因?yàn)檩斎氲木渥雍洼敵龅膭?dòng)畫都沒有固定的結(jié)構(gòu)。為了克服這種問題，兩位論文作者共同構(gòu)建了一個(gè)包含多個(gè)組件模塊的神經(jīng)網(wǎng)絡(luò)。

這個(gè)網(wǎng)絡(luò)由幾個(gè)部分組成: 一個(gè)可以自動(dòng)將文本與劇本場(chǎng)景描述隔離開的腳本解析模塊、一個(gè)自然語言處理模塊（使用一套語言規(guī)則簡(jiǎn)化復(fù)雜句子，并從簡(jiǎn)化句子中提取信息，轉(zhuǎn)化為預(yù)定義的動(dòng)作表示），以及一個(gè)將所述表示轉(zhuǎn)換為動(dòng)畫序列的生成模型。

迪士尼AI系統(tǒng)的文本簡(jiǎn)化階段

簡(jiǎn)化后的方法能更容易的提取腳本中的關(guān)鍵信息，新研發(fā)的系統(tǒng)能夠自主地將復(fù)雜句子拆分，并組裝成更簡(jiǎn)單的句子，對(duì)其進(jìn)行遞歸處理，直到不可能進(jìn)一步簡(jiǎn)化。

接下來，系統(tǒng)將“協(xié)調(diào)”句法關(guān)系相同、功能相同的句子。最后，詞匯簡(jiǎn)化器將簡(jiǎn)化后句子中的動(dòng)作，與預(yù)定義庫中的52個(gè)動(dòng)畫匹配（通過同義詞詞典擴(kuò)展到92個(gè)）。

然后，在一個(gè)名為Cardinal的管道中將動(dòng)作輸入，并在一個(gè)流行的視頻游戲引擎Unreal中創(chuàng)建預(yù)可視化。利用預(yù)定義的動(dòng)畫庫、預(yù)加載的對(duì)象以及可用于創(chuàng)建角色的模型，最終，這個(gè)系統(tǒng)可以生成一個(gè)3D動(dòng)畫視頻。

為了訓(xùn)練這個(gè)系統(tǒng)，研究人員從IMSDb、SimplyScripts和ScriptORama5等可自由獲取資源的電影劇本數(shù)據(jù)庫中，搜集了超過1000個(gè)劇本，從中選取了996個(gè)，編寫了場(chǎng)景描述語料庫。這個(gè)語料庫由525,708個(gè)描述組成，包含1,402,864個(gè)句子，其中920,817個(gè)（超過40%）至少有一個(gè)動(dòng)作動(dòng)詞。

二、動(dòng)畫合理性達(dá)68%，研究人員將進(jìn)一步優(yōu)化系統(tǒng)

在一項(xiàng)定性測(cè)試中，22名參與者以5分制標(biāo)準(zhǔn)，來評(píng)估系統(tǒng)生成的20個(gè)動(dòng)畫（例如，如果所顯示的視頻對(duì)文本來說是合理的動(dòng)畫，則視頻中描繪了多少文本信息，以及視頻中有多少信息存在于文本中），68%的參與者認(rèn)為系統(tǒng)通過輸入劇本生成了“合理”的動(dòng)畫。

研究人員認(rèn)為，除了系統(tǒng)本身的局限性之外，生成動(dòng)畫的“不合理”成分也與文本中關(guān)于行動(dòng)的模糊性有關(guān)。他們承認(rèn)這個(gè)系統(tǒng)并不完美，它的動(dòng)作和對(duì)象列表并不是詳盡無遺的。有時(shí)候，詞匯簡(jiǎn)化不能將動(dòng)詞（如“watch”）映射到相似的動(dòng)畫（“l(fā)ook”）中，或者只能為原句中有很多主語的動(dòng)詞創(chuàng)建幾個(gè)簡(jiǎn)化的句子。

內(nèi)部評(píng)價(jià)和外部評(píng)價(jià)顯示了該系統(tǒng)性能的合理性。研究人員計(jì)劃在今后的工作中，重點(diǎn)關(guān)注如何能使系統(tǒng)更充分的利用文本中描述的話語信息，來解決文本中關(guān)于行動(dòng)模糊性的問題。

三、迪士尼的AI研究歷程

從技術(shù)的角度來看，迪士尼似乎很重視在AI方面的研究，也有過諸多嘗試。

2017年8月，迪士尼與蘇黎世聯(lián)邦理工學(xué)院合作，開發(fā)了將畫面與聲音連接起來的機(jī)器學(xué)習(xí)系統(tǒng)，這種系統(tǒng)可以將語音與畫面結(jié)合起來，使視頻內(nèi)容看起來更加連貫。

研究人員將一系列含有雜音和背景音不純的視頻輸入系統(tǒng)，用來訓(xùn)練模型。訓(xùn)練后的系統(tǒng)能夠把畫面信息和聲音信息做出關(guān)聯(lián)。比如，隨著關(guān)門的動(dòng)作進(jìn)行，人們會(huì)“想象”特定的關(guān)門聲音。本質(zhì)上，其實(shí)是人們把關(guān)門相關(guān)的視覺信息跟聲音信息做了連接。

這項(xiàng)研究想要做的，就是培養(yǎng)AI系統(tǒng)的這種關(guān)聯(lián)性，他們訓(xùn)練的AI系統(tǒng)成功的將關(guān)門、杯子碰撞和汽車在馬路上行駛畫面于聲音進(jìn)行了配對(duì)。這也將幫助視頻剪輯師更好地工作。

迪士尼發(fā)布AR形象與實(shí)際物體互動(dòng)圖片

2018年1月，迪士尼的研究人員發(fā)布了一項(xiàng)可以使動(dòng)畫AR角色與實(shí)際的物體互動(dòng)的黑科技。

比如，當(dāng)一個(gè)3D卡通角色映射在家里的客廳地板上時(shí)，這個(gè)虛擬的形象會(huì)跳過臺(tái)階或繞開障礙物行走，甚至當(dāng)寵物狗沖過來的時(shí)候還可能一下把它撞到。

這項(xiàng)研究做到了AR體驗(yàn)與現(xiàn)實(shí)的互動(dòng)，給動(dòng)畫帶來了更多樂趣。說不定以后我們自己也可以和動(dòng)畫里的人物進(jìn)行互動(dòng)了。

2018年9月，迪士尼AI研究中心還嘗試了讓機(jī)器人完成像超級(jí)英雄一樣的特技動(dòng)作。迪士尼的特技實(shí)驗(yàn)包括訓(xùn)練機(jī)器人的神經(jīng)網(wǎng)絡(luò)來控制機(jī)器人，以此完成上天入地、爬行、劃船等動(dòng)作，人類能做的它可以，人類不能做的，它也可以。

四、文本轉(zhuǎn)換視頻技術(shù)早已應(yīng)用

其實(shí)，從文本片段創(chuàng)建原始剪輯的AI并不是最新的研究發(fā)現(xiàn)。

2016年4月，***創(chuàng)企GliaCloud就利用AI技術(shù)，將文本信息的主要內(nèi)容以視頻的形式展示了出來。這家AI視頻制作公司在2015年，由全球48位Google云技術(shù)專家之一David Chen和在廣告領(lǐng)域有著20年業(yè)務(wù)拓展經(jīng)歷的Dominique Tu在***共同創(chuàng)建。GliaStudio對(duì)指定文本的內(nèi)容進(jìn)行分析和總結(jié)之后，根據(jù)所提取的內(nèi)容從自有資料庫或是公共資源中尋找相關(guān)的照片、視頻片段甚至畫外音來生成影片。

去年，也有研究人員詳細(xì)介紹了一個(gè)利用神經(jīng)網(wǎng)絡(luò)模仿生物神經(jīng)元的系統(tǒng)，這種系統(tǒng)能夠生成32幀長(zhǎng)、6464像素的視頻。研究人員表示，這種系統(tǒng)生成視頻分兩個(gè)階段進(jìn)行，第一階段使用文本創(chuàng)建視頻的要點(diǎn)，一般是背景顏色和對(duì)象布局的模糊圖像。第二階段同時(shí)考慮到要點(diǎn)和文本的其他內(nèi)容，然后要點(diǎn)與文本內(nèi)容結(jié)合，生成一段視頻。

比如，將“在草地上打高爾夫球”這句話，生成一個(gè)人們?cè)诓莸厣洗蚋郀柗蚯虻囊曨l。

從自然語言文本自動(dòng)生成動(dòng)畫在很多領(lǐng)域都有應(yīng)用，比如電影腳本編寫、教學(xué)視頻和公共安全等內(nèi)容。

這些AI算法系統(tǒng)，可以為內(nèi)容創(chuàng)作者提供更快的迭代、原型設(shè)計(jì)和概念驗(yàn)證，有助于提高劇本編寫效率。

結(jié)語：AI生成動(dòng)畫或有更廣闊的市場(chǎng)

研究人員表示，迪士尼進(jìn)行AI自動(dòng)生成動(dòng)畫的研究不是為了取代編劇和藝術(shù)家的工作，而是為了提高繁瑣工作程序的效率。

雖然目前研究結(jié)果還不完善，生成動(dòng)畫的系統(tǒng)還不能百分之百將文本內(nèi)容轉(zhuǎn)換成動(dòng)畫，但是這項(xiàng)研究對(duì)于文本轉(zhuǎn)換視頻技術(shù)也是一次有意義的嘗試。

迪士尼動(dòng)畫在全世界都有十分廣泛的影響，塑造了一個(gè)又一個(gè)經(jīng)典的動(dòng)畫形象。如今，他們?cè)贏I自動(dòng)生成動(dòng)畫方面的研究也很可能影響整個(gè)動(dòng)畫電影制作市場(chǎng)，AI生成的方式也許將成為未來動(dòng)畫電影制作的新方向。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30728

瀏覽量
268882
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8406

瀏覽量
132558
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
618

瀏覽量
13552

原文標(biāo)題：僅訓(xùn)練996個(gè)劇本，迪士尼用AI自動(dòng)生成動(dòng)畫

文章出處：【微信號(hào)：AI_shequ，微信公眾號(hào)：人工智能愛好者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

如何構(gòu)建文本生成器？如何實(shí)現(xiàn)馬爾可夫鏈以實(shí)現(xiàn)更快的預(yù)測(cè)模型

Compose，聊天機(jī)器人都是應(yīng)用的例子，本文將使用馬爾可夫鏈構(gòu)建一個(gè)文本生成器。這將是一個(gè)基于字符的模型，它接受鏈的前一個(gè)字符并生成序列中的下一個(gè)字母。通過使用樣例單詞訓(xùn)練我們的程序，文本

發(fā)表于 11-22 15:06

基于生成對(duì)抗網(wǎng)絡(luò)GAN模型的陸空通話文本生成系統(tǒng)設(shè)計(jì)

可以及時(shí)發(fā)現(xiàn)飛行員錯(cuò)誤的復(fù)誦內(nèi)容。考慮到訓(xùn)練一個(gè)有效的差錯(cuò)校驗(yàn)網(wǎng)絡(luò)模型需要大量的文本數(shù)據(jù)，本文提出一種基于生成對(duì)抗網(wǎng)絡(luò)GAN的陸空通話文本生成方法。首先對(duì)現(xiàn)有真實(shí)的陸空通話

發(fā)表于 03-26 09:22 ?34次下載

基于生成器的圖像分類對(duì)抗樣本生成模型

現(xiàn)有基于生成器的對(duì)抗樣本生成模型相比基于迭代修改原圖的算法可有效降低對(duì)抗樣本的構(gòu)造時(shí)間，但其生成的對(duì)抗樣本與原圖在感知上具有明顯差異，人眼易察覺。該

發(fā)表于 04-07 14:56 ?2次下載

基于生成式對(duì)抗網(wǎng)絡(luò)的深度文本生成模型

評(píng)論，對(duì)音樂作品自動(dòng)生成評(píng)論可以在一定程度上解決此問題。在在線唱歌平臺(tái)上的評(píng)論文本與音樂作品的表現(xiàn)評(píng)級(jí)存在一定的關(guān)系。因此，研究考慮音樂作品評(píng)級(jí)信息的評(píng)論文本自動(dòng)生成的方為此提出了一種

發(fā)表于 04-12 13:47 ?15次下載

基于評(píng)分矩陣與評(píng)論文本的深度學(xué)習(xí)模型

基于評(píng)分矩陣與評(píng)論文本的深度學(xué)習(xí)模型

發(fā)表于 06-24 11:20 ?58次下載

文本生成任務(wù)中引入編輯方法的文本生成

4. FELIX FELIX是Google Research在“FELIX: Flexible Text Editing Through Tagging and Insertion”一文中提出的文本生成

發(fā)表于 07-23 16:56 ?1729次閱讀

受控文本生成模型的一般架構(gòu)及故事生成任務(wù)等方面的具體應(yīng)用

來自：哈工大訊飛聯(lián)合實(shí)驗(yàn)室本期導(dǎo)讀：本文是對(duì)受控文本生成任務(wù)的一個(gè)簡(jiǎn)單的介紹。首先，本文介紹了受控文本生成模型的一般架構(gòu)，點(diǎn)明了受控文本生成模型

發(fā)表于 10-13 09:46 ?3525次閱讀

基于GPT-2進(jìn)行文本生成

文本生成是自然語言處理中一個(gè)重要的研究領(lǐng)域，具有廣闊的應(yīng)用前景。國內(nèi)外已經(jīng)有諸如Automated Insights、Narrative Science以及“小南”機(jī)器人和“小明”機(jī)器人等文本生成

發(fā)表于 04-13 08:35 ?4756次閱讀

基于VQVAE的長(zhǎng)文本生成 利用離散code來建模文本篇章結(jié)構(gòu)的方法

寫在前面近年來，多個(gè)大規(guī)模預(yù)訓(xùn)練語言模型 GPT、BART、T5 等被提出，這些預(yù)訓(xùn)練模型在自動(dòng)文摘等多個(gè)文本生成任務(wù)上顯著優(yōu)于非預(yù)訓(xùn)練語言模型。但對(duì)于開放式

發(fā)表于 12-01 17:07 ?1724次閱讀

ELMER: 高效強(qiáng)大的非自回歸預(yù)訓(xùn)練文本生成模型

每個(gè)單詞都依賴于輸入文本與之前生成的單詞。自回歸生成模型只建模了前向的單詞依賴關(guān)系，依次生成的結(jié)構(gòu)也使得自回歸

發(fā)表于 03-13 10:39 ?1392次閱讀

ETH提出RecurrentGPT實(shí)現(xiàn)交互式超長(zhǎng)文本生成

RecurrentGPT 則另辟蹊徑，是利用大語言模型進(jìn)行交互式長(zhǎng)文本生成的首個(gè)成功實(shí)踐。它利用 ChatGPT 等大語言模型理解自然語言指令的能力，通過自然語言模擬了循環(huán)神經(jīng)網(wǎng)絡(luò)（RNNs）的循環(huán)計(jì)算機(jī)制。

發(fā)表于 05-29 14:34 ?838次閱讀

基于文本到圖像模型的可控文本到視頻生成

1. 論文信息 2. 引言 ? 大規(guī)模擴(kuò)散模型在文本到圖像合成方面取得了巨大的突破，并在創(chuàng)意應(yīng)用方面取得了成功。一些工作試圖在視頻領(lǐng)域復(fù)制這個(gè)成功，即在野外世界建模高維復(fù)雜視頻分布。然而，訓(xùn)練這樣

發(fā)表于 06-14 10:39 ?947次閱讀

面向結(jié)構(gòu)化數(shù)據(jù)的文本生成技術(shù)研究

今天我們要講的文本生成是現(xiàn)在最流行的研究領(lǐng)域之一。文本生成的目標(biāo)是讓計(jì)算機(jī)像人類一樣學(xué)會(huì)表達(dá)，目前看基本上接近實(shí)現(xiàn)。這些突然的技術(shù)涌現(xiàn)，使得計(jì)算機(jī)能夠撰寫出高質(zhì)量的自然文本，滿足特定的需求。

發(fā)表于 06-26 14:39 ?620次閱讀

AI大模型在自然語言處理中的應(yīng)用

AI大模型在自然語言處理（NLP）中的應(yīng)用廣泛且深入，其強(qiáng)大的語義理解和生成能力為NLP任務(wù)帶來了顯著的性能提升。以下是對(duì)AI大模型在NLP

發(fā)表于 10-23 14:38 ?446次閱讀

如何使用 Llama 3 進(jìn)行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）進(jìn)行文本生成，可以通過以下幾種方式實(shí)現(xiàn)，取決于你是否愿意在本地運(yùn)行模型或者使用現(xiàn)成的API

發(fā)表于 10-27 14:21 ?337次閱讀