rm新世界,RM新时代还能玩多久

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）日前，阿里云宣布通義實(shí)驗(yàn)室研發(fā)的視頻生成模型EMO正式上線(xiàn)通義App，免費(fèi)對(duì)所有人開(kāi)放。借助這一功能，用戶(hù)可以在歌曲、熱梗、表情包中任選一款模板，然后通過(guò)上傳一張肖像照片就能讓 EMO 合成演戲唱歌視頻。

阿里云在視頻生成領(lǐng)域的創(chuàng)新

EMO（Emote Portrait Alive）是一個(gè)由阿里巴巴集團(tuán)智能計(jì)算研究院開(kāi)發(fā)的框架，一個(gè)音頻驅(qū)動(dòng)的 AI 肖像視頻生成系統(tǒng)，能夠通過(guò)輸入單一的參考圖像和語(yǔ)音音頻，生成具有表現(xiàn)力的面部表情和各種頭部姿勢(shì)的視頻。

據(jù)介紹，通義 App 首批上線(xiàn)了80多個(gè) EMO 模板，包括熱門(mén)歌曲《上春山》《野狼 Disco》等，還有網(wǎng)絡(luò)熱?！袄徖忞u”“回手掏”等。EMO自2月底公布模型論文以來(lái)，在海內(nèi)外引發(fā)廣泛關(guān)注，并與OpenAI的Sora模型相提并論。

具體來(lái)看，EMO的功能包括，音頻驅(qū)動(dòng)的視頻生成，通過(guò)輸入一段音頻（如語(yǔ)音、歌曲等）和一張參考圖片（通常是人物的肖像），就能生成一個(gè)動(dòng)態(tài)的、與音頻內(nèi)容同步的視頻。

阿里EMO使用先進(jìn)的音視頻擴(kuò)散模型和注意力機(jī)制，能夠生成具有高度真實(shí)感和豐富表現(xiàn)力的肖像視頻。肖像的表情和動(dòng)作會(huì)非常自然和流暢，與音頻內(nèi)容緊密同步。

阿里EMO的應(yīng)用場(chǎng)景非常廣泛。它不僅可以用于娛樂(lè)和創(chuàng)作領(lǐng)域，如讓歷史人物“復(fù)活”、為電影角色配音等，還可以用于教育、廣告、游戲等多個(gè)領(lǐng)域，為用戶(hù)提供更多樣化、個(gè)性化的視頻內(nèi)容。

另外，阿里EMO采用高效的算法和計(jì)算框架，能夠在較短的時(shí)間內(nèi)生成高質(zhì)量的肖像視頻。這為用戶(hù)節(jié)省了大量的時(shí)間成本，提高了工作效率。

阿里EMO的框架還具有良好的可擴(kuò)展性和靈活性，可以根據(jù)用戶(hù)的具體需求進(jìn)行定制和優(yōu)化。例如，可以通過(guò)調(diào)整參數(shù)或添加新的模型組件來(lái)優(yōu)化生成視頻的質(zhì)量和性能。

阿里在視頻生成領(lǐng)域做過(guò)非常多創(chuàng)新，此前還推出過(guò)VideoComposer，這是一個(gè)結(jié)合了空間條件和時(shí)序條件的視頻生成框架。它利用單張圖像或草圖作為空間條件，同時(shí)結(jié)合運(yùn)動(dòng)矢量和深度序列等時(shí)序條件，來(lái)生成具有高度視覺(jué)逼真度的視頻。

阿里云還發(fā)布了AtomoVideo模型，這是一種能夠從單一靜態(tài)圖像生成高保真視頻序列的技術(shù)。它結(jié)合了個(gè)性化文本到圖像（T2I）模型，能夠根據(jù)文字描述和靜態(tài)圖片生成符合描述的視頻內(nèi)容。

此外，阿里云視覺(jué)智能開(kāi)放平臺(tái)提供了豐富的視頻生產(chǎn)能力，包括視頻摘要、視頻編輯、視頻人臉融合等功能。這些功能可以應(yīng)用于電商、影視、廣告等多個(gè)領(lǐng)域，幫助用戶(hù)快速生成高質(zhì)量的視頻內(nèi)容。

視頻生成使用到的AI技術(shù)和算法

視頻生成是一個(gè)涉及多個(gè)步驟和技術(shù)的過(guò)程，目前國(guó)內(nèi)外有多款視頻生成工具，如Pixverse、Pika、Runway Gen-2、Kaiber、Plaiday、Genmo等。其中，Pika因其高質(zhì)量和穩(wěn)定的畫(huà)面生成能力而受到用戶(hù)好評(píng)，Runway Gen-2則可以將midjourney生成的圖像轉(zhuǎn)換為高質(zhì)量動(dòng)畫(huà)。另外，Sora作為一款新興的視頻生成工具，其獨(dú)特之處在于能夠生成高質(zhì)量的長(zhǎng)視頻內(nèi)容，并理解長(zhǎng)文本指令以生成詳盡細(xì)節(jié)的視頻內(nèi)容。

從算法的角度來(lái)看，視頻生成涉及到一些基本的算法和技術(shù)。例如，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）中的GRU和LSTM可以有效避免梯度下降和衰減的問(wèn)題，而encoder-decoder架構(gòu)則使得機(jī)器翻譯等任務(wù)的效果大幅提升。在視頻生成領(lǐng)域，這些算法和技術(shù)可能用于生成視頻的內(nèi)容、結(jié)構(gòu)、風(fēng)格等方面。

視頻生成采用了相當(dāng)多的技術(shù)，包括深度學(xué)習(xí)模型，這是視頻生成中最為關(guān)鍵的技術(shù)之一。深度學(xué)習(xí)模型，特別是生成對(duì)抗網(wǎng)絡(luò)（GANs）和變分自編碼器（VAEs），被廣泛應(yīng)用于視頻生成中。這些模型能夠?qū)W習(xí)并模仿視頻數(shù)據(jù)的分布，從而生成新的、與原始數(shù)據(jù)相似的視頻。

計(jì)算機(jī)圖形學(xué)，它在視頻生成中扮演著重要角色，特別是在創(chuàng)建虛擬場(chǎng)景、角色和特效時(shí)。通過(guò)計(jì)算機(jī)圖形學(xué)技術(shù)，可以生成逼真的虛擬場(chǎng)景和角色，并將其與真實(shí)視頻相結(jié)合，創(chuàng)造出獨(dú)特的視覺(jué)效果。

物理模擬，為了生成更逼真的視頻，物理模擬技術(shù)被用來(lái)模擬物體的運(yùn)動(dòng)和交互。這包括模擬物體的運(yùn)動(dòng)軌跡、碰撞效果、光影變化等，以使得生成的視頻更加真實(shí)可信。

自然語(yǔ)言處理，隨著技術(shù)的發(fā)展，自然語(yǔ)言處理（NLP）也被應(yīng)用于視頻生成中。通過(guò)解析文本描述，NLP技術(shù)可以指導(dǎo)視頻生成模型生成與文本內(nèi)容相匹配的視頻。這為視頻生成提供了更多的創(chuàng)意和可能性。

還有音頻合成技術(shù)，除了視覺(jué)元素外，音頻也是視頻的重要組成部分。音頻合成技術(shù)可以生成與視頻內(nèi)容相匹配的音效和背景音樂(lè)，從而提升視頻的觀看體驗(yàn)。此外，還有一些其他的技術(shù)也被用于視頻生成中，如增強(qiáng)學(xué)習(xí)、遷移學(xué)習(xí)等。這些技術(shù)使得視頻生成更加靈活、高效和多樣化。

寫(xiě)在最后

經(jīng)過(guò)近些年的發(fā)展，視頻生成技術(shù)也逐漸成熟，并且在新聞報(bào)道、廣告制作、教育培訓(xùn)、電影與游戲制作、醫(yī)療健康等領(lǐng)域有不少實(shí)際的應(yīng)用案例。未來(lái)，娛樂(lè)與媒體、廣告與營(yíng)銷(xiāo)、教育培訓(xùn)、虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)、醫(yī)療健康等都將會(huì)成為視頻生成技術(shù)的主流應(yīng)用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4607

瀏覽量
92826
AI

AI

+關(guān)注

關(guān)注
87

文章
30728

瀏覽量
268880
阿里云

阿里云

+關(guān)注

關(guān)注
3

文章
952

瀏覽量
43006

評(píng)論

相關(guān)推薦

OpenAI推出AI視頻生成模型Sora

近日，備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這一新品的發(fā)布，無(wú)疑為AI技術(shù)注入了新的活力。據(jù)悉，Sora

發(fā)表于 12-12 09:40 ?169次閱讀

OpenAI開(kāi)放Sora視頻生成模型

OpenAI近日宣布，其傾力打造的人工智能視頻生成系統(tǒng)Sora已正式向美國(guó)及其他市場(chǎng)的ChatGPT Plus訂閱用戶(hù)開(kāi)放。自去年首次公開(kāi)預(yù)覽以來(lái)，Sora歷經(jīng)約10個(gè)月的精心研發(fā)與優(yōu)化，現(xiàn)已全面

發(fā)表于 12-10 11:16 ?305次閱讀

字節(jié)跳動(dòng)自研視頻生成模型Seaweed開(kāi)放

近日，字節(jié)跳動(dòng)旗下的AI內(nèi)容平臺(tái)即夢(mèng)AI傳來(lái)新消息，宣布自研的視頻生成模型Seaweed即日起正式面向平臺(tái)用戶(hù)開(kāi)放使用。這一舉措標(biāo)志著字節(jié)跳動(dòng)在AI

發(fā)表于 11-11 14:31 ?239次閱讀

今日看點(diǎn)丨Vishay裁員800人，關(guān)閉上海等三家工廠；字節(jié)跳動(dòng)發(fā)布兩款視頻生成大模型

企業(yè)市場(chǎng)開(kāi)啟邀測(cè)。 ? 火山引擎介紹，豆包視頻生成模型基于DiT架構(gòu)，通過(guò)高效的DiT融合計(jì)算單元，能更充分地壓縮編碼視頻與文本，讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換，擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語(yǔ)言能力。此外，豆包

發(fā)表于 09-25 15:48 ?743次閱讀

火山引擎推出豆包·視頻生成模型

在近期舉辦的2024火山引擎AI創(chuàng)新巡展上，火山引擎總裁譚待隆重推出了豆包·視頻生成模型，這一舉措標(biāo)志著火山引擎在視頻內(nèi)容生成領(lǐng)域邁出了重要

發(fā)表于 09-25 14:11 ?294次閱讀

阿里通義將發(fā)布視頻生成大模型

在即將召開(kāi)的云棲大會(huì)上，阿里通義將震撼發(fā)布其自主研發(fā)的視頻生成大模型。目前，用戶(hù)已可通過(guò)通義App頻道及通義萬(wàn)相PC端預(yù)約體驗(yàn)這一創(chuàng)新功能，盡管具體使用尚未開(kāi)放。

發(fā)表于 09-19 17:01 ?336次閱讀

阿里首推AI視頻生成利器Tora:指尖畫(huà)圈,自由操控物體運(yùn)動(dòng)軌跡

近日，阿里巴巴團(tuán)隊(duì)震撼發(fā)布了一項(xiàng)革命性的創(chuàng)新成果——Tora，一個(gè)前所未有的AI視頻生成框架。Tora深度融合了文本、視覺(jué)與軌跡條件，依托其獨(dú)創(chuàng)的軌跡導(dǎo)向擴(kuò)散變換器（DiT）

發(fā)表于 08-06 16:41 ?808次閱讀

MediaTek與快手?jǐn)y手創(chuàng)新，端側(cè)視頻生成技術(shù)引領(lǐng)AI新紀(jì)元

在科技日新月異的今天，MediaTek與快手再次攜手，于近日宣布了一項(xiàng)重大技術(shù)突破——高效端側(cè)視頻生成技術(shù)的誕生。這項(xiàng)技術(shù)不僅是對(duì)即將于2024年世界移動(dòng)通信大會(huì)（MWC 2024）上

發(fā)表于 07-05 11:52 ?1008次閱讀

MediaTek聯(lián)合快手推出高效端側(cè)視頻生成技術(shù)

MediaTek 與快手共同宣布，推出高效端側(cè)視頻生成技術(shù)，共同探索并推進(jìn)生成式 AI 技術(shù)的革新。作為對(duì) 2024 世界移動(dòng)通信大會(huì)（MW

發(fā)表于 07-05 11:23 ?4776次閱讀

新火種AI|圍攻光明頂：Sora效應(yīng)下的AI視頻生成競(jìng)賽

Sora的出現(xiàn)，讓AI視頻生成領(lǐng)域真正“活”了起來(lái)

發(fā)表于 03-16 11:12 ?636次閱讀

除了刷屏的Sora，國(guó)內(nèi)外還有哪些AI視頻生成工具

。Sora的發(fā)布也讓AI生成視頻有了突破性進(jìn)展。 ? 過(guò)去一年多，全球科技公司都在發(fā)布各種大模型，然而AI生成內(nèi)容更多集中在文本和圖片方面，

發(fā)表于 02-26 08:42 ?4349次閱讀

openai發(fā)布首個(gè)視頻生成模型sora

美國(guó)當(dāng)?shù)貢r(shí)間2024年2月15日，OpenAI正式發(fā)布文生視頻模型Sora ，并發(fā)布了48個(gè)文生視頻案例和技術(shù)報(bào)告，正式入局視頻生成領(lǐng)域。Sora能夠根據(jù)提示詞

發(fā)表于 02-21 16:45 ?1255次閱讀

AI視頻年大爆發(fā)！2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤(pán)點(diǎn)

2023年，也是AI視頻元年。過(guò)去一年究竟有哪些爆款應(yīng)用誕生，未來(lái)視頻生成領(lǐng)域面臨的難題還有哪些？

發(fā)表于 02-20 10:40 ?1207次閱讀

OpenAI發(fā)布文生視頻模型Sora，引領(lǐng)AI視頻生成新紀(jì)元

在人工智能(AI)領(lǐng)域掀起新一輪革命浪潮的，正是OpenAI最新推出的文生視頻大模型——Sora。這款被業(yè)界廣泛贊譽(yù)的模型，以其“逼真”和“富有想象力”的視頻生成能力，徹底顛覆了傳統(tǒng)視頻生成

發(fā)表于 02-19 11:03 ?938次閱讀

OpenAI發(fā)布首個(gè)視頻生成模型Sora

OpenAI近日宣布推出其全新的文本到視頻生成模型——Sora。這一突破性的技術(shù)將視頻創(chuàng)作帶入了一個(gè)全新的紀(jì)元，為用戶(hù)提供了前所未有的創(chuàng)作可能性。

發(fā)表于 02-18 10:07 ?1053次閱讀

RM新时代网站-首页

搜索歷史

阿里云視頻生成技術(shù)創(chuàng)新！視頻生成使用了哪些AI技術(shù)和算法

評(píng)論

OpenAI推出AI視頻生成模型Sora

OpenAI開(kāi)放Sora視頻生成模型

字節(jié)跳動(dòng)自研視頻生成模型Seaweed開(kāi)放

今日看點(diǎn)丨Vishay裁員800人，關(guān)閉上海等三家工廠；字節(jié)跳動(dòng)發(fā)布兩款視頻生成大模型

火山引擎推出豆包·視頻生成模型

阿里通義將發(fā)布視頻生成大模型

阿里首推AI視頻生成利器Tora:指尖畫(huà)圈,自由操控物體運(yùn)動(dòng)軌跡

MediaTek與快手?jǐn)y手創(chuàng)新，端側(cè)視頻生成技術(shù)引領(lǐng)AI新紀(jì)元

MediaTek聯(lián)合快手推出高效端側(cè)視頻生成技術(shù)

新火種AI|圍攻光明頂：Sora效應(yīng)下的AI視頻生成競(jìng)賽

除了刷屏的Sora，國(guó)內(nèi)外還有哪些AI視頻生成工具

openai發(fā)布首個(gè)視頻生成模型sora

AI視頻年大爆發(fā)！2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤(pán)點(diǎn)

OpenAI發(fā)布文生視頻模型Sora，引領(lǐng)AI視頻生成新紀(jì)元

OpenAI發(fā)布首個(gè)視頻生成模型Sora