RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌研究人員利用3D卷積網(wǎng)絡(luò)打造視頻生成新系統(tǒng)

DPVg_AI_era ? 來(lái)源:lq ? 2019-06-02 09:30 ? 次閱讀

谷歌研究人員利用3D卷積網(wǎng)絡(luò)打造視頻生成新系統(tǒng),只需要視頻的第一幀和最后一幀,就能生成完整合理的整段視頻,是不是很神奇?

漫畫書秒變動(dòng)畫片了解一下?

想象一下,現(xiàn)在你的手中有一段視頻的第一幀和最后一幀圖像,讓你負(fù)責(zé)把中間的圖像填進(jìn)去,生成完整的視頻,從現(xiàn)有的有限信息中推斷出整個(gè)視頻。你能做到嗎?

這可能聽(tīng)起來(lái)像是一項(xiàng)不可能完成的任務(wù),但谷歌人工智能研究部門的研究人員已經(jīng)開(kāi)發(fā)出一種新系統(tǒng),可以由視頻第一幀和最后一幀生成“似是而非的”視頻序列,這個(gè)過(guò)程被稱為“inbetween”。

“想象一下,如果我們能夠教一個(gè)智能系統(tǒng)來(lái)將漫畫自動(dòng)變成動(dòng)畫,會(huì)是什么樣子?如果真實(shí)現(xiàn)了這一點(diǎn),無(wú)疑將徹底改變動(dòng)畫產(chǎn)業(yè)?!霸撜撐牡墓餐髡邔懙??!半m然這種極其節(jié)省勞動(dòng)力的能力仍然超出目前最先進(jìn)的水平,但計(jì)算機(jī)視覺(jué)機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步正在使這個(gè)目標(biāo)的實(shí)現(xiàn)越來(lái)越接近?!?/p>

原理與模型結(jié)構(gòu)

這套AI系統(tǒng)包括一個(gè)完全卷積模型,這是是受動(dòng)物視覺(jué)皮層啟發(fā)打造的深度神經(jīng)網(wǎng)絡(luò),最常用于分析視覺(jué)圖像。它由三個(gè)部分組成:2D卷積圖像解碼器,3D卷積潛在表示生成器,以及視頻生成器。

圖1:視頻生成模型示意圖

圖像解碼器將來(lái)自目標(biāo)視頻的幀映射到潛在空間,潛在表示生成器學(xué)習(xí)對(duì)包含在輸入幀中的信息進(jìn)行合并。最后,視頻生成器將潛在表示解碼為視頻中的幀。

研究人員表示,將潛在表示生成與視頻解碼分離對(duì)于成功實(shí)現(xiàn)中間視頻至關(guān)重要,直接用開(kāi)始幀和結(jié)束幀的編碼表示生成視頻的結(jié)果很差。為了解決這個(gè)問(wèn)題,研究人員設(shè)計(jì)了潛在表示生成器,對(duì)幀的表示進(jìn)行融合,并逐步增加生成視頻的分辨率。

圖2:模型生成的視頻幀序列圖,對(duì)于每個(gè)數(shù)據(jù)集上方的圖表示模型生成的序列,下方為原視頻,其中首幀和尾幀用于生成模型的采樣。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證該方法,研究人員從三個(gè)數(shù)據(jù)集中獲取視頻 - BAIR機(jī)器人推送,KTH動(dòng)作數(shù)據(jù)庫(kù)和UCF101動(dòng)作識(shí)別數(shù)據(jù)集 - 并將這些數(shù)據(jù)下采樣至64 x 64像素的分辨率。每個(gè)樣本總共包含16幀,其中的14幀由AI系統(tǒng)負(fù)責(zé)生成。

研究人員為每對(duì)視頻幀運(yùn)行100次模型,并對(duì)每個(gè)模型變量和數(shù)據(jù)集重復(fù)10次,在英偉達(dá)Tesla V100顯卡平臺(tái)上的訓(xùn)練時(shí)間約為5天。結(jié)果如下表所示:

表1:我們報(bào)告了完整模型和兩個(gè)基線的平均FVD,對(duì)每個(gè)模型和數(shù)據(jù)集重復(fù)10次,每次運(yùn)行100個(gè)epoch,表中FVD值越低,表示對(duì)應(yīng)生成視頻的質(zhì)量越高。

表2:使用直接3D卷積和基于的替代方法的模型的平均SSIM

RNN(SDVI)或光流(SepConv和SuperSloMo),數(shù)值越高越好。

研究人員表示,AI生成的視頻幀序列在風(fēng)格上與給定的起始幀和結(jié)束幀保持一致,而且看上去說(shuō)得通?!傲钊梭@喜的是,這種方法可以在如此長(zhǎng)的時(shí)間段內(nèi)實(shí)現(xiàn)視頻生成,”該團(tuán)隊(duì)表示,“這可能給未來(lái)的視頻生成技術(shù)研究提供了一個(gè)有用的替代視角?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1143

    瀏覽量

    40717
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6161

    瀏覽量

    105298
  • 智能系統(tǒng)
    +關(guān)注

    關(guān)注

    2

    文章

    394

    瀏覽量

    72446

原文標(biāo)題:谷歌AI動(dòng)畫接龍:只用頭尾兩幀圖像,片刻生成完整視頻!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    OpenAI開(kāi)放Sora視頻生成模型

    OpenAI近日宣布,其傾力打造的人工智能視頻生成系統(tǒng)Sora已正式向美國(guó)及其他市場(chǎng)的ChatGPT Plus訂閱用戶開(kāi)放。自去年首次公開(kāi)預(yù)覽以來(lái),Sora歷經(jīng)約10個(gè)月的精心研發(fā)與優(yōu)化,現(xiàn)已全面
    的頭像 發(fā)表于 12-10 11:16 ?305次閱讀

    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)3D生成應(yīng)用

    1 騰訊元寶首發(fā)3D生成應(yīng)用 只需一張照片,便能迅速打造獨(dú)一無(wú)二的3D角色。7月16日,騰訊旗下大模型應(yīng)用“騰訊元寶”上線了“3D角色夢(mèng)工廠
    的頭像 發(fā)表于 07-18 11:39 ?750次閱讀
    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)<b class='flag-5'>3D</b><b class='flag-5'>生成</b>應(yīng)用

    奧比中光3D相機(jī)打造高質(zhì)量、低成本的3D動(dòng)作捕捉與3D動(dòng)畫內(nèi)容生成方案

    ? 在過(guò)去幾十年里,動(dòng)作捕捉(MoCap)技術(shù)經(jīng)歷了顯著的發(fā)展,廣泛被應(yīng)用于電影、游戲、虛擬現(xiàn)實(shí)、醫(yī)療等多個(gè)領(lǐng)域。近期,奧比中光合作客戶Moverse使用Orbbec Femto系列3D相機(jī),打造
    的頭像 發(fā)表于 06-25 16:37 ?1067次閱讀

    Runway發(fā)布Gen-3 Alpha視頻生成模型

    專為電影和圖像內(nèi)容創(chuàng)作者提供生成式AI工具的Runway公司近日宣布,其最新的Gen-3 Alpha視頻生成模型已經(jīng)正式問(wèn)世。這款模型在多方面均取得了顯著的進(jìn)步,為創(chuàng)作者們帶來(lái)了前所未有的便利和可能性。
    的頭像 發(fā)表于 06-19 09:25 ?567次閱讀

    谷歌發(fā)布全新視頻生成模型Veo與Imagen文生圖模型

    谷歌近日宣布了兩項(xiàng)重大技術(shù)進(jìn)展,首先是視頻生成模型Veo的正式推出。這款先進(jìn)的模型能夠支持生成質(zhì)量更高的視頻內(nèi)容,讓用戶能夠根據(jù)自己的需求設(shè)定光照、鏡頭語(yǔ)言、
    的頭像 發(fā)表于 05-16 10:46 ?387次閱讀

    阿里云視頻生成技術(shù)創(chuàng)新!視頻生成使用了哪些AI技術(shù)和算法

    照片就能讓 EMO 合成演戲唱歌視頻。 ? 阿里云在視頻生成領(lǐng)域的創(chuàng)新 ? EMO(Emote Portrait Alive)是一個(gè)由阿里巴巴集團(tuán)智能計(jì)算研究院開(kāi)發(fā)的框架,一個(gè)音頻驅(qū)動(dòng)的 AI 肖像
    的頭像 發(fā)表于 05-08 00:07 ?3365次閱讀

    NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉(zhuǎn) 3D 生成式 AI 模型)實(shí)現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?492次閱讀
    NVIDIA<b class='flag-5'>生成</b>式AI<b class='flag-5'>研究</b>實(shí)現(xiàn)在1秒內(nèi)<b class='flag-5'>生成</b><b class='flag-5'>3D</b>形狀

    Stability AI推出Stable Video 3D模型,可制作多視角3D視頻

    SV3D_u是Stable Video 3D的一個(gè)版本,僅需單幅圖片即可生成運(yùn)動(dòng)軌跡視頻,無(wú)須進(jìn)行相機(jī)調(diào)整。擴(kuò)充版本的SV3D_p加入了軌道
    的頭像 發(fā)表于 03-21 14:57 ?1017次閱讀

    新火種AI|圍攻光明頂:Sora效應(yīng)下的AI視頻生成競(jìng)賽

    Sora的出現(xiàn),讓AI視頻生成領(lǐng)域真正“活”了起來(lái)
    的頭像 發(fā)表于 03-16 11:12 ?636次閱讀

    openai發(fā)布首個(gè)視頻生成模型sora

    美國(guó)當(dāng)?shù)貢r(shí)間2024年2月15日 ,OpenAI正式發(fā)布文生視頻模型Sora ,并發(fā)布了48個(gè)文生視頻案例和技術(shù)報(bào)告 ,正式入局視頻生成領(lǐng)域 。Sora能夠根據(jù)提示詞生成60s的連貫
    的頭像 發(fā)表于 02-21 16:45 ?1255次閱讀

    AI視頻年大爆發(fā)!2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點(diǎn)

    2023年,也是AI視頻元年。過(guò)去一年究竟有哪些爆款應(yīng)用誕生,未來(lái)視頻生成領(lǐng)域面臨的難題還有哪些?
    的頭像 發(fā)表于 02-20 10:40 ?1207次閱讀
    AI<b class='flag-5'>視頻</b>年大爆發(fā)!2023年AI<b class='flag-5'>視頻生成</b>領(lǐng)域的現(xiàn)狀全盤點(diǎn)

    OpenAI發(fā)布文生視頻模型Sora,引領(lǐng)AI視頻生成新紀(jì)元

    在人工智能(AI)領(lǐng)域掀起新一輪革命浪潮的,正是OpenAI最新推出的文生視頻大模型——Sora。這款被業(yè)界廣泛贊譽(yù)的模型,以其“逼真”和“富有想象力”的視頻生成能力,徹底顛覆了傳統(tǒng)視頻生成領(lǐng)域的局限,將平均
    的頭像 發(fā)表于 02-19 11:03 ?938次閱讀

    OpenAI發(fā)布首個(gè)視頻生成模型Sora

    OpenAI近日宣布推出其全新的文本到視頻生成模型——Sora。這一突破性的技術(shù)將視頻創(chuàng)作帶入了一個(gè)全新的紀(jì)元,為用戶提供了前所未有的創(chuàng)作可能性。
    的頭像 發(fā)表于 02-18 10:07 ?1053次閱讀

    介紹一種使用2D材料進(jìn)行3D集成的新方法

    美國(guó)賓夕法尼亞州立大學(xué)的研究人員展示了一種使用2D材料進(jìn)行3D集成的新穎方法。
    的頭像 發(fā)表于 01-13 11:37 ?1058次閱讀

    4DGen:基于動(dòng)態(tài)3D高斯的可控4D生成新工作

    盡管3D視頻生成取得了飛速的發(fā)展,由于缺少高質(zhì)量的4D數(shù)據(jù)集,4D生成始終面臨著巨大的挑戰(zhàn)。
    的頭像 發(fā)表于 01-04 15:57 ?923次閱讀
    4DGen:基于動(dòng)態(tài)<b class='flag-5'>3D</b>高斯的可控4<b class='flag-5'>D</b><b class='flag-5'>生成</b>新工作
    RM新时代网站-首页