電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)今年春節(jié)期間,OpenAI的AI文字生成視頻模型Sora驚艷全世界,極高的視頻生成效果、長達(dá)60秒的視頻生成長度,讓過去Pika Labs推出的Pika 1.0、去年Runway推出的Gen-1、谷歌團(tuán)隊(duì)發(fā)布的VideoPoet等各種文生視頻模型都黯然失色。
然而,Sora在發(fā)布近4個(gè)月的時(shí)間里,依然沒有開放普通用戶使用,同時(shí)也沒有更多的視頻案例流出,目前只有官方發(fā)布的演示視頻。
最近,快手旗下的名為“可靈”的文生視頻大模型上線,與Sora不同的是,可靈發(fā)布即開放申請(qǐng)使用,目前已經(jīng)有大量用戶獲得使用名額,社交平臺(tái)上已經(jīng)有不少用戶上傳了可靈生成的視頻,甚至在海外AI圈迅速爆火。
對(duì)比Sora,可靈的效果如何?
快手在推出可靈時(shí),很明確地表示可靈是“首個(gè)效果對(duì)標(biāo)Sora且面向用戶開放的文生視頻大模型”。既然對(duì)標(biāo)Sora,那么就要看下雙方的實(shí)際表現(xiàn)如何了。
首先從生成視頻的指標(biāo)上看,Sora宣稱能夠輸出1080p分辨率,最長60秒的視頻,從OpenAI展示出的Demo來看,Sora的強(qiáng)大之處更在于物體模型的穩(wěn)定,不僅是在單鏡頭運(yùn)動(dòng)中物體建模能夠保持一致性,即使是多鏡頭的畫面切換中,依然能夠保持色彩、畫面風(fēng)格的一致。
可靈官方宣稱的指標(biāo)是,支持長達(dá)2分鐘的電影級(jí)畫面輸出,支持720p和1080p視頻輸出,幀率30fps,同時(shí)支持多種寬高比??伸`采用3D時(shí)空聯(lián)合注意力機(jī)制,能夠更好地建模復(fù)雜時(shí)空運(yùn)動(dòng),生成較大幅度運(yùn)動(dòng)的視頻內(nèi)容,同時(shí)能夠符合運(yùn)動(dòng)規(guī)律。
提示詞:小男孩在花園里騎自行車經(jīng)歷秋冬春夏四季變換
在一些演示視頻中,也可以看到可靈的物理建模比較穩(wěn)定,在一分多鐘的長鏡頭畫面中,整體畫面一致性表現(xiàn)較為理想。
提示詞:微距鏡頭,火山在一個(gè)咖啡杯中噴發(fā)
文生視頻的一個(gè)重要應(yīng)用就是生成現(xiàn)實(shí)中不存在的畫面,能夠充分將人的想象力轉(zhuǎn)化成視頻。Sora發(fā)布之初在咖啡杯中的海盜船令人印象深刻,可靈官方演示視頻中也有類似的案例。
提示詞:一個(gè)戴眼鏡的中國男孩在快餐店內(nèi)閉眼享受美味的芝士漢堡
在“吃漢堡”的場景中,Sora此前的演示視頻已經(jīng)較為真實(shí)地展示了漢堡的咬痕,但可靈添加了更多細(xì)節(jié),不僅是漢堡在被咬后的缺口,同時(shí)小男孩咬下漢堡后嘴邊殘留的碎屑也展現(xiàn)出來了,更加符合物理規(guī)律。
不過,目前可靈內(nèi)測的版本只支持5秒、720p分辨率的視頻,有博主測試同樣提示詞,可靈有時(shí)候理解相對(duì)Sora會(huì)較弱。
比如提示詞:動(dòng)畫場景特寫了一個(gè)跪在融化的紅燭旁的毛茸茸的小怪物。藝術(shù)風(fēng)格是3D和現(xiàn)實(shí)主義的,重點(diǎn)是照明和紋理。這幅畫的基調(diào)是驚奇和好奇,因?yàn)楣治锉牬笱劬堉炷曋鹧?。它的姿?shì)和表情傳達(dá)出一種天真和頑皮的感覺,就好像它是第一次探索周圍的世界。暖色和戲劇性燈光的使用進(jìn)一步增強(qiáng)了圖像的舒適氛圍。
這串細(xì)節(jié)描寫豐富的提示詞,Sora官網(wǎng)展示的效果是這樣的:
而可靈是這樣的:
當(dāng)然,由于模型的不同,可能可靈的提示詞優(yōu)化方向會(huì)與Sora有所區(qū)別。
但從效果來看,可靈與Sora已經(jīng)十分接近,更重要的是,可靈已經(jīng)開放公眾測試,Sora目前依然處于PPT階段。
文生視頻模型即將迎來大爆發(fā)?
盡管Sora表現(xiàn)依然有所領(lǐng)先,但此前Sora火爆出圈的短片《氣球人》被爆經(jīng)過大量后期調(diào)整,三個(gè)人的團(tuán)隊(duì)花了1.5至2周的時(shí)間才做出來,團(tuán)隊(duì)自曝Sora生成的視頻素材最終用到影片里的只有1/300。
所以,Sora一直未開放使用或許也有實(shí)際效果不如預(yù)期的考慮。因此,可靈的強(qiáng)大之處在于,實(shí)打?qū)嵉亻_放給創(chuàng)作者使用,目前在快手旗下的快影APP中就能申請(qǐng)使用資格,截至6月14日,已經(jīng)有8萬人在排隊(duì)審核中。
同時(shí),快手上已經(jīng)出現(xiàn)大量采用可靈制作的短片,通過多個(gè)5秒的短鏡頭拼接而成,實(shí)際效果可見即可得。
而近期除了可靈之外,Luma AI也對(duì)外開放了其文生視頻模型Dream Machine,更是宣稱可以輸出120秒120幀的高質(zhì)量視頻。
目前文生視頻模型,包括可靈、Sora等都采用了Diffusion Transformer作為整體架構(gòu),有觀點(diǎn)認(rèn)為,Sora并不是技術(shù)性的突破,而是產(chǎn)品性的突破。即文生視頻實(shí)際上也是大模型應(yīng)用的一個(gè)方向,而Sora就是其中一個(gè)突破性產(chǎn)品。
可靈領(lǐng)銜的文生視頻模型大規(guī)模應(yīng)用,更是代表著這類產(chǎn)品的新高度。從產(chǎn)品上看,可以預(yù)見,未來半年里,國內(nèi)外可能將會(huì)陸續(xù)涌現(xiàn)更多高質(zhì)量的文生視頻大模型產(chǎn)品,并大大加快迭代的進(jìn)度。
文生視頻大模型的爆發(fā),將會(huì)有很大可能,徹底改變未來短視頻創(chuàng)作的生態(tài)。
-
Sora
+關(guān)注
關(guān)注
0文章
81瀏覽量
195
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論