這個被稱為 QUEEN 的模型支持低帶寬、高質量的場景生成,可用于工業(yè)機器人操作、3D 視頻會議和直播等流媒體應用。
NVIDIA Research 與馬里蘭大學合作開發(fā)的 AI 模型 QUEEN 將內容直播帶入全新的維度。有了 QUEEN,直播自由視角視頻有望成為現(xiàn)實,也就是說,觀眾可以從任意視角體驗 3D 場景。
QUEEN 可用于構建沉浸式直播應用,例如教授烹飪等技能、讓球迷就像身處球場一樣從任意視角觀看比賽,或者在工作場所舉行更加身臨其境的視頻會議。QUEEN 也能用于工業(yè)環(huán)境,幫助操作員遠程操控倉庫或工廠中的機器人。
該模型在本月于溫哥華舉行的年度 AI 盛會 NeurIPS 上進行了展示。
NVIDIA 研究總監(jiān)、杰出研究科學家 Shalini De Mello 表示:“要想近乎實時地直播自由視角視頻,就必須同時重建和壓縮 3D 場景。QUEEN 巧妙地平衡了壓縮率、視覺質量、編碼時間和渲染時間等各種因素,從而創(chuàng)建了一個優(yōu)化的流程,為視覺質量和可直播性樹立了新的標桿?!?/p>
通過減少渲染量,重復利用
和循環(huán)利用等方式實現(xiàn)高效直播
自由視角視頻通常使用來自各種攝像角度拍攝的視頻素材制作而成,例如多機位拍攝、倉庫里的一組安防攝像頭或是辦公室中的視頻會議攝像頭系統(tǒng)。
以往用于生成自由視角視頻的 AI 方法要么占用過多的內存用于直播,要么為了縮小文件大小而犧牲視覺質量,而 QUEEN 在兩者之間取得了平衡。即便是存在火花、火焰或毛茸動物的動態(tài)場景,也能輕松地把高質量的視頻內容從主機服務器傳輸?shù)娇蛻舳嗽O備。而且,與之前的方法相比,它還能夠更快地渲染視頻內容以進行直播。
在大多數(shù)真實環(huán)境中,場景中的許多元素都是靜止不動的。在視頻中,這意味著某個幀中的大部分像素與其它幀中的像素相同。為了節(jié)省計算時間,QUEEN 跟蹤并重復使用這些靜態(tài)區(qū)域的渲染,從而騰出資源來專注于重建那些隨時間變化的內容。
研究人員使用了一塊 NVIDIA Tensor Core GPU,在多個基準測試中評估 QUEEN 的性能,他們發(fā)現(xiàn)該模型的表現(xiàn)在一系列指標上都優(yōu)于目前最先進的在線自由視角視頻制作方法。對于從不同角度拍攝同一場景的 2D 視頻,通常只需不到五秒的訓練時間,就能以每秒約 350 幀的速度渲染自由視角視頻。
同時實現(xiàn)高速度和高視覺質量,這意味著音樂會和體育賽事轉播能夠提供身臨其境般的虛擬現(xiàn)實體驗或比賽集錦的即時回放。
在倉庫場景中,機器人操作員可以利用 QUEEN,在操縱物體時更精準地測量深度。在視頻會議中,例如 SIGGRAPH 和 NVIDIA GTC 大會上的 3D 視頻會議 demo,它可以幫助主持人演示烹飪或折紙等場景,同時讓觀眾可以選擇最適合自己學習的視角。
NVIDIA 為 NeurIPS 制作和撰寫了 50 多篇學術海報和論文,QUEEN 是其中之一。這些學術海報和論文介紹了在模擬、機器人和醫(yī)療等領域具有巨大應用前景的開創(chuàng)性 AI 研究成果。
首次介紹了 GAN 模型的論文《生成式對抗網(wǎng)絡》在 NeurIPS 2024 大會上榮獲“時間檢驗獎”。該論文被引用超過 8.5 萬次,其中一個作者是 NVIDIA 的杰出工程師 Bing Xu。
NVIDIA Research 在全球擁有數(shù)百名科學家和工程師,專注于 AI、計算機圖形學、計算機視覺、自動駕駛汽車和機器人等領域的研究,歡迎點擊“閱讀原文”查看他們的最新研究成果 。
大型語言模型、模擬和建模、邊緣 AI 等領域的學術科研人員可以申請 NVIDIA 學術資助計劃。
-
NVIDIA
+關注
關注
14文章
4978瀏覽量
102984 -
AI
+關注
關注
87文章
30728瀏覽量
268880 -
模型
+關注
關注
1文章
3226瀏覽量
48806
原文標題:NVIDIA Research 開發(fā)的模型實現(xiàn)了快速、高效的動態(tài)場景重建
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論