作者引入了一種方法,可以僅使用單個(gè)寬基線立體圖像對(duì)生成新視角。在這種具有挑戰(zhàn)性的情況下,3D場(chǎng)景點(diǎn)只被正常觀察一次,需要基于先驗(yàn)進(jìn)行場(chǎng)景幾何和外觀的重建。作者發(fā)現(xiàn)從稀疏觀測(cè)中生成新視角的現(xiàn)有方法因恢復(fù)不正確的3D幾何和可導(dǎo)渲染的高成本而失敗,這阻礙了其在大規(guī)模訓(xùn)練中的擴(kuò)展。作者通過構(gòu)建一個(gè)多視圖轉(zhuǎn)換編碼器、提出一種高效的圖像空間極線采樣方案來組裝目標(biāo)射線的圖像特征,以及一個(gè)輕量級(jí)的基于交叉注意力的渲染器來解決這些問題。作者的貢獻(xiàn)使作者的方法能夠在一個(gè)大規(guī)模的室內(nèi)和室外場(chǎng)景的真實(shí)世界數(shù)據(jù)集上進(jìn)行訓(xùn)練。作者展示了本方法學(xué)習(xí)到了強(qiáng)大的多視圖幾何先驗(yàn),并降低了渲染時(shí)間。作者在兩個(gè)真實(shí)世界數(shù)據(jù)集上進(jìn)行了廣泛的對(duì)比實(shí)驗(yàn),在保留測(cè)試場(chǎng)景的情況下,明顯優(yōu)于先前從稀疏圖像觀測(cè)中生成新視圖的方法并實(shí)現(xiàn)了多視圖一致的新視圖合成。
1 前言
本文介紹了在極端稀疏輸入條件下進(jìn)行新視圖合成的問題,提出了一個(gè)從單個(gè)廣角立體圖像對(duì)中生成高質(zhì)量新視圖的方法。為了更好地推理三維場(chǎng)景,提出了一個(gè)多視圖視覺變換器來計(jì)算每個(gè)輸入圖像的像素對(duì)準(zhǔn)特征,并引入多視圖特征匹配以進(jìn)一步煉化三維幾何。通過采用以圖像為中心的采樣策略,提出了一種高效的可微分渲染器,解決了樣本稀疏問題,從而大大減少了樣本量需求。實(shí)驗(yàn)證明了該方法在幾個(gè)數(shù)據(jù)集上均獲得了最先進(jìn)的結(jié)果,比現(xiàn)有方法表現(xiàn)出更好的性能。
2 相關(guān)背景
IBR方法通過融合一組輸入圖像的信息生成新的相機(jī)視角下的圖像。單場(chǎng)景體繪制方法則利用可微渲染進(jìn)行的3D場(chǎng)景表示來進(jìn)行新視角合成。不同于IBR方法需要多個(gè)輸入圖像,單場(chǎng)景體繪制方法需要數(shù)百個(gè)密集采樣的3D場(chǎng)景的輸入圖像。與這兩種方法不同,一些方式使用可微渲染來監(jiān)督基于先驗(yàn)的推理方法,即先驗(yàn)知識(shí)可以幫助優(yōu)化3D重建和視圖合成?,F(xiàn)有的方法普遍依賴于多個(gè)圖像觀測(cè),而作者的方法通過僅使用一組寬基線立體圖像對(duì)場(chǎng)景進(jìn)行重建來解決這一問題。
3 方法
本文提出一種用于生成3D場(chǎng)景新視角圖像的方法。該方法使用已知相機(jī)內(nèi)參和外參以及寬基線立體圖像計(jì)算像素對(duì)齊的特征,并使用基于交叉注意力的渲染器將特征轉(zhuǎn)換為新視角的圖像渲染結(jié)果。該方法為解決新視角圖像生成問題提供了一種有效的解決方案。
3.1 Multiview Feature Encoding - 多視圖特征編碼
本文中提出了一種多視角編碼器來獲取特征。該方法包括兩個(gè)階段:首先通過ResNet50提取基礎(chǔ)卷積特征。然后,通過學(xué)習(xí)的每像素位置嵌入和相機(jī)位置嵌入將這兩個(gè)圖像轉(zhuǎn)換為平面特征向量。接下來,這些向量經(jīng)過視覺Transformer編碼器處理,使每個(gè)向量的表示包含了整個(gè)場(chǎng)景的上下文。最后,用一個(gè)低分辨率的基礎(chǔ)CNN獲取高頻的圖像信息,這些信息與之前的圖像特征映射級(jí)聯(lián)在一起。
3.2 Epipolar Line Sampling and Feature Matching - 線極線采樣和特征匹配
本文提出了一種基于像素對(duì)齊特征的通用的新視角合成方法。通過對(duì)極線采樣來找到樣本點(diǎn),然后使用特征匹配模塊計(jì)算來自另一個(gè)視圖的次要特征,以進(jìn)一步處理表面細(xì)節(jié)。采用基礎(chǔ)矩陣來定義不同視圖生產(chǎn)的極線,并在其上采樣像素來獲得樣本。深度值可通過封閉形式的三角測(cè)量獲得。在這種方法中,樣本點(diǎn)的數(shù)量已達(dá)到有效最大值。
3.3 Differentiable Rendering via Cross-Attention - 交叉注意力實(shí)現(xiàn)可微分渲染
本文介紹了使用交叉注意力實(shí)現(xiàn)可微分渲染的方法。為了將樣本集映射到顏色值,作者將每個(gè)視差線上的點(diǎn)嵌入為一個(gè)射線查詢標(biāo)記。然后,作者的渲染程序通過兩輪交叉注意力,得到特征嵌入,然后通過簡(jiǎn)單的 MLP 解碼為顏色。作者的方法不需要顯式計(jì)算精確的場(chǎng)景深度,而是可以使用目標(biāo)相機(jī)射線信息和少數(shù)視差樣本計(jì)算像素顏色。
3.4 Training and Losses - 訓(xùn)練和損失函數(shù)
在視圖合成中,訓(xùn)練圖像合成模型的損失函數(shù)是關(guān)鍵。模型應(yīng)該能夠生成與真實(shí)圖像盡可能接近的合成圖像。本文提出了由圖像損失和正則化損失組成的損失函數(shù),其中圖像損失通過LPIPS感知損失測(cè)量。此外,正則化損失有助于提高多視角一致性。作者還使用幾何一致的數(shù)據(jù)增強(qiáng)來提高模型的泛化能力。
4 實(shí)驗(yàn)
在本文中,作者展示的方法可以從寬基線立體圖像中有效地渲染新視角。作者在不同類型的場(chǎng)景中進(jìn)行了評(píng)估和分析,并且成功應(yīng)用了該方法在野外捕獲的場(chǎng)景中。
4.1 實(shí)驗(yàn)細(xì)節(jié)
作者在RealEstate10k和ACID這兩個(gè)大型室內(nèi)外場(chǎng)景的數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)估。作者使用67477個(gè)場(chǎng)景進(jìn)行RealEstate10k的訓(xùn)練和7289個(gè)場(chǎng)景進(jìn)行測(cè)試,11075個(gè)場(chǎng)景進(jìn)行ACID的訓(xùn)練和1972個(gè)場(chǎng)景進(jìn)行測(cè)試,按照默認(rèn)的劃分方法。作者使用256×256分辨率的圖像對(duì)作者的方法進(jìn)行訓(xùn)練,并在測(cè)試場(chǎng)景中評(píng)估方法的重建中間視角的能力(詳細(xì)信息在附錄中)。
作者將作者的方法與幾種現(xiàn)有的從稀疏圖像觀測(cè)中合成新視角的方法進(jìn)行比較。作者將比較使用像素對(duì)齊特征的pixelNeRF和IBRNet,這些特征被解碼成使用體積渲染渲染的3D體積。作者還將與使用視覺變換器骨干計(jì)算極線特征和基于光場(chǎng)渲染器計(jì)算像素顏色的通用補(bǔ)丁渲染(GPNR)進(jìn)行比較。這些基線涵蓋了現(xiàn)有方法中使用的各種設(shè)計(jì)選擇,例如使用CNN和transformer計(jì)算的像素對(duì)齊特征圖,使用MLP和transformer進(jìn)行的特征解碼體積渲染以及基于光場(chǎng)的渲染。
作者為所有基線使用公開可用的代碼庫(kù),并使用作者用于公正評(píng)估的相同數(shù)據(jù)集對(duì)其進(jìn)行訓(xùn)練。有關(guān)更多基線的比較,請(qǐng)參見補(bǔ)充材料。評(píng)估指標(biāo)。作者使用LPIPS ,PSNR,SSIM和MSE指標(biāo)來比較渲染圖像與地面真實(shí)圖像的圖像質(zhì)量。
4.2 室內(nèi)場(chǎng)景的神經(jīng)渲染
在各種評(píng)估指標(biāo)下,本文的方法在室內(nèi)場(chǎng)景中渲染新視角時(shí)均優(yōu)于比較的基線。此外,與其他方法相比,該方法能更好地重建場(chǎng)景的3D結(jié)構(gòu),并捕獲更多的高頻細(xì)節(jié),這為視覺應(yīng)用提供了更好的合成質(zhì)量。
4.3 室外場(chǎng)景的神經(jīng)渲染
本文研究對(duì)具有潛在無界深度的戶外場(chǎng)景進(jìn)行了神經(jīng)渲染的評(píng)估,展示了定性和定量結(jié)果,指出了該方法在重建幾何結(jié)構(gòu)、多視角一致的渲染以及各項(xiàng)指標(biāo)方面的表現(xiàn)均優(yōu)于基線方法。
4.4 消融實(shí)驗(yàn)
本文研究進(jìn)行了組件分析和消融實(shí)驗(yàn)。消融實(shí)驗(yàn)表明了我們方法的各個(gè)組件對(duì)性能的貢獻(xiàn),其中包括2D極線采樣、多視編碼器、跨圖像的對(duì)應(yīng)關(guān)系匹配、多視一致性的正則化損失以及數(shù)據(jù)增強(qiáng)。此外,本研究對(duì)不同渲染方法的質(zhì)量和速度進(jìn)行了比較,結(jié)果顯示我們的輕量級(jí)方法在質(zhì)量和速度方面實(shí)現(xiàn)了最佳的平衡,并提升了高質(zhì)量視頻的渲染速度。最后,我們可視化了我們方法中的基礎(chǔ)極線注意權(quán)重,用來分析渲染器的學(xué)習(xí)計(jì)算。
4.5 從不規(guī)定姿態(tài)圖像中合成新視角
本文提出了一種方法,可以使用寬基線立體圖像合成新視角,即使在未知相對(duì)位姿的情況下。在這種情況下,使用SuperGlue計(jì)算像素對(duì)應(yīng)關(guān)系,使用平均內(nèi)參估計(jì)本質(zhì)矩陣,從而推導(dǎo)出姿態(tài)信息。這一方法可以處理不規(guī)定姿態(tài)的圖像,能較好地推斷場(chǎng)景的幾何形狀。
5 討論
本文提出了一種通過非常稀疏的視角輸入合成場(chǎng)景的方法。然而,該方法的渲染結(jié)果質(zhì)量不如其他基于更多圖像的優(yōu)化方法。同時(shí),由于該方法依賴于學(xué)習(xí)先驗(yàn)知識(shí),其適用范圍受到限制。雖然該方法能夠擴(kuò)展到處理多于兩個(gè)輸入視角,但是目前只嘗試了處理兩個(gè)視角。
6 總結(jié)
本文提出了一種僅使用自監(jiān)督訓(xùn)練實(shí)現(xiàn)從單個(gè)寬基線立體圖像對(duì)中進(jìn)行隱式3D重建和新視角合成的方法。該方法利用多視角編碼器、圖像空間對(duì)極線特征采樣方案和基于交叉注意力的渲染器,在具有挑戰(zhàn)性場(chǎng)景數(shù)據(jù)集上超越了以往方法的質(zhì)量,同時(shí)在渲染速度和質(zhì)量之間取得了很好的平衡。同時(shí),利用對(duì)極線幾何在結(jié)構(gòu)化和通用化學(xué)習(xí)范例之間進(jìn)行平衡,該方法可在RealEstate10k等現(xiàn)實(shí)數(shù)據(jù)集上進(jìn)行訓(xùn)練。
責(zé)任編輯:彭菁
-
3D
+關(guān)注
關(guān)注
9文章
2875瀏覽量
107480 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24689 -
渲染器
+關(guān)注
關(guān)注
0文章
18瀏覽量
3235
原文標(biāo)題:CVPR2023 I 一種全新的單個(gè)寬基線立體圖像對(duì)中學(xué)習(xí)渲染新視角的方法
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論