RM是什么平台,新时代RM官方网站下载

作者引入了一種方法，可以僅使用單個(gè)寬基線立體圖像對(duì)生成新視角。在這種具有挑戰(zhàn)性的情況下，3D場(chǎng)景點(diǎn)只被正常觀察一次，需要基于先驗(yàn)進(jìn)行場(chǎng)景幾何和外觀的重建。作者發(fā)現(xiàn)從稀疏觀測(cè)中生成新視角的現(xiàn)有方法因恢復(fù)不正確的3D幾何和可導(dǎo)渲染的高成本而失敗，這阻礙了其在大規(guī)模訓(xùn)練中的擴(kuò)展。作者通過構(gòu)建一個(gè)多視圖轉(zhuǎn)換編碼器、提出一種高效的圖像空間極線采樣方案來組裝目標(biāo)射線的圖像特征，以及一個(gè)輕量級(jí)的基于交叉注意力的渲染器來解決這些問題。作者的貢獻(xiàn)使作者的方法能夠在一個(gè)大規(guī)模的室內(nèi)和室外場(chǎng)景的真實(shí)世界數(shù)據(jù)集上進(jìn)行訓(xùn)練。作者展示了本方法學(xué)習(xí)到了強(qiáng)大的多視圖幾何先驗(yàn)，并降低了渲染時(shí)間。作者在兩個(gè)真實(shí)世界數(shù)據(jù)集上進(jìn)行了廣泛的對(duì)比實(shí)驗(yàn)，在保留測(cè)試場(chǎng)景的情況下，明顯優(yōu)于先前從稀疏圖像觀測(cè)中生成新視圖的方法并實(shí)現(xiàn)了多視圖一致的新視圖合成。

1 前言

本文介紹了在極端稀疏輸入條件下進(jìn)行新視圖合成的問題，提出了一個(gè)從單個(gè)廣角立體圖像對(duì)中生成高質(zhì)量新視圖的方法。為了更好地推理三維場(chǎng)景，提出了一個(gè)多視圖視覺變換器來計(jì)算每個(gè)輸入圖像的像素對(duì)準(zhǔn)特征，并引入多視圖特征匹配以進(jìn)一步煉化三維幾何。通過采用以圖像為中心的采樣策略，提出了一種高效的可微分渲染器，解決了樣本稀疏問題，從而大大減少了樣本量需求。實(shí)驗(yàn)證明了該方法在幾個(gè)數(shù)據(jù)集上均獲得了最先進(jìn)的結(jié)果，比現(xiàn)有方法表現(xiàn)出更好的性能。

2 相關(guān)背景

IBR方法通過融合一組輸入圖像的信息生成新的相機(jī)視角下的圖像。單場(chǎng)景體繪制方法則利用可微渲染進(jìn)行的3D場(chǎng)景表示來進(jìn)行新視角合成。不同于IBR方法需要多個(gè)輸入圖像，單場(chǎng)景體繪制方法需要數(shù)百個(gè)密集采樣的3D場(chǎng)景的輸入圖像。與這兩種方法不同，一些方式使用可微渲染來監(jiān)督基于先驗(yàn)的推理方法，即先驗(yàn)知識(shí)可以幫助優(yōu)化3D重建和視圖合成?，F(xiàn)有的方法普遍依賴于多個(gè)圖像觀測(cè)，而作者的方法通過僅使用一組寬基線立體圖像對(duì)場(chǎng)景進(jìn)行重建來解決這一問題。

3 方法

本文提出一種用于生成3D場(chǎng)景新視角圖像的方法。該方法使用已知相機(jī)內(nèi)參和外參以及寬基線立體圖像計(jì)算像素對(duì)齊的特征，并使用基于交叉注意力的渲染器將特征轉(zhuǎn)換為新視角的圖像渲染結(jié)果。該方法為解決新視角圖像生成問題提供了一種有效的解決方案。

3.1 Multiview Feature Encoding - 多視圖特征編碼

本文中提出了一種多視角編碼器來獲取特征。該方法包括兩個(gè)階段：首先通過ResNet50提取基礎(chǔ)卷積特征。然后，通過學(xué)習(xí)的每像素位置嵌入和相機(jī)位置嵌入將這兩個(gè)圖像轉(zhuǎn)換為平面特征向量。接下來，這些向量經(jīng)過視覺Transformer編碼器處理，使每個(gè)向量的表示包含了整個(gè)場(chǎng)景的上下文。最后，用一個(gè)低分辨率的基礎(chǔ)CNN獲取高頻的圖像信息，這些信息與之前的圖像特征映射級(jí)聯(lián)在一起。

3.2 Epipolar Line Sampling and Feature Matching - 線極線采樣和特征匹配

本文提出了一種基于像素對(duì)齊特征的通用的新視角合成方法。通過對(duì)極線采樣來找到樣本點(diǎn)，然后使用特征匹配模塊計(jì)算來自另一個(gè)視圖的次要特征，以進(jìn)一步處理表面細(xì)節(jié)。采用基礎(chǔ)矩陣來定義不同視圖生產(chǎn)的極線，并在其上采樣像素來獲得樣本。深度值可通過封閉形式的三角測(cè)量獲得。在這種方法中，樣本點(diǎn)的數(shù)量已達(dá)到有效最大值。

3.3 Differentiable Rendering via Cross-Attention - 交叉注意力實(shí)現(xiàn)可微分渲染

本文介紹了使用交叉注意力實(shí)現(xiàn)可微分渲染的方法。為了將樣本集映射到顏色值，作者將每個(gè)視差線上的點(diǎn)嵌入為一個(gè)射線查詢標(biāo)記。然后，作者的渲染程序通過兩輪交叉注意力，得到特征嵌入，然后通過簡(jiǎn)單的 MLP 解碼為顏色。作者的方法不需要顯式計(jì)算精確的場(chǎng)景深度，而是可以使用目標(biāo)相機(jī)射線信息和少數(shù)視差樣本計(jì)算像素顏色。

3.4 Training and Losses - 訓(xùn)練和損失函數(shù)

在視圖合成中，訓(xùn)練圖像合成模型的損失函數(shù)是關(guān)鍵。模型應(yīng)該能夠生成與真實(shí)圖像盡可能接近的合成圖像。本文提出了由圖像損失和正則化損失組成的損失函數(shù)，其中圖像損失通過LPIPS感知損失測(cè)量。此外，正則化損失有助于提高多視角一致性。作者還使用幾何一致的數(shù)據(jù)增強(qiáng)來提高模型的泛化能力。

4 實(shí)驗(yàn)

在本文中，作者展示的方法可以從寬基線立體圖像中有效地渲染新視角。作者在不同類型的場(chǎng)景中進(jìn)行了評(píng)估和分析，并且成功應(yīng)用了該方法在野外捕獲的場(chǎng)景中。

4.1 實(shí)驗(yàn)細(xì)節(jié)

作者在RealEstate10k和ACID這兩個(gè)大型室內(nèi)外場(chǎng)景的數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)估。作者使用67477個(gè)場(chǎng)景進(jìn)行RealEstate10k的訓(xùn)練和7289個(gè)場(chǎng)景進(jìn)行測(cè)試，11075個(gè)場(chǎng)景進(jìn)行ACID的訓(xùn)練和1972個(gè)場(chǎng)景進(jìn)行測(cè)試，按照默認(rèn)的劃分方法。作者使用256×256分辨率的圖像對(duì)作者的方法進(jìn)行訓(xùn)練，并在測(cè)試場(chǎng)景中評(píng)估方法的重建中間視角的能力（詳細(xì)信息在附錄中）。

作者將作者的方法與幾種現(xiàn)有的從稀疏圖像觀測(cè)中合成新視角的方法進(jìn)行比較。作者將比較使用像素對(duì)齊特征的pixelNeRF和IBRNet，這些特征被解碼成使用體積渲染渲染的3D體積。作者還將與使用視覺變換器骨干計(jì)算極線特征和基于光場(chǎng)渲染器計(jì)算像素顏色的通用補(bǔ)丁渲染（GPNR）進(jìn)行比較。這些基線涵蓋了現(xiàn)有方法中使用的各種設(shè)計(jì)選擇，例如使用CNN和transformer計(jì)算的像素對(duì)齊特征圖，使用MLP和transformer進(jìn)行的特征解碼體積渲染以及基于光場(chǎng)的渲染。

作者為所有基線使用公開可用的代碼庫(kù)，并使用作者用于公正評(píng)估的相同數(shù)據(jù)集對(duì)其進(jìn)行訓(xùn)練。有關(guān)更多基線的比較，請(qǐng)參見補(bǔ)充材料。評(píng)估指標(biāo)。作者使用LPIPS ，PSNR，SSIM和MSE指標(biāo)來比較渲染圖像與地面真實(shí)圖像的圖像質(zhì)量。

4.2 室內(nèi)場(chǎng)景的神經(jīng)渲染

在各種評(píng)估指標(biāo)下，本文的方法在室內(nèi)場(chǎng)景中渲染新視角時(shí)均優(yōu)于比較的基線。此外，與其他方法相比，該方法能更好地重建場(chǎng)景的3D結(jié)構(gòu)，并捕獲更多的高頻細(xì)節(jié)，這為視覺應(yīng)用提供了更好的合成質(zhì)量。

4.3 室外場(chǎng)景的神經(jīng)渲染

本文研究對(duì)具有潛在無界深度的戶外場(chǎng)景進(jìn)行了神經(jīng)渲染的評(píng)估，展示了定性和定量結(jié)果，指出了該方法在重建幾何結(jié)構(gòu)、多視角一致的渲染以及各項(xiàng)指標(biāo)方面的表現(xiàn)均優(yōu)于基線方法。

4.4 消融實(shí)驗(yàn)

本文研究進(jìn)行了組件分析和消融實(shí)驗(yàn)。消融實(shí)驗(yàn)表明了我們方法的各個(gè)組件對(duì)性能的貢獻(xiàn)，其中包括2D極線采樣、多視編碼器、跨圖像的對(duì)應(yīng)關(guān)系匹配、多視一致性的正則化損失以及數(shù)據(jù)增強(qiáng)。此外，本研究對(duì)不同渲染方法的質(zhì)量和速度進(jìn)行了比較，結(jié)果顯示我們的輕量級(jí)方法在質(zhì)量和速度方面實(shí)現(xiàn)了最佳的平衡，并提升了高質(zhì)量視頻的渲染速度。最后，我們可視化了我們方法中的基礎(chǔ)極線注意權(quán)重，用來分析渲染器的學(xué)習(xí)計(jì)算。

4.5 從不規(guī)定姿態(tài)圖像中合成新視角

本文提出了一種方法，可以使用寬基線立體圖像合成新視角，即使在未知相對(duì)位姿的情況下。在這種情況下，使用SuperGlue計(jì)算像素對(duì)應(yīng)關(guān)系，使用平均內(nèi)參估計(jì)本質(zhì)矩陣，從而推導(dǎo)出姿態(tài)信息。這一方法可以處理不規(guī)定姿態(tài)的圖像，能較好地推斷場(chǎng)景的幾何形狀。

5 討論

本文提出了一種通過非常稀疏的視角輸入合成場(chǎng)景的方法。然而，該方法的渲染結(jié)果質(zhì)量不如其他基于更多圖像的優(yōu)化方法。同時(shí)，由于該方法依賴于學(xué)習(xí)先驗(yàn)知識(shí)，其適用范圍受到限制。雖然該方法能夠擴(kuò)展到處理多于兩個(gè)輸入視角，但是目前只嘗試了處理兩個(gè)視角。

6 總結(jié)

本文提出了一種僅使用自監(jiān)督訓(xùn)練實(shí)現(xiàn)從單個(gè)寬基線立體圖像對(duì)中進(jìn)行隱式3D重建和新視角合成的方法。該方法利用多視角編碼器、圖像空間對(duì)極線特征采樣方案和基于交叉注意力的渲染器，在具有挑戰(zhàn)性場(chǎng)景數(shù)據(jù)集上超越了以往方法的質(zhì)量，同時(shí)在渲染速度和質(zhì)量之間取得了很好的平衡。同時(shí)，利用對(duì)極線幾何在結(jié)構(gòu)化和通用化學(xué)習(xí)范例之間進(jìn)行平衡，該方法可在RealEstate10k等現(xiàn)實(shí)數(shù)據(jù)集上進(jìn)行訓(xùn)練。

責(zé)任編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

3D

3D

+關(guān)注

關(guān)注
9

文章
2875

瀏覽量
107480
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24689
渲染器

渲染器

+關(guān)注

關(guān)注
0

文章
18

瀏覽量
3235

原文標(biāo)題：CVPR2023 I 一種全新的單個(gè)寬基線立體圖像對(duì)中學(xué)習(xí)渲染新視角的方法

文章出處：【微信號(hào)：3D視覺工坊，微信公眾號(hào)：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于稀疏編碼的遷移學(xué)習(xí)及其在行人檢測(cè)中的應(yīng)用

一定進(jìn)展,但大都需要大量的訓(xùn)練數(shù)據(jù).針對(duì)這一問題,提出了一種基于遷移學(xué)習(xí)的半監(jiān)督行人分類方法:首先基于稀疏編碼,從任意的未標(biāo)記樣本中,學(xué)習(xí)到一個(gè)緊湊、有效的特征表示;然后通過遷移學(xué)習(xí),將學(xué)習(xí)到的特征表示

發(fā)表于 04-24 09:48

【學(xué)習(xí)打卡】【ELT.ZIP】OpenHarmony啃論文俱樂部——淺析稀疏表示醫(yī)學(xué)圖像

瘋狂懂了！原來這就是人眼視覺系統(tǒng)(HVS)【技術(shù)DNA】【智慧場(chǎng)景】基于稀疏表示的醫(yī)學(xué)序列圖像壓縮方法背景隨著醫(yī)學(xué)影像技術(shù)的發(fā)展，近年來，各種醫(yī)學(xué)影像設(shè)備產(chǎn)生了大量的醫(yī)學(xué)數(shù)字圖像。醫(yī)學(xué)數(shù)字圖像具有

發(fā)表于 07-09 10:08

【ELT.ZIP】OpenHarmony啃論文俱樂部——淺析稀疏表示醫(yī)學(xué)圖像

發(fā)表于 07-09 10:10

基于特征矢量稀疏分解的DOA估計(jì)方法

基于特征矢量稀疏分解的DOA估計(jì)方法_李鵬飛

發(fā)表于 01-07 16:24 ?0次下載

基于分層稀疏編碼的行人檢測(cè)算法

針對(duì)復(fù)雜環(huán)境中的行人檢測(cè)問題，提出了一種有效的基于分層稀疏編碼的圖像表示方法。首先通過兩層稀疏編碼模型結(jié)合基于KSVD的深度學(xué)習(xí)算法來獲得圖像的稀疏

發(fā)表于 11-24 10:24 ?0次下載

結(jié)合彈性網(wǎng)絡(luò)的稀疏分解方法的人臉識(shí)別

動(dòng)態(tài)剔除機(jī)制，提出一種結(jié)合彈性網(wǎng)絡(luò)的稀疏分解方法。通過采用訓(xùn)練樣本的線性組合來表示測(cè)試樣本，并運(yùn)用迭代機(jī)制從所有樣本中剔除對(duì)分類貢獻(xiàn)度較小的類別和樣本，采用Elastic Net算法來進(jìn)行系數(shù)分解，從而選擇出對(duì)分類貢獻(xiàn)度較大

發(fā)表于 12-05 15:50 ?0次下載

基于坐標(biāo)下降的并行稀疏子空間聚類方法

問題，提出一種基于坐標(biāo)下降的并行稀疏子空間聚類方法。該方法利用稀疏子空間聚類可以建模為求解一系列的樣本自稀疏表達(dá)子問題的特點(diǎn)，使用坐標(biāo)下降

發(fā)表于 12-23 11:48 ?0次下載

基于塊稀疏表示的行人重識(shí)別方法

針對(duì)非重疊視角下的行人重識(shí)別和高維特征提取等問題，提出基于塊稀疏表示的行人重識(shí)別方法。采取典型相關(guān)分析（ CCA）方法進(jìn)行特征投影變換，通過

發(fā)表于 03-29 14:57 ?0次下載

如何使用自適應(yīng)嵌入的半監(jiān)督多視角特征實(shí)現(xiàn)降維的方法概述

半監(jiān)督模式下的多視角特征降維方法，大多并未考慮到不同視角間特征投影的差異，且由于缺乏對(duì)降維后的低維矩陣的稀疏約束，無法避免噪聲和其他不相關(guān)特征的影響。針對(duì)這兩個(gè)問題，提出自適應(yīng)嵌入的半

發(fā)表于 12-18 14:19 ?10次下載

稀疏投影CT重建圖像的條形偽影解決方法

稀疏投影CT重建圖像的條形偽影解決方法

發(fā)表于 06-18 11:43 ?5次下載

基于稀疏采樣的GPS軌跡數(shù)據(jù)路口識(shí)別方法

基于稀疏采樣的GPS軌跡數(shù)據(jù)路口識(shí)別方法

發(fā)表于 06-28 16:52 ?20次下載

稀疏微波成像的研究案例

此基礎(chǔ)上介紹了稀疏微波成像的主要研究進(jìn)展以及原理樣機(jī)的機(jī)載飛行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明了稀疏微波成像原理和方法的可行性和有效性；另外，該文還討論了稀疏微波成像在 3 維雷達(dá)成像、逆

發(fā)表于 05-27 16:24 ?10次下載

從多視角圖像做三維場(chǎng)景重建 (CVPR'22 Oral)

最近，有方法提出基于隱式神經(jīng)表示做三維重建。NeRF [3] 通過可微分的體積渲染技術(shù)從圖像中學(xué)習(xí)隱式輻射場(chǎng)。NeRF可以實(shí)現(xiàn)有真實(shí)感的視角合成，但是幾何重建結(jié)果噪音很嚴(yán)重，主要是因?yàn)?/div>
發(fā)表于 02-20 10:11 ?2813次閱讀

近場(chǎng)合成孔徑雷達(dá)稀疏測(cè)量微波成像簡(jiǎn)析

基于寬帶微波合成孔徑雷達(dá)系統(tǒng)稀疏測(cè)量的10種圖像重建方法的實(shí)驗(yàn)研究。這四種方法包括兩種使用零填充（ZF）和非均勻快速傅里葉變換（NUFFT）的去噪方

發(fā)表于 05-12 14:48 ?1411次閱讀

讀者理解：LEAP泛化到新的物體類別和場(chǎng)景

本文主要介紹了兩個(gè)與NeRF（Neural Radiance Fields）相關(guān)的工作，分別是針對(duì)稀疏視角輸入的NeRF變體和稀疏視角相機(jī)姿

發(fā)表于 10-17 15:46 ?476次閱讀