RM新时代平台靠谱平台入口,RM新时代登录网址

3D對象的生成模型在VR和增強現(xiàn)實應(yīng)用中越來越受歡迎。但使用標準的3D表示(如體素或點云)來訓(xùn)練這些模型是具有挑戰(zhàn)性的，并且需要復(fù)雜的工具來進行適當?shù)念伾秩尽?strong>神經(jīng)輻射場(NeRF)在從一小部分2D圖像合成復(fù)雜3D場景的新視圖方面提供了最先進的質(zhì)量。

作者提出了一個生成模型HyperNeRFGAN，它使用超網(wǎng)絡(luò)范式來生成由NeRF表示的三維物體。超網(wǎng)絡(luò)被定義為為解決特定任務(wù)的單獨目標網(wǎng)絡(luò)生成權(quán)值的神經(jīng)模型?；贕AN的模型，利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)換為NeRF的權(quán)重。通過NeRF渲染2D新視圖，并使用經(jīng)典的2D判別器以隱式形式訓(xùn)練整個基于GAN的結(jié)構(gòu)。

提出了基于NeRF的隱式GAN架構(gòu)——第一個用于生成高質(zhì)量3D NeRF表示的GAN模型。與基于 SIREN 的架構(gòu)相比，利用NeRF的超網(wǎng)絡(luò)范式可以獲得更好的3D表示質(zhì)量。該模型允許從無監(jiān)督的2D圖像合成3D感知圖像。

筆者個人體會

這篇論文的動機是提出一種從2D圖像生成高質(zhì)量的3D物體的新方法，并且使用NeRF（Neural Radiance Fields）表示來重建物體的3D結(jié)構(gòu)，以填補現(xiàn)有研究中的空白并解決傳統(tǒng)方法的局限性。NeRF是一種基于神經(jīng)網(wǎng)絡(luò)的表示方法，可以通過從不同視角觀察的2D圖像重建出完整的3D物體。

傳統(tǒng)的方法通常需要大量的3D訓(xùn)練數(shù)據(jù)或者深度信息，但這些數(shù)據(jù)往往難以獲取或者成本較高。而作者的方法可以利用2D圖像生成3D物體，無需額外的深度信息或大量的3D數(shù)據(jù)集，從而降低了數(shù)據(jù)收集的難度和成本。

此外，NeRF表示能夠捕捉到物體的細節(jié)和視角變化，生成的3D物體具有高質(zhì)量和準確性。

論文的核心創(chuàng)新是結(jié)合了HyperNetworks和NeRF的思想，提出了HyperNeRFGAN模型，將NeRF表示作為生成3D物體的基礎(chǔ)，并利用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重，以實現(xiàn)從2D圖像到3D物體的映射。

HyperNetworks是一種可以生成神經(jīng)網(wǎng)絡(luò)權(quán)重的神經(jīng)網(wǎng)絡(luò)，它可以用來生成NeRF網(wǎng)絡(luò)的權(quán)重。通過HyperNeRFGAN，可以從輸入的高斯噪聲生成NeRF網(wǎng)絡(luò)的權(quán)重，進而重建出相應(yīng)的3D物體。

NeRF表示能夠提供準確的3D物體重建，而HyperNetworks則提供了生成NeRF網(wǎng)絡(luò)權(quán)重的有效方式。通過結(jié)合兩者，作者能夠?qū)?D圖像與3D物體之間的映射關(guān)系建立起來，并實現(xiàn)從2D圖像生成高質(zhì)量的3D物體。

架構(gòu)設(shè)計：

使用NeRF作為3D物體的表示，它可以通過神經(jīng)網(wǎng)絡(luò)從2D圖像中重建出物體的3D結(jié)構(gòu)。

利用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重，以在生成過程中動態(tài)調(diào)整網(wǎng)絡(luò)的參數(shù)。

模塊設(shè)計：

生成器：使用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重，該生成器接受高斯噪聲作為輸入，并輸出NeRF網(wǎng)絡(luò)的權(quán)重。通過從噪聲向量中生成網(wǎng)絡(luò)的權(quán)重來實現(xiàn)動態(tài)調(diào)整網(wǎng)絡(luò)參數(shù)的能力。

NeRF網(wǎng)絡(luò)：接受空間位置作為輸入，并輸出物體的顏色和密度信息。通過學(xué)習(xí)從2D圖像到3D物體的映射關(guān)系，可以重建物體的顏色和密度信息。

鑒別器：使用StyleGAN2架構(gòu)作為鑒別器，用于區(qū)分真實圖像和生成圖像的差異。鑒別器使用對抗學(xué)習(xí)的思想，通過訓(xùn)練來學(xué)習(xí)將真實圖像與生成圖像區(qū)分開來的能力。

設(shè)計原理：

NeRF表示：NeRF網(wǎng)絡(luò)通過從2D圖像中學(xué)習(xí)生成物體的3D表示，能夠?qū)崿F(xiàn)高質(zhì)量的物體重建。

HyperNetworks：HyperNetworks是一個生成網(wǎng)絡(luò)權(quán)重的方法，它可以根據(jù)輸入的噪聲來生成網(wǎng)絡(luò)的參數(shù)，使得網(wǎng)絡(luò)可以根據(jù)不同的輸入生成不同的結(jié)果。

實現(xiàn)過程：

訓(xùn)練階段：使用未標記的2D圖像和StyleGAN2鑒別器進行訓(xùn)練。生成器通過對噪聲向量進行采樣和變換來生成NeRF網(wǎng)絡(luò)的權(quán)重。生成的2D圖像被用作鑒別器的 "fake" 圖像，生成器的目標是欺騙鑒別器。

生成階段：在生成階段，使用生成器生成NeRF網(wǎng)絡(luò)的權(quán)重，然后使用NeRF網(wǎng)絡(luò)從2D圖像中重建出3D物體。

該方法的好處包括：

無需額外的深度信息或大量的3D數(shù)據(jù)集，只需要2D圖像即可生成3D物體，降低了數(shù)據(jù)收集的難度和成本。

NeRF表示能夠捕捉到物體的細節(jié)和視角變化，生成的3D物體具有高質(zhì)量和準確性。

使用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重，可以靈活地生成不同的3D物體，具有較強的泛化能力。

模型結(jié)構(gòu)簡單且適用于三維物體訓(xùn)練，生成過程直接、高效。

摘要

最近，3D對象的生成模型在VR和增強現(xiàn)實應(yīng)用中越來越受歡迎。

使用標準的3D表示(如體素或點云)來訓(xùn)練這些模型是具有挑戰(zhàn)性的，并且需要復(fù)雜的工具來進行適當?shù)念伾秩尽?/p>

為了克服這一限制，神經(jīng)輻射場(NeRF)在從一小部分2D圖像合成復(fù)雜3D場景的新視圖方面提供了最先進的質(zhì)量。

在本文中，作者提出了一個生成模型HyperNeRFGAN，它使用超網(wǎng)絡(luò)范式來生成由NeRF表示的三維物體。

我們的GAN架構(gòu)利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)換為NeRF模型的權(quán)重。該模型進一步用于呈現(xiàn)2D新視圖，并使用經(jīng)典的2D鑒別器來訓(xùn)練整個基于GAN的結(jié)構(gòu)。

我們的架構(gòu)產(chǎn)生2D圖像，但我們使用3D感知的NeRF表示，這迫使模型產(chǎn)生正確的3D對象。

該模型相對于現(xiàn)有方法的優(yōu)勢在于，它為對象生成專用的NeRF表示，而無需共享呈現(xiàn)組件的某些全局參數(shù)。在來自不同領(lǐng)域的三個具有挑戰(zhàn)性的數(shù)據(jù)集上，展示了與參考基線相比，作者的方法的優(yōu)越性。

圖1 HyperNeRFGAN架構(gòu)利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)化為NeRF模型的權(quán)重。

在此基礎(chǔ)上，利用NeRF渲染二維新視圖，并使用經(jīng)典的二維鑒別器。

架構(gòu)產(chǎn)生2D圖像，但作者使用3D感知的NeRF表示，這迫使模型產(chǎn)生正確的3D對象。

一、引言

生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets, GANs)使我們能夠生成高質(zhì)量的2D圖像。另一方面，為3D對象保持類似的質(zhì)量是具有挑戰(zhàn)性的。這主要是由于使用3D表示(如體素和點云) 需要大量的深層架構(gòu)，并且在真正的顏色渲染方面存在問題。

我們可以通過直接在 2D 圖像空間上操作來解決這個問題。

我們希望我們的方法能夠從未標記的2D視圖中提取信息以獲得3D形狀。

為了獲得這樣的效果，我們可以使用神經(jīng)輻射場(NeRF)，它允許從一小部分2D圖像合成復(fù)雜3D場景的新視圖。

基于這些基礎(chǔ)圖像與計算機圖形學(xué)原理(如光線追蹤)之間的關(guān)系，該神經(jīng)網(wǎng)絡(luò)模型可以從以前未見過的視點渲染高質(zhì)量的3D物體圖像。

不幸的是，如何在 GAN 類型架構(gòu)中使用NeRF表示并不是容易解決的。

最具挑戰(zhàn)性的問題與NeRF的調(diào)節(jié)機制有關(guān)。因此，大多數(shù)模型使用SIREN而不是NeRF，我們可以自然地添加條件。但是3D物體的質(zhì)量卻比NeRF差。

在GRAF和π-GAN中，作者提出一個使用SIREN和調(diào)節(jié)作用機制產(chǎn)生隱式表征的模型。這樣的解決方案給出了有希望的結(jié)果，但如何在這樣的解決方案中使用NeRF而不是SIREN并不是容易解決的。

在圖2中，對模型、GRAF和π-GAN進行了定性比較。正如我們所看到的，我們的模型可以模擬玻璃的透明度。

在本文中，作者提出了一種稱為HyperNeRFGAN的生成模型，它結(jié)合了超網(wǎng)絡(luò)范式和NeRF表示。

超網(wǎng)絡(luò)被定義為為解決特定任務(wù)的單獨目標網(wǎng)絡(luò)生成權(quán)值的神經(jīng)模型?；贕AN的模型，利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)換為NeRF的權(quán)重(見圖1)。

之后，通過NeRF渲染2D新視圖，并使用經(jīng)典的2D判別器以隱式形式訓(xùn)練整個基于GAN的結(jié)構(gòu)。

我們的架構(gòu)產(chǎn)生2D圖像，但我們使用3D感知的NeRF表示，這迫使模型產(chǎn)生正確的3D對象。

本文的貢獻包括：

作者介紹了基于NeRF的隱式GAN架構(gòu)——第一個用于生成高質(zhì)量3D NeRF表示的GAN模型。

作者表明，與基于 SIREN 的架構(gòu)相比，利用NeRF的超網(wǎng)絡(luò)范式可以獲得更好的3D表示質(zhì)量。

作者的模型允許從無監(jiān)督的2D圖像合成3D感知圖像。

圖2 HyperNeRFGAN與HoloGAN、GRAF、π-GAN在CARLA上的比較。得到了與π-GAN相似的結(jié)果，但作者有更好的FID評分值，見表2。

二、相關(guān)背景

神經(jīng)表示和渲染

3D物體可以使用許多不同的方法來表示，包括體素網(wǎng)格、八樹網(wǎng)格、多視圖圖像、點云、幾何圖像、可變形網(wǎng)格和基于部件的結(jié)構(gòu)圖。上述表示是謹慎的，這在實際應(yīng)用中會引起一些問題。相反，我們可以將三維物體表示為連續(xù)函數(shù)。

在實踐中，隱性占用，距離場和表面參數(shù)化模型使用神經(jīng)網(wǎng)絡(luò)來參數(shù)化3D對象。

在這種情況下，我們沒有固定數(shù)量的體素、點或頂點，而是將形狀表示為連續(xù)函數(shù)。

這些模型受限于對 ground truth 三維幾何的訪問要求。隱式神經(jīng)表征(NIR)被提出來解決這一問題。這種架構(gòu)可以從多視圖二維圖像中重建三維結(jié)構(gòu)。兩種最重要的方法是NeRF和SIREN。

NeRF使用體渲染來重建3D場景，使用神經(jīng)輻射和密度場來合成新的視圖。

SIREN用調(diào)制頻率的正弦函數(shù)取代了流行的ReLU激活函數(shù)。

大多數(shù)NeRF和基于SIREN的方法專注于單個3D對象或場景。

在實踐中，我們過擬合單個對象或場景。在論文中，作者專注于生成以NeRF表征的3D模型。

單視圖監(jiān)督的 3D 感知 GAN

生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets, GANs)可以生成高質(zhì)量的圖像。然而，GAN在二維圖像上運行，而忽略了我們物理世界的三維本質(zhì)。因此，利用物體的三維結(jié)構(gòu)來生成圖像和三維物體是很重要的。

3D感知圖像合成的第一種方法，如Visual Object Networks和 prGAN，首先使用3D- GAN生成體素化的3D形狀，然后將其投影到2D中。

hooloGAN和BlockGAN在類似的融合中工作，但使用隱式3D表示來建模世界的3D表示。不幸的是，使用顯式的體積表示限制了它們的分辨率。

在[36]中，作者提出使用網(wǎng)格來表示三維幾何。另一方面，文獻[15]使用基元集合進行圖像合成。

在GRAF和π-GAN中，作者使用隱式神經(jīng)輻射場生成3D感知圖像和幾何圖形。

在作者的工作中，使用NeRF代替SIREN，使用超網(wǎng)絡(luò)范式代替條件反射過程。

在ShadeGAN中，作者使用了陰影引導(dǎo)的pipeline；

在GOF中，他們逐漸縮小了每條相機光線的采樣區(qū)域。

而在CIRAFFE種，首先生成低分辨率的特征圖。

在第二步中，將表示傳遞給2D CNN，以生成更高分辨率的輸出。

在StyleSDF中，作者將基于SDF的3D表示與用于圖像生成的StyleGAN2合并。

在[1]中，作者使用StyleGAN2生成器和三維物體的三平面表示。

這些方法在生成對象的質(zhì)量上優(yōu)于其他方法，但極難訓(xùn)練。

超網(wǎng)絡(luò)+生成建模

超網(wǎng)絡(luò)和生成模型的結(jié)合并不新鮮。

在[29,8]中，作者構(gòu)建了GAN來生成用于回歸或分類任務(wù)的神經(jīng)網(wǎng)絡(luò)的參數(shù)。

HyperVAE通過生成給定分布樣本的生成模型參數(shù)，對任意目標分布進行編碼。

HCNAF是一個超網(wǎng)絡(luò)，產(chǎn)生了條件自回歸流動模型的參數(shù)。

在[34]中，作者提出INR-GAN使用超網(wǎng)絡(luò)生成圖像的連續(xù)表示。該超網(wǎng)絡(luò)可以通過因數(shù)乘調(diào)制的低成本機制來修改共享權(quán)值。

圖3 在ShapeNet的三種類型(汽車、飛機、椅子)上由模型訓(xùn)練生成的元素。

三、HyperNeRFGAN: 用于生成NeRF表示的超網(wǎng)絡(luò)

在本節(jié)中，介紹了HyperNeRFGAN——一種用于3D對象的新型生成模型。該方法的主要思想是將生成器作為一個超網(wǎng)絡(luò)，將從已知分布中采樣的噪聲向量轉(zhuǎn)換為目標模型的權(quán)值。

與以往的作品相比，目標模型采用NeRF對對象進行三維表示。因此，可以以可控的方式從不同角度生成物體的許多圖像。

此外，由于基于NeRF的圖像渲染，與基于GAN的復(fù)雜3D結(jié)構(gòu)模型相比，鑒別器可以在從多個角度生成的2D圖像上運行。

超網(wǎng)絡(luò)

超網(wǎng)絡(luò)中介紹的超網(wǎng)絡(luò)被定義為神經(jīng)模型，用于預(yù)測為解決特定任務(wù)而設(shè)計的不同目標網(wǎng)絡(luò)的權(quán)重。

與使用單個嵌入將附加信息注入目標模型的標準方法相比，這種方法減少了可訓(xùn)練參數(shù)的數(shù)量。可以實現(xiàn)目標模型大小的顯著減小，因為它不共享全局權(quán)重，但它們由超網(wǎng)絡(luò)返回。

sheikh 作者將超網(wǎng)絡(luò)和生成模型進行了類比，使用這種機制來生成一組近似相同函數(shù)的不同目標網(wǎng)絡(luò)。

超網(wǎng)絡(luò)廣泛應(yīng)用于許多領(lǐng)域，包括 few-shot 問題或概率回歸場景。各種方法也使用它們來生成3D對象的連續(xù)表示。

例如，HyperCloud 將3D點云表示為一個經(jīng)典的MLP，作為目標模型，并將點從高斯球上的均勻分布轉(zhuǎn)換為代表所需形狀的點云。

在spurek 中，目標模型由連續(xù)歸一化流(Continuous Normalizing Flow) 表示，這是一種生成模型，它根據(jù)假定的三維空間中的基本分布創(chuàng)建點云。

GAN

GAN 是一個使用極大極小博弈來訓(xùn)練深度生成模型的框架。目標是學(xué)習(xí)一個與實際數(shù)據(jù)分布匹配的生成器分布。

GAN學(xué)習(xí)一個生成器網(wǎng)絡(luò) ，通過將噪聲變量 (通常是高斯噪聲 ) 轉(zhuǎn)換為樣本，從生成器分布中產(chǎn)生樣本。

生成器通過對抗一個對抗鑒別器網(wǎng)絡(luò)來學(xué)習(xí)，目的是區(qū)分真實數(shù)據(jù)分布和生成器分布的樣本。

更正式地說，極大極小博弈由下式給出:

與其他方法相比，它的主要優(yōu)點是產(chǎn)生與真實圖像難以區(qū)分的清晰圖像。

從模型中采樣的圖像的視覺質(zhì)量方面，GAN令人印象深刻，但訓(xùn)練過程通常具有挑戰(zhàn)性和不穩(wěn)定性。

這種現(xiàn)象的產(chǎn)生是由于訓(xùn)練目標的直接優(yōu)化難以實現(xiàn)，通常是通過交替優(yōu)化鑒別器和生成器的參數(shù)來訓(xùn)練模型。

近年來，許多研究人員致力于改進傳統(tǒng)的GAN過程，以提高訓(xùn)練過程的穩(wěn)定性。

一些改進是基于將目標函數(shù)改為WGAN (WGAN) 、梯度懲罰限制、譜歸一化或生成器和判別器的不平衡學(xué)習(xí)率。

通過利用自注意力機制(SAGAN)和逐步增長的ProGAN、style-GAN架構(gòu)(StyleGAN )，對模型架構(gòu)進行了更深入的探索。

INR-GAN

隱式神經(jīng)表示GAN是基于GAN的模型的一種變體，它利用超網(wǎng)絡(luò)為目標模型生成參數(shù)，而不是直接生成圖像。

由簡單MLP表示的目標模型以RGB格式返回給定像素位置的顏色。

該模型在架構(gòu)上非常接近StyleGAN2，并且比直接方法具有明顯的優(yōu)勢，主要是因為使用INR-GAN可以在不假設(shè)任意給定分辨率的情況下生成圖像。

3D對象的NeRF表示

NeRF表示使用全連接架構(gòu)的場景。NeRF以5D坐標(空間位置，觀察方向作為輸入，輸出發(fā)射顏色和體積密度。

NeRF使用一組圖像進行訓(xùn)練。在這種情況下，我們產(chǎn)生許多光線通過圖像和由神經(jīng)網(wǎng)絡(luò)表示的3D對象。NeRF用MLP網(wǎng)絡(luò)近似這個3D對象:

并優(yōu)化其權(quán)重，將每個輸入5D坐標映射到相應(yīng)的體積密度和方向發(fā)射顏色。

NeRF的丟失受到經(jīng)典體渲染的啟發(fā)。渲染通過場景的所有光線的顏色。體積密度可以解釋為射線的微分概率。相機射線的期望顏色 (其中o為射線原點，d為方向)可以用積分計算。

在實際中，這個連續(xù)積分是用求積分法在數(shù)值上估計的。我們使用分層抽樣方法，將射線劃分為個均勻間隔的 bins，然后從每個 bin 內(nèi)均勻隨機抽取一個樣本:

我們使用這些樣本來估計，使用Max在體積渲染中討論的正交規(guī)則:

其中，

其中為相鄰樣本間的距離。

從值的集合計算的函數(shù)是平凡可微的。

然后，我們使用體渲染過程來渲染來自兩組樣本的每條光線的顏色。與基線NeRF相反，其中兩個“粗”和“細”模型同時訓(xùn)練，我們只使用“粗”架構(gòu)。

3.1 HyperNeRFGAN

在這項工作中，作者提出了一種新的GAN架構(gòu)，HyperNeRFGAN，用于生成3D表示。所提出的方法利用INR-GAN，隱式方法來生成樣本。

與使用MLP模型創(chuàng)建輸出圖像的標準INR-GAN架構(gòu)相比，假設(shè)使用NeRF模型作為目標網(wǎng)絡(luò)。由于這種方法，生成器通過傳遞特定的NeRF參數(shù)來創(chuàng)建場景或?qū)ο蟮奶囟?D表示。

模型架構(gòu)，如圖1所示。

生成器從假定的基本分布(高斯分布)中獲取樣本，并返回一組參數(shù) 。

這些參數(shù)在NeRF模型中進一步使用，將空間位置轉(zhuǎn)換為發(fā)射顏色和體積密度。

沒有使用標準的線性架構(gòu)，而是使用因數(shù)乘調(diào)制(FMM)層。

輸入尺寸為，輸出尺寸為的FMM層定義為:

其中 W 和 b 是在三維表示中共享參數(shù)的矩陣，A, b是由生成器創(chuàng)建的形狀分別為的兩個調(diào)制矩陣。

參數(shù) k 控制著的秩。

值越高，F(xiàn)MM層的表達能力越強，但也會增加超網(wǎng)絡(luò)所需的內(nèi)存量。

我們設(shè)置為。

INR模型是基準NeRF的簡化版本。為了減少訓(xùn)練的計算成本，我們沒有像原始NeRF那樣優(yōu)化兩個網(wǎng)絡(luò)。

我們沒有使用較大的“精細”網(wǎng)絡(luò)，只使用較小的“粗糙”網(wǎng)絡(luò)。

此外，我們通過將每個隱藏層中的通道數(shù)量從 256 個減少到 128 個來減小“粗”網(wǎng)絡(luò)的大小。

在一些實驗中，我們還將層數(shù)從8層減少到4層。

圖4 用ShapeNet(前三行)和CARL數(shù)據(jù)集(最后兩行)的汽車、飛機和椅子圖像訓(xùn)練的模型生成的線性插值示例。

圖5 在CARLA上訓(xùn)練的模型的例子。

我們與基線NeRF在另一個方面有所不同，因為我們不使用視圖方向。

這是因為用于訓(xùn)練的圖像沒有像反射這樣的依賴于視圖的特征。

即使在我們的架構(gòu)中沒有使用視圖方向，也沒有理由不能將其用于將從中受益的數(shù)據(jù)集。

我們的NeRF是一個單一的MLP，它只接受空間位置作為輸入:

在這項工作中，我們利用StyleGAN2架構(gòu)，遵循INR-GAN的設(shè)計模式。整個模型使用StyleGANv2目標以與INR-GAN相似的方式進行訓(xùn)練。

在每次訓(xùn)練迭代中，使用生成器對噪聲向量進行采樣和變換，得到目標NeRF模型的權(quán)值。進一步利用目標模型從不同角度渲染二維圖像。

生成的2D圖像進一步作為鑒別器的 fake 圖像，生成器G的作用是創(chuàng)建3D表示渲染2D圖像，欺騙鑒別器。

鑒別器旨在從數(shù)據(jù)分布中區(qū)分假渲染和真實的2D圖像。

圖6 在CARLA數(shù)據(jù)集上訓(xùn)練的模型和在ShapeNet的飛機和椅子上訓(xùn)練的模型生成的網(wǎng)格。

四、實驗

在本節(jié)中，首先評估了HyperNeRFGAN生成3D物體的質(zhì)量。使用的數(shù)據(jù)集包含從ShapeNet獲得的3D物體的2D圖像。

該數(shù)據(jù)集包含來自平面、椅子和汽車類的每個元素的50張圖像。這是最適合我們目的的數(shù)據(jù)集，因為每個對象都有每個元素的一些圖像。

然后使用包含汽車圖像的CARLA。在這種情況下，每個物體只有一張圖像，但仍然有物體四面八方的照片?？梢灾谱魍暾?D物體，可以用于虛擬現(xiàn)實或增強現(xiàn)實。

最后，使用了包含人臉的經(jīng)典CelebA數(shù)據(jù)集。從3D生成的角度來看，這是具有挑戰(zhàn)性的，因為我們只有臉部的正面。在實踐中，基于3D的生成模型可用于3D感知圖像合成。

4.1 從ShapeNet生成3D對象

在第一個實驗中，使用ShapeNet基礎(chǔ)數(shù)據(jù)集，其中包含來自平面、椅子和汽車類的每個元素的50張圖像。這種表示對于訓(xùn)練3D模型來說是完美的，因為每個元素都可以從許多角度看到。數(shù)據(jù)取自[42]，作者訓(xùn)練了一個基于自動編碼器的生成模型。

在圖3中，展示了從我們的模型生成的對象。

在圖4中，也給出了對象的線性插值?？梢钥吹剑锲返馁|(zhì)量非常好，見表1。

表1 基于FID的HyperNeRFGAN與基于自編碼器的模型的比較。GAN與自編碼器和GAN之間的比較是困難的。但我們可以獲得更好的FID評分。

4.2 從CARLA數(shù)據(jù)集生成三維物體

在第二個實驗中，我們將基于CARLA數(shù)據(jù)集的模型與其他基于GAN的模型: HoloGAN、GRAF和πGAN進行了比較。

CARLA包含汽車圖像。每個物體只有一張圖像，但我們?nèi)匀挥形矬w四面八方的照片。因此，全3D對象可以用于VR或增強現(xiàn)實。

在圖2中給出了視覺對比。如圖5所示，我們可以有效地模擬汽車玻璃的透明度。

在表2中，給出了Frechet Inception Distance (FID)、Kernel Inception Distance (KID)和Inception Score (IS)的數(shù)值比較?？梢钥闯?，我們得到了比π-GAN模型更好的結(jié)果。

在NeRF表示的情況下，我們可以生成網(wǎng)格，見圖6。

表2 CARLA 數(shù)據(jù)集上的FID, KID 和 IS。

4.3從CelebA合成3D感知圖像

在作者的第三個實驗中，通過將設(shè)置更改為人臉生成，進一步比較了與第二個實驗相同的模型。

對于這項任務(wù)，我們使用CelebA數(shù)據(jù)集，該數(shù)據(jù)集包含10,000名不同名人的200,000張高分辨率人臉圖像。

我們將圖像從頭發(fā)的頂部裁剪到下巴的底部，并將其大小調(diào)整為的分辨率，就像π-GAN作者所做的那樣。

在表3中給出了定量結(jié)果。可以看到，HyperNeRFGAN和π-GAN實現(xiàn)了相似的性能，如圖7所示。

表3 CelebA數(shù)據(jù)集的FID, KID mean×100和IS。

五、總結(jié)

在這項工作中，作者提出了一種從2D圖像生成NeRF表示的新方法。模型利用了超網(wǎng)絡(luò)范式和3D場景的NeRF表示。

HyperNeRFGAN接受高斯噪聲并返回NeRF網(wǎng)絡(luò)的權(quán)重，NeRF網(wǎng)絡(luò)可以從2D圖像中重建3D物體。

在訓(xùn)練中，作者只使用未標記的圖像和StyleGAN2鑒別器。與現(xiàn)有的方法相比，這種表示有幾個優(yōu)點。

首先，可以在GAN類型算法中使用NeRF代替SIREN表示。

其次，模型簡單，可以在三維物體上進行有效的訓(xùn)練。

最后，模型直接生成NeRF對象，而不共享渲染組件的一些全局參數(shù)。
責(zé)任編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

3D

3D

+關(guān)注

關(guān)注
9

文章
2875

瀏覽量
107481
GaN

GaN

+關(guān)注

關(guān)注
19

文章
1933

瀏覽量
73286
模型

模型

+關(guān)注

關(guān)注
1

文章
3226

瀏覽量
48807

原文標題：3D 對象生成 | NeRF+GAN的超網(wǎng)絡(luò)：HyperNeRFGAN

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

mysql隱式轉(zhuǎn)換具體描述

mysql 隱式轉(zhuǎn)換問題

發(fā)表于 08-13 06:07

隱式2D解析

《Fundamentals of Computer Graphics》翻譯（三）：隱式2D直線

發(fā)表于 09-03 12:19

華人團隊打造專為GAN量身定制架構(gòu)搜索方案AutoGAN

生成對抗網(wǎng)絡(luò)（GAN）自其誕生以來一直盛行。它的一個最顯著的成功在于是用各種各樣的卷積結(jié)構(gòu)生成逼真的自然圖像。近年來，人們對自動設(shè)計復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)產(chǎn)生了濃厚的興趣。神經(jīng)架構(gòu)搜索（NAS）已經(jīng)

發(fā)表于 11-30 07:29

基于NTFS的最小侵入式隱寫系統(tǒng)

為實現(xiàn)高效安全的信息存儲，在分析訪問權(quán)限控制與加密技術(shù)等數(shù)據(jù)保護措施及現(xiàn)有文件隱寫系統(tǒng)的基礎(chǔ)上，提出基于NTFS文件系統(tǒng)的最小侵入式隱寫系統(tǒng)。該系統(tǒng)可作為NTFS文件系統(tǒng)

發(fā)表于 03-31 10:30 ?17次下載

基于隱式PIGPC的網(wǎng)絡(luò)控制系統(tǒng)時延補償方法

基于隱式PIGPC的網(wǎng)絡(luò)控制系統(tǒng)時延補償方法_田中大

發(fā)表于 01-07 18:21 ?0次下載

基于顯式與隱式反饋信息的矩陣分解

針對現(xiàn)有的基于用戶顯式反饋信息的推薦系統(tǒng)推薦準確率不高的問題，提出了一種基于顯式與隱式反饋信息的概率矩陣分解推薦方法。該方法綜合考慮了顯示反饋信息和

發(fā)表于 01-04 16:22 ?0次下載

結(jié)合顯式和隱式特征交互的融合模型

特征工程是影響杋器茡習(xí)算法性能的關(guān)鍵因素之一，隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的擴大，傳統(tǒng)特征工程的人力成本不斷増加。為減少對特征工程的依賴，構(gòu)建一種結(jié)合顯式和隱式特征交互的融合模型。將稀疏結(jié)構(gòu)單元與殘差單元

發(fā)表于 05-12 16:13 ?5次下載

基于機器學(xué)習(xí)的中文隱式實體關(guān)系抽取方法

基于機器學(xué)習(xí)的中文隱式實體關(guān)系抽取方法

發(fā)表于 06-02 14:42 ?4次下載

Block nerf：可縮放的大型場景神經(jīng)視圖合成

為了在大場景中應(yīng)用神經(jīng)輻射場（NeRF）模型，文章提出將大型場景分解為相互重疊的子場景（block），每一個子場景分別訓(xùn)練，在推理時動態(tài)結(jié)合相鄰 Block-NeRF 的渲染視圖。

發(fā)表于 10-19 15:15 ?1524次閱讀

基于Qt 5.15源碼來聊聊隱式共享

在實際開發(fā)中，Qt中很多類可以直接作為函數(shù)參數(shù)傳遞，這是為什么？其背后的實現(xiàn)機制又是什么？這些都歸功于隱式共享

發(fā)表于 02-12 16:52 ?788次閱讀

從多視角圖像做三維場景重建 (CVPR'22 Oral)

最近，有方法提出基于隱式神經(jīng)表示做三維重建。NeRF [3] 通過可微分的體積渲染技術(shù)從圖像中學(xué)習(xí)隱式輻射場。

發(fā)表于 02-20 10:11 ?2813次閱讀

了解NeRF 神經(jīng)輻射場

介紹 NeRF（ Neural Radiance Fields ）是一種先進的計算機圖形學(xué)技術(shù)，能夠生成高度逼真的3D場景。它通過深度學(xué)習(xí)的方法從2D圖片中學(xué)習(xí)，并生成連續(xù)的3D場景模型。NeRF

發(fā)表于 06-12 09:52 ?5574次閱讀

pipeline高端玩法之Stage里的隱式轉(zhuǎn)換

Scala里面的隱式轉(zhuǎn)換的好處是靈活，壞處就是太靈活。

發(fā)表于 08-19 10:45 ?659次閱讀

NeurlPS'23開源 | 大規(guī)模室外NeRF也可以實時渲染

神經(jīng)輻射場 (NeRF)是一種新穎的隱式三維重建方法，顯示出巨大的潛力，受到越來越多的關(guān)注。它能夠僅從一組照片中重建3D場景。然而，它的實時渲染能力，尤其是對于大規(guī)模場景的交互式實時渲

發(fā)表于 11-08 16:41 ?1019次閱讀

全面總結(jié)動態(tài)NeRF

1. 摘要神經(jīng)輻射場（NeRF）是一種新穎的隱式方法，可以實現(xiàn)高分辨率的三維重建和表示。在首次提出NeRF的研究之后，NeRF獲得了強大的

發(fā)表于 11-14 16:48 ?314次閱讀