RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于NeRF的隱式GAN架構(gòu)

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-06-14 10:16 ? 次閱讀

3D對象的生成模型在VR和增強現(xiàn)實應(yīng)用中越來越受歡迎。但使用標準的3D表示(如體素或點云)來訓(xùn)練這些模型是具有挑戰(zhàn)性的,并且需要復(fù)雜的工具來進行適當?shù)念伾秩尽?strong>神經(jīng)輻射場(NeRF)在從一小部分2D圖像合成復(fù)雜3D場景的新視圖方面提供了最先進的質(zhì)量。

作者提出了一個生成模型HyperNeRFGAN,它使用超網(wǎng)絡(luò)范式來生成由NeRF表示的三維物體。超網(wǎng)絡(luò)被定義為為解決特定任務(wù)的單獨目標網(wǎng)絡(luò)生成權(quán)值的神經(jīng)模型?;贕AN的模型,利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)換為NeRF的權(quán)重。通過NeRF渲染2D新視圖,并使用經(jīng)典的2D判別器以隱式形式訓(xùn)練整個基于GAN的結(jié)構(gòu)。

提出了基于NeRF的隱式GAN架構(gòu)——第一個用于生成高質(zhì)量3D NeRF表示的GAN模型。與基于 SIREN 的架構(gòu)相比,利用NeRF的超網(wǎng)絡(luò)范式可以獲得更好的3D表示質(zhì)量。該模型允許從無監(jiān)督的2D圖像合成3D感知圖像。

筆者個人體會

這篇論文的動機是提出一種從2D圖像生成高質(zhì)量的3D物體的新方法,并且使用NeRF(Neural Radiance Fields)表示來重建物體的3D結(jié)構(gòu),以填補現(xiàn)有研究中的空白并解決傳統(tǒng)方法的局限性。NeRF是一種基于神經(jīng)網(wǎng)絡(luò)的表示方法,可以通過從不同視角觀察的2D圖像重建出完整的3D物體。

傳統(tǒng)的方法通常需要大量的3D訓(xùn)練數(shù)據(jù)或者深度信息,但這些數(shù)據(jù)往往難以獲取或者成本較高。而作者的方法可以利用2D圖像生成3D物體,無需額外的深度信息或大量的3D數(shù)據(jù)集,從而降低了數(shù)據(jù)收集的難度和成本。

此外,NeRF表示能夠捕捉到物體的細節(jié)和視角變化,生成的3D物體具有高質(zhì)量和準確性。

論文的核心創(chuàng)新是結(jié)合了HyperNetworks和NeRF的思想,提出了HyperNeRFGAN模型,將NeRF表示作為生成3D物體的基礎(chǔ),并利用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重,以實現(xiàn)從2D圖像到3D物體的映射。

HyperNetworks是一種可以生成神經(jīng)網(wǎng)絡(luò)權(quán)重的神經(jīng)網(wǎng)絡(luò),它可以用來生成NeRF網(wǎng)絡(luò)的權(quán)重。通過HyperNeRFGAN,可以從輸入的高斯噪聲生成NeRF網(wǎng)絡(luò)的權(quán)重,進而重建出相應(yīng)的3D物體。

NeRF表示能夠提供準確的3D物體重建,而HyperNetworks則提供了生成NeRF網(wǎng)絡(luò)權(quán)重的有效方式。通過結(jié)合兩者,作者能夠?qū)?D圖像與3D物體之間的映射關(guān)系建立起來,并實現(xiàn)從2D圖像生成高質(zhì)量的3D物體。

架構(gòu)設(shè)計

使用NeRF作為3D物體的表示,它可以通過神經(jīng)網(wǎng)絡(luò)從2D圖像中重建出物體的3D結(jié)構(gòu)。

利用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重,以在生成過程中動態(tài)調(diào)整網(wǎng)絡(luò)的參數(shù)。

模塊設(shè)計

生成器:使用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重,該生成器接受高斯噪聲作為輸入,并輸出NeRF網(wǎng)絡(luò)的權(quán)重。通過從噪聲向量中生成網(wǎng)絡(luò)的權(quán)重來實現(xiàn)動態(tài)調(diào)整網(wǎng)絡(luò)參數(shù)的能力。

NeRF網(wǎng)絡(luò):接受空間位置作為輸入,并輸出物體的顏色和密度信息。通過學(xué)習(xí)從2D圖像到3D物體的映射關(guān)系,可以重建物體的顏色和密度信息。

鑒別器:使用StyleGAN2架構(gòu)作為鑒別器,用于區(qū)分真實圖像和生成圖像的差異。鑒別器使用對抗學(xué)習(xí)的思想,通過訓(xùn)練來學(xué)習(xí)將真實圖像與生成圖像區(qū)分開來的能力。

設(shè)計原理

NeRF表示:NeRF網(wǎng)絡(luò)通過從2D圖像中學(xué)習(xí)生成物體的3D表示,能夠?qū)崿F(xiàn)高質(zhì)量的物體重建。

HyperNetworks:HyperNetworks是一個生成網(wǎng)絡(luò)權(quán)重的方法,它可以根據(jù)輸入的噪聲來生成網(wǎng)絡(luò)的參數(shù),使得網(wǎng)絡(luò)可以根據(jù)不同的輸入生成不同的結(jié)果。

實現(xiàn)過程

訓(xùn)練階段:使用未標記的2D圖像和StyleGAN2鑒別器進行訓(xùn)練。生成器通過對噪聲向量進行采樣和變換來生成NeRF網(wǎng)絡(luò)的權(quán)重。生成的2D圖像被用作鑒別器的 "fake" 圖像,生成器的目標是欺騙鑒別器。

生成階段:在生成階段,使用生成器生成NeRF網(wǎng)絡(luò)的權(quán)重,然后使用NeRF網(wǎng)絡(luò)從2D圖像中重建出3D物體。

該方法的好處包括:

無需額外的深度信息或大量的3D數(shù)據(jù)集,只需要2D圖像即可生成3D物體,降低了數(shù)據(jù)收集的難度和成本。

NeRF表示能夠捕捉到物體的細節(jié)和視角變化,生成的3D物體具有高質(zhì)量和準確性。

使用HyperNetworks生成NeRF網(wǎng)絡(luò)的權(quán)重,可以靈活地生成不同的3D物體,具有較強的泛化能力。

模型結(jié)構(gòu)簡單且適用于三維物體訓(xùn)練,生成過程直接、高效。

摘要

最近,3D對象的生成模型在VR和增強現(xiàn)實應(yīng)用中越來越受歡迎。

使用標準的3D表示(如體素或點云)來訓(xùn)練這些模型是具有挑戰(zhàn)性的,并且需要復(fù)雜的工具來進行適當?shù)念伾秩尽?/p>

為了克服這一限制,神經(jīng)輻射場(NeRF)在從一小部分2D圖像合成復(fù)雜3D場景的新視圖方面提供了最先進的質(zhì)量。

在本文中,作者提出了一個生成模型HyperNeRFGAN,它使用超網(wǎng)絡(luò)范式來生成由NeRF表示的三維物體。

我們的GAN架構(gòu)利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)換為NeRF模型的權(quán)重。該模型進一步用于呈現(xiàn)2D新視圖,并使用經(jīng)典的2D鑒別器來訓(xùn)練整個基于GAN的結(jié)構(gòu)。

我們的架構(gòu)產(chǎn)生2D圖像,但我們使用3D感知的NeRF表示,這迫使模型產(chǎn)生正確的3D對象。

該模型相對于現(xiàn)有方法的優(yōu)勢在于,它為對象生成專用的NeRF表示,而無需共享呈現(xiàn)組件的某些全局參數(shù)。在來自不同領(lǐng)域的三個具有挑戰(zhàn)性的數(shù)據(jù)集上,展示了與參考基線相比,作者的方法的優(yōu)越性。

e4c0aa22-0a3e-11ee-962d-dac502259ad0.png

圖1 HyperNeRFGAN架構(gòu)利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)化為NeRF模型的權(quán)重。

在此基礎(chǔ)上,利用NeRF渲染二維新視圖,并使用經(jīng)典的二維鑒別器。

架構(gòu)產(chǎn)生2D圖像,但作者使用3D感知的NeRF表示,這迫使模型產(chǎn)生正確的3D對象。

一、引言

生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets, GANs)使我們能夠生成高質(zhì)量的2D圖像。另一方面,為3D對象保持類似的質(zhì)量是具有挑戰(zhàn)性的。這主要是由于使用3D表示(如體素和點云) 需要大量的深層架構(gòu),并且在真正的顏色渲染方面存在問題。

我們可以通過直接在 2D 圖像空間上操作來解決這個問題。

我們希望我們的方法能夠從未標記的2D視圖中提取信息以獲得3D形狀。

為了獲得這樣的效果,我們可以使用神經(jīng)輻射場(NeRF),它允許從一小部分2D圖像合成復(fù)雜3D場景的新視圖。

基于這些基礎(chǔ)圖像與計算機圖形學(xué)原理(如光線追蹤)之間的關(guān)系,該神經(jīng)網(wǎng)絡(luò)模型可以從以前未見過的視點渲染高質(zhì)量的3D物體圖像。

不幸的是,如何在 GAN 類型架構(gòu)中使用NeRF表示并不是容易解決的。

最具挑戰(zhàn)性的問題與NeRF的調(diào)節(jié)機制有關(guān)。因此,大多數(shù)模型使用SIREN而不是NeRF,我們可以自然地添加條件。但是3D物體的質(zhì)量卻比NeRF差。

在GRAF和π-GAN中,作者提出一個使用SIREN和調(diào)節(jié)作用機制產(chǎn)生隱式表征的模型。這樣的解決方案給出了有希望的結(jié)果,但如何在這樣的解決方案中使用NeRF而不是SIREN并不是容易解決的。

在圖2中,對模型、GRAF和π-GAN進行了定性比較。正如我們所看到的,我們的模型可以模擬玻璃的透明度。

在本文中,作者提出了一種稱為HyperNeRFGAN的生成模型,它結(jié)合了超網(wǎng)絡(luò)范式和NeRF表示。

超網(wǎng)絡(luò)被定義為為解決特定任務(wù)的單獨目標網(wǎng)絡(luò)生成權(quán)值的神經(jīng)模型?;贕AN的模型,利用超網(wǎng)絡(luò)范式將高斯噪聲轉(zhuǎn)換為NeRF的權(quán)重(見圖1)。

之后,通過NeRF渲染2D新視圖,并使用經(jīng)典的2D判別器以隱式形式訓(xùn)練整個基于GAN的結(jié)構(gòu)。

我們的架構(gòu)產(chǎn)生2D圖像,但我們使用3D感知的NeRF表示,這迫使模型產(chǎn)生正確的3D對象。

本文的貢獻包括:

作者介紹了基于NeRF的隱式GAN架構(gòu)——第一個用于生成高質(zhì)量3D NeRF表示的GAN模型。

作者表明,與基于 SIREN 的架構(gòu)相比,利用NeRF的超網(wǎng)絡(luò)范式可以獲得更好的3D表示質(zhì)量。

作者的模型允許從無監(jiān)督的2D圖像合成3D感知圖像。

e4eeff58-0a3e-11ee-962d-dac502259ad0.png

圖2 HyperNeRFGAN與HoloGAN、GRAF、π-GAN在CARLA上的比較。得到了與π-GAN相似的結(jié)果,但作者有更好的FID評分值,見表2。

二、相關(guān)背景

神經(jīng)表示和渲染

3D物體可以使用許多不同的方法來表示,包括體素網(wǎng)格、八樹網(wǎng)格、多視圖圖像、點云、幾何圖像、可變形網(wǎng)格和基于部件的結(jié)構(gòu)圖。上述表示是謹慎的,這在實際應(yīng)用中會引起一些問題。相反,我們可以將三維物體表示為連續(xù)函數(shù)。

在實踐中,隱性占用,距離場和表面參數(shù)化模型使用神經(jīng)網(wǎng)絡(luò)來參數(shù)化3D對象。

在這種情況下,我們沒有固定數(shù)量的體素、點或頂點,而是將形狀表示為連續(xù)函數(shù)。

這些模型受限于對 ground truth 三維幾何的訪問要求。隱式神經(jīng)表征(NIR)被提出來解決這一問題。這種架構(gòu)可以從多視圖二維圖像中重建三維結(jié)構(gòu)。兩種最重要的方法是NeRF和SIREN。

NeRF使用體渲染來重建3D場景,使用神經(jīng)輻射和密度場來合成新的視圖。

SIREN用調(diào)制頻率的正弦函數(shù)取代了流行的ReLU激活函數(shù)。

大多數(shù)NeRF和基于SIREN的方法專注于單個3D對象或場景。

在實踐中,我們過擬合單個對象或場景。在論文中,作者專注于生成以NeRF表征的3D模型。

單視圖監(jiān)督的 3D 感知 GAN

生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets, GANs)可以生成高質(zhì)量的圖像。然而,GAN在二維圖像上運行,而忽略了我們物理世界的三維本質(zhì)。因此,利用物體的三維結(jié)構(gòu)來生成圖像和三維物體是很重要的。

3D感知圖像合成的第一種方法,如Visual Object Networks和 prGAN,首先使用3D- GAN生成體素化的3D形狀,然后將其投影到2D中。

hooloGAN和BlockGAN在類似的融合中工作,但使用隱式3D表示來建模世界的3D表示。不幸的是,使用顯式的體積表示限制了它們的分辨率。

在[36]中,作者提出使用網(wǎng)格來表示三維幾何。另一方面,文獻[15]使用基元集合進行圖像合成。

在GRAF和π-GAN中,作者使用隱式神經(jīng)輻射場生成3D感知圖像和幾何圖形。

在作者的工作中,使用NeRF代替SIREN,使用超網(wǎng)絡(luò)范式代替條件反射過程。

在ShadeGAN中,作者使用了陰影引導(dǎo)的pipeline;

在GOF中,他們逐漸縮小了每條相機光線的采樣區(qū)域。

而在CIRAFFE種,首先生成低分辨率的特征圖。

在第二步中,將表示傳遞給2D CNN,以生成更高分辨率的輸出。

在StyleSDF中,作者將基于SDF的3D表示與用于圖像生成的StyleGAN2合并。

在[1]中,作者使用StyleGAN2生成器和三維物體的三平面表示。

這些方法在生成對象的質(zhì)量上優(yōu)于其他方法,但極難訓(xùn)練。

超網(wǎng)絡(luò)+生成建模

超網(wǎng)絡(luò)和生成模型的結(jié)合并不新鮮。

在[29,8]中,作者構(gòu)建了GAN來生成用于回歸或分類任務(wù)的神經(jīng)網(wǎng)絡(luò)的參數(shù)。

HyperVAE通過生成給定分布樣本的生成模型參數(shù),對任意目標分布進行編碼。

HCNAF是一個超網(wǎng)絡(luò),產(chǎn)生了條件自回歸流動模型的參數(shù)。

在[34]中,作者提出INR-GAN使用超網(wǎng)絡(luò)生成圖像的連續(xù)表示。該超網(wǎng)絡(luò)可以通過因數(shù)乘調(diào)制的低成本機制來修改共享權(quán)值。

e515c50c-0a3e-11ee-962d-dac502259ad0.png

圖3 在ShapeNet的三種類型(汽車、飛機、椅子)上由模型訓(xùn)練生成的元素。

三、HyperNeRFGAN: 用于生成NeRF表示的超網(wǎng)絡(luò)

在本節(jié)中,介紹了HyperNeRFGAN——一種用于3D對象的新型生成模型。該方法的主要思想是將生成器作為一個超網(wǎng)絡(luò),將從已知分布中采樣的噪聲向量轉(zhuǎn)換為目標模型的權(quán)值。

與以往的作品相比,目標模型采用NeRF對對象進行三維表示。因此,可以以可控的方式從不同角度生成物體的許多圖像。

此外,由于基于NeRF的圖像渲染,與基于GAN的復(fù)雜3D結(jié)構(gòu)模型相比,鑒別器可以在從多個角度生成的2D圖像上運行。

超網(wǎng)絡(luò)

超網(wǎng)絡(luò)中介紹的超網(wǎng)絡(luò)被定義為神經(jīng)模型,用于預(yù)測為解決特定任務(wù)而設(shè)計的不同目標網(wǎng)絡(luò)的權(quán)重。

與使用單個嵌入將附加信息注入目標模型的標準方法相比,這種方法減少了可訓(xùn)練參數(shù)的數(shù)量。可以實現(xiàn)目標模型大小的顯著減小,因為它不共享全局權(quán)重,但它們由超網(wǎng)絡(luò)返回。

sheikh 作者將超網(wǎng)絡(luò)和生成模型進行了類比,使用這種機制來生成一組近似相同函數(shù)的不同目標網(wǎng)絡(luò)。

超網(wǎng)絡(luò)廣泛應(yīng)用于許多領(lǐng)域,包括 few-shot 問題或概率回歸場景。各種方法也使用它們來生成3D對象的連續(xù)表示。

例如,HyperCloud 將3D點云表示為一個經(jīng)典的MLP,作為目標模型,并將點從高斯球上的均勻分布轉(zhuǎn)換為代表所需形狀的點云。

在spurek 中,目標模型由連續(xù)歸一化流(Continuous Normalizing Flow) 表示,這是一種生成模型,它根據(jù)假定的三維空間中的基本分布創(chuàng)建點云。

GAN

GAN 是一個使用極大極小博弈來訓(xùn)練深度生成模型的框架。目標是學(xué)習(xí)一個與實際數(shù)據(jù)分布 匹配的生成器分布 。

GAN學(xué)習(xí)一個生成器網(wǎng)絡(luò) ,通過將噪聲變量 (通常是高斯噪聲 ) 轉(zhuǎn)換為樣本 ,從生成器分布 中產(chǎn)生樣本。

生成器通過對抗一個對抗鑒別器網(wǎng)絡(luò)來學(xué)習(xí),目的是區(qū)分真實數(shù)據(jù)分布 和生成器分布 的樣本。

更正式地說,極大極小博弈由下式給出:

與其他方法相比,它的主要優(yōu)點是產(chǎn)生與真實圖像難以區(qū)分的清晰圖像。

從模型中采樣的圖像的視覺質(zhì)量方面,GAN令人印象深刻,但訓(xùn)練過程通常具有挑戰(zhàn)性和不穩(wěn)定性。

這種現(xiàn)象的產(chǎn)生是由于訓(xùn)練目標的直接優(yōu)化難以實現(xiàn),通常是通過交替優(yōu)化鑒別器和生成器的參數(shù)來訓(xùn)練模型。

近年來,許多研究人員致力于改進傳統(tǒng)的GAN過程,以提高訓(xùn)練過程的穩(wěn)定性。

一些改進是基于將目標函數(shù)改為WGAN (WGAN) 、梯度懲罰限制、譜歸一化或生成器和判別器的不平衡學(xué)習(xí)率。

通過利用自注意力機制(SAGAN)和逐步增長的ProGAN、style-GAN架構(gòu)(StyleGAN ),對模型架構(gòu)進行了更深入的探索。

INR-GAN

隱式神經(jīng)表示GAN是基于GAN的模型的一種變體,它利用超網(wǎng)絡(luò)為目標模型生成參數(shù),而不是直接生成圖像

由簡單MLP表示的目標模型以RGB格式返回給定像素位置的顏色。

該模型在架構(gòu)上非常接近StyleGAN2,并且比直接方法具有明顯的優(yōu)勢,主要是因為使用INR-GAN可以在不假設(shè)任意給定分辨率的情況下生成圖像。

3D對象的NeRF表示

NeRF表示使用全連接架構(gòu)的場景。NeRF以5D坐標(空間位置 ,觀察方向 作為輸入,輸出發(fā)射顏色 和體積密度 。

NeRF使用一組圖像進行訓(xùn)練。在這種情況下,我們產(chǎn)生許多光線通過圖像和由神經(jīng)網(wǎng)絡(luò)表示的3D對象。NeRF用MLP網(wǎng)絡(luò)近似這個3D對象:

并優(yōu)化其權(quán)重,將每個輸入5D坐標映射到相應(yīng)的體積密度和方向發(fā)射顏色。

NeRF的丟失受到經(jīng)典體渲染的啟發(fā)。渲染通過場景的所有光線的顏色。體積密度 可以解釋為射線的微分概率。相機射線 的期望顏色 (其中o為射線原點,d為方向)可以用積分計算。

在實際中,這個連續(xù)積分是用求積分法在數(shù)值上估計的。我們使用分層抽樣方法,將射線 劃分為個均勻間隔的 bins,然后從每個 bin 內(nèi)均勻隨機抽取一個樣本:

我們使用這些樣本來估計 ,使用Max在體積渲染中討論的正交規(guī)則:

,

其中,

其中 為相鄰樣本間的距離。

從 值的集合計算 的函數(shù)是平凡可微的。

然后,我們使用體渲染過程來渲染來自兩組樣本的每條光線的顏色。與基線NeRF相反,其中兩個“粗”和“細”模型同時訓(xùn)練,我們只使用“粗”架構(gòu)。

3.1 HyperNeRFGAN

在這項工作中,作者提出了一種新的GAN架構(gòu),HyperNeRFGAN,用于生成3D表示。所提出的方法利用INR-GAN,隱式方法來生成樣本。

與使用MLP模型創(chuàng)建輸出圖像的標準INR-GAN架構(gòu)相比,假設(shè)使用NeRF模型作為目標網(wǎng)絡(luò)。由于這種方法,生成器通過傳遞特定的NeRF參數(shù)來創(chuàng)建場景或?qū)ο蟮奶囟?D表示。

模型架構(gòu),如圖1所示。

生成器 從假定的基本分布(高斯分布)中獲取樣本,并返回一組參數(shù) 。

這些參數(shù)在NeRF模型 中進一步使用,將空間位置 轉(zhuǎn)換為發(fā)射顏色 和體積密度 。

沒有使用標準的線性架構(gòu),而是使用因數(shù)乘調(diào)制(FMM)層。

輸入尺寸為 ,輸出尺寸為 的FMM層定義為:

其中 W 和 b 是在三維表示中共享參數(shù)的矩陣,A, b是由生成器創(chuàng)建的形狀分別為 的兩個調(diào)制矩陣。

參數(shù) k 控制著 的秩。

值越高,F(xiàn)MM層的表達能力越強,但也會增加超網(wǎng)絡(luò)所需的內(nèi)存量。

我們設(shè)置為 。

INR模型 是基準NeRF的簡化版本。為了減少訓(xùn)練的計算成本,我們沒有像原始NeRF那樣優(yōu)化兩個網(wǎng)絡(luò)。

我們沒有使用較大的“精細”網(wǎng)絡(luò),只使用較小的“粗糙”網(wǎng)絡(luò)。

此外,我們通過將每個隱藏層中的通道數(shù)量從 256 個減少到 128 個來減小“粗”網(wǎng)絡(luò)的大小。

在一些實驗中,我們還將層數(shù)從8層減少到4層。

e53b8828-0a3e-11ee-962d-dac502259ad0.png

圖4 用ShapeNet(前三行)和CARL數(shù)據(jù)集(最后兩行)的汽車、飛機和椅子圖像訓(xùn)練的模型生成的線性插值示例。

e5664f0e-0a3e-11ee-962d-dac502259ad0.png

圖5 在CARLA上訓(xùn)練的模型的例子。

我們與基線NeRF在另一個方面有所不同,因為我們不使用視圖方向。

這是因為用于訓(xùn)練的圖像沒有像反射這樣的依賴于視圖的特征。

即使在我們的架構(gòu)中沒有使用視圖方向,也沒有理由不能將其用于將從中受益的數(shù)據(jù)集。

我們的NeRF是一個單一的MLP,它只接受空間位置作為輸入:

在這項工作中,我們利用StyleGAN2架構(gòu),遵循INR-GAN的設(shè)計模式。整個模型使用StyleGANv2目標以與INR-GAN相似的方式進行訓(xùn)練。

在每次訓(xùn)練迭代中,使用生成器對噪聲向量進行采樣和變換,得到目標NeRF模型 的權(quán)值。進一步利用目標模型從不同角度渲染二維圖像。

生成的2D圖像進一步作為鑒別器的 fake 圖像,生成器G的作用是創(chuàng)建3D表示渲染2D圖像,欺騙鑒別器。

鑒別器旨在從數(shù)據(jù)分布中區(qū)分假渲染和真實的2D圖像。

e56f2a5c-0a3e-11ee-962d-dac502259ad0.png

圖6 在CARLA數(shù)據(jù)集上訓(xùn)練的模型和在ShapeNet的飛機和椅子上訓(xùn)練的模型生成的網(wǎng)格。

四、實驗

在本節(jié)中,首先評估了HyperNeRFGAN生成3D物體的質(zhì)量。使用的數(shù)據(jù)集包含從ShapeNet獲得的3D物體的2D圖像。

該數(shù)據(jù)集包含來自平面、椅子和汽車類的每個元素的50張圖像。這是最適合我們目的的數(shù)據(jù)集,因為每個對象都有每個元素的一些圖像。

然后使用包含汽車圖像的CARLA。在這種情況下,每個物體只有一張圖像,但仍然有物體四面八方的照片??梢灾谱魍暾?D物體,可以用于虛擬現(xiàn)實或增強現(xiàn)實。

最后,使用了包含人臉的經(jīng)典CelebA數(shù)據(jù)集。從3D生成的角度來看,這是具有挑戰(zhàn)性的,因為我們只有臉部的正面。在實踐中,基于3D的生成模型可用于3D感知圖像合成。

4.1 從ShapeNet生成3D對象

在第一個實驗中,使用ShapeNet基礎(chǔ)數(shù)據(jù)集,其中包含來自平面、椅子和汽車類的每個元素的50張圖像。這種表示對于訓(xùn)練3D模型來說是完美的,因為每個元素都可以從許多角度看到。數(shù)據(jù)取自[42],作者訓(xùn)練了一個基于自動編碼器的生成模型。

在圖3中,展示了從我們的模型生成的對象。

在圖4中,也給出了對象的線性插值??梢钥吹剑锲返馁|(zhì)量非常好,見表1。

表1 基于FID的HyperNeRFGAN與基于自編碼器的模型的比較。GAN與自編碼器和GAN之間的比較是困難的。但我們可以獲得更好的FID評分。

e58cc6ca-0a3e-11ee-962d-dac502259ad0.png

4.2 從CARLA數(shù)據(jù)集生成三維物體

在第二個實驗中,我們將基于CARLA數(shù)據(jù)集的模型與其他基于GAN的模型: HoloGAN、GRAF和πGAN進行了比較。

CARLA包含汽車圖像。每個物體只有一張圖像,但我們?nèi)匀挥形矬w四面八方的照片。因此,全3D對象可以用于VR或增強現(xiàn)實。

在圖2中給出了視覺對比。如圖5所示,我們可以有效地模擬汽車玻璃的透明度。

在表2中,給出了Frechet Inception Distance (FID)、Kernel Inception Distance (KID)和Inception Score (IS)的數(shù)值比較??梢钥闯?,我們得到了比π-GAN模型更好的結(jié)果。

在NeRF表示的情況下,我們可以生成網(wǎng)格,見圖6。

表2 CARLA 數(shù)據(jù)集上的FID, KID 和 IS。

e5a323fc-0a3e-11ee-962d-dac502259ad0.png

4.3從CelebA合成3D感知圖像

在作者的第三個實驗中,通過將設(shè)置更改為人臉生成,進一步比較了與第二個實驗相同的模型。

對于這項任務(wù),我們使用CelebA數(shù)據(jù)集,該數(shù)據(jù)集包含10,000名不同名人的200,000張高分辨率人臉圖像。

我們將圖像從頭發(fā)的頂部裁剪到下巴的底部,并將其大小調(diào)整為 的分辨率,就像π-GAN作者所做的那樣。

在表3中給出了定量結(jié)果。可以看到,HyperNeRFGAN和π-GAN實現(xiàn)了相似的性能,如圖7所示。

表3 CelebA數(shù)據(jù)集的FID, KID mean×100和IS。

e6076bc8-0a3e-11ee-962d-dac502259ad0.png

五、總結(jié)

在這項工作中,作者提出了一種從2D圖像生成NeRF表示的新方法。模型利用了超網(wǎng)絡(luò)范式和3D場景的NeRF表示。

HyperNeRFGAN接受高斯噪聲并返回NeRF網(wǎng)絡(luò)的權(quán)重,NeRF網(wǎng)絡(luò)可以從2D圖像中重建3D物體。

在訓(xùn)練中,作者只使用未標記的圖像和StyleGAN2鑒別器。與現(xiàn)有的方法相比,這種表示有幾個優(yōu)點。

首先,可以在GAN類型算法中使用NeRF代替SIREN表示。

其次,模型簡單,可以在三維物體上進行有效的訓(xùn)練。

最后,模型直接生成NeRF對象,而不共享渲染組件的一些全局參數(shù)。
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2875

    瀏覽量

    107481
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1933

    瀏覽量

    73286
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3226

    瀏覽量

    48807

原文標題:3D 對象生成 | NeRF+GAN的超網(wǎng)絡(luò):HyperNeRFGAN

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    mysql轉(zhuǎn)換具體描述

    mysql 轉(zhuǎn)換問題
    發(fā)表于 08-13 06:07

    2D解析

    《Fundamentals of Computer Graphics》翻譯(三):2D直線
    發(fā)表于 09-03 12:19

    華人團隊打造專為GAN量身定制架構(gòu)搜索方案AutoGAN

    生成對抗網(wǎng)絡(luò)(GAN)自其誕生以來一直盛行。它的一個最顯著的成功在于是用各種各樣的卷積結(jié)構(gòu)生成逼真的自然圖像。 近年來,人們對自動設(shè)計復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)產(chǎn)生了濃厚的興趣。神經(jīng)架構(gòu)搜索(NAS)已經(jīng)
    發(fā)表于 11-30 07:29

    基于NTFS的最小侵入寫系統(tǒng)

    為實現(xiàn)高效安全的信息存儲,在分析訪問權(quán)限控制與加密技術(shù)等數(shù)據(jù)保護措施及現(xiàn)有文件寫系統(tǒng)的基礎(chǔ)上,提出基于NTFS文件系統(tǒng)的最小侵入寫系統(tǒng)。該系統(tǒng)可作為NTFS文件系統(tǒng)
    發(fā)表于 03-31 10:30 ?17次下載

    基于PIGPC的網(wǎng)絡(luò)控制系統(tǒng)時延補償方法

    基于PIGPC的網(wǎng)絡(luò)控制系統(tǒng)時延補償方法_田中大
    發(fā)表于 01-07 18:21 ?0次下載

    基于顯反饋信息的矩陣分解

    針對現(xiàn)有的基于用戶顯反饋信息的推薦系統(tǒng)推薦準確率不高的問題,提出了一種基于顯反饋信息的概率矩陣分解推薦方法。該方法綜合考慮了顯示反饋信息和
    發(fā)表于 01-04 16:22 ?0次下載

    結(jié)合顯特征交互的融合模型

    特征工程是影響杋器茡習(xí)算法性能的關(guān)鍵因素之一,隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的擴大,傳統(tǒng)特征工程的人力成本不斷増加。為減少對特征工程的依賴,構(gòu)建一種結(jié)合顯特征交互的融合模型。將稀疏結(jié)構(gòu)單元與殘差單元
    發(fā)表于 05-12 16:13 ?5次下載

    基于機器學(xué)習(xí)的中文實體關(guān)系抽取方法

    基于機器學(xué)習(xí)的中文實體關(guān)系抽取方法
    發(fā)表于 06-02 14:42 ?4次下載

    Block nerf:可縮放的大型場景神經(jīng)視圖合成

    為了在大場景中應(yīng)用神經(jīng)輻射場(NeRF)模型,文章提出將大型場景分解為相互重疊的子場景 (block),每一個子場景分別訓(xùn)練,在推理時動態(tài)結(jié)合相鄰 Block-NeRF 的渲染視圖。
    的頭像 發(fā)表于 10-19 15:15 ?1524次閱讀

    基于Qt 5.15源碼來聊聊共享

    在實際開發(fā)中,Qt中很多類可以直接作為函數(shù)參數(shù)傳遞,這是為什么?其背后的實現(xiàn)機制又是什么?這些都歸功于共享
    的頭像 發(fā)表于 02-12 16:52 ?788次閱讀

    從多視角圖像做三維場景重建 (CVPR'22 Oral)

    最近,有方法提出基于神經(jīng)表示做三維重建。NeRF [3] 通過可微分的體積渲染技術(shù)從圖像中學(xué)習(xí)輻射場。
    的頭像 發(fā)表于 02-20 10:11 ?2813次閱讀

    了解NeRF 神經(jīng)輻射場

    介紹 NeRF( Neural Radiance Fields )是一種先進的計算機圖形學(xué)技術(shù),能夠生成高度逼真的3D場景。它通過深度學(xué)習(xí)的方法從2D圖片中學(xué)習(xí),并生成連續(xù)的3D場景模型。NeRF
    的頭像 發(fā)表于 06-12 09:52 ?5574次閱讀
    了解<b class='flag-5'>NeRF</b> 神經(jīng)輻射場

    pipeline高端玩法之Stage里的轉(zhuǎn)換

    Scala里面的轉(zhuǎn)換的好處是靈活,壞處就是太靈活。
    的頭像 發(fā)表于 08-19 10:45 ?659次閱讀
    pipeline高端玩法之Stage里的<b class='flag-5'>隱</b><b class='flag-5'>式</b>轉(zhuǎn)換

    NeurlPS&apos;23開源 | 大規(guī)模室外NeRF也可以實時渲染

    神經(jīng)輻射場 (NeRF)是一種新穎的三維重建方法,顯示出巨大的潛力,受到越來越多的關(guān)注。它能夠僅從一組照片中重建3D場景。然而,它的實時渲染能力,尤其是對于大規(guī)模場景的交互實時渲
    的頭像 發(fā)表于 11-08 16:41 ?1019次閱讀
    NeurlPS&apos;23開源 | 大規(guī)模室外<b class='flag-5'>NeRF</b>也可以實時渲染

    全面總結(jié)動態(tài)NeRF

    1. 摘要 神經(jīng)輻射場(NeRF)是一種新穎的方法,可以實現(xiàn)高分辨率的三維重建和表示。在首次提出NeRF的研究之后,NeRF獲得了強大的
    的頭像 發(fā)表于 11-14 16:48 ?314次閱讀
    全面總結(jié)動態(tài)<b class='flag-5'>NeRF</b>
    RM新时代网站-首页