本文介紹一下我組在ICCV2023的論文“S3IM: Stochastic Structural SIMilarity and Its Unreasonable Effectiveness for Neural Fields”。
S3IM這個(gè)工作背后的想法實(shí)際上很簡(jiǎn)潔,從這個(gè)idea在腦海里形成到最后提交到ICCV2023不過(guò)2個(gè)月時(shí)間。
S3IM: Stochastic Structural SIMilarity and Its Unreasonable Effectiveness for Neural Fields
論文:arxiv.org/abs/2308.07032
代碼:github.com/Madaoer/S3IM-Neural-Fields
用一句話來(lái)總結(jié)這個(gè)工作就是——我們提出了一種即插即用的loss S3IM(隨機(jī)結(jié)構(gòu)相似性),可以近乎零成本地顯著提升現(xiàn)存NeRF類方法的性能指標(biāo)。在幾個(gè)場(chǎng)景里,我們甚至可以把TensoRF和DVGO這些經(jīng)典模型的Test MSE Loss下降99%,同時(shí)把NeuS的幾何重建指標(biāo)(比如Chamfer L1 Distance)改善超過(guò)60%。
這里我們先看幾組RGB和幾何重建的可視化結(jié)果。
不僅如此,還可以提高對(duì)圖像噪音的魯棒性。如下圖所示,S3IM的渲染結(jié)果明顯去掉了圖像里灰蒙蒙的噪音。
毫無(wú)疑問(wèn),S3IM極大地增強(qiáng)了現(xiàn)有的NeRF類方法。
S3IM的精髓在于以兩個(gè)像素集合之間的相似性作為訓(xùn)練損失;像素集合一般包含數(shù)千個(gè)像素,這些像素一起貢獻(xiàn)了互相關(guān)聯(lián)的、全局的結(jié)構(gòu)信息。
而NeRF傳統(tǒng)的MSE是一種以兩個(gè)獨(dú)立像素之間的point-wise error作為訓(xùn)練損失;所以MSE只包含了像素點(diǎn)孤立的信息、完全沒(méi)有遠(yuǎn)距離或者全局的信息。
上面這兩段話就是S3IM的motivation。
為什么有結(jié)構(gòu)信息更好?
這是一個(gè)很好的問(wèn)題。
但我們先回答另一個(gè)相關(guān)的問(wèn)題,為什么NeRF的性能指標(biāo)要有3個(gè)——PSNR、SSIM和LPIPS?
PSNR就是像素之間point-wise的度量。很早大家就發(fā)現(xiàn),PSNR好不代表真的就好。
SSIM(結(jié)構(gòu)相似性)作為一種和人類視覺(jué)感知相關(guān)性更高的度量在2004年圖像評(píng)估領(lǐng)域應(yīng)運(yùn)而生。
LPIPS則是一種通過(guò)預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)提取特征計(jì)算特征距離的指標(biāo)(一般叫做感知指標(biāo))。
SSIM和LPIPS其實(shí)都具備衡量?jī)蓚€(gè)像素集合之間相似性的能力,而且與人類視覺(jué)感知相關(guān)性都比PSNR高。
熟悉NeRF的讀者都知道,傳統(tǒng)NeRF訓(xùn)練時(shí)是用MSE Loss。而PSNR和MSE其實(shí)就是一個(gè)簡(jiǎn)單的對(duì)數(shù)關(guān)系。
MSE和PSNR這類point-wise指標(biāo)都是不夠好的。一方面是和人類視覺(jué)感知相關(guān)性低,另一方面則是無(wú)法捕捉多個(gè)像素(像素集合)的整體信息。
那么SSIM和LPIPS可不可以直接作為NeRF的loss訓(xùn)練呢?
其實(shí)也可以,但仍然不夠好。
因?yàn)镾SIM和LPIPS都是基于卷積核的相似性度量,它們只能捕捉相近像素的局部信息,不能捕捉更遠(yuǎn)的像素包含的結(jié)構(gòu)信息。
我們的ICCV工作就是把SSIM(Structural SIMilarity)這個(gè)經(jīng)典圖像質(zhì)量評(píng)估指標(biāo)升級(jí),變?yōu)镾3IM(Stochastic Structural SIMilarity)。
這個(gè)升級(jí)方式也很簡(jiǎn)單。SSIM只能在圖像local patch用卷積核對(duì)吧。
那我們把NeRF訓(xùn)練時(shí)每個(gè)minibatch的像素隨機(jī)拼接成一個(gè)patch(叫做stochastic patch),然后再用SSIM處理這些stochastic patch就行了。
有時(shí)候,真理就是這么樸實(shí)無(wú)華啊...
知名3D幾何重建開源框架SDFStudio也已經(jīng)把S3IM方法合并進(jìn)去了。
最后再放一個(gè)量化的實(shí)驗(yàn)結(jié)果。表里Multiplex即是我們的S3IM方法。
S3IM這個(gè)工作是我們Machine Learning for Fields系列工作的一環(huán)。我們?cè)趶?a target="_blank">機(jī)器學(xué)習(xí)的角度考慮場(chǎng)的問(wèn)題。
無(wú)論是神經(jīng)輻射場(chǎng)還是其他什么場(chǎng),廣義來(lái)說(shuō)都是某個(gè)coordinate-wise的物理量。NeRF只是把輻射場(chǎng)的物理先驗(yàn)知識(shí)(空間中包含發(fā)光氣體)嵌入了sampling的部分而已。這對(duì)3D場(chǎng)景表示不是完美的,但確實(shí)非常有用,也掀起了熱潮。
-
圖像
+關(guān)注
關(guān)注
2文章
1083瀏覽量
40449 -
Magic
+關(guān)注
關(guān)注
0文章
53瀏覽量
10560 -
可視化
+關(guān)注
關(guān)注
1文章
1194瀏覽量
20933
原文標(biāo)題:ICCV 2023 | 即插即用!百度提出S3IM:用于NeRF提點(diǎn)的Magic Loss
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論