1. 文章一覽
本文介紹了一種名為長(zhǎng)短距離循環(huán)更新(LRRU)網(wǎng)絡(luò)的輕量級(jí)深度網(wǎng)絡(luò)框架,用于深度補(bǔ)全。深度補(bǔ)全是指從稀疏的距離測(cè)量估計(jì)密集的深度圖的過程?,F(xiàn)有的深度學(xué)習(xí)方法使用參數(shù)眾多的大型網(wǎng)絡(luò)進(jìn)行深度補(bǔ)全,導(dǎo)致計(jì)算復(fù)雜度高,限制了實(shí)際應(yīng)用的可能性。相比之下,本文提出的LRRU網(wǎng)絡(luò)首先利用學(xué)習(xí)到的空間變體核將稀疏輸入填充以獲得初始深度圖,然后通過迭代更新過程靈活地更新深度圖。迭代更新過程是內(nèi)容自適應(yīng)的,可以從RGB圖像和待更新的深度圖中學(xué)習(xí)到核權(quán)重。初始深度圖提供了粗糙但完整的場(chǎng)景深度信息,有助于減輕直接從稀疏數(shù)據(jù)回歸密集深度的負(fù)擔(dān)。實(shí)驗(yàn)證明,LRRU網(wǎng)絡(luò)在減少計(jì)算復(fù)雜度的同時(shí)實(shí)現(xiàn)了最先進(jìn)的性能,更適用于深度補(bǔ)全任務(wù)。
圖1 不同模型性能與效率比較
2. 原文摘要
現(xiàn)有的基于深度學(xué)習(xí)的深度補(bǔ)全方法通常需要堆疊大量的網(wǎng)絡(luò)層,以從稀疏的數(shù)據(jù)直接預(yù)測(cè)密集的深度圖。雖然這種方法大大推動(dòng)了此任務(wù)的發(fā)展,但隨之帶來的巨大計(jì)算復(fù)雜度限制了實(shí)際應(yīng)用。為了更高效地完成深度補(bǔ)全任務(wù),我們提出了一種新型的輕量級(jí)深度網(wǎng)絡(luò)框架LRRU(Long-short Range Recurrent Updating Networks)。LRRU首先使用非學(xué)習(xí)方法粗略填充稀疏的輸入,得到初始的密集深度圖,然后通過學(xué)習(xí)到的空間變化內(nèi)核迭代更新初始深度圖。我們提出的Target-Dependent Update模塊可以動(dòng)態(tài)調(diào)整內(nèi)核權(quán)重,并考慮RGB圖像及深度圖本身的內(nèi)容特征進(jìn)行自適應(yīng)更新。另外,我們還提出了一種長(zhǎng)短范圍循環(huán)更新策略,可以動(dòng)態(tài)調(diào)整內(nèi)核范圍,以捕獲不同距離尺度的相關(guān)信息。實(shí)驗(yàn)結(jié)果表明,LRRU在不同的參數(shù)配置下都可以達(dá)到SOTA性能。具體來說,最大的LRRU-Base模型在NYUv2和KITTI數(shù)據(jù)集上分別獲得最優(yōu)的性能。
圖2 LRRU網(wǎng)絡(luò)流程圖
3. 方法細(xì)節(jié)
給定一個(gè)稀疏深度圖,我們首先用一個(gè)簡(jiǎn)單的非學(xué)習(xí)方法將其填充為密集深度圖。然后,根據(jù)我們提出的長(zhǎng)短范圍循環(huán)更新策略(詳見3.2節(jié)),我們的方法通過目標(biāo)相關(guān)更新模塊(詳見3.1節(jié))迭代優(yōu)化初始深度圖,以得到精確密集的深度圖。在3.3節(jié),我們提供了方法的實(shí)現(xiàn)細(xì)節(jié)。為了方便描述,我們使用目標(biāo)深度()來表示第次更新的深度圖。
圖3 目標(biāo)相關(guān)更新模塊
3.1 目標(biāo)相關(guān)更新單元
我們提出的目標(biāo)相關(guān)更新(TDU)模塊通過學(xué)習(xí)空間變化內(nèi)核來更新目標(biāo)深度圖,這些內(nèi)核能夠根據(jù)每個(gè)像素及其鄰域之間的親和力進(jìn)行調(diào)整。為了避免固定局部鄰域帶來的冗余信息,我們的TDU使用全卷積網(wǎng)絡(luò)預(yù)測(cè)內(nèi)核權(quán)重和鄰域采樣位置,其中采樣位置是通過學(xué)習(xí)相對(duì)于規(guī)則網(wǎng)格的偏移量實(shí)現(xiàn)的。然而,由于權(quán)重和偏移量缺乏直接監(jiān)督信號(hào),這可能導(dǎo)致訓(xùn)練不穩(wěn)定。為了解決這個(gè)問題,我們利用RGB圖像和稀疏深度圖的特征來引導(dǎo)TDU獲取合適的鄰域,因?yàn)镽GB圖像中包含豐富的結(jié)構(gòu)細(xì)節(jié),稀疏深度圖中包含準(zhǔn)確的場(chǎng)景深度信息。此外,我們還考慮了待更新深度圖本身的特征來引導(dǎo)TDU,使得更新操作與目標(biāo)深度圖內(nèi)容相關(guān)聯(lián),這可以避免產(chǎn)生次優(yōu)解,尤其是當(dāng)初始深度圖不是直接從RGB圖像和稀疏深度圖回歸得到時(shí)。因此,除了RGB圖像和稀疏深度圖之外,我們還提出從目標(biāo)深度圖本身中提取特征來引導(dǎo)TDU。我們將從RGB圖像和稀疏深度圖中提取的特征稱為交叉引導(dǎo)特征,將從目標(biāo)深度圖中提取的特征稱為自引導(dǎo)特征。如式(1)所示,交叉引導(dǎo)特征 從特征提取網(wǎng)絡(luò) 中的RGB圖像和稀疏深度圖中提取,自引導(dǎo)特征 通過卷積層 從目標(biāo)深度圖 中獲得。
權(quán)重和偏移回歸。如圖3所示,我們的TDU首先連接交叉引導(dǎo)特征和自引導(dǎo)特征,然后通過兩個(gè)獨(dú)立的卷積層分別學(xué)習(xí)權(quán)重特征圖和偏移特征圖。為使權(quán)重和偏移快速收斂,我們對(duì)它們的行為添加一些限制來指導(dǎo)學(xué)習(xí)過程。具體來說,權(quán)重特征圖有個(gè)通道,其中是內(nèi)核大小,在本文中設(shè)置為3。我們對(duì)sigmoid層的輸出應(yīng)用sigmoid層使權(quán)重大于0且小于1。此外,我們從sigmoid層的輸出中減去均值,使權(quán)重之和為0,起到類似高通濾波器的作用。偏移特征圖有個(gè)通道,表示相對(duì)于規(guī)則網(wǎng)格上的位置在x和y方向上的偏移。但是,為確保每個(gè)參考像素參與其自身的更新過程,我們首先預(yù)測(cè)具有個(gè)通道的偏移特征圖,然后將零插入偏移特征圖的中心。
殘差連接。我們觀察到更新單元的輸入和輸出圖高度相關(guān),共享低頻信息。因此,與現(xiàn)有的SPN不同,這些SPN直接預(yù)測(cè)更新后的深度圖,我們提出學(xué)習(xí)目標(biāo)深度圖的殘差圖像以增強(qiáng)結(jié)構(gòu)細(xì)節(jié)和抑制噪聲。給定學(xué)習(xí)到的權(quán)重和采樣偏移,如式(2)所示,位置處的殘差圖像 通過加權(quán)平均獲得。
在式(2)中,表示位置的鄰域集合。由于偏移通常是分?jǐn)?shù),我們使用雙線性插值對(duì)局部四點(diǎn)進(jìn)行采樣。濾波器權(quán)重從交叉引導(dǎo)特征和自引導(dǎo)特征中預(yù)測(cè)。我們聚合來自稀疏選擇的位置的深度值,具有學(xué)習(xí)到的權(quán)重。然后,如式(3)所示,我們將殘差圖像添加到目標(biāo)深度圖中以獲得更新后的深度圖。
3.2 長(zhǎng)短距離循環(huán)更新策略
圖4 長(zhǎng)短距離循環(huán)更新策略
為了在更新過程中獲得適合各自目標(biāo)的適當(dāng)內(nèi)核權(quán)重和范圍,我們需要一個(gè)有效的循環(huán)更新策略來指導(dǎo)TDU。具體來說,由于對(duì)于由非學(xué)習(xí)方法獲得的初始深度圖,只有少數(shù)可用的稀疏測(cè)量點(diǎn)及其周圍點(diǎn)具有高精度,而大多數(shù)像素的周圍點(diǎn)則不準(zhǔn)確,因此,在更新過程開始時(shí),我們應(yīng)該采用大的內(nèi)核范圍,以便從一些長(zhǎng)距離但準(zhǔn)確的點(diǎn)中獲取鄰域信息。然而,隨著深度圖變得更精細(xì),我們應(yīng)該逐漸縮小內(nèi)核范圍,以便更多地關(guān)注短距離內(nèi)的點(diǎn),因?yàn)樗鼈兺ǔEc參考點(diǎn)更相關(guān)。但是,現(xiàn)有的SPN使用的遞歸更新策略不夠靈活,無法滿足上述需求。例如,CSPN和NLSPN在更新過程中使用固定的內(nèi)核權(quán)重和范圍,這不僅限制了SPN的表示能力,還需要大量迭代來獲得長(zhǎng)距離依賴關(guān)系。盡管CSPN++和DySPN通過模型集成和注意機(jī)制緩解了這個(gè)問題,但它們的內(nèi)核范圍在更新過程中仍然保持不變。
圖5 在迭代更新過程中內(nèi)核范圍的變化
圖6 在KITTI和NYUv2數(shù)據(jù)集上鄰域最大最小距離分析
為了指導(dǎo)TDU在更新過程中動(dòng)態(tài)調(diào)整內(nèi)核范圍,從而獲得適合各自目標(biāo)的適當(dāng)內(nèi)核權(quán)重和范圍,我們?cè)诒疚闹刑岢隽艘环N長(zhǎng)短距離循環(huán)更新策略,如圖4所示。每個(gè)TDU的參數(shù),包括內(nèi)核權(quán)重和鄰域的采樣位置,都是通過考慮交叉引導(dǎo)特征和自引導(dǎo)特征來學(xué)習(xí)的。我們發(fā)現(xiàn),當(dāng)不同TDU分別由不同尺度的交叉引導(dǎo)特征引導(dǎo)時(shí),由更小尺度的交叉引導(dǎo)特征引導(dǎo)的TDU將自適應(yīng)地學(xué)習(xí)以獲得相對(duì)更大范圍的鄰域,反之亦然。這是因?yàn)椴煌叨鹊慕徊嬉龑?dǎo)特征具有不同的感受野?;谶@一觀察,我們讓第一次迭代的TDU使用 1/8 尺度的交叉引導(dǎo)特征圖來引導(dǎo),以便從一些長(zhǎng)距離但準(zhǔn)確的點(diǎn)中獲取鄰域信息。在后續(xù)迭代中,我們讓TDU逐漸使用更大尺度的交叉引導(dǎo)特征圖,例如1/4尺度、1/2尺度和全尺度,以便更多地關(guān)注短距離內(nèi)的點(diǎn)。圖5和圖6展示了在迭代更新過程中內(nèi)核范圍從大到小的變化。由于提出的循環(huán)更新策略具有很高的靈活性,我們只需要很少的迭代次數(shù)和鄰域即可獲得滿意的結(jié)果。
3.3 實(shí)現(xiàn)細(xì)節(jié)
網(wǎng)絡(luò)架構(gòu)。我們的網(wǎng)絡(luò)架構(gòu)如圖2所示,由兩個(gè)部分組成:交叉引導(dǎo)特征提取網(wǎng)絡(luò)和長(zhǎng)短距離循環(huán)更新模塊。交叉引導(dǎo)特征提取網(wǎng)絡(luò)使用深度編碼器和RGB編碼器這兩個(gè)子網(wǎng)絡(luò),分別從稀疏深度圖和對(duì)應(yīng)的RGB圖像中提取特征。然后,多尺度RGB特征被注入到深度編碼器中,以實(shí)現(xiàn)不同模式信息的充分整合。接著,解碼器網(wǎng)絡(luò)用于學(xué)習(xí)融合后的多尺度特征的殘差。最后,交叉引導(dǎo)特征被上采樣到與初始深度圖相同的分辨率,并作為輸入傳遞給長(zhǎng)短距離循環(huán)更新模塊中的TDU。
損失函數(shù)。我們通過和距離對(duì)每個(gè)迭代輸出與ground truth深度圖進(jìn)行監(jiān)督,權(quán)重按指數(shù)遞增。損失函數(shù)如式(4)定義。
其中1表示ground truth中是否有值,表示逐元素乘法。我們?cè)趯?shí)驗(yàn)中設(shè)置。
訓(xùn)練細(xì)節(jié)。我們使用PyTorch實(shí)現(xiàn)模型,在GeForce RTX 3090 GPU上進(jìn)行訓(xùn)練和測(cè)試。所有模型從隨機(jī)權(quán)重開始初始化。在訓(xùn)練過程中,我們使用批量大小為8的Adam優(yōu)化器。我們?cè)O(shè)置,權(quán)重衰減為,總迭代輪數(shù)為45。初始學(xué)習(xí)率為,前15輪保持不變,之后每5輪衰減50%。
4. 實(shí)驗(yàn)結(jié)果
我們?cè)贜YUv2和KITTI數(shù)據(jù)集上對(duì)LRRU進(jìn)行了評(píng)估,并將其與其他state-of-the-art方法進(jìn)行了比較。結(jié)果表明,LRRU在不同的參數(shù)配置下都優(yōu)于其他方法。特別是,最大的LRRU-Base模型在NYUv2上達(dá)到了最佳性能,在KITTI基準(zhǔn)測(cè)試上獲得了第一名。表1和表2分別給出了LRRU和其他方法在兩個(gè)數(shù)據(jù)集上的定量結(jié)果,圖3和圖4展示了LRRU和其他方法在兩個(gè)數(shù)據(jù)集上的定性結(jié)果。
表1 四個(gè)LRRU變體的設(shè)置
表2 在KITTI基準(zhǔn)測(cè)試上的定量比較
圖7 在KITTI測(cè)試數(shù)據(jù)集上的定性比較
表3 消融實(shí)驗(yàn)
表4 使用不同更新模塊的比較
表5 使用不同損失函數(shù)的比較
表6 硬件花費(fèi)比較
表7 在KITTI驗(yàn)證集上使用測(cè)試時(shí)數(shù)據(jù)增強(qiáng)的結(jié)果
圖8 在RMSE的性能
表8 在NYUv2數(shù)據(jù)集上的定量評(píng)估
圖9 在NYUv2數(shù)據(jù)集上的定性結(jié)果
表9 在僅深度的情況下的結(jié)果
5. 本文總結(jié)
本文提出了一種新型高效的深度補(bǔ)全網(wǎng)絡(luò)LRRU,它通過結(jié)合目標(biāo)相關(guān)更新模塊和長(zhǎng)短距離循環(huán)策略,實(shí)現(xiàn)了在參數(shù)量和推理時(shí)間較少的情況下達(dá)到SOTA的性能。與直接回歸方法相比,LRRU采用了預(yù)填充稀疏深度圖并迭代更新的方式,更加有效地優(yōu)化深度圖。目標(biāo)相關(guān)更新模塊可以根據(jù)RGB圖像、稀疏深度圖和當(dāng)前深度圖自適應(yīng)地調(diào)整內(nèi)核參數(shù),從而更好地適應(yīng)不同的目標(biāo)。長(zhǎng)短距離循環(huán)策略可以從長(zhǎng)距離逐步聚焦到短距離,使更新過程更加靈活和精細(xì)。實(shí)驗(yàn)結(jié)果表明,LRRU的不同規(guī)模變體在NYUv2和KITTI數(shù)據(jù)集上都優(yōu)于現(xiàn)有方法。未來工作將探索將LRRU應(yīng)用于其他密集預(yù)測(cè)任務(wù),如單目深度估計(jì)和語義分割。
審核編輯:彭菁
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7002瀏覽量
88938 -
RGB
+關(guān)注
關(guān)注
4文章
798瀏覽量
58460 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7553瀏覽量
88726 -
參數(shù)
+關(guān)注
關(guān)注
11文章
1829瀏覽量
32194
原文標(biāo)題:ICCV2023 SOTA!長(zhǎng)短距離循環(huán)更新網(wǎng)絡(luò)--LRRU介紹
文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論