文章摘要
實時語義的可獲得性極大地提高了SLAM系統(tǒng)的基本幾何功能,使得許多機器人和AR/VR應(yīng)用成為可能。論文提出了一種新的基于RGB-D序列的實時語義建圖方法,該方法結(jié)合了2D神經(jīng)網(wǎng)絡(luò)和基于SLAM系統(tǒng)的3D網(wǎng)絡(luò)。在分割新幀時,論文基于可微渲染進行從先前幀的潛在特征重投影。與獨立處理圖像的基線相比,融合重投影的特征圖極大地改善了圖像分割質(zhì)量。對于3D地圖處理,論文提出了一種新的基于幾何的準(zhǔn)平面超分段方法,依靠表面法線對可能屬于相同語義類別的3D地圖元素進行分組。論文還描述了語義地圖后處理的新型輕量級神經(jīng)網(wǎng)絡(luò)設(shè)計。論文的系統(tǒng)在2D-3D網(wǎng)絡(luò)為基礎(chǔ)的系統(tǒng)中實現(xiàn)了最先進的語義建圖質(zhì)量,并與三個真實室內(nèi)數(shù)據(jù)集上的基于3D網(wǎng)絡(luò)的方法相匹配,同時仍保持實時性能。此外,與僅基于3D網(wǎng)絡(luò)相比,它顯示了更好的跨傳感器泛化能力。代碼和數(shù)據(jù)將在項目頁面上發(fā)布//jingwenwang95.github.io/SeMLaPS。
背景補充
3D網(wǎng)絡(luò)用于語義建圖。這一類方法直接處理場景的3D重建,并生成語義標(biāo)簽作為輸出。基于PointNet的語義分割方法在多個尺度上處理無序點云。PointConv和KPConv提出了點云上的卷積操作。稀疏子流形卷積和MinkowskiNet僅處理密集體素網(wǎng)格中的占用表面體素,具有合理的內(nèi)存需求。BP-Net利用了3D網(wǎng)絡(luò)和2D網(wǎng)絡(luò),由特征投影機制連接。INS-Conv展示了一種在線運行基于3D網(wǎng)絡(luò)的推理的方式,匹配離線3D網(wǎng)絡(luò)的精度,然而它不能產(chǎn)生SLAM其他語義任務(wù)所需的圖像級語義標(biāo)簽。
論文方法介紹
A. 系統(tǒng)概述
論文在III-B部分描述了論文方法背后的SLAM管道。論文的2D潛在先驗網(wǎng)絡(luò)(LPN)在III-C中描述。LPN輸出融合到論文在III-D中描述的論文新穎的準(zhǔn)平面超分段(QPOS)方法分割的地圖中。接下來,論文運行III-E中描述的Section-Convolutional Network,以獲得估計的語義類別。圖1顯示了整體管道。
B. 實時稠密3D占用建圖
論文依靠一個特征為基礎(chǔ)的視覺慣性SLAM系統(tǒng),它另外輸出全局校正軌跡,當(dāng)檢測到環(huán)路閉合并進行優(yōu)化時。論文將深度圖像和6自由度(DoF)姿態(tài)融合到一個子圖為基礎(chǔ)的3D占用地圖中。在每個子圖內(nèi)部,占用信息存儲在遵循的自適應(yīng)分辨率八叉樹中。
C. 潛在先驗網(wǎng)絡(luò)
論文的方法通過使用序列中的其他幀的知識來改進RGB-D幀分割,見圖3。大多數(shù)系統(tǒng)重復(fù)獨立地分割幀。論文旨在盡可能早地將這種先驗知識注入管道中。論文采用SSMA,使用RGB和深度輸入的獨立編碼器,但將ResNet-50編碼器替換為計算復(fù)雜性方面的輕量級MobileNetV3,見圖2。
為了強制執(zhí)行來自多個先前視圖的潛在先驗,論文提出重新投影不同分辨率的特征圖到一個共同的參考視圖,使用SLAM系統(tǒng)提供的深度圖和相機姿態(tài)。論文使用x4、x8和x16下采樣的特征圖進行重投影,見圖2。為了獲得平滑的梯度傳播,論文使用PyTorch3D提供的可微分渲染器來獲得重投影的特征圖。然后使用平均池化將重投影的特征圖與參考視圖特征圖融合。
在訓(xùn)練過程中,在每次迭代中,論文對N個相鄰幀進行采樣,并隨機選擇一個作為參考視圖。來自N-1個相鄰視圖的潛在特征先驗被變形到參考視圖上。然后論文計算交叉熵?fù)p失:Lsem來自參考視圖輸出,和Laux鄰近視圖,以鼓勵單視圖預(yù)測的合理性。論文的最終損失是加權(quán)和L = Lsem + wLaux。
注意,論文的LPN設(shè)計為從附近的幀中編碼潛在先驗知識提供了靈活性。首先,盡管N在訓(xùn)練期間是固定的,但在測試時論文的LPN可以接受任意數(shù)量的視圖。其次,論文可以以順序模式進行推理,即按順序即時處理幀。這允許論文重用在先前視圖中計算的特征圖,因此LPN僅對每個幀進行一次處理。最后,雖然論文的LPN需要深度進行特征重投影和跨視圖融合,但在特征提取階段,論文可以僅依賴于RGB輸入并刪除深度編碼器(圖3中的紅色部分)。
D. 準(zhǔn)平面超分段
論文旨在通過將體素分組為段來減少地圖基數(shù),提取表面體素的列表,并使用距離場估計它們的法線,構(gòu)建帶權(quán)無向圖(V,E,w),其中體素為頂點V,邊E在共面體素之間。超分段S將體素映射到段標(biāo)簽。論文設(shè)S(i)=i,按權(quán)重排序邊,如果代價F(S)減小則逐個合并:
其中L(S)是段標(biāo)簽集合,是期望的空間段大小。
為了改善段邊界的質(zhì)量,論文應(yīng)用一個快速的后處理步驟,將體素分配給關(guān)聯(lián)成本最低的段:
其中,是體素i的位置和法線,,,是段l的中心,協(xié)方差和法線,是加權(quán)因子。 為了效率,論文使用段中心的KD樹。
QPOS方法具有O(|E|)復(fù)雜度,論文以增量方式在地圖更新后使用它,僅使用更新的V和E中的體素,在使用(2)與觀察到的段關(guān)聯(lián)之前,試圖將新體素與觀察到的段關(guān)聯(lián)。論文將QPOS結(jié)果用作輸入到下面描述的分段卷積網(wǎng)絡(luò)。
E. 分段卷積網(wǎng)絡(luò)
段的大小可能不同:在低頻場景部分如地板或墻壁中它們更大,而對于桌面上的物體它們更小。論文提出定制非均勻大小段的卷積操作,而SVCNN假設(shè)大小統(tǒng)一。
與PointConv 類似,論文將權(quán)重網(wǎng)W(·)定義為多層感知器(MLP)以預(yù)測卷積核,將特征網(wǎng)Φ(·)定義為特征處理的MLP:
其中是x的相鄰段,,是段的中心, 是段內(nèi)平均特征, 是10D特征向量定義為:
其中是段的表面法線,是兩個段之間的位移向量,r、v、w通過格拉姆-施米特正交化過程從和構(gòu)建正交基。,,其中,表示和的空間協(xié)方差。論文的通過方差,增強了中提出的視點不變(VI)特征。 輸入段特征,論文使用體素級預(yù)測類概率的平均值以及由RGB顏色、位置和表面法線組成的9D幾何特征。 對于每個段卷積層,論文使用隱藏維度為8的2層MLP作為W(·),使用隱藏維度為64的2層MLP作為Φ(·)。論文堆疊3個段卷積層形成論文的分段卷積網(wǎng)絡(luò)。
F. 使用RealSense的語義建圖
為了理解不同語義建圖方法的跨傳感器泛化能力,論文提出了一個使用RealSense D455 [17]采集的四個RGB-D測試序列數(shù)據(jù)集。它具有使用論文的視覺慣性SLAM系統(tǒng)獲得的真實姿態(tài),并使用基于體素大小為0.01米的TSDF融合的稠密映射系統(tǒng)重建網(wǎng)格。 網(wǎng)格使用與ScanNet一致的語義標(biāo)簽進行手動注釋。 有四個室內(nèi)場景(會議室、實驗室、廚房和休息室)
G. 系統(tǒng)實現(xiàn)細(xì)節(jié)
最后,論文提供了整個系統(tǒng)及所提出網(wǎng)絡(luò)的實現(xiàn)細(xì)節(jié),以執(zhí)行在線實時語義建圖。
潛在先驗網(wǎng)絡(luò)。論文在ScanNet v2數(shù)據(jù)集的1201個訓(xùn)練序列上訓(xùn)練LPN,相鄰幀之間的步長為20,使用Adam訓(xùn)練20個epoch,初始學(xué)習(xí)率為1e-4和one-cycle學(xué)習(xí)率計劃器;論文使用N=3并對數(shù)據(jù)進行隨機縮放、裁剪、翻轉(zhuǎn)、高斯模糊和隨機視圖順序排列以進行數(shù)據(jù)增強。 在單個nVidia RTX-3090ti GPU上訓(xùn)練大約需要3天,批量大小為8。
分段卷積網(wǎng)絡(luò)。論文在ScanNet v2訓(xùn)練拆分的1201個網(wǎng)格上訓(xùn)練III-E部分描述的分段卷積網(wǎng)絡(luò)。論文首先對具有段大小ar{s}=60頂點的網(wǎng)格運行論文的QPOS,并通過多數(shù)投票將頂點級GT標(biāo)簽傳輸?shù)蕉渭塆T標(biāo)簽。論文順序地在每個場景上運行論文訓(xùn)練好的LPN,使用貝葉斯融合將2D標(biāo)簽預(yù)測轉(zhuǎn)移到3D網(wǎng)格。
上述數(shù)據(jù)生成過程總共創(chuàng)建了約200萬個段。論文使用初始學(xué)習(xí)率為5e-4和one-cycle調(diào)度器的Adam 優(yōu)化器訓(xùn)練分段卷積網(wǎng)絡(luò)。在單個Nvidia RTX-3090ti GPU上,批量大小為12,訓(xùn)練100個epoch需要大約2小時。
系統(tǒng)設(shè)計細(xì)節(jié)。論文按照順序運行潛在先驗網(wǎng)絡(luò),并在后端SLAM系統(tǒng)更新地圖幾何時在每個關(guān)鍵幀處執(zhí)行貝葉斯融合。因此,每個幀僅由LPN處理一次,參考幀將非參考幀的重投影特征圖作為輸入。接下來,如III-D所述,論文僅針對地圖更新受影響的區(qū)域執(zhí)行QPOS。這將更新這些段的屬性(特征、段中心、連接拓?fù)涞?。最后,受影響的那些段及其K近鄰被饋送到分段卷積網(wǎng)絡(luò)以預(yù)測更新后的類別標(biāo)簽。
方法結(jié)論
論文提出了SeMLaPS方法,一個遵循2D-3D通道的實時在線語義建圖系統(tǒng)。它受益于利用新穎的潛在先驗網(wǎng)絡(luò)融合歷史視圖的潛在特征,而準(zhǔn)平面超分段和分段卷積網(wǎng)絡(luò)進一步改善了最終結(jié)果,與3D離線方法相匹敵,同時仍保持實時性能。與僅3D網(wǎng)絡(luò)相比,SeMLaPS實現(xiàn)了更好的跨傳感器泛化能力。
-
傳感器
+關(guān)注
關(guān)注
2550文章
51035瀏覽量
753068 -
SLAM
+關(guān)注
關(guān)注
23文章
423瀏覽量
31820 -
感知器
+關(guān)注
關(guān)注
0文章
34瀏覽量
11841
原文標(biāo)題:arXiv2023 | 實時語義建圖與潛在先驗網(wǎng)絡(luò)和準(zhǔn)平面分割
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論