一、背景
在 2022 年的 Tesla AI Day 上, Tesla 將 Bev(鳥瞰圖) 感知進(jìn)?步升級,提出了基于 Occupancy Network 的感知?法。這種基于 Occupancy Grid Mapping 的表示?法,?叫體素(Voxel)占據(jù),在 3D 重建任務(wù)中已經(jīng)是一個“老熟人”了。
它將世界劃分成為?系列 3D ?格單元,然后定義哪個單元被占?,哪個單元是空閑的,并且每個占據(jù)單元同時也包含分類信息,?如路?、?輛、建筑物、樹?等。在?動駕駛感知中,相?普通的 3D 檢測?法,這種基于體素的表示可以幫助預(yù)測更精細(xì)的異形物體。如下圖 Tesla Demo 中所展示的那樣,對于空間感知更精細(xì)。
左圖:使用固定的矩形框標(biāo)記車輛;右圖:使用體素占據(jù)來精細(xì)表示車輛
在這種在線重建的?法中,?般使? SSC ( Semantic Scene Completion)任務(wù)評判預(yù)測的準(zhǔn)確性,即利?圖像、點云或者其他 3D 數(shù)據(jù)作為輸?,預(yù)測空間中的體素占據(jù)和類別信息,并與 GT 標(biāo)注相?較。在權(quán)威的?動駕駛 Semantic-Kitti SSC 任務(wù)中,可以根據(jù)輸?分成純圖像和基于 3D (點云、 TSDF、體素等)的兩類不同的?法。
使?純圖像?案恢復(fù) 3D 結(jié)構(gòu)是?個?較困難的問題,曠視研究院提出了 OccDepth 的?法,將純圖像輸??法的精度?幅提升,獲得了視覺?法的 SOTA,其中 SC IOU 從 34.2 增?為 45.1, mIOU 從 11.1 增?為15.9。同時可視化結(jié)果表明 OccDepth 可以更好地重建出近處和遠(yuǎn)處的?何結(jié)構(gòu)。下?將帶?家介紹 OccDepth 具體的?法。
二、任務(wù)困難和解決動機
僅從視覺圖像估計場景中完整的?何結(jié)構(gòu)和語義信息,這是?項具有挑戰(zhàn)性的任務(wù),其中準(zhǔn)確的深度信息對于恢復(fù) 3D?何結(jié)構(gòu)是?關(guān)重要的。之前的很多?作,都是利?點云、 RGBD 、TSDF[1]等其他 2.5D 、3D 形式[2-8]作為輸?,來預(yù)測體素占據(jù),這也需要較昂貴的設(shè)備來采集 3D 信息?;诩儓D像的?案更便宜,同時也可以提供更為豐富且稠密場景表示, MonoScene[9]提出了純視覺的 Baseline。但相較于上述的 3D ?法,在?何結(jié)構(gòu)恢復(fù)??,表現(xiàn)有?定的差距。
本項工作借鑒了“人類使用雙眼能比單眼更好地感知3D世界中的深度信息”的思想,提出了名為 OccDepth 的語義場景補全?法。它分別顯式和隱式地利?圖像中含有的深度信息,以幫助恢復(fù)良好的 3D ?何結(jié)構(gòu)。在 SemanticKITTI 和 NYUv2 等數(shù)據(jù)集上的?量實驗表明,與當(dāng)前基于純視覺的 SSC ?法相?,我們提出的 OccDepth ?法均達(dá)到了 SOTA,在 SemanticKITTI 上整體實現(xiàn)了+4.82% mIoU 的提升,其中+2.49% mIoU 的提升來?隱式的深度優(yōu)化,+2.33% mIoU 提升來?于顯式的深度蒸餾。在NYUv2 數(shù)據(jù)集上,與當(dāng)前基于純視覺的 SSC ?法相?, OccDepth 實現(xiàn)了+4.40% mIoU 的提升。甚?相?于所有 2.5D 、3D 的?法, OccDepth 仍然實現(xiàn)了 +1.70% mIoU 的提升。
三、具體方法
上圖是 OccDepth 的主要流程。3D 場景語義補全可以根據(jù)輸?的雙?圖像所推理出來,其中連接了?個雙?特征軟融合(Stereo-SFA )模塊?于隱式地將特征提升到 3D 空間,?個占?深度感知(OAD) 模塊?于顯式地增強深度預(yù)測,后續(xù)接上 3D U-Net ?于提取?何和語義信息。其中雙?深度?絡(luò)僅在訓(xùn)練的時候使?,?蒸餾的?法幫助 OAD 模塊提升深度預(yù)測能?。
雙目特征軟融合模塊
占用感知的深度蒸餾模塊
四、實驗
指標(biāo)對比
在不同數(shù)據(jù)集上和 2.5D/3D 數(shù)據(jù)作為輸入的方法的對比表。OccDepth 的結(jié)果在一些室內(nèi)場景上和 2.5D/3D 的方法接近甚至有所超越,在室外場景上和某些 2.5D/3D 方法相媲美。"*" 表示結(jié)果引用自 MonoScene?!?”表示缺失結(jié)果。
我們還將 OccDepth 與原始 2.5D/3D 作為輸入的基礎(chǔ)方法進(jìn)行了比較,結(jié)果列在上表中。在 SemanticKITTI 數(shù)據(jù)集的隱藏測試集中,雖然 OccDepth 只使用水平視野比激光雷達(dá)( 82°vs. 180°)小得多的雙目圖像,但 OccDepth 取得了和使用 2.5D/3D 基礎(chǔ)方法可比的結(jié)果 。
這個結(jié)果表明 OccDepth 具有相對較好的補全能力。在 NYUv2 的測試集中,因為沒有雙目圖像,我們的 OccDepth 將 RGB 圖像和深度圖生成虛擬雙目圖像作為輸入。結(jié)果顯示, OccDepth 取得了比所有 2.5D/3D 方法更好的 mIoU 和 IoU([+0.8 IoU,+1.7 mIoU])。
在提出的仿真數(shù)據(jù)集 SemanticTartanAir 的測試集中,我們在這里使用深度真值作為這些 2.5D/3D 方法的輸入,所以 2.5D/3D 方法的準(zhǔn)確率非常高。另一方面,與 2.5D/3D 輸入方法相比, OccDepth 具有較為接近的 mIoU 結(jié)果,并且 OccDepth 沒有使用深度真值。與 純視覺推理的方法相比,OccDepth 具有更高的 IoU 和 mIoU ([+17.6 IoU, +10.9 mIoU])。
定性對比
在 SemanticTartanAir 和SemanticKITTI 上的可視化結(jié)果。最左側(cè)是輸入的圖像,最右側(cè)是語義體素真值,中間為各種方法的可視化結(jié)果。這里顯示了 OccDepth 在兩個數(shù)據(jù)集中有較好結(jié)果場景。
在室內(nèi)場景 SemanticTartanAir 數(shù)據(jù)集上,雖然所有方法都正確獲得了正確的場景表示,但 OccDepth 對物體邊緣具有更好的還原效果,例如沙發(fā)(圖(a)的第 1 行)和天花板燈(圖(a)的第 2 行) 和地毯(圖(a)的第 3 行)。而在室外場景的 SemanticKITTI 數(shù)據(jù)集上,與基礎(chǔ)方法相比,OccDepth 的空間和語義預(yù)測結(jié)果明顯更好。例如,通過 OccDepth 可以實現(xiàn)路標(biāo)(圖(b)的第 1 行)、樹干(圖(b)的第 2 行)、車輛(圖(b)的第 2 行)和道路(圖(b)的第 3 行)的準(zhǔn)確識別。
消融實驗
對提出的模塊進(jìn)行消融實驗。(a) Stereo-SFA 模塊的消融實驗。(b) OAD 模塊中深度蒸餾數(shù)據(jù)源的消融實驗。(c)OAD 模塊中深度蒸餾數(shù)據(jù)源的消融實驗。“w/o Depth”表示不使用深度蒸餾,Lidar depth 是指激光雷達(dá)點云生成的深度圖,Stereo Depth 是指 LEAStereo 模型生成的深度圖。以上實驗都在 SemanticKITTI 的 08 號軌跡上進(jìn)行測試。(a),(b),(c)的消融實驗結(jié)果證明了提出的每個模塊的有效性。
五、總結(jié)
在這項工作中,我們提出了一種有效利用深度信息的 3D 語義場景補全方法,我們將其命名為 OccDepth 。我們在 SemanticKITTI(室外場景)和 NYUv2(室內(nèi)場景)數(shù)據(jù)集等公共數(shù)據(jù)集上訓(xùn)練了 OccDepth, 實驗結(jié)果表明,本工作提出的 OccDepth 在室內(nèi)場景和室外場景上都可與某些以 2.5D/3D 數(shù)據(jù)作為輸入的方法相媲美。特別地是,OccDepth 在所有場景體素類別分類上都優(yōu)于當(dāng)前基于純視覺推理的方法。
審核編輯:劉清
-
RGB
+關(guān)注
關(guān)注
4文章
798瀏覽量
58461 -
ssc
+關(guān)注
關(guān)注
0文章
24瀏覽量
11205 -
激光雷達(dá)
+關(guān)注
關(guān)注
968文章
3967瀏覽量
189824
原文標(biāo)題:OccDepth:對標(biāo) Tesla Occupancy 的開源 3D 語義場景補全?法
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論