小米汽車未公布小米自動駕駛算法的詳細信息,不過通過小米汽車發(fā)布的學術(shù)論文可以一窺小米自動駕駛算法。目前,小米汽車的學術(shù)論文主要有兩篇,一篇是《SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection》,作者有新加坡國立大學的,小米汽車僅有兩人。另一篇是《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》,署名作者有8位,其中六位是小米汽車的,還有兩位是西安交通大學軟件工程學院的,這兩位當中還有一位是后來加盟小米汽車的。兩篇論文的核心都是Occupancy占用網(wǎng)絡(luò),這一點雷軍在小米汽車發(fā)布會上也有所提及。
這兩篇論文前一篇側(cè)重于3D感知,后一篇側(cè)重于3D場景重建,3D感知的論文都不免要在nuScenes測試數(shù)據(jù)集上打榜。艱深晦澀的論文大多數(shù)人都沒興趣讀完,所以我們先看小米這兩篇算法論文的得分。
圖片來源:《SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection》論文
NDS得分58.1,這個得分應(yīng)該說很低,華為在2021年10月的TransFusion得分都有71.7,零跑汽車的EA-LSS得分有77.6。不過后兩者基本都是Bounding-Box的,而不是基于占用網(wǎng)絡(luò)的,這樣對比有一點不公平。
圖片來源:《SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection》論文
與另一個頂級占用網(wǎng)絡(luò)結(jié)構(gòu)TPVFormer比,基本相差不大,TPVFormer是北航提出來的。
圖片來源:《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》論文
《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》這篇論文算法的得分,在一眾占用網(wǎng)絡(luò)模式里mIoU得分第一。mIoU (Mean Intersection over Union,均交并比):為語義分割的標準度量。其計算兩個集合的交并比,這兩個集合為真實值(ground truth)和預(yù)測值(predicted segmentation)。計算公式如下: i表示真實值,j表示預(yù)測值:
圖片來源:《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》論文
3D場景重建的得分,基本上也可以算是第一。
下面來具體看這兩篇論文。
圖片來源:《SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection》論文
SOGDet就是將3D感知與3D語義分割占用網(wǎng)絡(luò)預(yù)測結(jié)合,主要是提高非道路環(huán)境的感知,構(gòu)建一個完整的真實3D場景,使得自動駕駛決策系統(tǒng)更好地理解周邊環(huán)境,給出正確的道路規(guī)劃,非道路環(huán)境包括了植被(綠化帶、草地等等)、人行道、地形以及人工建筑。
圖片來源:《SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection》論文
小米SOGDet的網(wǎng)絡(luò)架構(gòu),并無獨特之處,畢竟網(wǎng)絡(luò)基礎(chǔ)都是谷歌和META構(gòu)建的。目前頂級自動駕駛網(wǎng)絡(luò)基本都是三部分,其中骨干Backbone部分,還是基于CNN,沒辦法,Transofrmer運算量太大,無法使用,大家基本還是用ResNet50/100。也有少數(shù)使用谷歌的ViT,但實際無法落地。多頭部分使用View Transformer做BEV變換。這里仍然使用英偉達提出的經(jīng)典的LSS方法,其中:
Lift——對各相機的圖像顯性地估計像平面下采樣后特征點的深度分布,得到包含圖像特征的視錐(點云);
Splat——結(jié)合相機內(nèi)外參把所有相機的視錐(點云)分配到BEV網(wǎng)格中,對每個柵格中的多個視錐點進行sum-pooling計算,形成BEV特征圖;
Shoot——用task head處理BEV特征圖,輸出感知結(jié)果。LSS是2020年提出的,目前還做了不少改進,主要是深度修正(Depth Correction)和具有相機感知能力的深度估計(Camera-aware Depth Prediction)。
另外,還提出了高效體素池化(Efficient Voxel Pooling)來加速BEVDepth方法,以及多幀融合(Multi-frame Fusion)來提高目標檢測效果和運動速度估計。任務(wù)級用反卷積和MLP輸出語義分割網(wǎng)絡(luò)占用或目標檢測Bounding Box。
再來看小米汽車成份更高的那篇論文即《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》,這篇論文主要就是3D語義分割占用網(wǎng)絡(luò),因此主要指標就是mIoU。
小米汽車SurroundSDF的網(wǎng)絡(luò)架構(gòu)
圖片來源:《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》論文
簡單解釋一下SDF,有符號距離場(SDF:Signed Distance Field) 是距離場的一種變體,它在 3D(2D) 空間中將位置映射到其到最近平面(邊緣)的距離。距離場在圖像處理、物理學和計算機圖形學等許多研究中都有應(yīng)用。在計算機圖形的上下文中,距離場通常是有符號的,表示某個位置是否在網(wǎng)格內(nèi)。無論2D或者3D圖形都有隱式(implicit)和顯式(explicit)兩種存儲方式,比如3D模型就可以用mesh直接存儲模型數(shù)據(jù),也可以用SDF、點云(point cloud)、神經(jīng)網(wǎng)絡(luò)(neural rendering)來表示,2D資產(chǎn)(這里指貼圖)亦是如此。比如貼圖一般直接使用RGB、HSV等參數(shù)來進行表示,但這樣子再放大圖片后會出現(xiàn)鋸齒,所以想要獲取高清的圖像就需要較大的存儲空間,這時候就需要矢量表示,SDF就是為了這種需求產(chǎn)生的,也就是雷軍所說的超高分辨率矢量。這個技術(shù)是用在手機游戲中的,最典型的就是手機游戲第一名《原神》,面部陰影就是用SDF做的。
小米汽車SurroundSDF的網(wǎng)絡(luò)架構(gòu)和上一篇論文只有最后輸出頭有區(qū)別,骨干網(wǎng)、LSS和Voxel都是完全一致的。
SurroundSDF旨在解決自動駕駛系統(tǒng)中基于視覺的3D場景理解的挑戰(zhàn)。具體來說,它試圖解決以下問題:連續(xù)性和準確性:現(xiàn)有的無對象(object-free)方法在預(yù)測離散體素網(wǎng)格的語義時,未能構(gòu)建連續(xù)且準確的障礙物表面。SurroundSDF通過隱式預(yù)測有符號距離場(Signed Distance Field, SDF)和語義場,來實現(xiàn)從環(huán)繞圖像連續(xù)感知3D場景。
缺乏精確的SDF真實值(ground truth):由于獲取精確的SDF真實值是困難的,論文提出了一種新的弱監(jiān)督范式,稱為Sandwich Eikonal formulation,通過在表面兩側(cè)施加正確和密集的約束來提高表面的感知精度。Eikonal方程是在處理波傳播問題時需要求解的一類非線性偏微分方程。這里科普一下:Eikonal方程可以求出地震波從源點到空間任意一點的傳播時間,從而描述波在介質(zhì)中的傳播時間場;快速求解Eikonal方程對于加速重建地震波傳播時間場從而減少地震災(zāi)害對社會財產(chǎn)的損失具有重要意義。在圖像處理領(lǐng)域,Eikonal方程被用于計算多個點的距離場、圖像去噪,提取離散和參數(shù)化表面上的最短路徑。
3D語義分割和連續(xù)3D幾何重建:SurroundSDF旨在在一個框架內(nèi)同時解決3D語義分割和連續(xù)3D幾何重建的問題,利用SDF的強大表示能力。
長尾問題和3D場景的粗糙描述:盡管3D目標檢測算法取得了進展,但長尾問題和3D場景的粗糙描述仍然是挑戰(zhàn),需要更深入地理解3D幾何和語義。
特斯拉的AI Day上也提出了“隱式神經(jīng)表示“ (Implicit Neural Representation,INR)。以圖像為例,其最常見的表示方式為二維空間上的離散像素點。但在真實世界中,我們看到的世界可以認為是連續(xù)的,或者近似連續(xù)。于是,可以考慮使用一個連續(xù)函數(shù)來表示圖像的真實狀態(tài),然而我們無從得知這個連續(xù)函數(shù)的準確形式,因此有人提出用神經(jīng)網(wǎng)絡(luò)來逼近這個連續(xù)函數(shù),這就是INR,在3D圖像、視頻、Voxel重建中,INR函數(shù)將二維坐標映射到RGB值。對于視頻,INR函數(shù)將時刻t以及圖像二維坐標XY映射到RGB值。對于一個三維形狀,INR函數(shù)將三維坐標XYZ映射到0或1,表示空間中的某一位置處于物體內(nèi)部還是外部。INR是一個連續(xù)的函數(shù),函數(shù)(網(wǎng)絡(luò))的復雜程度和信號的復雜程度成正比,但與信號的分辨率無關(guān)。比如一個16*16的圖像,和一個32*32的圖像,如果內(nèi)容一樣,那么INR就會一樣。也就是再低的分辨率也可以連續(xù)擴展高分辨率的效果。
SurroundSDF使用有符號距離函數(shù)(SDF)來隱式地表示3D場景,這允許連續(xù)地描述3D場景并通過重建平滑表面來表達場景的幾何結(jié)構(gòu)。利用SDF約束通過Eikonal公式來準確描述障礙物的表面。這種方法可以準確地從環(huán)繞圖像中感知連續(xù)的3D場景。為了減少幾何優(yōu)化和語義優(yōu)化之間的不一致性,論文設(shè)計了一種聯(lián)合監(jiān)督策略。該策略使用SoftMax函數(shù)將每個體素網(wǎng)格的最小SDF值轉(zhuǎn)換為自由概率,并將其與語義logits結(jié)合,通過Dice損失進行聯(lián)合優(yōu)化。
自動駕駛算法的基礎(chǔ)部分基本上都被谷歌和META定型了,即骨干2D CNN網(wǎng)絡(luò)加FPN,中間Transformer變換,最后任務(wù)級MLP或隱式表達。包括特斯拉在內(nèi)都跳不出這個框架,沒有人的算法水平會特別好,大家基本都在一個水平上,比拼的不是數(shù)據(jù),而是投入的人力,足夠的人力才能做反復的實驗微調(diào),才能略略勝出一點,能做徹底改變的只有谷歌或META抑或是微軟。
審核編輯:黃飛
?
評論
查看更多