1 前言
自動(dòng)駕駛車輛必須能夠感知周圍環(huán)境并預(yù)測其他交通參與者的未來行為?,F(xiàn)有的研究要么進(jìn)行目標(biāo)檢測,然后對檢測到的目標(biāo)進(jìn)行軌跡預(yù)測,要么對整個(gè)場景進(jìn)行密集的占位和流格預(yù)測。前者存在安全問題,因?yàn)闉榱颂岣咝?,需要保持較低的檢測數(shù)量,從而犧牲了目標(biāo)的回收率。后者由于輸出格的高維度和完全卷積網(wǎng)絡(luò)固有的有限感受野而計(jì)算成本高。此外,這兩種方法都利用了許多計(jì)算資源來預(yù)測可能永遠(yuǎn)不會(huì)被運(yùn)動(dòng)規(guī)劃器查詢的區(qū)域或?qū)ο蟆?/p>
本文介紹了一種統(tǒng)一的感知和預(yù)測方法:通過單個(gè)神經(jīng)網(wǎng)絡(luò)隱式地表示占位和流格隨時(shí)間變化。該方法避免了不必要的計(jì)算,因?yàn)檫\(yùn)動(dòng)規(guī)劃器可以直接在連續(xù)的時(shí)空位置查詢它。此外,論文作者設(shè)計(jì)了一種架構(gòu),通過添加高效而有效的全局注意機(jī)制,克服了先前明確的占位預(yù)測方法的有限感受野。通過在城市和高速公路環(huán)境中進(jìn)行大量實(shí)驗(yàn),論文作者證明了他們的隱式模型優(yōu)于當(dāng)前的最先進(jìn)技術(shù)。
2 算法介紹
2.1 基礎(chǔ)概念補(bǔ)充——隱式幾何重建:
幾何重建是指在給定某個(gè)不完整表示(如圖像、LiDAR、體素)的情況下,預(yù)測對象的三維形狀的任務(wù)。隱式神經(jīng)幾何重建方法已被證明優(yōu)于顯式對應(yīng)方法,后者將三維形狀表示為網(wǎng)格、點(diǎn)集、體素或網(wǎng)格。相反,隱式方法訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來預(yù)測一個(gè)連續(xù)場,為3D空間中的每個(gè)點(diǎn)分配一個(gè)值,以便從等值面中提取出形狀。具體而言,該網(wǎng)絡(luò)可以預(yù)測3D空間中的非線性二值占位,或者是到表面的有符號距離函數(shù)。論文作者則將它們應(yīng)用在自動(dòng)駕駛的感知和預(yù)測任務(wù)中的。
2.2 任務(wù)參數(shù)化
輸入?yún)?shù)化:模型接受體素化的LiDAR表示()和高清地圖的光柵()作為輸入。對于LiDAR,設(shè)作為最近 次掃描的序列更準(zhǔn)確地說,是在時(shí)間步長t '結(jié)束的LiDAR掃描,其中包含Pt '個(gè)點(diǎn),每個(gè)點(diǎn)由三個(gè)特征描述:。和是點(diǎn)相對于當(dāng)前時(shí)間步長下的SDV參考框架的位置,該參考框架以SDV的當(dāng)前位置為中心并且x軸沿著其行進(jìn)方向。表示點(diǎn)相對于地面的高度。最后,,采用多次掃描鳥瞰圖體素化方法,沿著BEV平面法線方向分為D個(gè)深度通道,高度像素為H,寬度像素為W。對于光柵地圖,將高清地圖中表示車道中心線的多段線C進(jìn)行光柵化,生成具有相同的空間維度的單通道光柵圖。輸出參數(shù)化:設(shè)為BEV中的一個(gè)時(shí)空點(diǎn),在未來的時(shí)間t。這項(xiàng)工作是預(yù)測占位概率和流向量,指定占據(jù)該位置的任何車輛在BEV中的運(yùn)動(dòng)。采用反向流來建模流向量f,因?yàn)樗梢杂脝蝹€(gè)反向流向量來捕捉多模態(tài)的前向運(yùn)動(dòng)。更具體地,反向流描述了時(shí)間t和位置(x, y)處的運(yùn)動(dòng),它是該位置從到的平移向量,如果該位置有一個(gè)對象占據(jù),則為:
其中,表示時(shí)間時(shí)占據(jù)點(diǎn)在t時(shí)的BEV位置。
2.3 網(wǎng)絡(luò)架構(gòu)
作者使用一個(gè)多頭神經(jīng)網(wǎng)絡(luò)來參數(shù)化預(yù)測的占位概率和流向量。該網(wǎng)絡(luò)以體素化的LiDAR數(shù)據(jù)、光柵地圖和一個(gè)包含個(gè)時(shí)空查詢點(diǎn)的小批量作為輸入,并行估計(jì)小批量的占位概率和流向量:
其中,網(wǎng)絡(luò)分為卷積編碼器和隱式解碼器兩部分,用于計(jì)算場景特征并輸出占位概率和流向量的估計(jì)結(jié)果,如下圖所示。
編碼器由兩個(gè)處理BEV LiDAR和地圖光柵的卷積模塊組成,一個(gè)接收LiDAR和地圖光柵特征拼接的ResNet 輸出多分辨率特征平面,以及一個(gè)輕量級特征金字塔網(wǎng)絡(luò)(FPN)來處理這些特征平面。這樣就得到了一個(gè)分辨率為輸入的一半的BEV特征圖,其中包含了場景的幾何、語義和運(yùn)動(dòng)等上下文特征。值得注意的是,特征圖中的每個(gè)空間位置(特征向量)都包含了關(guān)于其鄰域(編碼器的感受野大?。┑目臻g信息,以及過去秒的時(shí)間信息。換句話說,Z中的每個(gè)特征向量可能包含關(guān)于運(yùn)動(dòng)、局部道路幾何和鄰近車輛的重要線索。
作者設(shè)計(jì)了一個(gè)隱式占位概率和流向量解碼器,靈感來自于這樣的直覺:查詢點(diǎn)的占位概率可能是由于一個(gè)在時(shí)間t之前以快速速度移動(dòng)的遠(yuǎn)處物體引起的。因此,我們希望利用時(shí)空查詢位置周圍的局部特征來指示接下來應(yīng)該觀察的區(qū)域。例如,關(guān)于一個(gè)對象的特征可能在其原始位置周圍(在時(shí)間{}更具表達(dá)力,因?yàn)槟抢镉蠰iDAR的證據(jù)。與在時(shí)間t占據(jù)查詢點(diǎn)的對象可能發(fā)生交互的鄰近交通參與者也是需要關(guān)注的(例如,前車、在相似時(shí)間到達(dá)合并點(diǎn)的另一輛車)。
為了實(shí)現(xiàn)這些直覺,作者首先使用雙線性插值在查詢BEV位置處對特征圖進(jìn)行插值,得到包含查詢周圍局部信息的特征向量。然后,我們通過偏移初始查詢點(diǎn)來預(yù)測K個(gè)參考點(diǎn),其中偏移量?q是通過使用基于全連接的ResNet架構(gòu)計(jì)算得到的。對于所有的偏移量都獲得相應(yīng)的特征。這可以看作是一種形變卷積的形式;它預(yù)測并添加2D偏移量到卷積的規(guī)則網(wǎng)格采樣位置,并在這些偏移位置進(jìn)行特征向量的雙線性插值。為了聚合來自形變采樣位置的信息,我們使用了學(xué)習(xí)的線性投影的之間的交叉注意力。結(jié)果是聚合的特征向量z。有關(guān)該特征聚合過程的可視化。最后,將z和z_q與q進(jìn)行拼接,然后通過另一個(gè)基于全連接的ResNet架構(gòu),帶有兩個(gè)線性層頭來預(yù)測占位概率和流向。
3 網(wǎng)絡(luò)分析
在目標(biāo)位置對進(jìn)行插值操作;
使用該插值的特征向量來預(yù)測到特征圖中其他位置的K個(gè)注意力偏移;
在偏移位置處對Z進(jìn)行插值以獲得更多的特征向量;
在所有插值的特征上執(zhí)行交叉關(guān)注以生成最終特征向量Z;
并使用Z來預(yù)測每個(gè)查詢點(diǎn)的占位率和流格。
4 總結(jié)
本文介紹了一種針對自動(dòng)駕駛的聯(lián)合感知和預(yù)測的統(tǒng)一方法,通過神經(jīng)網(wǎng)絡(luò)隱式地表示隨時(shí)間變化的占位和流格。這種可查詢的隱式表示能夠更有效、更高效地向下游的運(yùn)動(dòng)規(guī)劃器提供信息。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100712 -
網(wǎng)絡(luò)架構(gòu)
+關(guān)注
關(guān)注
1文章
93瀏覽量
12581 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13784瀏覽量
166382
原文標(biāo)題:CVPR2023 l 新方法!自動(dòng)駕駛中統(tǒng)一感知和預(yù)測的隱式占位流場!
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論