本文介紹了來自北京大學(xué)王選計算機研究所的王勇濤團隊與其合作者的最新研究成果RCBEVDet。針對自動駕駛場景,該篇工作提出了一個基于毫米波雷達(dá)和環(huán)視相機鳥瞰圖(BEV)特征融合的3D目標(biāo)檢測模型架構(gòu)RCBEVDet,在顯著提升3D目標(biāo)檢測精度的同時可保持實時的推理速度,且對模態(tài)信號丟失、干擾等情況魯棒,論文已被CVPR 2024錄用。
論文概述:
本文提出了一個基于毫米波雷達(dá)和環(huán)視相機鳥瞰圖(BEV)特征融合的3D目標(biāo)檢測模型架構(gòu)RCBEVDet。該架構(gòu)針對毫米波雷達(dá)的特性設(shè)計了一種高效的毫米波雷達(dá)主干網(wǎng)絡(luò)(RadarBEVNet)進(jìn)行點云鳥瞰圖特征提取,提出了一種基于可形變的跨注意力機制進(jìn)行毫米波雷達(dá)特征和環(huán)視相機特征融合。該架構(gòu)對現(xiàn)有主流的環(huán)視相機3D檢測器具有較強的兼容性,在顯著提升3D目標(biāo)檢測精度的同時可保持實時的推理速度,且對模態(tài)信號丟失、干擾等情況魯棒。同時,該架構(gòu)在自動駕駛感知數(shù)據(jù)集nuScenes上取得了領(lǐng)先的毫米波雷達(dá)-多攝相機3D目標(biāo)檢測精度以及推理速度-精度綜合性能。? ??
研究背景:
近期,研究者們關(guān)注于使用經(jīng)濟且高效的多視角相機進(jìn)行自動駕駛場景的3D目標(biāo)檢測。多視角相機能夠捕捉物體的顏色和紋理信息,同時提供高分辨率的語義信息。然而,僅依賴單獨的多視角相機難以實現(xiàn)高精度且魯棒的3D目標(biāo)檢測。例如,多視角相機難以提供準(zhǔn)確的深度信息,且圖像質(zhì)量受天氣和光照的影響較大。為了提升智能駕駛系統(tǒng)的安全性和魯棒性,智能駕駛車輛通常采用多種模態(tài)的傳感器獲取場景信息進(jìn)行感知,如環(huán)視相機、激光雷達(dá)、毫米波雷達(dá)等。毫米波雷達(dá)是一種經(jīng)濟實惠的常用傳感器,能夠提供較為準(zhǔn)確的深度信息和速度信息,并且能夠在各種天氣和光照條件下給出高質(zhì)量毫米波點云。因此,使用毫米波雷達(dá)-環(huán)視相機多模態(tài)組合感知方案具有優(yōu)秀的感知能力和較高的性價比,受到了現(xiàn)在很多研究人員和車廠的青睞。但是,由于4D毫米波雷達(dá)和環(huán)視相機模態(tài)間的巨大差異,如何融合這兩種模態(tài)信息高精度且魯棒地完成智能駕駛感知任務(wù)(如3D目標(biāo)檢測)具有非常大的技術(shù)挑戰(zhàn)性。
方法部分:
作者提出了RCBEVDet,一種基于毫米波雷達(dá)和多視角相機鳥瞰圖融合的3D感知方法,以實現(xiàn)高精度、高魯棒性的自動駕駛多模態(tài)3D感知。具體架構(gòu)如下圖所示:
圖1 RCBEVDet架構(gòu)圖
RCBEVDet針對毫米波雷達(dá)的特性,設(shè)計了一種高效的毫米波雷達(dá)主干網(wǎng)絡(luò)(RadarBEVNet),進(jìn)行點云鳥瞰圖特征提取,RadarBEVNet使用兩種特征表征方式對毫米波雷達(dá)點云進(jìn)行特征表示,并使用基于雷達(dá)反射截面(RCS)的離散方法得到鳥瞰圖特征。此外,該方法還提出了一種基于可形變的跨注意力機制進(jìn)行毫米波雷達(dá)特征和多視角相機鳥瞰圖特征進(jìn)行魯棒和高效的融合,從而提高自動駕駛的3D感知任務(wù)的性能和多模態(tài)魯棒性。
1、RadarBEVNet
給定輸入的毫米波雷達(dá)點云,RadarBEVNet采用point-based和transformer-based兩種表征形式對點云進(jìn)行特征提取,point-based提取器將針對毫米波雷達(dá)點云提取局部點云特征,而transformer-based的模塊則針對毫米波雷達(dá)點云提取全局點云特征。同時兩種特征表示通過injection和extraction模塊進(jìn)行特征關(guān)聯(lián),將局部特征和全局特征進(jìn)行交互,得到更加全面的毫米波雷達(dá)點云特征。
a、兩種特征表征方式 ? ?
兩種特征表征的提取器如下圖所示:
圖 2 兩種特征表征的提取器
point-based表征的架構(gòu)采用扁平化設(shè)計思路,由多層感知機和最大值池化層組成,毫米波點云特征首先被輸入到多層感知機進(jìn)行特征升維,得到高維的點云特征,之后通過最大值池化模塊提取全局的點云特征,并將該全局特征與高維點云特征進(jìn)行通道連接,得到最終的點云特征。
Transformer-based表征的架構(gòu)由三個階段組成,每個階段是一個標(biāo)準(zhǔn)的Trasnformer塊,由一個注意力機制、一個前向網(wǎng)絡(luò)和歸一化層組成。其中,為了提升模型的收斂性,作者采用了距離調(diào)制的注意力機制(Distance-Modulated Self-Attention)。具體而言,給定N個毫米波雷達(dá)點云的坐標(biāo),首先計算點與點之間的距離矩陣D。之后,根據(jù)距離矩陣D生成高斯權(quán)重圖G,G可以表示為
其中表示可學(xué)習(xí)參數(shù),可以用來控制高斯分布的帶寬。本質(zhì)上,高斯權(quán)重圖G會將更大的權(quán)重放置在局部區(qū)域,將更小的權(quán)重給那些遠(yuǎn)離當(dāng)前點云的點。給定高斯權(quán)重圖之后,采用下述公式對自注意力機制進(jìn)行調(diào)制:? ?
為了保證在訓(xùn)練過程中,基于距離調(diào)制的自注意力機制能夠退化回常規(guī)的自注意力機制,采用b替代1/。當(dāng)b=0時,基于距離調(diào)制的自注意力機制退化回常規(guī)的自注意力機制。
b、injection和extraction模塊
兩種特征表示的每個block中,使用injection和extraction模塊進(jìn)行兩個特征的融合和交互。具體而言,來自point-based的第i個block的特征為,來自transformer-based的第i個block的特征為。在injection模塊中,將設(shè)為query,視為key為value,采用多頭跨注意力機制將來transformer-based的特征注入到中。
類似的,extraction模塊采用跨注意力機制將point-based特征抽取出來,并傳入transformer-based的block中。兩者的架構(gòu)具體如下所示:
圖3 injection和extraction模塊架構(gòu)圖
2、基于雷達(dá)反射截面(RCS)的離散方法
RCS是毫米波雷達(dá)特有的特征,它是用來反映一個物體可檢測性的指標(biāo)。相同條件下(材料、形狀),較大的物體會產(chǎn)生較強的毫米波雷達(dá)反射響度,從而使毫米波雷達(dá)傳感器獲得較強的雷達(dá)反射截面。因此,雷達(dá)反射截面能夠在一定程度上反映出物體的大小?;赗CS引導(dǎo)的體素離散化操作將雷達(dá)反射截面作為物體大小的先驗知識,從而能夠使得一個毫米波雷達(dá)點云被離散化到多個體素柵格上,提高毫米波雷達(dá)特征的稠密程度,使后續(xù)的特征聚集變得更加簡單。如下圖所示:? ?
圖4 基于RCS的離散方式示意圖
3、可形變的跨注意力機制融合模塊
毫米波雷達(dá)點云會偏離其真實位置,因此作者采用可形變跨注意力機制來動態(tài)學(xué)習(xí)這種位置偏置,提高融合的魯棒性,如下圖所示。同時,采用可形變跨注意力機制能夠?qū)⑵胀ǖ目缱⒁饬C制的計算復(fù)雜度從降低到,提高融合的效率。其中H和W分別表示體素的長和寬,C表示特征體素的通道數(shù),K表示可形變跨注意力機制中的參考點數(shù)量。? ?
圖5 可形變的跨注意力機制融合模塊架構(gòu)圖
實驗部分:
RCBEVDet主要在多模態(tài)自動駕駛數(shù)據(jù)集nuScenes上進(jìn)行實驗。以BEVDepth為基礎(chǔ)模型,RCBEVDet在增加少量推理時延的情況下(仍保證實時推理速度),能夠大幅度穩(wěn)定提升3D檢測的性能,同時實現(xiàn)最優(yōu)的速度-精度權(quán)衡,如下所示:
圖6 速度-精度權(quán)衡圖
在nuScenes驗證集上,作者驗證了RCBEVDet在不同backbone和image size的性能,如下表所示,RCBEVDet在各個設(shè)置下相比于之前的方法都有明顯提升。? ?
圖7 nuScenes驗證集結(jié)果
在nuScenes測試集上,增加Radar輸入后,相比于相機基準(zhǔn)模型BEVDepth,RCBEVDet提升了3.4 NDS,實現(xiàn)了63.9 NDS的性能。值得注意的是,RCBEVDet能夠非常方便地與現(xiàn)有的其他高精度多視角相機檢測器(例如streamPETR)相結(jié)合,實現(xiàn)更高精度的3D檢測結(jié)果。
圖8 nuScenes測試集結(jié)果
此外,作者模擬隨機丟失傳感器的情況,將部分傳感器(相機或者毫米波雷達(dá))的輸入設(shè)為空,來驗證RCBEVDet的魯棒性,具體結(jié)果如下所示? ??
圖9?魯棒性驗證
RCBEVDet對相機和毫米波雷達(dá)的缺失均表現(xiàn)出較強的魯棒性。
結(jié)論:
本文提出了RCBEVDet,一個基于毫米波雷達(dá)和環(huán)視相機鳥瞰圖(BEV)特征融合的3D目標(biāo)檢測模型架構(gòu),在顯著提升3D目標(biāo)檢測精度的同時可保持實時的推理速度,且具有較強魯棒性。
審核編輯:黃飛
評論
查看更多