新时代app官方版下载,RM新时代投资官网

【CVPR 2023】LinK：用線性核實現(xiàn)3D激光雷達感知任務(wù)中的large kernel

本文介紹我們媒體計算研究組（MCG）在3D激光雷達感知領(lǐng)域提出的新型網(wǎng)絡(luò)設(shè)計。針對點云數(shù)據(jù)的稀疏性，使用線性核（LinK）來擴大模型的有效感受野，提升3D檢測、分割等任務(wù)的性能。

LinK: Linear Kernel for LiDAR-based 3D Perception

論文鏈接：https://arxiv.org/abs/2303.16094

代碼鏈接：https://github.com/MCG-NJU/LinK

研究動機

在2D計算機視覺任務(wù)中，更大的感受野使得模型在語義分割、目標檢測等下游任務(wù)上的性能獲得顯著的提升。此前，一些方法（RepLKNet[1]等）探究了2D圖像處理領(lǐng)域中使用更大的卷積核來獲得更大范圍的感知能力。

由于3D數(shù)據(jù)模態(tài)的稀疏性，將大卷積核的設(shè)計引入3D存在兩方面的障礙。一是效率問題：3D任務(wù)中，開銷隨尺寸立方增長，若將卷積核大小從3×3×3簡單地擴張到7×7×7，模型大小會是原來的10倍，擴展到21×21×21則會變?yōu)?43倍。另一方面是優(yōu)化問題：由于點云在空間中分布較為稀疏，如果卷積核的每個位置都被賦予一定的權(quán)重，那么3D數(shù)據(jù)的稀疏性會導(dǎo)致大量空閑位置的權(quán)重在網(wǎng)絡(luò)迭代中并沒有參與更新，導(dǎo)致參數(shù)更新緩慢。此前有人嘗試使用局部塊內(nèi)元素共享參數(shù)的方式來緩解這兩個問題，提出了大小為7×7×7的空間共享權(quán)重卷積核（LargeKernel3D[2]）。該設(shè)計成功地在3D語義分割和目標檢測任務(wù)上提升了小卷積核的性能，但感受野的擴張幅度仍然有限。

為了解決這些問題，我們提出線性核LinK，以類卷積的方式實現(xiàn)更大的感知范圍。該方法有兩處核心設(shè)計：一是用線性核生成器替換靜態(tài)的卷積權(quán)重，僅為非空區(qū)域的點云提供權(quán)重。同時，該模塊是逐層共享的，避免了稀疏分布的權(quán)重在某次迭代中沒有被優(yōu)化的情況，改善了優(yōu)化問題。二是在不同滑動窗口的重疊區(qū)域復(fù)用預(yù)先計算的聚合結(jié)果，使整體計算復(fù)雜度進一步降低，甚至最終計算量為常量，與實際感受范圍無關(guān)。換句話說，我們可以基于LinK以一致的開銷實現(xiàn)任意大小的線性核。

我們的方法

核生成器

前文中討論了大卷積核下稀疏卷積的兩大缺陷：開銷大以及優(yōu)化困難。我們首先采用神經(jīng)網(wǎng)絡(luò)模塊來在線生成權(quán)重，取代靜態(tài)卷積核，使得網(wǎng)絡(luò)參數(shù)量與不隨卷積核尺寸增長而增長，與之前方法對比如下：

線性核生成器解決了參數(shù)量增長的問題，然后，并沒有解決計算量的問題。于是我們考慮，能否將不同卷積窗口的重疊區(qū)域的特征聚合結(jié)果進行復(fù)用，這樣有可能降低計算量。

為此，我們以一個toy case為例。假設(shè)兩個相鄰窗口中的元素集合分別為

其中每個元素表示一個體素。這兩個窗口的重疊區(qū)域為

我們分別將中的元素特征聚合到和，聚合過程為

可以發(fā)現(xiàn)，每個重疊區(qū)域中的元素對和采用不同的local offset來獲得權(quán)重。因此，基于local offset的方式難以復(fù)用重疊區(qū)域的聚合結(jié)果，如下圖所示：

基于global coordinate的預(yù)聚合

為了解決這個問題，考慮到每個位置的global coordinate是唯一的，我們提出，將local offset拆分為global coordinate的組合。對于區(qū)域，我們使用如下公式計算這三個元素的預(yù)聚合結(jié)果：

也是kernel generator。然后，若要得到在區(qū)域上的聚合特征，我們用如下方式生成基于local offset的結(jié)果：

這樣，不管有多少個元素要來復(fù)用區(qū)域上的聚合特征，都不需要再重新計算。

那么問題來了，上式成立的前提是

為了使其成立，我們參考APP-Net[3]，使用線性映射來實現(xiàn) 和。我們將這過程稱為線性核生成器，也即LinK方法名字的由來（Linear Kernel Generator）。這兩個函數(shù)可以用三角函數(shù)、指數(shù)函數(shù)等不同的形式進行激活，正文中主要采用了余弦函數(shù)的方式。此時兩個窗口A、B的聚合過程如下圖所示：

基于LinK的類卷積核設(shè)計

基于上述設(shè)計，我們將整體點云劃分為不重疊的塊，每個塊的大小為，對每個塊進行特征預(yù)聚合。為每個塊查詢其周圍個近鄰塊，生成一個感受范圍為的大塊的預(yù)聚合特征。對使用上述合成local offset的操作，即可為每個聚合中心算得最終的特征。這部分的具體公式可見論文原文。在實驗中，設(shè) ，即可得到 21×21×21 的感知范圍。整體過程如下圖所示：

網(wǎng)絡(luò)結(jié)構(gòu)

LinK模塊結(jié)構(gòu)

LinK模塊由兩個分支組成：一個分支為使用線性投影+三角核函數(shù)實現(xiàn)的大核分支，另一分支為 3×3×3 的稀疏卷積小核旁路，結(jié)構(gòu)圖如下所示。

下游任務(wù)應(yīng)用

應(yīng)用到下游任務(wù)（檢測和分割）中時，我們分別選取CenterPoint和MinkUnet作為基礎(chǔ)架構(gòu)，并使用基于LinK的backbone替代了原本基于稀疏卷積實現(xiàn)的backbone，保留了原始的檢測頭和分割頭不變，具體結(jié)構(gòu)如下圖所示。

實驗

我們在nuScenes上評估了目標檢測的結(jié)果，在SemanticKITTI上評估了語義分割的結(jié)果。結(jié)果分別如下所示：

nuScenes

截止論文發(fā)表，我們的方法在nuScenes數(shù)據(jù)集上取得了SOTA（73.4 NDS）。得益于超大的感受野，與baseline CenterPoint相比，我們的方法在大尺寸的物體（例如bus、con-veh等）上提升顯著。

SemanticKITTI

在SemanticKITTI上，我們的方法相較baseline MinkUNet獲得了2.7 mIoU的提升。更多可視化分析見原始論文。

總結(jié)

在本文中，我們提出了一個線性核生成器LinK，能夠以不變的計算量任意擴大模型感受野，大幅提升現(xiàn)有模型在下游任務(wù)（檢測、分割）上的性能。我們通過實驗證明了LinK對下游任務(wù)性能提升的有效性與通用性。LinK在nuScenes（LiDAR only）上達到了SOTA性能，希望可以讓大家對大感受野的新方法以及其在3D感知任務(wù)上的應(yīng)用有更多關(guān)注。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

Link

Link

+關(guān)注

關(guān)注
0

文章
101

瀏覽量
26952
生成器

生成器

+關(guān)注

關(guān)注
7

文章
315

瀏覽量
21002
激光雷達

激光雷達

+關(guān)注

關(guān)注
968

文章
3967

瀏覽量
189822

原文標題：LinK: Linear Kernel for LiDAR-based 3D Perception

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

常見激光雷達種類

。單線激光主要用于規(guī)避障礙物，由于單線激光雷達比多線和3D激光雷達在角頻率和靈敏度反映更加快捷，所以，在測試周圍障礙物的距離和精度上都更加精確。但是，單線

發(fā)表于 09-25 11:30

激光雷達究竟為什么這么牛，這么貴

、激光雷達為什么這么牛？因為激光雷達能夠幫助車輛識別周圍的環(huán)境信息，更好的運行車輛。激光雷達在無人駕駛的兩個核心作用：1．3D建模進行環(huán)境感知

發(fā)表于 10-16 16:31

固態(tài)設(shè)計激光雷達

圍繞LR30進行感知環(huán)境，精確建圖和定位導(dǎo)航的功能研發(fā)，以實現(xiàn)低速自動駕駛輔助和封閉園區(qū)自動駕駛。二、已量產(chǎn)的固態(tài)激光雷達CE30-D當其他公司展位擺放著《樣品預(yù)約測試表》的時候，北醒

發(fā)表于 01-25 09:41

激光雷達除了可以激光測距外，還可以怎么應(yīng)用？

運用紅外激光設(shè)備把紅外線投影到屏幕上。當屏幕被阻擋時，紅外線便會反射，而屏幕下的攝影機則會捕捉反射去向，再經(jīng)系統(tǒng)分析，便可作出反應(yīng)。 激光雷達應(yīng)用之 3D建模與環(huán)境掃描RPLIDAR 3D

發(fā)表于 05-11 15:33

5 款激光雷達：iDAR、高清3D LiDARInnovizPro、S3、SLAM on Chip、VLS-128

，我們的任務(wù)就是要推動自動駕駛汽車大規(guī)模商用，現(xiàn)在我們離實現(xiàn)這一目標越來越近了?！盜nnoviz 公司發(fā)言人在一份聲明中說道。S3（Quanergy）Quanergy S

發(fā)表于 07-26 20:45

讓機器人在陌生環(huán)境里穿梭自如的激光雷達

`這輛汽車對于科技愛好者絕不陌生，這就是谷歌研發(fā)的無人駕駛汽車。在行駛過程中，無人車需要感知周圍環(huán)境，但無法像人一樣用眼睛完成，這一切就要依靠車頂安裝的激光雷達。該裝置可檢測周圍障礙物

發(fā)表于 09-10 16:32

除了機器人行業(yè)，激光雷達還能應(yīng)用于哪些領(lǐng)域？

器人在房間里實現(xiàn)智能清掃，清掃的過程中繪制地圖，實時傳輸?shù)绞謾CAPP，就算用戶不在家，也可以通過手機APP查看清掃情況，以及安排其他地方清掃。無人車領(lǐng)域——自主感知道路環(huán)境及規(guī)劃路線在無人車領(lǐng)域，

發(fā)表于 12-10 14:55

自制低成本3d激光掃描測距儀激光雷達

自制低成本3d激光掃描測距儀激光雷達

發(fā)表于 05-27 16:23

激光雷達知多少：從技術(shù)上講講未來前景

，其云底高度的測量范圍可達7500m。按線數(shù)分類：單線激光雷達 單線激光雷達主要用于規(guī)避障礙物，其掃描速度快、分辨率強、可靠性高。由于單線激光雷達比多線和3D

發(fā)表于 07-14 07:56

自制低成本3D激光掃描測距儀(3D激光雷達)

自制低成本3D激光掃描測距儀(3D激光雷達)

發(fā)表于 03-04 10:51

由iphone12說說激光雷達 FMCW激光雷達精選資料分享

。另一個就是比較火的AR（增強現(xiàn)實），通過LIDAR能夠測出這個現(xiàn)實中物體的大小尺寸，進而能夠很好的3D建模，當然待開發(fā)的應(yīng)用還有很多很多，畢竟相當于賦予了手機一雙人的眼睛。主要說一下這個激光雷達

發(fā)表于 07-22 09:12

3D激光雷達的現(xiàn)在和未來

近年來，激光雷達市場非常活躍，一些參與者在推出汽車級3D激光雷達傳感器模塊產(chǎn)品方面取得了出色的進展。

發(fā)表于 03-23 16:19 ?8753次閱讀

3D激光雷達和相機校準是如何考慮傳感器之間誤差的？

作者：Raphael Voges and Bernardo Wagner 來源：IROS 2020 大家好，今天為大家?guī)淼奈恼率恰?集員法對3D激光雷達和相機的外部校準

發(fā)表于 05-26 09:15 ?5095次閱讀

3D Flash 激光雷達測繪和手勢識別

3D Flash 激光雷達測繪和手勢識別

發(fā)表于 01-05 09:43 ?1437次閱讀

激光雷達與視覺感知的優(yōu)劣對比

3D激光雷達在無人駕駛車輛的定位、路徑規(guī)劃、決策、感知等方面有著重要的作用。2022-2025年之間預(yù)計絕大部分的主機廠會量產(chǎn)上激光雷達，從國際上看，沃爾沃和Luminar宣布量產(chǎn)，國

發(fā)表于 10-30 18:14 ?554次閱讀

RM新时代网站-首页

搜索歷史

LinK：用線性核實現(xiàn)3D激光雷達感知任務(wù)中的large kernel

評論

常見激光雷達種類

激光雷達究竟為什么這么牛，這么貴

固態(tài)設(shè)計激光雷達

激光雷達除了可以激光測距外，還可以怎么應(yīng)用？

5 款激光雷達：iDAR、高清3D LiDARInnovizPro、S3、SLAM on Chip、VLS-128

讓機器人在陌生環(huán)境里穿梭自如的激光雷達

除了機器人行業(yè)，激光雷達還能應(yīng)用于哪些領(lǐng)域？

自制低成本3d激光掃描測距儀激光雷達

激光雷達知多少：從技術(shù)上講講未來前景

自制低成本3D激光掃描測距儀(3D激光雷達)

由iphone12說說激光雷達 FMCW激光雷達精選資料分享

3D激光雷達的現(xiàn)在和未來

3D激光雷達和相機校準是如何考慮傳感器之間誤差的？

3D Flash 激光雷達測繪和手勢識別

激光雷達與視覺感知的優(yōu)劣對比