RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個(gè)動(dòng)態(tài)環(huán)境下的實(shí)時(shí)語義RGB-D SLAM系統(tǒng)

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-08-25 16:49 ? 次閱讀

作者:K.Fire | 來源:3D視覺工坊

大多數(shù)現(xiàn)有的視覺SLAM方法嚴(yán)重依賴于靜態(tài)世界假設(shè),在動(dòng)態(tài)環(huán)境中很容易失效。本文提出了一個(gè)動(dòng)態(tài)環(huán)境下的實(shí)時(shí)語義RGB-D SLAM系統(tǒng),該系統(tǒng)能夠檢測(cè)已知和未知的運(yùn)動(dòng)物體。為了減少計(jì)算成本,其只對(duì)關(guān)鍵幀進(jìn)行語義分割以去除已知的動(dòng)態(tài)對(duì)象,并保持靜態(tài)映射以實(shí)現(xiàn)穩(wěn)健的攝像機(jī)跟蹤。此外,文章還提出了一個(gè)有效的幾何模塊,通過將深度圖像聚類到幾個(gè)區(qū)域,并通過它們的重投影誤差來識(shí)別動(dòng)態(tài)區(qū)域,從而檢測(cè)未知的運(yùn)動(dòng)物體。

1 前言

盡管現(xiàn)有很多的vSLAM系統(tǒng)都有很好的性能,但這些方法中的大多數(shù)嚴(yán)重依賴于靜態(tài)世界假設(shè),這極大地限制了它們?cè)诂F(xiàn)實(shí)世界場(chǎng)景中的部署。

由于移動(dòng)的人、動(dòng)物和車輛等動(dòng)態(tài)物體對(duì)姿態(tài)估計(jì)和地圖重建有負(fù)面影響。盡管穩(wěn)健的估計(jì)技術(shù)(如RANSAC)可以用于過濾掉一些異常值,但改進(jìn)仍然有限,因?yàn)樗鼈冎荒芴幚磔p微的動(dòng)態(tài)場(chǎng)景,當(dāng)移動(dòng)的物體覆蓋大部分相機(jī)視圖時(shí),仍然可能失敗。

由于計(jì)算機(jī)視覺深度學(xué)習(xí)最新進(jìn)展,環(huán)境的語義信息已被集成到SLAM系統(tǒng)中,比如通過語義分割提取語義信息,預(yù)測(cè)被檢測(cè)對(duì)象的標(biāo)簽并生成掩碼。通過識(shí)別和去除潛在的動(dòng)態(tài)目標(biāo),vSLAM在動(dòng)態(tài)場(chǎng)景中的性能可以得到很大的提高。

然而,這些方法仍然存在兩個(gè)主要問題:

強(qiáng)大的語義分割神經(jīng)網(wǎng)絡(luò)算法計(jì)算成本很高,不適用于實(shí)時(shí)和小規(guī)模機(jī)器人應(yīng)用。

而對(duì)于輕量級(jí)網(wǎng)絡(luò),分割精度可能會(huì)降低,跟蹤精度也會(huì)受到影響。另一個(gè)問題是,它們只能處理在網(wǎng)絡(luò)的訓(xùn)練集中被標(biāo)記的已知物體,面對(duì)未知的運(yùn)動(dòng)物體時(shí)仍然可能失敗。

為了識(shí)別具有語義線索的動(dòng)態(tài)對(duì)象,大多數(shù)現(xiàn)有方法對(duì)每個(gè)新幀進(jìn)行語義分割。這將導(dǎo)致相機(jī)跟蹤的顯著放緩,因?yàn)楦欉^程必須等到分割完成。

本文主要貢獻(xiàn)如下:

提出了一種基于關(guān)鍵幀的語義RGB-D SLAM系統(tǒng),能夠減少動(dòng)態(tài)環(huán)境中運(yùn)動(dòng)物體的影響。

提出了一個(gè)有效和高效的幾何模塊,處理未知的運(yùn)動(dòng)物體,并結(jié)合語義SLAM框架。

通過與最先進(jìn)的動(dòng)態(tài)SLAM方法對(duì)比實(shí)驗(yàn),證明所提出的方法的準(zhǔn)確性,同時(shí)能夠在嵌入式系統(tǒng)上實(shí)時(shí)運(yùn)行。

2 算法框架

整個(gè)算法的框架如下圖所示:

617376ee-2a01-11ee-a368-dac502259ad0.png

2.1 語義模塊

語義分割是預(yù)測(cè)像素標(biāo)簽,并使用基于深度學(xué)習(xí)的方法為輸入RGB圖像中檢測(cè)到的對(duì)象生成掩碼,語義模塊采用了輕量級(jí)的語義分割網(wǎng)絡(luò)SegNet。

然后將分割網(wǎng)絡(luò)在PASCAL VOC數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集包含20類對(duì)象。在這些對(duì)象中,只處理那些高度移動(dòng)或潛在動(dòng)態(tài)的對(duì)象,如人、汽車、自行車等。這些目標(biāo)將從分割圖像中移除,與它們相關(guān)的特征點(diǎn)將不會(huì)用于相機(jī)跟蹤和地圖構(gòu)建。

與大多數(shù)現(xiàn)有的基于學(xué)習(xí)的動(dòng)態(tài)SLAM方法不同,該模型只在創(chuàng)建新的關(guān)鍵幀時(shí)執(zhí)行語義分割,而不是對(duì)每個(gè)新幀執(zhí)行語義分割。這大大降低了語義模塊的計(jì)算成本,幫助實(shí)現(xiàn)語義信息的實(shí)時(shí)跟蹤。此外,該進(jìn)程在單獨(dú)的線程中執(zhí)行,因此對(duì)總體跟蹤時(shí)間沒有太大影響。

2.2 幾何模塊

由于單獨(dú)的語義信息只能檢測(cè)到訓(xùn)練集中被標(biāo)記的固定數(shù)量的對(duì)象類,因此在存在未知運(yùn)動(dòng)對(duì)象的情況下,跟蹤和映射仍然會(huì)受到影響,因此需要一個(gè)不需要先驗(yàn)信息的幾何模塊

首先使用K-Means算法將每個(gè)新的深度圖像分割成N個(gè)簇,在3D空間中彼此接近的點(diǎn)被分組在一起。假設(shè)每個(gè)聚類都是一個(gè)物體的表面,并且聚類中的點(diǎn)共享相同的運(yùn)動(dòng)約束。因?yàn)閱蝹€(gè)對(duì)象可以被分割成幾個(gè)簇,所以對(duì)象不需要是剛性的,而大多數(shù)語義SLAM方法都有這種剛性假設(shè)。

對(duì)于每個(gè)聚類,計(jì)算聚類內(nèi)所有特征點(diǎn)相對(duì)于它們?cè)谌S空間中的匹配對(duì)應(yīng)Pi的平均重投影誤差,如(1)所定義,其中m為中匹配的特征數(shù),為相機(jī)姿態(tài),π表示相機(jī)投影模型,ρ為罰函數(shù)。

當(dāng)一個(gè)集群的誤差相對(duì)大于其他集群時(shí),就將其標(biāo)記為動(dòng)態(tài)集群。動(dòng)態(tài)聚類中的所有特征點(diǎn)將被移除,不再參與相機(jī)姿態(tài)估計(jì)。與識(shí)別單個(gè)特征點(diǎn)的動(dòng)態(tài)狀態(tài)相比,該聚類方法更加有效和高效。此外,它還可以防止由單點(diǎn)測(cè)量噪聲引起的誤檢。它還允許我們通過幾何聚類近似運(yùn)動(dòng)物體的大致形狀。改方法的一些結(jié)果可以在下圖的第三行中看到,其中動(dòng)態(tài)集群用紅色突出顯示。該模塊可以獨(dú)立工作,不需要語義信息,因此可以檢測(cè)未知的運(yùn)動(dòng)物體。

第一行顯示了提議的語義模塊(藍(lán)色矩形點(diǎn))和幾何模塊(紅色點(diǎn))檢測(cè)到的動(dòng)態(tài)特征。第二行是相應(yīng)的語義分割結(jié)果。第三行顯示深度圖像的幾何聚類結(jié)果,動(dòng)態(tài)聚類以紅色突出顯示。(a)和(b)顯示兩個(gè)模塊都檢測(cè)到動(dòng)態(tài)目標(biāo)。(c)-(h)表示語義分割失敗,而幾何模塊分割成功(幾何模塊可以在語義模塊失效的情況下繼續(xù)工作)。

作者在實(shí)驗(yàn)過程中發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,一些半動(dòng)態(tài)的物體也可以被識(shí)別出來。如上圖(h)所示,其中左椅子被確定為動(dòng)態(tài)的。原因是椅子目前是靜態(tài)的,但當(dāng)重新訪問它時(shí),它的位置發(fā)生了變化。這對(duì)于長期一致的地圖構(gòu)建是有幫助的。

2.3 關(guān)鍵幀和本地地圖更新

只從關(guān)鍵幀中提取語義信息。因?yàn)樾聨怯藐P(guān)鍵幀和局部地圖跟蹤的,我們只需要確保分割的關(guān)鍵幀和局部地圖只包含場(chǎng)景的靜態(tài)部分。關(guān)鍵幀選擇策略繼承自原ORB-SLAM2系統(tǒng)。當(dāng)在跟蹤過程中選擇新的關(guān)鍵幀時(shí),在單獨(dú)的線程中執(zhí)行語義分割并刪除動(dòng)態(tài)特征點(diǎn)。本地地圖也通過刪除相應(yīng)的動(dòng)態(tài)地圖點(diǎn)來更新。

通過這種方式,維護(hù)了一個(gè)關(guān)鍵幀數(shù)據(jù)庫和一個(gè)只包含靜態(tài)特征和地圖點(diǎn)的地圖。

2.4 跟蹤

繼承于ORB-SLAM2對(duì)于每一個(gè)新幀都執(zhí)行一個(gè)兩階段的跟蹤。首先使用與當(dāng)前幀重疊最大的最近關(guān)鍵幀進(jìn)行初始跟蹤,以獲得初始姿態(tài)估計(jì)。由于關(guān)鍵幀已經(jīng)經(jīng)過了改進(jìn),刪除了潛在的動(dòng)態(tài)對(duì)象,因此這個(gè)初始估計(jì)將更加可靠。

然后在幾何模塊中使用初始姿態(tài)估計(jì)進(jìn)行動(dòng)態(tài)物體檢測(cè)。幾何模塊去除當(dāng)前幀中的動(dòng)態(tài)點(diǎn)后,利用當(dāng)前幀中觀察到的所有局部地圖點(diǎn)進(jìn)行跟蹤,利用局部束調(diào)整獲得更精確的姿態(tài)估計(jì)。由于語義模塊還在局部地圖中刪除了潛在的動(dòng)態(tài)地圖點(diǎn),進(jìn)一步降低了動(dòng)態(tài)目標(biāo)的影響,從而使姿態(tài)估計(jì)更加魯棒和準(zhǔn)確。

3 實(shí)驗(yàn)與結(jié)果

本文方法在廣泛用于RGB-D SLAM評(píng)價(jià)的TUM RGB-D數(shù)據(jù)集上進(jìn)行了測(cè)試。

評(píng)估指標(biāo):用于評(píng)估的誤差指標(biāo)是m的絕對(duì)軌跡誤差(ATE)的常用均方根誤差(RMSE),以及包含m=s的平移漂移和?=s的旋轉(zhuǎn)漂移的相對(duì)姿態(tài)誤差(RPE)的RMSE。ATE測(cè)量軌跡的全局一致性,RPE測(cè)量每秒的里程漂移

3.1 不同模塊的作用

ATE與基線ORB-SLAM2的RMSE比較如下表所示。

61d26690-2a01-11ee-a368-dac502259ad0.png

實(shí)驗(yàn)結(jié)果:

對(duì)于稍微動(dòng)態(tài)的序列,提出的方法的結(jié)果與ORB-SLAM2相似,因?yàn)镺RB-SLAM2可以通過RANSAC算法成功處理這些情況,因此改進(jìn)幅度有限。

對(duì)于高度動(dòng)態(tài)的序列,文中的語義模塊和幾何模塊都取得了顯著的精度提高,并且提出的組合系統(tǒng)取得了更好的結(jié)果。

下圖為根據(jù)地面真值,ORBSLAM2和所提方法估算的軌跡對(duì)比

61edb062-2a01-11ee-a368-dac502259ad0.png

3.2 與最先進(jìn)方法的比較

作者將所提出的方法與最先進(jìn)的基于幾何的動(dòng)態(tài)SLAM方法MR-DVO、SPW、StaticFusion、DSLAM以及基于學(xué)習(xí)的方法MID-Fusion、EM-Fusion、DS-SLAM和DynaSLAM進(jìn)行了比較。

ATE和RPE的比較分別總結(jié)于表2和表3。

622495dc-2a01-11ee-a368-dac502259ad0.png

可以看出,文中的方法在所有動(dòng)態(tài)序列中都提供了具有非常好的的結(jié)果,并且優(yōu)于所有其他動(dòng)態(tài)SLAM方法,除了在語義框架中結(jié)合多視圖幾何的DynaSLAM。但是,DynaSLAM提供離線靜態(tài)地圖創(chuàng)建,由于其耗時(shí)的Mask-RCNN網(wǎng)絡(luò)和區(qū)域增長算法,它無法實(shí)時(shí)運(yùn)行。但是本文的方法在實(shí)現(xiàn)了實(shí)時(shí)操作的同時(shí),提供了與之非常接近的結(jié)果。

3.3 真實(shí)環(huán)境下的魯棒性檢驗(yàn)

在真實(shí)的實(shí)驗(yàn)中,一個(gè)拿著書的人在相機(jī)前坐著走著,而相機(jī)幾乎是靜止的。下圖是實(shí)時(shí)測(cè)試過程中動(dòng)態(tài)點(diǎn)檢測(cè)結(jié)果的幾張截圖,其中第二行和第三行分別是語義模塊和提出的幾何模塊的分割結(jié)果。

書在網(wǎng)絡(luò)模型中不是一個(gè)被標(biāo)記的對(duì)象,因此它不能被識(shí)別,或者有時(shí)被語義模塊錯(cuò)誤地識(shí)別,如第二行所示。作為一個(gè)補(bǔ)償過程,幾何模塊能夠在測(cè)試中正確地將書作為移動(dòng)對(duì)象提取出來,如第三行所示。這表明語義模塊和幾何模塊都是動(dòng)態(tài)環(huán)境下健壯的語義RGBD SLAM系統(tǒng)所必需的。該方法的平均彈道估計(jì)誤差約為0:012m,而ORB-SLAM2由于運(yùn)動(dòng)物體引起的較大波動(dòng),誤差約為0:147m。

4 總結(jié)

本文提出了一個(gè)實(shí)時(shí)語義RGB-D SLAM框架,該框架能夠處理已知和未知的運(yùn)動(dòng)物體。

為了減少計(jì)算量,提出了一種基于關(guān)鍵幀的語義模塊,并引入了一種基于幾何聚類的有效幾何模塊來處理未知運(yùn)動(dòng)目標(biāo)。廣泛的評(píng)估表明,文中的系統(tǒng)提供了最先進(jìn)的定位精度,同時(shí)仍然能夠在嵌入式平臺(tái)上實(shí)時(shí)運(yùn)行。

未來改進(jìn):可以構(gòu)建一個(gè)只包含靜態(tài)部分的環(huán)境的長期語義地圖,這對(duì)高級(jí)機(jī)器人任務(wù)很有用。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 嵌入式系統(tǒng)
    +關(guān)注

    關(guān)注

    41

    文章

    3587

    瀏覽量

    129433
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4607

    瀏覽量

    92826
  • 網(wǎng)絡(luò)模型
    +關(guān)注

    關(guān)注

    0

    文章

    44

    瀏覽量

    8425
  • VSLAM
    +關(guān)注

    關(guān)注

    0

    文章

    23

    瀏覽量

    4323

原文標(biāo)題:動(dòng)態(tài)環(huán)境下竟然能在嵌入式系統(tǒng)上實(shí)現(xiàn)實(shí)時(shí)語義RGB-D SLAM??

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于多模態(tài)語義SLAM框架

    本文提出了個(gè)魯棒且快速的多模態(tài)語義 SLAM 框架,旨在解決復(fù)雜和動(dòng)態(tài)環(huán)境中的
    的頭像 發(fā)表于 08-31 09:39 ?1706次閱讀

    如何去開發(fā)款基于RGB-D相機(jī)與機(jī)械臂的三維重建無序抓取系統(tǒng)

    基于RGB-D相機(jī)與機(jī)械臂的三維重建無序抓取系統(tǒng)有哪些關(guān)鍵技術(shù)?如何去開發(fā)款基于RGB-D相機(jī)與機(jī)械臂的三維重建無序抓取系統(tǒng)?基于
    發(fā)表于 09-08 06:12

    基于RGB-D圖像物體識(shí)別方法

    針對(duì)傳統(tǒng)的顏色深度(RGB-D)圖像物體識(shí)別的方法所存在的圖像特征學(xué)習(xí)不全面、特征編碼魯棒性不夠等問題,提出了基于核描述子局部約束線性編碼( KD-LLC)的RGB-D圖像物體識(shí)別方法。首先,在
    發(fā)表于 12-07 10:22 ?1次下載
    基于<b class='flag-5'>RGB-D</b>圖像物體識(shí)別方法

    RGB-D圖像是什么

    RGB-D圖像其實(shí)是兩幅圖像。
    的頭像 發(fā)表于 11-01 11:46 ?1.8w次閱讀

    RGPNET:復(fù)雜環(huán)境實(shí)時(shí)通用語義分割網(wǎng)絡(luò)

    本文介紹的論文提出了種新的實(shí)時(shí)通用語義分割體系結(jié)構(gòu)RGPNet,在復(fù)雜環(huán)境取得了顯著的性能提升。作者: Tom Hardy首發(fā):3
    的頭像 發(fā)表于 12-10 19:15 ?650次閱讀

    基于UWB、里程計(jì)和RGB-D融合的室內(nèi)定位方法

    的思想,僅消耗極少部分的計(jì)算資源就可以將各個(gè)傳感器融合起來,提高了系統(tǒng)精度。實(shí)驗(yàn)結(jié)果表明,該方法可以將定位誤差抑制在10cm以內(nèi)將偏轉(zhuǎn)角誤差抑制在1以內(nèi),徹底解決單RGB-D攝像頭SLAM
    發(fā)表于 04-25 14:47 ?14次下載
    基于UWB、里程計(jì)和<b class='flag-5'>RGB-D</b>融合的室內(nèi)定位方法

    種可在動(dòng)態(tài)環(huán)境構(gòu)建語義地圖的算法

    Localization And Mapping,SLAM)算法已經(jīng)可以達(dá)到較高的定位和制圖精度,但是在動(dòng)態(tài)環(huán)境如何通過剔除動(dòng)態(tài)物體來獲
    發(fā)表于 05-07 14:56 ?4次下載

    用于SLAM的神經(jīng)隱含可擴(kuò)展編碼

    我們提出了NICE-SLAM,個(gè)密集的RGB-D SLAM系統(tǒng),它具有
    的頭像 發(fā)表于 01-30 11:19 ?736次閱讀

    用于快速高保真RGB-D表面重建的神經(jīng)特征網(wǎng)格優(yōu)化的GO-Surf

    我們提出了GO-Surf,種直接的特征網(wǎng)格優(yōu)化方法,用于從RGB-D序列中準(zhǔn)確和快速地重建表面。
    的頭像 發(fā)表于 03-17 16:35 ?739次閱讀

    基于RGB-D相機(jī)的三維重建和傳統(tǒng)SFM和SLAM算法有什么區(qū)別?

    輸入數(shù)據(jù)流不同。在基于RGB-D相機(jī)的三維重建中,輸入有深度信息和彩色信息,并且深度信息起主導(dǎo)作用,而在SLAM和SFM算法中輸入的是主要是彩色信息,個(gè)別工作也有結(jié)合深度信息。
    發(fā)表于 03-23 12:28 ?1333次閱讀

    用于神經(jīng)場(chǎng)SLAM的矢量化對(duì)象建圖

    vMAP 是種基于神經(jīng)場(chǎng)的對(duì)象級(jí)密集 SLAM 系統(tǒng),可根據(jù) RGB-D 輸入流實(shí)時(shí)自動(dòng)構(gòu)建對(duì)象級(jí)場(chǎng)景模型。
    的頭像 發(fā)表于 06-15 09:29 ?798次閱讀
    用于神經(jīng)場(chǎng)<b class='flag-5'>SLAM</b>的矢量化對(duì)象建圖

    種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng)

    提出了種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng),該系統(tǒng)由完整的前端和后端模塊組成,包括里程計(jì)、回環(huán)檢測(cè)、子圖融
    的頭像 發(fā)表于 11-29 10:35 ?606次閱讀
    <b class='flag-5'>一</b>種基于<b class='flag-5'>RGB-D</b>圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(<b class='flag-5'>SLAM</b>)<b class='flag-5'>系統(tǒng)</b>

    常用的RGB-D SLAM解決方案

    BundleFusion是種稠密的實(shí)時(shí)室內(nèi)場(chǎng)景三維重建算法框架。輸入為RGB-D相機(jī)采集的并且是對(duì)齊好的RGB圖像和深度圖的數(shù)據(jù)流。輸出為重建好的稠密三維場(chǎng)景模型。
    的頭像 發(fā)表于 04-16 09:37 ?1000次閱讀
    常用的<b class='flag-5'>RGB-D</b> <b class='flag-5'>SLAM</b>解決方案

    種適用于動(dòng)態(tài)環(huán)境實(shí)時(shí)視覺SLAM系統(tǒng)

    既能保證效率和精度,又無需GPU,行業(yè)第一個(gè)達(dá)到此目標(biāo)的視覺動(dòng)態(tài)SLAM系統(tǒng)。
    的頭像 發(fā)表于 09-30 14:35 ?461次閱讀
    <b class='flag-5'>一</b>種適用于<b class='flag-5'>動(dòng)態(tài)</b><b class='flag-5'>環(huán)境</b>的<b class='flag-5'>實(shí)時(shí)</b>視覺<b class='flag-5'>SLAM</b><b class='flag-5'>系統(tǒng)</b>

    利用VLM和MLLMs實(shí)現(xiàn)SLAM語義增強(qiáng)

    語義同步定位與建圖(SLAM系統(tǒng)在對(duì)鄰近的語義相似物體進(jìn)行建圖時(shí)面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了
    的頭像 發(fā)表于 12-05 10:00 ?118次閱讀
    利用VLM和MLLMs實(shí)現(xiàn)<b class='flag-5'>SLAM</b><b class='flag-5'>語義</b>增強(qiáng)
    RM新时代网站-首页