RM新时代首页,rm新时代正规吗

動機

視覺定位(Visual Grounding)旨在基于自由形式的自然語言文本表達(dá)定位圖像中的目標(biāo)物體。隨著多模態(tài)推理系統(tǒng)的普及，如視覺問答和圖像描述，視覺定位的重要性愈加凸顯。已有的研究大致可以分為三類:兩階段方法、單階段方法和基于變換器(Transformer)的方法。盡管這些方法取得了良好的效果，但在注釋的利用上仍顯得不足，尤其是僅將框注釋作為回歸的真值樣本，限制了模型的性能表現(xiàn)。

具體而言，視覺定位面臨的挑戰(zhàn)在于其稀疏的監(jiān)督信號，每對文本和圖像僅提供一個邊界框標(biāo)簽。這與目標(biāo)檢測任務(wù)(Object Detection)存在顯著不同，因此充分利用框注釋至關(guān)重要，將其視為分割掩膜(即邊界框內(nèi)的像素賦值為1，外部像素賦值為0)，可以為視覺定位提供更細(xì)粒度的像素級監(jiān)督。

在本研究中，提出了一個名為SegVG的新方法，旨在將邊界框級的注釋轉(zhuǎn)化為分割信號，以提供更為豐富的監(jiān)督信號。該方法倡導(dǎo)多層多任務(wù)編碼器-解碼器結(jié)構(gòu)，學(xué)習(xí)回歸查詢和多個分割查詢，以通過回歸和每個解碼層的分割來實現(xiàn)目標(biāo)定位。此外，為了解決由于特征域不匹配而產(chǎn)生的差異，研究中引入了三重對?模塊，通過三重注意機制更新查詢、文本和視覺特征，以確保它們共享同一空間，從而提高后續(xù)的目標(biāo)檢測效果。

綜上，SegVG通過最大化邊界框注釋的利用，提供了額外的像素級監(jiān)督，并通過三重對?消除特征之間的域差異，這在視覺定位任務(wù)中具有重要的創(chuàng)新意義。以下是來自論文中的相關(guān)圖示，用以進(jìn)一步說明視覺定位框架的不同:

方法

在本節(jié)中，介紹了SegVG方法的各個組件，按數(shù)據(jù)流的順序進(jìn)行說明，包括?干網(wǎng)絡(luò)、Triple Alignment模塊以及 Multi-layer Multi-task Encoder-Decoder。

?干網(wǎng)絡(luò)

SegVG方法的視覺?干網(wǎng)絡(luò)和文本?干網(wǎng)絡(luò)分別處理圖像和文本數(shù)據(jù)。視覺?干網(wǎng)絡(luò)使用的是經(jīng)過Object Detection任務(wù)在MSCOCO數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet和DETR的Transformer編碼器。文本?干網(wǎng)絡(luò)使用BERT的嵌入層將輸入文本轉(zhuǎn)換為語言Token。在Token前添加一個[CLS] 標(biāo)記，并在末尾添加一個[SEP]標(biāo)記，隨后通過BERT層迭代處理得到語言嵌入。

Triple Alignment

Triple Alignment模塊致?于解決視覺??、?本??和查詢特征之間的域差異。該模塊利?注意?機制執(zhí)?三?形特征采樣，確保查詢、?本和視覺特征之間的?致性。輸?的查詢被初始化為可學(xué)習(xí)的嵌?，包含?個回歸查詢和多個分割查詢。這?過程按以下?式進(jìn)?：

通過這種?式，Triple Alignmen模塊能夠在每?層迭代幫助三類特征實現(xiàn)有效地對?。

Multi-layer Multi-task Encoder-Decoder

Multi-layer Multi-task Encoder-Decoder是目標(biāo)對接階段的核心部分，旨在通過跨模態(tài)融合和目標(biāo)對接同時執(zhí)行邊框回歸任務(wù)和邊框分割任務(wù)。編碼器部分融合了文本和視覺特征，每一層通過多頭自注意力層(MHSA)和前饋網(wǎng) 絡(luò)(FFN)過程實現(xiàn)提升。解碼器部分則通過 bbox2seg范式將邊框注釋轉(zhuǎn)化為分割掩碼，分割掩碼將框內(nèi)的像素標(biāo)記為前景(值為1)，而框外像素則標(biāo)記為背景(值為0)。在每一解碼層中，一個回歸查詢用于回歸邊框，多個分割查詢則用于對目標(biāo)進(jìn)行分割。

上述公式中，各種損失函數(shù)(如L1損失、GIoU損失、Focal損失和Dice損失)被結(jié)合用于驅(qū)動模型的訓(xùn)練過程，使得模型在執(zhí)行回歸和分割任務(wù)時獲得強化的反饋。

通過將分割輸出的信心值轉(zhuǎn)化為Focal損失因子，可以有效地強調(diào)那些難以訓(xùn)練的數(shù)據(jù)樣本，以進(jìn)一步提升模型的性能。整體而言，SegVG方法實現(xiàn)了對邊框注釋的最大化利用，并有效解決了多模態(tài)特征間的域差異問題，為視覺目標(biāo)定位任務(wù)帶來了重要的改進(jìn)和提升。

實驗

在實驗部分，研究者對所提出的SegVG模型進(jìn)行了全面的評估，涉及多個標(biāo)準(zhǔn)數(shù)據(jù)集和不同的實驗設(shè)置，以驗證其有效性和優(yōu)越性。

指標(biāo)與數(shù)據(jù)集

研究者采用的主要評估指標(biāo)是交并比(IoU)和前1準(zhǔn)確率，以評估預(yù)測邊界框與真實邊界框的匹配程度。使用的標(biāo) 準(zhǔn)基準(zhǔn)數(shù)據(jù)集包括RefCOCO、RefCOCO+、RefCOCOg-g、RefCOCOg-umd以及Refer It Game等。

實施細(xì)節(jié)

研究中對數(shù)據(jù)輸入進(jìn)行了特別配置，使用640x640的圖像大小，以及最大文本?度設(shè)定為40。當(dāng)圖像大小調(diào)整時，會保持原始寬高比。模型的訓(xùn)練過程采用AdamW優(yōu)化器，及其學(xué)習(xí)率和權(quán)重衰減參數(shù)。

定量結(jié)果在定量實驗中，SegVG模型在所有基準(zhǔn)數(shù)據(jù)集中表現(xiàn)出色。例如，在RefCOCO+數(shù)據(jù)集上，其預(yù)先訓(xùn)練模型在各個子集上相較于之前的最先進(jìn)模型取得了顯著提升，分別達(dá)到了2.99%、3.7%和2.42%的錯誤率下降。在RefCOCOg 數(shù)據(jù)集上，SegVG同樣取得了+3.03%、+2.31%和+3.24%的改善。這些結(jié)果證明了結(jié)合Triple Alignment和Multi- layer Multi-task Encoder-Decoder后，模型在目標(biāo)定位和準(zhǔn)確性上的提升。

消融研究

進(jìn)一步分析通過控制變量法對各個模塊的有效性進(jìn)行消融研究。研究顯示，加入Triple Alignment模塊后，可以有效消除查詢、文本及視覺特征之間的領(lǐng)域差異，進(jìn)而促進(jìn)后續(xù)的目標(biāo)定位。此外，通過加入Multi-layer Multi-task 監(jiān)督，能夠迭代充分利用注釋信息，從而增強查詢表示的學(xué)習(xí)能力。

計算開銷比較

研究者還對不同Transformer模型的參數(shù)數(shù)量和GFLOPS進(jìn)行了比較，以評估SegVG的計算開銷。結(jié)果表明，SegVG的計算成本處于合理范圍，符合實際應(yīng)用需求。

定性結(jié)果

在定性分析中，通過對比不同模型在目標(biāo)檢測中的表現(xiàn)，SegVG在初始解碼層階段就能準(zhǔn)確識別目標(biāo)位置，相較于對比模型VLTVG而言，表現(xiàn)更加穩(wěn)健。具體案例中，SegVG成功定位復(fù)雜背景下的目標(biāo)，顯示了其在多任務(wù)優(yōu)化時的高度有效性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3638

瀏覽量
134419
變換器

變換器

+關(guān)注

關(guān)注
17

文章
2097

瀏覽量
109260
視覺定位

視覺定位

+關(guān)注

關(guān)注
5

文章
51

瀏覽量
12389

原文標(biāo)題：ECCV 2024 | SegVG：刷新視覺定位新SOTA！將視覺定位的目標(biāo)邊界框轉(zhuǎn)化為分割信號

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

基于labview機器視覺的圖像定位

大家好，畢業(yè)設(shè)計做基于labview機器視覺的圖像定位系統(tǒng)，打算調(diào)用筆記本的攝像頭進(jìn)行圖像采集，再進(jìn)行圖像處理，視覺模塊和采集模塊已經(jīng)下載了，可是不知道怎么采集圖像，求大家支招.

發(fā)表于 03-31 14:54

視覺定位，旋轉(zhuǎn)平移的問題：

視覺定位，旋轉(zhuǎn)平移的問題，旋轉(zhuǎn)中心不在法蘭盤中心的問題，圖解。方法，公式如下

發(fā)表于 09-01 20:36

【HarmonyOS HiSpark AI Camera】視覺定位

項目名稱：視覺定位試用計劃：項目名稱：視覺定位系統(tǒng)計劃：借助視覺方案，對物料進(jìn)行精準(zhǔn)取放，視覺標(biāo)

發(fā)表于 11-23 15:10

視覺定位方案求助，謝

功能：視覺定位玻璃的位置和角度，給平面4軸機器人抓取1.附件是我自己用視覺助手做的驗證，很不穩(wěn)定2.相機是1200W，視野范圍是350*200，玻璃規(guī)格大小有很多，圖片是其中一款3.定位

發(fā)表于 10-05 17:15

基于視覺信標(biāo)的倉儲物流機器人定位方法

針對輪式倉儲物流機器人的自主定位問題，提出了一種基于視覺信標(biāo)和里程計數(shù)據(jù)融合的室內(nèi)定位方法。首先，通過建立相機模型巧妙地解算信標(biāo)與相機之間的旋轉(zhuǎn)和平移關(guān)系，獲取

發(fā)表于 11-28 10:16 ?0次下載

用于移動機器人聽覺和視覺一體的定位方法

介紹了一種用于移動機器人搜索目標(biāo)人方位的聽覺和視覺一體的定位方法。針對目標(biāo)人的位置，利用機器人聽覺定位系統(tǒng)進(jìn)行聲源水平方向初定位。在此基礎(chǔ)上

發(fā)表于 12-18 16:48 ?0次下載

基于GEME-3000主控制器和計算機視覺組件實現(xiàn)自動化定位系統(tǒng)的設(shè)計

計算機視覺的應(yīng)用大致上可以分成定位、量測、識別、缺陷檢測四大類，其中以定位的應(yīng)用最為廣泛。機器視覺系統(tǒng)可以用來檢視主機板上的電子組件，也可以

發(fā)表于 04-25 11:13 ?2035次閱讀

醫(yī)療器械視覺定位應(yīng)用

隨著醫(yī)療器械水平的不斷更新和提高，越來越多的生產(chǎn)廠商將機器視覺技術(shù)引入實際生產(chǎn)中來，以達(dá)到提高生產(chǎn)效率，加強產(chǎn)品品質(zhì)保障的目的。而利用機器視覺技術(shù)，實現(xiàn)自動定位噴碼便是機器視覺技術(shù)在醫(yī)

發(fā)表于 05-22 15:08 ?2283次閱讀

融合3D場景幾何信息的視覺定位算法

了大量創(chuàng)新性工作。不久前，視覺定位組提出的融合3D場景幾何信息的視覺定位算法被ICRA2020收錄，本文將對該方法進(jìn)行介紹。背景 1.

發(fā)表于 11-13 10:50 ?5007次閱讀

基于計算機視覺的客機艙門識別與定位方法

基于計算機視覺的客機艙門識別與定位方法

發(fā)表于 06-22 16:37 ?42次下載

【技術(shù)干貨】光伏組件生產(chǎn)全流程AI視覺檢測方案來了！

機器視覺檢測已在光伏產(chǎn)品生產(chǎn)的各個環(huán)節(jié)中，為產(chǎn)品產(chǎn)量與質(zhì)量提供可靠保障。維視智造作為光伏組件視覺檢測系統(tǒng)領(lǐng)先者，為企業(yè)提供專業(yè)、系統(tǒng)、穩(wěn)定的光伏組件

發(fā)表于 01-13 11:02 ?2163次閱讀

六自由度視覺定位

基于三維模型的視覺定位通過在查詢圖像和三維模型間建立 2D-3D 對應(yīng)關(guān)系，估計相機六自由度的位姿。傳統(tǒng)的視覺定位方法通常采用人工設(shè)計的局部

發(fā)表于 04-20 10:07 ?1140次閱讀

機器視覺檢測與機器視覺定位的區(qū)別與應(yīng)用

機器視覺檢測與機器視覺定位是兩種重要的機器視覺應(yīng)用技術(shù)，主要區(qū)別在于檢測對象和應(yīng)用領(lǐng)域不同。機器視覺檢測技術(shù)可以用于檢測產(chǎn)品的外觀、尺寸、密

發(fā)表于 05-30 17:10 ?1048次閱讀

激光焊接視覺定位引導(dǎo)方法

和效率的關(guān)鍵手段。本文將探討激光焊接視覺定位引導(dǎo)方法的基本原理、技術(shù)實現(xiàn)及其在實際應(yīng)用中的優(yōu)勢和挑戰(zhàn)。視覺定位引導(dǎo)的基本原理

發(fā)表于 05-28 10:34 ?513次閱讀

一種將NeRFs應(yīng)用于視覺定位任務(wù)的新方法

視覺定位旨在估計在已知環(huán)境中捕獲的給定圖像的旋轉(zhuǎn)和位置，大致可以分為絕對姿態(tài)回歸（APR），場景坐標(biāo)回歸（SCR）和分層方法（HM）。

發(fā)表于 10-28 10:03 ?192次閱讀