rm资金盘,新时代RM游戏app

來(lái)源：3D視覺工坊

1. 導(dǎo)讀

視覺匹配是關(guān)鍵計(jì)算機(jī)視覺任務(wù)中的關(guān)鍵步驟，包括攝像機(jī)定位、圖像配準(zhǔn)和運(yùn)動(dòng)結(jié)構(gòu)。目前最有效的匹配關(guān)鍵點(diǎn)的技術(shù)包括使用經(jīng)過學(xué)習(xí)的稀疏或密集匹配器，這需要成對(duì)的圖像。這些神經(jīng)網(wǎng)絡(luò)對(duì)兩幅圖像的特征有很好的總體理解，但它們經(jīng)常難以匹配不同語(yǔ)義區(qū)域的點(diǎn)。本文提出了一種新的方法，通過將語(yǔ)義推理結(jié)合到現(xiàn)有的描述符中，使用來(lái)自基礎(chǔ)視覺模型特征(如DINOv2)的語(yǔ)義線索來(lái)增強(qiáng)局部特征匹配。因此，與學(xué)習(xí)匹配器不同，學(xué)習(xí)描述符在推理時(shí)不需要圖像對(duì)，允許使用相似性搜索進(jìn)行特征緩存和快速匹配。我們提出了六個(gè)現(xiàn)有描述符的改編版本，在相機(jī)定位方面的性能平均提高了29%，在兩個(gè)現(xiàn)有基準(zhǔn)中與LightGlue和LoFTR等現(xiàn)有匹配器的準(zhǔn)確性相當(dāng)。

2. 引言

視覺匹配關(guān)系對(duì)于相機(jī)姿態(tài)估計(jì)、同步定位與地圖構(gòu)建（SLAM）以及運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)（SfM）等重要高級(jí)視覺任務(wù)至關(guān)重要。最近，用于在圖像對(duì)之間尋找視覺匹配關(guān)系的流程正在發(fā)生變化，更偏向于采用提供不同類型上下文聚合的方法，如學(xué)習(xí)的稀疏匹配器或密集對(duì)應(yīng)關(guān)系網(wǎng)絡(luò)。這些方法依賴于從兩個(gè)視角收集信息，以調(diào)節(jié)特征，從而更好地預(yù)測(cè)對(duì)應(yīng)關(guān)系。盡管它們已被證明在下游任務(wù)中能提供更好的結(jié)果，但需要對(duì)每對(duì)圖像都運(yùn)行一次，因此在諸如SfM流程等大型任務(wù)中使用成本高昂，在這些任務(wù)中，單張圖像將與其他具有相似視點(diǎn)的圖像多次匹配。雖然傳統(tǒng)的單視圖流程可以為單個(gè)圖像預(yù)先提取特征，并使用高效的相似性搜索（如互最近鄰MNN），但其表現(xiàn)不如上下文聚合方法。

本文提出了一種方法，通過語(yǔ)義調(diào)節(jié)關(guān)鍵點(diǎn)描述符，以找到更好且更一致的對(duì)應(yīng)關(guān)系，同時(shí)保持單視圖提取和緩存的優(yōu)勢(shì)。基礎(chǔ)模型（如DINOv2和SAM）可以提取包含場(chǎng)景中語(yǔ)義概念理解的特征，以補(bǔ)充局部紋理模式。通過凍結(jié)主干網(wǎng)絡(luò)并針對(duì)特定任務(wù)訓(xùn)練新層，這些特征可以適應(yīng)于各種任務(wù)，例如圖像分類、實(shí)例檢索、視頻理解、深度估計(jì)、語(yǔ)義分割和語(yǔ)義匹配。為了捕捉場(chǎng)景和對(duì)象的意義，DINOv2等模型已經(jīng)發(fā)展出對(duì)局部紋理變化具有強(qiáng)大不變性的能力。然而，這些特征的高度不變性在識(shí)別圖像之間的像素級(jí)匹配時(shí)會(huì)降低其敏感性。相反，它們可以為區(qū)域之間的一致性提供基礎(chǔ)，這可用于過濾視覺上相似但語(yǔ)義上不同的區(qū)域之間的連接。

在本文中，我們提出了一種有效的技術(shù)，不是依賴于雙視圖上下文聚合，而是利用來(lái)自大型視覺模型（LVM）的高級(jí)特征理解，來(lái)語(yǔ)義調(diào)節(jié)基于紋理的對(duì)應(yīng)關(guān)系。

3. 效果展示

利用語(yǔ)義信息改善視覺匹配關(guān)系。該圖示展示了使用互最近鄰（MNN）對(duì)基礎(chǔ)描述符XFeat和我們的方法（采用語(yǔ)義條件，如圖右上角所示）進(jìn)行匹配的過程。正確匹配用綠色表示，錯(cuò)誤匹配用紅色表示。我們還可以通過使用語(yǔ)義或紋理特征，在圖像中找到給定查詢點(diǎn)（左下角紅點(diǎn)）的128個(gè)最接近的匹配項(xiàng)，來(lái)評(píng)估描述符的可解釋性和一致性。顏色越暖表示相似性越高。請(qǐng)注意，在水槽區(qū)域附近，使用條件特征后的相似性排名有所提升。

4. 主要貢獻(xiàn)

本文的關(guān)鍵技術(shù)貢獻(xiàn)是一種新穎的學(xué)習(xí)方法，用于將語(yǔ)義上下文整合到局部特征中，從而在匹配過程中實(shí)現(xiàn)高效的相似性搜索，并顯著提高匹配準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明，我們的方法在室內(nèi)環(huán)境中的相機(jī)姿態(tài)估計(jì)和視覺定位任務(wù)中，顯著提升了各種檢測(cè)和描述技術(shù)的性能。

5. 方法

我們闡述了本研究方法的主要概念，詳細(xì)說明了如何將語(yǔ)義感知添加到局部描述符中，以及為訓(xùn)練該描述符所設(shè)計(jì)的監(jiān)督方法。整體訓(xùn)練和推理階段的方案如圖2所示。推薦課程：面向三維視覺的Linux 嵌入式系統(tǒng)教程[理論+代碼+實(shí)戰(zhàn)]。

所提策略首先提取兩組描述符：一組是使用現(xiàn)成的局部特征方法獲得的紋理特征，另一組是來(lái)自用于上下文信息的局部視覺模型（LVM）（如本文所選的DINOv2）。為此，我們采用了一種提取傳統(tǒng)、以紋理為中心特征的基礎(chǔ)方法，以及一種提取以語(yǔ)義為中心特征的基礎(chǔ)方法。在基礎(chǔ)提取之后，我們使用自注意力推理模塊對(duì)特征進(jìn)行細(xì)化。為了找到匹配的圖像對(duì)，我們使用為每幅圖像獨(dú)立提取的兩組紋理和語(yǔ)義特征，通過語(yǔ)義條件計(jì)算相似度矩陣，以找到相互匹配項(xiàng)。

在訓(xùn)練過程中，基礎(chǔ)提取器的參數(shù)保持不變（凍結(jié)），我們僅優(yōu)化初始投影和描述符推理的權(quán)重，如圖2所示。我們凍結(jié)權(quán)重是因?yàn)槊總€(gè)基礎(chǔ)提取器可能有更適合其的特定訓(xùn)練策略。通過使用凍結(jié)的、現(xiàn)成的提取器，我們可以容納更多方法。DINOv2也根據(jù)[11]進(jìn)行了凍結(jié)，該文獻(xiàn)將其用作多個(gè)任務(wù)的骨干網(wǎng)絡(luò)。

6. 實(shí)驗(yàn)結(jié)果

定量配準(zhǔn)結(jié)果如表1和表2所示。表1中包含了雙視圖上下文聚合方法，如Light-Glue和LoFTR，以及其他也利用語(yǔ)義信息的描述符，如DeDoDe-G和SFD2。值得注意的是，即使僅進(jìn)行單視圖提取，SuperPoint與語(yǔ)義條件相結(jié)合也能與LightGlue（沒有任何配對(duì)視圖感知）相比產(chǎn)生具有競(jìng)爭(zhēng)力的結(jié)果。表2描述了我們?cè)O(shè)計(jì)的利用語(yǔ)義信息提高現(xiàn)有描述符匹配能力的策略。我們可以注意到，當(dāng)與我們所提出的語(yǔ)義條件相結(jié)合時(shí)，所有基線均取得了顯著改進(jìn)。盡管其中許多方法（如DeDoDe、SFD2、ALIKE和ALIKED）僅使用MegaDepth數(shù)據(jù)集中的室外圖像進(jìn)行訓(xùn)練，但在不重新訓(xùn)練特征提取器或DINOv2骨干網(wǎng)絡(luò)的情況下，我們?nèi)钥蓪⑺鼈兊氖覂?nèi)位姿估計(jì)結(jié)果提高至少24%。這一結(jié)果表明，所提取的視覺線索本身并不優(yōu)于這些描述符的原始版本，但通過語(yǔ)義信息的輔助，其條件得到了改善。

視覺定位基準(zhǔn)測(cè)試結(jié)果如表3所示。一個(gè)有趣的觀察結(jié)果是，我們的方法能夠在多種情況下減少XFeat的錯(cuò)誤。對(duì)于SuperPoint，我們的方法未能提供有意義的改進(jìn)。我們推測(cè)，由于XFeat的骨干網(wǎng)絡(luò)較小，它提供的特征更簡(jiǎn)潔、冗余更少，因此不易過擬合，且能最大程度地利用語(yǔ)義信息。在考慮不同閾值內(nèi)定位相機(jī)的百分比時(shí)，我們實(shí)現(xiàn)了最高的正確定位相機(jī)平均百分比。從更嚴(yán)格的閾值（1?、1厘米至500厘米、10?）來(lái)看，LightGlue是黃金標(biāo)準(zhǔn)但匹配成本高昂，正確定位了66.97%的相機(jī)。緊隨其后的是我們的方法（以SuperPoint為基礎(chǔ)紋理檢測(cè)器）：66.95%，SuperPoint：66.88%，XFeat：66.36%，DeDoDe-G：64.44%。這表明，語(yǔ)義信息可以增加模糊區(qū)域的對(duì)應(yīng)點(diǎn)數(shù)量，如圖3所示。

7. 總結(jié) & 未來(lái)工作

本研究工作引入了一種基于學(xué)習(xí)的視覺特征描述技術(shù)，該技術(shù)能夠利用圖像中存在的語(yǔ)義線索。我們?cè)O(shè)計(jì)了一個(gè)執(zhí)行信息聚合的網(wǎng)絡(luò)，該網(wǎng)絡(luò)利用語(yǔ)義特征來(lái)細(xì)化和調(diào)整現(xiàn)成的描述符，從而提高室內(nèi)視覺匹配的準(zhǔn)確性。在相機(jī)位姿估計(jì)方面，我們的方法性能優(yōu)于現(xiàn)有的探索語(yǔ)義線索的最先進(jìn)模型，并且即使與最近的學(xué)習(xí)匹配器（如LightGlue）相比也頗具競(jìng)爭(zhēng)力，而我們僅使用單幅圖像進(jìn)行特征提取，并使用最近鄰搜索進(jìn)行匹配。通過大量實(shí)驗(yàn)，我們證明了我們的方法可以將六種不同基礎(chǔ)描述符的位姿估計(jì)結(jié)果平均提高25%。改進(jìn)后的描述符可以在大規(guī)模結(jié)構(gòu)從運(yùn)動(dòng)恢復(fù)（SfM）重建中使用單視圖進(jìn)行圖像提取，因?yàn)樽罱彛∕NN）匹配比數(shù)千對(duì)圖像運(yùn)行學(xué)習(xí)匹配器要快得多。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4771

瀏覽量
100712
相機(jī)

相機(jī)

+關(guān)注

關(guān)注
4

文章
1350

瀏覽量
53580
計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1698

瀏覽量
45972
視覺模型

視覺模型

+關(guān)注

關(guān)注
0

文章
7

瀏覽量
6911

原文標(biāo)題：ACCV'24開源 | 完虐LightGlue！使用語(yǔ)義線索增強(qiáng)局部特征匹配！定位精度暴漲29%！

文章出處：【微信號(hào)：3D視覺工坊，微信公眾號(hào)：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于OWL屬性特征的語(yǔ)義檢索研究

【來(lái)源】：《電子設(shè)計(jì)工程》2010年02期【摘要】：在文獻(xiàn)檢索中,概念的語(yǔ)義相似度計(jì)算直接影響查準(zhǔn)率和查全率指標(biāo)。將本體描述語(yǔ)言O(shè)WL(Web Ontology Language)的屬性特征有機(jī)結(jié)合

發(fā)表于 04-24 09:48

一種基于SIFT描述子的特征匹配新算法

為了克服傳統(tǒng)的局部特征匹配算法對(duì)噪聲和圖像灰度非線性變換敏感的不足，提出了基于SIFT（Scale Invariant Feature Transform）描述算子的特征

發(fā)表于 12-07 11:03 ?29次下載

基于改進(jìn)局部不變特征的興趣點(diǎn)匹配

該文提出了一種適用于目標(biāo)跟蹤的局部特征點(diǎn)檢測(cè)與匹配方法，在尺度不變特征(Scale Invariant FeatureTransform, SIFT)算法基礎(chǔ)上進(jìn)行了多方面的改進(jìn)。在高

發(fā)表于 02-10 14:21 ?21次下載

基于OWL屬性特征的語(yǔ)義檢索研究

在文獻(xiàn)檢索中，概念的語(yǔ)義相似度計(jì)算直接影響查準(zhǔn)率和查全率指標(biāo)。將本體描述語(yǔ)言O(shè)WL（Web Ontology Language）的屬性特征有機(jī)結(jié)合到語(yǔ)義檢索模型中，設(shè)計(jì)本體內(nèi)實(shí)體間匹配

發(fā)表于 02-11 14:01 ?4次下載

基于局部特征和整體特征融合的面部表情識(shí)別

提出融合局部特征和整體特征的方法實(shí)現(xiàn)人臉面部表情特征的提取。在每一個(gè)人臉圖像上測(cè)量10個(gè)距離，把這些距離標(biāo)準(zhǔn)化后作為局部表情

發(fā)表于 06-22 15:24 ?21次下載

基于局部特征匹配的目標(biāo)跟蹤研究

針對(duì)目標(biāo)跟蹤中的特征提取和匹配問題進(jìn)行分析，提出了一種基于局部特征匹配的目標(biāo)跟蹤方法，該算法基于Shape Context進(jìn)行

發(fā)表于 12-06 15:15 ?32次下載

基于<b class='flag-5'>局部</b><b class='flag-5'>特征</b><b class='flag-5'>匹配</b>的目標(biāo)跟蹤研究

基于SVM的局部潛在語(yǔ)義分析算法研究

。該算法在語(yǔ)義分析使用矩陣的奇異值分解過程中引入不同類別信息，分析特征詞的局部特征，使用支持向量機(jī)分類器計(jì)算文本對(duì)類別的相關(guān)度參數(shù)，并應(yīng)用于局部

發(fā)表于 12-06 10:05 ?0次下載

基于紋理特征匹配的快速目標(biāo)分割方法

目標(biāo)分割方法是工業(yè)自動(dòng)化、在線產(chǎn)品檢驗(yàn)、生產(chǎn)過程控制等領(lǐng)域的關(guān)鍵技術(shù)之一?；?b class='flag-5'>特征匹配策略，研究了如何增強(qiáng)紋理特征的區(qū)分能力以及如何快速分割特定的目標(biāo)。在紋理