RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ICLR 2024 清華/新國大/澳門大學提出一模通吃的多粒度圖文組合檢索MUG:通過不確定性建模,兩行代碼完成部署

CVer ? 來源:CVer ? 2024-01-25 16:53 ? 次閱讀

在本篇工作中,研究者探索了一種統(tǒng)一的學習方法,通過考慮多粒度的不確定性來同時對粗粒度和細粒度的圖像檢索進行建模。論文的方法集成了不確定性建模和不確定性正則化來提高召回率并增強檢索過程,在三個公共數(shù)據(jù)集FashionIQ、Fashion200k 和 Shoes上,所提出的方法在baseline上分別提高了 +4.03%、+ 3.38% 和 + 2.40% Recall@50。

05fa7fb8-bb44-11ee-8b88-92fbcf53809c.png

論文題目: Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization 論文鏈接: https://arxiv.org/abs/2211.07394 論文代碼: https://github.com/Monoxide-Chen/uncertainty_retrieval

一、背景

典型的檢索過程包含兩個步驟,即粗粒度檢索和細粒度檢索。粗粒度檢索利用簡短或不精確的描述查詢圖像,而細粒度檢索則需要更多細節(jié)進行一對一映射。

之前工作有什么痛點?

1. 傳統(tǒng)的圖像檢索系統(tǒng)要求用戶提前提供準確的查詢圖像,通常是不好獲得;而添加文本反饋,用戶則可以對查詢圖像進行的修改,來逐漸細化他們的搜索。

2. 現(xiàn)有的組合搜索方法通常側(cè)重于在訓練過程中優(yōu)化嚴格的成對距離,這與一對多粗粒度測試設(shè)置不同。過多關(guān)注一對一度量學習會削弱模型對潛在候選圖片的召回能力。

二、方法

1、總覽

0607ce70-bb44-11ee-8b88-92fbcf53809c.png

在這篇論文中,研究者不追更精細的網(wǎng)絡(luò)結(jié)構(gòu),而是采用一種新的學習策略。因此,主要遵循現(xiàn)有的工作CosMo[1]來構(gòu)建網(wǎng)絡(luò)以進行公平比較,更多的結(jié)構(gòu)細節(jié)在論文中進行了提供。

給定源圖像 06179634-bb44-11ee-8b88-92fbcf53809c.jpg 和用于修改的文本 061e992a-bb44-11ee-8b88-92fbcf53809c.jpg,我們通過Compositor組合 063174c8-bb44-11ee-8b88-92fbcf53809c.jpg0646dfc0-bb44-11ee-8b88-92fbcf53809c.jpg 得到了組合特征 064e480a-bb44-11ee-8b88-92fbcf53809c.jpg。同時,我們通過與源圖像相同的Image Encoder提取了目標圖像 065cdb04-bb44-11ee-8b88-92fbcf53809c.jpg 的視覺特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg。我們的主要貢獻是通過Augmenter進行不確定性建模,以及對粗匹配進行的不確定性正則化。? ?

2、不確定性建模

066b7fba-bb44-11ee-8b88-92fbcf53809c.png

如上圖所示,不再采用嚴格的一對一匹配,而是促使模型專注于一對多匹配,即從細粒度過渡到粗粒度。因此,首先引入了一個用于噪聲增強的Augmenter來生成抖動,這個模塊直接作用于最終的特征空間。具體而言,Augmenter向目標特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg 添加原始特征分布的高斯噪聲。高斯噪聲的均值 0693283a-bb44-11ee-8b88-92fbcf53809c.jpg 和標準差 06ac0382-bb44-11ee-8b88-92fbcf53809c.jpg 是從原始特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg 計算得出的。因此,最終的抖動特征 06be5000-bb44-11ee-8b88-92fbcf53809c.jpg 可以表示為:

06d74ff6-bb44-11ee-8b88-92fbcf53809c.jpg

其中,06e7ba12-bb44-11ee-8b88-92fbcf53809c.jpg06f9124e-bb44-11ee-8b88-92fbcf53809c.jpg 是與輸入目標特征具有相同形狀的噪聲向量,070031be-bb44-11ee-8b88-92fbcf53809c.jpg,而 07093854-bb44-11ee-8b88-92fbcf53809c.jpg。通過這種方式可以使特征在有限程度上波動,接近于原始分布。

3、不確定性正則化

現(xiàn)有的方法通常采用InfoNCE損失函數(shù),可以看作是一種batch分類損失函數(shù)(batch-wise classification loss)。其簡單表述如下:

070fe960-bb44-11ee-8b88-92fbcf53809c.jpg

對于一個具有 071ab9bc-bb44-11ee-8b88-92fbcf53809c.jpg 個樣本的batch,給定圖文合成特征 064e480a-bb44-11ee-8b88-92fbcf53809c.jpg 和目標特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg,InfoNCE損失同時最大化自相似性 0735ce5a-bb44-11ee-8b88-92fbcf53809c.jpg 并最小化batch中與其他樣本相似性 073fbe60-bb44-11ee-8b88-92fbcf53809c.jpg074ad1d8-bb44-11ee-8b88-92fbcf53809c.jpg ??梢钥闯?,InfoNCE損失僅關(guān)注一對一的精細粒度匹配。在這項工作中旨在統(tǒng)一精細和粗粒度的匹配。由偶然不確定性(Aleatoric Uncertainty)[2]的啟發(fā),給定兩種類型的特征 06be5000-bb44-11ee-8b88-92fbcf53809c.jpg064e480a-bb44-11ee-8b88-92fbcf53809c.jpg,不確定性正則化可以定義如下:? ?

076169d4-bb44-11ee-8b88-92fbcf53809c.jpg

為了優(yōu)化多粒度檢索性能,采用了細粒度損失 076eaf72-bb44-11ee-8b88-92fbcf53809c.jpg 和論文提出的不確定性正則化 0776dd32-bb44-11ee-8b88-92fbcf53809c.jpg 的組合。因此,總損失如下:

07845a48-bb44-11ee-8b88-92fbcf53809c.jpg

三、實驗

1、實驗設(shè)置

論文在多個數(shù)據(jù)集上(FashionIQ、Fashion200k、Shoes)測試了方法的準確性,提升了召回率。代碼已經(jīng)公開在github上。

2、實驗結(jié)果

展示了一些論文結(jié)果,更多的實驗結(jié)果和消融實驗請參考論文。

078b9d4e-bb44-11ee-8b88-92fbcf53809c.png

在FashionIQ上的結(jié)果

07a982a0-bb44-11ee-8b88-92fbcf53809c.png

在Fashion200k和Shoes上的結(jié)果

四、總結(jié)

總的來說,該論文通過多粒度不確定性正則化的角度提出了一種新穎的通過文本反饋進行組合圖像檢索的方法。該方法通過不確定性建模和正則化同時對粗粒度和精細粒度的檢索進行建模,從而解決了現(xiàn)實世界圖像檢索中的訓練和測試不一致性問題。該方法生成抖動特征以模擬不確定范圍,并根據(jù)波動范圍自適應(yīng)地調(diào)整權(quán)重。與現(xiàn)有方法相比,所提出的方法在三個公共數(shù)據(jù)集上顯著提高了召回率。論文還討論了該方法在現(xiàn)實場景中的潛在應(yīng)用以及其對集成數(shù)據(jù)集的可擴展性??傮w而言,所提出的方法為通過文本反饋進行組合圖像檢索面臨的挑戰(zhàn)提供了有希望的解決方案。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 建模
    +關(guān)注

    關(guān)注

    1

    文章

    304

    瀏覽量

    60765
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3226

    瀏覽量

    48807
  • 圖像檢索
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    8036
  • 檢索系統(tǒng)
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    6439

原文標題:ICLR 2024 清華/新國大/澳門大學提出一模通吃的多粒度圖文組合檢索MUG:通過不確定性建模,兩行代碼完成部署

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    如何創(chuàng)造可信任的機器學習模型?先要理解不確定性

    來源:機器之心編譯 作者:Eric Jang 不確定性是機器學習領(lǐng)域內(nèi)個重要的研究主題,Eric Jang近日的篇博客對這主題進行了詳細的闡述。順便
    發(fā)表于 01-10 10:42 ?997次閱讀
    如何創(chuàng)造可信任的機器學習模型?先要理解<b class='flag-5'>不確定性</b>

    E8364C PNA的不確定性和跟蹤是什么?

    在中斷后,我回到網(wǎng)絡(luò)分析儀,并提出個簡單的問題。我正在閱讀E8364C PNA的數(shù)據(jù)表,并遇到了E8364C PNA,不確定性和跟蹤,但沒有解釋這些術(shù)語。我的猜測是,不確定性是與公認
    發(fā)表于 10-18 17:03

    是否可以使用全雙端口校準中的S11不確定性來覆蓋單端口校準的不確定性?

    我們直在使用Agilent VNA不確定度計算器電子表格,讓我們了解我們測量的設(shè)備的不確定性。有關(guān)單端口校準的問題:目前您必須從電子表格中選擇您的VNA(帶寬和平均值),然后選擇校準類型(全雙端口
    發(fā)表于 12-29 16:32

    N5531S TRFL不確定性

    我正在嘗試使用N5531S(選擇550傳感器)測量接收器系統(tǒng)測量0到-130dBm的絕對功率水平,然后計算它的不確定性。安捷倫的應(yīng)用筆記已經(jīng)提到,不確定度可以使用公式+/-計算(功率計范圍2-4
    發(fā)表于 02-19 15:40

    435B-K05輸出不確定性

    以及將435B-K05的輸出結(jié)果與UUT功率計的參考輸出進行比較來準確測量輸出。我反對他們的方法的理由是,通過次測量,不匹配不確定度和儀表誤差不確定性將加倍,更不用說必須包括435B
    發(fā)表于 08-02 14:33

    測試系統(tǒng)不確定性分析

    測試系統(tǒng)不確定性分析
    發(fā)表于 09-18 09:19

    5G網(wǎng)絡(luò)架構(gòu)的不確定性及其對承載網(wǎng)的影響

    不確定性問題的分析,提出以下建議: ?。?)基站應(yīng)采用適度規(guī)模集中部署方式,充分利用現(xiàn)有LTE網(wǎng)絡(luò)的前傳光纜網(wǎng)絡(luò)資源,在5G做連續(xù)覆蓋時,新增基站前傳光纜建設(shè)應(yīng)充分利用現(xiàn)有光纜網(wǎng)
    發(fā)表于 12-03 16:03

    傅里葉變換與不確定性看了就知道

    傅里葉變換與不確定性
    發(fā)表于 12-30 06:41

    種求解動態(tài)及不確定性優(yōu)化問題的新方法

    種求解動態(tài)及不確定性優(yōu)化問題的新方法_劉曉
    發(fā)表于 01-07 18:56 ?0次下載

    三相電壓型變換器不確定性建模及滑控制方法_劉雄飛

    三相電壓型變換器不確定性建模及滑控制方法_劉雄飛
    發(fā)表于 01-08 11:28 ?0次下載

    連續(xù)值信息系統(tǒng)的不確定性度量

    不確定性的度量方法是人工智能研究的重要課題之,受到國內(nèi)外專家學者的廣泛關(guān)注,相關(guān)研究成果已經(jīng)成功的應(yīng)用于數(shù)據(jù)挖掘,決策分析,模式識別與人工智能領(lǐng)域中。通過二元關(guān)系與熵,對連續(xù)值信息系統(tǒng)中的
    發(fā)表于 11-29 15:22 ?0次下載

    如何用不確定性解決模型問題

    再比如,你想搭建個模型,要在系列動物圖片中預(yù)測哪種動物會吃掉你。假設(shè)你在訓練時給模型提供的都是獅子和長頸鹿的照片,現(xiàn)在模型看到了張僵尸照片。由于之前它沒有見過僵尸,所以這里的不確定性
    的頭像 發(fā)表于 09-07 09:45 ?5266次閱讀

    針對自閉癥輔助的不確定性聯(lián)合組稀疏建模方法

    ,提出種新型的不確定性聯(lián)合組稀疏建模方法JGSI-TSK,并將其用于自閉癥的輔助診斷。首先,對原始rs-MRI數(shù)據(jù)進行預(yù)處理和特征提取,得到低維特征數(shù)據(jù);然后,基于TSK模糊系統(tǒng)框架
    發(fā)表于 04-07 11:23 ?2次下載
    針對自閉癥輔助的<b class='flag-5'>不確定性</b>聯(lián)合組稀疏<b class='flag-5'>建模</b>方法

    不確定性感知和姿態(tài)回歸結(jié)合用于自動駕駛車輛定位

    提出種聯(lián)合訓練姿態(tài)估計和不確定性的方法,其具有可靠的不確定性估計和改進的訓練穩(wěn)定性。
    的頭像 發(fā)表于 01-30 11:30 ?1503次閱讀

    科技云報到:數(shù)字化轉(zhuǎn)型,從不確定性確定性的關(guān)鍵路徑

    科技云報到:數(shù)字化轉(zhuǎn)型,從不確定性確定性的關(guān)鍵路徑
    的頭像 發(fā)表于 11-16 16:52 ?316次閱讀
    科技云報到:數(shù)字化轉(zhuǎn)型,從<b class='flag-5'>不確定性</b>到<b class='flag-5'>確定性</b>的關(guān)鍵路徑
    RM新时代网站-首页