在本篇工作中,研究者探索了一種統(tǒng)一的學習方法,通過考慮多粒度的不確定性來同時對粗粒度和細粒度的圖像檢索進行建模。論文的方法集成了不確定性建模和不確定性正則化來提高召回率并增強檢索過程,在三個公共數(shù)據(jù)集FashionIQ、Fashion200k 和 Shoes上,所提出的方法在baseline上分別提高了 +4.03%、+ 3.38% 和 + 2.40% Recall@50。
論文題目: Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization 論文鏈接: https://arxiv.org/abs/2211.07394 論文代碼: https://github.com/Monoxide-Chen/uncertainty_retrieval
一、背景
典型的檢索過程包含兩個步驟,即粗粒度檢索和細粒度檢索。粗粒度檢索利用簡短或不精確的描述查詢圖像,而細粒度檢索則需要更多細節(jié)進行一對一映射。
之前工作有什么痛點?
1. 傳統(tǒng)的圖像檢索系統(tǒng)要求用戶提前提供準確的查詢圖像,通常是不好獲得;而添加文本反饋,用戶則可以對查詢圖像進行的修改,來逐漸細化他們的搜索。
2. 現(xiàn)有的組合搜索方法通常側(cè)重于在訓練過程中優(yōu)化嚴格的成對距離,這與一對多粗粒度測試設(shè)置不同。過多關(guān)注一對一度量學習會削弱模型對潛在候選圖片的召回能力。
二、方法
1、總覽
在這篇論文中,研究者不追更精細的網(wǎng)絡(luò)結(jié)構(gòu),而是采用一種新的學習策略。因此,主要遵循現(xiàn)有的工作CosMo[1]來構(gòu)建網(wǎng)絡(luò)以進行公平比較,更多的結(jié)構(gòu)細節(jié)在論文中進行了提供。
給定源圖像 和用于修改的文本 ,我們通過Compositor組合 和 得到了組合特征 。同時,我們通過與源圖像相同的Image Encoder提取了目標圖像 的視覺特征 。我們的主要貢獻是通過Augmenter進行不確定性建模,以及對粗匹配進行的不確定性正則化。? ?
2、不確定性建模
如上圖所示,不再采用嚴格的一對一匹配,而是促使模型專注于一對多匹配,即從細粒度過渡到粗粒度。因此,首先引入了一個用于噪聲增強的Augmenter來生成抖動,這個模塊直接作用于最終的特征空間。具體而言,Augmenter向目標特征 添加原始特征分布的高斯噪聲。高斯噪聲的均值 和標準差 是從原始特征 計算得出的。因此,最終的抖動特征 可以表示為:
其中, 和 是與輸入目標特征具有相同形狀的噪聲向量,,而 。通過這種方式可以使特征在有限程度上波動,接近于原始分布。
3、不確定性正則化
現(xiàn)有的方法通常采用InfoNCE損失函數(shù),可以看作是一種batch分類損失函數(shù)(batch-wise classification loss)。其簡單表述如下:
對于一個具有 個樣本的batch,給定圖文合成特征 和目標特征 ,InfoNCE損失同時最大化自相似性 并最小化batch中與其他樣本相似性 ??梢钥闯?,InfoNCE損失僅關(guān)注一對一的精細粒度匹配。在這項工作中旨在統(tǒng)一精細和粗粒度的匹配。由偶然不確定性(Aleatoric Uncertainty)[2]的啟發(fā),給定兩種類型的特征 和 ,不確定性正則化可以定義如下:? ?
為了優(yōu)化多粒度檢索性能,采用了細粒度損失 和論文提出的不確定性正則化 的組合。因此,總損失如下:
三、實驗
1、實驗設(shè)置
論文在多個數(shù)據(jù)集上(FashionIQ、Fashion200k、Shoes)測試了方法的準確性,提升了召回率。代碼已經(jīng)公開在github上。
2、實驗結(jié)果
展示了一些論文結(jié)果,更多的實驗結(jié)果和消融實驗請參考論文。
在FashionIQ上的結(jié)果
在Fashion200k和Shoes上的結(jié)果
四、總結(jié)
總的來說,該論文通過多粒度不確定性正則化的角度提出了一種新穎的通過文本反饋進行組合圖像檢索的方法。該方法通過不確定性建模和正則化同時對粗粒度和精細粒度的檢索進行建模,從而解決了現(xiàn)實世界圖像檢索中的訓練和測試不一致性問題。該方法生成抖動特征以模擬不確定范圍,并根據(jù)波動范圍自適應(yīng)地調(diào)整權(quán)重。與現(xiàn)有方法相比,所提出的方法在三個公共數(shù)據(jù)集上顯著提高了召回率。論文還討論了該方法在現(xiàn)實場景中的潛在應(yīng)用以及其對集成數(shù)據(jù)集的可擴展性??傮w而言,所提出的方法為通過文本反饋進行組合圖像檢索面臨的挑戰(zhàn)提供了有希望的解決方案。
-
建模
+關(guān)注
關(guān)注
1文章
304瀏覽量
60765 -
模型
+關(guān)注
關(guān)注
1文章
3226瀏覽量
48807 -
圖像檢索
+關(guān)注
關(guān)注
0文章
28瀏覽量
8036 -
檢索系統(tǒng)
+關(guān)注
關(guān)注
0文章
8瀏覽量
6439
原文標題:ICLR 2024 清華/新國大/澳門大學提出一模通吃的多粒度圖文組合檢索MUG:通過不確定性建模,兩行代碼完成部署
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論