如何加入RM新时代,rm新时代靠谱的平台

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好

CoOp 增加一些 prompt 會讓模型能力進一步提升

怎么讓能力更好？可以引入其他知識，即其他的預(yù)訓(xùn)練模型，包括大語言模型、多模態(tài)模型

也包括 Stable Diffusion 多模態(tài)預(yù)訓(xùn)練模型

考慮多標(biāo)簽圖像分類任務(wù)——每幅圖像大于一個類別

如果已有圖文對齊模型——能否用文本特征代替圖像特征

訓(xùn)練的時候使用文本組成的句子

對齊總會有 gap，選 loss 的時候使用 rank loss，對模態(tài) gap 更穩(wěn)定

拿到文本后有幾種選擇，比如 Coco 只要其中的 caption 不要圖像，或是 Google 搜句子，抑或是語言模型生成

最后選擇第一種，因為穩(wěn)定性和效果更好，能夠保證同樣數(shù)據(jù)集（同分布？）

可以建一個同義詞表

兩種 prompt，global 關(guān)注句子里有沒有貓，local 關(guān)心這個詞是不是跟貓有關(guān)系

測試的時候就將句子變成圖像，global 不變，local 變成了跟圖像里的 token 做比較

如果再加上少量文本（大量句子和少量文本）性能會進一步提升

一些相關(guān)工作，提完文本特征加一些噪聲提高魯棒性，消解圖文 gap

3d 樣本較難，因為點云-文本對較少，很難獲取

投影后的 3d 點云可以被視作 2d 圖像處理，使用圖像 encoder

但投影點云依然與圖像存在 gap，于是采取另一種思路

投影的確與圖像相關(guān)，但依然有調(diào)整空間，所以轉(zhuǎn)換成某個方向的圖像和該方向點云的投影圖像做匹配

投影和圖像對齊，圖像和文本對齊，因此就可以實現(xiàn)零樣本學(xué)習(xí)

如果有一些少量的有標(biāo)簽監(jiān)督，相當(dāng)于 few-shot，效果也相當(dāng)好

全監(jiān)督效果也很好

當(dāng)時覺得圖像可以做中介，那么紅外、熱成像等其他模態(tài)都可以

ImageBind 以圖像為中介將六種模態(tài)對齊到一起，重新訓(xùn)練

但大家依然可以做自己領(lǐng)域相關(guān)的方向，以圖像作為中介對比，還有很大的空間

用想象的方式開展學(xué)習(xí)

假設(shè)有一些類別，使用語言模型生成一些句子，再根據(jù)句子使用生成模型生成圖像

因此有了圖像和類別匹配對（弱監(jiān)督目標(biāo)檢測）

希望即使使用合成圖像，模型在真實圖像上也可以比較好

因為類別本身和圖像會比較簡單，但如果使用語言模型，比如貓變成趴著的貓，這樣圖像多樣性會很高

考慮 SAM 和 Stable diffusion 特定完成分割任務(wù)

通過 SAM 得到的 proposal 提取特征

責(zé)任編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
518

瀏覽量
10265
訓(xùn)練模型

訓(xùn)練模型

+關(guān)注

關(guān)注
1

文章
36

瀏覽量
3810

原文標(biāo)題：VALSE 2023 | 左旺孟教授：預(yù)訓(xùn)練模型和語言增強的零樣本視覺學(xué)習(xí)

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一文詳解知識增強的語言預(yù)訓(xùn)練模型

隨著預(yù)訓(xùn)練語言模型(PLMs)的不斷發(fā)展，各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學(xué)習(xí)一定的知識，但仍舊存在很

發(fā)表于 04-02 17:21 ?9597次閱讀

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

大語言模型的核心特點在于其龐大的參數(shù)量，這賦予了模型強大的學(xué)習(xí)容量，使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

設(shè)計提示詞時，需要明確輸出需求，以便得到滿意的結(jié)果。推理引導(dǎo)如前文所述，提示工程對于訓(xùn)練大語言模型的逐步推理能力至關(guān)重要。零樣本提示大

發(fā)表于 05-07 17:21

基于深度學(xué)習(xí)的自然語言處理對抗樣本模型

深度學(xué)習(xí)模型被證明存在脆弱性并容易遭到對抗樣本的攻擊，但目前對于對抗樣本的研究主要集中在計算機視覺領(lǐng)域而忽略了自然

發(fā)表于 04-20 14:36 ?39次下載

融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述來源：《系統(tǒng)工程與電子技術(shù)》，作者潘崇煜等摘

發(fā)表于 02-09 11:22 ?2280次閱讀

如何更高效地使用預(yù)訓(xùn)練語言模型

基本的假設(shè):預(yù)訓(xùn)練模型在不同下游任務(wù)上學(xué)習(xí)的過程，可以被重新參數(shù)化（reparameterized）為在同一個低維本征子空間上的優(yōu)化過程。

發(fā)表于 07-08 11:28 ?1265次閱讀

利用視覺語言模型對檢測器進行預(yù)訓(xùn)練

預(yù)訓(xùn)練通常被用于自然語言處理以及計算機視覺領(lǐng)域，以增強主干網(wǎng)絡(luò)的特征提取能力，達到加速訓(xùn)練和提高

發(fā)表于 08-08 15:33 ?1391次閱讀

預(yù)訓(xùn)練語言模型的字典描述

今天給大家?guī)硪黄狪JCAI2022浙大和阿里聯(lián)合出品的采用對比學(xué)習(xí)的字典描述知識增強的預(yù)訓(xùn)練語言模型

發(fā)表于 08-11 10:37 ?1167次閱讀

如何充分挖掘預(yù)訓(xùn)練視覺-語言基礎(chǔ)大模型的更好零樣本學(xué)習(xí)能力

因此，合適的prompt對于模型的效果至關(guān)重要。大量研究表明，prompt的微小差別，可能會造成效果的巨大差異。研究者們就如何設(shè)計prompt做出了各種各樣的努力——自然語言背景知識的融合、自動生成prompt的搜索、不再拘泥于語言

發(fā)表于 10-19 14:39 ?1434次閱讀

使用BLIP-2 零樣本“圖生文”

現(xiàn)代計算機視覺和自然語言模型在能力越來越強大的同時，模型尺寸也隨之顯著增大。由于當(dāng)前進行一次單模態(tài)模型的

發(fā)表于 03-03 11:06 ?1788次閱讀

預(yù)訓(xùn)練數(shù)據(jù)大小對于預(yù)訓(xùn)練模型的影響

BERT類模型的工作模式簡單，但取得的效果也是極佳的，其在各項任務(wù)上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語言學(xué)的特征角度來衡量一個預(yù)

發(fā)表于 03-03 11:20 ?1401次閱讀

形狀感知零樣本語義分割

由于大規(guī)模視覺語言預(yù)訓(xùn)練取得了令人矚目的進展，最近的識別模型可以以驚人的高準(zhǔn)確度對任意對象進行零

發(fā)表于 04-28 11:26 ?812次閱讀

什么是零樣本學(xué)習(xí)？為什么要搞零樣本學(xué)習(xí)？

零樣本分類的技術(shù)目前正處于高速發(fā)展時期，所涉及的具體應(yīng)用已經(jīng)從最初的圖像分類任務(wù)擴展到了其他計算機視覺任務(wù)乃至自然語言處理等多個相關(guān)領(lǐng)域。對此，本文將其稱為廣義

發(fā)表于 09-22 11:10 ?2140次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域中的一個重要概念，尤其是在自然語

發(fā)表于 07-03 18:20 ?2690次閱讀

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進行訓(xùn)練，使

發(fā)表于 07-11 10:11 ?408次閱讀