rm新时代理财官网,RM新时代官网网址

引言

基礎(chǔ)模型 (Foundation model) 指的是在大量數(shù)據(jù)上訓(xùn)練出來的、可以適應(yīng)一系列下游任務(wù)的模型[1]，它被看作是邁向通用人工智能的重要一步。近些年來，隨著CLIP的橫空出世，視覺-文本預(yù)訓(xùn)練 (Vision-Language Pretraining) 及其在各類任務(wù)的遷移學(xué)習(xí)成為了備受關(guān)注的研究方向，并被認(rèn)為是建立視覺基礎(chǔ)模型的一個頗具前景的方向。

根據(jù)輸入數(shù)據(jù)和目標(biāo)下游任務(wù)的不同，現(xiàn)有的VLP方法可以大致分為兩類：圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)練。前者從圖像-文本對中學(xué)習(xí)視覺和語言表征的聯(lián)合分布，后者則從視頻-文本對中建立視頻幀和文本之間的語義關(guān)聯(lián)。然而，當(dāng)前尚無工作探索將二者統(tǒng)一起來，這篇文章認(rèn)為這主要因?yàn)楝F(xiàn)有的訓(xùn)練方式無法發(fā)揮圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)練之間的互補(bǔ)性，但單純地實(shí)現(xiàn)統(tǒng)一而在兩類下游任務(wù)上折損性能將是沒有意義的。盡管困難重重，對于基礎(chǔ)模型的追求使得這一問題依舊難以回避。

這促使這篇工作思考并最終提出了一個真正統(tǒng)一的視覺-語言基礎(chǔ)模型OmniVL以同時支持圖像-文本和視頻-文本的預(yù)訓(xùn)練以及相應(yīng)的下游任務(wù)，包括視覺任務(wù)（如圖像分類、視頻動作識別）、跨模態(tài)對齊任務(wù)（如圖像/視頻-文本檢索）以及多模態(tài)理解和生成任務(wù)（如圖像/視頻問答、字幕自動生成等）。OmniVL第一次探索出了圖像和視頻任務(wù)雙向互助的訓(xùn)練范式，而不是以往的單一方向，即用圖像（圖像-語言）來幫助視頻（視頻-語言）。

方法

OmniVL實(shí)現(xiàn)了模態(tài)、功能和訓(xùn)練數(shù)據(jù)三個維度的統(tǒng)一，本篇對方法的介紹也將圍繞著三個統(tǒng)一進(jìn)行展開。

統(tǒng)一的模態(tài).OmniVL采用了一個統(tǒng)一的基于Transformer的視覺編碼器來提取視覺表征，其中視頻與圖像輸入共享大部分網(wǎng)絡(luò)結(jié)構(gòu)，對于視頻而言，OmniVL采用了3D patching embedding和時間注意力塊[4]。此外，OmniVL額外利用一個文本編碼器來提取語言表征。

統(tǒng)一的功能.OmniVL采用了編碼器-解碼器的結(jié)構(gòu)，并具有兩個視覺引導(dǎo)的解碼器：跨模態(tài)對齊解碼器和文本生成解碼器，前者通過視覺-文本匹配（的二分類）損失進(jìn)行監(jiān)督以學(xué)習(xí)視覺和文本模態(tài)之間的對齊，后者則通過語言建模（的生成式回歸）損失進(jìn)行監(jiān)督以學(xué)習(xí)從視覺特征中生成文本的能力。這兩個解碼器與上述的兩個編碼器相互配合，賦予了OmniVL“理解“和“生成”的能力。

統(tǒng)一的數(shù)據(jù).受到Florence[5]中使用的統(tǒng)一對比學(xué)習(xí)[6]的啟發(fā)，OmniVL統(tǒng)一了圖像-文本和圖像-標(biāo)簽數(shù)據(jù)作為預(yù)訓(xùn)練語料庫、并將其進(jìn)一步擴(kuò)展到視頻-文本和視頻-標(biāo)簽數(shù)據(jù)上。這基于兩個方面的考慮：1）利用盡可能多的有監(jiān)督（或無監(jiān)督）的數(shù)據(jù)來豐富語料庫；2）人工標(biāo)注的視覺-標(biāo)簽數(shù)據(jù)（如ImageNet和Kinetics-400）可以幫助模型學(xué)習(xí)出更具辨別性的表征，這有助于分類相關(guān)的遷移學(xué)習(xí)任務(wù)，而從網(wǎng)絡(luò)爬取的視覺-語言數(shù)據(jù) (如CC12M和WebVid) 涵蓋更廣泛的視覺概念，這有助于跨模態(tài)任務(wù)。這種簡單的擴(kuò)展可以幫助OmniVL同時享有兩種優(yōu)勢。

最后回到了上面提到的最重要的問題：如何實(shí)現(xiàn)圖像-文本和視頻-文本學(xué)習(xí)的相互促進(jìn)。前文提到，現(xiàn)有工作往往只是單獨(dú)利用圖像-文本或者視頻-文本進(jìn)行預(yù)訓(xùn)練（如下圖2-3行），因此在另一類任務(wù)上的表現(xiàn)往往差強(qiáng)人意（多數(shù)情況被直接忽略）。尤其是如果只在視頻-文本上預(yù)訓(xùn)練的話，受限于有限的數(shù)據(jù)規(guī)模、以及視頻數(shù)據(jù)本身的復(fù)雜性，在對應(yīng)的視頻任務(wù)上表現(xiàn)也很糟糕。為了解決這一問題，一些工作如FiT[7]提出了將圖像看作單幀視頻、從而利用其和視頻數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練（如下圖第4行），這一做法相較單純地利用視頻數(shù)據(jù)有顯著提升，但是直接從零學(xué)習(xí)圖像和視頻的表征以及跨模態(tài)的對齊顯然頗具挑戰(zhàn)性，這為網(wǎng)絡(luò)的學(xué)習(xí)和收斂增加了困難。Pretrain-then-finetuning是視覺領(lǐng)域一個常用的做法，它指的是首先在標(biāo)準(zhǔn)的圖像數(shù)據(jù)集上訓(xùn)練骨干網(wǎng)絡(luò)如ResNet，然后將其在下游任務(wù)包括視頻動作識別上進(jìn)行微調(diào)，這一方法在各類任務(wù)上都取得了顯著的成功。借鑒于此，一種簡單的做法是首先在圖像-文本上進(jìn)行第一階段的預(yù)訓(xùn)練、然后在視頻-文本上進(jìn)行第二階段的預(yù)訓(xùn)練（如下圖第5行）。這一做法是很有競爭力的一個baseline，但是在一方面在圖像任務(wù)上的性能有所下降、另一方面在視頻任務(wù)上的表現(xiàn)還不夠驚艷。

為了更加充分地利用圖像-文本和視頻-文本數(shù)據(jù)的互補(bǔ)性、進(jìn)一步提升在不同下游任務(wù)上的表現(xiàn)，OmniVL提出了一個解藕的聯(lián)合訓(xùn)練方式，即首先在圖像-文本上進(jìn)行預(yù)訓(xùn)練、然后結(jié)合視頻-文本進(jìn)行聯(lián)合預(yù)訓(xùn)練（如上圖第6行），這不僅可以防止對圖像表征的遺忘、甚至可以在二者對應(yīng)的任務(wù)上繼續(xù)提高性能。這篇工作認(rèn)為這是由于第一階段網(wǎng)絡(luò)可以專注在學(xué)習(xí)空間表征和其與文本模態(tài)的對齊上、第二階段則可以增益性地學(xué)習(xí)運(yùn)動表征和跨模態(tài)的關(guān)系建模，這不僅使學(xué)習(xí)從空間維度到時間維度更加高效，而且還能使不同源的數(shù)據(jù)之間形成互補(bǔ)。

實(shí)驗(yàn)

視覺任務(wù)

文章首先采用經(jīng)典的圖像分類 (linear probing) 和視頻動作識別任務(wù) (finetuning) 作為基準(zhǔn)評估了視覺編碼器在視覺任務(wù)上的表現(xiàn)。

遵從CLIP的實(shí)現(xiàn)，OmniVL凍結(jié)了視覺編碼器的參數(shù)并對新附加的線性層進(jìn)行微調(diào)。在6個圖像分類數(shù)據(jù)集上，OmniVL相比于大多數(shù)baseline取得了一致更好的結(jié)果。與CLIP和FLAVA (70M) 相比，雖然使用明顯更少預(yù)訓(xùn)練數(shù)據(jù)，OmniVL仍然取得了總體上有競爭力的結(jié)果。

對于視頻動作識別，文章在兩個規(guī)模較小的數(shù)據(jù)集UCF101和HMDB51上評估了linear probing的結(jié)果，并在兩個規(guī)模較大的數(shù)據(jù)集Kinetics-400和Something-something V2上評估了微調(diào)的結(jié)果，實(shí)驗(yàn)表明OmniVL都顯著地超越了baseline。

跨模態(tài)對齊任務(wù)

接下來文章探究了OmniVL在圖像-文本檢索和文本到視頻檢索任務(wù)上的表現(xiàn)。值得一提的是，為了平衡推理效率和多模態(tài)信息的深度融合，OmniVL首先根據(jù)單模態(tài)編碼器得到視覺和文本embedding的相似度得分選擇Top-K（默認(rèn)為K=128）候選者，然后利用跨模態(tài)對齊解碼器計(jì)算其成對的匹配得分對候選者重新排序，這種雙階段匹配的方式進(jìn)一步體現(xiàn)了該架構(gòu)的優(yōu)越性。

從上圖可以看出，無論是在圖像-文本檢索還是文本到視頻檢索上，OmniVL都在不同數(shù)據(jù)集上取得了目前最佳的性能。尤其是在文本到視頻檢索任務(wù)上，得益于所提出的解藕聯(lián)合預(yù)訓(xùn)練方法，OmniVL顯著地超越了現(xiàn)有方法。

多模態(tài)理解和生成任務(wù)

以視覺為基礎(chǔ)的跨模態(tài)對齊解碼器和文本生成解碼器使OmniVL具備了多模態(tài)理解和生成的能力，在這一部分中，文章評估了它在字幕生成和圖像/視頻問題回答上的表現(xiàn)。

在這類任務(wù)上，OmniVL同樣取得了最好的結(jié)果。

總結(jié)和未來工作

這篇工作提出了OmniVL，一個全新的視覺-語言基礎(chǔ)模型，它將圖像-語言和視頻-語言統(tǒng)一起來，并同時支持視覺任務(wù)、跨模態(tài)對齊任務(wù)以及多模態(tài)的理解和生成任務(wù)。OmniVL采用了統(tǒng)一的視覺-語言對比損失，這讓其能夠同時利用圖像-文本、圖像-標(biāo)簽、視頻-文本和視頻-標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。另外，文章中提出了一個解耦地聯(lián)合訓(xùn)練范式，將視覺-語言建模解耦為空間和時間兩個維度，從而同時提高了在圖像和視頻任務(wù)的性能。

在這篇工作僅僅在CC12M和WebVid-2.5M這類相對小規(guī)模的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，隨著LAION、WebVid-10M的問世，可以在更大規(guī)模的數(shù)據(jù)上訓(xùn)練更大的模型，以探索具有更強(qiáng)零樣本、小樣本能力的模型。另外一個值得探索的方向是結(jié)合更豐富的有標(biāo)簽數(shù)據(jù)和更優(yōu)的監(jiān)督目標(biāo)，使得模型可以支持細(xì)粒度的任務(wù)如物體檢測、追蹤等，從而朝著通用的統(tǒng)一模型更上一層臺階。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1083

瀏覽量
40449
圖像分類

圖像分類

+關(guān)注

關(guān)注
0

文章
90

瀏覽量
11914

原文標(biāo)題：NeurIPS 2022 | 復(fù)旦&微軟提出?OmniVL：首個統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫

深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展，在處理各種類型的任務(wù)中，預(yù)訓(xùn)練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名，始終處于這一動向的前沿。Keras 擁有專用的內(nèi)

發(fā)表于 12-20 10:32 ?64次閱讀

北美運(yùn)營商AT&amp;amp;T認(rèn)證中的VoLTE測試項(xiàng)

。以下是對AT&amp;T認(rèn)證中VoLTE測試項(xiàng)的詳細(xì)歸納：一、基本測試要求AT&amp;T10776測試：這是一項(xiàng)重要的測試要求，旨在確保終端單元(TU)和附件技術(shù)驗(yàn)收(TA)過程的

發(fā)表于 12-06 16:52 ?125次閱讀

北美運(yùn)營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認(rèn)證中的VoLTE測試項(xiàng)

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

，基礎(chǔ)模型。 ? 大模型是一個簡稱，完整的叫法，應(yīng)該是“人工智能預(yù)訓(xùn)練大模型”。

發(fā)表于 11-25 09:29 ?1206次閱讀

什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來的及大<b class='flag-5'>模型</b>作用

如何訓(xùn)練自己的LLM模型

訓(xùn)練自己的大型語言模型（LLM）是一個復(fù)雜且資源密集的過程，涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識。以下是訓(xùn)練LLM模型的

發(fā)表于 11-08 09:30 ?507次閱讀

AI大模型的訓(xùn)練數(shù)據(jù)來源分析

學(xué)術(shù)機(jī)構(gòu)、政府組織或企業(yè)公開發(fā)布，涵蓋了各種類型的數(shù)據(jù)，如圖像、文本、音頻、視頻等。例如： ImageNet ：一個廣泛用于圖像識別任務(wù)的大

發(fā)表于 10-23 15:32 ?542次閱讀

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日（周三）20：00精彩開播期待與您云相聚，共襄學(xué)術(shù)盛宴！|直播信息報告題目預(yù)

發(fā)表于 10-18 08:09 ?214次閱讀

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp; 行業(yè)應(yīng)用

系列MOSFET介紹。4.onsemiLV/MVMOSFET市場&amp;應(yīng)用。技術(shù)亮點(diǎn)onsemi最新一代T10系列MOSFET優(yōu)勢&amp;市場前景。學(xué)習(xí)收獲期望了解onsemiSi

發(fā)表于 10-13 08:06 ?382次閱讀

onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用

FS201資料（pcb &amp; DEMO &amp; 原理圖）

電子發(fā)燒友網(wǎng)站提供《FS201資料（pcb &amp; DEMO &amp; 原理圖）.zip》資料免費(fèi)下載

發(fā)表于 07-16 11:24 ?0次下載

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使

發(fā)表于 07-11 10:11 ?417次閱讀

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢

在人工智能和自然語言處理（NLP）領(lǐng)域，大型語言模型（Large Language Model，簡稱LLM）的興起極大地推動了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練

發(fā)表于 07-10 11:03 ?1063次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要概念，尤其是在自然語言處理（NLP）和計(jì)算機(jī)視覺（CV）等領(lǐng)域中得到了廣泛應(yīng)用。

發(fā)表于 07-03 18:20 ?2761次閱讀

大語言模型：原理與工程時間+小白初識大語言模型

的分布式表示，基于預(yù)訓(xùn)練的詞嵌入表示。獨(dú)熱表示就是在一個大的向量空間中，其中一個位1，其余都為0，這樣就會變成單獨(dú)的。詞的分布式表示：根據(jù)上下文進(jìn)行推斷語義。基于

發(fā)表于 05-12 23:57

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

進(jìn)行損失計(jì)算，得到下一個目標(biāo)的預(yù)測。也會設(shè)計(jì)一些其他輔助訓(xùn)練任務(wù)，與主任務(wù)共同訓(xùn)練。選擇合適的預(yù)訓(xùn)練

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

模型架構(gòu)奠定基礎(chǔ)。然后，引介一些經(jīng)典的預(yù)訓(xùn)練模型，如BERT、GPT等。最后，解讀ChatGPT和LLaMA系列

發(fā)表于 05-05 12:17

奧特曼發(fā)布王炸模型Sora OpenAI首個文生視頻模型Sora正式亮相

奧特曼發(fā)布王炸模型Sora OpenAI首個文生視頻模型Sora正式亮相 2月16日凌晨OpenAI的首個文生

發(fā)表于 02-18 17:41 ?981次閱讀

RM新时代网站-首页

搜索歷史

復(fù)旦&微軟提出?OmniVL：首個統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

評論

KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫

北美運(yùn)營商AT&amp;amp;T認(rèn)證中的VoLTE測試項(xiàng)

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

如何訓(xùn)練自己的LLM模型

AI大模型的訓(xùn)練數(shù)據(jù)來源分析

直播預(yù)約 |數(shù)據(jù)智能系列講座第4期：預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp; 行業(yè)應(yīng)用

FS201資料（pcb &amp; DEMO &amp; 原理圖）

大語言模型的預(yù)訓(xùn)練

LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

大語言模型：原理與工程時間+小白初識大語言模型

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

奧特曼發(fā)布王炸模型Sora OpenAI首個文生視頻模型Sora正式亮相

搜索歷史

復(fù)旦&微軟提出?OmniVL：首個統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

評論

復(fù)旦&微軟提出?OmniVL：首個統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型