RM是什么平台,新时代RM|国际平台

作者：Sebastian Raschka 博士，

翻譯：張晶，Linux Fundation APAC Open Source Evangelist

編者按：本文并不是逐字逐句翻譯，而是以更有利于中文讀者理解的目標(biāo)，做了刪減、重構(gòu)和意譯，并替換了多張不適合中文讀者的示意圖。

原文地址：https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

《一文理解多模態(tài)大語言模型 - 上》介紹了什么是多模態(tài)大語言模型，以及構(gòu)建多模態(tài) LLM 有兩種主要方式之一：統(tǒng)一嵌入解碼器架構(gòu)(Unified Embedding Decoder Architecture)。本文將接著介紹第二種構(gòu)建多模態(tài) LLM 的方式：跨模態(tài)注意架構(gòu)(Cross-modality Attention Architecture approach)。

一，跨模態(tài)注意架構(gòu)

《一文理解多模態(tài)大語言模型 - 上》討論了通過統(tǒng)一嵌入解碼器架構(gòu)來構(gòu)建多模態(tài)大語言模型（LLM）的方法，并且理解了圖像編碼背后的基本概念，下面介紹另一種通過交叉注意力機制實現(xiàn)多模態(tài)LLM的方式，如下圖所示：

在上圖所示的跨模態(tài)注意力架構(gòu)方法中，我們?nèi)匀皇褂弥敖榻B的圖像向量化方式。然而，與直接將圖像向量作為LLM的輸入不同，我們通過交叉注意力機制在多頭注意力層中連接輸入的圖像向量。

這個想法與2017年《Attention Is All You Need》論文中提出的原始Transformer架構(gòu)相似，在原始《Attention Is All You Need》論文中的Transformer最初是為語言翻譯開發(fā)的。因此，它由一個文本編碼器（下圖的左部分）組成，該編碼器接收要翻譯的句子，并通過一個文本解碼器（圖的右部分）生成翻譯結(jié)果。在多模態(tài)大語言模型的背景下，圖的右部分的編碼器由之前的文本編碼器，更換為圖像編碼器(圖像編碼后的向量)。

文本和圖像在進入大語言模型前都編碼為嵌入維度和尺寸(embedding dimensions and size)一致的向量。

“我們可以把多模態(tài)大語言模型看成“翻譯”文本和圖像，或文本和其它模態(tài)數(shù)據(jù) --- 譯者?！?/p>

二，統(tǒng)一解碼器和交叉注意力模型訓(xùn)練

與傳統(tǒng)僅文本的大語言模型（LLM）的開發(fā)類似，多模態(tài)大語言模型的訓(xùn)練也包含兩個階段：預(yù)訓(xùn)練和指令微調(diào)。然而，與從零開始不同，多模態(tài)大語言模型的訓(xùn)練通常以一個預(yù)訓(xùn)練過且已經(jīng)過指令微調(diào)的大語言模型作為基礎(chǔ)模型。

對于圖像編碼器，通常使用CLIP，并且在整個訓(xùn)練過程中往往保持不變，盡管也存在例外，我們稍后會探討這一點。在預(yù)訓(xùn)練階段，保持大語言模型部分凍結(jié)也是常見的做法，只專注于訓(xùn)練投影器(Projector)——一個線性層或小型多層感知器。鑒于投影器的學(xué)習(xí)能力有限，通常只包含一兩層，因此在多模態(tài)指令微調(diào)（第二階段）期間，大語言模型通常會被解凍，以允許進行更全面的更新。然而，需要注意的是，在基于交叉注意力機制的模型（方法B）中，交叉注意力層在整個訓(xùn)練過程中都是解凍的。

在介紹了兩種主要方法（方法A：統(tǒng)一嵌入解碼器架構(gòu)和方法B：跨模態(tài)注意力架構(gòu)）之后，你可能會好奇哪種方法更有效。答案取決于具體的權(quán)衡：

統(tǒng)一嵌入解碼器架構(gòu)（方法A）通常更容易實現(xiàn)，因為它不需要對LLM架構(gòu)本身進行任何修改。

跨模態(tài)注意力架構(gòu)（方法B）通常被認(rèn)為在計算上更高效，因為它不會通過額外的圖像分詞(Token)來過載輸入上下文，而是在后續(xù)的交叉注意力層中引入這些標(biāo)記。此外，如果在訓(xùn)練過程中保持大語言模型參數(shù)凍結(jié)，這種方法還能保持原始大語言模型的僅文本性能。

下圖總結(jié)了常見多模態(tài)大語言模型使用的組件和技術(shù)：

三，總結(jié)

“多模態(tài)LLM可以通過多種不同的方式成功構(gòu)建，核心思路在于把多模態(tài)數(shù)據(jù)編碼為嵌入維度和尺寸一致的向量，使得原始大語言模型可以對多模態(tài)數(shù)據(jù)“理解并翻譯”。--- 譯者”。

如果你有更好的文章，歡迎投稿！

稿件接收郵箱：nami.liu@pasuntech.com

更多精彩內(nèi)容請關(guān)注“算力魔方?”！

?審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
520

瀏覽量
10268
LLM

LLM

+關(guān)注

關(guān)注
0

文章
286

瀏覽量
327

一文理解多模態(tài)大語言模型——上

/understanding-multimodal-llms 在過去幾個月中， OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)多模態(tài)大語言模型的論文和博客，在此基礎(chǔ)上，推薦了

發(fā)表于 12-02 18:29 ?302次閱讀

<b class='flag-5'>一</b><b class='flag-5'>文理解</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——上

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放

發(fā)表于 05-11 17:09 ?901次閱讀

如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>任務(wù)？

邱錫鵬團隊提出具有內(nèi)生跨模態(tài)能力的SpeechGPT，為多模態(tài)LLM指明方向

大型語言模型（LLM）在各種自然語言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時，多模態(tài)大型語言

發(fā)表于 05-22 14:38 ?675次閱讀

邱錫鵬團隊提出具有內(nèi)生跨<b class='flag-5'>模態(tài)</b>能力的SpeechGPT，為<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>LLM指明方向

VisCPM：邁向多語言多模態(tài)大模型時代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進，多模態(tài)大模型

發(fā)表于 07-10 10:05 ?708次閱讀

VisCPM：邁向多<b class='flag-5'>語言</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>時代

更強更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補全一切」

當(dāng)前學(xué)界和工業(yè)界都對多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語言

發(fā)表于 07-16 20:45 ?716次閱讀

中科大&字節(jié)提出UniDoc：統(tǒng)一的面向文字場景的多模態(tài)大模型

如上圖所示，UniDoc基于預(yù)訓(xùn)練的視覺大模型及大語言模型，將文字的檢測、識別、spotting(圖中未畫出)、多模態(tài)

發(fā)表于 08-31 15:29 ?1538次閱讀

DreamLLM：多功能多模態(tài)大型語言模型，你的DreamLLM~

由于固有的模態(tài)缺口，如CLIP語義主要關(guān)注模態(tài)共享信息，往往忽略了可以增強多模態(tài)理解的模態(tài)特定知識。因此，這些研究并沒有充分認(rèn)識到

發(fā)表于 09-25 17:26 ?736次閱讀

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單

發(fā)表于 11-09 14:53 ?502次閱讀

自動駕駛和多模態(tài)大語言模型的發(fā)展歷程

多模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過多模態(tài)對齊使它們能夠更高效地執(zhí)

發(fā)表于 12-28 11:45 ?520次閱讀

機器人基于開源的多模態(tài)語言視覺大模型

ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作

發(fā)表于 01-19 11:43 ?407次閱讀

韓國Kakao宣布開發(fā)多模態(tài)大語言模型“蜜蜂”

韓國互聯(lián)網(wǎng)巨頭Kakao最近宣布開發(fā)了一種名為“蜜蜂”(Honeybee)的多模態(tài)大型語言模型。這種創(chuàng)新

發(fā)表于 01-19 16:11 ?681次閱讀

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

文本生成、語言理解、圖像識別及視頻生成等多模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新

發(fā)表于 04-18 17:01 ?589次閱讀

大語言模型(LLM)快速理解

自2022年，ChatGPT發(fā)布之后，大語言模型（LargeLanguageModel），簡稱LLM掀起了一波狂潮。作為學(xué)習(xí)理解LLM的開始，先來整體

發(fā)表于 06-04 08:27 ?959次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實現(xiàn)更加智能化的信息處理。簡單來說，多

發(fā)表于 10-18 09:39 ?412次閱讀

商湯日日新多模態(tài)大模型權(quán)威評測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評測權(quán)威平臺OpenCompass的多模態(tài)評測中取得榜單第

發(fā)表于 12-20 10:39 ?123次閱讀