RM新时代新项目,RM新时代平台靠谱平台入口

今天為大家介紹西安交大，清華大學(xué)、華中科大聯(lián)合MEGVII Technology的一篇關(guān)于多模態(tài)LLM學(xué)習(xí)框架的論文，名為DREAMLLM。

論文：DreamLLM: Synergistic Multimodal Comprehension and Creation
論文鏈接：https://arxiv.org/abs/2309.11499
GitHub：https://github.com/RunpeiDong/DreamLLM

摘要

DREAMLLM是一個學(xué)習(xí)框架，實現(xiàn)了通用的多模態(tài)大型語言模型（Multimodal Large Language Models，MLLMs），該模型利用了多模態(tài)理解和創(chuàng)造之間經(jīng)常被忽視的協(xié)同作用。DREAMLLM的運作遵循兩個基本原則：一是在原始多模態(tài)空間中通過直接采樣對語言和圖像后驗進行生成建模有助于獲取更徹底的多模態(tài)理解。二是促進了原始、交錯文檔的生成，對文本和圖像內(nèi)容以及非結(jié)構(gòu)化布局進行建模，使得模型能夠有效地學(xué)習(xí)所有條件、邊際和聯(lián)合多模式分布。

簡介

在多模態(tài)任務(wù)中，內(nèi)容理解和創(chuàng)作是機器智能的終極目標之一。為此，多模式大語言模型成功進入視覺領(lǐng)域。MLLMs在多模態(tài)理解能力方面取得了前所未有的進展。通常通過將圖像作為多模式輸入來增強LLM，以促進語言輸出的多模式理解。其目的是通過語言后驗來捕捉多模式的條件分布或邊際分布。然而，涉及生成圖像、文本或兩者的多模式創(chuàng)作，需要一個通用的生成模型來同時學(xué)習(xí)語言和圖像后驗，而這一點目前尚未得到充分的探索。最近，一些工作顯示出使用MLLMs的條件圖像生成的成功。如下圖所示，

由于固有的模態(tài)缺口，如CLIP語義主要關(guān)注模態(tài)共享信息，往往忽略了可以增強多模態(tài)理解的模態(tài)特定知識。因此，這些研究并沒有充分認識到多模式創(chuàng)造和理解之間潛在的學(xué)習(xí)協(xié)同作用，只顯示出創(chuàng)造力的微小提高，并且在多模式理解方面仍然存在不足。

創(chuàng)新點：DREAMLLM以統(tǒng)一的自回歸方式生成原始語言和圖像輸入，本質(zhì)上實現(xiàn)了交錯生成。

知識背景

Autoregressive Generative Modeling：自回歸生成建模
Diffusion Model：擴散模型

MLLMs具體做法：現(xiàn)有策略會導(dǎo)致MLLMs出現(xiàn)語義減少的問題，偏離其原始輸出空間，為了避免，提出了替代學(xué)習(xí)方法如下圖所示，即DREAMLLM模型框架。

DREAMLLM架構(gòu)

DREAMLLM框架如上圖所示，使用交錯的文檔用作輸入，解碼以產(chǎn)生輸出。文本和圖像都被編碼成用于MLLM輸入的順序的、離散的token嵌入。特殊的＜dream＞標記可以預(yù)測在哪里生成圖像。隨后，一系列dream查詢被輸入到MLLM中，捕獲整體歷史語義。圖像由stable diffusion圖像解碼器以查詢的語義為條件進行合成。然后將合成的圖像反饋到MLLM中用于隨后的理解。

其中MLLM是基于在shareGPT上訓(xùn)練的LLama的Vicuna，采用CLIP-Large作為圖像編碼器，為了合成圖像使用Stable Diffusion作為圖像解碼器。

模型訓(xùn)練

模型訓(xùn)練分為對齊訓(xùn)練、I-GPT預(yù)訓(xùn)練和監(jiān)督微調(diào)。

實驗結(jié)果

多模態(tài)理解：多模式理解使人類能夠與以單詞和視覺內(nèi)容為條件的主體進行互動。本文評估了DREAMLLM在幾個基準上的多模式視覺和語言能力。此外，對最近開發(fā)的MMBench和MM-Vet基準進行了零樣本評估，以評估模型在復(fù)雜多模式任務(wù)中的性能。

發(fā)現(xiàn)，DREAMLLM在所有基準測試中都優(yōu)于其他MLLM。值得注意的是，DREAMLLM-7B在圖像合成能力方面大大超過了并發(fā)MLLMs，與Emu-13B相比，VQAv2的精度提高了16.6。在MMBench和MMVet等綜合基準測試中，DREAMLLM與所有7B同行相比都取得了最先進的性能。
條件文本圖像合成：條件文本圖像合成是創(chuàng)造性內(nèi)容生成最常用的技術(shù)之一，它通過自由形式的語言生成遵循人類描述的圖像。

其結(jié)果如上表所示。結(jié)果顯示：DREAMLLM 在階段I對齊后顯示出比Stable Diffusion基線顯著提高FID，在 MS-COCO 和 LN-COCO 上分別將分數(shù)分別降低了 3.67 和 11.83。此外，預(yù)訓(xùn)練和監(jiān)督微調(diào)后實現(xiàn)了 3.97 和 13.73 的 FID 改進。LN-COCO 的實質(zhì)性改進強調(diào)了 DREAMLLM 在處理長上下文信息方面的卓越性能。與之前的專家模型相比，DREAMLLM 基于 SD 圖像解碼器提供了有競爭力的結(jié)果。DREAMLLM 始終優(yōu)于基于并發(fā) MLLM 的圖像合成方法。
多模態(tài)聯(lián)合創(chuàng)建于比較：分別進行了自由形式的交錯文檔創(chuàng)建、圖片質(zhì)量和人工評估三個實驗。實驗結(jié)果表明：DREAMLLM可以根據(jù)給定的指令生成有意義的響應(yīng)。系統(tǒng)可以通過預(yù)測所提出的令牌在任何指定位置自主創(chuàng)建圖像，從而消除了對額外人工干預(yù)的需要。DREAMLLM生成的圖像準確地對應(yīng)于相關(guān)文本。證明了所提方法的有效性。

總結(jié)

本文介紹了一個名為DREAMLLM的學(xué)習(xí)框架，它能夠同時實現(xiàn)多模態(tài)理解和創(chuàng)作。DREAMLLM具有兩個基本原則：第一個原則是通過在原始多模態(tài)空間中進行直接采樣，生成語言和圖像后驗概率的生成建模。第二個原則是促進生成原始、交錯文檔，模擬文本和圖像內(nèi)容以及無結(jié)構(gòu)的布局，使DREAMLLM能夠有效地學(xué)習(xí)所有條件、邊際和聯(lián)合多模態(tài)分布。實驗結(jié)果表明，DREAMLLM是第一個能夠生成自由形式交錯內(nèi)容的MLLM，并具有卓越的性能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

框架

框架

+關(guān)注

關(guān)注
0

文章
403

瀏覽量
17474
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
520

瀏覽量
10268
機器智能

機器智能

+關(guān)注

關(guān)注
0

文章
55

瀏覽量
8592

原文標題：DreamLLM：多功能多模態(tài)大型語言模型，你的DreamLLM~

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一文理解多模態(tài)大語言模型——上

/understanding-multimodal-llms 在過去幾個月中， OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)多模態(tài)大語言模型的論文和博客，在此基礎(chǔ)上，推薦了一篇解

發(fā)表于 12-02 18:29 ?302次閱讀

一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>——上

大型語言模型有哪些用途？

大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。 AI 應(yīng)用在大型語言模型的幫助下，可

發(fā)表于 02-23 19:50 ?5171次閱讀

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。

發(fā)表于 03-08 13:57 ?8028次閱讀

利用大語言模型做多模態(tài)任務(wù)

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數(shù)據(jù)。

發(fā)表于 05-10 16:53 ?1042次閱讀

利用大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>做<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>任務(wù)

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多

發(fā)表于 05-11 17:09 ?901次閱讀

邱錫鵬團隊提出具有內(nèi)生跨模態(tài)能力的SpeechGPT，為多模態(tài)LLM指明方向

大型語言模型（LLM）在各種自然語言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時，多模態(tài)

發(fā)表于 05-22 14:38 ?675次閱讀

VisCPM：邁向多語言多模態(tài)大模型時代

隨著 GPT-4 和 Stable Diffusion 等模型多模態(tài)能力的突飛猛進，多模態(tài)大模型

發(fā)表于 07-10 10:05 ?708次閱讀

更強更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補全一切」

當(dāng)前學(xué)界和工業(yè)界都對多模態(tài)大模型研究熱情高漲。去年，谷歌的 Deepmind 發(fā)布了多模態(tài)視覺語言

發(fā)表于 07-16 20:45 ?716次閱讀

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單

發(fā)表于 11-09 14:53 ?502次閱讀

哈工大提出Myriad：利用視覺專家進行工業(yè)異常檢測的大型多模態(tài)模型

最近，大型多模態(tài)（即視覺和語言）模型（LMM）在圖像描述、視覺理解、視覺推理等多種視覺任務(wù)上表現(xiàn)出了卓越的感知能力，使其成為更易于理解的異常

發(fā)表于 11-21 16:08 ?1909次閱讀

自動駕駛和多模態(tài)大語言模型的發(fā)展歷程

多模態(tài)大語言模型(MLLM) 最近引起了廣泛的關(guān)注，其將 LLM 的推理能力與圖像、視頻和音頻數(shù)據(jù)相結(jié)合，通過多模態(tài)對齊使它們能夠更高效地執(zhí)

發(fā)表于 12-28 11:45 ?520次閱讀

機器人基于開源的多模態(tài)語言視覺大模型

ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作

發(fā)表于 01-19 11:43 ?407次閱讀

韓國Kakao宣布開發(fā)多模態(tài)大語言模型“蜜蜂”

韓國互聯(lián)網(wǎng)巨頭Kakao最近宣布開發(fā)了一種名為“蜜蜂”(Honeybee)的多模態(tài)大型語言模型。這種創(chuàng)新

發(fā)表于 01-19 16:11 ?681次閱讀

智譜AI發(fā)布全新多模態(tài)開源模型GLM-4-9B

近日，智譜AI在人工智能領(lǐng)域取得重大突破，成功推出全新開源模型GLM-4-9B。這款模型以其卓越的多模態(tài)能力，再次刷新了業(yè)界對于大型

發(fā)表于 06-07 09:17 ?724次閱讀

一文理解多模態(tài)大語言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語言模型 - 上》介紹了什么是多

發(fā)表于 12-03 15:18 ?112次閱讀