新时代app官方版下载,新时代RM|登录网址

LLM 的能力還可以發(fā)揮到機(jī)器學(xué)習(xí)的更多子領(lǐng)域。

當(dāng)前，大型語(yǔ)言模型（LLM）已經(jīng)掀起自然語(yǔ)言處理（NLP）領(lǐng)域的變革浪潮。我們看到 LLM 具備強(qiáng)大的涌現(xiàn)能力，在復(fù)雜的語(yǔ)言理解任務(wù)、生成任務(wù)乃至推理任務(wù)上都表現(xiàn)優(yōu)異。這啟發(fā)人們進(jìn)一步探索 LLM 在機(jī)器學(xué)習(xí)另一子領(lǐng)域 —— 計(jì)算機(jī)視覺（CV）方面的潛力。 LLM 的一項(xiàng)卓越才能是它們具備上下文學(xué)習(xí)的能力。上下文學(xué)習(xí)不會(huì)更新 LLM 的任何參數(shù)，卻在各種 NLP 任務(wù)中卻展現(xiàn)出了令人驚艷的成果。那么，GPT 能否通過(guò)上下文學(xué)習(xí)解決視覺任務(wù)呢？最近，來(lái)自谷歌和卡內(nèi)基梅隆大學(xué)（CMU）的研究者聯(lián)合發(fā)表的一篇論文表明：只要我們能夠?qū)D像（或其他非語(yǔ)言模態(tài)）轉(zhuǎn)化為 LLM 能夠理解的語(yǔ)言，這似乎是可行的。

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs 代碼：https://github.com/google-research/magvit/ 論文地址：https://arxiv.org/abs/2306.17842 這篇論文揭示了 PaLM 或 GPT 在通過(guò)上下文學(xué)習(xí)解決視覺任務(wù)方面的能力，并提出了新方法 SPAE（Semantic Pyramid AutoEncoder）。這種新方法使得 LLM 能夠執(zhí)行圖像生成任務(wù)，而無(wú)需進(jìn)行任何參數(shù)更新。這也是使用上下文學(xué)習(xí)使得 LLM 生成圖像內(nèi)容的首個(gè)成功方法。我們先來(lái)看一下通過(guò)上下文學(xué)習(xí)，LLM 在生成圖像內(nèi)容方面的實(shí)驗(yàn)效果。例如，在給定上下文中，通過(guò)提供 50 張手寫圖像，論文要求 PaLM 2 回答需要生成數(shù)字圖像作為輸出的復(fù)雜查詢：

還能在有圖像上下文輸入的情況下生成逼真的現(xiàn)實(shí)圖像：

除了生成圖像，通過(guò)上下文學(xué)習(xí)，PaLM 2 還能進(jìn)行圖像描述：

還有與圖像相關(guān)問題的視覺問答：

甚至可以去噪生成視頻：

方法概述實(shí)際上，將圖像轉(zhuǎn)化為 LLM 能夠理解的語(yǔ)言，是在視覺 Transformer（ViT）論文中就已經(jīng)研究過(guò)的問題。在 Google 和 CMU 的這篇論文中，他們將其提升到了一個(gè)新的層次 —— 使用實(shí)際的單詞來(lái)表示圖像。這種方法就像建造一個(gè)充滿文字的塔樓，捕捉圖像的語(yǔ)義和細(xì)節(jié)。這種充滿文字的表示方法讓圖像描述可以輕松生成，并讓 LLM 可以回答與圖像相關(guān)的問題，甚至可以重構(gòu)圖像像素。

具體來(lái)說(shuō)，該研究提出使用經(jīng)過(guò)訓(xùn)練的編碼器和 CLIP 模型將圖像轉(zhuǎn)換為一個(gè) token 空間；然后利用 LLM 生成合適的詞法 token；最后使用訓(xùn)練有素的解碼器將這些 token 轉(zhuǎn)換回像素空間。這個(gè)巧妙的過(guò)程將圖像轉(zhuǎn)換為 LLM 可以理解的語(yǔ)言，使我們能夠利用 LLM 在視覺任務(wù)中的生成能力。

實(shí)驗(yàn)及結(jié)果該研究將 SPAE 與 SOTA 方法 Frozen 和 LQAE 進(jìn)行了實(shí)驗(yàn)比較，結(jié)果如下表 1 所示。SPAEGPT 在所有任務(wù)上性能均優(yōu)于LQAE，且僅使用 2% 的 token。

總的來(lái)說(shuō)，在 mini-ImageNet 基準(zhǔn)上的測(cè)試表明，SPAE 方法相比之前的 SOTA 方法提升了 25% 的性能。

為了驗(yàn)證 SPAE 設(shè)計(jì)方法的有效性，該研究進(jìn)行了消融實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如下表 4 和圖 10 所示：

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
520

瀏覽量
10268
GPT

GPT

+關(guān)注

關(guān)注
0

文章
352

瀏覽量
15342
nlp

nlp

+關(guān)注

關(guān)注
1

文章
488

瀏覽量
22033

原文標(biāo)題：谷歌新作SPAE：GPT等大語(yǔ)言模型可以通過(guò)上下文學(xué)習(xí)解決視覺任務(wù)

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

為什么transformer性能這么好？Transformer的上下文學(xué)習(xí)能力是哪來(lái)的？

為什么 transformer 性能這么好？它給眾多大語(yǔ)言模型帶來(lái)的上下文學(xué)習(xí) (In-Context Learning) 能力是從何而來(lái)？在人工智能領(lǐng)域里，transformer 已成為深度

發(fā)表于 09-25 12:05 ?1358次閱讀

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗

維基百科、網(wǎng)頁(yè)內(nèi)容和書籍等，不僅掌握了語(yǔ)言的語(yǔ)法、語(yǔ)義和上下文信息，還能生成結(jié)構(gòu)連貫、語(yǔ)義合理的句子和段落。大語(yǔ)言模型的一個(gè)顯著特點(diǎn)是其龐大

發(fā)表于 05-04 23:55

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

不同語(yǔ)境下的不同語(yǔ)義。而動(dòng)態(tài)詞向量語(yǔ)言模型中對(duì)詞的表示隨著上下文語(yǔ)境的不同而動(dòng)態(tài)變化，依賴當(dāng)前所在的句子或段落等的語(yǔ)境。以ELMo為例，將詞序列輸入經(jīng)過(guò)預(yù)訓(xùn)練的ELMo

發(fā)表于 05-05 12:17

關(guān)于進(jìn)程上下文、中斷上下文及原子上下文的一些概念理解

狀態(tài)等。所以在進(jìn)程上下文中引用current是有意義的。三、中斷上下文 硬件通過(guò)觸發(fā)信號(hào)，向CPU發(fā)送中斷信號(hào)，導(dǎo)致內(nèi)核調(diào)用中斷處理程序，進(jìn)入內(nèi)核空間。這個(gè)過(guò)程中，硬件的一些變量和參

發(fā)表于 09-06 09:58

進(jìn)程上下文與中斷上下文的理解

）進(jìn)程下文：其是指切換到內(nèi)核態(tài)后執(zhí)行的程序，即進(jìn)程運(yùn)行在內(nèi)核空間的部分。2.中斷上下文：（1）中斷上文：硬件通過(guò)中斷觸發(fā)信號(hào)，導(dǎo)致內(nèi)核調(diào)用中斷處理程序，進(jìn)入內(nèi)核空間。這個(gè)過(guò)程中，硬件的一些變量和參數(shù)也要

發(fā)表于 12-11 19:45

進(jìn)程上下文/中斷上下文及原子上下文的概念

為什么會(huì)有上下文這種概念進(jìn)程上下文/中斷上下文及原子上下文的概念

發(fā)表于 01-13 07:17

中斷中的上下文切換詳解

也是統(tǒng)一在Systick_Handler中斷處理函數(shù)中進(jìn)行的（具體代碼可以參考irq_cm3.S）。　　總結(jié)一下，RTX的內(nèi)核是分態(tài)的，在中斷和任務(wù)上下文中進(jìn)行信號(hào)量的post等動(dòng)作根

發(fā)表于 03-23 17:18

基于多Agent的用戶上下文自適應(yīng)站點(diǎn)構(gòu)架

自適應(yīng)站點(diǎn)很少考慮對(duì)用戶環(huán)境的自適應(yīng)。為此，提出用戶上下文自適應(yīng)站點(diǎn)的概念，給出基于多Agent技術(shù)的用戶上下文自適應(yīng)站點(diǎn)構(gòu)架模型。闡述用戶上下文獲取、挖掘過(guò)程以及站

發(fā)表于 04-11 08:49 ?13次下載

終端業(yè)務(wù)上下文的定義方法及業(yè)務(wù)模型

該文針對(duì)業(yè)務(wù)上下文僅關(guān)注業(yè)務(wù)質(zhì)量較少考慮用戶終端環(huán)境的現(xiàn)狀，提出終端業(yè)務(wù)上下文的概念，為普適業(yè)務(wù)的開展提供必要的信息支撐。給出一種終端業(yè)務(wù)上下文的通用定義方法

發(fā)表于 03-06 11:06 ?11次下載

基于上下文相似度的分解推薦算法

模型，再對(duì)目標(biāo)用戶的K個(gè)鄰居用戶建立移動(dòng)用戶一上下文一移動(dòng)服務(wù)三維張量分解模型，獲得目標(biāo)用戶的移動(dòng)服務(wù)預(yù)測(cè)值，生成移動(dòng)推薦。實(shí)驗(yàn)結(jié)果顯示，與余弦相似性方法、Pearson相關(guān)系數(shù)方法和Cosinel改進(jìn)相似度

發(fā)表于 11-27 17:42 ?0次下載

Web服務(wù)的上下文的訪問控制策略模型

的訪問控制策略模型。模型的核心思想是將各種與訪問控制有關(guān)的信息統(tǒng)一抽象表示為一個(gè)上下文概念，以上下文為中心來(lái)制定和執(zhí)行訪問控制策略，上下文擔(dān)

發(fā)表于 01-05 16:32 ?0次下載

如何分析Linux CPU上下文切換問題

在我的上一篇文章：《探討 Linux CPU 的上下文切換》中，我談到了 CPU 上下文切換的工作原理。快速回顧一下，CPU 上下文切換是保證 Linux 系統(tǒng)正常運(yùn)行的核心功能。可分為進(jìn)程上

發(fā)表于 05-05 20:11 ?1940次閱讀

我們能否擴(kuò)展現(xiàn)有的預(yù)訓(xùn)練 LLM 的上下文窗口

50 頁(yè)的文字，意味著在對(duì)話或生成文本時(shí)，GPT-4 最多可以記住 50 頁(yè)左右內(nèi)容。? ? 一般來(lái)講，大語(yǔ)言模型處理上下文窗口大小的能力

發(fā)表于 06-30 11:09 ?645次閱讀

首篇！Point-In-Context：探索用于3D點(diǎn)云理解的上下文學(xué)習(xí)

隨著基于廣泛數(shù)據(jù)訓(xùn)練的大模型興起，上下文學(xué)習(xí)（In-Context Learning）已成為一種新的學(xué)習(xí)范式，在自然語(yǔ)言處理（NLP）和計(jì)算機(jī)視覺

發(fā)表于 07-13 14:41 ?770次閱讀

更強(qiáng)更通用：智源「悟道3.0」Emu多模態(tài)大模型開源，在多模態(tài)序列中「補(bǔ)全一切」

熱度。Flamingo 具備強(qiáng)大的多模態(tài)上下文少樣本學(xué)習(xí)能力。 Flamingo 走的技術(shù)路線是將大語(yǔ)言模型與一個(gè)預(yù)訓(xùn)練視覺編碼器結(jié)合，并插

發(fā)表于 07-16 20:45 ?716次閱讀