RM新时代专业团队|首入球时间 ,rm新时代足球交易平台

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息？這一問題在計算機科學(xué)和自然語言處理領(lǐng)域一直存在爭議。然而，MIT的一項新研究表明，僅基于文本形式訓(xùn)練、用于預(yù)測下一個token的語言模型確實能學(xué)習(xí)和表示文本的意義。

雖然大型預(yù)訓(xùn)練語言模型（LLM）在一系列下游任務(wù)中展現(xiàn)出飛速提升的性能，但它們是否真的理解其使用和生成的文本語義？

長期以來，AI社區(qū)對這一問題存在很大的分歧。有一種猜測是，純粹基于語言的形式（例如訓(xùn)練語料庫中token的條件分布）進(jìn)行訓(xùn)練的語言模型不會獲得任何語義。相反，它們僅僅是根據(jù)從訓(xùn)練數(shù)據(jù)中收集的表面統(tǒng)計相關(guān)性來生成文本，其強大的涌現(xiàn)能力則歸因于模型和訓(xùn)練數(shù)據(jù)的規(guī)模。這部分人將LLM稱為「隨機鸚鵡」。

但也有一部分人不認(rèn)同此觀點。一項最近的研究表明，大約51%的NLP社區(qū)受訪者同意：「一些僅通過文本訓(xùn)練的生成模型，在擁有足夠的數(shù)據(jù)和計算資源的情況下，可以以某種有意義的方式理解自然語言（超越表面層面的統(tǒng)計關(guān)聯(lián)，涉及對語言背后的語義和概念的理解）」。

為了探究這個懸而未決的問題，來自MIT CSAIL的研究人員展開了詳細(xì)研究。

論文地址：https://paperswithcode.com/paper/evidence-of-meaning-in-language-models

該研究使用的語言模型僅訓(xùn)練成為文本預(yù)測下一個token的模型，并制定兩個假設(shè)：

H1：僅通過對文本進(jìn)行下一個token預(yù)測訓(xùn)練的LM在根本上受限于重復(fù)其訓(xùn)練語料庫中的表面層次統(tǒng)計相關(guān)性；

H2LM無法對其消化和生成的文本賦予意義。

為了探究 H1 和 H2兩個假設(shè)的正確性，該研究將語言建模應(yīng)用于程序合成任務(wù)，即在給定輸入輸出示例形式規(guī)范的情況下合成程序。該研究采用這種方法的主要是因為程序的意義（和正確性）完全由編程語言的語義決定。

具體來說，該研究在程序及其規(guī)范的語料庫上訓(xùn)練語言模型（LM），然后使用線性分類器探測 LM 對于程序語義表征的隱藏狀態(tài)。該研究發(fā)現(xiàn)探測器提取語義的能力在初始化時是隨機的，然后在訓(xùn)練期間經(jīng)歷相變，這種相變與 LM 在未見過規(guī)范的情況下生成正確程序的能力強相關(guān)。此外，該研究還展示了一項介入實驗的結(jié)果，該實驗表明語義在模型狀態(tài)中得以表征（而不是通過探測器（probe）進(jìn)行學(xué)習(xí)）。

該研究的主要貢獻(xiàn)包括：

1、實驗結(jié)果表明，在執(zhí)行預(yù)測下一個token任務(wù)的 LM 中出現(xiàn)了有意義的表征。具體來說，該研究使用經(jīng)過訓(xùn)練的 LM 在給定幾個輸入輸出示例的情況下生成程序，然后訓(xùn)練一個線性探測器，以從模型狀態(tài)中提取有關(guān)程序狀態(tài)的信息。研究者發(fā)現(xiàn)內(nèi)部表征包含以下線性編碼：(1) 抽象語義（抽象解釋）——在程序執(zhí)行過程中跟蹤指定輸入；(2) 與尚未生成的程序token對應(yīng)的未來程序狀態(tài)預(yù)測。在訓(xùn)練期間，這些語義的線性表征與 LM 在訓(xùn)練步驟中生成正確程序的能力同步發(fā)展。

2、該研究設(shè)計并評估了一種新穎的介入（interventional）方法，以探究從表征中提取意義時LM 和探測器的貢獻(xiàn)。具體來說，該研究試圖分析以下兩個問題中哪個成立：(1) LM 表征包含純（句法）轉(zhuǎn)錄本（transcript），同時探測器學(xué)習(xí)解釋轉(zhuǎn)錄本以推斷含義；（2）LM 表征包含語義狀態(tài)，探測器只是從語義狀態(tài)中提取含義。實驗結(jié)果表明 LM 表征實際上與原始語義對齊（而不是僅僅編碼一些詞匯和句法內(nèi)容），這說明假設(shè)H2是錯誤的。

3、該研究表明 LM 的輸出與訓(xùn)練分布不同，具體表現(xiàn)為LM 傾向于生成比訓(xùn)練集中的程序更短的程序（并且仍然是正確的）。雖然 LM 合成正確程序的能力有所提高，但LM 在訓(xùn)練集中的程序上的困惑度仍然很高，這表明假設(shè)H1是錯誤的。

總的來說，該研究提出了一個框架，用于根據(jù)編程語言的語義對 LM 進(jìn)行實證研究。這種方法使我們能夠定義、測量和試驗來自底層編程語言的精確形式語義的概念，從而有助于理解當(dāng)前 LM 的涌現(xiàn)能力。

研究背景

該研究使用跟蹤語義作為程序含義模型。作為編程語言理論中一個基礎(chǔ)主題，形式語義學(xué)主要研究如何正式地為語言中的字符串分配語義。該研究使用的語義模型包括跟蹤程序的執(zhí)行：給定一組輸入（即變量賦值），一個（句法）程序的含義是用從表達(dá)式中計算出的語義值標(biāo)識的，跟蹤軌跡是根據(jù)輸入執(zhí)行程序時生成的中間值序列。

將跟蹤軌跡用于程序含義模型具有幾個重要原因：首先，準(zhǔn)確跟蹤一段代碼的能力與解釋代碼的能力直接相關(guān)；其次，計算機科學(xué)教育也強調(diào)跟蹤是理解程序開發(fā)和定位推理錯誤的重要方法；第三，專業(yè)的程序開發(fā)依賴基于跟蹤的調(diào)試器（dbugger）。

該研究使用的訓(xùn)練集包含100萬個隨機抽樣的Karel程序。20世紀(jì)70年代，斯坦福大學(xué)畢業(yè)生 Rich Pattis 設(shè)計了一個程序環(huán)境，讓學(xué)生教機器人來解決簡單的問題，這個機器人被稱為Karel機器人。

該研究通過隨機采樣來構(gòu)造訓(xùn)練樣本的參考程序，然后采樣5個隨機輸入并執(zhí)行程序得到對應(yīng)的5個輸出。LM 被訓(xùn)練為對樣本語料庫執(zhí)行下一個token預(yù)測。在測試時，該研究只提供輸入輸出前綴給LM，并使用貪心解碼完成程序。下圖1描繪了一個實際的參考程序和經(jīng)過訓(xùn)練的 LM 的完成情況。

該研究訓(xùn)練了一個現(xiàn)成的 Transformer 模型對數(shù)據(jù)集執(zhí)行下一個token預(yù)測。經(jīng)過 64000 個訓(xùn)練步驟（training step），大約 1.5 個 epoch，最終訓(xùn)練好的 LM 在測試集上達(dá)到了 96.4% 的生成準(zhǔn)確率。每 2000 個訓(xùn)練步驟，該研究會捕獲一個跟蹤數(shù)據(jù)集。對于每個訓(xùn)練軌跡數(shù)據(jù)集，該研究訓(xùn)練一個線性探測器來預(yù)測給定模型狀態(tài)的程序狀態(tài)。

意義的涌現(xiàn)

研究者對以下假設(shè)進(jìn)行了研究：在訓(xùn)練語言模型執(zhí)行下一個token預(yù)測的過程中，語義狀態(tài)的表示會作為副產(chǎn)品出現(xiàn)在模型狀態(tài)中?？紤]到最終訓(xùn)練得到的語言模型達(dá)到了96.4%的生成準(zhǔn)確性，如果否定這個假設(shè)，將與H2一致，即語言模型已經(jīng)學(xué)會「僅僅」利用表面統(tǒng)計來一致生成正確的程序。

為了測試這個假設(shè)，研究者訓(xùn)練了一個線性探測器，將語義狀態(tài)從模型狀態(tài)中提取出來，作為5個獨立的4-way任務(wù)（每個輸入面向一個方向），如第2.2節(jié)所述。

意義的涌現(xiàn)與生成準(zhǔn)確性呈正相關(guān)

圖2展示了主要結(jié)果。研究者的第一個觀察結(jié)果是，語義內(nèi)容從隨機猜測的基線表現(xiàn)（25%）開始，并且在訓(xùn)練過程中顯著增加。這個結(jié)果表明，語言模型的隱藏狀態(tài)確實包含語義狀態(tài)的（線性）編碼，并且關(guān)鍵的是，這種意義是在一個純粹用于對文本執(zhí)行下一個token預(yù)測的語言模型中出現(xiàn)的。

將生成準(zhǔn)確性與語義內(nèi)容進(jìn)行線性回歸，二者在訓(xùn)練步驟中呈現(xiàn)出意外的強大且具有統(tǒng)計學(xué)意義的線性相關(guān)性（R2 = 0.968, p < 0.001），即LM合成正確程序的能力的變化幾乎完全由LM的隱藏層的語義內(nèi)容所解釋。這表明，在本文的實驗設(shè)置范圍內(nèi)，學(xué)習(xí)建模正確程序的分布與學(xué)習(xí)程序的意義直接相關(guān)，這否定了語言模型無法獲取意義的觀點（H2）。

表征是對未來程序語義的預(yù)測

前一節(jié)討論了語言模型能否表示其生成的文本的意義。本文的結(jié)果對這個問題給出了積極的答案，即語言模型能夠（抽象地）解釋生成的程序。然而，解釋者（interpreter）并不等同于合成者（synthesizer），僅有理解能力是不足以進(jìn)行生成的。就人類語言的產(chǎn)生而言，廣泛的共識是語言起源于思維中的一種非言語的信息，然后被轉(zhuǎn)化為反映初始概念的話語（utterance）。研究者假設(shè)訓(xùn)練后的語言模型的生成過程遵循類似的機制，即語言模型的表示編碼了尚未生成的文本的語義。

為了驗證這個假設(shè)，他們使用與上述相同的方法訓(xùn)練了一個線性探測器，來預(yù)測從模型狀態(tài)中得到的未來語義狀態(tài)。需要注意的是，由于他們使用貪婪解碼策略，未來的語義狀態(tài)也是確定性的，因此這個任務(wù)是明確定義的。

圖3展示了線性探測器在預(yù)測未來1步和2步的語義狀態(tài)方面的表現(xiàn)（綠段線表示「Semantic (+1)」，綠點線表示「Semantic (+2)」）。與先前的結(jié)果類似，探測器的性能從隨機猜測的基線開始，然后隨著訓(xùn)練顯著提高，并且他們還發(fā)現(xiàn)未來狀態(tài)的語義內(nèi)容與生成準(zhǔn)確性（藍(lán)線）在訓(xùn)練步驟中呈現(xiàn)出強烈的相關(guān)性。將語義內(nèi)容與生成準(zhǔn)確性進(jìn)行線性回歸分析得到的R2值分別為0.919和0.900，對應(yīng)于未來1步和2步的語義狀態(tài)，兩者的p值均小于0.001。

他們還考慮了這樣一個假設(shè)，即模型的表示只編碼了當(dāng)前的語義狀態(tài)，而探測器僅僅是從當(dāng)前語義狀態(tài)預(yù)測未來的語義狀態(tài)。為了測試這個假設(shè)，他們計算了一個最優(yōu)分類器，將當(dāng)前程序中的ground truth面向方向映射到未來程序中的4個面向方向之一。

需要注意的是，其中的5個操作中有3個保持了面向方向，并且下一個 token是均勻采樣的。因此他們預(yù)期，對于未來1步的情況，預(yù)測未來的語義狀態(tài)的最優(yōu)分類器應(yīng)該通過預(yù)測面向方向保持不變來達(dá)到60%的準(zhǔn)確率。事實上，通過直接擬合測試集，他們發(fā)現(xiàn)從當(dāng)前語義狀態(tài)預(yù)測未來語義狀態(tài)的上限分別為62.2%和40.7%（對應(yīng)于未來1步和2步的情況）。相比之下，當(dāng)給定探測器正確預(yù)測當(dāng)前狀態(tài)的條件下，探測器在預(yù)測未來狀態(tài)方面的準(zhǔn)確率分別為68.4%和61.0%。

這表明，探測器從模型狀態(tài)中提取未來語義狀態(tài)的能力不能僅僅通過從當(dāng)前語義狀態(tài)的表示中推斷得出。因此，他們的結(jié)果表明，語言模型會學(xué)習(xí)去表示尚未生成的token的含義，這否定了語言模型無法學(xué)習(xí)意義的觀點（H2），并且也表明生成過程不僅僅基于純粹的表面統(tǒng)計（H1）。

生成的輸出與訓(xùn)練分布不同

接下來，研究者通過比較訓(xùn)練后的語言模型生成的程序分布與訓(xùn)練集中的程序分布，提供反駁H1的證據(jù)。如果H1成立，他們預(yù)期兩個分布應(yīng)該大致相等，因為語言模型只是在重復(fù)訓(xùn)練集中文本的統(tǒng)計相關(guān)性。

圖6a顯示了LM生成的程序的平均長度隨時間的變化情況（實線藍(lán)色線條），與訓(xùn)練集中參考程序的平均長度（虛線紅色線條）進(jìn)行對比。他們發(fā)現(xiàn)二者存在統(tǒng)計學(xué)上的顯著差異，這表明LM的輸出分布確實與其訓(xùn)練集中的程序分布不同。這與H1中提到的觀點（即LM只能重復(fù)其訓(xùn)練數(shù)據(jù)中的統(tǒng)計相關(guān)性）相矛盾。

最后，他們還測量了LM在訓(xùn)練集中的程序上的困惑度隨時間的變化情況。圖6b展示了他們的結(jié)果?？梢钥吹?，LM從來沒有學(xué)會很好地擬合訓(xùn)練集中程序的分布，這進(jìn)一步反駁了H1的觀點。這可能是因為在訓(xùn)練集中隨機抽樣的程序包含了許多無操作指令，而LM更傾向于生成更簡潔的程序。有趣的是，困惑度的急劇增加——當(dāng)LM超越了模仿階段——似乎導(dǎo)致了生成準(zhǔn)確率（和語義內(nèi)容）的提高。由于程序等價性問題與程序語義密切相關(guān)，LM能夠生成簡短且正確的程序表明它確實學(xué)到了語義的某個方面。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7002

瀏覽量
88940
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
520

瀏覽量
10268
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
287

瀏覽量
13346

原文標(biāo)題：有證據(jù)了，MIT表明：大型語言模型≠隨機鸚鵡，確實能學(xué)到語義

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

維基百科、網(wǎng)頁內(nèi)容和書籍等，不僅掌握了語言的語法、語義和上下文信息，還能生成結(jié)構(gòu)連貫、語義合理的句子和段落。大

發(fā)表于 05-04 23:55

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

的特征，并且這些特征融合了這些詞在當(dāng)前序列的上下文語義，因此能夠解決一詞多義的問題。憑借這種優(yōu)勢，基于動態(tài)詞向量語言模型進(jìn)行預(yù)訓(xùn)練的方法被廣泛應(yīng)用于自然語言

發(fā)表于 05-05 12:17

MCU能否捕捉到穩(wěn)定的低信號電平？

Vext=3.3V 我有一個問題，你可以看我的圖片，如果信號有一些雜波，并且高于 0.5V，但低于 1.4V。 MCU能否捕捉到穩(wěn)定的低信號電平？

發(fā)表于 07-02 06:17

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

一些局限性。例如，模型可能無法完全理解文本中的深層含義和語境信息；同時，由于訓(xùn)練數(shù)據(jù)可能存在偏差和噪聲，生成的答案也可能存在不準(zhǔn)確或誤導(dǎo)性的

發(fā)表于 08-02 11:03

飛凌嵌入式-ELFBOARD 解決PCB布線時無法捕捉到焊盤中心的問題

1、文檔目標(biāo) 解決PCB布線時無法捕捉到焊盤中心的問題 2、問題場景 PCB布線時，發(fā)現(xiàn)十字光標(biāo)無法捕捉焊盤中心點，如圖1所示，綠色十字光標(biāo)靠近焊盤中心，卻沒有自動捕捉到，這是什么原因？圖

發(fā)表于 09-10 10:50

NLPIR語義分析是對自然語言處理的完美理解

和邏輯表示。語義分析就是對信息所包含的語義的識別，并建立一種計算模型，使其能夠像人那樣理解自然語言。語義

發(fā)表于 10-19 11:34

請問在28027中對ECAP功能，捕捉到下降沿的同時能否自動讀取某一個32位定時器的計數(shù)值？

請問在28027中對ECAP功能，捕捉到下降沿的同時能否自動讀取某一個32位定時器的計數(shù)值？如果不能，通過編程讀取應(yīng)該是可行的吧？

發(fā)表于 10-31 15:11

邏輯分析儀捕捉到的脈沖與常見的NEC協(xié)議捕捉到的脈沖有何不同

邏輯分析儀捕捉到的脈沖與常見的NEC協(xié)議捕捉到的脈沖有何不同？

發(fā)表于 02-15 06:22

基于語義感知的中文短文本摘要生成技術(shù)

文本摘要生成技術(shù)能夠從海量數(shù)據(jù)中概括岀關(guān)鍵信息，有效解決用戶信息過載的問題。目前序列到序列模型被

發(fā)表于 05-28 15:45 ?2次下載

大型語言模型有哪些用途？

通過大規(guī)模數(shù)據(jù)集訓(xùn)練來學(xué)習(xí)識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。大型語言模型是 Transformer 模型最成功的應(yīng)用之一。

發(fā)表于 02-23 19:50 ?5171次閱讀

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。

發(fā)表于 03-08 13:57 ?8028次閱讀

如何正確的觀察電流探頭捕捉到的電流波形

市面上的電流探頭一般輸出阻抗50ohm，并搭配示波器組合使用觀察信號，那如何正確的觀察電流探頭捕捉到的電流波形呢?

發(fā)表于 08-23 15:20 ?720次閱讀

Meta發(fā)布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發(fā)布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

發(fā)表于 08-25 09:06 ?1482次閱讀

如何正確的觀察電流探頭捕捉到的電流波形？

電流探頭是示波器用于測量和顯示電流波形的重要工具。正確地觀察電流探頭捕捉到的電流波形對于分析電路的性能和診斷問題至關(guān)重要。

發(fā)表于 05-19 16:34 ?1004次閱讀

使用LLM進(jìn)行自然語言處理的優(yōu)缺點

語言任務(wù)，如文本分類、情感分析、機器翻譯等。以下是使用LLM進(jìn)行NLP的一些優(yōu)缺點：優(yōu)點強大的語言理解能力： LLM通過訓(xùn)練學(xué)習(xí)了大量的語言模式和結(jié)構(gòu)，能夠理解和

發(fā)表于 11-08 09:27 ?412次閱讀

RM新时代网站-首页

搜索歷史

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息

評論

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

MCU能否捕捉到穩(wěn)定的低信號電平？

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

飛凌嵌入式-ELFBOARD 解決PCB布線時無法捕捉到焊盤中心的問題

NLPIR語義分析是對自然語言處理的完美理解

請問在28027中對ECAP功能，捕捉到下降沿的同時能否自動讀取某一個32位定時器的計數(shù)值？

邏輯分析儀捕捉到的脈沖與常見的NEC協(xié)議捕捉到的脈沖有何不同

基于語義感知的中文短文本摘要生成技術(shù)

大型語言模型有哪些用途？

大型語言模型有哪些用途？大型語言模型如何運作呢？

如何正確的觀察電流探頭捕捉到的電流波形

Meta發(fā)布一款可以使用文本提示生成代碼的大型語言模型Code Llama

如何正確的觀察電流探頭捕捉到的電流波形？

使用LLM進(jìn)行自然語言處理的優(yōu)缺點