rm新时代跑路,rm资金盘

最近，在語言模型領(lǐng)域取得了巨大的進(jìn)展，部分是因?yàn)樗鼈兛梢酝ㄟ^In-Context- Learning ( ICL)來完成各種復(fù)雜的任務(wù)。在ICL中，模型在執(zhí)行未見過的用例之前，會(huì)首先接收一些輸入-標(biāo)簽對的示例。一般來說，ICL對模型的增強(qiáng)，有以下原因：

按照上下文示例的格式，利用預(yù)訓(xùn)練階段得到的語義先驗(yàn)知識來預(yù)測標(biāo)簽(例如，當(dāng)看到帶有“正面情感”和“負(fù)面情感”標(biāo)簽的電影評論示例，使用先驗(yàn)知識來做情感分析)。

從給的上下文示例中學(xué)習(xí)輸入-標(biāo)簽的映射(例如，正面評論應(yīng)該映射到一個(gè)標(biāo)簽，負(fù)面評論應(yīng)該映射到另一個(gè)標(biāo)簽的模式)。

在本文中，我們旨在了解這兩個(gè)因素(語義先驗(yàn)知識和輸入-標(biāo)簽映射)在ICL的影響，尤其是當(dāng)語言模型的規(guī)模發(fā)生變化時(shí)。我們通過2種實(shí)驗(yàn)方法來對這兩個(gè)因素進(jìn)行研究，實(shí)驗(yàn)方法分別為：翻轉(zhuǎn)標(biāo)簽的 ICL (flipped-label ICL)和語義無關(guān)標(biāo)簽的ICL ( SUL- ICL)。

在翻轉(zhuǎn)標(biāo)簽的ICL中，上下文示例的標(biāo)簽的語義被翻轉(zhuǎn)(例如原先的標(biāo)簽為“Negative”，被反轉(zhuǎn)為 “Positive”)，使得語義先驗(yàn)知識和輸入-標(biāo)簽映射不匹配。

ps：可以理解為，語義先驗(yàn)知識中與該上下文示例相似的標(biāo)簽都是“Negative”的，但是此處通過“翻轉(zhuǎn)標(biāo)簽”方法，變?yōu)椤癙ositive”后，先驗(yàn)知識與當(dāng)前的上下文示例的輸入-標(biāo)簽映射產(chǎn)生了不匹配。

在SUL- ICL中，上下文示例的標(biāo)簽被替換為與上下文中所呈現(xiàn)的任務(wù)在語義上無關(guān)的詞語(例如，原先的標(biāo)簽“Positive”，被替換為"Foo")。

ps：例如，原先的標(biāo)簽為影評領(lǐng)域的，現(xiàn)在替換為美食或者其他領(lǐng)域的詞

我們發(fā)現(xiàn)，覆蓋先驗(yàn)知識是隨著模型規(guī)模的增大而涌現(xiàn)的一種能力(ps:覆蓋先驗(yàn)知識可以理解為，從上下文示例中學(xué)習(xí)，而不是預(yù)訓(xùn)練階段的先驗(yàn)知識)，從語義無關(guān)標(biāo)簽的上下文中學(xué)習(xí)的能力也是如此。我們還發(fā)現(xiàn)，指令微調(diào)(Instruct-tuning)對學(xué)習(xí)先驗(yàn)知識能力的加強(qiáng)上要超過對學(xué)習(xí)輸入-標(biāo)簽映射的增強(qiáng)。(下圖為普通ICL，翻轉(zhuǎn)標(biāo)簽ICL和語義無關(guān)ICL的示例)

實(shí)驗(yàn)設(shè)計(jì)

我們在七個(gè)廣泛使用的自然語言處理(NLP)任務(wù)上進(jìn)行了實(shí)驗(yàn)：情感分析、主/客觀分類、問題分類、重復(fù)問題識別、蘊(yùn)含關(guān)系識別、金融情感分析和仇恨言論檢測。我們在5種LLM上進(jìn)行測試：PaLM、Flan- PaLM、GPT-InstructGPT和Codex。

翻轉(zhuǎn)標(biāo)簽(Flipped Labels-ICL)

在這個(gè)實(shí)驗(yàn)中，上下文示例的標(biāo)簽被翻轉(zhuǎn)，意味著先驗(yàn)知識和輸入-標(biāo)簽映射不一致(例如，包含正面情感的句子被標(biāo)記為“Negative”)，從而讓我們可以研究模型是否能夠覆蓋其先驗(yàn)知識。在這種情況下，具備覆蓋先驗(yàn)知識能力的模型的性能應(yīng)該會(huì)下降(因?yàn)檎鎸?shí)的評估標(biāo)簽沒有被翻轉(zhuǎn))。(下圖為使用翻轉(zhuǎn)標(biāo)簽ICL后，不同語言模型的不同尺寸的在測試集上的準(zhǔn)確率變化)

我們發(fā)現(xiàn)，當(dāng)沒有標(biāo)簽被翻轉(zhuǎn)時(shí)，大型模型的性能優(yōu)于小型模型(如預(yù)期所示)。但是，當(dāng)我們翻轉(zhuǎn)越來越多的標(biāo)簽時(shí)，小型模型的性能保持相對穩(wěn)定，而大型模型的性能下降得非常明顯，甚至低于隨機(jī)猜測的水平(例如，對于code-davinci-002模型，性能從90%下降到22.5%)。

這些結(jié)果表明，當(dāng)上下文中出現(xiàn)與先驗(yàn)知識不一致的輸入-標(biāo)簽映射時(shí)，大型模型可以覆蓋預(yù)訓(xùn)練的先驗(yàn) 知識，而小型模型則無法做到。

?作者說：此處，我理解為，更大的語言模型在覆蓋先驗(yàn)知識的能力上更強(qiáng)，也就是更容易從給的上下文示例中學(xué)習(xí)到新的知識，如果給的上下文示例中存在與先驗(yàn)知識沖突的情況，則模型會(huì)更加偏重上下文示例。

語義無關(guān)標(biāo)簽(SUL-ICL)

在這個(gè)實(shí)驗(yàn)中，我們將標(biāo)簽替換為語義不相關(guān)的標(biāo)簽(例如，在情感分析中，我們使用“foo/bar”代替 “negative/positive”)，這意味著模型只能通過學(xué)習(xí)輸入-標(biāo)簽映射來執(zhí)行ICL。如果模型在ICL中主要依賴于先驗(yàn)知識，那么在進(jìn)行這種更改后，其性能應(yīng)該會(huì)下降，因?yàn)樗鼘o法再利用標(biāo)簽的語義含義進(jìn)行預(yù)測。而如果模型能夠在上下文中學(xué)習(xí)輸入-標(biāo)簽映射，它就能夠?qū)W習(xí)這些語義無關(guān)的映射，并且不應(yīng)該出現(xiàn)主要性能下降。

(下圖為使用語義無關(guān)標(biāo)簽ICL后，不同語言模型的不同尺寸的在測試集上的準(zhǔn)確率變化)

事實(shí)上，我們發(fā)現(xiàn)對于小型模型來說，使用語義無關(guān)標(biāo)簽導(dǎo)致了更大的性能下降。這表明，小型模型主要依賴于它們的語義先驗(yàn)知識進(jìn)行ICL，而不是從給的的輸入-標(biāo)簽映射示例中學(xué)習(xí)。另一方面，當(dāng)這些標(biāo)簽標(biāo)簽不再具備其原來所有的語義時(shí)，大型模型的學(xué)習(xí)上下文中的輸入-標(biāo)簽映射的能力更強(qiáng)。

我們還發(fā)現(xiàn)，模型輸入更多的上下文示例對于大型模型的性能的提升要強(qiáng)于小模型，這表明大型模型比小型模型更擅長從上下文示例中學(xué)習(xí)。

(下圖為使用不同數(shù)量的語義無關(guān)標(biāo)簽ICL后，不同語言模型的不同尺寸的在測試集上的準(zhǔn)確率變化)

指令微調(diào)(Instruction tuning)

指令微調(diào)是一種提高模型性能的常用技術(shù)，它將各種自然語言處理(NLP)任務(wù)調(diào)整為指令的形式輸入給模型(例如，“問題：以下句子的情感是什么？答案：積極的“)。然而，由于該過程使用自然語言標(biāo)簽，一個(gè)懸而未決的問題是，它是否提高了學(xué)習(xí)輸入-標(biāo)簽映射的能力，亦或是增強(qiáng)了學(xué)習(xí)并應(yīng)用語義先驗(yàn)知識的能力。這兩者都會(huì)給ICL任務(wù)帶來性能提升，因此目前尚不清楚這兩者中哪一個(gè)生效了。

我們通過前兩個(gè)實(shí)驗(yàn)方法繼續(xù)研究這個(gè)問題，但這一次我們專注于比較標(biāo)準(zhǔn)語言模型(PaLM)與經(jīng)過指令微調(diào)的模型(Flan- PaLM)之間的差異。

首先，我們發(fā)現(xiàn)在使用語義無關(guān)標(biāo)簽時(shí)， Flan- PaLM要優(yōu)于PaLM。在小型模型中，這種效果非常明顯， Flan- PaLM-8B的性能超過PaLM-8B約9.6%，并且接近PaLM-62B的性能。這一趨勢表明，指令微調(diào)增強(qiáng)了學(xué)習(xí)輸入-標(biāo)簽映射的能力。

(下圖表明：指令微調(diào)后的模型更容易學(xué)習(xí)輸入-標(biāo)簽映射)

更有趣的是，我們發(fā)現(xiàn)Flan- PaLM在遵循翻轉(zhuǎn)標(biāo)簽方面實(shí)際上比PaLM要差，這意味著經(jīng)過指令調(diào)整的模型無法覆蓋其先驗(yàn)知識(Flan- PaLM模型在100%翻轉(zhuǎn)標(biāo)簽的情況下無法達(dá)到低于隨機(jī)猜測的水平，而沒有經(jīng)過指令調(diào)整的PaLM模型在相同設(shè)置下可以達(dá)到31%的準(zhǔn)確率)。這些結(jié)果表明，指令調(diào)整必須增加模型在有語義先驗(yàn)知識可用時(shí)依賴于語義先驗(yàn)知識的程度。

(下圖表示：指令微調(diào)后的模型，在使用翻轉(zhuǎn)標(biāo)簽ICL時(shí)，更不容易覆蓋先驗(yàn)知識)

結(jié)合之前的結(jié)果，我們得出結(jié)論，雖然指令微調(diào)提高了學(xué)習(xí)輸入-標(biāo)簽映射的能力，但它在學(xué)習(xí)語義先驗(yàn) 知識上的加強(qiáng)更為突出。

結(jié)論

通過上述實(shí)驗(yàn)，可以得到以下的結(jié)論：

首先，大語言模型可以在輸入足夠多的翻轉(zhuǎn)標(biāo)簽的情況下學(xué)會(huì)對先驗(yàn)知識的覆蓋，并且這種能力隨著模型規(guī)模的增大而加強(qiáng)。

其次，使用語義無關(guān)標(biāo)簽進(jìn)行上下文學(xué)習(xí)的能力隨著模型規(guī)模的增大而加強(qiáng)。

最后，通過對指令微調(diào)后的語言模型的研究，發(fā)現(xiàn)指令微調(diào)雖然可以提高學(xué)習(xí)輸入-標(biāo)簽映射的能力，但遠(yuǎn)不如其對學(xué)習(xí)語義先驗(yàn)知識的加強(qiáng)。

未來工作

這些結(jié)果強(qiáng)調(diào)了語言模型的ICL行為在模型規(guī)模方面可能發(fā)生變化，而更大的語言模型具有將輸入映射到更多種類型標(biāo)簽的能力，這可能使得模型可以學(xué)習(xí)任意符號的輸入-標(biāo)簽映射。未來的研究可以幫助我們更好地理解這種現(xiàn)象。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴