今天為大家分享一篇研究,當(dāng)ChatGPT穿越到口袋妖怪世界,是否會(huì)理解并應(yīng)用這個(gè)虛構(gòu)世界的知識(shí)呢?
熟悉口袋妖怪的朋友們一定知道,這些可愛的生物們有著各種不同的屬性、類別和技能。它們生活的世界也是一個(gè)完整的環(huán)境:你可以收集口袋妖怪、培養(yǎng)它們的實(shí)力,然后讓它們在戰(zhàn)斗中一展身手。每一個(gè)系統(tǒng)都有詳細(xì)的、明確的規(guī)定。
而現(xiàn)在,我們把這個(gè)酷炫的口袋妖怪世界作為評(píng)估ChatGPT知識(shí)和推理能力的環(huán)境!我們可以檢查ChatGPT對(duì)口袋妖怪世界的了解程度,并向它輸入新的知識(shí),讓它在妖怪們的戰(zhàn)斗中進(jìn)行推理,預(yù)測戰(zhàn)斗結(jié)果。
通過在口袋妖怪世界的實(shí)驗(yàn),我們能更好地評(píng)估ChatGPT的潛力和局限,看看它是否能夠?qū)W習(xí)新知識(shí),基于特定情境的特征組合進(jìn)行推理,從而做出更準(zhǔn)確的判斷。
為了評(píng)估ChatGPT,作者引入了一個(gè)分階段的對(duì)話框架(如下圖),包括三個(gè)明確定義的階段:
階段1:Audit knowledge
首先,ChatGPT具有口袋妖怪世界的背景知識(shí)嗎?
作者通過詢問一般性問題,如有關(guān)口袋妖怪類型和物種的描述,來審核ChatGPT對(duì)口袋妖怪世界的先驗(yàn)知識(shí)。這些檢索到的知識(shí)被存儲(chǔ)在local memory中,作為對(duì)話的上下文,以便在接下來的步驟中構(gòu)建合理的場景。同時(shí),這些知識(shí)還可以提高后續(xù)模型的回應(yīng)準(zhǔn)確性,減少虛構(gòu)情況的發(fā)生。
在階段一,作者從一些初步的一般性問題開始。這個(gè)階段對(duì)于隨后創(chuàng)建有效的溝通至關(guān)重要。我們區(qū)分global memory和local memory。前者是在訓(xùn)練期間獲得的,包括ChatGPT的先驗(yàn)知識(shí)。local memory僅限于我們之前的相互作用,并作為后驗(yàn)相互作用的參考點(diǎn)。ChatGPT對(duì)口袋妖怪類型等問題上有很強(qiáng)的抵抗能力。但在Q1.4中的對(duì)抗提問中失敗了。
下面是一個(gè)例子:注意ChatGPT的答案用顏色標(biāo)記,如果提供準(zhǔn)確的知識(shí),則用綠色,如果提供虛假陳述(幻覺),則用紅色,如果陳述模糊或不相關(guān),則用黃色。
階段2:Use of knowledge in context
作者呈現(xiàn)了特定的戰(zhàn)斗場景,其中口袋妖怪們的類型、等級(jí)、招式和狀態(tài)相互作用并導(dǎo)致特定的結(jié)果。ChatGPT將用于預(yù)測戰(zhàn)斗的結(jié)果,并逐步解釋其推理過程。這個(gè)階段將評(píng)估模型是否能夠基于特定情境(上下文)組合特征(組合性),從而確定戰(zhàn)斗結(jié)果。
在階段二,作者呈現(xiàn)了口袋妖怪的簡單戰(zhàn)斗場景,并逐漸增加復(fù)雜性(不同級(jí)別、天氣和狀態(tài)條件),并要求ChatGPT預(yù)測戰(zhàn)斗的結(jié)果并解釋其推理。這一階段將幫助我們理解模型是否可以基于決定其結(jié)果的特定場景(上下文)組合特征(組合性)。
結(jié)果發(fā)現(xiàn),大多數(shù)回答都是準(zhǔn)確的。ChatGPT了解口袋妖怪的類型、移動(dòng)(攻擊)和等級(jí)如何影響戰(zhàn)斗匹配。ChatGPT能夠預(yù)測,也可以全面地解釋其推理。但是,不同類型的問題上,ChatGPT的準(zhǔn)確性差異較大。
作者總共測試了24場戰(zhàn)斗:6場涉及不同類型(準(zhǔn)確率為83.3%),6場涉及不同級(jí)別(100%),7場涉及4種天氣條件(85.7%),6場涉及4種狀態(tài)效果(100%)。
作者介紹了具有正式規(guī)格(名稱、外觀、類型、招式)的新妖怪。然后,要求ChatGPT驗(yàn)證對(duì)這些新概念的掌握,并將其與其先前知識(shí)進(jìn)行比較。注意,ChatGPT將新引入的知識(shí)存儲(chǔ)在local memory中,但它將無法長時(shí)間引用它。
下面是一個(gè)測試?yán)樱鹤⒁釩hatGPT的答案用顏色標(biāo)記,如果提供準(zhǔn)確的知識(shí),則用綠色,如果提供虛假陳述(幻覺),則用紅色,如果陳述模糊或不相關(guān),則用黃色。
盡管在問題4.1中出現(xiàn)了部分幻覺,ChatGPT給出了相當(dāng)好的類比。作者進(jìn)一步評(píng)估新知識(shí)在語境中的整合,測試了新的與已知的口袋妖怪的戰(zhàn)斗。結(jié)果表明,ChatGPT能夠重用先驗(yàn)和新引入的知識(shí)來預(yù)測結(jié)果,即使涉及的兩個(gè)口袋妖怪都是新引入的。在這種情況下,模型給出了可靠的預(yù)測。
通過與ChatGPT在對(duì)話框架下的互動(dòng),可以得出以下結(jié)論:首先,模型所呈現(xiàn)的事實(shí)的準(zhǔn)確性取決于之前討論的內(nèi)容;其次,對(duì)抗性攻擊可能是成功的,但并不總是成功的,但一般來說,對(duì)話預(yù)處理(知識(shí)檢索)和協(xié)作反饋可以糾正先前模型的錯(cuò)誤。
責(zé)任編輯:彭菁
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4296瀏覽量
85798 -
模型
+關(guān)注
關(guān)注
1文章
3226瀏覽量
48806 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1558瀏覽量
7592
原文標(biāo)題:在口袋妖怪世界中理解ChatGPT的思維
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論