RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型如何快速構(gòu)建指令遵循數(shù)據(jù)集

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-06-27 16:56 ? 次閱讀

一、概述

1 Motivation

構(gòu)造instruction data非常耗時(shí)耗力,常受限于質(zhì)量,多樣性,創(chuàng)造性,阻礙了instruction-tuned模型的發(fā)展。

背景:instruction-tuned方法是指利用非常多的指令數(shù)據(jù)【人類(lèi)instructions指令和respond回答數(shù)據(jù)】去finetuned LLM模型,讓模型能夠理解人類(lèi)指令,訓(xùn)練后使其對(duì)新的任務(wù)有非常強(qiáng)的zero-shot能力。

2 Methods

方法概述:本文提出self-instruct框架,通過(guò)bootstrapping off方法讓原始的LM模型直接生成instruction數(shù)據(jù),通過(guò)過(guò)濾和篩選后,產(chǎn)生大量的insturction指令數(shù)據(jù)(多樣性和效果都不錯(cuò)),進(jìn)而可以極大降低instruction數(shù)據(jù)的構(gòu)建成本。

方法步驟總結(jié):通過(guò)少量種子數(shù)據(jù) + LM模型本身(未經(jīng)過(guò)tuned模型)=> 生成instruction(指令)+ input(指令提到的輸入,可以為空)+ output(響應(yīng)輸出)=> 然后filters過(guò)濾無(wú)效和相似的樣本 => 來(lái)構(gòu)造非常多的instruction指令遵循數(shù)據(jù),詳細(xì)步驟如下:

d4cc32ac-14c1-11ee-962d-dac502259ad0.png

2.1 Defining Instruction Data

Instruction:指令

X:根據(jù)instruction,X可能為空或者不為空。例如:輸入X為空的Instruction:write an essay about school safety,輸入不為空的Instruction:write an essay about the following topic

Y:答案,只根據(jù)X或者Instruction理想的response回答

2.2 Automatic Instruction Data Generation

Instruction Generation:使用175個(gè)種子數(shù)據(jù)來(lái)生成新的Instruction,每一步采用8-few-shot的策略,其中6個(gè)是人類(lèi)寫(xiě)的,2個(gè)是機(jī)器生成的。

d50f2d6e-14c1-11ee-962d-dac502259ad0.png

Classification Task Identification:利用LM采用few-shot的方式來(lái)預(yù)測(cè)1中生成的instructions是否為分類(lèi)任務(wù),采用12個(gè)分類(lèi)任務(wù),19個(gè)非分類(lèi)任務(wù)作為few-shot的例子。

d52c46d8-14c1-11ee-962d-dac502259ad0.png

2.3 Instance Generation:采用兩種方法來(lái)生成實(shí)例X和Y

輸入優(yōu)先方法(Input-first Approach),首先根據(jù)說(shuō)明提出輸入字段X,然后產(chǎn)生相應(yīng)的輸出Y,這里task就是input X,output就是輸出Y,也是通過(guò)in-context learning來(lái)做的,主要處理非分類(lèi)的實(shí)例生成。

d561ab66-14c1-11ee-962d-dac502259ad0.png

分類(lèi)任務(wù)的輸出優(yōu)先方法(Output-first Approach),先生成可能的類(lèi)標(biāo)簽,然后生成對(duì)應(yīng)句子【這么做是為了控制正負(fù)樣本比例】

d576ee0e-14c1-11ee-962d-dac502259ad0.png

2.4Filtering and Postprocessing

過(guò)濾相似度比較高的,和已有的樣本ROUGE-L小于0.7的才要

過(guò)濾image,picture,graph通常LLM無(wú)法處理的詞

過(guò)濾instruction相同但是answer不同的

過(guò)濾太長(zhǎng)或者太短

2.5FineTuning

采用多個(gè)templates模版,來(lái)encode instruction和instance進(jìn)行訓(xùn)練,提升不同格式的魯棒性。

3 Conclusion

比原始的GPT-3模型,絕對(duì)提升了33%,并且達(dá)到了差不多追上InstructGPT001的效果。就算利用公開(kāi)的instruct數(shù)據(jù),也有不錯(cuò)的提升。

d5ad3130-14c1-11ee-962d-dac502259ad0.png

總結(jié):

就用了175個(gè)原始種子數(shù)據(jù),利用GPT3接口finetuned模型,比原始的GPT3高了33個(gè)點(diǎn),并且居然和InstructGPT001效果差不太多了。

有了充分的訓(xùn)練數(shù)據(jù),在SUPERNI數(shù)據(jù)集(其更偏向于研究領(lǐng)域任務(wù),與人類(lèi)的Instruction的分布還是有差異,后續(xù)也針對(duì)真實(shí)的人類(lèi)Instruction分布做了實(shí)驗(yàn))上訓(xùn)練,用了本文提出的self-instruct還是有2個(gè)點(diǎn)的提升。

self-instruct提供了一個(gè)不用大量標(biāo)注就能讓原始的LM(未經(jīng)過(guò)指令學(xué)習(xí)的模型)學(xué)習(xí)理解人類(lèi)指令的解決方案,極大地降低指令數(shù)據(jù)的生成和標(biāo)注成本。

本文發(fā)布了大規(guī)模的synthetic數(shù)據(jù)集,方便后續(xù)大家進(jìn)行instruction tuning的研究。

4 limitation

長(zhǎng)尾效應(yīng)還比較嚴(yán)重:self-instruct依賴(lài)于LMs生成數(shù)據(jù),會(huì)繼承LM的缺陷,偏向于出現(xiàn)頻率高的詞。在常見(jiàn)的指令上效果可能不錯(cuò),在長(zhǎng)尾樣本上可能效果比較差。

依賴(lài)大模型:依賴(lài)大模型的歸納偏差(inductive biases),可能只在大模型上效果比較好,由于大模型資源要求比較大,這也限制了小模型的使用。

可能會(huì)增強(qiáng)LM的偏見(jiàn):可能會(huì)放大social bias,例如模型可能無(wú)法產(chǎn)生比較balanced的label。

二、詳細(xì)內(nèi)容

1 評(píng)估本文self-instruct在用戶(hù)實(shí)際需求的Instructions上是否有效果

d5ca21be-14c1-11ee-962d-dac502259ad0.png

背景:SUPERNI數(shù)據(jù)更偏向于研究任務(wù),這里通過(guò)頭腦風(fēng)暴構(gòu)造了一些更偏向用戶(hù)實(shí)際需求的Instructions,來(lái)檢驗(yàn)self-instruct的效果,還是和InstructGPT系列來(lái)比較

d6073b76-14c1-11ee-962d-dac502259ad0.png

結(jié)論:效果也基本接近InstructGPT001,說(shuō)明了其有效性,這里只使用了252個(gè)種子數(shù)據(jù),也可以極大地降低Instruction構(gòu)建的成本。

2 評(píng)估使用本文self-instruct方法擴(kuò)充的Instruction是否真的有用

方法:從Instruction數(shù)量、回復(fù)response質(zhì)量?jī)蓚€(gè)角度來(lái)進(jìn)行試驗(yàn),其中response質(zhì)量對(duì)比是通過(guò)蒸餾更好模型的response來(lái)做的實(shí)驗(yàn)。

d623ea96-14c1-11ee-962d-dac502259ad0.png

實(shí)驗(yàn)1:評(píng)估擴(kuò)充的訓(xùn)練數(shù)據(jù)量級(jí)對(duì)效果的影響

方法:從最開(kāi)始的175個(gè)種子數(shù)據(jù),逐步增加數(shù)據(jù)量,評(píng)估效果。

結(jié)論:大概訓(xùn)練數(shù)據(jù)在16K左右,效果就比較平了,帶來(lái)的提升沒(méi)那么大了。

實(shí)驗(yàn)2:評(píng)估生成的response的質(zhì)量對(duì)效果的影響(從更好的模型InstructGPT蒸餾得到更好的response)

結(jié)論:44.4%提升到54.4%,說(shuō)明更好的回復(fù)質(zhì)量對(duì)模型的提升也是巨大的。

3 生成的數(shù)據(jù)量級(jí)

d65ba30a-14c1-11ee-962d-dac502259ad0.png

訓(xùn)練GPT3的數(shù)據(jù)量級(jí):52k個(gè)Instruction數(shù)據(jù),82k個(gè)實(shí)例。

4 生成的數(shù)據(jù)的多樣性

d67029ce-14c1-11ee-962d-dac502259ad0.png

d6a12c5e-14c1-11ee-962d-dac502259ad0.png

評(píng)估方法1:挑選top20最常見(jiàn)的動(dòng)詞,然后畫(huà)出其top4的直接noun object分布,衡量整體的數(shù)據(jù)分布。

評(píng)估方法2:畫(huà)出與種子數(shù)據(jù)中,最相近文本的Rouge-L的分布,衡量與種子數(shù)據(jù)的分布差異。

結(jié)論:發(fā)現(xiàn)多樣性還不錯(cuò),這也是生成的數(shù)據(jù)能讓模型學(xué)會(huì)通用的指令遵循的原因之一。

5 生成數(shù)據(jù)的質(zhì)量

d6bb8b6c-14c1-11ee-962d-dac502259ad0.png

統(tǒng)計(jì)指標(biāo):隨機(jī)挑選200個(gè)指令,每個(gè)指令隨機(jī)挑選一個(gè)實(shí)例來(lái)標(biāo)注

指令有效率:92%

input與指令一致:79%

output正確(能很好地響應(yīng)Instruction和input的要求):58%

各個(gè)場(chǎng)景都有效:54%

總結(jié):盡管生成的數(shù)據(jù)還是包含誤差,但是大多數(shù)還是正確的,可以提供有用的指導(dǎo),讓模型能學(xué)會(huì)遵循人類(lèi)指令。

三、個(gè)人總結(jié)

相當(dāng)于驗(yàn)證了少量種子數(shù)據(jù) + 原始預(yù)訓(xùn)練模型 => 生成大批量 多樣性 + 質(zhì)量還不錯(cuò)的 指令數(shù)據(jù)的可行性 => 好處是可以極大降低指令遵循數(shù)據(jù)集構(gòu)建的成本

這篇文章解釋了為什么大模型能聽(tīng)懂人類(lèi)指令的困惑,可以看出,原始的GPT-3模型學(xué)習(xí)了非常多的知識(shí),但是人類(lèi)指令遵循的能力非常非常差,通過(guò)self-instruct構(gòu)造大量的多樣、高質(zhì)量的指令數(shù)據(jù)和答案,模型就開(kāi)始能聽(tīng)懂指令,理解這個(gè)指令的具體含義,并給出人類(lèi)期望的respond響應(yīng)。其中指令的【多樣性】和回復(fù)的【質(zhì)量】是非常關(guān)鍵的兩個(gè)因素。

d6ce9644-14c1-11ee-962d-dac502259ad0.png

對(duì)于如何對(duì)齊人類(lèi)的價(jià)值觀:可以參考復(fù)旦moss模型【參考資源1】,也是構(gòu)造了非常多的對(duì)人類(lèi)無(wú)害的種子數(shù)據(jù),然后利用模型生成非常多的指令遵循數(shù)據(jù),讓模型盡可能的生成無(wú)害的結(jié)果,從另一個(gè)角度看,如果不法分子誘導(dǎo)模型去生成暴力傾向等不符合人類(lèi)期望的答案,那么可能會(huì)訓(xùn)練出毒性非常大的模型,這也是非??植赖模y怪微軟的文章說(shuō)原始的gpt-3.5系列可能具備更強(qiáng)的能力,說(shuō)明OpenAI在這方面做了非常強(qiáng)的約束。也難怪OpenAI強(qiáng)烈建議對(duì)大模型進(jìn)行監(jiān)管。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器
    +關(guān)注

    關(guān)注

    0

    文章

    780

    瀏覽量

    40711
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3226

    瀏覽量

    48807
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24689

原文標(biāo)題:ACL2023 | 大模型如何快速構(gòu)建指令遵循數(shù)據(jù)集?Self-Instruct:只需175條種子數(shù)據(jù)追上InstructGPT

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    請(qǐng)問(wèn)NanoEdge AI數(shù)據(jù)該如何構(gòu)建

    我想用NanoEdge來(lái)識(shí)別異常的聲音,但我目前沒(méi)有辦法生成模型,我感覺(jué)可能是數(shù)據(jù)的問(wèn)題,請(qǐng)問(wèn)我該怎么構(gòu)建數(shù)據(jù)
    發(fā)表于 05-28 07:27

    高階API構(gòu)建模型數(shù)據(jù)使用

    了TensorFlow2.0Beta版本,同pytorch一樣支持動(dòng)態(tài)執(zhí)行(TensorFlow2.0默認(rèn)eager模式,無(wú)需啟動(dòng)會(huì)話執(zhí)行計(jì)算圖),同時(shí)刪除了雜亂低階API,使用高階API簡(jiǎn)單地構(gòu)建復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,本文主要分享用高階API
    發(fā)表于 11-04 07:49

    ARM指令集詳解

    ARM指令集詳解 內(nèi)容提要 ARM指令集 ARM指令集分類(lèi)與指令格式 ARM指令的尋址方式 ARM
    發(fā)表于 03-09 09:39 ?263次下載
    ARM<b class='flag-5'>指令集</b>詳解

    sse指令集

    sse指令集 SSE(Streaming SIMD Extensions,單指令數(shù)據(jù)流擴(kuò)展)指令集是Intel在Pentium III處理器中率先推出的。其實(shí),早在PIII正式推出
    發(fā)表于 12-25 10:59 ?1561次閱讀

    ARM和Thumb-2指令集快速參考卡

    ARM和Thumb-2指令集快速參考卡,有需要的下來(lái)看看。
    發(fā)表于 01-12 18:07 ?21次下載

    Thumb指令集之Thumb編程模型

    所有的Thumb指令都是16位的。它們都是ARM指令重新編碼得到的,所以繼承了ARM指令集的許多特點(diǎn)。 ① 有數(shù)據(jù)處理、數(shù)據(jù)傳送和流控制的
    發(fā)表于 10-19 10:02 ?0次下載

    ARM和Thumb-2的指令集快速參考卡

    ARM和Thumb-2的指令集快速參考卡
    發(fā)表于 10-30 09:13 ?21次下載
    ARM和Thumb-2的<b class='flag-5'>指令集</b><b class='flag-5'>快速</b>參考卡

    thumb指令集是什么_thumb指令集與arm指令集的區(qū)別

    。thumb不是一個(gè)完整的體系結(jié)構(gòu),不能指望處理器只執(zhí)行thumb指令集而不支持arm指令集。 thumb指令集分為:分支指令數(shù)據(jù)傳送
    發(fā)表于 11-03 17:34 ?1.8w次閱讀
    thumb<b class='flag-5'>指令集</b>是什么_thumb<b class='flag-5'>指令集</b>與arm<b class='flag-5'>指令集</b>的區(qū)別

    mips指令集指的是什么

    指令集是存儲(chǔ)在CPU內(nèi)部,對(duì)CPU運(yùn)算進(jìn)行指導(dǎo)和優(yōu)化的硬程序。擁有這些指令集,CPU就可以更高效地運(yùn)行。MIPS指令集屬于精簡(jiǎn)指令集,MIPS的所有
    發(fā)表于 12-16 10:25 ?1.3w次閱讀

    模型如何快速構(gòu)建指令遵循數(shù)據(jù)?

    構(gòu)造instruction data非常耗時(shí)耗力,常受限于質(zhì)量,多樣性,創(chuàng)造性,阻礙了instruction-tuned模型的發(fā)展。
    的頭像 發(fā)表于 06-27 16:52 ?2881次閱讀
    大<b class='flag-5'>模型</b>如何<b class='flag-5'>快速</b><b class='flag-5'>構(gòu)建</b><b class='flag-5'>指令</b><b class='flag-5'>遵循</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>?

    如何構(gòu)建高質(zhì)量的大語(yǔ)言模型數(shù)據(jù)

    構(gòu)建高質(zhì)量的大語(yǔ)言模型數(shù)據(jù)是訓(xùn)練強(qiáng)大自然語(yǔ)言處理模型的關(guān)鍵一步。以下是一些關(guān)鍵步驟和考慮因素,有助于創(chuàng)建具有多樣性、準(zhǔn)確性和時(shí)效性的
    的頭像 發(fā)表于 09-11 17:00 ?1577次閱讀

    如何解決LLMs的規(guī)則遵循問(wèn)題呢?

    傳統(tǒng)的計(jì)算系統(tǒng)是圍繞計(jì)算機(jī)程序中表達(dá)的指令的執(zhí)行來(lái)設(shè)計(jì)的。相反,語(yǔ)言模型可以遵循用自然語(yǔ)言表達(dá)的指令,或者從大量數(shù)據(jù)中的隱含模式中學(xué)習(xí)該做什
    的頭像 發(fā)表于 11-15 09:33 ?560次閱讀
    如何解決LLMs的規(guī)則<b class='flag-5'>遵循</b>問(wèn)題呢?

    模型數(shù)據(jù)構(gòu)建、挑戰(zhàn)與未來(lái)趨勢(shì)

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,大型預(yù)訓(xùn)練模型如GPT-4、BERT等在各個(gè)領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù),為
    的頭像 發(fā)表于 12-06 15:28 ?1792次閱讀

    模型數(shù)據(jù):突破邊界,探索未來(lái)

    隨著人工智能技術(shù)的快速發(fā)展,大型預(yù)訓(xùn)練模型如GPT-4、BERT等在自然語(yǔ)言處理領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)
    的頭像 發(fā)表于 12-06 16:10 ?641次閱讀

    模型數(shù)據(jù):力量的源泉,進(jìn)步的階梯

    一、引言 在? ? 的繁榮發(fā)展中,大模型數(shù)據(jù)的作用日益凸顯。它們?nèi)琮嫶蟮闹R(shí)庫(kù),為AI提供了豐富的信息和理解能力。本文將用一種獨(dú)特的風(fēng)格來(lái)探討大模型
    的頭像 發(fā)表于 12-07 17:18 ?677次閱讀
    RM新时代网站-首页