介紹
信息提?。↖nformation Extraction,IE)需要提取句子中的實(shí)體、關(guān)系、事件等,其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機(jī)構(gòu),因此,傳統(tǒng)的方法需要針對(duì)特定的任務(wù)進(jìn)行模型設(shè)計(jì)和數(shù)據(jù)標(biāo)注,使得難以推廣到新的模式中,極大限制了IE系統(tǒng)的使用。
2022年《Unified Structure Generation for Universal Information Extraction》一文,提出了通用信息提?。║IE)的概念,旨在使用一個(gè)通用模型來(lái)解決多個(gè)信息提取任務(wù),提出了一種Seq2Seq的生成模型,以結(jié)構(gòu)化模式提示器+文本內(nèi)容作為輸出,直接生成結(jié)構(gòu)化抽取語(yǔ)言,最終獲取信息提取內(nèi)容。
然而,由于Seq2Seq的生成模型的黑盒特性,導(dǎo)致無(wú)法判斷跨任務(wù)或跨模式的遷移在什么情況下會(huì)成功or失敗。因此,本論文提出了統(tǒng)一語(yǔ)義匹配框架(Universal Information Extraction,USM)對(duì)各種信息提取任務(wù)進(jìn)行統(tǒng)一建模,明確模型在遷移過(guò)程的有效性、健壯性和可解釋性。
如圖1所示,IE任務(wù)中多樣化的任務(wù)和抽取目標(biāo),可以解耦為以下兩個(gè)操作:
(1)Structuring,即結(jié)構(gòu)化,從文本中抽取目標(biāo)結(jié)構(gòu)中標(biāo)簽未知的基本子結(jié)構(gòu)。例如:抽取“Monet”、“Paris”、“France”等文本或者“ Monet-Paris”、“France-Paris”等文本pair對(duì)。
(2) Conceptualizing,即概念化,它將抽取文本和文本pair對(duì)與目標(biāo)語(yǔ)義標(biāo)簽進(jìn)行對(duì)應(yīng)。例如:“Monet”與“person”標(biāo)簽進(jìn)行對(duì)應(yīng),“Monet”-"Paris"與“birth place”標(biāo)簽進(jìn)行對(duì)應(yīng)。
并且在給定目標(biāo)抽取模式時(shí),可以通過(guò)結(jié)構(gòu)化操作,重新建立抽取目標(biāo)結(jié)構(gòu)與文本的語(yǔ)義信息;通過(guò)概念化操作,將抽取文本或文本pair與目標(biāo)語(yǔ)義標(biāo)簽進(jìn)行匹配,完成信息抽取任務(wù)。
USM框架基于上述發(fā)現(xiàn)的規(guī)則,將結(jié)構(gòu)化和概念化轉(zhuǎn)化為一系列有向Token-Linking操作,聯(lián)合建模文本與模式,統(tǒng)一抽取文本或文本pair,并根據(jù)需要可控生成目標(biāo)結(jié)構(gòu),實(shí)現(xiàn)在不同的目標(biāo)結(jié)構(gòu)和語(yǔ)義模式之間進(jìn)行共享抽取的功能。
基于有向Token-Linking的統(tǒng)一語(yǔ)義匹配
如圖2所示,USM框架以任意抽取標(biāo)簽?zāi)J胶驮嘉谋咀鳛檩斎耄鶕?jù)給定的模式直接輸出結(jié)構(gòu)。
Schema-Text Joint Embedding
Token-Token Linking for Structuring
在得到標(biāo)簽-文本聯(lián)合上下文嵌入后,USM框架使用Token-Token鏈接(TTL)操作抽取所有有效的文本片段。
Utterance:輸入文本中的一段連續(xù)Token序列,例如:實(shí)體文本“Monet”、事件觸發(fā)詞“born in”等。如圖3所示,通過(guò)片段的頭尾連接(H2T),抽取一個(gè)文本片段。例如,“Monet”是自身到自身,“born in”是“born”到“in”。
Association pair:輸入文本中的相關(guān)文本pair對(duì),例如,具有主客體關(guān)系的“Monet”-“Paris”文本對(duì),具有觸發(fā)詞-要素關(guān)系的“born in”-“Paris”文本對(duì)。如圖3所示,通過(guò)頭頭連接(H2H)和尾尾連接(T2T),抽取文本對(duì)。
LTL操作的輸出是標(biāo)簽名詞和文本內(nèi)容的pair對(duì),例如:"person"- “Monet”、"country"-“Paris”等。有兩種類型的概念化:
實(shí)體的類型,即為每一個(gè)文本分配標(biāo)簽類型,例如,實(shí)體“Monet”的類型為person。
客體的謂詞,即將謂詞類型賦給每個(gè)候選客體,例如,客體“Paris”的謂語(yǔ)詞為birth place。其中,實(shí)體的類型和客體的謂詞在概念化時(shí)采用相同的LT操作,使得兩種標(biāo)簽語(yǔ)義之間相互加強(qiáng)。并按照頭尾片段抽取風(fēng)格,使用label到head(L2H)和label到tail(L2T)來(lái)定義L2T鏈路操作,例如,客體的謂詞“Paris”-“birth place”,將標(biāo)簽“birth place”的頭“birth”與客體“Paris”鏈接,將標(biāo)簽“birth place”尾頭“ place”與客體“Paris”鏈接。計(jì)算LTL的得分,如下:
Token-Label Linking for Pairing Conceptualizing
為了概念化文本pair對(duì),USM框架使用 Token-Label鏈接(TLL)將文本pair對(duì)的主體鏈接到標(biāo)簽上。也就是,TLL操作用head到label(H2L)和tail到label(T2L)操作連接了三元組中主體和謂語(yǔ)詞。例如,主體“Monet”的head“Monet”鏈接標(biāo)簽“birth place”的head“birth”,主體“Monet”的tail“Monet”鏈接標(biāo)簽“birth place”的tail“place”。計(jì)算TLL的得分,如下:
Schema-constraint Decoding for Structure Composing
USM框架采用模式約束解碼算法來(lái)解碼最終結(jié)構(gòu),通過(guò)統(tǒng)一的token-linking操作提取給定的文本結(jié)構(gòu)。如圖3所示,USM框架,首先解碼由TTL操作提取的實(shí)體文本和主客體文本,例如:“Monet”,“Paris”,“France”,“Monet”-“Pairs”,“France”-“Pairs”;然后通過(guò)LTL操作對(duì)標(biāo)簽名詞和文本內(nèi)容的pair對(duì)進(jìn)行解碼,例如:“person”-“Monet”,“country”-“France”,“birth place”-“Paris”,“capital”-“Paris”;最后利用TLL操作對(duì)標(biāo)簽及文本對(duì)進(jìn)行解碼,例如:“Monet”-“birth place”,“France”-“capital”。
由于以上三種鏈接操作互不影響,因此,在進(jìn)行模型推理過(guò)程中,三種操作是高度并行的。
最后,可以根據(jù)從輸入類型的模式定義,將實(shí)體類型country和person與關(guān)系類型 birth place和capital分離出來(lái)。根據(jù)TLL操作的結(jié)果“Monet”-“birth place”,“France”-“capital”,可以得到完整的三元組結(jié)構(gòu)“Monet”-“birth place”-Paris和“France”-“capital”-“Paris”。
Learning from Heterogeneous Supervision
本文利用異構(gòu)監(jiān)督資源來(lái)學(xué)習(xí)統(tǒng)一令牌鏈接的通用結(jié)構(gòu)和概念化能力,通過(guò)語(yǔ)言化的標(biāo)簽表示和統(tǒng)一的token鏈接,將異構(gòu)的監(jiān)督數(shù)據(jù)統(tǒng)一為
Pre-training
USM框架對(duì)共享語(yǔ)義表示中的標(biāo)簽?zāi)J胶臀谋具M(jìn)行統(tǒng)一編碼,并使用統(tǒng)一的token-linking對(duì)文本中的信息進(jìn)行結(jié)構(gòu)化和概念化。幫助為了學(xué)習(xí)常見(jiàn)的結(jié)構(gòu)和概念化能力,本文收集了三種不同的監(jiān)督數(shù)據(jù)用于USM的預(yù)訓(xùn)練。
任務(wù)數(shù)據(jù):來(lái)自信息抽取任務(wù)的標(biāo)注數(shù)據(jù),即數(shù)據(jù)樣本都有一個(gè)金標(biāo)準(zhǔn)。
遠(yuǎn)程監(jiān)督數(shù)據(jù):數(shù)據(jù)樣本來(lái)自文本和知識(shí)庫(kù)對(duì)齊。
間接監(jiān)督數(shù)據(jù):數(shù)據(jù)樣本來(lái)自其他相關(guān)的NLP任務(wù),主要使用機(jī)器閱讀理解的數(shù)據(jù),將(問(wèn)題-文檔-答案)實(shí)例中問(wèn)題作為標(biāo)簽?zāi)J?,文檔作為輸入文本,答案作為提及。
Learning function
在訓(xùn)練過(guò)程中,由于token-linking占比僅為所有token鏈接候選集合的1%,因此在模型優(yōu)化過(guò)程中,標(biāo)簽的極端稀疏性是要重點(diǎn)解決的問(wèn)題。
主要采用類別不平衡損失函數(shù),
實(shí)驗(yàn)
監(jiān)督實(shí)驗(yàn)
在4個(gè)任務(wù)的13個(gè)數(shù)據(jù)集上與其他sota模型進(jìn)行了對(duì)比實(shí)驗(yàn),其中AVE-unify表示非重疊數(shù)據(jù)集的平均指標(biāo),AVE-total表示所有數(shù)據(jù)集的平均指標(biāo),如表1所示,
USM框架達(dá)到了sota的效果,并在AVE-total上優(yōu)于各任務(wù)sota方法1.3,及時(shí)在不使用預(yù)訓(xùn)練模型的情況下,用Roberta初始化的USM框架也表現(xiàn)出了較好的效果,說(shuō)明統(tǒng)一token-linking具有較強(qiáng)的可遷移性和泛化能力。
采用異構(gòu)數(shù)據(jù)的預(yù)訓(xùn)練的USM框架相比于Roberta初始化的USM框架在所有數(shù)據(jù)集上平均提高了0.74,說(shuō)明異構(gòu)預(yù)訓(xùn)練為信息抽取的結(jié)構(gòu)化和概念化提供了更好的基礎(chǔ)。
在所有任務(wù)上進(jìn)行微調(diào)的USM-Unify模型也表現(xiàn)出,說(shuō)明USM框架可以通過(guò)單一的多任務(wù)模型解決大量信息抽取任務(wù)。
Zero-shot實(shí)驗(yàn)
在不同領(lǐng)域的9個(gè)數(shù)據(jù)集上進(jìn)行了Zero-shot實(shí)驗(yàn),如表2所示,
遠(yuǎn)程監(jiān)督數(shù)據(jù)和間接監(jiān)督數(shù)據(jù)在預(yù)訓(xùn)練過(guò)程中起到很重要的作用。通過(guò)表3,可以看出,在330M參數(shù)下,就可以比137B參數(shù)量的GPT3模型效果更優(yōu)。
Few-shot實(shí)驗(yàn)
在四個(gè)信息任務(wù)上進(jìn)行了Few-shot實(shí)驗(yàn),如表4所示,
USM框架在少量數(shù)據(jù)下要比UIE效果更優(yōu),并且要好于使用Roberta進(jìn)行初始化的模型。當(dāng)將標(biāo)簽文本轉(zhuǎn)化成固定符號(hào)表示時(shí),效果變差,說(shuō)明語(yǔ)言表達(dá)標(biāo)簽?zāi)J讲⒉皇菬o(wú)意義的,在語(yǔ)義表征過(guò)程中,它起到了決定性的作用。
總結(jié)
該論文通過(guò)三種統(tǒng)一的Token-Linking操作,實(shí)現(xiàn)信息抽取任務(wù)的統(tǒng)一模型,讓我眼前一亮,相較于Seq2Seq模型來(lái)說(shuō),該方法的可解釋性更強(qiáng)。
審核編輯:劉清
-
USM
+關(guān)注
關(guān)注
0文章
7瀏覽量
7222 -
GPT
+關(guān)注
關(guān)注
0文章
352瀏覽量
15342 -
nlp
+關(guān)注
關(guān)注
1文章
488瀏覽量
22033
原文標(biāo)題:AAAI2023 | 基于統(tǒng)一語(yǔ)義匹配的通用信息抽取框架-USM
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論