一句話總結(jié)
信息抽取任務(wù)具有多樣的抽取目標(biāo)和異構(gòu)的結(jié)構(gòu),而傳統(tǒng)的模型需要針對(duì)特定的任務(wù)進(jìn)行任務(wù)設(shè)計(jì)和標(biāo)簽標(biāo)注,這樣非常的耗時(shí)耗力。本文提出一種USM方法,將各種信息抽取任務(wù)通過(guò)一種統(tǒng)一的模型方法完成。
USM
信息抽?。↖E)的挑戰(zhàn)在于標(biāo)簽?zāi)J降亩鄻有院徒Y(jié)構(gòu)的異構(gòu)性。
傳統(tǒng)方法需要針對(duì)特定任務(wù)的模型設(shè)計(jì),并且嚴(yán)重依賴昂貴的監(jiān)督,因此很難推廣到新模式。
在本文中,我們將 IE 分解為兩種基本能力,「結(jié)構(gòu)化」(Structuring)和「概念化」(Conceptualizing),它們由不同的任務(wù)和模式共享。
基于這種范式,我們建議使用「統(tǒng)一語(yǔ)義匹配 (Unified Semantic Matching, USM)」 框架對(duì)各種 IE 任務(wù)進(jìn)行通用建模,該框架引入了三個(gè)統(tǒng)一的標(biāo)記鏈接操作來(lái)建模結(jié)構(gòu)化和概念化的能力。
這樣,USM 可以聯(lián)合編碼模式和輸入文本,并行地統(tǒng)一提取子結(jié)構(gòu),并按需可控地解碼目標(biāo)結(jié)構(gòu)。
本文的貢獻(xiàn)為:
算法細(xì)節(jié)
實(shí)驗(yàn)分析
對(duì) 4 個(gè) IE 任務(wù)的實(shí)證評(píng)估表明,所提出的方法在監(jiān)督實(shí)驗(yàn)下實(shí)現(xiàn)了最先進(jìn)的性能,并在零/少鏡頭傳輸設(shè)置中表現(xiàn)出強(qiáng)大的泛化能力。
USM在不同數(shù)據(jù)集上的結(jié)果
零樣本遷移實(shí)驗(yàn)
少樣本實(shí)驗(yàn)
總結(jié)
在本文中,我們提出了一個(gè)統(tǒng)一的語(yǔ)義匹配框架——USM,它對(duì)提取模式和輸入文本進(jìn)行聯(lián)合編碼,并行地統(tǒng)一提取子結(jié)構(gòu),并按需可控地解碼目標(biāo)結(jié)構(gòu)。
實(shí)驗(yàn)結(jié)果表明,USM 在監(jiān)督實(shí)驗(yàn)下實(shí)現(xiàn)了最先進(jìn)的性能,并在零/少場(chǎng)景設(shè)置下表現(xiàn)出強(qiáng)大的泛化能力,驗(yàn)證了 USM 是一種新穎、可傳輸、可控和高效的框架。
對(duì)于未來(lái)的工作,我們希望將 USM 擴(kuò)展到 NLU 任務(wù),例如文本分類,并研究 IE 的更多間接監(jiān)督信號(hào),例如文本蘊(yùn)含。
審核編輯:劉清
-
編碼器
+關(guān)注
關(guān)注
45文章
3638瀏覽量
134426 -
編解碼
+關(guān)注
關(guān)注
1文章
140瀏覽量
19612 -
USM
+關(guān)注
關(guān)注
0文章
7瀏覽量
7222
原文標(biāo)題:AAAI2023 | 百度+中科院提出USM:一種信息抽取的大一統(tǒng)方法
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論