RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹一種信息抽取的大一統(tǒng)方法USM

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-02-15 14:13 ? 次閱讀

一句話總結(jié)

信息抽取任務(wù)具有多樣的抽取目標(biāo)和異構(gòu)的結(jié)構(gòu),而傳統(tǒng)的模型需要針對(duì)特定的任務(wù)進(jìn)行任務(wù)設(shè)計(jì)和標(biāo)簽標(biāo)注,這樣非常的耗時(shí)耗力。本文提出一種USM方法,將各種信息抽取任務(wù)通過(guò)一種統(tǒng)一的模型方法完成。

USM

信息抽?。↖E)的挑戰(zhàn)在于標(biāo)簽?zāi)J降亩鄻有院徒Y(jié)構(gòu)的異構(gòu)性。

傳統(tǒng)方法需要針對(duì)特定任務(wù)的模型設(shè)計(jì),并且嚴(yán)重依賴昂貴的監(jiān)督,因此很難推廣到新模式。

在本文中,我們將 IE 分解為兩種基本能力,「結(jié)構(gòu)化」(Structuring)和「概念化」(Conceptualizing),它們由不同的任務(wù)和模式共享。

abc7115e-a3c1-11ed-bfe3-dac502259ad0.png

基于這種范式,我們建議使用「統(tǒng)一語(yǔ)義匹配 (Unified Semantic Matching, USM)」 框架對(duì)各種 IE 任務(wù)進(jìn)行通用建模,該框架引入了三個(gè)統(tǒng)一的標(biāo)記鏈接操作來(lái)建模結(jié)構(gòu)化和概念化的能力。

abece0e6-a3c1-11ed-bfe3-dac502259ad0.pngac0badfa-a3c1-11ed-bfe3-dac502259ad0.png

這樣,USM 可以聯(lián)合編碼模式和輸入文本,并行地統(tǒng)一提取子結(jié)構(gòu),并按需可控地解碼目標(biāo)結(jié)構(gòu)。

本文的貢獻(xiàn)為:

ac4c707e-a3c1-11ed-bfe3-dac502259ad0.png

算法細(xì)節(jié)

ac58de0e-a3c1-11ed-bfe3-dac502259ad0.pngac70e24c-a3c1-11ed-bfe3-dac502259ad0.png

ac828a74-a3c1-11ed-bfe3-dac502259ad0.png

實(shí)驗(yàn)分析

對(duì) 4 個(gè) IE 任務(wù)的實(shí)證評(píng)估表明,所提出的方法在監(jiān)督實(shí)驗(yàn)下實(shí)現(xiàn)了最先進(jìn)的性能,并在零/少鏡頭傳輸設(shè)置中表現(xiàn)出強(qiáng)大的泛化能力。

ac97968a-a3c1-11ed-bfe3-dac502259ad0.png

USM在不同數(shù)據(jù)集上的結(jié)果

acbd6996-a3c1-11ed-bfe3-dac502259ad0.png

零樣本遷移實(shí)驗(yàn)

acca6448-a3c1-11ed-bfe3-dac502259ad0.png

少樣本實(shí)驗(yàn)

總結(jié)

在本文中,我們提出了一個(gè)統(tǒng)一的語(yǔ)義匹配框架——USM,它對(duì)提取模式和輸入文本進(jìn)行聯(lián)合編碼,并行地統(tǒng)一提取子結(jié)構(gòu),并按需可控地解碼目標(biāo)結(jié)構(gòu)。

實(shí)驗(yàn)結(jié)果表明,USM 在監(jiān)督實(shí)驗(yàn)下實(shí)現(xiàn)了最先進(jìn)的性能,并在零/少場(chǎng)景設(shè)置下表現(xiàn)出強(qiáng)大的泛化能力,驗(yàn)證了 USM 是一種新穎、可傳輸、可控和高效的框架。

對(duì)于未來(lái)的工作,我們希望將 USM 擴(kuò)展到 NLU 任務(wù),例如文本分類,并研究 IE 的更多間接監(jiān)督信號(hào),例如文本蘊(yùn)含。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3638

    瀏覽量

    134426
  • 編解碼
    +關(guān)注

    關(guān)注

    1

    文章

    140

    瀏覽量

    19612
  • USM
    USM
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    7222

原文標(biāo)題:AAAI2023 | 百度+中科院提出USM:一種信息抽取的大一統(tǒng)方法

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    請(qǐng)問下VGA應(yīng)用中硅器件注定要改變砷化鎵一統(tǒng)的局面?

    請(qǐng)問下VGA應(yīng)用中硅器件注定要改變砷化鎵一統(tǒng)的局面?
    發(fā)表于 05-21 07:05

    PD快充協(xié)議有望一統(tǒng)嗎?

    PD快充有望一統(tǒng)?市面上存在著多種快充協(xié)議,QC 4.0, QC 3.0, SCP, FCP, PE3.0, PE2.0, VOOC, 在魚龍混雜的市場(chǎng)上,作為USB標(biāo)準(zhǔn)制作者,USB-IF(USB
    發(fā)表于 11-30 10:01

    基于子樹廣度的Web信息抽取

    提出一種新的網(wǎng)頁(yè)信息抽取方法,基于子樹的廣度可不加區(qū)分地對(duì)不同科技文獻(xiàn)網(wǎng)站的頁(yè)面信息進(jìn)行自動(dòng)抽取
    發(fā)表于 03-28 10:03 ?14次下載

    文本分類中一種混合型特征降維方法

    提出一種基于特征選擇和特征抽取的混合型文本特征降維方法,分析基于選擇和抽取的特征降維方法各自的特點(diǎn),借助特征項(xiàng)的類別分布差異
    發(fā)表于 04-01 08:46 ?7次下載

    快遞好壞京東人說(shuō)了算,天天快遞服務(wù)太爛?躺著被“封殺”

    京東的野心勃勃,業(yè)內(nèi)都是知道的,但大可以不必吃相如此難看。更何況,有時(shí)候,實(shí)力是撐不起大一統(tǒng)野心的。
    發(fā)表于 07-21 10:36 ?1907次閱讀

    基于WebHarvest的健康領(lǐng)域Web信息抽取方法

    針對(duì)Web信息抽取(WIE)技術(shù)在健康領(lǐng)域應(yīng)用的問題,提出了一種基于WebHarvest的健康領(lǐng)域Web信息抽取
    發(fā)表于 12-26 13:44 ?0次下載

    蘋果實(shí)現(xiàn)大一統(tǒng):打通PC、平板、手機(jī)隔閡

    特意發(fā)布了macOS Big Sur系統(tǒng),從而充分利用自研M1芯片,并且讓開發(fā)者可以更加簡(jiǎn)單的將相應(yīng)的直接適配到Mac上,做到自由體系內(nèi)平板、PC和手機(jī)的大一統(tǒng)。 事實(shí)上,早在2006年,蘋果給開發(fā)者們準(zhǔn)備了Rosetta,方便開發(fā)者們從Power PC芯片過(guò)渡到Intel新品。
    的頭像 發(fā)表于 11-11 10:22 ?1221次閱讀

    為應(yīng)對(duì)蘋果大一統(tǒng),微軟盡力讓win10全力擁抱Android

    很顯然蘋果的大一統(tǒng)刺激到了微軟,而前者的野心是,讓手機(jī)、平板和PC能夠真正的打通,所以M1處理器下的新品能夠運(yùn)行iOS應(yīng)用,就是最重要的步。
    的頭像 發(fā)表于 11-30 10:26 ?1255次閱讀

    美國(guó)正式宣布放棄DSRC車聯(lián)網(wǎng)標(biāo)準(zhǔn)轉(zhuǎn)向C-V2X

    車聯(lián)網(wǎng)大一統(tǒng)時(shí)代來(lái)臨!
    的頭像 發(fā)表于 12-06 08:58 ?2040次閱讀

    華為要最終實(shí)現(xiàn)其全場(chǎng)景、大一統(tǒng)的生態(tài)

    體量上已經(jīng)擁有與谷歌和蘋果生態(tài)抗衡的能力。盡管如此,國(guó)內(nèi)的主流手機(jī)廠商是否會(huì)采用鴻蒙OS及鴻蒙OS生態(tài)方面仍面臨挑戰(zhàn),華為要最終實(shí)現(xiàn)其全場(chǎng)景、大一統(tǒng)的生態(tài),真正成為全球第三大生態(tài)系統(tǒng)仍需產(chǎn)業(yè)合力。? ? 全球網(wǎng)站通信流量監(jiān)測(cè)機(jī)構(gòu)Statcounter數(shù)據(jù)
    的頭像 發(fā)表于 01-13 11:49 ?2292次閱讀

    個(gè)接口一統(tǒng)江湖!Intel雷電成功了

    個(gè)接口 一統(tǒng)江湖!Intel花了10年 成功了,英特爾,顯示器,處理器,雷電,擴(kuò)展塢
    發(fā)表于 03-08 11:43 ?995次閱讀

    一種面向維吾爾語(yǔ)的停用詞抽取方法

    為提高信息處理效率,文本信息檢索系統(tǒng)通常將停用詞作為噪音過(guò)濾掉,影理的效果提出一種應(yīng)用于維吾爾語(yǔ)的停用詞抽取方法用詞特點(diǎn)的基礎(chǔ)上,采用文檔頻
    發(fā)表于 05-25 16:11 ?3次下載

    一種全新易用的基于Word-Word關(guān)系的NER統(tǒng)模型

    最近的研究都在考慮如何通過(guò)個(gè)大一統(tǒng)模型次性解決這三問題。目前的最佳的方法基本都是基于span-based和seq2seq的,然而spa
    的頭像 發(fā)表于 03-23 13:37 ?2783次閱讀

    基于統(tǒng)語(yǔ)義匹配的通用信息抽取框架USM

    信息提?。↖nformation Extraction,IE)需要提取句子中的實(shí)體、關(guān)系、事件等,其不同的任務(wù)具有多樣的抽取目標(biāo)和異質(zhì)的機(jī)構(gòu),因此,傳統(tǒng)的方法需要針對(duì)特定的任務(wù)進(jìn)行模型設(shè)計(jì)和數(shù)據(jù)標(biāo)注,使得難以推廣到新的模式中,極
    的頭像 發(fā)表于 01-16 10:21 ?1099次閱讀

    學(xué)技術(shù) | 充電器大一統(tǒng):USB Type-C接口PD協(xié)議解決方案

    充電器大一統(tǒng):USBType-C接口PD協(xié)議解決方案2022年10月24日,歐洲理事會(huì)最終批準(zhǔn)了“在歐盟范圍內(nèi)統(tǒng)充電器接口”的法案。這意味著到2024年,USB-C(USBType-C)接口將成
    的頭像 發(fā)表于 11-21 16:15 ?4167次閱讀
    學(xué)技術(shù) | 充電器<b class='flag-5'>大一統(tǒng)</b>:USB Type-C接口PD協(xié)議解決方案
    RM新时代网站-首页