RM新时代平台网址,RM新时代入口

1.1 研究背景與任務(wù)定義

口語語言理解在任務(wù)型對話系統(tǒng)中扮演了一個(gè)非常重要的角色，其目的是識別出用戶的輸入文本中蘊(yùn)含的意圖和提及到的槽位，一般被分為意圖識別和槽位填充兩個(gè)子任務(wù)[1]。以句子“use netflix to play music”為例，意圖識別將整個(gè)句子的意圖分類為播放音樂（PlayMusic），槽位填充為句子中的每個(gè)單詞賦予不同的槽位標(biāo)簽（即，O, B-service,O,O,O）。從任務(wù)類型來區(qū)分，意圖識別屬于句子分類任務(wù)，槽位填充可以被建模成序列標(biāo)注任務(wù)。與英文口語語言理解相比，中文口語語言理解面臨了一個(gè)獨(dú)特的挑戰(zhàn)：在完成任務(wù)之前需要進(jìn)行詞語切分。盡管事先做了分詞，不完美的分詞系統(tǒng)仍然會錯(cuò)誤識別槽位的邊界，隨即預(yù)測了錯(cuò)誤的槽位類別，使得模型的性能遭受來自分詞系統(tǒng)的錯(cuò)誤級聯(lián)。

圖1 中文口語語言理解示例

1.2 研究動機(jī)

為了避免來自分詞系統(tǒng)的錯(cuò)誤級聯(lián)，Liu等人[2]提出了一個(gè)基于字符的聯(lián)合模型完成中文口語語言理解，達(dá)到了當(dāng)時(shí)最好的效果。

然而，直觀上，中文詞語信息的引入有助于對中文文本的理解，進(jìn)而正確完成意圖識別和槽位填充任務(wù)。

以圖1為例，正確的中文分詞為"周冬雨 / 有 / 哪些 / 電影"。如果不引入這種分詞信息作為補(bǔ)充，可能會給"周"賦予Datetime_date槽位標(biāo)記，將"冬雨"看作Datetime_time。而有了類似于"周冬雨"這樣詞語的幫助，檢測正確的槽位標(biāo)簽Artist會變得異常容易。

除此之外，由于口語語言理解由兩個(gè)類型不同又相互關(guān)聯(lián)的任務(wù)組成，利用任務(wù)間的交互可以對在兩個(gè)任務(wù)間建模細(xì)粒度的詞語信息遷移起到重要的幫助。

所以，在考慮任務(wù)特性的同時(shí)引入詞語信息是很有必要的。

因此，接下來的問題是：是否可以在避免分詞系統(tǒng)錯(cuò)誤級聯(lián)、考慮口語語言理解任務(wù)特性的同時(shí)，引入中文詞語信息增強(qiáng)中文意圖識別和槽位填充。

為了解決此問題，我們提出了簡單而有效的Multi-LevelWordAdapter (MLWA)模型引入中文詞語信息，對意圖識別和槽位填充進(jìn)行聯(lián)合建模。其中，1) sentence-level word adapter 直接融合詞級別和字級別的句子表示實(shí)現(xiàn)對意圖的識別；2) character-level word adapter 針對輸入文本中的每個(gè)字動態(tài)地確定不同字特征和不同詞特征之間的融合比例，進(jìn)而得出該字的槽位標(biāo)簽，以達(dá)到對詞語知識的細(xì)粒度組合這一目的。另外，word adapter可以作為一個(gè)依附于輸出層的插件被應(yīng)用于各種基于字符的中文口語語言理解模型，其無需改變原始模型其他分量的特性帶來了更多的應(yīng)用靈活性。

2. 模型

2.1 整體框架

模型以一個(gè)普通的基于字符的模型（圖2 (a)）為基礎(chǔ)，附以multi-level word adapter模塊（圖2 (b)）針對意圖識別和槽位填充分別引入并捕獲句子級和字符級詞語信息。

圖2 Multi-Level Word Adapter 整體框架

2.2 Vanilla Character-based Model

Char-Channel Encoder

自注意力編碼器（Self-Attentive Encoder）[3]由抽取序列上下文信息的自注意力模塊[4]和捕獲序列信息的雙向LSTM[5]組成。其接收中文字輸入序列 = ，獲得BiLSTM和self-attention的輸出后，連接兩者輸出字符編碼表示序列 = 。

Intent Detection and Slot Filling

意圖識別和槽位填充均以自注意力編碼器的輸出為基礎(chǔ)，進(jìn)行進(jìn)一步的編碼，即兩者共享底層表示信息。其中，意圖識別模塊利用一個(gè)MLP Attention模塊獲得整個(gè)字序列的綜合表示向量，進(jìn)而完成對意圖的分類（意圖標(biāo)簽集表示為）：

槽位填充應(yīng)用一個(gè)單向LSTM作為解碼器，在每個(gè)解碼時(shí)間步，其接收每個(gè)字表示，意圖標(biāo)簽編碼，來自上一個(gè)時(shí)間步解碼的槽位標(biāo)簽編碼，輸出解碼器隱層向量，進(jìn)而計(jì)算得到第個(gè)字的槽位標(biāo)簽（槽位標(biāo)簽集表示為）：

2.3 Multi-Level Word Adapter

Word-Channel Encoder

在我們的框架中，單詞通道編碼器獨(dú)立于字符通道編碼器，也就是說，如何編碼單詞信息，編碼何種單詞信息都是自由的，在這里以使用外部中文分詞系統(tǒng)（CWS）為例。對字序列進(jìn)行分詞可以得到單詞序列 = 。與字符通道編碼器相同，單詞通道編碼器利用另一個(gè)自注意力編碼器生成單詞編碼表示序列 = 。

Word Adapter

word adapter 是一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)，可以適應(yīng)性地融合不同的字特征的詞語特征，圖2 (c)顯示了其內(nèi)部結(jié)構(gòu)。給定輸入字符向量和詞語向量，word adapter可以計(jì)算兩者之間的權(quán)重比例，進(jìn)而加權(quán)求和得到融合后的特征向量：

Sentence-Level Word Adapter

給定字符序列和單詞序列的上下文表示序列和，可以通過上文的MLP Attention模塊獲得兩種序列的綜合表示向量和。

隨后，sentence-level word adapter計(jì)算融合后的綜合向量，并利用它預(yù)測意圖標(biāo)簽：

Character-Level Word Adapter

在完成槽位填充之前，我們首先采納一個(gè)雙向LSTM增強(qiáng)單詞序列的表示。在每個(gè)時(shí)間步，單詞通道的槽位填充編碼器輸出的隱層向量由相應(yīng)的單詞表示和意圖標(biāo)簽的編碼計(jì)算得到。

然后，character-level word adapter針對每個(gè)輸入字符，為字符特征和詞語特征的不同組合確定不同的融合比例：

最后，我們利用融合后的表示完成第個(gè)字符的槽位標(biāo)注:

2.4 Joint Training

我們采納聯(lián)合訓(xùn)練策略優(yōu)化模型，最終的聯(lián)合目標(biāo)函數(shù)如下， and 分別是正確的意圖和槽位標(biāo)簽：

3. 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集

我們在兩個(gè)公開的中文數(shù)據(jù)集CAIS和ECDT-NLU上進(jìn)行了實(shí)驗(yàn)，我們保持了兩個(gè)數(shù)據(jù)集原分割不變。

CAIS中，訓(xùn)練集包含7995個(gè)句子，驗(yàn)證集和測試集分別有994和1024個(gè)句子。

ECDT-NLU由2576個(gè)訓(xùn)練樣本和1033個(gè)測試樣本組成。

評價(jià)指標(biāo)

與前人相同，我們使用以下三個(gè)指標(biāo)來評價(jià)中文口語語言理解模型的性能：

F1值作為槽位填充任務(wù)的評價(jià)指標(biāo)。

準(zhǔn)確率（accuracy）作為意圖識別任務(wù)的評價(jià)指標(biāo)。

使用整體準(zhǔn)確率（overall accuracy）指標(biāo)評價(jià)句子級語義幀解析能力。一個(gè)整體準(zhǔn)確的預(yù)測表示預(yù)測的意圖和槽位標(biāo)簽與人工標(biāo)注完全相同。

3.2 主實(shí)驗(yàn)結(jié)果

表1 主實(shí)驗(yàn)結(jié)果

所有的baseline模型均考慮了意圖識別和槽位填充兩個(gè)任務(wù)之間的相關(guān)性，并聯(lián)合建模這兩個(gè)相關(guān)任務(wù)。從結(jié)果可以看出：

我們的實(shí)驗(yàn)結(jié)果在所有指標(biāo)上均超過了這些baseline模型，達(dá)到了當(dāng)前最好的性能，證明了我們提出的multi-level word adapter的有效性。

Slot和Intent指標(biāo)的提升表明利用multi-level word adapter融入單詞信息可以促進(jìn)模型對于中文意圖和槽位的識別和標(biāo)注。

整體準(zhǔn)確率的提升歸因于考慮了兩個(gè)任務(wù)之間的相關(guān)性，并通過聯(lián)合訓(xùn)練相互增強(qiáng)兩者。

3.3 消融實(shí)驗(yàn)結(jié)果

為了驗(yàn)證已提出的word adapters的有效性，我們對以下幾個(gè)重要分量執(zhí)行了消融實(shí)驗(yàn)：

w/o Multiple Levels 設(shè)置中，我們移除了character-level word adapter，在對每個(gè)字符的槽位標(biāo)記時(shí)使用相同的單詞信息。

w/o Sentence-Level word adapter 設(shè)置中，不使用sentence-level word adapter，只使用字序列編碼信息去完成意圖識別。

w/o Character-Level word adapter 設(shè)置中，不使用character-level word adapter，只使用字序列編碼信息去完成槽位填充。

表2 消融實(shí)驗(yàn)結(jié)果

上表是消融實(shí)驗(yàn)的結(jié)果，從中可以看出：

使用多層次機(jī)制帶來了顯著的正向效果，這從側(cè)面證實(shí)了對于字符級的槽位填充任務(wù)，每個(gè)字需要不同的單詞信息，即細(xì)粒度的詞信息。

不使用sentence-level word adapter時(shí)，在ECDT-NLU數(shù)據(jù)集上，意圖識別準(zhǔn)確率出現(xiàn)了明顯的下降，表明sentence-level word adapter可以抽取有利的詞信息去提升中文意圖識別。

不使用character-level word adapter時(shí)，兩個(gè)數(shù)據(jù)集上的槽位填充指標(biāo)出現(xiàn)了不同程度的下降，證明了詞語信息可以為中文槽位填充的完成提供有效的指導(dǎo)信息（例如，明確的單詞信息可以幫助模型檢測單詞邊界）。

3.4 預(yù)訓(xùn)練模型探索實(shí)驗(yàn)

我們進(jìn)一步在這兩個(gè)數(shù)據(jù)集上探索了預(yù)訓(xùn)練模型的效果。我們將char-channel encoder替換為預(yù)訓(xùn)練模型BERT，模型的其他部分保持不變，進(jìn)行fine-tuning訓(xùn)練，來觀察我們提出的multi-level word adapter的效果。

表3 BERT模型探索結(jié)果

表3是對于BERT預(yù)訓(xùn)練模型的探索結(jié)果。其中，

Joint BERT 利用預(yù)訓(xùn)練模型BERT得到輸入字序列的編碼，經(jīng)過線性分類層完成意圖識別和槽位填充，隨后應(yīng)用多任務(wù)學(xué)習(xí)方法進(jìn)行訓(xùn)練。

Our Model + BERT 是使用BERT替換掉char-channel encoder作為字序列的Encoder。具體來說，BERT的[CLS]輸出向量作為字序列的綜合向量，其他輸出向量作為各字的表示向量。

實(shí)驗(yàn)結(jié)果表明，multi-level word adapter和BERT的結(jié)合可以進(jìn)一步提升模型效果，證明了我們的貢獻(xiàn)與預(yù)訓(xùn)練模型是互補(bǔ)的。

4.結(jié)論

在這篇文章中，我們的貢獻(xiàn)如下：

我們首次利用一個(gè)簡單有效的方法向中文口語語言理解中引入中文單詞信息。

我們提出了一個(gè)多層次的單詞適配器，句子級和字符級單詞適配器分別向意圖識別和槽位填充提供兩個(gè)層次的單詞信息表示，從而實(shí)現(xiàn)了不同級別任務(wù)的詞信息表示定制化。

在兩個(gè)公開數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明，我們的模型取得了顯著性的改進(jìn)，并實(shí)現(xiàn)了最佳的性能。此外，我們的方法與預(yù)訓(xùn)練模型（BERT）在性能上是互補(bǔ)的。

原文標(biāo)題：【工大SCIR】首次探索中文詞信息增強(qiáng)中文口語語言理解!

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3226

瀏覽量
48807
nlp

nlp

+關(guān)注

關(guān)注
1

文章
488

瀏覽量
22033

原文標(biāo)題：【工大SCIR】首次探索中文詞信息增強(qiáng)中文口語語言理解!

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

Llama 3 語言模型應(yīng)用

理解復(fù)雜的上下文信息，包括對話歷史、用戶偏好和文化差異。這使得它在對話系統(tǒng)和個(gè)性化推薦中表現(xiàn)出色。情感分析：通過深度學(xué)習(xí)技術(shù)，Llama 3 能夠識別和

發(fā)表于 10-27 14:15 ?263次閱讀

云知聲口語評測技術(shù)應(yīng)用于教育領(lǐng)域

日前，云知聲入選大連、丹東、本溪三地初中學(xué)業(yè)水平考試英語聽力口語考試智能口語評測技術(shù)服務(wù)商，并以其專業(yè)可靠的口語評測，確保三地英語考試結(jié)果的公平、客觀、準(zhǔn)確，為教育公平和學(xué)生能力的真實(shí)反映提供了有力保障。

發(fā)表于 09-19 15:41 ?311次閱讀

Transformer語言模型簡介與實(shí)現(xiàn)過程

任務(wù)，隨后迅速擴(kuò)展到其他NLP任務(wù)中，如文本生成、語言理解、問答系統(tǒng)等。本文將詳細(xì)介紹Trans

發(fā)表于 07-10 11:48 ?1625次閱讀

nlp自然語言處理的主要任務(wù)及技術(shù)方法

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支，它研究如何讓計(jì)算機(jī)能夠理解、生成和處理人類語言。NLP技術(shù)在許多領(lǐng)域

發(fā)表于 07-09 10:26 ?1060次閱讀

使用Python進(jìn)行自然語言處理

在探討使用Python進(jìn)行自然語言處理（NLP）的廣闊領(lǐng)域時(shí)，我們首先需要理解NLP的基本概念、其重要性、Python在NLP中的優(yōu)勢，以及如何通過Python實(shí)現(xiàn)一些基礎(chǔ)的NLP

發(fā)表于 07-04 14:40 ?441次閱讀

神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用

自然語言處理（NLP）是人工智能領(lǐng)域中的一個(gè)重要分支，它研究的是如何使計(jì)算機(jī)能夠理解和生成人類自然語言。隨著人工智能技術(shù)的飛速發(fā)展，神經(jīng)網(wǎng)絡(luò)在自然語言處理

發(fā)表于 07-01 14:09 ?485次閱讀

ESP32 IDF 4.3創(chuàng)建任務(wù)使用外部PSRAM分配內(nèi)存，在任務(wù)里操作FLASH死機(jī)的原因？

ESP32 IDF 4.3 創(chuàng)建任務(wù)使用外部PSRAM分配內(nèi)存，在任務(wù)里操作FLASH一定會死機(jī)，請問是什么原因或者有這種限制嗎 static StaticTask_t xTaskBuffer

發(fā)表于 06-19 06:10

大語言模型(LLM)快速理解

自2022年，ChatGPT發(fā)布之后，大語言模型（LargeLanguageModel），簡稱LLM掀起了一波狂潮。作為學(xué)習(xí)理解LLM的開始，先來整體理解一下大語言模型。一、發(fā)展歷史大

發(fā)表于 06-04 08:27 ?961次閱讀

大<b class='flag-5'>語言</b>模型(LLM)快速<b class='flag-5'>理解</b>

【大語言模型：原理與工程實(shí)踐】大語言模型的評測

，評估模型對三國演義中赤壁之戰(zhàn)關(guān)鍵人物的了解，或?qū)ν醴坪湍怯⒁魳凤L(fēng)格的解讀。評估主要關(guān)注準(zhǔn)確性和全面性。多輪對話類評測任務(wù)：強(qiáng)調(diào)大語言模型處理復(fù)雜

發(fā)表于 05-07 17:12

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

訓(xùn)練數(shù)據(jù)時(shí)，數(shù)量、質(zhì)量和多樣性三者缺一不可。數(shù)據(jù)的多樣性對于大語言模型至關(guān)重要，這主要體現(xiàn)在數(shù)據(jù)的類別和來源兩個(gè)方面。豐富的數(shù)據(jù)類別能夠提供多樣的語言表達(dá)特征，如官方知識型數(shù)據(jù)、口語

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

超出預(yù)期的能力和表現(xiàn)。這種能力主要體現(xiàn)在學(xué)習(xí)能力提升、語言理解和生成能力，以及創(chuàng)新和探索等方面。大語言模型擁有更大的參數(shù)空間和表征能力，能學(xué)習(xí)更復(fù)雜、更抽象的模式和特征，從而在各種任務(wù)

發(fā)表于 05-04 23:55

OpenHarmony語言基礎(chǔ)類庫【@ohos.taskpool（啟動任務(wù)池）】

建的任務(wù)進(jìn)行如任務(wù)執(zhí)行、任務(wù)取消的操作。理論上您可以使用任務(wù)池API創(chuàng)建數(shù)量不受限制的任務(wù)，但是出于內(nèi)存因素不建議您這樣做。此外，不建議您

發(fā)表于 04-24 17:45 ?346次閱讀

MSC_Application只要在任務(wù)中調(diào)用就會報(bào)錯(cuò)，怎么處理？

，MSC_Application，只要在任務(wù)中調(diào)用，就會有如下的錯(cuò)誤 DescriptionResourcePathLocationType undefined reference to `osSemaphoreCreate

發(fā)表于 04-17 06:56

鴻蒙原生應(yīng)用開發(fā)-ArkTS語言基礎(chǔ)類庫多線程I/O密集型任務(wù)開發(fā)

使用異步并發(fā)可以解決單次I/O任務(wù)阻塞的問題，但是如果遇到I/O密集型任務(wù)，同樣會阻塞線程中其它任務(wù)的執(zhí)行，這時(shí)需要使用多線程并發(fā)能力來進(jìn)行

發(fā)表于 03-21 14:57

verilog中函數(shù)和任務(wù)對比

在verilog中，函數(shù)和任務(wù)均用來描述共同的代碼段，并且在模式內(nèi)任意位置被調(diào)用，提高代碼效率，讓代碼更加的直觀，提高代碼可讀性。但是在實(shí)際使用的過程中，函數(shù)和任務(wù)也存在諸多的不同，下

發(fā)表于 02-12 18:43 ?882次閱讀

RM新时代网站-首页

搜索歷史

口語語言理解在任務(wù)型對話系統(tǒng)中的探討

評論

Llama 3 語言模型應(yīng)用

云知聲口語評測技術(shù)應(yīng)用于教育領(lǐng)域

Transformer語言模型簡介與實(shí)現(xiàn)過程

nlp自然語言處理的主要任務(wù)及技術(shù)方法

使用Python進(jìn)行自然語言處理

神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用

ESP32 IDF 4.3創(chuàng)建任務(wù)使用外部PSRAM分配內(nèi)存，在任務(wù)里操作FLASH死機(jī)的原因？

大語言模型(LLM)快速理解

【大語言模型：原理與工程實(shí)踐】大語言模型的評測

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

OpenHarmony語言基礎(chǔ)類庫【@ohos.taskpool（啟動任務(wù)池）】

MSC_Application只要在任務(wù)中調(diào)用就會報(bào)錯(cuò)，怎么處理？

鴻蒙原生應(yīng)用開發(fā)-ArkTS語言基礎(chǔ)類庫多線程I/O密集型任務(wù)開發(fā)

verilog中函數(shù)和任務(wù)對比