語(yǔ)言障礙癥狀影響著數(shù)百萬(wàn)人的生活,其產(chǎn)生原因很多,包括神經(jīng)或遺傳疾病、身體缺陷、腦損傷或聽(tīng)力喪失等,而由此導(dǎo)致的癥狀也各不相同,如口吃、構(gòu)音障礙 (Dysarthria)、失用癥 (Apraxia) 等,這些癥狀對(duì)患者的自我表達(dá)、社會(huì)生活參與,以及使用語(yǔ)音技術(shù),都會(huì)產(chǎn)生不利影響。
自動(dòng)語(yǔ)音識(shí)別 (ASR, Automatic Speech Recognition) 技術(shù)可以通過(guò)提升設(shè)備的聽(tīng)寫(xiě)和家居自動(dòng)化能力以及溝通能力,來(lái)幫助語(yǔ)言障礙人士克服上述問(wèn)題。然而,盡管隨著深度學(xué)習(xí)系統(tǒng)計(jì)算能力的提升,以及有大型訓(xùn)練數(shù)據(jù)集可供使用,ASR 系統(tǒng)在準(zhǔn)確率方面有所提升,但是對(duì)于許多具有語(yǔ)言障礙的人而言,系統(tǒng)的性能仍有所欠缺,導(dǎo)致許多本應(yīng)受益良多的患者無(wú)法有效利用這項(xiàng)技術(shù)。
2019 年,我們推出了 Euphonia 項(xiàng)目,探討如何通過(guò)個(gè)性化的識(shí)別語(yǔ)言障礙 ASR 模型,實(shí)現(xiàn)在典型語(yǔ)音上與通用 ASR 模型相同水平的準(zhǔn)確率。今天我們?yōu)榇蠹曳窒韮身?xiàng)在 Interspeech 2021 上發(fā)布的研究成果,這兩項(xiàng)研究目的在于讓更多用戶(hù)群體可以利用個(gè)性化 ASR 模型。在“無(wú)序語(yǔ)音數(shù)據(jù)集合:從 Euphonia 項(xiàng)目 100 萬(wàn)條語(yǔ)音中總結(jié)的經(jīng)驗(yàn) (Disordered Speech Data Collection: Lessons Learned at 1 Million Utterances from Project Euphonia)”中,我們介紹了一個(gè)涵蓋范圍廣泛的無(wú)序語(yǔ)音數(shù)據(jù)集合,其中包含的語(yǔ)音數(shù)據(jù)超過(guò) 100 萬(wàn)條。在“自動(dòng)識(shí)別無(wú)序語(yǔ)音:在短語(yǔ)方面?zhèn)€性化模型較人類(lèi)表現(xiàn)更佳 (Automatic Speech Recognition of Disordered Speech: Personalized models outperforming human listeners on short phrases) ”中,我們討論了在基于該語(yǔ)料庫(kù)生成個(gè)性化 ASR 模型上所開(kāi)展的工作。與利用典型語(yǔ)音訓(xùn)練的開(kāi)箱即用的語(yǔ)音模型相比,這種方法可以產(chǎn)生準(zhǔn)確率更高的模型,在特定的語(yǔ)境中,字錯(cuò)誤率 (WER, Word error rate) 可降低高達(dá) 85% 。
Euphonia
https://blog.google/outreach-initiatives/accessibility/impaired-speech-recognition/
無(wú)序語(yǔ)音數(shù)據(jù)集合:從 Euphonia 項(xiàng)目 100 萬(wàn)條語(yǔ)音中總結(jié)的經(jīng)驗(yàn)
https://www.isca-speech.org/archive/interspeech_2021/macdonald21_interspeech.html
自動(dòng)識(shí)別無(wú)序語(yǔ)音:在短語(yǔ)方面?zhèn)€性化模型較人類(lèi)表現(xiàn)更佳
https://www.isca-speech.org/archive/interspeech_2021/green21_interspeech.html
來(lái)自語(yǔ)障人士的語(yǔ)音數(shù)據(jù)集合
自 2019 年起,不少語(yǔ)障人士為支持 Euphonia 項(xiàng)目的研究工作提供了語(yǔ)音樣本。他們的嚴(yán)重程度不同,癥狀也不一樣。這項(xiàng)工作將 Euphonia 項(xiàng)目的語(yǔ)料庫(kù)擴(kuò)展至超過(guò) 100 萬(wàn)條語(yǔ)音,包括了來(lái)自 1330 名說(shuō)話(huà)者的 1400 多小時(shí)語(yǔ)音記錄(截至 2021 年 8 月)。
基于超過(guò) 300 條錄制的語(yǔ)音數(shù)據(jù),繪制出的所有說(shuō)話(huà)者的語(yǔ)言障礙嚴(yán)重程度和所患病癥分布圖。在病癥方面,僅顯示患病人數(shù)超過(guò) 5 人的病癥,否則統(tǒng)一記入“其他”以滿(mǎn)足 k 匿名性 (k-anonymity)
ALS 代表肌萎縮性脊髓側(cè)索硬化癥;DS 代表唐氏綜合癥;PD 代表帕金森病;CP 代表腦癱;HI 代表聽(tīng)力障礙;MD 代表肌肉萎縮癥;MS 代表多發(fā)性硬化癥
Euphonia 項(xiàng)目的研究工作
https://sites.research.google/euphonia/about/
為簡(jiǎn)化數(shù)據(jù)收集流程,參與者在筆記本電腦或者手機(jī)等個(gè)人硬件上(使用或者不使用頭戴式耳機(jī))通過(guò)家用錄音系統(tǒng)收集語(yǔ)音,而不是在類(lèi)似實(shí)驗(yàn)室這樣的理想環(huán)境中收集錄音棚品質(zhì)的語(yǔ)音。
為降低轉(zhuǎn)錄成本,同時(shí)保持較高的轉(zhuǎn)錄一致性,我們優(yōu)先采取了按照文本朗讀的方式。參與者根據(jù)瀏覽器端錄音工具上顯示的提示語(yǔ)進(jìn)行朗讀。這些提示語(yǔ)涵蓋家居自動(dòng)化(“打開(kāi)電視?!保?、與看護(hù)者對(duì)話(huà)(“我餓了?!保┮约胺钦綄?duì)話(huà)(“你好嗎?你今天過(guò)得愉快嗎?”)等語(yǔ)境。大部分參與者會(huì)朗讀 1500 條提示語(yǔ),其中包含 1100 個(gè)只出現(xiàn)一次的短語(yǔ)以及 100 個(gè)重復(fù)出現(xiàn) 4 次的短語(yǔ)。
語(yǔ)音專(zhuān)家在傾聽(tīng)每位說(shuō)話(huà)者部分語(yǔ)音的同時(shí),進(jìn)行了全面的聽(tīng)覺(jué)感知和語(yǔ)音評(píng)估,以便根據(jù)多種為說(shuō)話(huà)者分級(jí)的元數(shù)據(jù),來(lái)判定語(yǔ)言障礙類(lèi)型(例如口吃、構(gòu)音障礙、失用癥等),對(duì)如鼻音過(guò)重(Hypernasal speech)、發(fā)音失準(zhǔn)和言語(yǔ)聲律障礙(Dysprosody)等 24 種異常語(yǔ)音特征進(jìn)行評(píng)定,同時(shí)對(duì)技術(shù)問(wèn)題(例如信號(hào)丟失、分割問(wèn)題)和聲學(xué)問(wèn)題(例如環(huán)境噪音、次級(jí)揚(yáng)聲器串?dāng)_)進(jìn)行錄音質(zhì)量評(píng)估。
個(gè)性化 ASR 模型
這個(gè)擴(kuò)展的語(yǔ)音障礙數(shù)據(jù)集也是我們生成無(wú)序語(yǔ)音個(gè)性化 ASR 模型新方法的基礎(chǔ)。每個(gè)定制模型都使用標(biāo)準(zhǔn)的端對(duì)端 RNN-傳感器 (RNN-T) ASR 模型,該模型僅對(duì)目標(biāo)說(shuō)話(huà)者的數(shù)據(jù)進(jìn)行微調(diào)。
RNN-傳感器架構(gòu)。在示例中,編碼器網(wǎng)絡(luò)由 8 層組成,而預(yù)測(cè)器網(wǎng)絡(luò)由 2 層單向 LSTM (Long short-term memory) 單元組成
為此,我們重點(diǎn)調(diào)整了編碼器網(wǎng)絡(luò),也就是模型中處理說(shuō)話(huà)者特定聲學(xué)數(shù)據(jù)的部分,因?yàn)檎Z(yǔ)音障礙是我們語(yǔ)料庫(kù)中最常見(jiàn)的現(xiàn)象。我們發(fā)現(xiàn),只更新 8 個(gè)編碼器層中最底層的 5 個(gè),而凍結(jié)最上面的 3 個(gè)編碼器層(以及連接層和解碼器層),可以得到最好的結(jié)果,并能夠有效避免過(guò)度擬合。為了讓這些模型在處理背景噪聲和其他聲學(xué)效應(yīng)方面更具魯棒性,我們采用了專(zhuān)門(mén)針對(duì)無(wú)序語(yǔ)音為主要特征進(jìn)行調(diào)整的 SpecAugment 配置。
SpecAugment
https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html
結(jié)果
我們訓(xùn)練了約 430 名說(shuō)話(huà)者的個(gè)性化 ASR 模型,他們每人至少錄制了 300 條語(yǔ)音。我們把其中 10% 的語(yǔ)音作為測(cè)試集(訓(xùn)練和測(cè)試間沒(méi)有短語(yǔ)重疊),在此基礎(chǔ)上,計(jì)算了個(gè)性化模型以及未調(diào)適的基礎(chǔ)模型的 WER。
總的來(lái)說(shuō),無(wú)論是何種嚴(yán)重程度還是病癥,我們提供的個(gè)性化方法都取得了顯著效果。即便是存在嚴(yán)重語(yǔ)言障礙的語(yǔ)音,家居自動(dòng)化語(yǔ)境短語(yǔ)的 WER 中位數(shù)從 89% 左右降到了 13%。在如與看護(hù)者對(duì)話(huà)等其他語(yǔ)境中,準(zhǔn)確率也有顯著提高。
在未調(diào)適與個(gè)性化 ASR 模型中使用居家自動(dòng)化短語(yǔ)的 WER
為了解個(gè)性化模型何時(shí)不適用,我們對(duì)以下幾個(gè)子組進(jìn)行了分析:
●
HighWER 與 LowWER:將說(shuō)話(huà)者按照具有基于 WER 分布的第 1 和第 5 個(gè)五分位數(shù)的高和低劃分個(gè)性化模型。
●
SurpHighWER:具有超高 WER 的說(shuō)話(huà)者(在 HighWER 組中典型或具有輕度語(yǔ)言障礙的參與者)。
不同的病癥以及語(yǔ)言障礙表現(xiàn)形式對(duì) ASR 產(chǎn)生的影響是不一致的。根據(jù) HighWER 組中語(yǔ)言障礙類(lèi)型的分布表明,由于腦癱(Cerebral palsy)引起的構(gòu)音障礙特別難以建模。不出意外,該組中語(yǔ)言障礙嚴(yán)重程度的中位數(shù)也更高。
為了識(shí)別影響 ASR 準(zhǔn)確率的特定說(shuō)話(huà)者以及技術(shù)因素,我們檢查了 ASR 表現(xiàn)較差 (HighWER) 和優(yōu)秀 (LowWER) 的參與者之間元數(shù)據(jù)的差異 (Cohen‘s D)。和預(yù)期一樣,LowWER 組中整體語(yǔ)言受損程度顯著低于HighWER組 (p 《 0.01)。HighWER 組中最突出的非典型語(yǔ)音特征是清晰度以及受損程度,同時(shí)包含其他較為突出的語(yǔ)音特征,如異常的韻律(Prosody )、發(fā)音及發(fā)聲(Phonation)。眾所周知,這些語(yǔ)音特征也會(huì)降低語(yǔ)音的整體清晰度。
與 LowWER 組 (p 《 0.01) 相比,SurpHighWER 組中的訓(xùn)練語(yǔ)音更少,且 SNR 更低,進(jìn)而導(dǎo)致較大(負(fù))的效應(yīng)量,而其他因素的效應(yīng)量則較小(快速性除外)。相比之下,HighWER 組在所有因素中都表現(xiàn)出了較大差異。
語(yǔ)音障礙和技術(shù)元數(shù)據(jù)效應(yīng)量對(duì)比結(jié)果:HighWER 組與 LowWER 組對(duì)比;SurpHighWER 組和 LowWER 組對(duì)比。正值結(jié)果表明 HighWER 組的組值大于 LowWER 組的組值
之后,我們將個(gè)性化 ASR 模型和人類(lèi)聽(tīng)眾進(jìn)行了比較。三位語(yǔ)音專(zhuān)家分別為每位說(shuō)話(huà)者轉(zhuǎn)錄了 30 條語(yǔ)音。我們發(fā)現(xiàn),與人類(lèi)聽(tīng)眾的 WER 相比,個(gè)性化 ASR 模型的 WER 平均而言更低,并且隨語(yǔ)言受損嚴(yán)重程度的增加而表現(xiàn)的更好。
個(gè)性化 ASR 模型 WER 與人類(lèi)聽(tīng)眾 WER 之間的增量。負(fù)值表明個(gè)性化 ASR 模型的表現(xiàn)優(yōu)于人類(lèi)(專(zhuān)家)聽(tīng)眾
結(jié)論
Euphonia 語(yǔ)料庫(kù)擁有超過(guò) 100 萬(wàn)條語(yǔ)音,是最大、最多樣的無(wú)序語(yǔ)音語(yǔ)料庫(kù)之一(就無(wú)序類(lèi)型與受損程度而言),這一語(yǔ)料庫(kù)大大提升了非典型語(yǔ)音類(lèi)型中的 ASR 準(zhǔn)確率。我們的研究結(jié)果證明,個(gè)性化 ASR 模型在識(shí)別各種語(yǔ)言障礙以及受損程度方面十分有效,而且具備了讓更多用戶(hù)使用 ASR 的潛力。
責(zé)任編輯:haq
-
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268882 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1739瀏覽量
112632
原文標(biāo)題:個(gè)性化語(yǔ)音識(shí)別模型,幫助語(yǔ)言障礙人士正常交流
文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論