RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

來(lái)自語(yǔ)障人士的語(yǔ)音數(shù)據(jù)集合

Tensorflowers ? 來(lái)源:TensorFlow ? 作者:TensorFlow ? 2021-10-12 17:09 ? 次閱讀

語(yǔ)言障礙癥狀影響著數(shù)百萬(wàn)人的生活,其產(chǎn)生原因很多,包括神經(jīng)或遺傳疾病、身體缺陷、腦損傷或聽(tīng)力喪失等,而由此導(dǎo)致的癥狀也各不相同,如口吃、構(gòu)音障礙 (Dysarthria)、失用癥 (Apraxia) 等,這些癥狀對(duì)患者的自我表達(dá)、社會(huì)生活參與,以及使用語(yǔ)音技術(shù),都會(huì)產(chǎn)生不利影響。

自動(dòng)語(yǔ)音識(shí)別 (ASR, Automatic Speech Recognition) 技術(shù)可以通過(guò)提升設(shè)備的聽(tīng)寫(xiě)和家居自動(dòng)化能力以及溝通能力,來(lái)幫助語(yǔ)言障礙人士克服上述問(wèn)題。然而,盡管隨著深度學(xué)習(xí)系統(tǒng)計(jì)算能力的提升,以及有大型訓(xùn)練數(shù)據(jù)集可供使用,ASR 系統(tǒng)在準(zhǔn)確率方面有所提升,但是對(duì)于許多具有語(yǔ)言障礙的人而言,系統(tǒng)的性能仍有所欠缺,導(dǎo)致許多本應(yīng)受益良多的患者無(wú)法有效利用這項(xiàng)技術(shù)。

2019 年,我們推出了 Euphonia 項(xiàng)目,探討如何通過(guò)個(gè)性化的識(shí)別語(yǔ)言障礙 ASR 模型,實(shí)現(xiàn)在典型語(yǔ)音上與通用 ASR 模型相同水平的準(zhǔn)確率。今天我們?yōu)榇蠹曳窒韮身?xiàng)在 Interspeech 2021 上發(fā)布的研究成果,這兩項(xiàng)研究目的在于讓更多用戶(hù)群體可以利用個(gè)性化 ASR 模型。在“無(wú)序語(yǔ)音數(shù)據(jù)集合:從 Euphonia 項(xiàng)目 100 萬(wàn)條語(yǔ)音中總結(jié)的經(jīng)驗(yàn) (Disordered Speech Data Collection: Lessons Learned at 1 Million Utterances from Project Euphonia)”中,我們介紹了一個(gè)涵蓋范圍廣泛的無(wú)序語(yǔ)音數(shù)據(jù)集合,其中包含的語(yǔ)音數(shù)據(jù)超過(guò) 100 萬(wàn)條。在“自動(dòng)識(shí)別無(wú)序語(yǔ)音:在短語(yǔ)方面?zhèn)€性化模型較人類(lèi)表現(xiàn)更佳 (Automatic Speech Recognition of Disordered Speech: Personalized models outperforming human listeners on short phrases) ”中,我們討論了在基于該語(yǔ)料庫(kù)生成個(gè)性化 ASR 模型上所開(kāi)展的工作。與利用典型語(yǔ)音訓(xùn)練的開(kāi)箱即用的語(yǔ)音模型相比,這種方法可以產(chǎn)生準(zhǔn)確率更高的模型,在特定的語(yǔ)境中,字錯(cuò)誤率 (WER, Word error rate) 可降低高達(dá) 85% 。

Euphonia

https://blog.google/outreach-initiatives/accessibility/impaired-speech-recognition/

無(wú)序語(yǔ)音數(shù)據(jù)集合:從 Euphonia 項(xiàng)目 100 萬(wàn)條語(yǔ)音中總結(jié)的經(jīng)驗(yàn)

https://www.isca-speech.org/archive/interspeech_2021/macdonald21_interspeech.html

自動(dòng)識(shí)別無(wú)序語(yǔ)音:在短語(yǔ)方面?zhèn)€性化模型較人類(lèi)表現(xiàn)更佳

https://www.isca-speech.org/archive/interspeech_2021/green21_interspeech.html

來(lái)自語(yǔ)障人士的語(yǔ)音數(shù)據(jù)集合

自 2019 年起,不少語(yǔ)障人士為支持 Euphonia 項(xiàng)目的研究工作提供了語(yǔ)音樣本。他們的嚴(yán)重程度不同,癥狀也不一樣。這項(xiàng)工作將 Euphonia 項(xiàng)目的語(yǔ)料庫(kù)擴(kuò)展至超過(guò) 100 萬(wàn)條語(yǔ)音,包括了來(lái)自 1330 名說(shuō)話(huà)者的 1400 多小時(shí)語(yǔ)音記錄(截至 2021 年 8 月)。

基于超過(guò) 300 條錄制的語(yǔ)音數(shù)據(jù),繪制出的所有說(shuō)話(huà)者的語(yǔ)言障礙嚴(yán)重程度和所患病癥分布圖。在病癥方面,僅顯示患病人數(shù)超過(guò) 5 人的病癥,否則統(tǒng)一記入“其他”以滿(mǎn)足 k 匿名性 (k-anonymity)

ALS 代表肌萎縮性脊髓側(cè)索硬化癥;DS 代表唐氏綜合癥;PD 代表帕金森病;CP 代表腦癱;HI 代表聽(tīng)力障礙;MD 代表肌肉萎縮癥;MS 代表多發(fā)性硬化癥

Euphonia 項(xiàng)目的研究工作

https://sites.research.google/euphonia/about/

為簡(jiǎn)化數(shù)據(jù)收集流程,參與者在筆記本電腦或者手機(jī)等個(gè)人硬件上(使用或者不使用頭戴式耳機(jī))通過(guò)家用錄音系統(tǒng)收集語(yǔ)音,而不是在類(lèi)似實(shí)驗(yàn)室這樣的理想環(huán)境中收集錄音棚品質(zhì)的語(yǔ)音。

為降低轉(zhuǎn)錄成本,同時(shí)保持較高的轉(zhuǎn)錄一致性,我們優(yōu)先采取了按照文本朗讀的方式。參與者根據(jù)瀏覽器端錄音工具上顯示的提示語(yǔ)進(jìn)行朗讀。這些提示語(yǔ)涵蓋家居自動(dòng)化(“打開(kāi)電視?!保?、與看護(hù)者對(duì)話(huà)(“我餓了?!保┮约胺钦綄?duì)話(huà)(“你好嗎?你今天過(guò)得愉快嗎?”)等語(yǔ)境。大部分參與者會(huì)朗讀 1500 條提示語(yǔ),其中包含 1100 個(gè)只出現(xiàn)一次的短語(yǔ)以及 100 個(gè)重復(fù)出現(xiàn) 4 次的短語(yǔ)。

語(yǔ)音專(zhuān)家在傾聽(tīng)每位說(shuō)話(huà)者部分語(yǔ)音的同時(shí),進(jìn)行了全面的聽(tīng)覺(jué)感知和語(yǔ)音評(píng)估,以便根據(jù)多種為說(shuō)話(huà)者分級(jí)的元數(shù)據(jù),來(lái)判定語(yǔ)言障礙類(lèi)型(例如口吃、構(gòu)音障礙、失用癥等),對(duì)如鼻音過(guò)重(Hypernasal speech)、發(fā)音失準(zhǔn)和言語(yǔ)聲律障礙(Dysprosody)等 24 種異常語(yǔ)音特征進(jìn)行評(píng)定,同時(shí)對(duì)技術(shù)問(wèn)題(例如信號(hào)丟失、分割問(wèn)題)和聲學(xué)問(wèn)題(例如環(huán)境噪音、次級(jí)揚(yáng)聲器串?dāng)_)進(jìn)行錄音質(zhì)量評(píng)估。

個(gè)性化 ASR 模型

這個(gè)擴(kuò)展的語(yǔ)音障礙數(shù)據(jù)集也是我們生成無(wú)序語(yǔ)音個(gè)性化 ASR 模型新方法的基礎(chǔ)。每個(gè)定制模型都使用標(biāo)準(zhǔn)的端對(duì)端 RNN-傳感器 (RNN-T) ASR 模型,該模型僅對(duì)目標(biāo)說(shuō)話(huà)者的數(shù)據(jù)進(jìn)行微調(diào)。

RNN-傳感器架構(gòu)。在示例中,編碼器網(wǎng)絡(luò)由 8 層組成,而預(yù)測(cè)器網(wǎng)絡(luò)由 2 層單向 LSTM (Long short-term memory) 單元組成

為此,我們重點(diǎn)調(diào)整了編碼器網(wǎng)絡(luò),也就是模型中處理說(shuō)話(huà)者特定聲學(xué)數(shù)據(jù)的部分,因?yàn)檎Z(yǔ)音障礙是我們語(yǔ)料庫(kù)中最常見(jiàn)的現(xiàn)象。我們發(fā)現(xiàn),只更新 8 個(gè)編碼器層中最底層的 5 個(gè),而凍結(jié)最上面的 3 個(gè)編碼器層(以及連接層和解碼器層),可以得到最好的結(jié)果,并能夠有效避免過(guò)度擬合。為了讓這些模型在處理背景噪聲和其他聲學(xué)效應(yīng)方面更具魯棒性,我們采用了專(zhuān)門(mén)針對(duì)無(wú)序語(yǔ)音為主要特征進(jìn)行調(diào)整的 SpecAugment 配置。

SpecAugment

https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html

結(jié)果

我們訓(xùn)練了約 430 名說(shuō)話(huà)者的個(gè)性化 ASR 模型,他們每人至少錄制了 300 條語(yǔ)音。我們把其中 10% 的語(yǔ)音作為測(cè)試集(訓(xùn)練和測(cè)試間沒(méi)有短語(yǔ)重疊),在此基礎(chǔ)上,計(jì)算了個(gè)性化模型以及未調(diào)適的基礎(chǔ)模型的 WER。

總的來(lái)說(shuō),無(wú)論是何種嚴(yán)重程度還是病癥,我們提供的個(gè)性化方法都取得了顯著效果。即便是存在嚴(yán)重語(yǔ)言障礙的語(yǔ)音,家居自動(dòng)化語(yǔ)境短語(yǔ)的 WER 中位數(shù)從 89% 左右降到了 13%。在如與看護(hù)者對(duì)話(huà)等其他語(yǔ)境中,準(zhǔn)確率也有顯著提高。

在未調(diào)適與個(gè)性化 ASR 模型中使用居家自動(dòng)化短語(yǔ)的 WER

為了解個(gè)性化模型何時(shí)不適用,我們對(duì)以下幾個(gè)子組進(jìn)行了分析:

HighWER 與 LowWER:將說(shuō)話(huà)者按照具有基于 WER 分布的第 1 和第 5 個(gè)五分位數(shù)的高和低劃分個(gè)性化模型。

SurpHighWER:具有超高 WER 的說(shuō)話(huà)者(在 HighWER 組中典型或具有輕度語(yǔ)言障礙的參與者)。

不同的病癥以及語(yǔ)言障礙表現(xiàn)形式對(duì) ASR 產(chǎn)生的影響是不一致的。根據(jù) HighWER 組中語(yǔ)言障礙類(lèi)型的分布表明,由于腦癱(Cerebral palsy)引起的構(gòu)音障礙特別難以建模。不出意外,該組中語(yǔ)言障礙嚴(yán)重程度的中位數(shù)也更高。

為了識(shí)別影響 ASR 準(zhǔn)確率的特定說(shuō)話(huà)者以及技術(shù)因素,我們檢查了 ASR 表現(xiàn)較差 (HighWER) 和優(yōu)秀 (LowWER) 的參與者之間元數(shù)據(jù)的差異 (Cohen‘s D)。和預(yù)期一樣,LowWER 組中整體語(yǔ)言受損程度顯著低于HighWER組 (p 《 0.01)。HighWER 組中最突出的非典型語(yǔ)音特征是清晰度以及受損程度,同時(shí)包含其他較為突出的語(yǔ)音特征,如異常的韻律(Prosody )、發(fā)音及發(fā)聲(Phonation)。眾所周知,這些語(yǔ)音特征也會(huì)降低語(yǔ)音的整體清晰度。

與 LowWER 組 (p 《 0.01) 相比,SurpHighWER 組中的訓(xùn)練語(yǔ)音更少,且 SNR 更低,進(jìn)而導(dǎo)致較大(負(fù))的效應(yīng)量,而其他因素的效應(yīng)量則較小(快速性除外)。相比之下,HighWER 組在所有因素中都表現(xiàn)出了較大差異。

語(yǔ)音障礙和技術(shù)元數(shù)據(jù)效應(yīng)量對(duì)比結(jié)果:HighWER 組與 LowWER 組對(duì)比;SurpHighWER 組和 LowWER 組對(duì)比。正值結(jié)果表明 HighWER 組的組值大于 LowWER 組的組值

之后,我們將個(gè)性化 ASR 模型和人類(lèi)聽(tīng)眾進(jìn)行了比較。三位語(yǔ)音專(zhuān)家分別為每位說(shuō)話(huà)者轉(zhuǎn)錄了 30 條語(yǔ)音。我們發(fā)現(xiàn),與人類(lèi)聽(tīng)眾的 WER 相比,個(gè)性化 ASR 模型的 WER 平均而言更低,并且隨語(yǔ)言受損嚴(yán)重程度的增加而表現(xiàn)的更好。

個(gè)性化 ASR 模型 WER 與人類(lèi)聽(tīng)眾 WER 之間的增量。負(fù)值表明個(gè)性化 ASR 模型的表現(xiàn)優(yōu)于人類(lèi)(專(zhuān)家)聽(tīng)眾

結(jié)論

Euphonia 語(yǔ)料庫(kù)擁有超過(guò) 100 萬(wàn)條語(yǔ)音,是最大、最多樣的無(wú)序語(yǔ)音語(yǔ)料庫(kù)之一(就無(wú)序類(lèi)型與受損程度而言),這一語(yǔ)料庫(kù)大大提升了非典型語(yǔ)音類(lèi)型中的 ASR 準(zhǔn)確率。我們的研究結(jié)果證明,個(gè)性化 ASR 模型在識(shí)別各種語(yǔ)言障礙以及受損程度方面十分有效,而且具備了讓更多用戶(hù)使用 ASR 的潛力。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30728

    瀏覽量

    268882
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1739

    瀏覽量

    112632

原文標(biāo)題:個(gè)性化語(yǔ)音識(shí)別模型,幫助語(yǔ)言障礙人士正常交流

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Java集合API的改進(jìn)介紹

    簡(jiǎn)介 本文我們將探討不同 jdk 版本中各類(lèi)的起源,以及新引入的類(lèi)和接口背后的目的。我們將分析之前版本存在的問(wèn)題,以及為何需要引入新的類(lèi)或接口。此外,我們還將介紹集合類(lèi)和接口中的新特性。文章將逐一
    的頭像 發(fā)表于 11-22 11:12 ?174次閱讀
    Java<b class='flag-5'>集合</b>API的改進(jìn)介紹

    助盲環(huán)境感知裝置設(shè)計(jì)方案

    今天為大家?guī)?lái)的是來(lái)自創(chuàng)作者X同學(xué)的作品:助盲環(huán)境感知裝置. 這個(gè)裝置主要利用Grove Vision AI V2-Camera module識(shí)別環(huán)境中的物體,并利用XIAO ESP32S3和樹(shù)莓派進(jìn)行語(yǔ)音輸出,結(jié)合了物體檢測(cè)和文本轉(zhuǎn)語(yǔ)
    的頭像 發(fā)表于 11-05 11:42 ?206次閱讀
    助盲環(huán)境感知裝置設(shè)計(jì)方案

    九芯電子革新健康檢測(cè)!語(yǔ)音播報(bào)血壓計(jì)ic芯片解決方案

    血壓計(jì),可測(cè)量血壓并將讀數(shù)顯示在屏幕上。為了提高老年人和視人士的可用性,現(xiàn)代電子語(yǔ)音血壓計(jì)已經(jīng)開(kāi)發(fā)出來(lái),可提供當(dāng)前血壓讀數(shù)的聽(tīng)覺(jué)反饋。這是通過(guò)集成語(yǔ)音芯片來(lái)實(shí)現(xiàn)的,該芯片將測(cè)量結(jié)果發(fā)
    的頭像 發(fā)表于 09-22 08:00 ?209次閱讀
    九芯電子革新健康檢測(cè)!<b class='flag-5'>語(yǔ)音</b>播報(bào)血壓計(jì)ic芯片解決方案

    語(yǔ)音控制模塊_雷龍發(fā)展

      1,串口   uart串口控制模式,即異步傳送收發(fā)器,通過(guò)其完成語(yǔ)音控制。 []()   圖中,GND表示單片機(jī)系統(tǒng)電源的參考地,TXD是串行發(fā)送引腳,RXD是串行接收引腳。發(fā)送uart將來(lái)自
    發(fā)表于 06-14 17:18

    AGV小車(chē)使用避雷達(dá)

    AGV(自動(dòng)導(dǎo)引車(chē))小車(chē)使用避雷達(dá)是為了確保其在運(yùn)行過(guò)程中的安全性和穩(wěn)定性。避雷達(dá),如激光雷達(dá)或超聲波雷達(dá),能夠?qū)崟r(shí)檢測(cè)并避免與障礙物發(fā)生碰撞。 AGV小車(chē)避雷達(dá)的安裝和使用通常涉及以下
    的頭像 發(fā)表于 05-20 10:48 ?616次閱讀

    創(chuàng)客打造智能眼鏡,助聽(tīng)人士理解手語(yǔ)

    據(jù)悉,知名創(chuàng)客Nekhil近期將樹(shù)莓派進(jìn)行深度改裝,成功研發(fā)出一款可用于解讀手語(yǔ)的智能眼鏡,以解決聽(tīng)人士的溝通問(wèn)題。
    的頭像 發(fā)表于 04-23 15:32 ?459次閱讀

    語(yǔ)音數(shù)據(jù)集:智能駕駛中車(chē)內(nèi)語(yǔ)音識(shí)別技術(shù)的基石

    一、引言 在智能駕駛中,車(chē)內(nèi)語(yǔ)音識(shí)別技術(shù)發(fā)揮著越來(lái)越重要的作用。語(yǔ)音數(shù)據(jù)集作為這一技術(shù)的基石,其質(zhì)量和規(guī)模對(duì)語(yǔ)音識(shí)別的性能有著至關(guān)重要的影響。本文將深入探討
    的頭像 發(fā)表于 01-31 16:07 ?538次閱讀

    語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音助手中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著人工智能技術(shù)的不斷發(fā)展,智能語(yǔ)音助手已經(jīng)成為了人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧?b class='flag-5'>語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音助手中發(fā)揮著重要作用,為系統(tǒng)提供了豐富的
    的頭像 發(fā)表于 01-18 15:46 ?385次閱讀

    語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音搜索中的應(yīng)用與挑戰(zhàn)

    一、引言 隨著互聯(lián)網(wǎng)的普及和移動(dòng)設(shè)備的興起,智能語(yǔ)音搜索已經(jīng)成為人們獲取信息的重要方式之一。智能語(yǔ)音搜索通過(guò)語(yǔ)音交互的方式,為用戶(hù)提供更加便捷、高效的信息查詢(xún)服務(wù)。語(yǔ)音
    的頭像 發(fā)表于 01-18 15:09 ?542次閱讀

    語(yǔ)音數(shù)據(jù)集:智能語(yǔ)音技術(shù)的燃料與推動(dòng)力

    隨著人工智能技術(shù)的不斷進(jìn)步,語(yǔ)音技術(shù)作為人機(jī)交互的重要方式,正在逐漸滲透到我們的日常生活中。而語(yǔ)音數(shù)據(jù)集作為智能語(yǔ)音技術(shù)的“燃料”,對(duì)于推動(dòng)其發(fā)展具有不可替代的作用。 一、
    的頭像 發(fā)表于 12-29 11:11 ?406次閱讀

    語(yǔ)音數(shù)據(jù)集:開(kāi)啟智能語(yǔ)音技術(shù)的新篇章

    隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)音數(shù)據(jù)集在推動(dòng)智能語(yǔ)音技術(shù)的進(jìn)步中發(fā)揮著越來(lái)越重要的作用。語(yǔ)音數(shù)據(jù)集是訓(xùn)練和優(yōu)化
    的頭像 發(fā)表于 12-29 11:06 ?696次閱讀

    語(yǔ)音數(shù)據(jù)集:推動(dòng)人工智能語(yǔ)音技術(shù)的關(guān)鍵要素

    隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)音技術(shù)已成為人機(jī)交互領(lǐng)域的重要一環(huán)。語(yǔ)音數(shù)據(jù)集作為支撐語(yǔ)音技術(shù)研發(fā)與應(yīng)用的基礎(chǔ)資源,對(duì)于推動(dòng)人工智能語(yǔ)音技術(shù)的
    的頭像 發(fā)表于 12-29 11:00 ?632次閱讀

    語(yǔ)音數(shù)據(jù)集:探索、挑戰(zhàn)與應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別技術(shù)已經(jīng)滲透到我們生活的方方面面,從智能手機(jī)助手到智能家居設(shè)備,再到自動(dòng)駕駛汽車(chē),都離不開(kāi)這項(xiàng)技術(shù)的支持。而在這些技術(shù)的背后,語(yǔ)音數(shù)據(jù)集扮演著至關(guān)重要的角色。本文
    的頭像 發(fā)表于 12-28 13:56 ?550次閱讀

    語(yǔ)音數(shù)據(jù)集:推動(dòng)智能語(yǔ)音技術(shù)發(fā)展的關(guān)鍵驅(qū)動(dòng)力

    隨著人工智能技術(shù)的不斷進(jìn)步,智能語(yǔ)音技術(shù)已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧?b class='flag-5'>語(yǔ)音數(shù)據(jù)集作為智能語(yǔ)音技術(shù)的核心,對(duì)于推動(dòng)其發(fā)展起到了至關(guān)重要的作用。本文將探討
    的頭像 發(fā)表于 12-28 13:46 ?566次閱讀

    語(yǔ)音數(shù)據(jù)集:智能語(yǔ)音技術(shù)的基石與挑戰(zhàn)

    隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)音技術(shù)已成為人機(jī)交互領(lǐng)域的重要突破口。語(yǔ)音數(shù)據(jù)集作為支撐語(yǔ)音技術(shù)研發(fā)的核心資源,對(duì)于提高語(yǔ)音識(shí)別、合成及自然語(yǔ)
    的頭像 發(fā)表于 12-28 11:28 ?714次閱讀
    RM新时代网站-首页