RM新时代赚钱项目,RM新时代赚钱项目

語(yǔ)言障礙癥狀影響著數(shù)百萬(wàn)人的生活，其產(chǎn)生原因很多，包括神經(jīng)或遺傳疾病、身體缺陷、腦損傷或聽(tīng)力喪失等，而由此導(dǎo)致的癥狀也各不相同，如口吃、構(gòu)音障礙（Dysarthria）、失用癥（Apraxia）等，這些癥狀對(duì)患者的自我表達(dá)、社會(huì)生活參與，以及使用語(yǔ)音技術(shù)，都會(huì)產(chǎn)生不利影響。

自動(dòng)語(yǔ)音識(shí)別（ASR， Automatic Speech Recognition）技術(shù)可以通過(guò)提升設(shè)備的聽(tīng)寫(xiě)和家居自動(dòng)化能力以及溝通能力，來(lái)幫助語(yǔ)言障礙人士克服上述問(wèn)題。然而，盡管隨著深度學(xué)習(xí)系統(tǒng)計(jì)算能力的提升，以及有大型訓(xùn)練數(shù)據(jù)集可供使用，ASR 系統(tǒng)在準(zhǔn)確率方面有所提升，但是對(duì)于許多具有語(yǔ)言障礙的人而言，系統(tǒng)的性能仍有所欠缺，導(dǎo)致許多本應(yīng)受益良多的患者無(wú)法有效利用這項(xiàng)技術(shù)。

2019 年，我們推出了 Euphonia 項(xiàng)目，探討如何通過(guò)個(gè)性化的識(shí)別語(yǔ)言障礙 ASR 模型，實(shí)現(xiàn)在典型語(yǔ)音上與通用 ASR 模型相同水平的準(zhǔn)確率。今天我們?yōu)榇蠹曳窒韮身?xiàng)在 Inte rspeech 2021 上發(fā)布的研究成果，這兩項(xiàng)研究目的在于讓更多用戶(hù)群體可以利用個(gè)性化 ASR 模型。在“無(wú)序語(yǔ)音數(shù)據(jù)集合：從 Euphonia 項(xiàng)目 100 萬(wàn)條語(yǔ)音中總結(jié)的經(jīng)驗(yàn) （Disordered Speech Data Collection： Lessons Learned at 1 Million Utterances from Project Euphonia）”中，我們介紹了一個(gè)涵蓋范圍廣泛的無(wú)序語(yǔ)音數(shù)據(jù)集合，其中包含的語(yǔ)音數(shù)據(jù)超過(guò) 100 萬(wàn)條。在“自動(dòng)識(shí)別無(wú)序語(yǔ)音：在短語(yǔ)方面?zhèn)€性化模型較人類(lèi)表現(xiàn)更佳（Automatic Speech Recognition of Disordered Speech： Personalized models outperforming human listeners on short phrases） ”中，我們討論了在基于該語(yǔ)料庫(kù)生成個(gè)性化 ASR 模型上所開(kāi)展的工作。與利用典型語(yǔ)音訓(xùn)練的開(kāi)箱即用的語(yǔ)音模型相比，這種方法可以產(chǎn)生準(zhǔn)確率更高的模型，在特定的語(yǔ)境中，字錯(cuò)誤率（WER， Word error rate）可降低高達(dá) 85% 。

Euphonia

https://blog.google/outreach-initiatives/accessibility/impaired-speech-recognition/

無(wú)序語(yǔ)音數(shù)據(jù)集合：從 Euphonia 項(xiàng)目 100 萬(wàn)條語(yǔ)音中總結(jié)的經(jīng)驗(yàn)

https://www.isca-speech.org/archive/interspeech_2021/macdonald21_interspeech.html

自動(dòng)識(shí)別無(wú)序語(yǔ)音：在短語(yǔ)方面?zhèn)€性化模型較人類(lèi)表現(xiàn)更佳

https://www.isca-speech.org/archive/interspeech_2021/green21_interspeech.html

來(lái)自語(yǔ)障人士的語(yǔ)音數(shù)據(jù)集合

自 2019 年起，不少語(yǔ)障人士為支持 Euphonia 項(xiàng)目的研究工作提供了語(yǔ)音樣本。他們的嚴(yán)重程度不同，癥狀也不一樣。這項(xiàng)工作將 Euphonia 項(xiàng)目的語(yǔ)料庫(kù)擴(kuò)展至超過(guò) 100 萬(wàn)條語(yǔ)音，包括了來(lái)自 1330 名說(shuō)話(huà)者的 1400 多小時(shí)語(yǔ)音記錄（截至 2021 年 8 月）。

基于超過(guò) 300 條錄制的語(yǔ)音數(shù)據(jù)，繪制出的所有說(shuō)話(huà)者的語(yǔ)言障礙嚴(yán)重程度和所患病癥分布圖。在病癥方面，僅顯示患病人數(shù)超過(guò) 5 人的病癥，否則統(tǒng)一記入“其他”以滿(mǎn)足 k 匿名性（k-anonymity）

ALS 代表肌萎縮性脊髓側(cè)索硬化癥；DS 代表唐氏綜合癥；PD 代表帕金森病；CP 代表腦癱；HI 代表聽(tīng)力障礙；MD 代表肌肉萎縮癥；MS 代表多發(fā)性硬化癥

Euphonia 項(xiàng)目的研究工作

https://sites.research.google/euphonia/about/

為簡(jiǎn)化數(shù)據(jù)收集流程，參與者在筆記本電腦或者手機(jī)等個(gè)人硬件上（使用或者不使用頭戴式耳機(jī)）通過(guò)家用錄音系統(tǒng)收集語(yǔ)音，而不是在類(lèi)似實(shí)驗(yàn)室這樣的理想環(huán)境中收集錄音棚品質(zhì)的語(yǔ)音。

為降低轉(zhuǎn)錄成本，同時(shí)保持較高的轉(zhuǎn)錄一致性，我們優(yōu)先采取了按照文本朗讀的方式。參與者根據(jù)瀏覽器端錄音工具上顯示的提示語(yǔ)進(jìn)行朗讀。這些提示語(yǔ)涵蓋家居自動(dòng)化（“打開(kāi)電視?！保?、與看護(hù)者對(duì)話(huà)（“我餓了?！保┮约胺钦綄?duì)話(huà)（“你好嗎？你今天過(guò)得愉快嗎？”）等語(yǔ)境。大部分參與者會(huì)朗讀 1500 條提示語(yǔ)，其中包含 1100 個(gè)只出現(xiàn)一次的短語(yǔ)以及 100 個(gè)重復(fù)出現(xiàn) 4 次的短語(yǔ)。

語(yǔ)音專(zhuān)家在傾聽(tīng)每位說(shuō)話(huà)者部分語(yǔ)音的同時(shí)，進(jìn)行了全面的聽(tīng)覺(jué)感知和語(yǔ)音評(píng)估，以便根據(jù)多種為說(shuō)話(huà)者分級(jí)的元數(shù)據(jù)，來(lái)判定語(yǔ)言障礙類(lèi)型（例如口吃、構(gòu)音障礙、失用癥等），對(duì)如鼻音過(guò)重（Hypernasal speech）、發(fā)音失準(zhǔn)和言語(yǔ)聲律障礙（Dysprosody）等 24 種異常語(yǔ)音特征進(jìn)行評(píng)定，同時(shí)對(duì)技術(shù)問(wèn)題（例如信號(hào)丟失、分割問(wèn)題）和聲學(xué)問(wèn)題（例如環(huán)境噪音、次級(jí)揚(yáng)聲器串?dāng)_）進(jìn)行錄音質(zhì)量評(píng)估。

個(gè)性化 ASR 模型

這個(gè)擴(kuò)展的語(yǔ)音障礙數(shù)據(jù)集也是我們生成無(wú)序語(yǔ)音個(gè)性化 ASR 模型新方法的基礎(chǔ)。每個(gè)定制模型都使用標(biāo)準(zhǔn)的端對(duì)端 RNN-傳感器（RNN-T） ASR 模型，該模型僅對(duì)目標(biāo)說(shuō)話(huà)者的數(shù)據(jù)進(jìn)行微調(diào)。

RNN-傳感器架構(gòu)。在示例中，編碼器網(wǎng)絡(luò)由 8 層組成，而預(yù)測(cè)器網(wǎng)絡(luò)由 2 層單向 LSTM （Long short-term memory）單元組成

為此，我們重點(diǎn)調(diào)整了編碼器網(wǎng)絡(luò)，也就是模型中處理說(shuō)話(huà)者特定聲學(xué)數(shù)據(jù)的部分，因?yàn)檎Z(yǔ)音障礙是我們語(yǔ)料庫(kù)中最常見(jiàn)的現(xiàn)象。我們發(fā)現(xiàn)，只更新 8 個(gè)編碼器層中最底層的 5 個(gè)，而凍結(jié)最上面的 3 個(gè)編碼器層（以及連接層和解碼器層），可以得到最好的結(jié)果，并能夠有效避免過(guò)度擬合。為了讓這些模型在處理背景噪聲和其他聲學(xué)效應(yīng)方面更具魯棒性，我們采用了專(zhuān)門(mén)針對(duì)無(wú)序語(yǔ)音為主要特征進(jìn)行調(diào)整的 SpecAugment 配置。

SpecAugment

https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html

結(jié)果

我們訓(xùn)練了約 430 名說(shuō)話(huà)者的個(gè)性化 ASR 模型，他們每人至少錄制了 300 條語(yǔ)音。我們把其中 10% 的語(yǔ)音作為測(cè)試集（訓(xùn)練和測(cè)試間沒(méi)有短語(yǔ)重疊），在此基礎(chǔ)上，計(jì)算了個(gè)性化模型以及未調(diào)適的基礎(chǔ)模型的 WER。

總的來(lái)說(shuō)，無(wú)論是何種嚴(yán)重程度還是病癥，我們提供的個(gè)性化方法都取得了顯著效果。即便是存在嚴(yán)重語(yǔ)言障礙的語(yǔ)音，家居自動(dòng)化語(yǔ)境短語(yǔ)的 WER 中位數(shù)從 89% 左右降到了 13%。在如與看護(hù)者對(duì)話(huà)等其他語(yǔ)境中，準(zhǔn)確率也有顯著提高。

在未調(diào)適與個(gè)性化 ASR 模型中使用居家自動(dòng)化短語(yǔ)的 WER

為了解個(gè)性化模型何時(shí)不適用，我們對(duì)以下幾個(gè)子組進(jìn)行了分析：

●

HighWER 與 LowWER：將說(shuō)話(huà)者按照具有基于 WER 分布的第 1 和第 5 個(gè)五分位數(shù)的高和低劃分個(gè)性化模型。

●

SurpHighWER：具有超高 WER 的說(shuō)話(huà)者（在 HighWER 組中典型或具有輕度語(yǔ)言障礙的參與者）。

不同的病癥以及語(yǔ)言障礙表現(xiàn)形式對(duì) ASR 產(chǎn)生的影響是不一致的。根據(jù) HighWER 組中語(yǔ)言障礙類(lèi)型的分布表明，由于腦癱（Cerebral palsy）引起的構(gòu)音障礙特別難以建模。不出意外，該組中語(yǔ)言障礙嚴(yán)重程度的中位數(shù)也更高。

為了識(shí)別影響 ASR 準(zhǔn)確率的特定說(shuō)話(huà)者以及技術(shù)因素，我們檢查了 ASR 表現(xiàn)較差（HighWER）和優(yōu)秀（LowWER）的參與者之間元數(shù)據(jù)的差異（Cohen‘s D）。和預(yù)期一樣，LowWER 組中整體語(yǔ)言受損程度顯著低于HighWER組（p 《 0.01）。HighWER 組中最突出的非典型語(yǔ)音特征是清晰度以及受損程度，同時(shí)包含其他較為突出的語(yǔ)音特征，如異常的韻律（Prosody ）、發(fā)音及發(fā)聲（Phonation）。眾所周知，這些語(yǔ)音特征也會(huì)降低語(yǔ)音的整體清晰度。

與 LowWER 組（p 《 0.01）相比，SurpHighWER 組中的訓(xùn)練語(yǔ)音更少，且 SNR 更低，進(jìn)而導(dǎo)致較大（負(fù)）的效應(yīng)量，而其他因素的效應(yīng)量則較小（快速性除外）。相比之下，HighWER 組在所有因素中都表現(xiàn)出了較大差異。

語(yǔ)音障礙和技術(shù)元數(shù)據(jù)效應(yīng)量對(duì)比結(jié)果：HighWER 組與 LowWER 組對(duì)比；SurpHighWER 組和 LowWER 組對(duì)比。正值結(jié)果表明 HighWER 組的組值大于 LowWER 組的組值

之后，我們將個(gè)性化 ASR 模型和人類(lèi)聽(tīng)眾進(jìn)行了比較。三位語(yǔ)音專(zhuān)家分別為每位說(shuō)話(huà)者轉(zhuǎn)錄了 30 條語(yǔ)音。我們發(fā)現(xiàn)，與人類(lèi)聽(tīng)眾的 WER 相比，個(gè)性化 ASR 模型的 WER 平均而言更低，并且隨語(yǔ)言受損嚴(yán)重程度的增加而表現(xiàn)的更好。

個(gè)性化 ASR 模型 WER 與人類(lèi)聽(tīng)眾 WER 之間的增量。負(fù)值表明個(gè)性化 ASR 模型的表現(xiàn)優(yōu)于人類(lèi)（專(zhuān)家）聽(tīng)眾

結(jié)論

Euphonia 語(yǔ)料庫(kù)擁有超過(guò) 100 萬(wàn)條語(yǔ)音，是最大、最多樣的無(wú)序語(yǔ)音語(yǔ)料庫(kù)之一（就無(wú)序類(lèi)型與受損程度而言），這一語(yǔ)料庫(kù)大大提升了非典型語(yǔ)音類(lèi)型中的 ASR 準(zhǔn)確率。我們的研究結(jié)果證明，個(gè)性化 ASR 模型在識(shí)別各種語(yǔ)言障礙以及受損程度方面十分有效，而且具備了讓更多用戶(hù)使用 ASR 的潛力。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30728

瀏覽量
268882
語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
38

文章
1739

瀏覽量
112632

原文標(biāo)題：個(gè)性化語(yǔ)音識(shí)別模型，幫助語(yǔ)言障礙人士正常交流

文章出處：【微信號(hào)：tensorflowers，微信公眾號(hào)：Tensorflowers】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Java集合API的改進(jìn)介紹

簡(jiǎn)介本文我們將探討不同 jdk 版本中各類(lèi)的起源，以及新引入的類(lèi)和接口背后的目的。我們將分析之前版本存在的問(wèn)題，以及為何需要引入新的類(lèi)或接口。此外，我們還將介紹集合類(lèi)和接口中的新特性。文章將逐一

發(fā)表于 11-22 11:12 ?174次閱讀

Java<b class='flag-5'>集合</b>API的改進(jìn)介紹

助盲環(huán)境感知裝置設(shè)計(jì)方案

今天為大家?guī)?lái)的是來(lái)自創(chuàng)作者X同學(xué)的作品：助盲環(huán)境感知裝置. 這個(gè)裝置主要利用Grove Vision AI V2-Camera module識(shí)別環(huán)境中的物體，并利用XIAO ESP32S3和樹(shù)莓派進(jìn)行語(yǔ)音輸出，結(jié)合了物體檢測(cè)和文本轉(zhuǎn)語(yǔ)

發(fā)表于 11-05 11:42 ?206次閱讀

九芯電子革新健康檢測(cè)！語(yǔ)音播報(bào)血壓計(jì)ic芯片解決方案

血壓計(jì)，可測(cè)量血壓并將讀數(shù)顯示在屏幕上。為了提高老年人和視障人士的可用性，現(xiàn)代電子語(yǔ)音血壓計(jì)已經(jīng)開(kāi)發(fā)出來(lái)，可提供當(dāng)前血壓讀數(shù)的聽(tīng)覺(jué)反饋。這是通過(guò)集成語(yǔ)音芯片來(lái)實(shí)現(xiàn)的，該芯片將測(cè)量結(jié)果發(fā)

發(fā)表于 09-22 08:00 ?209次閱讀

語(yǔ)音控制模塊_雷龍發(fā)展

　　1，串口　　uart串口控制模式，即異步傳送收發(fā)器，通過(guò)其完成語(yǔ)音控制。 []() 　　圖中，GND表示單片機(jī)系統(tǒng)電源的參考地，TXD是串行發(fā)送引腳，RXD是串行接收引腳。發(fā)送uart將來(lái)自

發(fā)表于 06-14 17:18

AGV小車(chē)使用避障雷達(dá)

AGV（自動(dòng)導(dǎo)引車(chē)）小車(chē)使用避障雷達(dá)是為了確保其在運(yùn)行過(guò)程中的安全性和穩(wěn)定性。避障雷達(dá)，如激光雷達(dá)或超聲波雷達(dá)，能夠?qū)崟r(shí)檢測(cè)并避免與障礙物發(fā)生碰撞。 AGV小車(chē)避障雷達(dá)的安裝和使用通常涉及以下

發(fā)表于 05-20 10:48 ?616次閱讀

創(chuàng)客打造智能眼鏡，助聽(tīng)障人士理解手語(yǔ)

據(jù)悉，知名創(chuàng)客Nekhil近期將樹(shù)莓派進(jìn)行深度改裝，成功研發(fā)出一款可用于解讀手語(yǔ)的智能眼鏡，以解決聽(tīng)障人士的溝通問(wèn)題。

發(fā)表于 04-23 15:32 ?459次閱讀

語(yǔ)音數(shù)據(jù)集：智能駕駛中車(chē)內(nèi)語(yǔ)音識(shí)別技術(shù)的基石

一、引言在智能駕駛中，車(chē)內(nèi)語(yǔ)音識(shí)別技術(shù)發(fā)揮著越來(lái)越重要的作用。語(yǔ)音數(shù)據(jù)集作為這一技術(shù)的基石，其質(zhì)量和規(guī)模對(duì)語(yǔ)音識(shí)別的性能有著至關(guān)重要的影響。本文將深入探討

發(fā)表于 01-31 16:07 ?538次閱讀

語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音助手中的應(yīng)用與挑戰(zhàn)

一、引言隨著人工智能技術(shù)的不斷發(fā)展，智能語(yǔ)音助手已經(jīng)成為了人們?nèi)粘Ｉ钪胁豢苫蛉钡囊徊糠帧?b class='flag-5'>語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音助手中發(fā)揮著重要作用，為系統(tǒng)提供了豐富的

發(fā)表于 01-18 15:46 ?385次閱讀

RM新时代网站-首页

搜索歷史

來(lái)自語(yǔ)障人士的語(yǔ)音數(shù)據(jù)集合

評(píng)論

Java集合API的改進(jìn)介紹

助盲環(huán)境感知裝置設(shè)計(jì)方案

九芯電子革新健康檢測(cè)！語(yǔ)音播報(bào)血壓計(jì)ic芯片解決方案

語(yǔ)音控制模塊_雷龍發(fā)展

AGV小車(chē)使用避障雷達(dá)

創(chuàng)客打造智能眼鏡，助聽(tīng)障人士理解手語(yǔ)

語(yǔ)音數(shù)據(jù)集：智能駕駛中車(chē)內(nèi)語(yǔ)音識(shí)別技術(shù)的基石

語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音助手中的應(yīng)用與挑戰(zhàn)

語(yǔ)音數(shù)據(jù)集在智能語(yǔ)音搜索中的應(yīng)用與挑戰(zhàn)

語(yǔ)音數(shù)據(jù)集：智能語(yǔ)音技術(shù)的燃料與推動(dòng)力

語(yǔ)音數(shù)據(jù)集：開(kāi)啟智能語(yǔ)音技術(shù)的新篇章

語(yǔ)音數(shù)據(jù)集：推動(dòng)人工智能語(yǔ)音技術(shù)的關(guān)鍵要素

語(yǔ)音數(shù)據(jù)集：探索、挑戰(zhàn)與應(yīng)用

語(yǔ)音數(shù)據(jù)集：推動(dòng)智能語(yǔ)音技術(shù)發(fā)展的關(guān)鍵驅(qū)動(dòng)力

語(yǔ)音數(shù)據(jù)集：智能語(yǔ)音技術(shù)的基石與挑戰(zhàn)