RM是什么平台,rm新时代是什么时候开始的

1. 用于語音情緒識(shí)別的基于對(duì)抗學(xué)習(xí)的說話人無關(guān)的表示

嘗試解決的問題：

在語音情緒識(shí)別任務(wù)中，會(huì)面臨到要測(cè)試的說話人未出現(xiàn)在訓(xùn)練集中的這個(gè)問題，本文嘗試運(yùn)用TDNN+LSTM作為特征提取部分，再通過對(duì)抗學(xué)習(xí)的方法來做到讓模型可以對(duì)說話人身份不敏感，從模型上來說，該對(duì)抗訓(xùn)練的思想就是將特征提取器提取到的特征同時(shí)輸入到說話人身份分類器和情緒識(shí)別分類器，對(duì)抗訓(xùn)練的損失函數(shù)是讓說話人身份分類器的損失達(dá)到最大，讓情緒識(shí)別分類器的損失達(dá)到最小，這樣以后，無論是哪個(gè)說話人的語音，經(jīng)過特征提取那部分以后，就沒有身份這一區(qū)別了。

如果有讀者閱讀過論文《Domain adversarial training of neural networks》，那么對(duì)DAT這個(gè)名詞就不陌生了，即遷移學(xué)習(xí)中的跨域?qū)W習(xí)，比如我現(xiàn)在有A領(lǐng)域的數(shù)據(jù)，并且該數(shù)據(jù)已經(jīng)被標(biāo)記好類別，同時(shí)也有B領(lǐng)域數(shù)據(jù)，但是未進(jìn)行標(biāo)記，如果我希望充分利用B數(shù)據(jù)，目標(biāo)是進(jìn)行分類，該怎么利用呢？我們只需要三個(gè)模塊結(jié)合對(duì)抗學(xué)習(xí)即可完成，分別是特征提取器+域識(shí)別器+分類器，當(dāng)域識(shí)別器已經(jīng)無法正確判斷的時(shí)候，說明特征提取器已經(jīng)完成了身份融合的效果，這個(gè)時(shí)候訓(xùn)練分類器即可。

在本篇語音情緒識(shí)別中，作者所提出的模型如下圖所示，輸入音頻的MFCC特征經(jīng)過TDNN網(wǎng)絡(luò)（由卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)）和BiLSTM網(wǎng)絡(luò)得到新的特征分布，再將此特征分布同時(shí)輸送到情緒識(shí)別器得到情緒種類y和說話人身份識(shí)別器得到身份s。

作者嘗試運(yùn)用了兩種訓(xùn)練方法，一種是domain adversial training，即DAT；另一種是cross gradient training，即CGT。下面我將分別解釋這兩種訓(xùn)練算法。

DAT

如前所述，DAT是通過對(duì)抗學(xué)習(xí)來使得網(wǎng)絡(luò)具備跨域的能力，其損失函數(shù)如下，可以看到，對(duì)于身份識(shí)別器而言，它的損失函數(shù)前面乘了一個(gè)因子并且取了負(fù)號(hào)，這使得網(wǎng)絡(luò)可以具備身份融合的作用，從而專注于情緒分類。

CGT

CGT是另外一種解決跨域?qū)W習(xí)的數(shù)據(jù)增強(qiáng)技巧，它通過將梯度傳到輸入數(shù)據(jù)上，于是情緒識(shí)別網(wǎng)絡(luò)可以訓(xùn)練原數(shù)據(jù)和增強(qiáng)后的數(shù)據(jù)，這樣就可以使得模型具備學(xué)習(xí)跨域的變化特征進(jìn)而可以適應(yīng)未知的測(cè)試數(shù)據(jù)集。CGT的數(shù)據(jù)增強(qiáng)技巧和損失函數(shù)如下，其中前兩項(xiàng)是增強(qiáng)后的新數(shù)據(jù)，最后是參數(shù)更新公式。

作者基于本模型和兩種訓(xùn)練技巧分別在IEMOCAP數(shù)據(jù)集和SpeechOcean中文大數(shù)據(jù)集上做了測(cè)試，所用的具體模型結(jié)構(gòu)如下所示，實(shí)驗(yàn)結(jié)果表明，在IEMOCAP小數(shù)據(jù)集上，相比于基線模型，DAT提高了5.6%，CGT提高了7.4%；但是在SpeechOcean 250說話人的中文大數(shù)據(jù)集上，DAT提高了9.8%，CGT的性能不及基線模型。

同時(shí)，作者畫出了通過DAT訓(xùn)練的經(jīng)過特征提取器得到的特征分布的t-SNE降維表示，如下圖所示，左邊是情緒類別，右邊是身份類別，可以看到身份標(biāo)簽已經(jīng)很好地被融合在一起。

2. 基于濾波和深度神經(jīng)網(wǎng)絡(luò)的聲源增強(qiáng)

參考文獻(xiàn):

data-driven design of perfect reconstruction filterbank for dnn-based sound source enhancement

鏈接：

https://arxiv.org/abs/1903.08876

單位：

早稻田大學(xué) & 日本電話電報(bào)公司

嘗試解決的問題：

傳統(tǒng)的聲源增強(qiáng)（Sound-source enhancement，SSE）的做法是首先將含噪音的信號(hào)進(jìn)行STFT變換得到時(shí)頻圖，再借助深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征變換，將得到的新的時(shí)頻圖與目標(biāo)時(shí)頻圖進(jìn)行求均方差，基于此均方差來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的參數(shù)。訓(xùn)練好網(wǎng)絡(luò)以后，將推理得到的時(shí)頻圖通過ISTFT變換到音頻，即可得到增強(qiáng)的音頻信號(hào)。這種做法的缺點(diǎn)按照文中的描述就是：

For example, MSE assumes that the error of all frequency bins has zero means and uniform variance, which cannot be met in usual situations, unfortunately.

按照筆者的理解就是訓(xùn)練均方差目標(biāo)函數(shù)得確保數(shù)據(jù)中每個(gè)頻率倉的均值和方差一樣，因?yàn)橹挥羞@樣訓(xùn)練才比較有效參數(shù)才可以穩(wěn)定地更新，但是實(shí)際上，我們?cè)谟?jì)算STFT的時(shí)候，并沒有考慮到所有音頻的個(gè)體差異，本文嘗試解決的就是這里的維度上的統(tǒng)計(jì)均勻的問題，DNN的框架是沒有變的，整體框架可以參見下圖的對(duì)比：

首先，傳統(tǒng)的STFT算法作用到一個(gè)信號(hào)x上可以用如下公式描述：

這里得到的X就是該信號(hào)的時(shí)頻信息，其中ω是頻率索引，k是幀索引。我們知道，X是由目標(biāo)信號(hào)和噪音信號(hào)共同組成的，根據(jù)傅里葉變換的可加性，可知：

為了得到目標(biāo)時(shí)頻，我們?cè)赬[ω,k]的基礎(chǔ)上作用一個(gè)T-F遮罩G[ω,k]，該T-F遮罩一般使用深度神經(jīng)網(wǎng)絡(luò)M來實(shí)現(xiàn)，于是整個(gè)模型的損失函數(shù)可以寫成如下形式：

但是基于MSE的訓(xùn)練算法有一個(gè)數(shù)據(jù)上的缺陷，因?yàn)镸SE的前提假設(shè)是各個(gè)維度的數(shù)據(jù)分布要保持一致，但這在實(shí)際中是很難保證的，因無論是聲源還是噪聲都有著不均勻的頻譜分布，舉個(gè)例子，由于高頻區(qū)域音頻較少，功率譜較小，誤差變化比較小，因而高頻區(qū)域要比低頻區(qū)域更難訓(xùn)練。這個(gè)時(shí)候，對(duì)損失函數(shù)做一個(gè)加權(quán)是合理的想法，該權(quán)重應(yīng)該是自適應(yīng)頻率的，并且與頻率誤差的標(biāo)準(zhǔn)差成反比，也就是說誤差標(biāo)準(zhǔn)差越小的頻率，我們需要多重視一下它的損失函數(shù)。

其中，權(quán)重的計(jì)算公式如下：

但是這樣又帶來一個(gè)問題，因?yàn)楣β首V較小的頻率區(qū)域權(quán)重比較大，故模型對(duì)那些區(qū)域的噪聲特別敏感，那么，算法的有效性就降低了。

本文作者提出的改進(jìn)的思路是保持損失函數(shù)不變，而對(duì)STFT部分進(jìn)行改進(jìn)，公式如下，作者將原公式中的ω定義成了φ(ω)的倒數(shù)的形式，這樣就可以自定義頻率的量級(jí)，這里的φ函數(shù)稱之為頻率扭曲函數(shù)。

那么如何設(shè)計(jì)這里的頻率扭曲函數(shù)φ呢？通過對(duì)誤差的功率譜密度進(jìn)行累計(jì)求和，依次從低頻到高頻，并加上一個(gè)規(guī)則化因子：

本文中所用的特征變換網(wǎng)絡(luò)的結(jié)構(gòu)如下表所示，分別是全連接神經(jīng)網(wǎng)絡(luò)+兩層雙向LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)+全連接分類網(wǎng)絡(luò)，以輸出目標(biāo)頻譜。

最后作者將此模型運(yùn)用到以WSJ-0作為目標(biāo)數(shù)據(jù)集，以CHiME-3作為噪聲來源所構(gòu)成的四套數(shù)據(jù)上，即通過構(gòu)建含噪音頻-清晰音頻配對(duì)來作為訓(xùn)練樣本，得到的實(shí)驗(yàn)結(jié)果如下，圖中的數(shù)值代表信噪比，數(shù)值越大，表明信噪比越高，即增強(qiáng)效果越好。

總體而言，這篇文章是基于平行語料和深度神經(jīng)網(wǎng)絡(luò)，對(duì)語音增強(qiáng)中的輸入頻譜的預(yù)處理算法進(jìn)行改進(jìn)，以解決基于均方差訓(xùn)練中可能會(huì)出現(xiàn)的訓(xùn)練不穩(wěn)定的問題。以后的推送中將會(huì)看到，對(duì)于語音增強(qiáng)或語音分離，我們甚至可以采用非平行語料來做。

3. 用于語音韻律、頻譜可視化的在線網(wǎng)頁平臺(tái)

參考文獻(xiàn):

CRAFT: A Multifunction Online Platform for Speech Prosody Visualisation

鏈接：

https://arxiv.org/abs/1903.08718

單位：

比勒費(fèi)爾德大學(xué)

demo體驗(yàn)網(wǎng)址：

http://wwwhomes.uni-bielefeld.de/gibbon/CRAFT/

嘗試解決的問題：

提供一個(gè)更加友好的基頻（各種不同的實(shí)現(xiàn)算法）、頻譜包絡(luò)可視化對(duì)比的在線平臺(tái)。

這里我們先回顧幾個(gè)聲學(xué)頻譜分析中的概念：

基頻：一般我們對(duì)一個(gè)音頻作短時(shí)傅里葉變化并畫出時(shí)頻圖的時(shí)候，時(shí)頻圖上會(huì)出現(xiàn)很多條橫條紋，而頻率范圍最小的那個(gè)橫條紋一般可以認(rèn)為就是基頻的值；

諧波：除了基頻那個(gè)橫條紋以外，其他橫條紋就是各次諧波；

共振峰：頻譜上包絡(luò)的峰值；

本文中介紹的demo如下圖所示，其中包含基頻估計(jì)的參數(shù)設(shè)計(jì)、振幅和頻率調(diào)制、頻率解調(diào)制、濾波等可視化窗口。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

分類器

分類器

+關(guān)注

關(guān)注
0

文章
152

瀏覽量
13179
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24689
遷移學(xué)習(xí)

遷移學(xué)習(xí)

+關(guān)注

關(guān)注
0

文章
74

瀏覽量
5559

原文標(biāo)題：語音情緒識(shí)別|聲源增強(qiáng)|基頻可視化

文章出處：【微信號(hào)：DeepLearningDigest，微信公眾號(hào)：深度學(xué)習(xí)每日摘要】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

說話人識(shí)別和驗(yàn)證系統(tǒng)解決方案

說話人識(shí)別和驗(yàn)證系統(tǒng)的應(yīng)用與日俱增。該技術(shù)的使用有助于控制和訪問自動(dòng)駕駛汽車、計(jì)算機(jī)、手機(jī)和其他設(shè)備。還建立了各種機(jī)器學(xué)習(xí)模型來保護(hù)說話

發(fā)表于 07-26 10:16 ?2157次閱讀

<b class='flag-5'>說話</b><b class='flag-5'>人</b><b class='flag-5'>識(shí)別</b>和驗(yàn)證系統(tǒng)解決方案

labview說話人語音識(shí)別相關(guān)的VI

這是說話人語音識(shí)別的相關(guān)資料，大神們來看看啊，順便幫小弟做一個(gè)用電腦麥克風(fēng)識(shí)別說話人的程序，謝啦

發(fā)表于 05-31 15:17

FPGA和Nios_軟核的語音識(shí)別系統(tǒng)的研究

FPGA和Nios_軟核的語音識(shí)別系統(tǒng)的研究引言語音識(shí)別的過程是一個(gè)模式匹配的過程在這個(gè)過程中，首先根據(jù)說話

發(fā)表于 08-11 11:47

會(huì)物體識(shí)別和語音識(shí)別的nao機(jī)器人

是nao機(jī)器人的偉大之處。面部探測(cè)與識(shí)別這是最廣為人知的一項(xiàng)互動(dòng)功能。nao機(jī)器人可探測(cè)并學(xué)習(xí)記憶不同的面部，此后，它可對(duì)其進(jìn)行識(shí)別。

發(fā)表于 02-13 14:09

請(qǐng)問電銷機(jī)器人智能語音識(shí)別的原理是什么？

讓機(jī)器人聽懂人們說話，還要讓機(jī)器人能夠與人對(duì)話的技術(shù)更是已經(jīng)研究了30年之久。在今天，科幻電影里才會(huì)出現(xiàn)的，能夠與人類自如交談的機(jī)器人終于出現(xiàn)了。那么，這些電銷機(jī)器

發(fā)表于 06-12 14:03

基于DSP嵌入式說話人識(shí)別系統(tǒng)該怎么設(shè)計(jì)？

說話人身份識(shí)別屬于生物認(rèn)證技術(shù)的一種，是一項(xiàng)根據(jù)語音中反映說話人生理和行為特征的語音參數(shù)來自動(dòng)識(shí)別說話

發(fā)表于 11-04 07:34

基于TMS320C6701EVM板的快速說話人識(shí)別系統(tǒng)

本文在TMS320C6701EVM 板的基礎(chǔ)上實(shí)現(xiàn)一種快速的說話人識(shí)別系統(tǒng)。本文提出一種基于段級(jí)語音特征的說話

發(fā)表于 07-30 15:53 ?17次下載

基于TMS320C6701EVM板的快速說話人識(shí)別系統(tǒng)

本文在TMS320C6701EVM板的基礎(chǔ)上實(shí)現(xiàn)一種快速的說話人識(shí)別系統(tǒng)。本文提出一種基于段級(jí)語音特征的說話

發(fā)表于 08-05 16:25 ?0次下載

基于DTW的編碼域說話人識(shí)別研究

摘要! 相對(duì)解碼重建后的語音進(jìn)行說話人識(shí)別從VOIP的語音流中直接提取語音特征參數(shù)進(jìn)行

發(fā)表于 11-22 14:59 ?0次下載

基于PAD情緒模型的情感語音識(shí)別

基于PAD情緒模型的情感語音識(shí)別_宋靜

發(fā)表于 01-08 14:47 ?0次下載

語音識(shí)別系統(tǒng)中增加圖像識(shí)別技術(shù)的設(shè)計(jì)應(yīng)用

貢獻(xiàn)。讓機(jī)器識(shí)別語音的困難在某種程度上就像一個(gè)外語不好的人聽外圍人講話一樣，它與說話人、說話速度

發(fā)表于 12-01 14:52 ?3238次閱讀

基于MAP+CMLLR的說話人識(shí)別中發(fā)聲力度問題

說話人特征。其中，MAP自適應(yīng)方法用于對(duì)正常語音訓(xùn)練的說話人模型進(jìn)行更新，而CMLLR特征空間投

發(fā)表于 12-05 15:21 ?0次下載

基于CS的說話人識(shí)別算法

，即建立說話人語音特征數(shù)據(jù)庫和基追蹤匹配得到最大均值系數(shù)，其中，語音特征向量由GMM 均值超向量核算法得到，大量實(shí)驗(yàn)數(shù)據(jù)表明，該方法定程度上提高了識(shí)別率，并且在

發(fā)表于 01-18 17:33 ?3次下載

如何使用多特征i-vector進(jìn)行短語音說話人識(shí)別算法說明

當(dāng)測(cè)試語音時(shí)長(zhǎng)充足時(shí)，單一特征的信息量和區(qū)分性足夠完成說話人識(shí)別任務(wù)，但是在測(cè)試語音很短的情況下，語音

發(fā)表于 12-14 13:42 ?6次下載

基于TDSDM642EVM數(shù)字處理芯片實(shí)現(xiàn)實(shí)時(shí)說話人識(shí)別系統(tǒng)的設(shè)計(jì)

說話人識(shí)別又稱聲紋識(shí)別，是通過說話人的聲音特征進(jìn)行身份認(rèn)證的一種生物特征

發(fā)表于 08-06 13:17 ?832次閱讀