文仕學(xué),孫 磊,杜 俊
(中國(guó)科學(xué)技術(shù)大學(xué) 語(yǔ)音及語(yǔ)言信息處理國(guó)家工程實(shí)驗(yàn)室,合肥 230027)
隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)在智能終端上得到了越來(lái)越廣泛的應(yīng)用.伴隨著語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,語(yǔ)音識(shí)別系統(tǒng)的性能不斷提高,高信噪比條件下的語(yǔ)音識(shí)別系統(tǒng)取得了較高的識(shí)別率.然而,語(yǔ)音識(shí)別系統(tǒng)在復(fù)雜的應(yīng)用環(huán)境中,由于測(cè)試環(huán)境和訓(xùn)練環(huán)境不匹配,導(dǎo)致傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)的性能會(huì)出現(xiàn)明顯的下降[1].這是因?yàn)閷?duì)基于統(tǒng)計(jì)模型的語(yǔ)音識(shí)別系統(tǒng),訓(xùn)練的數(shù)據(jù)必須具有充分的代表性.然而,當(dāng)識(shí)別系統(tǒng)應(yīng)用于噪聲環(huán)境時(shí),測(cè)試語(yǔ)音中的噪聲和訓(xùn)練語(yǔ)音中的噪聲之間存在不匹配,識(shí)別系統(tǒng)在噪聲環(huán)境下的性能下降主要?dú)w因于這種不匹配.而對(duì)于馬路、餐館、商場(chǎng)、汽車(chē)、飛機(jī)等信噪比惡劣環(huán)境中的語(yǔ)音信號(hào)來(lái)說(shuō),現(xiàn)有語(yǔ)音識(shí)別系統(tǒng)的魯棒性還有待提升.因此噪聲魯棒性問(wèn)題一直是限制語(yǔ)音識(shí)別系統(tǒng)在現(xiàn)實(shí)生活中得到大規(guī)模應(yīng)用的一個(gè)主要問(wèn)題[2].其中語(yǔ)音識(shí)別的噪聲魯棒性是指:當(dāng)輸入語(yǔ)音質(zhì)量退化,語(yǔ)音的音素特性、分割特性或聲學(xué)特性在訓(xùn)練和測(cè)試環(huán)境中不同時(shí),語(yǔ)音識(shí)別系統(tǒng)仍然保持較高識(shí)別率的性質(zhì)[3].
近年來(lái),提高語(yǔ)音識(shí)別的抗噪聲能力有很多比較成功的技術(shù)和算法,語(yǔ)音增強(qiáng)技術(shù)就是其中一種.語(yǔ)音增強(qiáng)的目的是從含噪語(yǔ)音中提取盡可能純凈的原始語(yǔ)音信號(hào),以提高語(yǔ)音的質(zhì)量和可懂度[4].語(yǔ)音增強(qiáng)在語(yǔ)音識(shí)別模型的前端進(jìn)行降噪預(yù)處理,能有效的抑制背景噪聲,提升測(cè)試語(yǔ)音信噪比,從而提高語(yǔ)音識(shí)別系統(tǒng)的性能[5].但帶來(lái)的頻譜失真和音樂(lè)噪聲卻是對(duì)識(shí)別的不利因素[6].
假設(shè)帶噪語(yǔ)音在時(shí)域上符合下面這個(gè)顯式的失真模型:
y[t]=x[t]+n[t]
(1)
x[t],n[t]和y[t]分別表示干凈語(yǔ)音,加性噪聲和帶噪語(yǔ)音.從目前的發(fā)展上看,語(yǔ)音增強(qiáng)最常用的方法是基于短時(shí)譜估計(jì)的方法,即先作短時(shí)傅里葉變換,將失真模型變換到頻域表示如下:
Y[l,k]=X[l,k]+N[l,k]l=1,2,…,N;k=1,2,…,M
(2)
其中X[l,k],N[l,k]和Y[l,k]分別表示干凈語(yǔ)音,加性噪聲和帶噪語(yǔ)音在第l幀和第k頻帶的頻域信號(hào)的復(fù)數(shù)表示,M為總頻帶數(shù),N為總幀數(shù).然后基于頻域模型利用Y[l,k]來(lái)估計(jì)X[l,k],譜估計(jì)方法主要包括:
1.譜減法[7].譜減法(Spectral Subtraction,SS)假設(shè)噪聲是平穩(wěn)的加性噪聲且與語(yǔ)音信號(hào)不相關(guān),從帶噪語(yǔ)音的功率譜中減去噪聲功率譜,得到語(yǔ)音頻譜.譜減法及其改進(jìn)算法運(yùn)算量較小,易于實(shí)時(shí)實(shí)現(xiàn),增強(qiáng)效果也較好.但是增強(qiáng)后的語(yǔ)音容易留下類(lèi)似音樂(lè)的噪聲,對(duì)主觀聽(tīng)感的影響較大.
2.維納濾波[8].維納濾波方法可以看作對(duì)時(shí)域波形的最小均方誤差估計(jì).該算法的優(yōu)點(diǎn)是殘余噪聲較小,且信號(hào)各幀之間有較好的連續(xù)性,且?guī)缀鯖](méi)有音樂(lè)噪聲,但是會(huì)殘留類(lèi)似高斯白噪聲的殘差噪聲.
3.最小均方誤差估計(jì)[9].最小均方誤差(Minimum Mean Square Error,MMSE)估計(jì)及其改進(jìn)算法對(duì)非平穩(wěn)的噪聲具有良好的抑制作用,但是較難估計(jì)語(yǔ)音信號(hào)的概率密度函數(shù).
以上三種無(wú)監(jiān)督學(xué)習(xí)方法,都無(wú)法對(duì)非平穩(wěn)噪聲進(jìn)行有效抑制,這是因?yàn)榉瞧椒€(wěn)噪聲具有突發(fā)性,如果僅僅通過(guò)前面的非語(yǔ)音幀來(lái)估計(jì)噪聲的方差,很難有效跟蹤非平穩(wěn)噪聲.

圖1 基于深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)流程圖Fig.1 Flowchart of speech enhancement based on DNN
4.基于深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法[10].在近些年來(lái),隨著深度學(xué)習(xí)的發(fā)展,深層神經(jīng)網(wǎng)絡(luò)的深層非線性結(jié)構(gòu)可以被設(shè)計(jì)成一個(gè)精細(xì)的降噪濾波器,以很好地抑制非平穩(wěn)噪聲.其原理是利用深層神經(jīng)網(wǎng)絡(luò)作為學(xué)習(xí)帶噪語(yǔ)音和干凈語(yǔ)音之間非線性映射關(guān)系的回歸模型,該方法流程如圖1所示.
從前面的傳統(tǒng)語(yǔ)音增強(qiáng)算法我們可以看出,這些方法都是從帶噪語(yǔ)音對(duì)語(yǔ)音進(jìn)行直接估計(jì).以前面的深層神經(jīng)網(wǎng)絡(luò)方法為例,為了提高深層神經(jīng)網(wǎng)絡(luò)模型對(duì)噪聲的魯棒性,通常需要使用大量的帶噪語(yǔ)音來(lái)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò),這一方面將導(dǎo)致深層神經(jīng)網(wǎng)絡(luò)模型的參數(shù)增加,另一方面也會(huì)導(dǎo)致計(jì)算量的增加,以及系統(tǒng)處理速度的降低.此外,在低信噪比環(huán)境下,深層神經(jīng)網(wǎng)絡(luò)增強(qiáng)后的語(yǔ)音會(huì)存在較大失真[11].在保持深層神經(jīng)網(wǎng)絡(luò)模型對(duì)噪聲魯棒性的前提下,為了減少深層神經(jīng)網(wǎng)絡(luò)的參數(shù),近年一種漸進(jìn)學(xué)習(xí)[11](Progressive Learning,PL)語(yǔ)音增強(qiáng)方法被提出.不同于參考文獻(xiàn)11僅使用該方法做語(yǔ)音增強(qiáng),本文與參考文獻(xiàn)的區(qū)別在于將該方法作為識(shí)別模型的前端部分,應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域.漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)及識(shí)別方法的流程圖如圖2所示.其中,在前端增強(qiáng)模塊,漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)方法在傳統(tǒng)的深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法基礎(chǔ)上,可以進(jìn)一步提高語(yǔ)音的聽(tīng)感和可懂度等指標(biāo).而在后端識(shí)別模塊,通過(guò)該方法訓(xùn)練的PL-DNN對(duì)帶噪語(yǔ)音進(jìn)行前端降噪,然后提取Filter-bank特征,再送給后端識(shí)別ASR-DNN聲學(xué)模型和語(yǔ)言模型進(jìn)行解碼搜索,最后輸出識(shí)別結(jié)果.

圖2 漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)及識(shí)別方法流程圖Fig.2 Flowchart of PL speech enhancement and ASR method
從漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)及識(shí)別方法可以看出,其與傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)最大的區(qū)別在于訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)模型階段,該方法通過(guò)逐漸提升信噪比,將從帶噪語(yǔ)音到干凈語(yǔ)音的映射過(guò)程分為3個(gè)階段,深層神經(jīng)網(wǎng)絡(luò)的中間隱層直接對(duì)應(yīng)到學(xué)習(xí)一定的信噪比(如每次10dB),這可以有效減少深層神經(jīng)網(wǎng)絡(luò)模型的參數(shù),同時(shí)可以更好地減少語(yǔ)音的失真,尤其是低信噪比環(huán)境下的失真.同時(shí),每個(gè)階段的學(xué)習(xí)過(guò)程,可以促進(jìn)下一階段的學(xué)習(xí).此外,3個(gè)階段的學(xué)習(xí)結(jié)果,可以提供豐富的信息量,這樣通過(guò)后處理可以進(jìn)一步提高性能.漸進(jìn)學(xué)習(xí)的語(yǔ)音增強(qiáng)及識(shí)別方法的直觀解釋如圖3所示.

圖3 漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)及識(shí)別方法的圖解Fig.3 Illustration of PL speech enhancement and ASR method
漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)方法訓(xùn)練的PL-DNN模型結(jié)構(gòu)如下頁(yè)圖4所示.對(duì)于目標(biāo)層(如目標(biāo)1、目標(biāo)2和目標(biāo)3),采用的激勵(lì)函數(shù)為線性激勵(lì);而對(duì)于其他隱層,則采用Sigmoid激勵(lì)函數(shù).這些目標(biāo)層的設(shè)計(jì),是為了逐步提高語(yǔ)音中心幀的信噪比,直到學(xué)習(xí)到干凈語(yǔ)音.
在漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)方法的訓(xùn)練階段,可以按以下步驟進(jìn)行:
步驟1.加噪:通過(guò)對(duì)干凈語(yǔ)音加噪,生成大量的帶噪語(yǔ)音作為輸入信號(hào)(如信噪比為0dB);與輸入信號(hào)一一對(duì)應(yīng),生成指定信噪比的帶噪語(yǔ)音作為目標(biāo)1(如信噪比為10dB);相應(yīng)地,生成指定信噪比的帶噪語(yǔ)音作為目標(biāo)2(如信噪比為20dB);同時(shí),將加噪前的干凈語(yǔ)音作為目標(biāo)3.
步驟2.特征提取:利用語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性,通過(guò)在時(shí)域進(jìn)行漢明窗加窗,對(duì)語(yǔ)音信號(hào)作分幀處理.選用對(duì)數(shù)功率譜(Log-power Spectrum,LPS)作為增強(qiáng)特征,通過(guò)對(duì)當(dāng)前幀的時(shí)域采樣點(diǎn)作離散傅里葉變換,將語(yǔ)音信號(hào)從時(shí)域變換到頻域,并取當(dāng)前幀及前后N幀(本文中選取N=3)的對(duì)數(shù)功率譜,作為訓(xùn)練PL-DNN的輸入特征.

圖4 漸進(jìn)學(xué)習(xí)深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Architecture of progressive learning DNN
步驟3.PL-DNN訓(xùn)練:漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)方法訓(xùn)練的PL-DNN模型結(jié)構(gòu)如圖4所示.在前向階段,當(dāng)前目標(biāo)層增強(qiáng)后的對(duì)數(shù)功率譜特征作為下一目標(biāo)層的輸入;而在后向傳播階段,采用MMSE準(zhǔn)則,作為K個(gè)(本文中選取K=3)目標(biāo)層優(yōu)化的目標(biāo)函數(shù),如式(3)所示.
(3)

(4)
其中,ε是指全部目標(biāo)函數(shù)的梯度,Wl和bl分別是指第l層的待學(xué)習(xí)的權(quán)重和偏置,L1、L2和L3是指3個(gè)目標(biāo)層,分別對(duì)應(yīng)目標(biāo)1、目標(biāo)2和目標(biāo)3.值得注意的是,每個(gè)目標(biāo)層的梯度,只影響該目標(biāo)層前面層的參數(shù)更新.為了平衡多個(gè)目標(biāo)層,采用α1和α2作為目標(biāo)1和目標(biāo)2的加權(quán)權(quán)重.在這里可以發(fā)現(xiàn),如果將α1和α2設(shè)為0,則該情況下PL-DNN與傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)模型相同.在本文中,將α1和α2設(shè)為0.1.
步驟4.訓(xùn)練結(jié)束:訓(xùn)練多次迭代收斂后,保存PL-DNN.
在漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)方法的增強(qiáng)階段,可以按以下步驟進(jìn)行:
步驟1.數(shù)據(jù)準(zhǔn)備:準(zhǔn)備好需要增強(qiáng)的語(yǔ)音信號(hào).
步驟2.特征提取:與訓(xùn)練階段3.1中步驟2相同,選用當(dāng)前幀及前后N幀的對(duì)數(shù)功率譜特征作為輸入.
步驟3.網(wǎng)絡(luò)解碼:將輸入特征通過(guò)3.1中訓(xùn)練的PL-DNN網(wǎng)絡(luò),解碼得到3個(gè)目標(biāo)層的輸出,本文將目標(biāo)1、目標(biāo)2和目標(biāo)3的輸出分別定義為輸出1、輸出2和輸出3.
步驟4.波形重建:在利用已經(jīng)訓(xùn)練好的深層神經(jīng)網(wǎng)絡(luò)估計(jì)到干凈語(yǔ)音的對(duì)數(shù)功率譜特征之后,就需要對(duì)語(yǔ)音的波形進(jìn)行重建,以獲得一個(gè)可以主觀測(cè)聽(tīng)的波形文件,具體步驟如下:將3個(gè)輸出的對(duì)數(shù)功率譜特征,使用增強(qiáng)前的語(yǔ)音信號(hào)的相位信息,通過(guò)傅里葉反變換,并在時(shí)域上通過(guò)經(jīng)典的重疊相加法,對(duì)各幀進(jìn)行重組,會(huì)分別得到3個(gè)增強(qiáng)后的整個(gè)句子的波形文件.可以分別采用這3個(gè)結(jié)果作為增強(qiáng)結(jié)果輸出,也可以將這3個(gè)增強(qiáng)后的波形文件進(jìn)行后處理(如加權(quán)平均),最終得到1個(gè)語(yǔ)音作為增強(qiáng)結(jié)果并輸出.該步驟中,使用增強(qiáng)前語(yǔ)音的相位作為增強(qiáng)后語(yǔ)音的相位,是基于人耳對(duì)語(yǔ)音相位不敏感這一前提[12].
由于本文對(duì)比的是兩種語(yǔ)音增強(qiáng)方法對(duì)語(yǔ)音識(shí)別性能的影響,因此在語(yǔ)音識(shí)別的訓(xùn)練階段,漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)方法和傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法,使用完全相同的語(yǔ)音識(shí)別模型,都是按以下步驟進(jìn)行:
步驟1.數(shù)據(jù)準(zhǔn)備:將語(yǔ)音識(shí)別的語(yǔ)音訓(xùn)練數(shù)據(jù),按照3.2中的步驟,通過(guò)3.1中訓(xùn)練的PL-DNN網(wǎng)絡(luò),得到增強(qiáng)后的語(yǔ)音訓(xùn)練數(shù)據(jù).
步驟2.特征提取:與語(yǔ)音增強(qiáng)的訓(xùn)練階段類(lèi)似,將增強(qiáng)后語(yǔ)音訓(xùn)練數(shù)據(jù),進(jìn)行特征提取.不同于語(yǔ)音增強(qiáng)選取的對(duì)數(shù)功率譜特征,語(yǔ)音識(shí)別將選取Filter-bank特征,作為ASR-DNN聲學(xué)建模訓(xùn)練過(guò)程的輸入特征.其中,F(xiàn)ilter-bank特征是指用Mel濾波器組濾波之后得到的聲學(xué)特征.

圖5 DNN-HMM聲學(xué)模型的流程圖Fig.5 Flowchart of DNN-HMM based acoustic model
步驟3.ASR-DNN聲學(xué)建模:這一步使用深層神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(Hidden Markov Model,HMM)混合系統(tǒng)作為聲學(xué)模型[13],對(duì)Filter-bank特征進(jìn)行聲學(xué)統(tǒng)計(jì)建模.聲學(xué)模型將聲學(xué)和發(fā)音學(xué)的相關(guān)知識(shí)進(jìn)行整合,以3.3中的步驟2提取的特征作為輸入,隱馬爾科夫模型對(duì)語(yǔ)音信號(hào)的序列特性進(jìn)行建模,深層神經(jīng)網(wǎng)絡(luò)對(duì)所有聚類(lèi)后的三因素狀態(tài)的似然度進(jìn)行建模,并為可變長(zhǎng)特征序列生成聲學(xué)模型分?jǐn)?shù)[14].使用隱馬爾科夫模型和深層神經(jīng)網(wǎng)絡(luò)建立聲學(xué)模型的流程如圖5所示,在圖5中,上半部分描述的是的隱馬爾科夫模型結(jié)構(gòu),隱馬爾科夫模型的結(jié)構(gòu)和轉(zhuǎn)移概率是使用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)隱馬爾科夫模型-高斯混合模型(Gaussian Mixture Model,GMM)得到.圖5中間部分描述的是一個(gè)深層神經(jīng)網(wǎng)絡(luò),用來(lái)決定隱馬爾科夫模型的發(fā)射概率.本文選用的深層神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的隱層數(shù)為6層,即包括輸入、輸出層的總層數(shù)為8層,6個(gè)隱層都選用2048個(gè)神經(jīng)元.圖5中的下半部分是深層神經(jīng)網(wǎng)絡(luò)模型的輸入,需要注意的是,和語(yǔ)音增強(qiáng)使用的深層神經(jīng)網(wǎng)絡(luò)一樣,語(yǔ)音識(shí)別使用的深層神經(jīng)網(wǎng)絡(luò)模型的輸入同樣是多幀特征,本文選取的是11幀輸入.在語(yǔ)音識(shí)別過(guò)程中,一小段語(yǔ)音按照?qǐng)D5中的流程被處理,然后與不同的發(fā)音比較相似度,計(jì)算隱馬爾科夫模型中的狀態(tài)發(fā)射概率.
步驟4.訓(xùn)練結(jié)束:訓(xùn)練多次迭代收斂后,保存ASR-DNN.
在漸進(jìn)學(xué)習(xí)的語(yǔ)音增強(qiáng)及識(shí)別的測(cè)試階段,可以按以下步驟進(jìn)行:
步驟1.數(shù)據(jù)準(zhǔn)備:與訓(xùn)練階段3.3中的步驟1相同,將語(yǔ)音識(shí)別的語(yǔ)音測(cè)試數(shù)據(jù),按照3.2中的步驟,通過(guò)3.1中訓(xùn)練的PL-DNN網(wǎng)絡(luò),得到增強(qiáng)后的語(yǔ)音測(cè)試數(shù)據(jù).
步驟2.特征提取:與訓(xùn)練階段3.3中的步驟2相同,將增強(qiáng)后語(yǔ)音測(cè)試數(shù)據(jù),進(jìn)行特征提取.提取Filter-bank特征,作為ASR-DNN解碼的輸入特征.
步驟3.計(jì)算聲學(xué)模型和語(yǔ)言模型得分:將3.4中的步驟2得到的語(yǔ)音測(cè)試數(shù)據(jù)的Filter-bank特征作為3.3中訓(xùn)練的ASR-DNN聲學(xué)模型輸入,生成聲學(xué)模型分?jǐn)?shù).使用語(yǔ)言模型通過(guò)詞與詞、詞與句子的映射,生成語(yǔ)言模型分?jǐn)?shù).語(yǔ)言模型表示某一詞序列發(fā)生的概率,通過(guò)鏈?zhǔn)椒▌t,把一個(gè)句子的概率拆解成句子中的每個(gè)詞的概率之積.
步驟4.解碼搜索:解碼搜索是指對(duì)給定的特征向量序列和若干假設(shè)詞序列,按3.4中的步驟3分別計(jì)算聲學(xué)模型分?jǐn)?shù)和語(yǔ)言模型分?jǐn)?shù),并將總體輸出分?jǐn)?shù)最高的詞序列作為最終識(shí)別結(jié)果輸出.這是因?yàn)樵诮o定了根據(jù)語(yǔ)法、字典對(duì)馬爾科夫模型進(jìn)行連接后的搜索的網(wǎng)絡(luò)后,通過(guò)在所有可能的搜索路徑中選擇一條或多條最優(yōu)(如選用最大后驗(yàn)概率)路徑作為識(shí)別結(jié)果,這樣可以根據(jù)當(dāng)前幀的前后幀,對(duì)時(shí)序的語(yǔ)音幀進(jìn)行有效約束.
為了驗(yàn)證漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)方法在語(yǔ)音識(shí)別中的有效性,我們?cè)趯?shí)際錄制的真實(shí)語(yǔ)音數(shù)據(jù)庫(kù)上進(jìn)行了一系列的實(shí)驗(yàn),實(shí)驗(yàn)配置介紹如下.
對(duì)于語(yǔ)音增強(qiáng)的訓(xùn)練數(shù)據(jù),我們使用800小時(shí)真實(shí)場(chǎng)景下錄制的干凈語(yǔ)音數(shù)據(jù)(共約100萬(wàn)句,內(nèi)容主要是在安靜近場(chǎng)環(huán)境下錄制的訪談和講話)以及真實(shí)場(chǎng)景下錄制的噪聲數(shù)據(jù),語(yǔ)音和噪聲的采樣率都是16kHz.
對(duì)傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò),通過(guò)人工加噪,為輸入層生成5種信噪比的帶噪語(yǔ)音,5種信噪比分別是0dB、5dB、10dB、15dB和20dB,各信噪比的比例為1:1:1:1:1,即分別為160小時(shí).具體加噪方式是從噪聲數(shù)據(jù)中隨機(jī)抽取一段,按已定信噪比加入到干凈語(yǔ)音段,輸出層為未加噪的干凈語(yǔ)音,即表中的clean.以上數(shù)據(jù)構(gòu)成傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),具體如表1所示.

表1 傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)語(yǔ)音增強(qiáng)訓(xùn)練數(shù)據(jù)Table 1 Training data for traditional DNN speech enhancement
對(duì)PL-DNN,通過(guò)人工加噪,為輸入層、目標(biāo)1和目標(biāo)2各分別生成5種信噪比的帶噪語(yǔ)音.其中輸入層使用的5種信噪比分別是0dB、5dB、10dB、15dB和20dB,各信噪比的比例為1:1:1:1:1,即分別為160小時(shí).目標(biāo)1和目標(biāo)2分別在輸入層的對(duì)應(yīng)信噪比上增加10dB和20dB,即分別為10dB、15dB、20dB、25dB和30dB,以及20dB、25dB、30dB、35dB和40dB,目標(biāo)3為未加噪的干凈語(yǔ)音.以上數(shù)據(jù)構(gòu)成PL-DNN的訓(xùn)練數(shù)據(jù),具體如表2所示.

表2 PL-DNN語(yǔ)音增強(qiáng)訓(xùn)練數(shù)據(jù)Table 2 Training data for PL-DNN speech enhancement
在語(yǔ)音增強(qiáng)訓(xùn)練階段,對(duì)于一段語(yǔ)音,先進(jìn)行漢明窗加窗,幀長(zhǎng)為512個(gè)采樣點(diǎn)(對(duì)應(yīng)32ms),幀移為256個(gè)采樣點(diǎn)(對(duì)應(yīng)16ms),這樣相鄰幀的重合率就是百分之五十,這種將相鄰幀相互重疊的方法可以保證恢復(fù)的信號(hào)比較平滑,聽(tīng)感相對(duì)比較舒服.然后對(duì)每一幀作離散傅里葉變換,提取對(duì)數(shù)功率譜作為特征參數(shù),離散傅里葉變換的結(jié)果總計(jì)為512維,除去重復(fù)的255維,對(duì)應(yīng)最終選取的對(duì)數(shù)功率譜特征為257維.深層神經(jīng)網(wǎng)絡(luò)使用隨機(jī)初始化,且對(duì)數(shù)功率譜特征在輸入深層神經(jīng)網(wǎng)絡(luò)之前和深層神經(jīng)網(wǎng)絡(luò)輸出之后,都使用全局均值方差規(guī)整(Global Mean and Variance Normalization,GMVN).漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)深層神經(jīng)網(wǎng)絡(luò)使用的配置是輸入層擴(kuò)7幀,中間3隱層采用Sigmoid激活且每個(gè)隱層為2048個(gè)單元,3個(gè)輸出層都不擴(kuò)幀.因此,PL-DNN的結(jié)構(gòu)是1799-2048-257-2048-257-2048-257.而與PL-DNN對(duì)比的傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的配置是輸入層擴(kuò)7幀,中間3隱層采用Sigmoid激活且每個(gè)隱層為2048個(gè)單元,1個(gè)輸出層不擴(kuò)幀.因此,傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)是1799-2048-2048-2048-257.
對(duì)于語(yǔ)音識(shí)別的訓(xùn)練數(shù)據(jù),我們?nèi)匀皇褂们懊娴?00小時(shí)真實(shí)場(chǎng)景下錄制的干凈語(yǔ)音及噪聲數(shù)據(jù),及干凈語(yǔ)音經(jīng)過(guò)強(qiáng)對(duì)齊(Force Alignment,F(xiàn)A)的標(biāo)注.為了讓ASR-DNN達(dá)到更好的識(shí)別性能,我們同樣對(duì)800小時(shí)干凈數(shù)據(jù)進(jìn)行人工加噪,生成800小時(shí)帶噪語(yǔ)音數(shù)據(jù),即ASR-DNN一共使用1600小時(shí)語(yǔ)音數(shù)據(jù),并經(jīng)過(guò)語(yǔ)音增強(qiáng)后用作ASR-DNN的訓(xùn)練.這里和語(yǔ)音增強(qiáng)階段不同的是,語(yǔ)音增強(qiáng)中,PL-DNN的輸入數(shù)據(jù)一共只有800小時(shí),按各種信噪比生成的加噪數(shù)據(jù)對(duì)應(yīng)著PL-DNN待學(xué)習(xí)的不同目標(biāo);而語(yǔ)音識(shí)別中,ASR-DNN的輸入數(shù)據(jù)一共有1600小時(shí),即800小時(shí)干凈語(yǔ)音和800小時(shí)帶噪語(yǔ)音經(jīng)過(guò)增強(qiáng)都作為ASR-DNN的輸入數(shù)據(jù).這是因?yàn)閰^(qū)別于語(yǔ)音增強(qiáng)的目標(biāo)是學(xué)習(xí)干凈語(yǔ)音,語(yǔ)音識(shí)別的目標(biāo)是學(xué)習(xí)語(yǔ)音經(jīng)過(guò)強(qiáng)對(duì)齊的狀態(tài)序列.
在語(yǔ)音識(shí)別訓(xùn)練階段,同樣地,對(duì)于一段增強(qiáng)后的語(yǔ)音,先進(jìn)行漢明窗加窗,不同于語(yǔ)音增強(qiáng)階段的是,識(shí)別中選取幀長(zhǎng)為20ms,幀移為10ms,然后對(duì)每一幀提取對(duì)Filter-bank特征參數(shù),F(xiàn)ilter-bank特征總計(jì)為24維,計(jì)算一階差分、二階差分總計(jì)構(gòu)成72維.為了達(dá)到更好的性能,本文還使用了表達(dá)基音變化規(guī)律的pitch特征參數(shù),pitch特征對(duì)應(yīng)3維,因此最終使用的特征是75維.ASR-DNN輸出狀態(tài)數(shù)選用的是9004種狀態(tài).ASR-DNN使用隨機(jī)初始化,且Filter-bank和pitch特征在輸入深層神經(jīng)網(wǎng)絡(luò)之前,使用全局均值方差規(guī)整.語(yǔ)音識(shí)別ASR-DNN使用的配置是輸入層擴(kuò)11幀,中間6隱層采用Sigmoid激活且每個(gè)隱層2048個(gè)單元,輸出層9004個(gè)單元,對(duì)應(yīng)9004個(gè)狀態(tài).因此,兩種語(yǔ)音增強(qiáng)方法的語(yǔ)音識(shí)別模型相同,結(jié)構(gòu)都是825-2048-2048-2048-2048-2048-2048-9004.語(yǔ)音識(shí)別ASR-DNN使用最小交叉熵作為訓(xùn)練的目標(biāo)函數(shù).
實(shí)驗(yàn)中使用的干凈數(shù)據(jù)為800小時(shí),共約100萬(wàn)句.內(nèi)容主要是在安靜近場(chǎng)環(huán)境下錄制的訪談和講話,對(duì)生活中常見(jiàn)的語(yǔ)音應(yīng)用場(chǎng)景擁有較廣的覆蓋率.加噪用的噪聲數(shù)據(jù)是在不同噪聲環(huán)境下錄制的,包括ktv、會(huì)議室、室外以及一個(gè)包含100種真實(shí)噪聲的噪聲數(shù)據(jù)庫(kù),可以通過(guò)腳注的網(wǎng)址下載*http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html.噪聲數(shù)據(jù)既包括平穩(wěn)噪聲,也包括非平穩(wěn)噪聲,且包含了多個(gè)頻段分量,對(duì)生活中常見(jiàn)的噪聲擁有較廣的覆蓋率.
測(cè)試集共有3個(gè),為在不同環(huán)境下錄制的真實(shí)數(shù)據(jù),分別為:
1)在近場(chǎng)環(huán)境下錄制的日常對(duì)話,共3431個(gè)條目,信噪比較低,在后面的總結(jié)中定義為測(cè)試集1.
2)在多種噪聲環(huán)境下錄制的日常對(duì)話,有電視背景噪聲等遠(yuǎn)場(chǎng)干擾,共6407個(gè)條目,在后面的總結(jié)中定義為測(cè)試集2.
3)在會(huì)議室環(huán)境下錄制的會(huì)議語(yǔ)音,存在說(shuō)話人干擾,共2274個(gè)條目,在后面的總結(jié)中定義為測(cè)試集3.
為了驗(yàn)證漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)方法在語(yǔ)音識(shí)別中的有效性,在實(shí)驗(yàn)測(cè)試時(shí),共比較了5種方法,分別定義如下:
1)方法1.使用傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)及識(shí)別方法作為基線系統(tǒng),定義為方法1.
2)方法2.使用漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)及識(shí)別方法,其中語(yǔ)音增強(qiáng)模塊使用目標(biāo)1的輸出,作為增強(qiáng)結(jié)果送到語(yǔ)音識(shí)別模塊.
3)方法3.使用漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)及識(shí)別方法,其中語(yǔ)音增強(qiáng)模塊使用目標(biāo)2的輸出,作為增強(qiáng)結(jié)果送到語(yǔ)音識(shí)別模塊.
4)方法4.使用漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)及識(shí)別方法,其中語(yǔ)音增強(qiáng)模塊使用目標(biāo)3的輸出,作為增強(qiáng)結(jié)果送到語(yǔ)音識(shí)別模塊.
5)方法5.使用漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)及識(shí)別方法,其中語(yǔ)音增強(qiáng)模塊使用目標(biāo)1、2和3的加權(quán)平均,作為增強(qiáng)結(jié)果送到語(yǔ)音識(shí)別模塊.
值得注意的是,前面定義的5種方法中,方法1作為基線,為使用傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)及識(shí)別方法的結(jié)果.方法2-5均為漸進(jìn)學(xué)習(xí)語(yǔ)音增強(qiáng)及識(shí)別方法的結(jié)果,其中方法2-4分別對(duì)應(yīng)使用3個(gè)目標(biāo)輸出結(jié)果,方法5為使用3個(gè)目標(biāo)進(jìn)行后處理的結(jié)果.
在表3中比較了5種方法的性能(評(píng)價(jià)指標(biāo)為字正確識(shí)別率).這5種方法使用相同的聲學(xué)模型訓(xùn)練算法,均是用一遍解碼,且使用同一個(gè)語(yǔ)言模型,各方法識(shí)別率如表3所示.

表3 漸進(jìn)學(xué)習(xí)和傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)識(shí)別率比較Table 3 Compare of results of different models
從結(jié)果可以看出,在3個(gè)測(cè)試集上,使用漸進(jìn)學(xué)習(xí)的語(yǔ)音增強(qiáng)及識(shí)別方法(方法4),比傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)及識(shí)別方法(方法1)的性能均有較大提升,以3個(gè)測(cè)試集的平均識(shí)別率作為性能指標(biāo),使用漸進(jìn)學(xué)習(xí)的語(yǔ)音增強(qiáng)及識(shí)別方法相對(duì)于傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)及識(shí)別方法,在識(shí)別準(zhǔn)確率上有10.28%的相對(duì)提升.同時(shí)可以看到,漸進(jìn)學(xué)習(xí)方法即便是層數(shù)比較淺的目標(biāo)層(如方法2只有1個(gè)隱層,方法3只有2個(gè)隱層)也優(yōu)于層數(shù)較深的傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)(方法1有3個(gè)隱層),原因正是因?yàn)闈u進(jìn)學(xué)習(xí)的語(yǔ)音增強(qiáng)及識(shí)別方法能比傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)及識(shí)別方法能更好地在前端進(jìn)行降噪、提升信噪比,進(jìn)而提高識(shí)別系統(tǒng)對(duì)噪聲的魯棒性.此外使用漸進(jìn)學(xué)習(xí)的語(yǔ)音增強(qiáng)結(jié)果,經(jīng)過(guò)后處理再作識(shí)別(方法5)能在不作后處理(方法4)的基礎(chǔ)上,進(jìn)一步提高性能,這是因?yàn)闈u進(jìn)學(xué)習(xí)的語(yǔ)音增強(qiáng)及識(shí)別方法能提供多個(gè)輸出,提供了豐富的信息量,可以通過(guò)選擇合適的后處理方法,進(jìn)一步提高性能.最后我們考察該算法在降低網(wǎng)絡(luò)模型參數(shù)方面的有效性,統(tǒng)計(jì)兩種網(wǎng)絡(luò)的參數(shù)量如表4所示.

表4 漸進(jìn)學(xué)習(xí)和傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)參數(shù)量比較Table 4 Compare of number of parameters of different models
從結(jié)果可以看出,在網(wǎng)絡(luò)參數(shù)量方面,傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的參數(shù)量是漸進(jìn)學(xué)習(xí)網(wǎng)絡(luò)參數(shù)量的2.65倍,而性能卻低于漸進(jìn)學(xué)習(xí)方法.這說(shuō)明在保證漸進(jìn)學(xué)習(xí)的性能不低于傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的條件下,漸進(jìn)學(xué)習(xí)方法可以大大降低網(wǎng)絡(luò)參數(shù),減少計(jì)算量,這也證明了漸進(jìn)學(xué)習(xí)方法的有效性.
在本文中,主要討論了漸進(jìn)學(xué)習(xí)的語(yǔ)音增強(qiáng)方法在語(yǔ)音識(shí)別中的應(yīng)用.通過(guò)以上實(shí)驗(yàn),我們已經(jīng)證明了該方法在識(shí)別中的有效性.它的主要優(yōu)點(diǎn)在于:比起傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法,它大大減少了模型參數(shù),減少了計(jì)算量,提高了系統(tǒng)的運(yùn)行效率,同時(shí)可以輸出包含豐富信息量的多個(gè)目標(biāo),這便于通過(guò)后處理進(jìn)一步提高性能.但本文在訓(xùn)練過(guò)程中只使用了近場(chǎng)噪聲,如果在訓(xùn)練過(guò)程中加入混響環(huán)境,那么在遠(yuǎn)場(chǎng)測(cè)試集上應(yīng)該能夠取得更好的結(jié)果,這也是下一步的研究工作.
[1] Li J,Deng L,Gong Y,et al.An overview of noise-robust automatic speech recognition[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(4):745-777.
[2] Seltzer M L,Yu D,Wang Y.An investigation of deep neural networks for noise robust speech recognition[C].2013 IEEE International Conference on Acoustics,Speech and Signal Processing,Vancouver,Canada,2013:7398-7402.
[3] Acero A.Acoustical and environmental robustness in automatic speech recognition[M].Springer Science & Business Media,2012.
[4] Loizou P C.Speech enhancement:theory and practice[M].CRC Press,2013.
[5] Du J,Wang Q,Gao T,et al.Robust speech recognition with speech enhanced deep neural networks[C].Proceedings of the 15th Annual Conference of the International Speech Communication Association,Singapore:2014:616-620.
[6] Benesty J,Makino S,Chen J.Speech enhancement[M].Springer Science & Business Media,2005.
[7] Boll S.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1979,27(2):113-120.
[8] Chen J,Benesty J,Huang Y,et al.New insights into the noise reduction Wiener filter[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(4):1218-1234.
[9] Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1985,33(2):443-445.
[10] Xu Y,Du J,Dai L R,et al.An experimental study on speech enhancement based on deep neural networks[J].IEEE Signal Processing Letters,2014,21(1):65-68.
[11] Gao T,Du J,Dai L R,et al.SNR-based progressive learning of deep neural network for Speech Enhancement[C].Proceedings of the 17th Annual Conference of the International Speech Communication Association,San Francisco,USA:2016:3713-3717.
[12] Gerkmann T,Krawczyk-Becker M,Le Roux J.Phase processing for single-channel speech enhancement:history and recent advances[J].IEEE Signal Processing Magazine,2015,32(2):55-66.
[13] Hinton G,Deng L,Yu D,et al.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups[J].IEEE Signal Processing Magazine,2012,29(6):82-97.
[14] Mohamed A,Dahl G E,Hinton G.Acoustic modeling using deep belief networks[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22.