袁文浩 孫文珠 夏斌 歐世峰
語音增強是噪聲環境下語音信號處理的必要環節[1].傳統的基于統計的語音增強方法一般通過假設語音和噪聲服從某種分布或者具有某些特性來從含噪語音中估計純凈語音,這些方法對于平穩噪聲具有較好的處理效果,但在高度非平穩噪聲和低信噪比情況下其處理性能將會急劇惡化[2?5].
近年來,深度學習成為了機器學習領域的研究熱點,深度神經網絡(Deep neural network,DNN)在圖像分類和語音識別領域的成功應用為解決復雜多變噪聲環境下的語音增強問題提供了思路.與其他機器學習方法相比,深度神經網絡具有更加強大的學習能力,通過使用大量純凈語音和含噪語音樣本數據進行模型的訓練,能夠有效提高語音增強方法對不同噪聲的適應能力,相比傳統有監督方法具有更強的泛化能力,對沒有經過訓練的未知噪聲也有比較好的處理效果.基于深度神經網絡的語音增強方法的有效性已在很多文獻中得到證明,文獻[6]訓練DNN作為一個二值分類器來估計含噪語音的IBM(Ideal binary mask),克服了基于核函數的機器學習方法對大規模數據存在的計算復雜度難題,提高了對未知噪聲的適應能力,取得了優于傳統方法的語音增強性能.文獻[7]采用更加有效的IRM(Ideal ratio mask)代替IBM 作為訓練目標,并通過實驗證明了相比其他方法,基于深度神經網絡的語音增強方法明顯提高了增強語音的質量和可懂度.不同于上述方法中使用的基于掩蔽的訓練目標,Xu等將純凈語音的對數功率譜(Logarithmic power spectra,LPS)作為訓練目標,以含噪語音的對數功率譜作為訓練特征,通過訓練DNN得到一個高度非線性的回歸函數,來建立含噪語音對數功率譜與純凈語音對數功率譜之間的映射關系[8];并在文獻[9]中采用Global variance equalization、Dropout training和Noise-aware training三種策略進一步改善該方法,使其在低信噪比、非平穩噪聲環境下的語音增強性能相比傳統方法有了顯著提升.為了在語音增強時充分考慮相位信息,文獻[10]提出了復數域的掩蔽目標cIRM(Complex IRM),通過同時估計掩蔽目標的實部和虛部,相比使用其他訓練目標進一步提高了語音增強性能.
除了設計不同的訓練特征和訓練目標,提高未知噪聲下語音增強性能的另外一種重要思路是提高訓練集中噪聲的多樣性.文獻[9,11]分別采用包含104類和115類噪聲的訓練集,提高了DNN對未知噪聲的處理能力;文獻[12?13]更是通過訓練包含10000種不同噪聲的DNN來提高對未知噪聲的泛化能力,主客觀實驗結果表明采用大數據量的訓練集能顯著提高未知噪聲下的語音可懂度.另外,與直接增加訓練集噪聲類型數量的方法不同,文獻[14]采用對有限種類的噪聲施加不同的擾動項的方式來提高噪聲特性的多樣性,實驗結果表明該方法同樣能有效提高DNN的泛化能力.
上述基于深度神經網絡的語音增強方法盡管在訓練目標的設計、訓練特征的選擇以及訓練集的規模上各有不同,但是它們所采用的網絡結構均是全連接的DNN.為了進一步提高未知噪聲下的語音增強性能,本文考慮使用深度學習的另外一種重要的網絡結構—深度卷積神經網絡(Deep convolutional neural network,DCNN)來進行語音增強.深度卷積神經網絡在圖像識別等分類任務上已經取得了巨大成功[15],其在二維圖像信號處理上相比DNN表現出了更好的性能.語音和噪聲信號在時域的相鄰幀和頻域的相鄰頻帶之間都具有很強的相關性,因此在基于深度神經網絡的語音增強方法中,為了充分考慮時域和頻域的上下文關系,一般采用相鄰多幀的特征作為網絡的輸入,這種矩陣形式的輸入在時間和頻率兩個維度上的局部相關性與圖像中相鄰像素之間的相關性非常類似.如圖1和圖2所示,假設使用連續5幀的對數功率譜作為網絡的輸入,當網絡結構為全連接的DNN時,由于其輸入層只有一個維度,因此要將包含時頻結構信息的矩陣轉換為向量作為輸入;而當網絡結構為DCNN時,則可以直接使用矩陣作為輸入,不破壞時頻結構.可見,得益于DCNN在二維平面上的局部連接特性,使其相比DNN能夠更好地表達網絡輸入在時間和頻率兩個維度的內在聯系,因而在語音增強時能夠更充分地利用語音和噪聲信號的時頻相關性.另外,DCNN通過權值共享極大減少了神經網絡需要訓練的參數的個數,具有更好的泛化能力,對未訓練噪聲理論上應該有更好的處理性能.

圖1 DNN結構示意圖Fig.1 Schematic diagram of DNN

圖2 DCNN結構示意圖Fig.2 Schematic diagram of DCNN
實際上,對于語音信號處理,CNN(Convolutional neural network)以及DCNN已經在語音識別任務中得到成功應用,取得了超越DNN/HMM系統的語音識別性能,證明了其對于語音信號同樣具有較好的特征提取能力[16?18],文獻[19?23]更是采用極深層的卷積神經網絡顯著提高了語音識別性能.但是在語音識別任務中,DCNN的最后一層一般采用Softmax來預測狀態概率,因此本質上也是一個分類問題;而基于深度神經網絡的語音增強方法一般將語音增強歸結為回歸問題進行解決,因此傳統的網絡結構并不適合.文獻[24]以幅度譜向量作為訓練特征和訓練目標,采用不包含全連接層的FCNN(Fully convolutional neural network)來進行語音增強,雖然大幅度降低了訓練參數的規模,但是相比DNN并沒有明顯提高增強后語音的質量和可懂度;文獻[25]采用CNN對LPS特征進行建模,通過同時學習純凈語音和信噪比,研究了SNR?aware算法對語音增強性能的影響,但是并沒有對不同網絡結構的語音增強性能進行深入分析.為了提高語音增強性能,特別是未知噪聲下的語音增強性能,本文通過對不同網絡結構的語音增強性能進行對比與分析,設計針對語音增強問題的合理DCNN網絡結構,提出基于深度卷積神經網絡的語音增強方法;最后通過實驗度量增強語音的質量和可懂度,對方法在未知噪聲下的語音增強性能進行客觀評價.
假設含噪語音y由純凈語音s和加性噪聲d組成,

語音增強的目的就是在已知y的條件下得到s的估計值,假設y,s和在第n幀的短時傅里葉變換(Short-time Fourier transform,STFT)形式分別為Yn,kexp(jαn,k),Sn,kexp(j?n,k)和其中k=1,2,···,K是頻帶序號,忽略相位信息,對第n幀的信號而言,STFT域上的語音增強任務就是最小化如下的誤差函數

令Sn和分別表示純凈語音第n幀的幅度譜向量及其估計值,該誤差函數可以改寫為

基于深度學習的語音增強的基本思想可以描述為:通過訓練網絡參數集合θ構造一個高度復雜的非線性函數fθ,使得誤差函數

最小,從而得到目標輸出

其中

表示第n幀的訓練特征,由以第n幀為中心的共(2N+1)幀的含噪語音的幅度譜向量構成,(2N+1)即為輸入窗長.
為了構造類似于圖像處理DCNN的網絡輸入,同時在保證時域語音信號重構簡單的前提下提高網絡性能,我們采用對數運算對Xn和Sn的范圍進行縮放,設計如下的訓練特征和訓練目標

其中,Zn和Tn是幅度譜的變換形式,且其值不小于0,因此稱其為非負對數幅度譜(Nonnegative logarithmic amplitude spectra,NLAS).
DCNN采用小批量梯度下降法進行訓練,本文使用的損失函數定義為

其中,M代表網絡訓練所采用的Mini-batch的大小.
網絡訓練完成后,在進行語音增強時,對第n幀的純凈語音sn,使用訓練目標的估計值與含噪語音第n幀的相位譜向量αn進行時域信號的重構

n即為增強后的語音信號.
借鑒在圖像識別中使用的典型DCNN的結構,依據本文所采用的訓練特征和訓練目標,構造如圖3所示的DCNN.可見,本文設計的網絡結構與典型DCNN的最大不同在于最后幾層全連接層的設計,典型DCNN在全連接層后要經過一個Softmax層來計算分類結果,而本文網絡則是直接通過全連接層計算目標向量.更深的網絡結構、更多的節點數量或濾波器數量能夠提高網絡的性能,但同時也增加了網絡的復雜程度和訓練難度,對于本文實驗,依據訓練集的數據規模,通過權衡網絡性能及訓練難度之間的關系,我們采用了包含3個卷積層和2個全連接層的網絡結構,其中全連接層的節點數量設為1024,卷積層濾波器的個數除第一層為64外,其余設為128.
具體的網絡結構設計如下:
1)輸入層
網絡的輸入是多幀非負對數幅度譜向量構成的特征矩陣.
2)卷積層
本文網絡包含3個卷積層,第一層采用的卷積濾波器大小為7×7,其余兩層的濾波器大小為3×3,步長均設為1×1.
3)Batch normalization層
在每個卷積層和激活函數層之間都有一個Batch normalization層.
4)池化層
3個激活函數層后是3個池化層,均采用Maxpooling,濾波器大小3×3,步長為2×2.
5)全連接層
3個卷積層之后是2個全連接層(Fully connected)和2個激活函數層.
6)輸出層
網絡的最后一層是129個節點的全連接層,對應129維的目標輸出.

圖3 本文DCNN的結構框圖Fig.3 Structure diagram of the proposed DCNN
實驗所用的純凈語音全部來自TIMIT語音數據庫[26],所用的噪聲包含俄亥俄州立大學Perception and Neurodynamics實驗室的100類噪聲[27],以及文獻[11]中的15類噪聲.語音和噪聲信號的采樣頻率均轉換為8kHz,短時傅里葉變換的幀長為32ms(256點),幀移為16ms(128點),相應的非負對數幅度譜特征向量和訓練目標的維度為129.訓練集由100000段含噪語音(約80小時)構成,使用TIMIT語音庫的Training集的4620段純凈語音和115類噪聲按照?5dB、0dB、5dB、10dB和15dB五種不同的信噪比合成得到.每段含噪語音的具體合成方法如下:每次從4620段純凈語音中隨機選取1段,并從115類噪聲中隨機選取1類,然后將該類噪聲的隨機截取片段按照從5種信噪比中隨機選取的1種混入語音中.測試集采用TIMIT語音庫的Core test集的192段語音合成,噪聲數據采用來自Noisex92噪聲庫的與訓練集噪聲完全不同的4類未知噪聲[28],分別是Factory2、Buccaneer1、Destroyer engine、HF channel噪聲.對于每一類噪聲,將192段語音分別按照?5dB、0dB和5dB的全局信噪比與該類噪聲的隨機截取片段進行混合,4類噪聲合成的測試集總共包含2304(192×3×4)段含噪語音.
本文通過對增強語音進行客觀評價來比較不同方法的語音增強性能,主要采用PESQ(Perceptual evaluation of speech quality)作為指標來評價增強語音的質量[29],并采用STOI(Short time objective intelligibility)作為指標來評價增強語音的可懂度[30].PESQ即語音質量感知評估是ITU-T(國際電信聯盟電信標準化部)推薦的語音質量評估指標,其得分范圍為?0.5~4.5,越高的得分表示越高的語音質量.STOI即短時客觀可懂度,則主要衡量語音的可懂度,其得分范圍為0~1,越高的得分表示語音具有越好的可懂度.
下面通過一系列實驗對本文提出的DCNN的語音增強性能以及可能影響網絡性能的關鍵因素進行分析.
為了驗證本文所提出的DCNN在語音增強中的有效性,我們將其與DNN進行比較.作為對比的DNN具有5個隱層,每個隱層有1024個節點,激活函數為ReLU;為了防止過擬合,提高泛化能力,每個隱層后面均伴有一個Dropout層,Dropout的比例為0.2.DNN和DCNN均采用式(7)定義的非負對數幅度譜作為訓練目標,并采用式(8)定義的訓練特征作為網絡的輸入;其中,對于DCNN,為了適應其網絡結構,輸入窗長設為15幀;對于DNN,為了更好地進行對比,其輸入窗長分別設為與文獻[9]相同的11幀(DNN_11F),以及與DCNN相同的15幀(DNN_15F).mini-batch的大小均為128,沖量因子均設為0.9,迭代次數均為20.本文的所有網絡均使用微軟的Cognitive Toolkit進行訓練[31].
首先通過比較DNN和DCNN的訓練誤差和測試誤差來分析兩種網絡的性能,圖4給出了不同訓練階段所對應的訓練集和測試集的均方誤差,可見,兩種DNN在訓練集和測試集上的均方誤差(MSE)都十分接近,這表明兩種DNN具有相似的語音增強性能;而DCNN在訓練集和測試集上的均方誤差都要明顯小于兩種DNN,表明DCNN具有更好的語音增強性能.
為了進一步比較DNN和DCNN的語音增強性能,我們對測試集含噪語音通過三種方法進行增強后得到的增強語音的平均語音質量和可懂度進行比較,表1和表2分別給出了在4類不同噪聲和3種不同信噪比下增強語音的平均PESQ和STOI得分,并給出了未處理的含噪語音的平均PESQ和STOI得分作為對比.可見,通過采用多類噪聲進行訓練,對于4種未經訓練的噪聲類型,兩種方法均能有效提升語音質量和可懂度,并且在兩種不同的指標中,DCNN在不同噪聲類型和不同信噪比條件下均取得了優于兩種DNN的結果.

表1 三種方法的平均PESQ得分Table 1 The average PESQ score for three methods

表2 三種方法的平均STOI得分Table 2 The average STOI score for three methods
另外,我們還在表3給出了含噪語音和增強語音的分段信噪比(Segmental SNR,SegSNR),分段信噪比同樣是衡量語音質量的重要指標,它比全局信噪比更接近實際的語音質量;分段信噪比越大,代表主觀的語音質量越好.與PESQ和STOI指標下的結果一致,采用DCNN增強后的語音取得了最佳的分段信噪比.值得注意的是,兩種DNN在三種指標下都取得了非常相近的結果,這與文獻[9]的描述是一致的.

表3 三種方法的平均SegSNRTable 3 The average SegSNR for three methods

圖4 兩種網絡的訓練誤差和測試誤差Fig.4 Training error and testing error of two networks
為了更加直觀地比較兩種方法的語音增強性能,我們分別采用三種方法對一段含有Factory2噪聲信噪比為?5dB的含噪語音進行語音增強,然后比較其增強語音的語譜圖.圖5(a)和(b)分別給出了含噪語音與其相應的純凈語音的語譜圖,圖5(c)~(e)則分別給出了采用DNN_11F、DNN_15F以及DCNN增強后語音的語譜圖.可以看到,DCNN增強后語音的殘留噪聲成分更少,語音的純凈度更高,其語譜圖與純凈語音的語譜圖更加接近.

圖5 ?5dB的Factory2噪聲下的增強語音語譜圖示例Fig.5 An example of spectrogram of enhanced speech under Factory2 noise at?5dB SNR
對于圖像和語音這種具有局部強相關性的信號,卷積層具有很好的特征提取能力,但是由于語音增強是一個回歸問題,網絡的最后輸出對應的是純凈語音的功率譜,所以還需要通過全連接層來進行數據的擬合.在本文使用的網絡結構中,不同的卷積層和全連接層的數量會帶來網絡性能的差別,圖6給出了不同網絡配置下增強后語音的平均PESQ得分提升和平均STOI得分提升.可見,當網絡包含3個卷積層和2個全連接層時,在3種不同的信噪比下兩種指標都得到了最高的提升值,表明該網絡結構具有最好的語音增強性能.
Max-pooling的直接作用是通過選取特征的局部最大值達到降低特征維度的目的.在含噪語音功率譜的相鄰時頻單元中,局部最大值一般含有語音成分,而局部最小值一般為噪聲成分,傳統的基于最小統計的噪聲估計方法正是基于此原則.因此,池化層的存在將對時頻單元起到一定的篩選作用,能夠通過篩掉局部較小值達到抑制噪聲成分的目的.
為了檢驗池化層對于網絡性能的影響,我們將卷積層的步長設為2,并去掉池化層,訓練得到不含池化層的網絡模型.圖7給出了不同信噪比下包含池化層(Max-pooling)和不含池化層(No pooling)的網絡增強后語音的平均PESQ得分提升和平均STOI得分提升,綜合分析兩種指標可知,在較低信噪比的?5dB和0dB兩種情況下,包含池化層的網絡的語音增強性能略好于不含池化層的網絡.

圖6 卷積層數量對網絡性能的影響Fig.6 The in fluence of the number of convolutional layers on the network performance

圖7 池化層對網絡性能的影響Fig.7 The in fluence of the pooling layers on the network performance
通過對比兩種網絡增強后語音的語譜圖來進一步觀察池化層的影響,圖8(a)和圖8(b)分別給出了一段含有?5dB的HF channel噪聲的含噪語音與其相應的純凈語音的語譜圖,圖8(c)和圖8(d)則分別給出了采用包含池化層和不含池化層的網絡增強后語音的語譜圖.由圖8可見,與上述分析一致,包含池化層的網絡增強后語音的殘留噪聲明顯少于不含池化層網絡增強后語音,表明Max-pooling的存在確實能帶來更好的噪聲抑制效果.

圖8 ?5dB的HF channel噪聲下的增強語音語譜圖示例Fig.8 An example of spectrogram of enhanced speech under HF channel noise at?5dB SNR
Batch normalization是深度卷積神經網絡中的常用技術,Batch normalization層的引入往往可以加快收斂過程,提升訓練速度,并能防止過擬合.為了檢驗Batch normalization層對本文網絡結構的影響,我們去掉網絡中的Batch normalization層,訓練得到不含Batch normalization層的網絡模型.圖9給出了不同信噪比下包含Batch normalization層(BN)和不含Batch normalization層(No BN)的網絡增強后語音的平均PESQ得分提升和平均STOI得分提升,在兩種指標下,不包含Batch normalization層的網絡模型都略好于包含Batch normalization層的網絡模型,表明Batch normalization層的引入并沒有提升本文網絡結構的語音增強性能.可見,對于本文相對簡單的網絡結構,Batch normalization并沒有明顯的作用,可以去掉.
下面通過實驗對文獻[9]采用的LPS與本文采用的NLAS兩種特征進行比較,分別采用DNN和DCNN對兩種特征進行訓練.其中,訓練LPS的DNN(LPS-DNN)與訓練NLAS的DNN(NLASDNN)均為與前文相似的包含5個隱層的DNN,需要注意的是兩種DNN采用的激活函數是Sigmoid函數,因為在我們的實驗中,當訓練特征為LPS時,如果采用ReLU作為激活函數,會造成訓練過程不收斂;訓練LPS的DCNN(LPS-DCNN)與前文的NLAS-DCNN結構一致.圖10分別給出了4種測試集噪聲在不同信噪比下采用4種方法增強后語音的平均PESQ和STOI得分.可見,在相同特征下,DCNN的語音增強性能明顯好于DNN;在相同的網絡結構下,采用NLAS特征訓練得到的網絡模型在3種不同信噪比下都取得了較好的語音可懂度,并且在低信噪比(?5dB)下取得了較好的語音質量,表明NLAS特征能夠更好地保留含噪語音中的語音成分,更加適用于低信噪比下的語音增強.

圖9 Batch normalization層對網絡性能的影響Fig.9 The in fluence of the batch normalization layers on the network performance

圖10 兩種特征訓練得到的DNN和DCNN的性能比較Fig.10 The performance comparisons for DNN and DCNN trained using two kinds of feature
為了進一步驗證本文DCNN的語音增強性能,將其與LSTM(Long-short term memory)以及文獻[24]中的FCNN進行比較.其中LSTM包含5個隱層,Cell維度為256;FCNN包含16個卷積層,每層濾波器的個數分別為:10,12,14,15,19,21,23,25,23,21,19,15,14,12,10,1.圖11分別給出了各種方法增強后語音的平均PESQ、平均STOI和平均SegSNR,同時給出DNN對應的結果作為對比.通過綜合分析3種指標可知,DCNN取得了最佳的語音增強性能,LSTM次之,FCNN略好于DNN.

圖11 兩種特征訓練得到的DNN和DCNN的性能比較Fig.11 The performance comparisons for DNN and DCNN trained using two kinds of feature
為了進一步提高未知噪聲下的語音增強性能,考慮DCNN相比DNN具有更好的局部特征表達能力,能夠更好地利用語音和噪聲信號的時頻相關性,本文采用深度卷積神經網絡建立回歸模型來表達含噪語音和純凈語音之間的復雜非線性關系.通過使用非負對數幅度譜作為訓練特征和訓練目標,設計與訓練了不同結構的DCNN并對其語音增強性能進行了比較,得到了適合于語音增強問題的合理網絡結構,提出了基于深度卷積神經網絡的語音增強方法.實驗結果表明,在與DNN及其他方法的對比中,本文提出的DCNN在測試集上取得了更小的誤差,表現出了更好的噪聲抑制能力,在各類噪聲和各種信噪比條件下都顯著提升了增強后語音的語音質量和可懂度,進一步提高了未知噪聲下的語音增強性能.
References
1 Loizou P C.Speech Enhancement:Theory and Practice.Florida:CRC Press,2013.
2 Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error log-spectral amplitude estimator.IEEE Transactions on Acoustics,Speech,and Signal Processing,1985,33(2):443?445
3 Cohen I.Noise spectrum estimation in adverse environments:Improved minima controlled recursive averaging.IEEE Transactions on speech and audio processing,2003,11(5):466?475
4 Mohammadiha N,Smaragdis P,Leijon A.Supervised and unsupervised speech enhancement using nonnegative matrix factorization.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(10):2140?2151
5 Liu Wen-Ju,Nie Shuai,Liang Shan,Zhang Xue-Liang.Deep learning based speech separation technology and its developments.Acta Automatica Sinica,2016,42(6):819?833(劉文舉,聶帥,梁山,張學良.基于深度學習語音分離技術的研究現狀與進展.自動化學報,2016,42(6):819?833)
6 Wang Y X,Wang D L.Towards scaling up classi ficationbased speech separation.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(7):1381?1390
7 Wang Y X,Narayanan A,Wang D L.On training targets for supervised speech separation.IEEE Transactions on Audio,Speech,and Language Processing,2014,22(12):1849?1858
8 Xu Y,Du J,Dai L R,Lee C H.An experimental study on speech enhancement based on deep neural networks.IEEE Signal Processing Letters,2014,21(1):65?68
9 Xu Y,Du J,Dai L R,Lee C H.A regression approach to speech enhancement based on deep neural networks.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2015,23(1):7?19
10 Williamson D S,Wang Y X,Wang D L.Complex ratio masking for monaural speech separation.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2016,24(3):483?492
11 Xu Y,Du J,Huang Z,Dai L R,Lee C H.Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.Dresden,Germany:ISCA,2015.1508?1512
12 Wang Y X,Chen J T,Wang D L.Deep Neural Network Based Supervised Speech Segregation Generalizes to Novel Noises Through Large-scale Training,Technical Report OSU-CISRC-3/15-TR02,Department of Computer Science and Engineering,The Ohio State University,Columbus,Ohio,USA,2015
13 Chen J T,Wang Y X,Yoho S E,Wang D L,Healy E W.Large-scale training to increase speech intelligibility for hearing-impaired listeners in novel noises.The Journal of the Acoustical Society of America,2016,139(5):2604?2612
14 Chen J T,Wang Y X,Wang D L.Noise perturbation for supervised speech separation.Speech Communication,2016,78:1?10
15 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classi fication with deep convolutional neural networks.In:Proceedings of the International Conference on Neural Information Processing Systems.Nevada,USA:Curran Associates Inc.2012.1097?1105
16 Abdel-Hamid O,Mohamed A,Jiang H,Penn G.Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition.In:Proceedings of the 2012 IEEE International Conference on Acoustics,Speech and Signal Processing.Kyoto,Japan:IEEE,2012.4277?4280
17 Abdel-Hamid O,Deng L,Yu D.Exploring convolutional neural network structures and optimization techniques for speech recognition.In:Proceedings of the 14th Annual Conference of the International Speech Communication Association.Lyon,France:ISCA,2013.3366?3370
18 Sainath T N,Kingsbury B,Saon G,Soltau H,Mohamed A R,Dahl G,Ramabhadran B.Deep convolutional neural networks for large-scale speech tasks.Neural Networks,2015,64:39?48
19 Qian Y M,Bi M X,Tan T,Yu K.Very deep convolutional neural networks for noise robust speech recognition.IEEE/ACM Transactions on Audio,Speech and Language Processing,2016,24(12):2263?2276
20 Bi M X,Qian Y M,Yu K.Very deep convolutional neural networks for LVCSR.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.Dresden,Germany:ISCA,2015.3259?3263
21 Qian Y,Woodland P C.Very deep convolutional neural networks for robust speech recognition.In:Proceedings of the 2016 IEEE Spoken Language Technology Workshop.San Juan,Puerto Rico:IEEE,2016.481?488
22 Sercu T,Puhrsch C,Kingsbury B,LeCun Y.Very deep multilingual convolutional neural networks for LVCSR.In:Proceedings of the 2016 IEEE International Conference on Acoustics,Speech and Signal Processing.Shanghai,China:IEEE,2016.4955?4959
23 Sercu T,Goel V.Advances in very deep convolutional neural networks for LVCSR.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.California,USA:ISCA,2016.3429?3433
24 Park S R,Lee J.A fully convolutional neural network for speech enhancement.arXiv:1609.07132,2016.
25 Fu S W,Tsao Y,Lu X.SNR-Aware convolutional neural network modeling for speech enhancement.In:Proceedings of the 17th Annual Conference of the International Speech Communication Association.San Francisco,USA:ISCA,2016.8?12
26 Garofolo J S,Lamel L F,Fisher W M,Fiscus J G,Pallett D S,Dahlgren N L,Zue V.TIMIT acoustic-phonetic continuous speech corpus.Linguistic Data Consortium,Philadelphia,1993.
27 Hu G N.100 nonspeech sounds[online],available:http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html,April 20,2004
28 Varga A,Steeneken Herman J M.Assessment for automatic speech recognition:II.NOISEX-92:a database and an experiment to study the effect of additive noise on speech recognition systems.Speech Communication,1993,12(3):247?251
29 Beerends J G,Rix A W,Hollier M P,Hekstra A P.Perceptual evaluation of speech quality(PESQ)—a new method for speech quality assessment of telephone networks and codecs.In:Proceedings of the 2001 IEEE International Conference on Acoustics,Speech and Signal Processing.Utah,USA:IEEE,2001.749?752
30 Taal C H,Hendriks R C,Heusdens R,Jensen J.An algorithm for intelligibility prediction of time-frequency weightednoisyspeech.IEEETransactionsonAudio,Speech,and Language Processing,2011,19(7):2125?2136
31 Yu D,Eversole A,Seltzer M L,Yao K S,Huang Z H,Guenter B,Kuchaiev O,Zhang Y,Seide F,Wang H M,Droppo J,Zweig G,Rossbach C,Currey J,Gao J,May A,Peng B L,Stolcke A,Slaney M.An Introduction to Computational Networks and the Computational Network Toolkit,Technical Report,Tech.Rep.MSR,Microsoft Research,2014.