孫林慧 張 蒙 梁文清
(南京郵電大學通信與信息工程學院,江蘇南京 210003)
近年來,深度學習技術廣泛地用于信號分離中,學者們提出多種基于深度學習的語音分離方法[1-2]。對單通道語音分離的研究包括說話人語音分離、語音和噪聲分離[3]、歌聲分離等,主要通過對目標語音和干擾語音進行時頻域分析,從混合信號中提取出目標語音?;谏窠浘W絡的語音分離根據訓練目標可分為基于映射的方法和基于掩碼的方法[4]。基于映射的方法直接將純凈語音頻譜作為輸出目標。目前語音分離大多使用基于掩碼的方法。Wang 等人使用理想二值掩碼(Ideal Binary Mask,IBM)和理想比率掩碼(Ideal Ratio Mask,IRM)作為深度神經網絡(Deep Neural Network,DNN)的訓練目標時,發現IRM 的分離性能優于IBM 的[5-6]。Zhang 等人提出一種深度集成神經網絡的語音分離方法,該方法充分利用了上下文信息,使估計的IRM 更加準確[4]。為了同時增強幅度和相位譜,Williamson 等人提出采用復數IRM(Complex Ideal Ratio Mask,CIRM)作為訓練目標[7],用DNN 同時訓練CIRM 的實部和虛部來進一步提高語音分離的性能。
隨后學者們對網絡模型進行了各種優化。Nie等人提出將DNN 和非負矩陣分解(Non-negative Ma?trix Factorization,NMF)結合在一個框架下,使用DNN 預測NMF 的權重矩陣,與字典矩陣相乘得到增強后的語音幅度譜,降低了計算誤差[8]。受卷積神經網絡(Convolutional Neural Network,CNN)在圖像識別大獲成功的啟發,一些學者使用CNN 在時頻域建模進行語音分離。Fu 等人提出了一種感知信噪比的CNN 語音增強方法,并證實CNN 能夠有效提取語音信號的局部時頻特征,從而得到比DNN 更好的語音增強性能[9]?!?br>