基于不同時頻掩模神經網絡語音增強的研究

2020-02-22 03:09:35邵榕梓富曉乾田愛生蒲俞姣陳凱

現代信息科技 2020年18期

邵榕梓富曉乾田愛生蒲俞姣陳凱

摘? 要：在基于時頻掩模的深度神經網絡語音增強系統中，學習目標的選擇對于整體語音增強性能的影響極大，文章針對目前最常用的學習目標——理想二值掩模和理想浮值掩模在語音增強中的效果進行了研究，為驗證不同時頻掩消除噪聲模性能的好壞，設計了多組對比實驗，為以后深度學習訓練過程中直接選擇學習目標提供依據。仿真結果表明：在不同信噪比和不同噪聲條件下，理想浮值掩模的性能均好過理想二值掩模。

關鍵詞：語音增強;學習目標;理想二值掩模;理想浮值掩模

中圖分類號：TN912.3? 文獻標識碼：A ? 文章編號：2096-4706（2020）18-0084-03

Abstract：In the deep neural network speech enhancement system based on time-frequency mask，the choice of learning target has a great influence on the overall speech enhancement performance. The article studies the effects of the most commonly used learning goals——ideal binary mask and ideal floating mask in speech enhancement. In order to verify the performance of different time-frequency masks to eliminate noise modes，multiple sets of comparative experiments were designed to provide a basis for direct selection of learning targets in the subsequent deep learning training process. The simulation results show that the performance of the ideal float mask is better than the ideal binary mask under different signal to noise ratio and different noise conditions.

Keywords：speech enhancement;learning goals;ideal binary mask;ideal floating mask

0? 引? 言

在我們的周圍，有這樣一個特殊人群，他們外表看起來和正常人一樣，但是卻聽不到我們的聲音，無法和人們進行正常的交流。此外，隨著我國人口老齡化，老年人口增多，老人們的聽覺也多數存在著問題，他們選擇佩戴助聽器來提高聽力。這對于當前的醫學水平來說，確實是最直接的方法之一，但是，助聽器也存在著很多的不足，例如當人們處于嘈雜的環境中時，助聽器把噪聲也放大傳入人的耳朵，使得助聽器的性能被嚴重影響，導致聽力障礙的人們無法聽清。因此，我們迫切需要一種可以彌補這一不足的方法來幫助我們的患者，而基于深度神經網絡的語音增強就是一種比較有價值的研究方向。

基于深度神經網絡的語音增強技術作為解決助聽器在嘈雜環境中性能下降這一缺點的關鍵技術，在保證語音不失真的條件下，能夠盡可能減少或消除有噪聲語音中的噪聲干擾，以獲得清晰高質量的增強語音。語音增強技術作為一種基本的信號處理方法得到了廣泛的研究，其還可以應用在語音識別、音視頻會議以及其他領域，目的就是為了提高語音的質量和可懂度。近幾十年來已經出現了許多傳統的基于單通道語音增強的算法，其中最具代表性的主要是譜減法[1]、Wiener濾波[2]等，它們通過信號統計信息進行降噪，但當噪聲是非平穩信號時，傳統算法增強效果差。隨著深度學習的發展，人們又提出了幾種在機器學習領域中通過有效訓練深層神經網絡的深度學習算法[3]，這一算法在一定程度上提高了深度神經網絡語音增強的性能。由于語音信號的時空結構和非線性關系十分明顯，傳統的語音增強方法無法有效地挖掘語音譜的非線性結構[4]，而深度神經網絡則通過逐層訓練和反向微調，自動學習語音信號的高階統計信息，因此，基于深度神經網絡的語音增強技術成為語音增強技術新的研究熱點[5]。

在基于深度神經網絡（Deep Neural Network，DNN）的語音增強中，提高人耳對帶噪語音的可懂度和感知質量依賴于學習目標的選擇。Wang等人提出以理想二值掩蔽（Ideal Binary Mask，IBM）為目標的語噪分離方法[6]。隨后，Wang等人在語音分離這一任務中分析對比了一系列基于時頻掩蔽的訓練目標[7]，包括目標IBM、理想浮值掩蔽（Ideal Ratio Mask，IRM）等驗證其增強效果。

本文通過基于DNN的語音增強算法，提取語音信號的梅爾頻率倒譜系數（Mel-Frequency Cepstral Coefficients，MFCC），來探討在不同信噪比條件下，IRM和IBM對語音增強性能的影響。首先提取帶噪語音的特征參數，在此基礎上，獲得信號的訓練目標，即IRM和IBM。通過比較不同信噪比條件下主觀語音質量（Perceptual Evaluation of Speech Quality，PESQ）和短時客觀可懂度（Short Term Objective Intelligibility，STOI）值的大小，驗證IRM和IBM在不同信噪比條件下性能的差異，以便在不同的環境下直接使用合適的學習目標，不同的訓練目標增強效果不同，驗證需要花費大量的時間和精力，本研究為以后研究者的工作節省了時間。

1? 不同時頻掩蔽的深度神經網絡的語音增強

1.1? 深度神經網絡結構

深度神經網絡結構主要包括輸入層、隱含層和輸出層。其中輸入層僅負責接收數據，而隱含層將輸入數據從原特征空間經過一定轉換，轉換到適合處理信號的特征空間，促使模型學習數據規律，從而預測數據更加容易。最后將處理完畢后的數據傳遞至輸出層。圖1所示為深度神經網絡結構圖。

1.2? 提取MFCC特征

提取的語音特征MFCC，基于人耳聽覺感知縮放原理，將感覺到的純音的頻率或音高與其實際測量的頻率相關聯。與高頻時相比，人類在分辨低頻時音調的細微變化方面要好得多，此時轉換成梅爾（Mel）標度使人聽到的聲音與實際語音更加匹配。圖2所示為MFCC特征提取框圖[8]。首先，將信號進行預處理，傅里葉變換并取絕對值。然后，將其通過Mel濾波器組映射得到相應的Mel頻譜。最后，對Mel頻譜取對數并通過離散余弦變換（Discrete Cosine Transform，DCT）[8]，即可獲得MFCC特征。

1.3? 時頻掩模

在基于時頻掩模的DNN語音增強系統中，對于整體語音增強性能的影響較大的是學習目標的選擇，其直接影響到去除含噪語音中噪聲時的語音失真程度或者殘留噪聲的數量。目前最常用的學習目標包括理想二值掩模和理想浮值掩模等。

1.3.1? 理想二值掩模

IBM是基于DNN語音增強方法中的最早使用的學習目標。IBM不僅適用于為具有正常聽力的聽眾，而且適用于聽力受損的聽眾。IBM是由預混語音信號和噪聲構成的時頻掩模。對于每個時頻單元，將IBM定義為：

式中，S2（t，f）和N2（t，f）分別表示第t幀、第f頻帶的語音能量和噪聲能量。對于每個時頻單元，如果其局部信噪比大于設置的閾值LC，則將相應的掩模值設置為1，否則將其設置為0。LC的選擇對語音清晰度有顯著影響，通常將LC設置為比帶噪語音信噪比低5 dB，避免丟失語音信息。例如，當帶噪語音信噪比為0 dB時，則相應的LC設置為-5 dB。IBM結果中的非零值代表純凈語音占比重較大的時頻單元。

1.3.2? 理想浮值掩模

IRM是目前基于時頻掩模的DNN語音增強中最廣泛應用的學習目標，它代表目標純凈語音能量在帶噪語音能量中所占的比重，也可看作是一個自適應的IBM，其值在0～1的范圍內變化，是一個軟判決。IRM的計算表達式為：

式中，（·）χ表示用于縮放掩模值的可調參數，χ可調。

VIRM的取值介于0和1之間，仔細觀察發現，在公式的計算形式上IRM與頻域維納濾波器極為相似。當取0.5時，形式上與維納濾波器的平方根估計類似，是功率譜的最優估計。根據文獻[9]中的多次嘗試，證明其取0.5是最佳的選擇。

2? 實驗與結果分析

2.1? 實驗數據

在實驗中，從IEEE數據庫[10]中隨機選擇20條純凈的語音數據，選取NoiseX-92噪聲庫[10]中的Babble、White、Pink、Factory四種噪聲，且信噪比從-15 dB到15 dB，步長間隔為5 dB，合成對應的560條帶噪語音。選取其中280條作為訓練語音，其余280條為測試語音，信號的采樣率為16 kHz。

2.2? 網絡參數

在實驗過程中，我們主要的設計思路是保證每次運行時采集的數字必須是隨機的，然后在通過采取隨機初始化的設計方法和步驟來進行設定預訓練的模型參數信息和數據。這次設置學習率的數據信息為0.004（當學習率過大就會導致迭代不收斂，當學習效率太小則會造成收斂速度變得過慢）;調優階段的迭代次數信息為30，學習動量的系數為0.5，迭代前的5次動量設置都為0.5，之后就會設定增到0.9。

2.3? 評價語音的標準

文中選用的語音評價標準包括：SNR、PESQ和STOI。其中PESQ近似平均主觀意見得分（Mean Opinion Score，MOS），用來評價語音的主觀試聽效果，PESQ評分范圍為0.5～4.5，對應于從低到高的語音質量。STOI是一種較新的可懂度評估方法，STOI的評價度會更加精確、更加客觀，并且與語音的實際可懂度高度相關，如果STOI數值越高則表示可懂的程度越高。

2.4? 實驗比對與結果分析

為了證明IBM和IRM性能的好壞，表1、表2分別給出在不同信噪比和不同噪聲條件下基于IBM和IRM的神經網絡語音增強算法的PESQ和STOI值，以此分析不同時域掩模的效果。

從表1和表2可以看出：在MFCC特征下，IBM和IRM均對語音有增強的效果，增強的程度不同，IRM對語音增強的效果更好一些;在不同SNR下IRM的STOI值和PESQ值更高，說明經過IRM處理的語音可懂度和舒適度更高。

3? 結? 論

通過實驗，我們得出下面結論：在不同信噪比條件下，基于IRM軟判決的神經網絡的語音增強算法和基于IBM軟判決神經網絡的語音增強相比，前者的方法會相對更好一些。之所以IBM的性能較差，其原因主要有兩點：第一，IBM對處理信號進行幅度調制的力度更大或者能忽略相位的影響;第二，IRM對參數的估計誤差具有魯棒性。以上兩點原因可以歸結于IRM能夠更好地保留目標信號包絡線。如果對參數的估計存在誤差，那么IBM就會完全忽略潛在必要的時間頻率區域，而IRM對這些區域的處理方式是縮放這些區域。所以，在以后的相關研究中，可以首先考慮使用IRM學習目標，或者將兩者結合使用，這樣可以為深度學習語音增強算法的訓練節約時間。

參考文獻：

[1] BOLL S. Suppression of acoustic noise in speech using spectral subtraction [J]. Acoustics，Speech and Signal Processing，IEEE Transactions on，1979，27（2）：113-120.

[2] LIM J S，OPPENHEIM A V. All-pole modeling of degraded speech [J]. Acoustics Speech & Signal Processing IEEE Transactions on，1978，26（3）：197-210.

[3] HINTON G E，OSINDERO S，TEH Y W. A Fast Learning Algorithm for Deep Belief Nets [J]. Neural Computation，2006，18（7）：1527-1554.

[4] 戴禮榮，張仕良.深度語音信號與信息處理：研究進展與展望 [J].數據采集與處理，2014，29（2）：171-179.

[5] 韓偉，張雄偉，閔剛，等.基于感知掩蔽深度神經網絡的單通道語音增強方法 [J].自動化學報，2017，43（2）：248-258.

[6] WANG Y X，WANG D L. Towards Scaling Up Classification-Based Speech Separation [J]. IEEE Transactions on Audio Speech & Language Processing，2013，21（7）：1381-1390.

[7] WANG Y X，NARAYANAN A，WANG D L. On Training Targets for Supervised Speech Separation [J]. IEEE/ACM transactions on audio，speech，and language processing，2014，22（12）：1849-1858.

[8] KANG T G，SHIN J W，KIM N S. DNN-based monaural speech enhancement with temporal and spectral variations equalization [J]. Digital Signal Processing，2018，74：102-110.

[9] NARAYANAN A，WANG D L. Ideal ratio mask estimation using deep neural networks for robust speech recognition [C]//IEEE International Conference on Acoustics. IEEE，2013：7092-7096.

[10] ROTHAUSER E H ，CHAPMAN W D ，GUTTMAN N，et al. IEEE Recommended Pratice for Speech Quality Measurements [J]. IEEE Transactions on Audio and Electroacoustics，1969，17（3）：225-246.

作者簡介：邵榕梓（1997—），女，漢族，山西太原人，本科，

研究方向：電子信息工程;富曉乾（1996—），男，漢族，山西天

鎮人，本科，研究方向：電子信息工程;田愛生（1973—），男，

漢族，山西榆社人，本科，研究方向：語音信號處理;蒲俞姣（1998—），女，漢族，山西霍州人，本科，研究方向：通信工程;陳凱（1997—），男，漢族，山西晉中人，本科，研究方向：通信工程。