鐘雙蓮,童 峰,3,劉雨佶, 章宇棟,陳東升,3
(1.廈門大學 水聲通信與海洋信息技術教育部重點實驗室, 福建 廈門 361005;2.廈門大學 海洋與地球學院, 福建 廈門 361102; 3.廈門大學 深圳研究院, 廣東 深圳 518000)
隨著智能家居、遠程會議、智能裝備、可穿戴設備技術蓬勃發展,作為語音入口的語音交互技術發展迅速,麥克風陣列在前端語音增強中得到廣泛研究和應用[1-4]。與單通道語音增強算法相比,麥克風陣列語音增強算法可以充分利用多通道語音空間信息實現噪聲、干擾抑制。但是,在低信噪比環境下,傳統麥陣增強技術面臨增強效果下降、語音清晰度和可懂度降低等問題,嚴重影響正常工作。
麥克風陣列波束形成算法主要有3類:固定波束形成算法(基于時延累加波束形成(delay-and-sum beamforming,DSB)算法[5]、濾波累加波束形成(filter-and-sum beamforming,FSB)算法[6]),自適應波束形成算法[7],后置濾波算法[8]。固定波束形成算法在設計濾波器系數時通常是根據一定的準則,利用已知聲源位置、麥克風陣列陣型、聲源場景等先驗知識來設計,適用于固定的場景,以及非相關的噪聲環境,但是對相關的噪聲以及動態聲學場景效果較差。而自適應波束形成算法通常是利用輸入信號的統計特性來計算濾波器系數,從而能適應動態的聲學場景,但是波束形成的收斂速度比較慢,難以跟蹤快速變化的聲學場景。后置濾波算法主要是解決非相干噪聲場中不相關噪聲信號,但是現實多是相干噪聲環境[9]。
基于深度學習神經網絡模型的麥克風陣列語音增強算法成為了新的研究熱點。在時頻掩蔽多通道波束形成中,結合深度學習得到廣泛研究,鄧賀元等[10]通過聯合頻譜特征和空間特征進行多通道的波束形成語音增強,在測試數據集上下降了27.6%的WER。因時頻掩蔽方法需要利用語音和噪聲的頻譜、相位特征的區分信息,在低信噪比條件下語音、噪聲頻譜信息往往難以明顯區分,導致增強效果下降[11]。
面向語音識別需求,采用前端、識別端聯合序列訓練[12-13]。Ravanelli等[14]提取梅爾倒譜系數(mel-frequency cepstral coefficient,MFCC)特征,并改進深度神經網絡結構來增加波束形成的語音增強網絡和語音識別網絡的通信,通過聯合訓練來降低低信噪比條件下的語音識別詞錯誤率(word error rate,WER)。這類優化方式可以直接服務于提高語音識別準確率的任務,但是因無需對語音信號進行重構,不輸出增強的語音信號,因而不適合需要語音輸出的應用,如遠程會議、通話終端等。
考慮到智能語音應用中低信噪比場景,引入深度學習進行麥克風陣列波束形成語音增強,本文通過構建一個空間域優化的深度學習波束形成網絡,獲得增強語音輸出,從而保證低信噪比條件下的語音增強性能。介紹了波束形成網絡框架設計及基于LSTM波束形成網絡結構,最后對所提方案進行仿真和實驗驗證。
本文所提深度學習波束形成網絡框架如圖1所示,網絡分為波束形成器訓練部分和語音增強部分(又為測試部分)。模型訓練階段,首先對訓練集的多通道語音信號進行預處理,接著輸入神經網絡中,以干凈的單通道信號的特征值為訓練目標進行訓練,訓練完成后,對測試集的多通道語音進行同樣的預處理方式后,輸入到訓練好的波束形成器網絡和語音重構得到增強的語音信號。
其中預處理模塊包括時頻分解和特征提取。時頻分解方法主要有短時傅里葉變換法(short time fourier transform,STFT)和小波變換等2種。本文中的網絡模型采用STFT對多通道語音信號進行時頻變換,得到頻譜X。STFT的幀長是512個采樣點,幀移是幀長的一半,故X的維度為257F,F為幀數;選取z-score[15]標準化后|X|的功率譜作為特征。

圖1 網絡結構框圖
當前基于深度學習的神經網絡模型較多,其中傳統的深度神經網絡(deep neural networks,DNN)模型存在對時序信號處理不敏感和參數膨脹的問題;而深度循環遞歸神經網絡(recurrent neural networks,RNN)模型能對語音信號按時間序列進行分析[16],但是存在梯度消失的問題;而LSTM神經網絡模型不僅適合對于時序信號的處理,而且從當前的研究表明,相教于傳統的DNN神經網絡模型,其對于未出現的說話人和噪聲具有更好的泛化性[17],同時也解決了RNN神經網絡模型梯度消失的問題。因此在Tensorflow框架上搭建了基于LSTM的神經網絡模型。
神經網絡結構主要有2層LSTM(128 維)的主網絡、1層DNN 掩碼(257×6 維)的掩碼(MASK)模塊和1層遮蔽層的疊加輸出模塊,模型主體網絡結構框圖如圖2。其中多通道的特征通過LSTM層訓練,輸入到一個DNN MASK層,獲得每個通道的MASK估計結果,為了與輸入特征維度適配,MASK層的節點數為F(通道數)。DNN MASK層輸出結果再與輸入多通道特征值相乘做加權平均后得到預測的單通道的特征。

圖2 模型主體網絡結構框圖
損失函數為訓練目標和預測輸出的歐式距離,并采用Adam優化器作為網絡的優化器。網絡訓練目標為幅值控制的單通道功率譜特征值。幅值控制根據本文中所訓練的波束形成網絡的波束圖能量分布設計,其中波束形成網絡對準方向相應通道信號的幅值無損失,其他通道信號根據與波束形成網絡對準方向的角度差來對該信號進行幅值控制。θmodel為模型訓練所對準的角度,θsignal為該通道信號的方向,Atarget為幅值控制后的通道信號的幅值,Asignal為原始通道信號的幅值,通過幅值控制,使得模型訓練的波束具有指向性。訓練目標幅值控制權重設置如表1所示。

表1 訓練目標幅值控制權重設置
模型訓練數據集采用中文語音數據庫THCHS-30數據庫[16],該數據集是在安靜辦公室環境下錄制的單通道語音信號,信號的采樣率16 kHz,數據庫總時長約為30 h,該數據包含了訓練集、驗證集和測試集。將數據庫的訓練集單通道語音信號作為仿真多通道數據的原始信號,仿真均勻分布的麥克風圓形陣列的時延關系并生成多通道語音信號,其中麥克風陣列直徑為65 mm,獲取以15°為劃分的24個角度的多通道語音信號。具體的仿真條件為:先通過IMAGE模型[18]模擬11 m×11 m×3 m典型辦公室尺寸的房間沖激響應,產生反射強度分別為0.2、0.4、0.6、0.8的房間沖激響應,將房間沖激響應與多通道語音信號進行卷積,得到4種不同混響強度的混響信號,再隨機疊加信噪比為5 dB、10 dB、15 dB的白噪,來仿真實際環境中的帶噪語音。
仿真測試集在不同信噪比(signal to noise ratio,SNR)下帶噪語音的改善效果如表2所示,本文中的SNR[19]計算公式為:
(1)
式(1)中:Psignal為信號的功率;Pnoise為噪聲的功率。

表2 傳統算法及神經網絡模型SNR結果
從表2可以看出,波束對準角度的語音信號經過FSB算法處理,信噪比平均能提升7 dB左右,這是由于仿真測試集疊加的是高斯白噪聲,符合FSB算法的算法模型,處理效果好,總體上看,本文算法的處理效果略好于FSB算法。
3.2.1實驗設置
麥陣增強實驗在某大廳中進行,實驗環境如表3所示。實驗中利用 MARSHALL Kilburn移動式藍牙音箱播放文獻[4]中的數據庫語音,利用ReSpeaker Far-field Mic Array 7元(圓周均勻分布6個、陣中心分布1個)麥克風圓形陣列作為采集設備進行麥陣信號轉錄。轉錄過程中以麥克風陣列為中點調整對準音響的角度,每次調整30°,總計獲得3 549條有效轉錄麥克風陣列語音數據。為了模擬低信噪比環境的典型噪聲,對轉錄麥克風陣列語音數據隨機疊加實錄吹風機、音樂、道路背景噪聲,生成不同信噪比的帶噪信號進行測試。

表3 實驗環境規格
3.2.2實驗結果分析
實驗選取SNR以及詞錯誤率(word error rate,WER)來評估模型的性能。圖3展示了FSB算法、LSTM波束形成算法處理的增強后語音的波形圖。由圖3可以看出:波束對準角度的語音信號經過FSB算法增強后,頻域有一定的增強效果,信號高頻部分的噪聲被抑制,噪聲能量小,但同時信號部分的中高頻分量也有一定的減弱,而對于低頻部分1 K以下的噪聲抑制不明顯,甚至略有增強;而經過本文算法增強后,語音信號時域的噪聲段信號幅值很小,時域的增強效果明顯,并且頻域方面,在高頻抑制噪聲干擾的同時對高頻分量的增強最明顯,信號失真最小。

圖3 波束對準角度的語音信號波形圖和時域圖
具體對比在不同指標下模型的提升效果,將不同信噪比的實驗信號經過FSB波束形成算法、LSTM波束形成算法處理增強后,其語音的平均信噪比結果如表4所示。

表4 傳統算法及神經網絡模型平均信噪比SNR結果
從表4可以看出,在實際測試場景中,傳統FSB算法對于原始信號沒有信噪比提升的效果,這是由于FSB算法雖然對于高頻成分的噪聲的抑制比較強,但是對于低頻的噪聲抑制比較弱,甚至可能有加強噪聲的趨勢,而實際場景噪聲的能量由低頻成分噪聲占大部分;本文算法在信噪比較高的環境中,信噪比提升與傳統方法相當;但在低信噪比情況下,本文算法對語音的增強效果明顯優于傳統方法。
進一步使用語音識別軟件[20]對實驗增強語音進行識別性能評估,文本識別率定義為:
R=1-RWE
(2)
式(2)中,RWE為文本的詞錯誤率。
在波束對準角度的信號經過FSB算法、本文算法處理后的信號識別率對比,表5給出了實際辦公室場景下的對應結果。由表5可以看出,在不同信噪比情況下,本文算法都較FSB算法有更高的識別率,平均提高在5%左右,這是由于本文算法在降低環境噪聲的同時保留了較高的高頻成分的信號,使得信號的失真較少,使得信號的識別率較高。需要指出,實驗采用識別率主要用于從識別端角度評估不同語音增強方法的性能,實際上,此時的識別率并不具有人機交互實用意義。

表5 傳統算法及神經網絡模型識別率計算結果
最后對比傳統FSB算法和本文算法的算法復雜度,如表6所示,基于LSTM深度學習模型的算法,在增強階段算法復雜度為O(LSTM),其計算公式為[21]:
O(ni*n1+4nl*nl+3nl+nl*no)
(3)
式(3)中:ni為輸入層的單元個數;nl為隱藏層的單元個數;no為輸出層的單元個數。
由此可知,LSTM深度學習模型的算法復雜度與模型的層數和單元個數有關;而傳統算法FSB算法復雜度與波束形成器的濾波器的階數以及信號的通道數有關O(FSB),其為:
O(N*FIR1)
(4)
式(4)中:FIR1為濾波器的階數;N為通道數。訓練階段LSTM網絡層的算法復雜度為:
T*S*O(LSTM)
(5)
式(5)中:T為訓練次數;S為數據量。計算LSTM深度學習模型的參數量為1.7 M個;通過使用8GB RAM和3.00 GHz Interl(R)Core(TM)i5-7400CPU處理器,計算增強階段100條時長為1 s的語音信號的平均運行時間,其中FSB算法的運行時長為0.072 s,而基于LSTM深度學習模型的運行時間為0.062 s,在增強階段,基于LSTM深度學習算法較傳統算法的運行速度有所提升。傳統算法及神經網絡模型算法復雜度對比如表6所示。

表6 傳統算法及神經網絡模型算法復雜度
本文將深度學習引入波束形成器進行信號級優化設計,并通過仿真、實驗評估了傳統波束形成算法、LSTM深度學習模型的語音增強性能。
本文所提方法的語音增強性能在低信噪比環境中優于傳統增強算法,在其他情況下與傳統算法不相上下。實驗結果表明,在低信噪比條件下深度網絡優化空域代價函數構造波束形成器可有效增強語音。