馬子驥, 倪 忠, 余 旭
(湖南大學 電氣與信息工程學院,湖南 長沙 410000)
與單麥克風降噪算法在時域和頻域處理相比,基于多麥克風陣列的降噪算法可以充分利用空間濾波技術,對其他方向的噪聲進行濾波處理,從而獲得更好的降噪效果。Griffiths L J和Jim C W在文獻[1]中提出了廣義旁瓣對消器(generalized sidelobe canceller,GSC)方法,Gannot S在此基礎上提出了基于傳遞函數(transfer function,TF)的GSC方法[2]。在處理平穩噪聲時的效果很好,但在處理非平穩噪聲時表現欠佳。文獻[3,4]針對非平穩噪聲,在后置濾波段利用最小控制遞歸平均(minima controlled recursive averaging,MCRA)算法估計。Israel Cohen對MCRA進行了改進,提出了一種改進的最小控制遞歸平均算法(improved MCRA,IMCRA)[5],可在復雜環境,比如非平穩噪聲、低信噪比條件下估計噪聲。Cohen I 和 Berdugo B在文獻[6]中將GSC和最佳修正對數譜幅度估計算法(optimally modified log spectral amplitude estimator,OM-LSA)結合,利用GSC的輸出信號和參考噪聲的相互關系進行后置濾波。Gannot S在此基礎上進一步改進,用TF-GSC替代GSC,更好地適應復雜變換的噪聲環境[7]。
本文算法在此基礎上進一步改進,提高了語音存在概率估計的準確性,從而能更準確地更新噪聲功率譜估計,提高了對噪聲的抑制能力,并減少了語音損失。
多通道后置濾波的主要思想是利用TF-GSC自適應波束輸出信號與參考噪聲信號之比估計目標語音缺失概率,并更新噪聲功率譜估計,最終通過OM-LSA方法獲得較為純凈的目標語音信號。多通道后置濾波方法的結構框圖如圖1所示。

圖1 多通道后置濾波算法原理框圖

SY(t,ejω)=αs·SY(t-1,ejω)+(1-αs)·
(1)

ψ(t,ejω)=
(2)
式中M為文獻[5,8]提出的非平穩噪聲功率譜密度的最小控制遞歸平均(minima controlled recursive averaging,MCRA)估計。定義自適應波束輸出信號的后驗信噪比
γs(t,ejω)|Y(t,ejω)|2/MY(t,ejω)
(3)

(4)
利用文獻[9]方法求出語音存在概率
p(t,ejω)=
(5)
式中ξ(t,ejω)E{|S(t,ejω)|2}/λ(t,ejω);υ(t,ejω)γ(t,ejω)ξ(t,ejω)/(1+(t,ejω));γ(t,ejω)|Y(t,ejω)|2/λ(t,ejω)。
利用“直接判決”法[10]求得
(1-α)max{γ(t,ejω)-1,0}
(6)

噪聲功率譜估計為
(7)


(8)
求解目標語音信號的短時傅里葉變換
(9)
式中G(t,ejω)為OM-LSA增益函數
從上述原理可知多通道后置濾波算法的關鍵在于先驗語音缺失概率q(t,ejω)估計和噪聲功率譜密度估計的準確性。本文通道后置濾波算法進行改進。
由式(4)可知,先驗語音缺失概率q(t,ejω) 結合γs(t,ejω) 和ψ(t,ejω)求取,γs(t,ejω)用于判斷TF-GSC輸出波束信號是否變化,TBRR判斷該變化是由目標語音信號引起還是由噪聲引起。假設目標語音信號與噪聲信號不相關,當瞬時信號變化主要由目標語音信號引起時,TBRR一般比較大[12];反之,當信號瞬時變化由噪聲引起時,參考噪聲變化大于輸出波束變化,此時TBRR小于1。含噪語音信號在經過TF-GSC處理之后被抑制了一部分噪聲[7],在長弱語音段且噪聲變化比較大的情況下,經過TF-GSC處理之后的輸出信號變化可能小于參考噪聲的變化,此時,ψ(t,ejω)的值小于ψlow,從而將含目標語音信號誤判為不含目標語音信號,導致語音失真。因此,結合文獻[5~7]的求先驗語音缺失概率的方法,得到新的求先驗語音缺失概率的公式
(10)
由式(10)知,當在TBRR小于閾值ψhigh,且γs(t,ejω)≤γlow和ζ<ζ0時將信號判斷為目標語音缺失信號,防止在長弱語音強噪聲段因TBRR小于1時,將語音信號誤判成噪聲。當ψ(t,ejω)>ψhigh,γs(t,ejω)和ζ<ζ0任意一個條件成立時,即確定目標語音信號存在。在不能確定語音信號是否存在時,用γs(t,ejω)的一次線性函數求先驗語音不存在概率[5]。
為了驗證本文算法的性能,通過麥克風陣列采集實際語音信號,并利用MATLAB軟件對算法進行了仿真測試。并與文獻[8]中提出的MCRA算法、文獻[7]中提出的基于TF-GSC的多通道濾波方法進行了比較分析。實驗設置如下:麥克風陣列由4個麥克風組成間距為0.8 cm的均勻線性陣列,目標聲源為正對陣列中間位置,距離2 m處的錄音,噪聲為與陣列成50°處的錄音,如圖2所示。

圖2 陣列麥克風示意
麥克風采樣頻率為64 kHz,采樣精度為24 bit。實驗中相關參數設置如下:加窗為Hamming窗,窗長1 024,幀長取窗長,幀移為幀長的1/2。實驗時將一段數據分成5部分,每部分500幀。其他實驗參數設置情況參照文獻[7],α=0.9,αs=0.92,αλ=0.85,β=1.47,ψlow=1,ψhigh=3.6,γlow=1,γhigh=4.6,b=[0.25 0.5 0.25],ε=0.01,Gmin=20 dB。
將目標語音信號和噪聲信號按不同比例線性相加,生成5種的信噪比:9.482 8,4.968 6,3.331 5,0.860 5,-3.494 4 dB。在以上5種信噪比條件下,對含噪語音信號分別采用TF-GSC+MCRA和本文算法進行語音增強實驗,實驗結果如表1所示,可以看出:相比于TF-GSC+MCAR算法,本文算法能進一步提高信噪比,尤其是在高輸入信噪比段,效果更明顯。

表1 不同信噪比下算法性能比較 dB
圖3(a)、圖3(b)分別為上述實驗條件下最左邊位置的麥克風接收到的目標語音信號和帶噪語音信號的語譜圖。圖2(c)為帶噪語音信號經過TF-GSC增強后的語音信號語譜圖。可以看出:TF-GSC算法對非平穩噪聲抑制有比較明顯的效果,但仍殘留了部分噪聲。圖3(d)、圖3(e)分別為利用文獻[7]中提出的TF-GSC+OM-LSA算法和本文算法增強后的語音信號語譜圖,經過對比可知:TF-GSC+OM-LSA算法雖然能有效抑制噪聲,但造成了大量的語音失真,而本文算法能有效抑制語音失真,同時保留了目標語音信號。

圖3 信號處理前后語譜
以麥克風陣列為例,對傳統的多通道后置濾波算法進行了改進,提高了先驗語音存在概率估計的準確性,從而能更準確地更新噪聲功率譜估計,減少了噪聲過估計和噪聲估計不足的情況。實驗結果表明:相對傳統的多通道后置濾波語音增強算法,新算法對非平穩噪聲,尤其是當噪聲為語音時具有較好的抑制能力,并且能有效減少語音失真,提高了信噪比,改善了語音質量。
參考文獻:
[1] Griffiths L J,Jim C W.An alternative approach to linearly constrained adaptive beamforming[J].IEEE Trans on Antennas Propagat,1982,30:27-34.
[2] Gannot S,Burshtein D,Weinstein E.Signal enhancement using beamforming and nonstationarity with application to speech[J].IEEE Trans on signal Processing,2001,49:1614-1626.
[3] Cohen I.On speech enhancement under signal presence un-certainty[C]∥The 26th IEEE International Conference on Speech Signal Process,2001:167-170.
[4] Cohen I,Berdugo B.Spectral enhancement by tracking speech presence probability in subbands[C]∥IEEE Workshop on Hands Free Speech Communication,2001:95-98.
[5] Cohen I.Noise spectrum estimation in adverse environments:Improved minima controlled recursive averahinging[J].IEEE Trans on Speech and Audio Processing,2003,11:466-475.
[6] Cohen I,Bedugo B.Microphone array postfiltering for nonstationary noise suppression[C]∥Proc of International Conference on Acoustics and Speech Signal Process,Orlando,FL,2002:901-904.
[7] Cohen I,Gannot S.Speech Enhancement based on the general transfer function GSC and postfiltering[J].IEEE Trans on Speech and Audio Processing,2004,12(6):561-571.
[8] Cohen I,Bedugo B.Microphone array post-filtering for nonstationary noise suppression[C]∥Proc of International Conference on Acoustics and Speech Signal Process,Orlando,2002:901-904.
[9] Cohen I,Berdugo B.Noise estimation by minima controlled recursive averaging for robust speech enhancement[J].IEEE Trans on Signal Processing,2002,9:12-15.
[10] Ephraim Y,Malah D.Speech enhancement using a minimum mean square error short-time spectral amplitude estimator[J].IEEE Trans on Acoust,Speech and Signal Processing,1984,32:1109-1121.
[11] Cohen I,Berdugo B.Speech enhancement for nonstationary noise environments[J].IEEE Trans on Signal Processing,2001,81(11):2403-2418.
[12] Ephraim Y.Speech enhancement using a minimum mean spuare error log spectral amplitude estimator[J].IEEE Trans on Acoust,Speech and Signal Processing,1985,33:443-445.
[13] Cohen I.Multi-channel post-filtering in noise environments[J].IEEE Trans on Signal Processing,2004,52:1149-1160.