龐 亮,陳 亮,張翼鵬
(1.解放軍理工大學通信工程學院,江蘇南京210007;2.解放軍南京炮兵學院,江蘇南京211132)
改進的低時延語音增強算法*
龐 亮1,陳 亮1,張翼鵬2
(1.解放軍理工大學通信工程學院,江蘇南京210007;2.解放軍南京炮兵學院,江蘇南京211132)
針對目前語音增強存在較大時延的問題,提出一種低時延語音增強算法。在傳統(tǒng)的先驗信噪比估計和噪聲估計的基礎(chǔ)上,對判決引導算法進行低時延的改進,并提出了一種基于語音存在概率和語音激活檢測相結(jié)合的噪聲估計方法,本文的算法采用對數(shù)MMSE估計器結(jié)合語音存在概率。采用ITU-T P.826 PESQ、分段信噪比、總信噪比和對數(shù)譜失真對該算法進行了測試,并與其他幾種算法進行了對比,實驗結(jié)果表明,該算法有效降低了時延,可以很好的跟蹤非平穩(wěn)噪聲,在信噪比較低的情況小可以取得很好的增強效果,且音樂噪聲和殘留背景噪聲也可以得到很好的抑制。
語音增強 判決引導 先驗信噪比估計 噪聲譜估計
在實際的語音通信過程中,語音不可避免的會受到外界的各種干擾,使得原始語音受到噪聲的污染,導致許多語音處理系統(tǒng)性能的惡化。語音增強技術(shù)就是有效降低噪聲干擾的一個重要手段,其目標是從帶噪語音信號中提取出盡可能純凈的原始語音或原始語音參數(shù)來改善語音質(zhì)量,使人們接受或者提高語音處理系統(tǒng)的性能。有效的語音增強技術(shù)可以大大提升系統(tǒng)的抗干擾能力,增加語音的可懂度。單通道語音增強技術(shù)目前應(yīng)用廣泛,且一直是國內(nèi)外學者廣泛研究的重要課題。
基于對數(shù)MMSE(Minimum Mean-Square Error,最小均方誤差)估計器相比較于維納濾波、小波變換、譜減法等方法[1]具有更加出色的降低音樂噪聲的能力。對數(shù)MMSE估計器的關(guān)鍵是先驗信噪比估計和噪聲估計模塊,傳統(tǒng)的先驗信噪比估計采用的是判決引導(DD)法,均采用前一幀的語音對該幀進行估計,存在一幀的時延,該算法后來也有很多學者對其進行了優(yōu)化,主要是提高了估計的精度和收斂速度,但算法的時延并未做出改進,本文提出改進的低時延DD算法,可有效解決這一問題。
噪聲的估計在語音增強系統(tǒng)中至關(guān)重要,如何能夠準確的估計出噪聲的功率譜,尤其是如何能夠快速跟蹤非平穩(wěn)噪聲的功率譜是目前國內(nèi)外研究的一個重點和難點。傳統(tǒng)的方法是采用VAD判決法,在非語音幀對噪聲進行平滑更新,對于語音幀,則不進行噪聲的更新。但是在低SNR的條件下,特別當環(huán)境噪聲為非平穩(wěn)噪聲時,話音活動期間也必須持續(xù)的精確噪聲估計,才能實現(xiàn)有效的語音增強。目前使用較多的主要是最小值控制的遞歸平均(MCRA)算法、改進的最小值控制的遞歸平均(IMCRA)算法[2]、MMSE算法[3]及利用語音存在概率[4]的噪聲估計等算法,但這些算法大都復雜度較高。本文提出一種低復雜度的噪聲估計方法,首先利用對數(shù)似然比進行VAD判決,對于非語音幀,采用傳統(tǒng)的平滑估計算法,對于語音幀,則采用VAD聯(lián)合語音存在概率進行噪聲更新。
分別用x(n)、r(n)、y(n)表示純凈語音、噪聲和帶噪語音,則:

算法在頻域?qū)φZ音信號進行處理,采用短時傅里葉變換(STFT):

式中m表示幀編號,k表示頻率點,D表示重疊的點數(shù),ω(n)為窗函數(shù),則純凈語音可以通過下式計算:

式中G(k,m)為對數(shù)MMSE估計器增益函數(shù)。其表達式為:



本文采用對數(shù)MMSE估計器結(jié)合語音存在概率,新的增益函數(shù)為:

式中p()表示在頻點k給定帶噪語音幅度Yk的條件下,存在語音的條件概率。Gmin為小值,具體推導過程參考文獻[5]。
傳統(tǒng)的先驗信噪比估計采用了判決引導(DD)法,它是基于先驗信噪比的定義及其與后驗信噪比的關(guān)系,通過遞歸得到:

式中a=0.98為平滑因子,(k,m-1)為上一幀估計的純凈語音,λr(k,m-1)為上一幀估計的噪聲功率譜,ξmin是ξ(k,m)所允許的最小值,用以限定(k,m)的下限來控制產(chǎn)生的音樂噪聲。可見,DD算法存在一幀的時延,且依賴于上一幀所估計的純凈語音,因此在話音的起端和終點處,DD算法并不能很好地反映出當前幀狀況,這些會對語音的質(zhì)量產(chǎn)生較大影響[6]。針對此問題,本節(jié)提出了一種改進的低時延DD算法,使用當前幀的語音信號代替上一幀的純凈語音,增益函數(shù)仍然使用上一幀計算的增益函數(shù),同時噪聲采用當前幀所估計的噪聲。具體表達式如下:

式中平滑因子和先驗信噪比允許的最小值均與傳統(tǒng)算法相同,ξmin=-25dB。
在公式(9)中,第一項沒有采用上一幀的先驗信噪比,因此不再是一個遞歸平滑的算法。這可能會導致對語音的突變會較敏感,從而產(chǎn)生一定的音樂噪聲。為此本文對后驗信噪比計算方法進行了改進,不再直接使用當前幀的帶噪語音,而是對當前幀的帶噪語音先進行平滑,再計算后驗信噪比,具體表達式如下:

噪聲估計的準確與否對語音增強的性能是至關(guān)重要,如果噪聲的估計值偏大,就會造成語音信號的嚴重失真,導致語音的可懂度下降;反之,如果噪聲的估計值偏小,就會產(chǎn)生大量的音樂噪聲,影響語音的質(zhì)量。傳統(tǒng)的噪聲估計使用語音激活檢測(VAD)方法,在信號的無聲段(即語音的間隙)進行噪聲的估計和噪聲譜的更新。盡管這種方法在平穩(wěn)噪聲(白噪聲)環(huán)境下可以取得較好的效果,但是在更多的現(xiàn)實場景中(餐館、車站等),因噪聲譜特性不斷變化,其效果變得不盡理想。近年提出的一些基于語音存在概率的MCRA,IMCRA等噪聲估計算法,普遍復雜度較高。本節(jié)提出一種將VAD和語音存在概率相結(jié)合的改進算法,降低了噪聲估計的復雜度。
VAD的判決采用對數(shù)似然比,計算公式為:

將每一幀的對數(shù)似然比求均值,小于閾值τ,則判定為非語音幀,噪聲更新采用下式進行平滑:

式中μ=0.86是一個值固定的平滑因子。
對于語音幀,利用語音存在概率進行噪聲更新。

則語音存在概率為:

噪聲的更新方式同樣采用平滑公式:

式中平滑因子:αs=αd+(1-αd)p(k,m),αd=0.9,αp=0.2,判決閾值τ的選取,需要綜合考慮語音的缺損以及噪聲的跟蹤速度,如果閾值τ選取的過大,則噪聲的跟蹤速度快,但語音的缺損會增加;相反,如果閾值τ取值過小,則噪聲跟蹤速度就會變慢。本文通過大量的實驗驗證,選取閾值τ=0.11。
算法的流程圖如圖1所示。

圖1 算法流程Fig.1 Flow chart of algorithm
下圖為采用DD算法,改進的DD算法以及γ-1的對比圖:

圖2 信噪比時延對比Fig.2 SNR delay comparison diagram
從圖中可以看出,原始DD算法相比較于γ-1均存在一幀的時延,而改進的DD算法有效的減小了時延。同時為了驗證本算法的增強性能,對兩種常見的非穩(wěn)態(tài)噪聲babble噪聲和car噪聲進行PESQ、對數(shù)譜失真、分段信噪比和總信噪比測試,測試語音采用NOIZEUS語音庫語音。并將本算法與OMLSA算法、基于MMSE噪聲估計的增強算法以及基于非因果信噪比估計的增強算法[7]進行對比,其中OMLSA算法中的噪聲估計采用目前使用較為廣泛的IMCRA噪聲估計算法以及結(jié)合語音存在概率的對數(shù)MMSE估計器。圖3、圖4為性能測試對比結(jié)果。


圖3 car噪聲環(huán)境下的對比Fig.3 Comparison diagram in car noise environment


圖4 babble噪聲環(huán)境下的對比Fig.4 Comparison diagram in babble noise environment
可以看出,本文提出的算法在0 dB噪聲環(huán)境時PESQ得分與其他幾種算法相當,但信噪比、分段信噪比和對數(shù)譜失真的綜合效果要好于其他算法;在5 dB的噪聲環(huán)境下,其性能優(yōu)于其他算法,在信噪比較高的環(huán)境下,增強效果與其他算法相當。因此本文算法可以很好地在低信噪比非穩(wěn)態(tài)噪聲環(huán)境下實現(xiàn)語音增強,且在信噪比較高的環(huán)境下本算法依然適用。
圖(5)為一段純凈語音,加入5 dB的babble噪聲后的帶噪語音以及增強后的語音波形對比圖,從圖中可以明顯看出本算法在語音的間隙很好的抑制了音樂噪聲。


圖5 增強前后算法語音波形圖對比Fig.5 Waveform comparison before and after speech enhancement
本文在研究了傳統(tǒng)的判決引導法的基礎(chǔ)上,針對其在話音的起始端和結(jié)束端存在時延問題,提出將本幀的帶噪語音替代前一幀的純凈語音,并對其可能產(chǎn)生音樂噪聲采用了帶噪語音平滑。同時結(jié)合傳統(tǒng)的VAD判決法和近年來基于語音存在概率的噪聲估計算法,提出了一種低復雜度的噪聲更新算法,并在噪聲更新結(jié)束后依據(jù)更新的噪聲重新估計了先驗信噪比和后驗信噪比,使得本幀的增益函數(shù)計算更加精確,延時更小。最后通過信噪比、分段信噪比和對數(shù)譜失真等多個指標將該算法與最新的幾種語音增強算法進行了對比,在信噪比較低的非穩(wěn)態(tài)噪聲環(huán)境下增強的總體效果要優(yōu)于另幾種算法。該算法時延較低,且結(jié)構(gòu)簡單,易于實現(xiàn),具有較好的實用價值。
[1] LOIZOU P C.Speech Enhancement Theory and Practice [M],CRC Press,2007:337-377.
[2] COHEN I.Noise Spectrum Estimation in Adverse Environments:Improved Minima Controlled Recursive Averaging[J].IEEE Transactions on Speech and Audio Processing,2003,11(05):466-475.
[3] GERKMANN T,HENDRIKS R C.Unbiased MMSE-based Noise Power Estimation with Low Complexity and Low Tracking Delay[J].IEEE Transaction on Speech and Language Processing,2012,20(04):1383-1393.
[4] GERKMANN T.Noise Power Estimation Based on The Probability of Speech Presence[C]//IEEE Workshop on Application of Signal Processing to Audio and Acoustics. New Paltz:USA,2011:145-148.
[5] Cohen I.Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-spectra Amplitude Estimation[J].IEEE Signal Processing Letters,2002,9 (04):113-116.
[6] YONG P C,NORDHOLM S,DAM H H.Trade-off E-valuation for Speech Enhancement Algorithms with Respect to The a Priori SNR Estimation[C]//IEEE International Conference on Speech and Signal Processing(ICASSP).Kyoto:Japan,2012:4657-4660.
[7] 張濤,李輝。基于非因果先驗信噪比估計的語音增強方法[J].通信技術(shù),2010,43(02):60-62.
ZHANG Tao,LI Hui.Speech Enhancement Based on Noncausal A Priori SNR Estimator[J].Communications Technology,2010,43(02):60-62.
Modified Low-Delay Speech Enhancement Algorithm
PANG Liang1,CHEN Liang1,ZHANG Yi-peng2
(1.Institute of Communication Engineering,PLAUST,Nanjing Jiangsu 210007,China; 2.Nanjing Artillery Academy of PLA,Nanjing Jiangsu 211132,China)
Aiming at current long-time delay of speech enhancement algorithms,this paper proposes a low -delay speech enhancement algorithm which improves the decision-directed algorithm with low delay based on the traditional prior SNR estimation and noise estimation,and introduces a noise estimation algorithm based on the combination of speech existence probability and VAD.This algorithm combines logarithmic MMSE estimator with speech existence probability.Meanwhile,ITU-T P.826 PESQ,segmental SNR,overall SNR,and logarithmic spectrum distortion are adopted to test the proposed algorithm,and comparisons with other speech enhancement algorithms also done.Experimental results show that the new algorithm can yield good performance in reducing time-delay and tracking non-stationary noise,particularly in the case of low SNR,and can also effectively suppress musical noise and residual noise.
speech enhancement;decision-directed;priori SNR estimation;noise spectrum estimation
TN912.35
A
1002-0802(2014)11-1276-05
10.3969/j.issn.1002-0802.2014.11.008
2014-09-09;
2014-10-19 Received date:2014-09-09;Revised date:2014-10-19