李蓉 李宇
(1.廣東農工商職業技術學院計算機系 2.廣東藥學院信息工程學院)
語音處理系統一般運行在復雜的環境噪聲中。其中語音活動檢測(voice activity detection,VAD)用于語音采集后信號有音與無音的檢測,應用非常廣泛,如各種電話終端、IP電話、音視頻會議等。它在移動通話中可以控制射頻模塊、語音編解碼的間斷性工作,以節省帶寬和降低能耗;在語音識別時,可以為特征提取提供有效的信號區間;在 GSM/GPRS移動數據通信中,文獻[1]利用VAD在無通話時段自適應傳輸數據,節省帶寬的額外開銷。
近年來,多種方法策略用來改善帶噪語音信號的檢測。Sohn[2]把語音活動檢測可以看作一個二元假設檢驗問題,提出基于統計模型似然比檢測的VAD方法,其中噪聲和語音的統計分布都需要考慮。Cho[3]對該方法進行了平滑改進。Ramirez[4]考慮幀間相關性,對該方法擴展到多獨立觀察變量情況。Gazor[5]則先對含噪語音進行DCT去相關性,并應用HMM描述檢測的狀態轉換過程,其與Sohn的最大區別是采用 Laplacian作為語音的統計分布。利用更佳的語音統計模型可以獲得更好的檢測性能,最近結合GARCH濾波與Gamma分布[6]有應用于VAD。以上基于統計模型類方法需要分別計算每幀信號中語音與噪聲的統計模型參數,因此算法復雜度高于G.729 Annex B[7]
另一類則由Davis等人[8]提出的基于信噪比測量的自適應閾值VAD方法。該方法在非語音時段基于信噪比測量的統計模型更新閾值(供下一幀判決使用),以比較當前幀時輸入信號與判決閾值的大小作為檢測活動語音的依據。與基于似然比檢測方法相比,該方法考慮無語音時段噪聲信噪比測量的統計分布,而不是考慮語音信號的統計模型。對于該類方法,文獻[9]假設非平穩噪聲(如 Babble噪聲)服從Rayleigh分布,并給出了判決閾值更新表達式。文獻[10]則采用倒譜閾值平滑估計噪聲頻譜取代Welch等方法,由于倒譜可以從語音處理系統內的其它模塊復用獲得,節省了運算量。本文提出結合倒譜閾值平滑與瑞利模型的VAD方法,實驗表明該組合方法可以提高非平穩噪聲下語音信號有音區域的檢測效果。
文獻[11]提出一種利用倒譜閾值平滑的非參數估計方法,可有效地計算平穩信號的頻譜估計。
假定語音受到加性噪聲污染,并且語音信號和噪聲相互獨立,則含噪語音幀在短時傅立葉變換域表示如下:

其中S(k,i)與V(k,i)分別是第i幀時刻第k頻段的純潔語音與噪聲信號。假設輸入信號第k個倒譜kc的服從 ck均值與方差的正態分布。設第i幀時刻含噪語音信號的頻譜為 Pz(k,i) >0,?k,用周期圖對當前信號單元估計有

依據信號倒譜的定義,由周期圖獲得倒譜c(m,i)的一個估計

信號在第i幀時刻第k頻段的倒譜估計服從的高斯分布:

倒譜閾值估計方法就是尋找新的估計量,使得有更好的估計,從而有總方差V更小??梢酝ㄟ^UMPUT方法找到一個合理的閾值實現估計。對倒譜估計設置閾值:

其中μ起到控制虛警概率的作用。當N小于500時,建議對窄帶信號取2μ=,而對寬帶信號取μ=4;當N大于500時,建議對窄帶信號取μ=3,而對寬帶信號取5μ=。


噪聲信號頻譜的統計分布有明顯的不對稱拖尾特性,用瑞利模型可以近似其功率譜概率密度函數。利用上節的倒譜閾值估計方法分別獲得含噪語音的頻譜k, i)與噪聲的頻譜,定義信噪比測量:


信噪比測量實際上是信號的瞬時功率譜密度與噪聲均值的比率。VAD為了判定語音信號存在與否,在每幀信號考慮兩類假設:H0表示當前信號是噪聲,而備用假設H1則表示當前信號為含噪語音信號。在兩種假設下,(k,i)φ分別表示為


當信噪比測量的平均值大于閾值的平均值時,初步檢測到的是語音(H1),相反為噪聲(H0)。最終判決需要后接一個時滯判決策略以降低錯誤拒絕率。在檢測過程中,一旦檢測出當前幀信號是噪聲,立即通過式(8)更新η(k,i),供1+i幀信號的比較判決使用。
在 VAD檢測實驗中,分別用倒譜閾值平滑與Welch方法估計噪聲頻譜,并分別用高斯模型與瑞利模型閾值更新準則后接相同時滯策略進行含噪語音信號的狀態檢測。實驗分別在3種不同噪聲、3種不同信噪比環境中評估基于倒譜閾值與瑞利模型閾值更新準則的VAD性能指標值。實驗用到的噪聲庫與語音數據及其格式設置與文獻[9]相同。除了用于信噪比測量方差進行時間指數平均的實驗中Welch方法以及其VAD中參數設置與文獻[9]相同。倒譜閾值方法的參數設置如表1所示。性能評估采用文獻[9]給出的5個客觀評測指標。

表1 利用倒譜閾值VAD方法的參數值
4種VAD組合實驗結果見表2、表3。其中表2是文獻[10]獲得的實驗結果,表3的組合3實驗結果引用文獻[9]。本文為了做實驗分析對比,加以引用。高斯白噪聲環境下,4種組合中組合1的Correct指標最高。采用瑞利模型的組合3與組合4得分都低于采用高斯模型的 VAD,進一步驗證了瑞利模型不適合用于描述高斯信號的統計分布。采用倒譜閾值估計方法組合2與4分別稍低于用Welch方法的組合1與3。在Babble噪聲評估時,組合4(本文方法)超越了前2種組合。其與組合3相比,在5 dB和10 dB下Correct指標都有1%以上的提高,但在15 dB卻有稍微下降。瑞利模型的引入提高了對該類具有拖尾統計特性噪聲的整體檢測正確率,對比組合2有3%以上的提高。對于 factory1噪聲環境下,組合 4在各個信噪比中Correct值都優于前3種組合,有2%以上的優勢。

表2 Gaussan準則檢測指標值對比[10]

表3 Rayleigh準則檢測指標值對比
總的來看,組合4倒譜瑞利在非對稱統計分布噪聲環境下的檢測優于前3種組合,并且用倒譜閾值估計頻譜算法復雜度低[10],但單純從倒譜閾值頻譜估計方法來講,其在高斯噪聲,高信噪比 Babble噪聲環境下都沒有取得占優的檢測效果,說明該方法中的閾值設置并沒有考慮具體信號的統計特性。
本文提出一種結合倒譜閾值頻譜估計與瑞利分布模型的VAD方法。該方法可以復用語音系統的倒譜運算結果,節省了計算開銷,采用瑞利模型更適合與非平穩噪聲環境下的判決閾值更新。實驗表明該VAD在非平穩噪聲環境中優于基于高斯模型的2種組合,絕多數非平穩噪聲下優于Welch-瑞利(組合3),僅在15 dB Babble噪聲略低。實驗也反映出倒譜閾值頻譜估計方法的VAD在某些情況下檢測率差于其它組合的現象。針對該現象,將研究倒譜閾值頻譜估計方法對含噪語音信號、非平穩信號頻譜統計特性與該方法中閾值的確定問題。
[1] Huang H J, Su S L, Chen J H. Design and performance analysis for data transmission in GSM/GPRS system with voice activity detection[J]. IEEE Trans. Veh. Technology, 2002, 51(4)∶648-656.
[2] Sohn J, Kim N S, Sung W. A statistical model-based voice activity detection[J]. IEEE Signal Processing Letters, 1999,6(1)∶ 1-3.
[3] Cho Y D, Kondoz A. Analysis and improvement of a statistical model-based voice activity detector[J]. IEEE Signal Processing Letters, 2003,8(10) ∶ 276-278.
[4] Ramírez J, Segura J C, Benítez C, et al. A statistical voice activity detection using a multiple observation likelihood ratio test[J]. IEEE Signal Processing Letters, 12(10)∶ 689-692.
[5] Gazor S, Zhang W. A soft voice activity detector based on a laplacian-gasussian model[J]. IEEE Trans. on Audio, Speech,and Language Processing, 2003, 11(5)∶ 498-505.
[6] Tahmasbi R, Rezaei R, A soft voice activity detection using GARCH filter and variance gamma distribution[J]. IEEE Trans. on Audio, Speech, and Language Processing,2007,15(4)∶1129-1134.
[7] ITU-T Recommendation G.729, Annex B.[R], 1996.
[8] Davis A, Nordholm S, Togneri R. Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold[J]. IEEE Trans. on Audio, Speech, and Language Processing, 2006, 14(2)∶ 412-424.
[9] 李宇,陳建銘,譚洪舟,等.基于Rayleigh噪聲統計分布的有音區檢測[J].信號處理,2009,25(11)∶1809-1813.
[10] 李宇,郭雷勇,譚洪舟.基于噪聲倒譜閾值頻譜估計的語音活動檢測[J].計算機工程,2011,37(14)∶140-142.
[11] Stoica P, Sandgren N. Total-variance reduction via thresholding∶ application to cepstral analysis[J]. IEEE Transactions on Signal Processing, 2007, 55(1)∶ 66-72.