王金芳,虢 明
(吉林大學通信工程學院,長春130012)
語音活動檢測(Voice active detection,VAD)是檢測語音中有/無聲的技術。早期VAD利用啟發式模型,例如短時能量[1]、短時過零率[2]、高階統計分析[3]等對語音和非語音實施判別。近期的系統采用特征-模型的方法,包括兩個關鍵部分:特征提取和模型建立。由于上述方法的特征容易受到噪聲的影響,在高噪聲條件下,其檢測性能難以得到保障,如何提取強魯棒性的特征成為這種方法的關鍵。在聽覺感知方面,Alsteris等[4]證實,短時相位譜起著重要作用。群時延函數(Group delay function,GDF)是相位譜對頻率的微分,作為特征,已展示出對語音一定的表征效力[5-7]。經由Murthy等[8]分析和證明,群時延函數具有優良的噪聲魯棒性能。時域信號的卷積,在頻域表現為信號相乘,相位則為相加,因此,諧振的存在導致群時延函數本身具有明顯的尖峰效應,妨礙進一步處理。一種改進方法是將幅度譜進行倒譜平滑[7],并引入兩個參數降低其動態變化范圍,得到改進群時延函數(Modified group delay function,MODGDF)[5]。為滿足對共振峰的有效估計,改進的群時延函數摒棄了語音信號中的激勵成份,只保留聲道響應部分,造成MODGDF對原聲學空間表征能力下降。本文提出指數函數規整群時延函數(Exponent function warping group delay function,EGDF),在降低群時延譜動態變化范圍、抑制尖峰效應的同時,減少特征提取過程的信息丟失。基于GMM的VAD實驗表明,在噪聲魯棒性和檢測精度方面,本文方法優于改進的群時延函數。
設語音信號序列x(n)的傅里葉變換表示為x(ejω),其相位為θ(ejω),則極坐標形式的傅里葉變換為

定義群時延函數

式中:下標R和I分別表示實部和虛部;Y(ejω)是信號的傅里葉變換。信號y(n)=nx(n)的傅里葉變換的連續性使得未卷繞(Unwrapped)的相位函數具備連續性。由于實際計算中,相位被卷繞到(-π,π]區間內,如果直接對相位取導數會因卷繞造成群時延函數不具備連續性,因此選擇式(2)作為群時延函數常用表達式。根據語音信號產生的源濾波器模型,假設聲道沖激響應由若干諧振器和反諧振器級聯而成,表現形式即是傅里葉變換幅度的相乘,其傅里葉變換相位譜轉化為若干諧振器和反諧振器非卷繞相位譜的疊加。經對式(1)取對數操作,原傅里葉變換域各模塊乘積形式轉化為群時延域加性形式。諧振時,群時延數值急劇增大,出現局部峰值,而根據式(2),此時的信號幅度接近零,即信號z變換零點接近單位圓,形成群時延函數的尖峰效應,零點越接近單位圓,其幅度越大[8]。圖1(c)給出取樣率8 kHz,時長25 ms語音片段的群時延函數曲線。可觀察到,群時延幅度范圍大大高于幅度譜的范圍,并且較幅度譜觀察不到明顯的說話人信息。激勵源聲門周期是另外一種產生群時延尖峰效應的因素,表現為諧波成份,如圖1(a)中周期性的波動成分,對群時延譜精細結構有很大貢獻。通常的平滑技術難以消除這些尖峰,尖峰效應的存在使計算難度加大。對于共振峰估計等,只需得到尖峰位置信息,不需要尖峰的強度,所以需抑制尖峰效應,一種方法是丟掉激勵源信息,而僅考慮聲道信息,即倒譜平滑群時延函數(Cepstrally smoothed group delay function,CSGDF),最初由Yegnanarayana等[7]提出,實施方法是以倒譜平滑版本|Sc(ejω)|2取代式(2)的分母項|X(e)jω|2而得到

按文獻[5]選擇最優倒譜平滑濾波器長度l=6,其倒譜平滑群時延函數如圖1(d)所示,其動態范圍較GDF進一步增加,卻可以觀察到與幅度譜相似的信息。
接著,Murthy等[5]引入兩個參數α和γ,使倒譜平滑群時延函數的動態范圍進一步降低,得到改進群時延函數(MODGDF)為



圖1 純凈語音、幅度譜及各類群時延譜Fig.1 Pure speech,amplitude spectrum and various group delay spectrums
由于CSGDF和MODGDF的目的是利用其共振峰估計信息,都只是改進群時延函數的聲道特性。由于忽略激勵源信息,降低了語音表征力。
為了在減小群時延變化動態范圍的同時避免丟失語音有效信息,定義指數函數規整群時延函數

其曲線如圖1(f)所示,不僅保留了激勵源信息,而且縮短了群時延變化動態范圍。從幅度譜可觀察到明顯的共振峰,而各次諧波并不明顯;群時延具有很大的動態范圍,諧波信息幾乎無法辨別; CSGDF譜F2尖峰突出,其它尖峰受到抑制,諧波信息難以辨別;MODGDF諧波信息豐富,動態范圍降低約數千倍,雖然能夠確定強共振峰F2的位置,但其它共振峰幾乎被諧波尖峰淹沒;從EGDF譜能明確觀察到各共振峰和諧波信息。
將與圖1相同的一段語音片段疊加白噪聲分別生成信噪比為5 dB、0 dB的帶噪語音,其相應的波形分別如圖2、圖3所示。

圖2 帶噪語音、幅度譜及各類群時延譜(白噪聲SNR=5 dB)Fig.2 Noisy speech,am p litude spectrum and various group delay spectrums(White noise SNR=5 dB)

圖3 帶噪語音、幅度譜及各類群時延譜(白噪聲SNR= 0 dB)Fig.3 Noisy speech,am plitude spectrum and various group delay spectrums(W hite noise SNR=0 dB)
圖2(c)、圖3(c)群時延譜動態范圍較圖1 (c)仍很大,尤其值得注意的是,因為噪聲的影響,出現許多偽峰值。帶噪語音CSGDF譜的問題與純凈語音情況一樣凸顯。MODGDF除F2尖峰外,其它共振峰尖峰幾乎被噪聲干擾淹沒,頻頻出現與GDF相似的負峰值。帶噪EGDF譜的各共振峰仍然清晰可辨;與帶噪MODGDF對比,整個頻帶噪聲受到抑制,并且沒有出現偽峰值和負峰值;同GDF和CSGDF對比,群時延動態變化范圍大幅降低,與MODGDF不相上下。
比較圖2和圖3,當噪聲功率增加時,GDF和MODGDF變化很大,除大的共振峰外,其他的顯得雜亂無章,而EGDF基本沒有變化,源和聲道信息仍然清晰可辨,表明其優良的噪聲魯棒性。
GDF、CSGDF、MODGDF和EGDF倒譜域特征的計算框圖如圖4所示。

圖4 各倒譜域特征的計算框圖Fig.4 Block diagram of various cepstral features
將帶噪語音和背景噪聲分別建立高斯混合模型,記為λ1和λ0。根據測試語音特征集x,對某一幀信號,分別與上述兩個模型匹配,根據得分結果,按照下述準則進行判決決策

式中:i為幀序號,r(i)表示第i幀的判決結果。
實驗語音選自標準語音庫TIMIT數據庫,其語音采樣率為16 kHz,噪聲取自NOISEX-92庫,將原語音和噪聲數據均下采樣為8 kHz。預加重系數取0.97,分析窗為矩形窗,窗長25 ms,幀移10 ms。分別按信噪比10 dB、5 dB和0 dB疊加白噪聲和Babble噪聲生成帶噪語音。使用帶噪語音(非靜音)數據訓練帶噪語音的GMM,其混合度為20;噪聲GMM訓練數據截取自測試語音,一般可認為語音信號前200 ms為純噪聲。以GDF、CSGDF、MODGDF和EGDF的倒譜系數為特征進行GMM語音活動檢測,檢測結果如圖5~圖10所示。

圖5 VAD結果(白噪聲SNR=10 dB)Fig.5 VAD results(W hite noise SNR=10 dB)
從檢測結果可知,三種信噪比下,EGDF的檢測性能都優于GDF、CSGDF和MODGDF。幾種情況下,EGDF都能準確檢測濁音,其它方法誤差很大,噪聲的存在使錯檢增多。對比圖5 (e)和圖6(e),5 dB結果幾乎接近于10 dB的結果,從實驗角度證實了EGDF具有良好的噪聲魯棒性。0 dB的檢測效果有所下降,因噪聲影響導致對濁音的錯檢增多,且算法對Babble噪聲的檢測效果不及白噪聲的效果,因為其更接近語音信號。

圖6 VAD結果(白噪聲SNR=5 dB)Fig.6 VAD results(W hite noise SNR=5 dB)

圖7 VAD結果(白噪聲SNR=0 dB)Fig.7 VAD results(W hite noise SNR=0 dB)

圖8 VAD結果(Babb le噪聲SNR=10dB)Fig.8 VAD results(Babble noise SNR=10dB)

圖9 VAD結果(Babble噪聲SNR=5 dB)Fig.9 VAD results(Babble noise SNR=5 dB)
導致群時延函數尖峰效應的根本原因是語音信號z變換零點接近單位圓。本文提出指數函數規整的群時延函數,在計算初始群時延函數基礎上,對其表達式中的功率譜采用指數函數規整,消除其在某一點為零的可能性,同時降低群時延的尖峰效應。GMM語音活動檢測實驗表明,本文方法不但優于其他的群時延函數,而且在噪聲條件下具有良好的魯棒性,驗證了文獻[8]所言。今后的研究重點是進一步改進群時延函數,以加強其在更低信噪比下的魯棒性。

圖10 VAD結果(Babble噪聲SNR=0 dB)Fig.10 VAD results(Babble noise SNR=0 dB)
[1]Dong E,Liu G,Zhou Y,et al.Voice activity detection based on short-time energy and noise spectrum adaptation[C]∥In 2002 6th International Conference on Signal Processing(ICSP'02),Beijing,China,2002:464-467.
[2]Sangwan A,Chiranth M C,Jamadagni H S,et al.VAD techniques for real-time speech transmission on the Internet[C]∥In 5th IEEE International Conference on High Speed Networks and Multimedia Communications,Jeju Island,Korea,2002:46-50.
[3]Nemer E,Goubran R,Mahmoud S.Robust voice activity detection using higher-order statistics in the LPC residual domain[J].IEEE Transactions on Speech and Audio Processing,2001,9:217-231.
[4]Alsteris L D,Paliwal K K.Short-time phase spectrum in speech processing:a review and some experimental results[J].Digital Signal Processing,2007,17:578-616.
[5]Murthy H A,Gadde V.Themodified group delay function and its application to phoneme recognition[C]∥In 2003 IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP'03),Hong Kong,China,2003:68-71.
[6]Murthy H A,Madhu Murthy K V,Yegnanarayana B. Formant extraction from phase using weighted group delay function[J].Electronics Letters,1989,25:1609-1611.
[7]Yegnanarayana B,Murthy H A.Significance of group delay functions in spectrum estimation[J]. IEEE Transactions on Signal Processing,1992,40:2281-2289.
[8]Murthy H A,Yegnanarayana B.Group delay functions and its applications in speech technology[J].Springer,2011,36:745-782.