摘要:將一種新的對數(shù)能量(LE)特征和譜熵(SE)特征相結(jié)合,提出一種新的對數(shù)能量譜熵(LESE)特征,采用模糊C均值聚類算法和貝葉斯信息準(zhǔn)則算法進行LESE特征門限估計,并使用雙門限法進行語音端點檢測.在TIMIT連續(xù)語音庫上的實驗結(jié)果表明,相比于能量譜熵(EE)法和對數(shù)能量(LE)法,在噪聲環(huán)境下LESE法具有更好的檢測性能,表現(xiàn)出更好的穩(wěn)健性.當(dāng)信噪比為-5dB時,LESE法的檢測錯誤率僅為18.02%,在信噪比為0~10dB時,其檢測錯誤率要明顯低于EE法和LE法.
關(guān)鍵詞:語音端點檢測;對數(shù)能量譜熵;能量譜熵;對數(shù)能量
A Novel Voice Activity Detection Using Logarithmic Energy Spectral Entropy
ZHAO Huan+, WANG Gang-jin, ZHAO Li-xia
(School of Computer and Communication, Hunan Univ, Changsha, Hunan 410082, China)
Abstract: In this paper, we integrate Logarithmic Energy (LE) and Spectral Entropy (SE), to form a new characteristic that is Logarithmic Energy Spectral Entropy (LESE), using Fuzzy C Means Clustering algorithm and Bayesian Information Criterion algorithm to estimate the thresholds of the LESE characteristic, and using dual threshold method for voice activity detection. Experiments on the TIMIT continuous speech database show that, compared to the Energy spectral Entropy (EE) and LE, in the noisy environments the LESE has better performance not only in the detection aspect but also in the aspect of robustness. When the SNR is -5dB, the detection error rate of the LESE is only 18.02%, and while the SNR is 0~10dB, its detection error rate is significantly lower than the EE and LE.
Key words: voice activity detection; log energy spectral entropy; energy spectral entropy; logarithmic energy
語音端點檢測是語音分析、語音合成和語音識別中的一個重要環(huán)節(jié),直接影響到后續(xù)工作的準(zhǔn)確性.有效的檢測語音信號的端點,不僅可以減少語音信號處理的運算量,而且可以有效的提高系統(tǒng)的性能.
目前語音端點檢測的常規(guī)方法分為兩類:一類是基于語音信號的時域處理,如短時能量、短時平均過零率和短時相關(guān)分析等[1].這些方法在高信噪比下,能夠得到準(zhǔn)確的檢測結(jié)果,但在低信噪比下,其準(zhǔn)確率非常低.另外一類是基于語音信號的頻域處理,如倒譜特征法[2]、譜熵法[3,4]和頻帶方差[5]等.這些方法具有好的特征,在一定條件下可以取得好的檢測結(jié)果,但在惡劣的環(huán)境下,這些方法的端點檢測性能仍然很差.
基于上面的原因,結(jié)合時域和頻域端點檢測方法各自的優(yōu)點,文獻[6]提出了一種基于時頻特征相結(jié)合的能量與譜熵(Energy spectral Entropy, EE)的語音端點檢測算法,(1)由于能量在非穩(wěn)定的噪聲環(huán)境下,很難區(qū)分想要得到的語音和不可預(yù)測的背景噪聲,而譜熵卻能夠克服上面能量的缺點,(2)譜熵在嘈雜噪聲和音樂噪聲下卻變得非常不穩(wěn)定,而能量卻能夠克服這一缺點,因為能量有一個很好的加性性質(zhì),即語音加噪聲的能量要大于噪聲的能量.
文獻[7]提出了一種新的對數(shù)能量(Logarithmic Energy, LE)特征,與短時線性能量特征相比,不會造成幅度較小的輔音和靜音的混淆,同時也不會出現(xiàn)短時對數(shù)能量特征中的噪聲段的特征值過大的問題,較好地反映了語音信號中不同部分(語音,噪聲和靜音)的區(qū)別,具有良好的區(qū)分性能.
本文基于文獻[7]的新對數(shù)能量特征的優(yōu)點,將其與譜熵(Spectral Entropy, SE)相結(jié)合,提出一種新的對數(shù)能量譜熵(LESE)特征的端點檢測算法,其門限估計采用模糊C均值聚類算法與貝葉斯信息準(zhǔn)則算法,該方法具有好的魯棒性,其門限值能動態(tài)的跟蹤背景噪聲的變化,從而得到準(zhǔn)確的語音端點.實驗結(jié)果表明,在低信噪比下,LESE法相比于EE法與LE法,具有更好的檢測效果.
1 對數(shù)能量譜熵(LESE)特征
圖1給出了計算對數(shù)能量譜熵(LESE)特征的算法框圖.首先對于給定的語音進行分幀、加窗處理,然后分別計算對數(shù)能量和譜熵特征,并且各自進行平移調(diào)整,最后相乘得到LESE特征.
圖1 計算LESE特征的算法框圖
Fig1 Algorithm diagram of computing LESE feature
1.1 對數(shù)能量(LE)特征的計算
對于語音信號 的第i幀,由文獻[7]提出的一種新的對數(shù)能量特征 ,其計算的表達式為:
(1)
(2)
其中 為第i幀信號的短時線性能量, 為某一個固定的常數(shù),文獻[7]的實驗表明, 時取得更好的效果.
圖2給出了能量特征和對數(shù)能量特征在SNR=5dB下的比較圖,很明顯,對數(shù)能量特征能夠更好的表征語音,更好的將噪聲區(qū)分開來.
圖2能量特征與對數(shù)能量特征的比較
Fig.2 Comparison of Energy feature and Logarithmic Energy feature
1.2 譜熵(SE)特征的計算
對帶噪語音信號 經(jīng)分幀、加窗之后,按幀間50%的重疊率求解FFT變換,得其在頻率分量 的能量譜為 ,則每個頻率分量的歸一化概率密度函數(shù)(pdf)定義為[3]:
(3)
其中 為第 幀第 頻率點的概率密度,N為FFT變換長度.由于語音的能量主要集中在250Hz~4500Hz,為了增強區(qū)分語音和非語音段的能力和消除功率恒定的噪聲,對式(3)分別引入如下約束條件:
(4)(5)
基于上述約束條件,每個分析語音幀的短時譜熵定義為:
(6)
1.3 對數(shù)能量譜熵(LESE)特征的計算
首先,對得到的對數(shù)能量和譜熵分別進行平移調(diào)整,并且相乘,其結(jié)果記為 ,計算公式為:
(7)
其中 和 分別為前10幀的對數(shù)能量和譜熵特征的平均值.
然后,可得LESE特征的計算公式為:
(8)
其中 的經(jīng)驗常數(shù).
圖3 EE特征與LESE特征的比較
Fig.3 Comparison of EE feature and LESE feature
如圖3所示,給出了當(dāng)SNR=-5dB時,能量譜熵特征與對數(shù)能量譜熵特征的比較圖,可以發(fā)現(xiàn)能量譜熵特征不能準(zhǔn)確的將語音和噪聲相區(qū)分開來,特別是在語音樣本的開始段,噪聲也被表征出語音特征.而對數(shù)能量譜熵卻具有很好的平滑性和區(qū)分性.
2 門限估計與端點檢測
2.1 模糊C均值聚類(FCMC)
模糊C均值聚類(Fuzzy C Means Clustering, FCMC)算法是模糊聚類算法中比較經(jīng)典和代表性的算法,其算法描述如下[8,9]:
假定 是N個樣本組成的樣本集合,C為預(yù)定的類別數(shù)目, 為每個聚類的中心, 是第i個樣本對于第j類的隸屬度函數(shù).用隸屬度函數(shù)定義的聚類損失函數(shù)為:
(9)
其中, 是一個可以控制聚類結(jié)果的模糊程度的常數(shù).
模糊C均值聚類算法要求一個樣本對于各個聚類的隸屬度之和為1,即
(10)
在條件式(10)下求式(9)的極小值,令J對 和 的偏導(dǎo)數(shù)為0,可得必要條件:
(11)
(12)
用迭代方法求解式(11)和(12),就是模糊C均值聚類算法,算法步驟如下:
① 設(shè)定聚類數(shù)目C和參數(shù)b;
② 初始化各個聚類中心 ,
;
③ 重復(fù)下面的運算,直到各個樣本的隸屬度值穩(wěn)定:
用當(dāng)前聚類中心根據(jù)式(11)計算隸屬度函數(shù);
用當(dāng)前的隸屬度函數(shù)按式(12)更新計算各類聚類中心.
2.2 貝葉斯信息準(zhǔn)則(BIC)
貝葉斯信息準(zhǔn)則(Bayesian Information Criterion, BIC)用來決定最優(yōu)的聚類數(shù)目,因此可以用來決定語音端點檢測中的門限值[8,10].BIC模型的定義如下:
(13)
其中, 為數(shù)據(jù)特征集, 是模型參數(shù), 是數(shù)據(jù)X和模型 的似然函數(shù), 是模型 的參數(shù)個數(shù),N是數(shù)據(jù)個數(shù), 是懲罰因子.
根據(jù)BIC可知,最優(yōu)模型個數(shù)為最大化BIC值.假定語音和噪聲都服從高斯分布 模型,其中 為均值向量, 為協(xié)方差矩陣,則可以通過下式得到聚類數(shù)為C時的BIC值:
(14)
其中N為總的數(shù)據(jù)個數(shù), 為第i個聚類的數(shù)據(jù)個數(shù).d是特征空間的維數(shù).
對于語音端點檢測VAD,設(shè)定初始聚類個數(shù)C=2,最優(yōu)聚類數(shù) 可以通過如下判決:
(15)
2.3 門限估計算法與端點檢測
本文利用FCMC和BIC算法來估計LESE特征的門限值,并進行語音端點檢測,其算法步驟如下:
Step1:通過式(8)計算出每一幀的LESE特征.
Step2:通過FCMC算法對LESE特征進行聚類數(shù)目分別為C=1和C=2時的模糊聚類.
Step3:通過BIC算法中式(15)決定最優(yōu)聚類數(shù) .
Step4:
IF=1
通過Step2得其聚類中心為 ,則LESE特征門限的計算公式為:
(16)
(17)
其中, 為經(jīng)驗常數(shù).
ELSE
通過Step2得其聚類中心為 , ,估計的語音和背景噪聲的LESE特征為:
(18)
此時,LESE特征門限的計算公式為:
(19)
(20)
其中 為經(jīng)驗常數(shù).
Step5:由上面步驟得到LESE特征雙門限值進行語音端點檢測.雙門限語音端點檢測法見文獻[1].
3 實驗與分析
實驗語音采用TIMIT語音庫中450條連續(xù)英文語音,16KHz采樣頻率,16bit量化,單聲道wav語音格式.樣本加噪數(shù)據(jù)采用NOISEX 92標(biāo)準(zhǔn)噪聲庫,在white噪聲下,分別生成-5dB、0 dB、5 dB和10 dB的帶噪語音(共1800條).
基于上面的實驗語音環(huán)境,文中各個參數(shù)的取值分別如下:
由于語音信號在10~30ms時間內(nèi)具有短時平穩(wěn)性,不失一般性,本文取語音幀長為 16ms(每幀包含256個采樣點),幀移為8ms(每幀包含128個采樣點),F(xiàn)FT點數(shù)為256,門限估計參數(shù)為:
實驗比較對象為:文獻[6]提出的能量譜熵法(EE法)和文獻[7]提出的對數(shù)能量特征法(LE法),分別在不同信噪比的語音環(huán)境下進行端點檢測的比較.其實驗結(jié)果如表1所示,由于在連續(xù)語音下,不能完全準(zhǔn)確地的檢測出語音的起止點,比如輔音的漏檢以及噪聲的誤檢,從而不能依據(jù)一個錯誤而判定整個檢測失效,因此給出如下評價標(biāo)準(zhǔn):
漏檢率 (21)
虛檢率(22)
總誤檢率 = +(23)
其中 , 和 分別表示語音被誤檢為噪聲的幀數(shù),噪聲被誤檢為語音的幀數(shù)和總的語音幀數(shù).另外,圖4~圖6分別給出了EE法、LE法和LESE法在SNR=-5dB時的端點檢測圖,其語音取自于TIMIT語音庫中的一條連續(xù)語音.
從圖4~圖6可以看出,EE法和LE法在SNR=-5dB時,雖然能夠檢測出語音的位置,但是不能夠準(zhǔn)確的檢測出語音起止端點,其漏檢率要比LESE法明顯要高,從而說明LESE法具有更好的語音特征,能夠更好的區(qū)分語音和噪聲.同時從表1可知,LESE法在不同信噪比下,其漏檢率、虛檢率和總誤檢率均低于EE法和LE法.特別是當(dāng)SNR=-5dB時,LESE法檢測錯誤率僅為18.02%,在信噪比為0~10dB時,其檢測錯誤率要明顯低于EE法和LE法.從而可以得出結(jié)論,在低信噪比環(huán)境下,LESE法具有更好的檢測性能和穩(wěn)健性.
圖4EE法的端點檢測結(jié)果
Fig.4 VAD results by EE
圖5LE法的端點檢測結(jié)果
Fig.5 VAD results by LE
圖6LESE法的端點檢測結(jié)果
Fig.6 VAD results by LESE
4 結(jié)論
本文將一種新的對數(shù)能量特征和譜熵特征相結(jié)合,提出一種新的對數(shù)能量譜熵特征,并采用模糊C均值聚類算法和貝葉斯信息判決算法進行門限估計,并采用雙門限法進行語音端點檢測.實驗結(jié)果表明,相對于EE法和LE法,在連續(xù)語音下,其檢測錯誤率明顯低于前兩者,而且能夠準(zhǔn)確的檢測出語音的起始端點,在噪聲環(huán)境中表現(xiàn)出了很好的穩(wěn)健性,特別在低信噪比環(huán)境下,具有更好的檢測性能,這主要是對數(shù)能量譜熵結(jié)合了對數(shù)能量和譜熵各自的優(yōu)點,同時克服了各自的缺點,從而具有更優(yōu)的檢測性能,這說明多特征相結(jié)合的端點檢測方法是以后重要的研究方向.
參考文獻
[1]蔡蓮紅,黃德智,蔡銳. 現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M]. 北京:清華大學(xué)出版社, 2003:26-29.
CAI Lian-hong,HUANG De-zhi,CAI Rui. The foundation and application of modern speech technology[M]. Beijing: Tsinghua University Press, 2003:26-29. (In Chinese)
[2]胡光銳,韋曉東. 基于倒譜特征的帶噪語音端點檢測[J]. 電子學(xué)報, 2000, 28(10): 95-97.
HU Guang-rui,WEI Xiao-dong. Endpoint detection of noisy speech based on cepstum[J]. Acta Electronica Sinica, 2000,28(10):95-97. (In Chinese)
[3]SHEN J L,HUNG J W,LEE L S. Robust entropy-based endpoint detection for speech recognition in noisy environments [C]//Sydney ICSLP, Sydney, Australia, Nov-Dec 1998:232-235.
[4]ZHAO H, ZHAO L X, ZHAO K, et al. Voice activity detection based on distance entropy in noisy environment [C]//5th International Conference on Digital Content, Multimedia Technology and its Applications (IDC09), 2009: 1364-1367.
[5]樸春俊,馬靜霞,徐鵬. 帶噪語音端點檢測方法研究[J]. 計算機應(yīng)用,2006,26(11):2685-2686.
PIAO Chun-jun,MA Jing-xia,XU Peng. Study on noisy speech endpoint detection method[J]. Computer Application, 2006, 26(11): 2685-2686. (In Chinese)
[6]HUANG L S, YANG C H. A novel approach to robust speech endpoint detection in car environments[C]// ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing Proceedings,2000,(3):1751-1754.
[7]肖述才,王作英. 端點檢測中的一種新的對數(shù)能量特征[J]. 電聲技術(shù), 2004, (6):37-41.
XIAO Shu-cai,WANG Zuo-ying.A new logarithmic energy feature for endpoint detection[J]. Audio Engineering, 2004, (6):37-
41. (In Chinese)
[8]TIAN Y, WU J, WANG Z Y,et al. Fuzzy clustering and bayesian information criterion based threshold estimation for robust voice activity detection[C]// ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing Proceedings, 2003, (1):444-447.
[9]邊肇祺,張學(xué)工. 模式識別[M]. 北京:清華大學(xué)出版社,2000: 278-280.
BIAN Zhao-qi,ZHANG Xue-gong. Pattern Recognition [M]. Beijing: Tsinghua University Press,2000:278-280. (In Chinese)
[10]CHEN S S, GOPALAKRISHNAN P S. Clustering via the bayesian information criterion with applications in voice recognition[C]//ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing Proceedings,1998(1): 645-648.