王景芳,寧礦鳳
WANG Jingfang1,NING Kuangfeng2
1.湖南涉外經濟學院 電氣工程系,長沙 410205
2.湖南涉外經濟學院 計算機科學系,長沙 410205
1.Electric Engineering Department,Hunan International Economics University,Changsha 410205,China
2.Computer Science Department,Hunan International Economics University,Changsha 410205,China
語音作為語言的聲學表現,是聽覺器官對外界聲音傳播介質機械振動的感知,是人類信息傳遞和情感交流的重要載體。目前,語音處理技術要求語音輸入在安靜的環境下進行,當周圍環境有噪聲(如工廠、機場等)時,系統性能會急劇下降。然而,語音通信過程不可避免地受到來自周圍環境、傳播介質等噪聲的影響。語音端點檢測是數字語音處理的重要環節[1-5],其目的是從采樣得到的數字信號中檢測出語音信號段和噪聲信號段。將采集的語音信號分為純噪聲段和帶噪語音段,判斷各語音片段的起止點,是語音增強算法和語音編碼的重要組成部分之一。在語音識別過程中,正確確定語音段的起止端點,可減少計算量和語音識別誤判率。
短時能量是語音端點檢測算法中最常用的特征[6],它在高信噪比環境中可以有效地分出語音和噪聲,但是大量的實驗結果顯示,基于短時能量的方法在低信噪比和非平穩噪聲環境中,其性能明顯下降。當然,部分算法在低信噪比環境中可以保持穩定的性能[7]。其缺點是計算復雜度太大,不適合實時語音識別系統的應用。Shen[8]最早提出將信息熵用于語音/噪聲分類,人的發音和噪聲的差異可以從它們的頻譜熵表現出來。基于語音頻譜熵的算法在低信噪比環境下勝過基于能量的方法。在白噪聲效果較好,但在有色噪聲還是難以奏效。
在語音增強方面利用過信號子空間[9-12];本文針對在低信噪比、非平穩噪聲條件下難以實現語音端點檢測,提出了一種基于Toeplitz最大特征值的去噪語音端點檢測方法。該方法用相語帶頻譜自相關序列構造一個對稱Toeplitz矩陣,利用該矩陣最大特征值的信息量對語音信號進行雙門限端點檢測。該算法大大提高了算法的檢測精度與有效性,能在多種噪聲環境和低信噪比條件中都能保持較好的檢測性能。
語音信號從整體來看其特性及表征其本質特征的參數均是隨時間而變化的,是一個典型的非平穩過程,但在一個短時間段內(10~30 ms),其特性相對保持穩定,因而可以看做是一個準平穩過程,即語音信號的短時平穩性。目前絕大多數的語音信號處理技術均是在“短時”的基礎上,將語音信號分為許多段來逐段分析其特征參數,其中每一段稱為一“幀”,分段的過程稱為“分幀”處理,通過對語音信號加窗函數來實現,幀長一般取10~30 ms。分幀可以連續分段,但一般是通過一個滑動窗口進行交疊式分段,這樣使幀與幀之間平滑過渡,保持了信號的連續性。在窗函數的選取上,為了能夠得到高的頻率分辨率并克服Gibbs現象,選取漢寧(Hanning)窗交疊式分段。
對帶噪語音信號x(n)進行分幀,幀長FrameLen,幀移StepLen(StepLen<FrameLen),總幀數Num,若第k幀的信號經過快速傅里葉變換(FFT)得到它在譜上的NFFT個點YF(i,k)(0≤i≤NFFT),因語音頻譜范圍(200 Hz~4 kHz),找其對應的點區間 [Nd,Ng]點 (0≤Nd<Ng≤NFFT),記 L=Ng-Nd+1,LM=L/2為Toeplitz矩陣大小;Xk(i)=YF(i+Ng-1,k)(1≤i≤L)。
第k幀語帶頻譜自相關序列R(m):

構造LM維實對稱Toeplitz矩陣A:

這樣Toeplitz矩陣階數不高,求特征值速度快。
冪法是求方陣的最大特征值及對應特征向量的一種迭代法。設 An有n個線性相關的特征向量v1,v2,…,vn,對應的特征值 λ1,λ2,…,λn,滿足:

3.1.1 基本思想
因為{v1,v2,…,vn}為 Cn的一組基,所以任給 x(0)≠0 ,

若 a1≠0,則知,當 k充分大時 A(k)x(0)≈λk1a1v1=c v1屬λ1的特征向量。
另一方面,記max(x)=xi,其中|xi|=||x||∞,則當 k充分大時:

若a1=0,則因舍入誤差的影響,會有某次迭代向量在v1方向上的分量不為0,迭代下去可求得λ1及對應特征向量的近似值。
3.1.2 規范化
在 實 際 計 算 中 ,若 |λ1|> 1 則 |λk1a1|→ ∞ ,若 |λ1|< 1 則

注:若A的特征值不滿足條件式(3),冪法收斂性的分析較復雜,但若 λ1=λ2= … =λr且 |λ1|>|λr+1|≥ … ≥|λn|則定理結論仍成立。此時不同初始向量的迭代向量序列一般趨向于l1的不同特征向量。
求解一個最大特征值,在這里用冪法,這樣避免求特征值中出現矩陣分解或求逆矩陣計算。其實現步驟:
(1)賦初值:LM維列向量 y=[1,1,…,1]H,H為轉置;LM維列向量 y0=[0,0,…,0]H;循環判決條件eps=0.000 1(一個較小數),d=1。
(2)矩陣計算:z=A y。
(3)歸一化:

其中 ||z||∞=max{|z(i)|,i=1,2,…,LM}。
(4)計算:d=max{|y(i)-y0(i)|,i=1,2,…,LM},保留上一次的 y,y0=y。
(5)循環判決:如果 d>eps轉第(2)步,否則轉第(6)步。
(6)計算最大特征值:

(7)保留第k幀最大特征值信息量:

為了防止各幀最大特征值信息量Tzv出現鋸齒形波動,將Tzv相鄰3幀平均濾波。雙門限語音端點判別:
步驟1認定初始的N0幀為噪聲幀,對Tzv(l)(0<l≤N0)求均值Avg與標準方差Std。定義雙門限語音幀閾值TS和噪聲幀閾值TN分別為:

步驟2計算下一幀語音信號最大特征值信息量Tzv(l)。當前一幀為噪聲幀,則和閾值TS比較,小于TS則判定為噪聲幀,大于TS則為語音幀。當前一幀為語音幀,則和閾值TN比較,小于TN則為噪聲幀,大于TN則為語音幀。循環步驟2至信號采樣結束。
α、β 可選取在(0,4)之間,不同噪聲選取不同值;語音段至少有一定的延續段,比如持續0.2 s;若檢測到語音段小于它,則稱為“語音碎片”(在非高斯噪聲[如:工廠噪聲(factory)、嘈雜噪聲(babble)]下常見),最后對孤立“語音碎片”剔除或對相鄰“語音碎片”整合。

圖1 原語音與混合不同噪聲(SNR=5 dB)的端點檢測對比
背景噪聲選自Noisex-92數據庫[13],它的采樣頻率 fs=19.98 kHz。以同樣的采樣頻率 fs,在計算機噪聲與室內噪音環境錄下“語、音、端、點”音見圖1(a),門框折線為本文方法端點檢測結果。在語音分幀過程中,每幀取25 ms,即幀長 FrameLen=[0.025 fs]點,幀移[FrameLan/4],確定每幀的快速傅里葉變換(FFT)長度取它等于幀長FrameLen,截取開始噪聲幀N0=20。
將原語音、原語音與噪聲Noisex-92庫中的噪聲——白噪聲(white)、粉色噪聲(pink)、戰機噪聲(f16_cockpit)、人嘈雜噪聲(babble)用本文Toeplitz矩陣最大特征值法進行端點檢測,在信噪比SNR=5 dB、0 dB、-5 dB時,用本文算法與信號遞歸度分析法[14]對比檢測結果分別列圖1~3。圖中左部的橫坐標為時間(s)、縱坐標為幅度;中部的橫坐標為幀數、縱坐標為Toeplitz矩陣最大特征值信息量(dB);右部的橫坐標為幀數、縱坐標為遞歸度(%)。圖1~3的左部為語音、混有不同噪聲的語音及它們的端點檢測,圖中部為本文算法的Toeplitz矩陣最大特征值信息量與端點分割線;本文算法在多種噪聲混合情況下,Toeplitz矩陣最大特征值信息量曲線變化不大,語音端點分割準確,自適應性好。
在混有噪聲的低信噪比情形下測試,測試結果由3個指標衡量[15]:

其中,N1和N0分別為測試語音中手工標記語音幀和噪聲幀總個數,N1,0為手工標記語音幀而識別為噪聲幀的錯誤個數,N0,1為手工標記噪聲幀而識別為語音幀的錯誤個數。則P(A/S)為語音幀檢測正確率,P(A/N)為非語音幀檢測正確率,P(A)為總的檢測正確率。
表1給出不同噪聲不同信噪比環境下的兩種方法實驗結果的簡表。

圖2 原語音與混合不同噪聲(SNR=0 dB)的端點檢測對比

圖3 原語音與混合不同噪聲(SNR=-5 dB)的端點檢測對比

表1 語音端點檢測實驗結果
文中從新視覺角度提出了一種基于Toeplitz最大特征值的含噪語音端點魯棒檢測的新方法,本方法用語帶頻譜范圍(200 Hz~4 kHz)自相關序列構造一個對稱Toeplitz矩陣,利用該矩陣最大特征值的信息量對語音信號進行雙門限端點檢測。用最大特征值抽提主體信號,更好地抑制了噪聲。在信噪比低于5 dB時,一般的語音端點檢測方法,如短時譜估計,顯得幾乎無能為力;該算法仍實用,它具有計算簡單,抗噪聲能力強的特點,并通過實驗表明該方法的正確性,還具有很好的魯棒性;本文算法通用性好,適應環境寬。特別是噪聲混疊在低、高頻段的含噪語音檢測甚佳,噪聲混疊在語音帶頻段的情形值得進一步改進。
[1]Raj B,Singh R.Classifier-based non-linear projection for adaptive endpointing of continuous speech[J].Computer Speech and Language,2003,17:5-26.
[2]Tanyer S G,Ozer H.Voice activity detection in nonstationary noise[J].IEEE Transactions on Speech and Audio Processing,2000,8(4):478-482.
[3]Karray L,Martin A.Towards improving speech detection robustness for speech recognition in adverse conditions[J].Speech Communication,2003,40:261-276.
[4]Kuroiwa S,Naito M,Yamamoto S,et al.Robust speech detection method for telephone speech recognition system[J].Speech Communication,1999,27:135-148.
[5]Ramirez J,Segura J C,Benitez C,et al.Efficient voice activity detection algorithms using long-term speech information[J].Speech Communication,2004,42:271-287.
[6]Ramirze J,Segura J C,Benitez C,et al.An efective subband OSF-based VAD with noise reduction for robust speech recognition[J].IEEE Transactions on Speech and Audio Processing,2005,13(6):1119-1129.
[7]Nemer E,Goubran R,Mahmoud S.Robust voice activity detection using higher-order statistics in the LPC residual domain[J].IEEE Transactions on Speech and Audio Processing,2001,9(3):217-231.
[8]Shen J,Hung J,Lee L.Robust entropy-based endpoint detection for speech recognition in noisy environments[C]//Proc of International Conference on Spoken Language Processing,Sydney,Australia,1998:232-238.
[9]Ephraim Y,van Trees H L.A signal subspace approach for speech enhancement[J].IEEE Trans on Speech Audio Processing,1995,3(4):251-266.
[10]Klein M,Kabal P.Signal subspace speech enhancement with perceptual post filtering[C]//IEEE-ICASSP’02,Orlando,Florida,USA,2002:537-540.
[11]Mittal U,Phamdo N.Signal/noise KLT based approach for enhancing speech degraded by colored noise[J].IEEE Trans on Speech Audio Processing,2000,8:159-167.
[12]Yi H,Loizou P C.A generalized subspace approach for enhancing speech corrupted by colored noise[J].IEEE Trans on Speech and Audio Processing,2003,11(4).
[13]Spib noise data[EB/OL].[2011-10-20].http://spib.rice.edu/spib/select_noise.html.
[14]閆潤強,朱貽盛.基于信號遞歸度分析的語音端點檢測方法[J].通信學報,2007(1):35-39.
[15]Marzinzik M,Kollmeier B.Speech pause detection for noise spectrum estimation by tracking power envelope dynamics[J].IEEE Trans on Speech and Audio Processing,2002,10:109-118.
[16]李晉,王景芳,高金定.基于經驗模態分解和遞歸圖的語音端點檢測算法[J].計算機工程與應用,2010,46(34):132-135.
[17]王景芳.實時語音端點魯棒檢測[J].計算機工程與應用,2011,47(20):147-149.