


摘 要:預處理過程在語音識別中起著至關重要的作用。對于藏語語音識別的預處理研究借鑒的是英語單音節的語音處理方法,在語音識別系統中正確的判定輸入語音的起點、終點對于提高識別率是非常重要的。在高信噪比情況下,濾除噪聲是很容易的,用短時能量幅度就可以獲得較好的檢測結果。但在低信噪比情況下要想有效的去噪就必須采用短時能量幅度和短時平均過零率結合的方法。這篇文章采用兩種方法的結合來處理藏語單音節,可以做到準確率較高的確認語音的端點,并能在低信噪比情況下濾除噪聲,識別清濁音。實驗證明了此種方法不僅正確,而且提高了檢測的準確度。
關鍵詞:語音識別;端點檢測;預處理
1 引言
端點檢測就是把給出的一段語音找出該信號的起點和終點。預處理在語音識別系統中起著至關重要的作用,決定著識別率的高低,其中端點檢測的作用是對不必要的噪聲直接除去,減少存儲空間,提高計算機運算的效率以及減少運算量。更重要的是端點檢測可以增加語音識別的精確度,對語音段噪聲進行特征識別,進而除去噪聲所占有的能量盡量確保語音識別過程不受噪聲的干擾。對于藏語語音的端點檢測采用傳統的方法即短時平均過零率和短時能量。在背景噪聲較小的情況下,短時能量比較準確,但當背景噪聲較大時,短時平均過零率可以獲得較好的檢測結果。因此一般的識別系統,其前端的端點檢測過程都是將這兩個參數結合用于檢測語音的。
2 語音系統中端點檢測的方法
語音信號是時域上的非平穩信號,所以處理平穩信號的數字信號處理技術是不能直接使用了。但是在一段較短時間范圍內(10ms-30ms)語音信號的特性基本相對穩定,即語音信號具有短時平穩性,也就是短時性。
2.1 預加重
(1)在處理不同的對象時,語音識別系統就會有相應的處理方法,語音信號的特性決定了處理方法和模式基本相同,因此對于所有藏語語音單音節的處理就具有了解決方案,本文以單音節‘’為例進行端點檢測。
首先確定語音信號的頻率范圍,一般的語音信號都在300-3400Hz之間,采樣過程取采樣頻率為8kHz,160個采樣點為一幀,80個采樣點為步長。對輸入的藏語單音節‘’的數字語音信號進行預加重,增加了高頻分辨率而且便于分析。本文采用傳遞函數為H(z)=1-αz-1的一階FIR高通數字濾波器來實現預加重,其中α為預加重系數,0.9<α<1.0。經預加重處理后的結果為
3 雙門限端點檢測
基于短時能量和短時過零率共同決定端點的方法,短時能量能分辨出清音和濁音,短時平均過零率能分辨出清音和靜音。一般的對參數設兩個門限值,設置的第一個低門限值用來粗略估計語音信號是否進入語音階段,第二個門限值則確定語音信號進入語音階段。
要通過多次實驗確定檢測的高低門限,根據當時的信噪比環境結合共同確定檢測的高低門限。信噪比的差異是由于語音的開始和結束由于時間上的差異造成的,所以門限選擇的復雜性也就產生了。
具體步驟是把一個語音信號分成四個階段:靜音、開始、過渡、結束四個階段。在編程過程中為了決定下一個是什么階段就設置一個量來辨別當下的狀態。整個過程是在靜音階段開始超過門限,則進入語音段,而后低于門限進入結束。判斷是以門限值為根據,最短語音作為輔助來提高整體精度。為了防止一些突發性的噪聲,我們設置的最短語音和最短靜音就可以起到很好的作用。
在MATLAB環境下雙門限語音端點檢測,對于語音信號的樣本,是采用麥克風采集的語音信號‘’,保存方式是以wav格式存儲。開始語音端點檢測之前,預處理采集到的語音信號,包括分幀,加窗等。本文用漢明窗,通過窗函數特性為(1-0.93Z-1)的濾波器進行預加重。而后設置參數,設置語音幀長,幀移,FFT,門限閥值設置等。在環境比較安靜的條件下采集語音,為了更加有效的得出仿真結果,加隨機幅度序列與原始語音信號匹配,這樣提高了噪聲信號的短時能量,以及過零率,基于短時能量和過零率的語音端點檢測結果如圖2所示,基本可以反映有效的檢測效果。如果加高斯白噪聲以降低信號的信噪比,得出的結果就不能夠進行有效的檢測了。
4 結語
語音端點檢測是語音識別中至關重要的部分,決定著識別的效果,而且減少了大量的計算。本文對于藏語語音的端點檢測算法進行了研究,選擇了兩種不同特征參數的算法,并在MATLAB下進行了仿真,其主要成果如下:
(1)首先進行了傳統的基于短時能量和過零率的語音端點算法研究,進行了實驗仿真。
(2)選擇了藏語單音節進行了研究,在不同噪聲的環境下進行了仿真實驗。
(3)根據同一語音信號分別在不同算法下進行了仿真實驗比較,評述了每一種端點檢測算法的優點和缺點。實驗證明藏語語音的端點檢測同樣可以得到很好的結果。
參考文獻
[1]胡光銳,韋曉東.基于倒譜特征的帶噪語音端點檢測[J].電子學報,2000,28(10):95-97.
[2]張仁志,崔慧娟.基于短時能量的語音端點檢測算法研究[J]. 電聲技術,2005(07):52-54.
[3]劉慶升,徐霄鵬,黃文浩.一種語音端點檢測方法的探究[J]. 計算機工程,2003,29(03):120-121.
[4]江官星,王建英.一種改進的檢測語音端點的方法[J].微計算機信息,2006(05S):138-139.
[5]陳玉忠,俞士汶.藏文信息處理技術的研究現狀與展望[J].中國藏學,2003(04).
[6]陳振標,徐波.基于子帶能量特征的最優化語音端點檢測算法研究[J].聲學學報,2005,30(02):171-176.
[7]劉華平,李昕,鄭宇等.一種改進的自適應子帶譜熵語音端點檢測方法[J].系統仿真學報, 2008,20(05):1366-1371.
[8]徐大為,吳邊,趙建偉等.一種噪聲環境下的實時語音端點檢測算法[J].計算機工程與應用,2003,39(01):115-117.
[9]劉曉明,覃勝,劉宗行等.語音端點檢測的仿真研究[J].系統仿真學報,2005,17(08):1974-1976.
[10]李曄,張仁智,崔慧娟等.低信噪比下基于譜熵的語音端點檢測算法[J].a(a+1),2005(10):1.
[11]嚴劍峰,付宇卓.一種新的基于信息熵的帶噪語音端點檢測方法[J].計算機仿真,2006,22(11):117-119.
[12]朱淑琴,裘雪紅.一種精確檢測語音端點的方法[J].計算機仿真,2005,22(03):214-216.
[13]陳四根,和應民.一種基于信息熵的語音端點檢測方法[J].應用科技,2001,28(03):13-14.
[14]張德祥,吳小培,呂釗等.基于經驗模態分解和 Teager 峭度的語音端點檢測[J].儀器儀表學報,2010(03):493-499.
[15]王博,郭英,韓立峰.基于熵函數的語音端點檢測算法研究[J].信號處理,2009,25(03):368-373.