馬英+陳超+賈國慶



摘 要: 基音周期是語音信號的重要參數,提取藏語語音基音周期為藏語語音識別和藏語語音合成奠定很重要的基礎。這里在分析藏語發音特點的基礎上進行基于LPC的藏語語音基音周期提取算法的分析,實踐表明,該方法更加符合小信噪比藏語音信號基音周期和提取。在傳統LPC分析方法的基礎上結合自相關法和倒譜法,分析計算平均相對誤差,總結出了符合藏語語音特點的特征提取算法。
關鍵詞: LPC; 藏語語音; 基音周期; 倒譜法
中圖分類號: TN912?34 文獻標識碼: A 文章編號: 1004?373X(2015)16?0013?03
Analysis of Tibetan speech pitch detection based on LPC
MA Ying, CHEN Chao, JIA Guoqing
(School of Physics and Electronic Information Engineering, Qinghai University for Nationalities, Xining 810007, China)
Abstract: Pitch period is an important parameter of speech signal. It is an important foundation to extract Tibetan pitch period for speech recognition and synthesis of Tibetan language. The Tibetan speech pitch extraction algorithm based on LPC is analyzed based on the analysis on the characteristics of Tibetan language pronunciation. In combination with the autocorrelation method and cepstrum method based on traditional LPC analysis method, the average relative error is analyzed and calculated, and the feature extraction algorithm conforming to the phonetic characteristics of Tibetan is summed.
Keywords: LPC; Tibetan speech; pitch period; cepstrum method
語音信號特征參數有很多種,有基音周期,共振峰頻率,增益參數等,每一個特征參數都表征語音信號不同的信息,不同的語音信號有著不同的特征參數;因此,語音信號特征參數是語音識別,語音合成中的重要因素。在語音信號分析中,特征參數的提取是否準確決定著語音識別的識別率。然而不同的語音信號有著不同的特征參數提取方法,同種語言的不同方言在語音上相差懸殊,隨著語言環境的變化,系統性能會變得很差。因此文章針對青海安多藏語語音信號采用多種提取方法,通過比對,總結出符合藏語語音信號的基音周期提取算法。
1 藏語語音的基本特點
藏語語音發音機制有完整的理論體系,與現代語音學的理論是完全吻合的。藏語語音與西方語言有相似之處,其是一種拼寫語音的音素拼音語言,發音特點有自己獨特的規律。藏文有30個輔音字母,藏文的音節一般由1~6個字母組成,藏語主要有3大方言:衛藏、康巴、安多[1]。以拉薩為中心向西的高原大部分叫“衛藏”;念青唐古拉山至橫斷山以北的藏北,青海,甘南,川西北大草原叫“安多”;“康巴”位于橫斷山區的大山大河夾峙之中。在3大方言中,衛藏和康巴方言有聲調,大量鼻化元音和復元音,而安多方言沒有這些特點,安多藏語語音的重要特征就是聲母清濁音對立,復輔音較多,聲母數目比衛藏和康巴方言多,韻母系統都是單元音,沒有復元音韻母[2]。因此,安多方言藏語語音信號的特征參數與語音的發音部位、發音方法、發音動力和音勢的強弱等息息相關。
2 幾種算法存在的問題
在語音信號特征參數提取中有很多算法,經過多次實驗,對其中LPC法、自相關法和倒譜法進行分析。在實驗中,由于語音樣點之間存在相關性,LPC分析可以用過去的樣點值預測現在和未來的樣點值,而采用LPC方法提取藏語語音信號的特征參數,其算法的運算量較大,并且LPC分析中窗長的選擇不合適會影響語音信號特征參數提取的準確性;采用CEP分析方法,雖然可以減少算法的運算量,但CEP譜只有少部分情況下,基音峰值才會變得很突出,這也會使藏語語音基音周期估值的準確率下降;采用自相關法,如果窗長不足夠長,周期數不足夠多,提取特征參數會產生很大的誤差。因此通過多種方法對安多藏語語音信號進行多次的實驗,解決存在的相關問題,提高特征參數提取的準確性,并有效地應用于藏語語音識別中。
3 問題的解決
可以采用全極點模型,假設一個隨機過程用一個p 階全極點系統受白噪聲激勵產生的輸出來模擬,則傳輸函數為[3]:
[H(z)=S(z)E(z)=G1-k=1pakz-k] (1)
式中:P是預測系數;G 聲道濾波器增益;S(z)和E(z)分別為輸出s(n)信號和輸入信號e(n)的z變換,那么可以表示為差分方程[3]:
[s(n)=k=1paks(n-k)+G·e(n)] (2)
對于濁音,激勵e(n)是基音周期重復的單位沖激;對于清音,e(n)是穩衡白噪聲。定義線性預測器為[3]:
[s(n)=k=1paks(n-k)=G·e(n)] (3)endprint
式(2)表明預測誤差序列是s(n)通過具有如下系統函數產生的:
[A(z)=1-k=1pakz-k=G·EzS(z)] (4)
式中A(z)也被稱作逆濾波器。由式(4)可得:
[G·E(z)=S(z)·A(z)]
如果將原始語音通過逆濾波器A(z)進行逆濾波,則可獲得預測余量信號[ε(n)](理想情況下[ε(n)=G·e(n)])。理論上講,預測余量信號[ε(n)]中已不包含聲道響應信息,但卻包含完整的激勵信息。對預測余量信號[ε(n)]進行自相關分析、倒譜分析,將可獲得更為清晰的基音信息。
3.1 LPC?自相關法
對輸入藏語語音分幀加窗后,首先對分幀語音進行LPC分析,得到預測系數[ak]并由此構成逆濾波器A(z);然后將原分幀語音通過逆濾波器濾波,獲得預測余量信號[ε(n)];在對預測余量信號做低通濾波后,將所得信號作自相關變換。最終根據所得自相關函數中的基音信息檢測出藏語基音周期。LPC?自相關法[3]流程如圖1所示。
3.2 LPC?倒譜法
對輸入藏語語音分幀加窗后,首先對分幀語音進行LPC分析,得到預測系數[ak]并由此構成逆濾波器A(z);然后將原分幀語音通過逆濾波器濾波,獲得預測余量信號[ε(n)];在對預測余量信號做DFT、取對數后,將所得信號的高頻分量置零;最后將此信號作IDFT,得到原信號的倒譜。最終根據所得倒譜中的基音信息檢測出藏語基音周期。LPC?倒譜法[3]流程如圖2所示。
圖1 LPC?自相關法
圖2 LPC?倒譜法
4 實驗仿真
本文使用單項算法和組合算法進行基音周期檢測分析,基音周期分別使用自相關法、倒譜法、LPC?自相關法、LPC?倒譜法4種算法進行測試提取,采用一段藏族男生錄音,采樣頻率為16 kHz。原始語音信號時域波形見圖3。
圖3 原始藏語語音信號時域波形
5 結果分析
5.1 準基音周期的確定
圖4為一幀原始藏語語音信號s(n)的時域波形圖,從圖中可看出1幀信號包括3個完整的基音周期,且每個基音周期有細微差別,在此以3個基音周期的平均值作為實際語音的基音周期。[300-523=82.67],即基音周期為82.67個樣點值,則基音周期為82.67×[116]=5.168 75 ms。
圖4 一幀語音信號s(n)的時域波形
5.2 殘差信號與原始信號的比較分析
圖5中[ε(n)]為殘差信號,從圖中可看出s(n)的幅度是[ε(n)]幅度的約10倍,但它們的主體波形確有98%的相似,只是相位延時了4個樣點值。由此得殘差信號[ε(n)]的能量要比原信號s(n)的能量小的多,但殘差信號確為信號s(n)的激勵源。
圖5 語音信號的殘差信號[ε(n)]
5.3 自相關法與LPC?自相關法的比較分析
圖6為s(n)的自相關法檢測結果,將s(n)進行自相關變換得出。由圖可知P=84,即基音周期為84個樣點值,則基音周期為84×[116]=5.25 ms。
圖6 自相關法檢測分析
圖7為LPC?自相關法檢測,對s(n)的殘差信號[ε(n)]作自相關檢測獲得。由圖可知P=83, 即基音周期為83個樣點值,則基音周期為83×[116]=5.187 5 ms。由此可得s(n)殘差信號的自相關檢測結果要比s(n)的直接自相關檢測結果精確的多。
圖7 LPC?自相關法檢測分析
5.4 倒譜法與LPC?倒譜法的比較分析
圖8為s(n)的倒譜法檢測,對s(n)直接進行倒譜分析獲得。由圖可知P=84,即基音周期為84個樣點值,則基音周期為84×[116]=5.25 ms。
圖8 倒譜法檢測分析
圖9為LPC?倒譜法檢測, 即對s(n)的殘差信號[ε(n)]作倒譜分析獲得。由圖可知P=83, 即基音周期為83個樣點值,則基音周期為83×[116]=5.187 5 ms。
圖9 LPC?倒譜法檢測分析
由此可得s(n)殘差信號的倒譜分析結果要比s(n)的倒譜分析結果精確的多。
5.5 LPC?倒譜法與LPC?自相關法的比較分析
為進一步比較LPC?倒譜法與LPC?自相關法的性能,對藏語語音錄音進行50次實驗。使用2種算法進行基音提取,進行25次大信噪比藏語語音信號基音提取和25次小信噪比藏語語音信號基音提取,并計算平均相對誤差。實驗結果分別見表1和表2。
表1 大信噪比語音信號平均相對誤差
表2 小信噪比語音信號平均相對誤差
6 結 語
由以上分析可得,針對安多藏語語音信號基音周期的提取,LPC?倒譜法優于LPC?自相關法, LPC?倒譜法更加符合小信噪比藏語語音信號基音周期的提取,其頑健性更好,準確性更高,在今后的藏語語音識別中得到廣泛應用。
參考文獻
[1] 頓珠次仁.藏語語音信號降噪算法研究[J].西藏大學學報:自然科學版,2010,25(2):61?65.
[2] 敏生智,耿顯宗.安多藏語會話讀本[M].西寧:青海民族出版社,2003.
[3] 趙力.語音信號處理[M].北京:機械工業出版社,2007.
[4] 李洪波,于洪志.藏語語音識別的預處理研究[C]//中國中文信息學會二十五周年學術會議論文集.北京:中國中文信息學會,2006:135?137.
[5] 李勇,于洪志,達哇彭措.基于關聯規則的藏語語音韻律參數提取[J].微計算機信息,2009(6):255?257.
[6] 姚徐,李永宏,單廣榮,等.藏語孤立詞語音識別系統[J].西北民族大學學報:自然科學版,2009,30(1):29?36.