摘要:該文提出一種改進的在基于Bloomfield模型語音檢測算法,該方法引入數值濾波器克服了BF模型固有的缺陷。通過實驗分析表明,該方法與傳統方法相比,提高了基音周期提取的準確性和分辨率,增強了清濁音判決的可靠性。
關鍵詞:布魯菲爾德模型;數值濾波;基音檢測;清濁音判決
中圖分類號:TN912文獻標識碼:A文章編號:1009-3044(2009)04-0964-02
A Modified Approach of Pitch Detection Based on Bloomfield Model
WANG Lei, YUE Zhen-jun
(Institute of Communications Engineering, PLA Univ. of Sci. Tech., Nanjing 210007, China)
Abstract: A Modified Approach of Pitch Detection Based on Bloomfield Model was proposed in this paper, and it introduced numerical filter to overcome the inherent flaws of the BF model. The experimental analysis show that the new method has better than that of conventional approach, it may provides a higher accuracy and resolution in speech detection, and improve the reliability of voiced/unvoiced decisions.
Key words: bloomfield model; numerical filter; pitch detection; voiced/unvoiced decision
1 引言
基音周期是語音信號的一個非常重要的特征參數,廣泛地應用于語音壓縮編碼、分析合成、語音識別等方面.濁音波形呈現一定的準周期性.濁音信號的周期稱為基音周期,基音周期的估計稱為基音檢測.基音檢測是語音信號處理中的一個非常重要的問題.但在實現過程中,由于受一系列因素影響,現有的方法在對對象和環境的適應性、準確性和可靠性方面都或多或少存在不足。
Bloomfield模型有著優良的譜估計特性,基于BF模型的基音檢測的方法較傳統的自相關法相比,提高清、濁音判決率,特別是在處理清、濁音過渡音段改善了基音軌跡,并且其算法簡單、實現容易。本文在文獻[1]的基礎上提出一種改進的基音檢測方法,在逆濾波器的前端引入數值濾波器,增強了濁音語音信號周期性,克服純BF模型無法改進基音半頻錯誤的缺點。仿真結果表明,與基于Bloomfield模型法相比,該方法提高了清、濁音判決率,對清、濁音過渡段的基音判別更為準確。
2 語音信號的BF模型[2]及其參數估計
設X1,X2,…,XN為某語音序列Xt的N個樣本,對它進行BF模型預測擬合,也就是估計參數γ1, γ2,…, γp,ρ2,當階p已知時,可計算出{Xj}1N的周期圖:
(1)
γj的估計為:
(2)
其中N0=[(N-1)/2],而ρ2的估計可取為:
(3)
其中0.57722為尤拉常數。如果p未知,則可以極小化:
(4)
極小點S0可作為階的一個估計。
3 改進的Bloomfield模型的基音檢測
首先對原始信號進行分幀等預處理。將處理后的各幀信號進一個800Hz的低通濾波器,濾波的語音信號,去除第三和第四個高頻共振峰及高頻噪聲,將低通濾波后信號送入數值濾波器,突出濁音語音信號的周期性。由短時自相關函數的定義可知,對于準周期信號,短時自相關函數在基音周期的各個整數倍點上有很大的峰值。再通過基于BF模型的逆濾波器,對信號進行自相關運算,求出每幀信號的自相關函數R(n),并找出除零點以外的自相關函數第一最大峰值點[3],該峰值所在位置即對應本幀信號的基音周期。然后對已經求出的自相關函數進行再次運算,求出Rmax/R(0),其中Rmax為自相關函數除零點外的峰值,根據判決準則得出清、濁判決結果。根據判決結果,若為濁音則輸出基音周期,若為清音則將基音周期置零輸出。圖1為基音檢測算法流程圖。
1)去均值處理:信號均值相當于一個直流分量,會在頻譜處出現一個沖激,并影響其左右的頻譜形狀,產生較大誤差。原始語音信號通常其均值μ不為零或附帶有低頻噪,必須去掉。
2)語音分幀:觀察時間縮短到十毫秒或幾十毫秒,語言信號認為是近似平穩的,這是由于人的發音器官不可能是毫無規律地快速變化的。每個短時的語音段稱為一個分析幀,對該分析幀進行處理就相當于對固定特性的持續語音進行處理。本文部分實驗中的幀長為30ms。分析幀既可以是連續的,也可以采用交疊分幀的方式,采用幀間交混疊是為了解決時域、頻域對幀長選擇的不同要求而采取的措施。
3)低通濾波:為減少高頻共振峰和外來高頻噪聲的影響,對去均值的語音信號進行800Hz低通濾波,這個低通濾波器可以去除大部分共振峰的影響,又可以當基音頻率為最高500Hz時,仍能保留其一二次諧波。依據雙線性變換法[4,5]設計的800Hz 5階橢圓低通濾波器傳遞函數為:
(5)
4)數值濾波的確定:傳統的BF模型在經過低通濾波器就直接級聯逆濾波器的,語音信號的共振峰結構并沒有被破壞,因而共振峰對于基音檢測的結果影響也沒有被減弱,所以對于處理信號中的倍頻、半頻現象沒有起到一定的抑制作用,產生了錯誤基音估計。實驗發現,若低通濾波器之后級聯一個寬度N=9的數值濾波器,第一共振峰幅度已衰減到小于一二次諧波幅度,因而去除了共振峰的影響。突出了濁音語音信號的周期性,使基音估計可靠。數值濾波器的傳遞函數為:
(6)
5)逆濾波器的確定:基于BF模型的基音檢測算法中的逆濾波器形式為:
(7)
其中,濾波器的系數ai為BF模型參數γ1…γp的變換形式,p為模型階。p確定時,該模型的參數γj,j=1…p對于特定的信號來說也是確定的。一般來說,逆濾波器的確定準則要求濾波器輸出與原信號的誤差平方和最小,實驗顯示階p為3時,其誤差平方和值最小。
由于BF模型構造的逆濾波器強化了濁音信號的周期性結構,經過該濾波器后的濁音部分的周期性更加規則,信號的阻尼正弦波形的包絡更加平滑,使得語音信號的周期性進一步增強,更有利于基音檢測
圖2—圖5實驗過程給出了一典型幀語音波形的比較,其中圖2為原始語音波形,圖3為去均值分幀后的一段語音信號的語音波形,圖4為低通濾波的語音波形。為方便觀察,選取一幀開始比較。圖5分別對數值,逆濾波從波形中可以看到,由經數值濾波后能夠很好地突出濁音信號的周期性結構,經過該濾波器后的濁音部分的周期性更加規則。Bloomfield模型構造的逆濾波器而的語音波形則顯現出了更強的周期性,信號的阻尼正弦波形的包絡更加平滑,使得語音信號的周期性進一步增強。
圖2 原始語音信號圖3 去均值分幀后的一段語音信號
圖4 低通濾波后的語音信號圖5經過數值和逆濾波后的波形
6)清濁音判決:濁音信號是一種穩定的準周期信號,輕音信號則沒有周期性,呈現出不規則狀態。本文沿用了文獻[6]的清、濁音判決方法,該方法不同于傳統的依賴于信號自身能量的判決方法,它注重濁音信號準周期性的特點,有效排除了沒有平穩結構的輕音部分,較為準確地。對弱濁音進行判決。另外該方法在對單個幀進行判決時客觀地參考了前后兩幀的判決結果,盡量減少由于偶然原因導致的清、濁音誤判現象。圖6為清、濁音判決算法的流程圖。
圖6 清、濁音判決算法 圖7 自相關函數的圖形
圖7為自相關函數的圖形,可以看出第一個峰值大約出現在49的滯后點。
4 實驗結論與評價
選取一段女聲語音。段語音包含明顯的清、濁過渡信號以及弱濁音信號,比較具有代表性。本文實驗所使用的語音是8 kHz抽樣率,16 bit量化精度,并按幀長30ms,取18000個樣點數,即每幀長240個樣本點。
與[1] 中基音檢測準確性和計算復雜度比較。基音檢測準確性由清濁音判決錯誤率(DER):錯誤判斷基頻存在與否的幀數在語音總幀數的百分比判定,計算復雜度由處理相同幀所用時間來度量。實驗選用了20講話人(男女各半)的語音樣本,標準基頻通過手工測量計算獲得。從表中可以看出,本文采用的基音檢測方法的清濁判決錯誤率DER遠小于傳統自相關法的錯誤判決率,這說明新方法判別信號周期性的性能更好。
從表1可以看出,較傳統的自相關法而言,利用新方法提取的基音頻率所合成的語音與原始語音的誤差值普遍較小,從而進一步證明了改進的基音檢測方法在檢測結果上比純BF方法有了一定程度的提高。而其計算復雜度要比原方法大,這也是其不足之處。
參考文獻:
[1] 趙小陽,李順華,岳振軍,等.基于Bloomfield 模型的基音檢測方法[J].軍事通信技術,2006,27(4):10-13.
[2] 岳振軍,曹祖平,陳浩球.一類無窮階線形時序模型[J].東南大學學報,1994,24(2):54-59.
[3] 趙曉群,劉穎娜,武睿.基于形態濾波的基音檢測新方法[J].通信學報,2004,25(5):53-58.
[4] Zverev A I. Handbook of Filter Synthesis[M]. New York:wiley,1967.
[5] Jackson L B. Digital Filters and Signal Processing[M].Springer,1986.
[6] Markel J D. The SIFT algorithm for fundamental frequency estimation[J]. IEEE Trans. Audio Electroacoust,1972,20(8):365-376.