噪聲環境下話者識別系統的特征提取
王蕾
(南京信息職業技術學院,江蘇 南京 210046)
摘要:重點研究在噪聲環境下,話者識別中語音信號的特征提取。將能減化信號,消除較小分量而保留信號的基本特征的數學形態濾波器良好的濾波性應用在一維語音信號的處理中。并在噪聲環境下,應用線性預測的MFCC特征提取方法提高魯棒性。提取幾種重要的語音特征參數,包括線性預測倒譜系數、MEL倒譜系數、語音動態參數、激勵源特征等,對這些參數進行分析和比較,以達到話者識別的目的。
關鍵詞:數學形態;話者識別;特征提取;魯棒性
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2008)22-784-02
Pitch Extraction of Speech Signal Based on Mathematical Morphological Filter with the Yawp
WANG Lei
(Nanjing College of Information Technology, Nanjing 210046, China)
Abstract: Research emphatically the pitch extraction of speech signal with the yawp. Mathematical morphological filtering is a nonlinear transform to operate on shape of the signal, which can simplify the signal and eliminate some small components of the signal without corrupting shape of the signal. With the yawp, we use linear MFCC to improve robustness.Distill some important parameters of speech, including linearity forecast coefficient、MEL、speech dynamic parameter、prompting characters and so on. Analyzing and comparing these parameters, in order to distinguish from people.
Key words: mathematical morphological; speaker recognition; feature extraction; robustness
1 引言
話者識別,用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。在說話者識別系統中,提取反映說話者個性的語音信號特征參數是系統的關鍵問題之一。特征提取的任務是提取并選擇對說話人的聲音具有可分性強、穩定性高等特性的聲學或語言特征。與語音識別不同,話者識別的特征必須是“個性化”特征,而說話人識別的特征對說話人來講必須是“共性特征”。雖然目前大部分話者識別系統用的都是聲學層面的特征,但是表征一個人特點的特征應該是多層面的,包括:1)與人類的發音機制的解剖學結構有關的聲學特征(如頻譜、倒頻譜、共振峰、基音、反射系數等)、鼻音、帶深呼吸音、沙啞音、笑聲等;2)受社會經濟狀況、受教育水平、出生地等影響的語義、修辭、發音、言語習慣等;3)個人特點或受父母影響的韻律、節奏、速度、語調、音量等特征。話者識別可以應用的范圍很寬,可以說幾乎可以應用到人們日常生活的各個角落。比如銀行、證券;公安司法;軍隊和國防;保安和證件防偽等等。
文章主要介紹話者識別的特征提取,將數學形態學直接應用在語音信號的時域和頻域處理,并對基因周期特性的提取提出了新的算法。另外,針對當背景噪聲較高時,提出了基于線性預測的MFCC特征提取改善魯棒性。
2 數學形態濾波
數學形態濾波是一種關于信號形狀處理的非線性變換,信號的形狀信息可以通過選擇合適的結構元素采用數學形態學變換的方法進行提取和處理。它能簡化信號,消除較小分量而保留信號的基本形狀特征。選擇合理的數學形態濾波參數以及線性預測編碼參數LPCC能獲得準確的語音信號基音特征。
將得到的語音信號進行預處理,預處理中的濾波過程擬采用數學形態濾波器。傳統的自相關法求取基音特征時,由于每幀中采用了固定閾值進行削波,往往不能有效的刪除語音信號波形中的非主要分量,尤其在語音的音頭與音尾處,固定閾值的削波變得更為困難。為了解決這一問題,我們考慮用隨語音信號自適應變化的閾值削波來取代固定閾值的削波。
2.1 基于數學形態學的時域上的語音基音提取
原理圖如右圖1。
形態和:■
形態差:■
Dx是x(n)的定義域,B稱為結構元素,在語音信號處理中即為窗值。
形態開:■,形態閉:■ ,
形態開-閉:■ ,形態閉-開:■。
圖中,信號x(n)經過形態開-閉,形態閉-開后得到x1(n),x2(n),起到了自適應調節削波閾值的作用。因為數學形態濾波是一種關于信號形狀處理的非線性變換,可隨信號自適應改變,避免了采用了固定閾值進行削波不能有效的刪除語音信號波形中的非主要分量的缺點。
清/濁音檢測輸出一個開關信號控制削波器的工作狀態,為1時表明是濁音,削波器對語音信號進行正負向削波,隨后進行自相關和峰值檢測,得到基音周期;若輸出為0,則削波器不工作。因每個人的基因周期均不同,所以可以進行話者識別且濾波性良好。
2.2 數學形態濾波在頻域提取基音特征
原理圖如圖2:
■
圖2 數學形態濾波在頻域提取基音特征原理圖
g(k)是x(k)的形態殘差,對g(k)進行線性預測編碼得到的LPC譜對應于時域
f(k)不是完全的刪除波形中的最大峰和最低谷,而是對其進行有效的壓縮。因為形態開保持了波形的低谷但刪除了正峰、而形態閉則保持了波形的正峰但刪除低谷。其次,f(k)的取值不限于語音信號的波形值,而是語音信號波形的兩個形態濾波值的平均。
2.3 噪聲環境下基于線性預測的MFCC特征提取
目前的語音識別研究,一般只考慮實驗室或辦公環境條件下,而對于這種比較干凈的語音自動識別技術上已比較成熟,當環境噪聲較強時,如何減少噪聲對語音特征參數的干擾,是提高語音識別率的關鍵。
特征提取中常用的LPCC參數對噪聲的影響特別敏感,使得語音特征的分辨率大大降低,這就需要用基于線性預測的MFCC來消除語音對噪聲的干擾。
在LPC求出的功率譜的基礎上,經過線性譜減,減去噪聲的干擾,進行聽覺特性加窗,并進行Bark域重采樣,取對數,再進行離散余弦變換,求得抗噪能力好的MFCC倒譜系數。計算框圖如圖3所示:
■
圖3 計算框圖
該方法既利用了傳統MFCC模仿人耳對聲音的掩蔽功能的優點,又利用了當噪聲使語音頻譜畸變時,LPC將盡力與畸變得頻譜匹配的特點,消除噪聲對語音的干擾。
非線性Bark頻率:4
通過離散余弦變換計算MFCC
■
譜減法:
因為大多數噪聲短時平穩,我們利用頻域的譜減法以無語聲段為參考減去語音信號的加性干擾。線性譜減法如下:
■
|X(W)|、|N(W)|分別為含噪語音、背景噪聲的頻譜|S(W)|:經過噪聲消除后的語音頻譜。
3 實驗結果
將基于線性預測MFCC特征提取方法與其他的方法性能作比較,我們設計了一套識別系統。包括一臺微機,TMS320C30開發板,其上帶有一片TLC32044聲頻接口芯片和128K×32位零等待RAM,64K×32位雙端口RAM。采樣精度14位,頻率10KHZ,256點為一幀,幀間移位128點。在90dB噪聲環境下作測試,測試結果如下:
■
圖4 基于時域數學形態學方法對一段長時語音的基音檢測結果
圖5 傳統的自相關法對一段長時語音的基音檢測結果
4 結論
本文用數學形態濾波器構造的基因提取方案簡單、直觀、效率高,并由于其局部并行化運算易于硬件實現。實驗結果表明,對音頭、音尾的識別具有良好的譜平滑性能。對于噪聲環境較強時應用的基于線性預測的MFCC由結果可看出該方法具有較高的魯棒性。
參考文獻:
[1] 楊行峻,遲惠生.語音信號數字處理[M].北京:電子工業出版社,1995.
[2] 崔屹.圖像處理與分析——數學形態學方法與應用[M].北京:科學出版社,2000.
[3] 唐常青.數學形態學方法及其應用[M].北京:科學出版社,1990.
[4] Furui S. Digital speech processing, synthesis and recognition[M].Marcel Dekker,Inc,1998.
[5] Miller N J.Pitch detection by data reduction[J].IEEE ASSP-23,1975:72-79.
[6] Sondhi M M.New methods of pitch extraction[J].IEEE AU-16,1968:262-266.
[7] Bill J S.Acoustic-phonetic of Loud and Lombardspeech in the Fighter Cockpit Environment[J].proc.IEEE ICASSP'89:675-678.