摘要說話人識別技術是根據待識別人的語音與預先提取的說話人語音特征是否相匹配來鑒別說話人身份的一種生物認證技術,具有廣泛的應用前景。本文重點研究了說話人特征參數的提取問題,在前人工作的基礎上,提出了在噪聲環境中更為有效的組合特征參數提取方法。
中圖分類號:TN91文獻標識碼:A
0 引言
說話人識別技術是根據待識別人的語音與預先提取的說話人語音特征是否相匹配來鑒別說話人身份的一種生物認證技術。小波分析能同時在時、頻域中對信號進行分析,有自動變焦的功能,將小波技術應用于說話人識別對提高在噪聲環境下的說話人識別率有很大的改進。本文試圖在小波變換的基礎上尋找具有強抗噪性能的組合特征參數,以提高噪聲環境下系統的識別性能。
1 小波變換原理
如果函數,并且滿足允許性條件(完全重構條件或恒等分辨條件):
公式(1)
則稱(t)是一個基本小波或母小波(Mother Wavelet),(t)定下來后,通過母函數的伸縮(Dilation)和平移(Translation)后得:
公式(2)
上式稱為一個小波序列。其中a為伸縮因子,b為平移因子。
對于任意的函數f(t)在L2(R)上的連續小波變換定義為:
公式(3)
其重構公式(逆變換)為:
公式(4)
連續小波變換主要用于理論分析方面,在實際運用中,尤其是在計算機上實現,離散小波變換更適于計算機處理,因此,連續小波必須加以離散化。離散小波定義為:
公式(5)
離散化小波變換系數可表示為:
公式(6)
其重構公式為:
公式(7)
其中,C是一個與信號無關的常數。
2 基于小波變換的組合特征提取
2.1 思路分析
目前,小波分析己經成功地應用于語音編碼、端點檢測、基音周期提取等方面,但在說話人識別技術中,用小波分析來提取特征參數還處于研究階段。研究表明,直接小波系數作為特征參數,其識別率較低,但具有較好抗噪聲性能,因此難點主要在于如何把直接小波系數轉化為代表說話人個性特征的參數。
2.2 改進的組合特征參數提取方法
組合特征參數提取:
方案一:分別對低頻部分進行m階的LPCC特征參數提取,對高頻部分進行n階的△LPCC特征參數提取。
方案二:分別對低頻部分進行m階的MFCC特征參數提取,對高頻部分進行n階的△MFCC特征參數提取。
實驗證明,文中LPCC和△LPCC的階數取12,MFCC和△MFCC的階數取16時識別效果較好。則此時特征參數空間維數為84。低頻部分特征參數的權重取1,高頻部分特征參數的權重取2。將以上提取的組合特征參數組成特征向量供DTW或VQ識別模型進行識別。
3 改進的組合特征參數說話人辨認實驗
在相對安靜的教室環境下采集這40個說話人的語音,每人念一段10秒鐘的報紙材料一作為系統模板的訓練。再次采集這40個人的語音,測試樣本一的語音內容為10秒鐘的報紙材料一,測試樣本二的語音內容為10秒鐘的報紙材料二,材料一和材料二屬于不同的段落,內容不同,漢字重復率隨機。
為了驗證本文提出的組合特征參數的有效性,下面進行兩組實驗:
實驗A:進行文本相關的說話人辨認實驗。將采集的測試數據一分別輸入DTW和VQ說話人識別系統進行識別。
實驗B:進行文本無關的說話人辨認實驗。將采集的測試數據二分別輸入DTW和VQ說話人識別系統進行識別。
(注:語音相對干凈,未加入噪聲,為了形成對比,傳統特征參數采用MFCC+△MFCC。)
實驗數據如下所示:
(1)從實驗A和實驗B的實驗數據可以看出,在干凈語音環境下,進行文本相關的說話人辨認實驗時,應用傳統的特征參數提取方法和本文提出的組合特征參數提取方法都能得到較高的識別率;在進行文本無關的說話人辨認實驗時識別率較低,原因可能是所念報紙材料文字隨機性太大,文字過多,加上測試者較多,在不同的語音速率和相似的聲道特點下,就極有可能增加誤識率,但從總體上說也達到了識別目的。
(2)本文提出的組合特征參數提取方案可以達到較好的識別效果?;贒TW模型的識別率低于基于VQ模型的識別率,這和傳統特征提取方法得出來的結論是一致的,主要原因在于基于DTW的識別算法過分依賴于端點檢測,而端點檢測的精度會隨著語音的音素不同而不同;其次,本文采用的是傳統的端點檢測方法,即將語音信號的短時能量與過零率相結合的方法。此法較易發生漏檢或虛檢的情況,因此影響了該系統的識別率。
(3)值得一提的是,由于本文的組合特征參數是在小波分解的基礎上對小波系數進行提取的,維數較多,輸入識別模型的特征向量過多,加上本實驗的電腦配置較低,這在一定程度上影響了識別時間,造成識別時間過長。
4 小結
說話人識別系統的性能在噪聲環境下的識別性能明顯降低,本文提出的組合特征參數在噪聲環境中能有效改善這一缺點,在噪聲環境下比傳統特征參數更魯棒,對于自然環境條件下的說話人識別來說也有一定的研究意義。
參考文獻
[1]Woo S Ch, Lim Ch P,Osman R. Development of a speaker recognition system.using wavelets and artificial neural networks. Processings of 2001 International. Symposium on Intelligent, Multimedia, Video and Speech Processing,2001.2-4:413-416.
[2]Kinney A, Stevens J. Wavelet packet cepstral.Conference Record of the Thirty-Sixth Asilomar and Computers, analysis for speaker recognition.Conference on Signals, Systems 2002.1(3-6):206-209.
[3]劉鳴,戴蓓倩,李輝等.基于離散小波變換和感知頻域濾波的語音特征參數.電路與系統學報,2000.5(1):21-25.