曾金芳 徐文濤 黃費貞
(湘潭大學物理與光電工程學院 湖南省湘潭市 411105)
說話人識別又叫聲紋識別。說話人識別技術以其獨特的方便性、經濟性、準確性受到 了世人的矚目,被廣泛應用到信息安全領域、通信領域、司法領域和軍事領域[1]。說話人識別就是從說話人的一段語音中提取出說話人的個性特征,通過對這些個性特征的分析和識別,從而達到對說話人進行辨認的目的[2]。這些個性特征就是說話人識別重點研究的內容。
聲學特征主要有:線性預測系數(Lin- ear prediction cepstral coefficient, LPC C)、梅爾倒譜系數( Mel frequency cepstral coefficient, MFCC)[3]以及耳蝸倒譜系數(Cochlear filter cepstral coeffi- cients, CFCC)[4]等。最常用的MFCC 是根據人耳結構設計的三角濾波器組進行特征提取的,但在噪聲情況下的識別效果急劇下降[5]。CFCC特征提取方法并沒有考慮到人耳聽覺的神經元動作電位發放率與聲音強度的飽和關系特性,而這種關系特性推導出非線性冪函數可以近似于聽覺神經元[6]。通過對文獻[6]的算法實驗分析,發現其非線性冪函數參數調整為1/15 時,在說話人識別方面信噪比較高的情況下有較好的效果。為了提高低信噪比情況下說話人的識別率,本文將語音增強算法的維納濾波[7]加入前端處理。雖然增加了步驟,但總體上容易實現。
筆者在前人研究的基礎上,在說話人識別方面采用能夠模擬人耳聽覺特性的非線性冪函數提取新的耳蝸倒譜系(New Cochlear filter cepstral coeffici- ents,NCFCC),驗證NCFCC 特征對于CFCC的優勢和缺點,然后通過維納濾波來改進其缺點。
CFCC 是由貝爾實驗室的Li Q 在2011年首次提出的并應用于說話人識別的特征參數[4]。CFCC 特征參數提取方法如圖1 所示。
假設f(t)是一個原始的輸入語音信號,則耳蝸濾波器變換的函數可以定義為:

式中:a,b 為實數。

式中:α>0 和β>0,α,β 決定了ψ(t)的頻域形狀和寬度,α 和β的一般取經驗值為α=3、β=0.2。θ 為控制沖激響應的角度,它的取值應該滿足積分表達式:

μ(t)為單位步進函數,b 為隨時間可變的實數,a 為尺度變量,一般情況下可由濾波器的質心頻率fc和最低中心頻率fL決定:

圖1:CFCC 特征提取框圖

圖2:本文特征提取過程
