韋國剛 周萍

【摘要】模仿者蓄意模仿說話人的語音,當相似度較高時,說話人識別系統就有可能被模仿者欺騙。語音特征參數作為說話人識別系統的關鍵組成部分,直接影響系統的性能。Mel系數是語音識別領域最成熟的特征參數之一,但是,MFCC特征參數在語音識別中對中、高頻段的識別精度較低。為了解決上述問題,融合Mid-MFCC和IMFCC,采用增減分量法,提出了MMI-MFCC特征參數。實驗結果表明,新的MMI-MFCC特征參數比傳統的MFCC特征參數更有效的區分模仿語音的相似度。
【關鍵詞】模仿語音;Mel系數;增減分量法;相似度
1.Mel及其相關特征參數
1.1 MFCC特征特征參數
作為一種能夠較好模擬人耳對聲音信號的特殊感知特性的特征,Mel頻率倒譜參數(MFCC)近年來被廣泛應用在語音識別領域,1Mel的意義對應為1000Hz音頻感知程度的1/1000。經研究,Steven B.Davis建立了符合人類聽覺特性Mel頻率,與實際頻率之間的對應關系如下:
(1)
公式(1)中,Mel頻率的單位是Mel,將語音信號頻率劃分成一個三角濾波器組——Mel濾波器組[1]。Mel尺度濾波器組各個濾波器在Hz頻率坐標軸上并非等距的,但在Mel頻率坐標軸上是等距的,各濾波器之間交叉重疊。用式(2)對Mel濾波器進行計算:
(2)
公式(2)中,M為濾波器組中濾波器的個數,一般。
MFCC參數[1][2]的算法流程圖如圖1所示,Mel濾波器組的作用主要在于將語音信號從Hz頻域空間映射到人耳感知的Mel頻域空間,使濾波器的空間尺度與人的聽覺感知尺度更加相近。
圖1 MFCC的提取流程圖
1.2 改進的Mel頻率倒譜系數
Sandipan在MFCC參數的基礎上,通過改變Hz-Mel頻率直接的非線性對應關系,研究設計出一種與Mel濾波器完全相反的I-Mel濾波器,提出了逆Mel頻率倒譜參數(IMFCC)。……