曾以成, 陳雨鶯, 毛燕湖, 謝小娟
(湘潭大學 物理與光電工程學院,湖南 湘潭 411105)
基于經驗模態分解結合傅氏變換與Wigner分布的Mel頻率倒譜系數提取*
曾以成*, 陳雨鶯, 毛燕湖, 謝小娟
(湘潭大學 物理與光電工程學院,湖南 湘潭 411105)
根據語音信號的非平穩特點,用經驗模態分解方法把語音信號分解成一系列固有模態函數(Intrinsic Mode Function,IMF),一個IMF只含有語音信號的一部分信息,不同IMF分量攜帶的特征信息不同,對這些IMFs進行加權處理,得到新的語音,再對其進行后續處理.Wigner-Ville分布能精確地定位信號的時頻結構,而傳統傅氏變換不能反映信號的瞬時變化情況,但多分量信號的Wigner-Ville分布受困于交叉項的干擾,因此利用Wigner-Ville分布的優點,采用Wigner-Ville譜與傅氏譜結合來代替單獨的傅氏譜作為每幀的特征,進行Mel頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)提取.實驗表明,經改進后的MFCC參數較傳統的MFCC參數應用于說話人識別系統,識別率有較大提升,且魯棒性較好.
經驗模態分解;Wigner-Ville譜;傅氏變換;Mel頻率倒譜系數
語音信號是復雜的非平穩信號,但短時平穩,包含語義、個人特征、情感等特征信息,不同特征信息需用不同的特征參數表征,所以,特征參數的提取是語音信號處理的一個關鍵步驟.常見的反映個性特征信息的特征參數有:基音周期、線性預測參數、線譜對參數(Line Spectrum Pair,LSP)、梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)以及口音敏感參數(Accent Sensitive Cepstrum Coefficient,ASCC)等.MFCC考慮了人耳的聽覺特性,將頻譜轉化為基于Mel頻率的非線性頻譜,然后轉換到倒譜域上.因沒有任何前提假設,MFCC參數具有良……