基于Mel系數的特征參數在模仿語音中的應用研究

2014-10-21 20:04:55韋國剛周萍

電子世界 2014年6期

韋國剛周萍

【摘要】模仿者蓄意模仿說話人的語音，當相似度較高時，說話人識別系統就有可能被模仿者欺騙。語音特征參數作為說話人識別系統的關鍵組成部分，直接影響系統的性能。Mel系數是語音識別領域最成熟的特征參數之一，但是，MFCC特征參數在語音識別中對中、高頻段的識別精度較低。為了解決上述問題，融合Mid-MFCC和IMFCC，采用增減分量法，提出了MMI-MFCC特征參數。實驗結果表明，新的MMI-MFCC特征參數比傳統的MFCC特征參數更有效的區分模仿語音的相似度。

【關鍵詞】模仿語音;Mel系數;增減分量法;相似度

1.Mel及其相關特征參數

1.1 MFCC特征特征參數

作為一種能夠較好模擬人耳對聲音信號的特殊感知特性的特征，Mel頻率倒譜參數（MFCC）近年來被廣泛應用在語音識別領域，1Mel的意義對應為1000Hz音頻感知程度的1/1000。經研究，Steven B.Davis建立了符合人類聽覺特性Mel頻率，與實際頻率之間的對應關系如下：

（1）

公式（1）中，Mel頻率的單位是Mel，將語音信號頻率劃分成一個三角濾波器組——Mel濾波器組[1]。Mel尺度濾波器組各個濾波器在Hz頻率坐標軸上并非等距的，但在Mel頻率坐標軸上是等距的，各濾波器之間交叉重疊。用式（2）對Mel濾波器進行計算：

（2）

公式（2）中，M為濾波器組中濾波器的個數，一般。

MFCC參數[1][2]的算法流程圖如圖1所示，Mel濾波器組的作用主要在于將語音信號從Hz頻域空間映射到人耳感知的Mel頻域空間，使濾波器的空間尺度與人的聽覺感知尺度更加相近。

圖1 MFCC的提取流程圖

1.2 改進的Mel頻率倒譜系數

Sandipan在MFCC參數的基礎上，通過改變Hz-Mel頻率直接的非線性對應關系，研究設計出一種與Mel濾波器完全相反的I-Mel濾波器，提出了逆Mel頻率倒譜參數（IMFCC）。……

登錄APP查看全文

電子世界 2014年6期

電子世界的其它文章: 淺談信息化測繪體系的定位與框架; 電梯制動器電氣控制及檢驗問題探討; 基于.NET高職學院科研管理系統的開發與實現; 提升C語言教學質量的策略探討; 新時期信息技術課的學習興趣培養; 超聲波液位計在化工生產應用中的常見故障分析