摘要:如何能夠快速準確的實現說話人識別是說話人識別研究的一個重要環節。提出雙約簡GMM的說話人確認方法,對語音參數進行核K-均值聚類,提取聚類中心的語音特征矢量作為訓練數據,并對其進行fisher比約簡,提取具有區分力強的維數。實驗表明該文提取方法可以減少訓練時間,并提高系統的魯棒性。
關鍵詞:高斯混合模型GMM;fisher比;核K-均值聚類;說話人辨識
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2008)36-2902-02
Speaker Identification based on Two-reduced GMM
LIU Xue-yan1,YUAN Bao-ling1,ZHANG Na2
(Department of Information Engineering,Zhongshan Torch Polytechnic,Zhongshan 528436, China;2. Army 68026, Team 57,Lanzhou 730050,China)
Abstract: It is important link on the speaker recognition study that how to achieve fast and accurate speech recognition. This paper proposes two-reduced speaker recognition. Firstly, the training data are selected at center of each cluster to train GMM by using K-means clustering; Secondly, speech feature dimensions are reduced by using Fisher discriminate criterion transform. The experiment results show that the training time can be reduced remarkably by using our method, and the system has better robustness.
Key words: gaussian mixture model (GMM);F-Ratio; K-means clustering;speaker identification
1 引言
說話人識別技術包括說話人確認和說話人辨識兩大方向,說話人辨識就是通過語音判別當前說話人是誰的技術。在文本無關的說話人識別中常用的方法有基于貝葉斯判決的分類器(GMM[1,2]、HMM[3]),基于GMM說話人識別方法,由于采用了概率統計方法,更能描述語音的統計分布特征,是目前應用的最成功的說話人識別方法。
本文構建了基于核K-均值聚類和fisher比約簡的GMM說話人識別系統,對語音參數進行核K-均值聚 [4],選取聚類中心的語音特征矢量作為fisher[5]的輸入,從而達到雙約簡的目的,減少GMM的訓練量。并提高系統的魯棒性。
2 高斯混合模型
高斯混合模型(GMM)的核心思想是用多個高斯分布的概率密度函數的組合來描述特征矢量在概率空間的分布狀況。用在說話人識別中時,每個說話人對應一個GMM[6]。
高斯混合模型用多個具有高斯分布的概率密度函數的加權和來表示,該概率密度函數的個數稱之為高斯模型的混合數。一個具有M個混合數的d維GMM,可以表示為:
其中:x-d維觀察矢量;
wi——混合權重,且滿足
——d維高斯函數,表示GMM模型的第i個高斯分量;
ui——該高斯分量的均值矢量;
Σi——協方差矩陣。
整個高斯混合模型(GMM)由各混合分量的均值矢量、協方差矩陣以及混合權重來描述,用λ來表示該模型:
訓練的目的就是要找到一組參數λ,使得p(X/λ)最大,即:
3 多約簡方法
在高斯模型訓練中。需要不斷的調整 ,使其滿足條件,這樣每增加一個語音特征矢量,所有的 都要從新訓練一次,故訓練量很大,時間花費也很大。本文提出多約簡的方法,減少GMM的訓練量,提高GMM的識別率。先對提取的語音特征矢量進行核K-均值聚類,提取聚類中心作為訓練GMM的特征矢量,從而減少訓練數量。然后用fisher比約簡特征矢量的維數,根據fisher比約簡,只選擇分類能力比較強的維數,且噪音特征的fisher比基本趨于零,增強了系統的魯棒性,提高了GMM的識別率。
3.1 核K-均值聚類
假設訓練語音信號有N段語音S1(n),S2(n),…,SN(n)組成,包含了同一個說話人不同發音以及語音韻律等特征,對其進行去噪,去凈音,合成一個完全有語音數據組成的語音信號Sn,對S(n)分幀、短時分析,提取特征參數采用,本文采用12維MFCC及其一節導數,得到一個總特征矢量序列(mi,?坌i),對mi進行非線性映射?準:Rn→F,mi→?準(mi),將特征矢量mi映射到高維空間F。引入Mercer核概念,在高維空間里兩個特征矢量之間的Euclidean距離為:
(1)
引入Mercer核:
則兩個特征矢量之間的Euclidean距離為:
(2)
進行聚類:
1) 選擇初始聚類中心 (?準(m1),?準(m2),…,?準(mk)。即在核空間任意選擇K個樣本矢量作為初始聚類中心。
2) 將任意樣本矢量根據(2)式計算距離,并根據最近原則把它分配到最近的類別中。
3) 重新確定各個類別的聚類中心,在傳統的K-均值聚類中,各個類別的聚類中心通過:
Nk為第K類的樣本數,但在核空間中是根據內積代替距離進行聚類的,并沒有直接計算映射,故在核空間中各類的中心不可直接計算。在每個類中用一個樣本代替本類的中心,即:計算每個樣本矢量到聚類中心的距離,xi為選擇的聚類中心樣本矢量。
(3)
計算目標函數:
K為聚類數,Nk為第K類的樣本矢量數。
4) 根據目標函數最小,重復2)和3),直到J值不再變化。
3.2 LDA降維
假設有n個注冊的說話人,每一說話人的訓練語音信號由有M段語音(S1S,S2S,…,SMS)組成,包含了說話人S的不同發音以及語音韻律等特征。對其進行去噪,去靜音,合成一個完全由語音數據組成的語音信號SS(n),對SS(n)分幀、加窗、提取d維MFCC倒譜系數及其一階差分,得到N個d維的語音特征矢量序列(M(i),i=1,2,…,N,m(i)∈Rd)。表示成一個N×d維的矩陣。
1) 求出語音參數的均值向量:
2) 計算類內散度矩陣:
3) 計算類間散度矩陣:
4) 計算最大投影矩陣:
由Fisher準則找出最大的特征值即:λ1≥λ2…≥λd對應的特征矢量為:w1,w2,…,wd。選取前q個特征值對應的特征向量w1,w2,…,wq,構成轉換矩陣WT。計算新向量:y(j)=WTm(j)。
在這一步降維過程中,提取出來的語音特征矢量的維數降為q維,當q 4 實驗 采用WINDOWS自帶的錄音軟件錄音,采樣頻率11025HZ,16bit量化,普通環境下,對30名(23男7女)說話人進行錄音,每名錄音人員隨機朗讀刊物生成語句并進行錄音,數據分三次采樣,每次間隔5~10天,每次所錄數據一部分用于訓練,一部分用于識別,兩者不重疊。對得到的語音數據去靜音,預加重1-0.97z-1,加窗 25.625ms,幀移15ms,每幀提取12維的MFCC倒譜系數(不包括0階)及其一階差分系數,形成24維的語音特征矢量序列。 實驗1:在這個實驗里,比較了本文提出的多約簡方法和傳統GMM的訓練時間。我們選擇30個說話人,改變GMM的高斯分量M,從圖1(不同識別方法的訓練時間比較)可以看出, 當M=16 時。多約簡GMM的訓練時間是傳統GMM訓練時間的82%,隨著M的增大,兩個訓練時間的比例越來越小,多約簡GMM的優勢越明顯,當M=32時,多約簡GMM的訓練時間僅僅是傳統訓練時間的70%左右。 實驗2:構建本文提出的說話人辨識系統。比較在干凈語音和加噪語音的情況下,傳統的GMM與本文的方法的識別率,GMM方法和本文方法都采用32維的高斯分量。從表1(不同語音下識別率的比較)可以看出,本文提出的方法在干凈語音和加噪音情況識別率都比傳統的GMM模型有所提高。 5 結束語 GMM是一種傳統的模式識別方法,在說話人識別中取得了很成功的應用,本文將GMM與其他方法相結合,提出多約簡GMM的概念,大大減少GMM的訓練數據,從而減少了GMM的訓練時間。并使系統的總體性得到提高。 參考文獻: [1] HAKIB TADJ, PIERRE DUMOUCHEL, PIERRE OUELLET. GMM based speaker identification using training time dependent number of mixtures [A]. Proceedings of ICASSP[C].1998.761-764. [2] JWU-SHENG HU, CHIEH-CHENG, WEI-HAN LIU. Robust Speaker's Location Detection in a Vehicle Environment Using GMM Models [J]. IEEE TRANSACTIONS ON SYSTEMS, MAN, ANDCYBERNETICS-PART B:CYBERNETICS, 2006, 36(2):403-412. [3] CHIWEI CHE,QIGUANG LIN,DONG-SUK YUK. An HMM approach to Text-prompted speaker verification[C]. Proceeding of ICASSP. 1996.673-676. [4] Pawan Lingras.Interval Set Clustering of Web Users with Rough K-Means[J].Journal of Intelligent Information System, 2004(23):5-16. [5] Goutam Saha, Suman Senapati,Sandipan Chakroborty. An F-Ratio Based Optimization on Noisy Data forSpeaker Recognition Application[C], IEEE Indicon 2005 Conference, Chennai, India,2005:253-355. [6] 邱政權.尹俊勛. 基于說話人識別的GMM/GA算法[J]. 語音技術,2006,28:43-45. 注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文?!?/p>