摘 要: 高斯混合模型(GMM)由于通過(guò)改變高斯的混合度,能夠逼近任意概率分布,所以在語(yǔ)音識(shí)別領(lǐng)域應(yīng)用廣泛。對(duì)高斯混合模型的訓(xùn)練,常見(jiàn)的訓(xùn)練方法是最大似然估計(jì)(MLE),這種訓(xùn)練方法能最大程度擬合所有樣本的分布,但沒(méi)有考慮模型之間的相互影響,導(dǎo)致識(shí)別過(guò)程會(huì)出現(xiàn)混淆情況;區(qū)分性模型訓(xùn)練算法,適合應(yīng)用于大數(shù)據(jù)量復(fù)雜組合類別的區(qū)分問(wèn)題。這里提出采用的區(qū)分性模型訓(xùn)練方法,其原則是最小化分類錯(cuò)誤風(fēng)險(xiǎn),通過(guò)更精確細(xì)致地刻畫不同模型之間的分類面,提升識(shí)別的效果。實(shí)驗(yàn)結(jié)果表明,該訓(xùn)練方法比最大似然估計(jì)的訓(xùn)練方法在多類別語(yǔ)音檢出任務(wù)中具有更好的識(shí)別效果。
關(guān)鍵詞: 高斯混合模型; 最大似然估計(jì); 區(qū)分性模型訓(xùn)練; 語(yǔ)音檢出
中圖分類號(hào): TN912.3?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)13?0059?03
Abstract: Gaussian mixture model (GMM) can approximate any probability distribution by changing Gaussian mixedness, so it is widely used in voice recognition domain. Maximum likelihood estimation (MLE) is a common training method for GMM training, which can fit the distribution of all samples to the greatest extent. The interplay between models isn′t considered in MLE, which leads to confusion appearing in recognition process. The discriminative model training algorithm is suitable for distinguishing the categories of large amount data complex combination. In this paper, application of the discrimination training algorithm is proposed, whose principle is to minimize the risk of classification errors. The recognition effect is improved through more precisely and meticulously describing classification facet between different models. The experimental results show that the training method has better recognition effect than maximum likelihood estimation in multi?class voice detection task.
Keywords: GMM; MLE; discriminative model training; voice detection
0 引 言
語(yǔ)音識(shí)別技術(shù)飛速發(fā)展,各種語(yǔ)音檢出算法的提出如雨后春筍,但都是基于語(yǔ)音信號(hào)特征,或基于語(yǔ)音信號(hào)統(tǒng)計(jì)特性,或是基于信號(hào)特征與統(tǒng)計(jì)特性相結(jié)合的方法,各種算法各有優(yōu)劣,適用對(duì)象不同。綜合文獻(xiàn)[1?5]可知,基于短時(shí)能量和過(guò)零率的算法,適用于信噪比較高的場(chǎng)合,但難以區(qū)分清音和噪聲;基于自相關(guān)相似距離算法,總的來(lái)說(shuō)與HMM算法的效果大致相同,但是對(duì)于結(jié)尾的判斷卻優(yōu)于HMM模型,這是因?yàn)檎Z(yǔ)音大多以濁音結(jié)尾,此時(shí)自相關(guān)法的判斷精度較高,但對(duì)于清音開(kāi)頭的語(yǔ)音,尤其是[s],[ks],[n]等音節(jié),自相關(guān)算法的檢測(cè)精度就不高;基于高斯混合模型(Gaussian Mixture Model,GMM)的算法,分類較細(xì),提供了完整的基于數(shù)據(jù)的識(shí)別框架,具有良好的推廣性和擴(kuò)展性。
在GMM框架里,主要的問(wèn)題是如何根據(jù)有限的數(shù)據(jù)產(chǎn)生對(duì)應(yīng)的GMM模型,目前常見(jiàn)的訓(xùn)練方法是采用最大似然估計(jì)(Maximum Likelihood Estimation,MLE),該方法基于MLE規(guī)則,最大程度擬合所有樣本的分布,模型參數(shù)不斷更新,直到觀察序列的概率提高到某些極限點(diǎn)。實(shí)際上,由于其沒(méi)有考慮聲學(xué)模型之間的相互影響,在訓(xùn)練語(yǔ)料量比較大時(shí),識(shí)別過(guò)程中會(huì)出現(xiàn)混淆情況。
區(qū)分性的模型訓(xùn)練算法,適合應(yīng)用于大數(shù)據(jù)量復(fù)雜類別組合的區(qū)分問(wèn)題[6]。本文提出采用的區(qū)分性模型訓(xùn)練方法,其原則是最小化分類錯(cuò)誤風(fēng)險(xiǎn),將有限的模型描述能力更多用于容易錯(cuò)的邊界樣本的區(qū)分,參數(shù)估計(jì)時(shí)不僅使得屬于該類別的訓(xùn)練數(shù)據(jù)概率最大,同時(shí)還要使得不屬于該類別的訓(xùn)練數(shù)據(jù)概率最小,通過(guò)更精確細(xì)致地刻畫不同模型之間的分類面,達(dá)到提升識(shí)別效果的目的。實(shí)驗(yàn)結(jié)果表明,基于該算法的訓(xùn)練方法比最大似然估計(jì)的訓(xùn)練方法在多類別語(yǔ)音檢出任務(wù)中具有更好的識(shí)別效果。
1 高斯混合模型描述
GMM用于語(yǔ)音檢出[7],它直接對(duì)語(yǔ)音中各類數(shù)據(jù)特征的統(tǒng)計(jì)分布進(jìn)行擬合。GMM可以看作是單狀態(tài)的HMM,GMM模型并不關(guān)注語(yǔ)音的時(shí)序過(guò)程,它只描述語(yǔ)音特征參數(shù)的靜態(tài)分布,不同類別語(yǔ)音特征的靜態(tài)分布不同,因此通過(guò)比較不同類數(shù)據(jù)的GMM模型,就可以區(qū)分不同的語(yǔ)音類別。在實(shí)際應(yīng)用中,GMM高斯混合度要求比較高,一般要32個(gè)高斯函數(shù)或以上,甚至達(dá)到2 048個(gè)高斯函數(shù)。一個(gè)高斯混合模型的概率密度函數(shù)由多個(gè)高斯概率密度函數(shù)加權(quán)求和得到,如式(1)所示:
[p(xλ)=i=1MωiNi(x)] (1)
式中:[M]是高斯混合模型的混合度;[ωi]是每個(gè)高斯的權(quán)重;[x]是維數(shù)為[D]的觀測(cè)向量;[Ni(x)]是高斯分布概率密度函數(shù),[Ni(x)]可表示為:[Ni(x)=1(2π)D2Σi12exp-12(x-μi)TΣ-1i(x-μi) λ={ωi,μi,Σi}, i=1,2,…,M] (2)
式中:[μi]為均值矢量;[Σi]為協(xié)方差矩陣。至此,整個(gè)高斯混合模型[λ]可由{[ωi,][μi,][Σi]}來(lái)描述。其中GMM的協(xié)方差矩陣[Σi]可以有多種形式,可以是每個(gè)高斯概率密度函數(shù)都有一個(gè)經(jīng)過(guò)訓(xùn)練得到的協(xié)方差矩陣,也可以是某一類別語(yǔ)音的GMM模型的所有高斯概率密度函數(shù)共用同一個(gè)協(xié)方差矩陣,還可以是所有語(yǔ)音類別的GMM模型都共用同一個(gè)協(xié)方差矩陣。同時(shí),協(xié)方差矩陣既可以是滿陣也可以是對(duì)角陣,但考慮到在模型的訓(xùn)練過(guò)程中需要用到協(xié)方差矩陣的逆,而矩陣求逆往往是一個(gè)非常耗時(shí)的過(guò)程,所以協(xié)方差矩陣一般采用對(duì)角陣的形式。
采用GMM作為語(yǔ)音聲學(xué)模型的原因如下:
(1) 一個(gè)語(yǔ)音類別的聲學(xué)特征參數(shù)在特征空間的分布由該類別語(yǔ)音不同音的特征矢量的分布組成。對(duì)于語(yǔ)音檢出,可以認(rèn)為GMM的各個(gè)高斯成分模擬了同一類別語(yǔ)音不同的未知音素的聲學(xué)特征,每個(gè)高斯成分描述了不同的音素分布。
(2) 統(tǒng)計(jì)理論表明,用多個(gè)高斯概率密度函數(shù)的線性組合可以逼近任意分布,因此,GMM可以對(duì)任意的語(yǔ)音特征分布進(jìn)行精確的描述。
實(shí)際上,將GMM模型應(yīng)用于語(yǔ)音檢出任務(wù),用每個(gè)類別語(yǔ)音數(shù)據(jù)單獨(dú)訓(xùn)練一個(gè)GMM模型,在測(cè)試時(shí)測(cè)試語(yǔ)音對(duì)所有的GMM模型求對(duì)數(shù)似然度函數(shù),得分高的模型就判斷為目標(biāo)類別。同時(shí),由于每個(gè)類別的數(shù)據(jù)可以積累較多,數(shù)據(jù)量可以得到保證,高斯數(shù)目一般較大,如128,由于這種特性,在語(yǔ)音檢出任務(wù)中這種方法的識(shí)別率一般較高。當(dāng)然,在基于概率統(tǒng)計(jì)模型的識(shí)別算法中,不僅模型結(jié)構(gòu)的選擇是否合適影響著最終的識(shí)別效果,模型參數(shù)的訓(xùn)練估計(jì)是否準(zhǔn)確同樣重要。模型訓(xùn)練是指對(duì)模型參數(shù)進(jìn)行估計(jì),對(duì)于高斯混合模型而言,即是對(duì)[λ]進(jìn)行估計(jì)。
2 最大似然估計(jì)訓(xùn)練方法
對(duì)于高斯混合模型的訓(xùn)練,目前最常見(jiàn)的訓(xùn)練方法是采用MLE[7]。若給定訓(xùn)練樣本為[X={x1,x2,…,xN},]則基于MLE的目標(biāo)函數(shù)為:
[obj=n=1Nlnp(xnλ)] (3)
由于高斯混合模型中的權(quán)重是隱含變量,所以采用期望最大(Expectation Maximization,EM)算法,定義輔助函數(shù)如下:
[Q(λ,λ)=n=1Ni=1Mγi(xn)lnp(xnλ)] (4)
式中:[λ]是待估計(jì)參數(shù);[λ]是初始值或上次迭代結(jié)果;[γi(xn)=ωiNi(xn)j=1MωjNj(xn)]。通過(guò)求導(dǎo),可得模型更新迭代公式如下:
[ωi=1Nn=1Np(ixn,λ), μi=n=1Np(ixn,λ)xnn=1Np(ixn,λ)]
[Σi=n=1Np(ixn,λ)xnxtnn=1Np(ixn,λ), p(ixn,λ)=ωiNi(xnλ)i=1MωiNi(xnλ)]
在參數(shù)估計(jì)之前,用K均值算法初始化模型,模型參數(shù)通過(guò)反復(fù)替換[λ=λ]而提高。同時(shí),為避免混亂,通過(guò)EM算法把整個(gè)訓(xùn)練過(guò)程看作MLE方法,把單個(gè)重估過(guò)程看作MLE重估,進(jìn)一步用MLE公式重估,直到滿足聚類規(guī)則的門限時(shí)終止,門限通常設(shè)置為觀察序列概率的對(duì)數(shù)的平均。通過(guò)最大似然估計(jì)訓(xùn)練得到的模型參數(shù),能夠保證訓(xùn)練數(shù)據(jù)在該模型上出現(xiàn)的概率最大,很好地表征了訓(xùn)練樣本數(shù)據(jù)。但是MLE作為爬山算法,隨意選擇初始模型[λ,]即可導(dǎo)致局部最優(yōu),存在目標(biāo)函數(shù)不能直接最大化的問(wèn)題。然而在語(yǔ)音檢出中,識(shí)別分類問(wèn)題至少牽涉到兩個(gè)類別,因此,采用最大似然準(zhǔn)則訓(xùn)練得到的模型,對(duì)于識(shí)別分類問(wèn)題并不一定是最好的。
3 區(qū)分性模型訓(xùn)練方法
最小化分類錯(cuò)誤(MCE)風(fēng)險(xiǎn)原則的區(qū)分性模型訓(xùn)練算法,參數(shù)估計(jì)時(shí)不僅使得屬于該類別的訓(xùn)練數(shù)據(jù)概率最大,同時(shí)還要使得不屬于該類別的訓(xùn)練數(shù)據(jù)概率最小。本文根據(jù)文獻(xiàn)[6]的MCE算法,考慮多類型語(yǔ)音檢出任務(wù)區(qū)分復(fù)雜等特點(diǎn),結(jié)合EBW(Extended Baum,Welch)算法,定義和導(dǎo)出具體算法如下:
假設(shè)訓(xùn)練樣本數(shù)據(jù)為[X={x1,x2,…,xN},]樣本標(biāo)識(shí)為[Y={y1,y2,…,yN},]其中[yn=1]表示屬于當(dāng)前訓(xùn)練的模型類別,[yn=0]表示屬于其他類別,定義區(qū)分性目標(biāo)函數(shù)為:
[obj=n=1Nynp(xnλ)-ln1+expp(xnλ)] (5)
由于目標(biāo)函數(shù)中隱含變量的影響,采用EBW算法,定義輔助目標(biāo)函數(shù):
[Q(λ,λ)=n=1Nyn-exp(p(xnλ))1+exp(p(xnλ))i=1Mγm(xnλ)lnωiNi(xnλ)+i=1MDmωmn=1Np(xnλ)lnp(xnλ)]
式中[γm(xn|λ)=ωiNi(xnλ)i=1MωiNi(xnλ)。]
令:
[Γi(xn)=yn-exp(p(xnλ))1+exp(p(xnλ))γm(xnλ)]
[Γi(1)=n=1NΓi(xn)]
[Γi(x)=n=1NΓi(xn)xn]
[Γi(x2)=n=1NΓi(xn)xnxtn]
通過(guò)對(duì)輔助函數(shù)求導(dǎo),可得模型參數(shù)更新公式如下:
[ωi=Γi(1)+Diωii=1MΓi(1)+Di, μi=Γi(x)+DiωiμiΓi(1)+Diωi]
[Σi=Γi(x2)-Γi(1)+Diωiμiμti+Diω2i(Σi+μiμti)Γi(1)+Diωi]
最小化分類錯(cuò)誤風(fēng)險(xiǎn)的區(qū)分性模型訓(xùn)練算法,通過(guò)更精確細(xì)致地刻畫不同模型之間的分類面,達(dá)到提升識(shí)別效果的目的。
4 語(yǔ)音檢出系統(tǒng)構(gòu)成
基于GMM的語(yǔ)音識(shí)別方法,其基本出發(fā)點(diǎn)是針對(duì)一般語(yǔ)音檢出方法中難以去除的非語(yǔ)音部分(如振鈴、彩鈴音等),考慮其特性類別以及通常語(yǔ)音的特性,然后分別進(jìn)行建模,最后通過(guò)比對(duì)信號(hào)中每幀數(shù)據(jù)在每個(gè)模型上的相似度來(lái)判斷其類別。應(yīng)用該方法的系統(tǒng)模塊圖如圖1所示。
基于GMM模型的語(yǔ)音識(shí)別方法,從整體可分為以下幾個(gè)步驟:
(1) 模型和特征選取
該步驟是根據(jù)具體的應(yīng)用環(huán)境,確定環(huán)境噪聲的類別,并選擇相應(yīng)的訓(xùn)練數(shù)據(jù)特征。例如對(duì)于電話信道而言,可以將環(huán)境噪聲分為彩鈴聲、振鈴聲、掛機(jī)噪聲、信道噪聲等。而特征的選取,一般采用分幀,提取每幀的13階MFCC特征即可。然后根據(jù)確定的噪聲類別標(biāo)注訓(xùn)練數(shù)據(jù),同時(shí)還需標(biāo)注語(yǔ)音數(shù)據(jù),以訓(xùn)練各種噪聲模型和語(yǔ)音模型。
考慮到環(huán)境噪聲的種類較多,而實(shí)際關(guān)注的只是將語(yǔ)音和噪聲分開(kāi),因此,可以將語(yǔ)音部分標(biāo)注為一類,將其他部分標(biāo)注為非語(yǔ)音。由于非語(yǔ)音部分?jǐn)?shù)據(jù)覆蓋范圍很廣,用一個(gè)GMM建模,模型的復(fù)雜度非常高,所以一個(gè)比較可行的方式是對(duì)非語(yǔ)音數(shù)據(jù)采用盲聚類的方式,生成多個(gè)類別,然后對(duì)每一個(gè)類再建立模型,這樣能夠有效地降低模型的復(fù)雜度(混合度)。根據(jù)實(shí)驗(yàn)結(jié)果,GMM混合度為128較為理想。采用這種方式確定模型類別的話,可以有效地減少數(shù)據(jù)的標(biāo)注工作量。
對(duì)于上面確定模型類別和訓(xùn)練數(shù)據(jù),記語(yǔ)音對(duì)應(yīng)的模型設(shè)為[Mg],噪聲模型分別為[M1,M2,…,MN,]而相應(yīng)的訓(xùn)練數(shù)據(jù)表示為[Ds,D1,D2,…,DN]。
(2) 模型訓(xùn)練
訓(xùn)練數(shù)據(jù)和模型類別確定之后,就可以采用K?Means訓(xùn)練,EM訓(xùn)練或區(qū)分性的模型訓(xùn)練相結(jié)合的方法來(lái)訓(xùn)練模型。一般是利用前者估計(jì)GMM的初始值,然后利用后者進(jìn)行迭代細(xì)化。
(3) 模型判決
該過(guò)程主要是對(duì)于信號(hào)中的每幀特征,計(jì)算它在各個(gè)GMM模型上的概率,選擇出現(xiàn)概率最大的GMM模型對(duì)應(yīng)的類別作為判決結(jié)果。如果概率最大的模型對(duì)應(yīng)語(yǔ)音信號(hào),那么該幀就判斷為語(yǔ)音,否則判斷為非語(yǔ)音。
(4) 判決結(jié)果后處理
基于GMM模型,直接判斷會(huì)存在出錯(cuò)的情況,因此需要對(duì)判決處理的結(jié)果進(jìn)行后處理。本文所采用的后處理策略是,將當(dāng)前幀左右相鄰的[L]幀作為一段,然后統(tǒng)計(jì)該段中出現(xiàn)語(yǔ)音幀和非語(yǔ)音幀的個(gè)數(shù)。如果語(yǔ)音幀和非語(yǔ)音幀的比例大于閾值[T,]則將當(dāng)前幀判為語(yǔ)音幀,否則判為非語(yǔ)音幀。
5 實(shí)驗(yàn)及結(jié)論
本文使用的聲學(xué)特征為經(jīng)過(guò)RASTA濾波[8]、求高階差分、去除靜寂段、均值倒譜減(CMS)[9]、高斯特征化[10]一系列處理后的MFCC特征。
實(shí)驗(yàn)共取錄音數(shù)據(jù)74條,945 MB,約22 h。其中經(jīng)標(biāo)注后用于實(shí)驗(yàn)驗(yàn)證的數(shù)據(jù)有49條,475 MB。將這49條數(shù)據(jù)中的9條數(shù)據(jù)作為測(cè)試集合,83 MB,其中有161 273幀語(yǔ)音, 387 495幀非語(yǔ)音。對(duì)比表見(jiàn)表1。
通過(guò)實(shí)驗(yàn)結(jié)果對(duì)比分析可知,采用區(qū)分性算法的查準(zhǔn)率比采用MLE算法的高8.12%,查全率略高1.77%。這充分說(shuō)明,在相同的語(yǔ)音數(shù)據(jù)條件下,采用最小分類錯(cuò)誤風(fēng)險(xiǎn)原則的區(qū)分性模型訓(xùn)練方法后的語(yǔ)音識(shí)別效果明顯比采用最大似然估計(jì)的要好。但是,也必須認(rèn)識(shí)到,由于采取的是基于GMM模型的算法,它不但要求有足夠的訓(xùn)練數(shù)據(jù),同時(shí)要求訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)要比較匹配,否則識(shí)別出來(lái)的結(jié)果就有可能和預(yù)期相差較大。
參考文獻(xiàn)
[1] 胡航.語(yǔ)音信號(hào)處理(修訂版)[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2002.
[2] 張雄偉,陳亮,楊吉斌.現(xiàn)代語(yǔ)音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003.
[3] 夏敏磊.語(yǔ)音端點(diǎn)檢測(cè)技術(shù)研究[D].杭州:浙江大學(xué),2005.
[4] 朱杰,韋曉東.噪聲環(huán)境中基于HMM模型的語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法[J].上海交通大學(xué)學(xué)報(bào),1998,22(10):14?16.
[5] 謝霞,李宏,鄭俊.基于GMM的說(shuō)話人辨認(rèn)系統(tǒng)及其改進(jìn)[J].電腦與信息技術(shù),2006(2):48?51.
[6] 劉聰.聲學(xué)模型區(qū)分性訓(xùn)練及其在LVCSR系統(tǒng)的應(yīng)用[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2010.
[7] 劉鑫,王炳錫.基于GMM 的說(shuō)話人分類自適應(yīng)算法[J].信息工程大學(xué)學(xué)報(bào),2001(4):35?37.
[8] HERMANSKY H, MORGAN N, BAYYA A, et al. RASTA?PLP speech analysis technique [C]// Proceeding of 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing. San Francisco: IEEE, 1992: 545?548.
[9] FURUI S. Cepstral analysis technique for automatic speaker verification [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1981, 29(2): 254?272.
[10] XIANG B, CHAUDHARI U V, NAVRATIL J, et al. Short?time gaussianization for robust speaker verification [C]// Proceedings of 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. Orlando, USA: IEEE, 2002: 681?684.