GMM-UBM和SVM在說話人識別中的應用①

2018-02-07 02:42:00趙云敏

計算機系統應用 2018年1期

李薈,趙云敏

1(東北石油大學計算機與信息技術學院,大慶 163318)2(大慶油田第一采油廠,大慶 163318)

1 引言

說話人識別是一項根據說話人的語音參數來區分說話人身份的技術,廣泛地應用于語音撥號、安全控制、電話銀行、司法鑒定、語音導航等方面[1].但在實際應用中,系統的識別性能受到短語音、背景噪聲干擾、信號引起的信號畸變等多種因素的影響,其中短語音導致的訓練數據不足是較為常見且較為突出的問題.GMM-UBM模型能夠有效地解決訓練數據不充分的問題,但它導致的問題是系統魯棒性差,SVM利用幀特征向量在空間分布的高斯混合的均值進行識別,能顯著提高系統的魯棒性能,而且SVM還能有效地解決小樣本、低維線性不可分等實際問題.但應用SVM對說話人進行識別,重點就是選擇合適的核函數,為了提高性能,這里根據單核核函數的特性不同構造了一種組合核函數.因此,本文選用GMM-UBM為基線系統模型,在此基礎上應用SVM組合核函數作為分類器進行分類.

2 GMM-UBM基線系統模型

高斯混合模型(GMM)利用多個高斯分布的加權混合來描繪說話人的特征空間分布[2],因此,混合度越高,識別性能越好,當然所需的訓練語音也會越多.但在很多實際應用中,有些訓練語音比較短,這些有限的訓練語音無法很好地代表說話人所有可能的發音情況,因此,訓練得到的模型也無法很好地表征說話人的特征,這種情況使GMM識別的性能較差.

GMM-UBM模型能夠有效地解決GMM由于訓練語音不足導致的問題.通用背景模型(UBM)是一個高階的GMM,通常能夠達到1024～4096個混合度.它由數百人、性別比例均衡、長時間的語音訓練得到的模型,使得UBM基本包括了所有說話人的特征參數.這樣,短的語音未覆蓋到的發音部分就可以用UBM中與說話人無關的特征分布近似描述,降低訓練語音短帶來的影響,繼而提高系統識別性能.但GMM-UBM在說話人應用中存在受信道影響較大的問題,使系統的魯棒性較差[3],鑒于此,這里用GMM-UBM為基線系統模型.

3 SVM

3.1 SVM原理

SVM是由Vapnik等人提出的基于統計學習理論和結構風險最小化原理的一種分類算法[4].基本思想是將低維空間無法線性可分樣本映射到高維特征空間,并構建一個最優分類面以達到使兩類樣本正確分開,且類間間隔最大的結果.

其中x、w、b和分別表示輸入向量、權重系數、偏移量和特征映射.這樣可將式(1)表示成求解以下問題:

其中C和分別是懲罰因子和松弛變量.將以上問題應用Lagrange轉化為對偶問題:

解式(4),其中大于零的解所對應的樣本xi就稱為支持向量.在實際問題中,低維空間的向量集總是難以線性劃分,而通常的解決辦法就是將低維空間的向量集映射到高維空間以線性劃分,但導致的最大問題就是計算復雜度大大增加,引入核函數可以有效地解決這個問題.相應的判別函數為:

3.2 SVM核函數

常見的核函數有:

① 線性內積(Linear)核函數:

② 高斯徑向基(Gaussian)核函數:

③ 多項式(Polynomial)核函數:

其中d是Polynomial核函數的冪指數,C是一個常數,實際應用中一般令C=1[5].

④ 兩層神經網絡(Sigmoid)核函數:

其中v和分別是Sigmoid核函數的一個標量及其位移參數,Sigmoid核函數在實際應用中并不多見,這里也不予考慮.

3.3 SVM核函數的特性

根據SVM核函數特性的不同,可分為局部性核函數和全局性核函數.點為0.2時,Gaussian核函數值在測試點0.2附近較大,離測試點較遠時,值會顯著下降,因此Gaussian核函數插值能力較強,但泛化能力較差.

圖1 Gaussian核函數特征曲線圖

根據公式(8),當測試點取0.2,可得圖2.可以看出,Polynomial核函數對測試點附近以及較遠的數據都有影響,且相差不大,可見全局核函數具有較強的泛化能力,但局部學習能力較弱.

圖2 Polynomial核函數特征曲線圖

3.4 組合核函數的構建

選擇的核函數是否合適直接影響著SVM的識別性能,鑒于Gaussian核函數較強的局部學習能力和Polynomial核函數較強的全局泛化能力,可將兩種核函數進行線性組合,使其充分發揮各自單核的優點.

由核函數的構成條件可知,兩個核函數的線性加權,仍然滿足Mercer條件,組合后的核函數如公式(10)所示.

圖3 組合核函數特征曲線圖

3.5 SVM參數優化方法

SVM核函數的參數優化方法主要有網格搜索法、交叉驗證法和蟻群算法、遺傳算法等智能算法.與其它算法相比,網格搜索法能實現并行操作,因此效率較高,但缺點是精度不高[6],多重網格搜索可以在一定程度上提高參數精度.鑒于組合核函數中參數較多,綜合考慮參數的精度與效率,這里選取多重網格搜索來優化參數.

網格搜索法的主要思路是先確定搜索范圍和步長,再按照確定的步長沿每個參數方向生成網格,得到的網格中的節點即構成可能的參數組合.在上次網格尋優最優點的基礎上,減小搜索步長,并再次尋優,就是多重網格搜索.如要確定參數C與d,首先設定參數C的范圍為搜法步長為,參數d的范圍為搜法步長為,然后針對每對參數進行訓練.多重網格搜索法是完成一次網格搜索后得到一組最優的參數組合附近一定范圍內實現更為細致的一次網格搜索,以提高參數優化的精度.

4 GMM-UBM和SVM組合核函數的說話人識別過程

圖4為運用UBM-SVM組合核函數進行說話人識別的框架圖,基于UBM的SVM組合核函數的識別過程從整體上包括訓練和測試兩個階段.如圖4所示,一是訓練階段,輸入訓練語音信號,這些信號經過預處理后形成信號幀,經過特征提取后形成幀特征向量,它們是以GMM-UBM作為基線模型經過參數自適應后形成的定長超向量,這些超向量可以直接作為SVM組合核函數分類器的輸入,在此基礎上并進行參數優化,根據優化后的特征參數就可以建立訓練樣本模式庫.二是測試階段,輸入的測試語音信號同樣經過預處理、特征提取、GMM-UBM為基線模型進行自適應、SVM組合核函數分類幾個過程,將得到的特征參數與訓練過程得到的樣本模式庫里的所有參考模型進行匹配,即可輸出判決結果.

圖4 基于GMM-UBM和SVM組合核函數的說話人模型識別

5 實驗結果及分析

5.1 數據來源

本實驗采用自建語音庫,正常情況下,選取400個說話人(200男200女)進行錄音,時間為5-6分鐘/人.訓練語音選取每個說話人錄音的前4分鐘,從400人中隨即選擇20人的后50 s作為測試語音,使訓練語音與測試語音之間不重疊.對所得數據進行處理,預加重系數為0.97,分析窗選用寬度為32 ms的漢明窗,幀長為25 ms,步長為10 ms,選取16維的MFCC系數以及其16維一階差分.自適應方法選為EigenVoice,維數取為10,段間隔為5 s,這里自適應時長取10 s.

5.2 性能評價指標

識別率(正確識別率)是系統識別性能最為直觀的評價指標,但對于一個實際說話系統來說,錯誤拒絕率FRR和錯誤接受率FAR也是兩個重要的性能評價指標.

但以上兩個指標互相矛盾,因此,綜合考慮兩個指標,一般采用二者相等時的錯誤率作為衡量標準,稱為等錯誤率EER.這個值在一定程度上能夠反映系統的魯棒性.

因此本實驗采用識別率和等錯誤率兩個指標作為評價模型分類性能的標準,綜合評價系統識別的準確率與魯棒性.

5.3 參數確定

5.4 實驗結果及其分析

實驗一.在混合度不同情況下,比較GMM與GMM-UBM基線系統的識別性能,實驗結果見表1.

表1 不同混合度情況下GMM與GMM-UBM識別性能對比

實驗結果表明,隨著混合度的增加,GMM與GMM-UBM的識別率與EER都有所改善.通常情況下GMM-UBM混合度都比較高,即使同為256和512的情況下,GMM-UBM的識別率也分別高于GMM 3.5%和4.7%,但GMM-UBM的EER不低,即使隨著混合度增加EER會下降,但系統復雜性會增加.

實驗二.綜合考慮系統復雜性與識別性能要求,選取GMM-UBM混合數為1024,比較SVM選取不同核函數的識別性能.

由表2可知,引入SVM核函數后,Gaussian核、Polynomial核和組合核的識別性能都優于GMM-UBM不引入SVM的基線系統模型.可見,引入SVM核函數不僅能提高系統的魯棒性,同時也能提高系統的識別率.另外,在以上核函數中,組合核函數的識別性能最好,它的識別率分別優于Linear核、Gaussian核和Polynomial核10.6%、7.3%和5.4%,EER也優于其它三個單核.

表2 不同SVM核函數識別性能對比

實驗三.GMM-UBM混合數為1024,人工添加白噪聲,得到信噪比不同的語音,比較不同核函數的識別性能實驗結果見圖5和圖6.

圖5 基于不同信噪比不同核SVM識別率對比

圖6 基于不同信噪比不同核SVM的EER對比

由圖5和圖6可知,所有SVM核函數的識別性能都隨著信噪比的減小而降低.但對于給定的某一信噪比來說,組合核函數的識別率要高其它核函數,EER要低于其它核函數,說明基于GMM-UBM基線系統的SVM組合核函數能夠提高系統的識別率與魯棒性.

實驗四.假定20個說話人,選擇不同的高斯混合數,比較SVM選取不同的核函數的訓練時長.具體數據見表3.

表3 不同高斯混合數下,不同SVM核函數訓練時間比較

由表3可知,在不同的高斯混合數情況下,組合核函數的運行時間比Linear核平均多21%,比Gaussian核平均多10%,比Polynomial核平均多9%.因為組合核參數最多,其次是Gaussian核和Polynomial核,Linear核參數最少,運行時間與參數基本成正比.組合核SVM的參數雖比Gaussian核和Polynomial核多,但運行時間就多了10% 左右,主要原因有:一是參數優化采用的是多重網格搜索法,這種方法的最大優勢是可以同時搜索多個參數,在一定程度上能減少參數搜索的時間.二是經過自適應后的超向量可以直接作為SVM的輸入,這樣可以實現整體語音序列上進行分類,因此能夠降低運算復雜度.綜合考慮識別率、等錯誤率及運行時間,組合核SVM是較理想的選擇.

6 結語

針對訓練數據不充分問題,選取GMM-UBM為基準系統模型,并應用SVM對其參數進行優化,本文基于單核函數的特性,構建具有良好的泛化能力與良好的學習能力的組合核函數.在說話人識別的仿真實驗中,組合核函數表現出明顯優于其它單核SVM的良好性能.而且在信噪比不同、高斯混合數不同的情況下,表現依舊不俗.但由于組合核函數引入過多的參數,增加了模型復雜度及系統運算時間.模型參數自適應方法能夠在一定程度上解決這個問題,在模型參數自適應方法中基于特征音EV模型的變換方法由于能用少量的訓練數據快速的調整模型以實現自適應得到廣泛的應用,在此基礎上再采用SVM組合核函數訓練方法來彌補模型參數自適應方法的局限性,能夠彌補參數設置過多的問題,但如何在保障識別正確率與系統魯棒性的基礎上減少參數設置依然是需要進一步研究的問題.

1 王韻琪.自適應高斯混合模型及說話人識別應用.計算機系統應用,2015,24(6):143–147.

2 翟玉杰.基于GMM-SVM說話人識別的信道算法研究[碩士學位論文].長春:吉林大學,2015.

3 鮑煥軍,鄭方.GMM-UBM和SVM說話人辨認系統及融合的分析.清華大學學報(自然科學版),2008,48(S1):693–698.

4 呂洪艷,劉芳.組合核函數SVM在說話人識別中的應用.計算機系統應用,2016,25(5):168–172.

5 栗志意,張衛強,何亮,等.基于核函數的IVEC-SVM說話人識別系統研究.自動化學報,2014,40(4):780–784.

6 劉群鋒.最優化問題的幾種網格型算法[博士學位論文].長沙:湖南大學,2011.