馬志強 李圖雅 閆 瑞 張 力
(內蒙古工業大學信息工程學院 內蒙古 呼和浩特 010080)
大詞匯量連續的蒙古語語音識別系統是基于GMM-HMM(Gauss Mixture Model-Hidden Markov Model)模型實現的,在聲學模型的建模過程中,由于:(1) 非詞首音節短元音的出現位置不確定,導致很多詞有幾種讀音,在語料庫中出現了一詞有多種讀音的現象;(2) 對于不同人,由于發音人受方言、個人習慣、以及錄音環境等的影響,所讀音與蒙古語標準發音有差別。以上現象都使蒙古語語音識別正確率出現下降。
本文在GMM-HMM聲學模型的基礎上,結合最大似然線性回歸MLLR與最大后驗概率MAP自適應方法的優點,給出了一種適合蒙古語語音識別進行聲學模型自適應建模的MLLR-MAP方法。核心思想是首先使用蒙古語小規模自適應集對MLLR和MAP方法中的參數進行估計計算;然后對已經構建的基線聲學模型順序按照MLLR和 MAP方法進行重新建模,使得基線聲學模型更加逼近自適應數據集;最后得到了一個具有自適應集數據特征的蒙古語聲學模型。MLLR-MAP方法中的自適應性的依賴程度由MLLR的轉移矩陣和MAP的依賴權重值決定,MLLR的轉移矩陣由自適應數據集決定,而最優值則需要通過實驗進行人工選擇得到。實驗結果表明,在聲學模型總正確率、聲學模型錯誤率、聲學模型準確率和系統句識別錯誤率、系統詞識別錯誤率指標上都明顯優于其他方法。
研究者對聲學模型的自適應問題主要在自適應方法上做了研究,包括向量量化法、層次化譜聚類法、概率譜映射法和貝葉斯自適應法等。其中,Woodland 等提出的MLLR方法和MAP方法[1]屬于貝葉斯自適應法,適合連續密度GMM模型;MLLR方法可以使用少量的特定人的語音數據就可以快速地建立自適應聲學模型;MAP方法則隨著特定人語音數據的增多, 原始的模型將被逐漸更新為適合特定人的聲學模型,但是會出現過擬合的現象。

(1)
式中:Ws是一個n×(n+1)矩陣[bTAT]T,A是一個n×n的矩陣,b是一個n維向量,ξs是擴展的均值向量[1,uT]T(或[1,u1,…,ui,…,un]T),ui是原始的均值,1是偏移量,n是特征維數[2-3]。


(2)

MLLR只考慮高斯模型中轉移矩陣的再估計,總概率可以通過各個狀態得到,所以,設S是所有狀態的集合,輔助函數擴展為公式[4-5]:
(3)

因此,MLLR方法進行聲學模型自適應建模時,不隨自適應數據集的增加而使語音識別率提高,當自適應數據集達到一定時,聲學模型的識別率不再提高。
MAP方法對高斯模型參數的調整是通過先驗信息求解最大后驗概率方法的一種自適應方法[6-7]。對于高斯分布均值的MAP重估的一般公式為:
(4)

MAP方法對蒙古語高斯混合聲學模型進行重估時,聲學模型的自適應性由MAP的依賴權重決定。依賴權重表示聲學模型的自適應對先驗信息的依賴程度,反映了先驗信息與自適應數據之間的相互平衡。然而,依賴權重是一個動態變化的值,所以確定合適的依賴權重對提高基于GMM-HMM蒙古語聲學模型的自適應性十分重要。
由于蒙古語中含有豐富的詞干、詞綴,組合得到的蒙古語詞的個數非常多。因此,語料庫很難全覆蓋蒙古語語言中的全部詞語。所以,通過結合MLLR和MAP方法的優點,給出了一種構建自適應蒙古語語音識別聲學模型的MLLR-MAP方法。
蒙古語屬于阿爾泰語系,蒙古語的詞由詞干和詞綴構成,一個詞干后面可以連接至少一個以上的詞綴。詞干和詞綴都有自己的發音,詞的發音是由詞干和詞綴結合發音的,一般情況下詞干和詞綴結合后發音不變。但是,在發音中也存在著以下特殊情況[8-9]。
(1) 詞綴與不同詞干結合后,讀音會出現音變現象,導致生成多種不同的讀音,因此,無法用一個固定的、靜態的詞典為所有的蒙古語詞進行注音。
(2) 蒙古語中包含一定數量的多音節詞,因此,在詞干和詞綴之間,前一音節的元音同后面音節的元音存在著明顯的元音和諧現象。
(3) 蒙古語口語中發音時比較習慣使用重音,不合理的使用重音會使語流平淡,導致蒙古語的音節在口語語流中的變化較大,穩定性差。
由于大多數詞干是與詞綴連接形成更長的詞干,而詞干后接詞綴的規則無法直接應用到蒙古語語音識別中。因此,針對上述提到的蒙古語構詞音變問題、元音和諧問題和口語語流問題,通過建立自適應蒙古語聲學模型,提高蒙古語語音識別的正確率。
蒙古語聲學模型建模采用M元加權的混合高斯模型,模型表示為公式:
(5)


(6)
在MLLR轉換中,Wk是使用蒙古語小規模自適應集數據求解式(3)得到的。因此,MLLR模型中的所有參數只與訓練數據相關。
然后對蒙古語的MLLR聲學模型進行MAP自適應處理,MAP自適應處理過程修改為公式:
(7)

因此,蒙古語聲學模型的MLLR-MAP自適應方法的核心是人工選取最優的模型參數τk。
蒙古語聲學模型的MLLR-MAP訓練過程主要包括:(1) 構建基線蒙古語聲學模型;(2) 對小規模蒙古語自適應集數據進行MLLR模型參數估算,使用式(6)對基線蒙古語聲學模型進行快速逼近,得到蒙古語MLLR聲學模型;(3) 再對小規模蒙古語自適應集數據進行MAP模型參數估算,把蒙古語MLLR聲學模型作為MAP的先驗信息,通過式(7)構建蒙古語MLLR-MAP聲學模型。蒙古語MLLR-MAP聲學模型的訓練過程如圖1所示。

圖1 蒙古語MLLR-MAP聲學模型訓練過程
具體的蒙古語MLLR-MAP聲學模型的訓練步驟如下:
訓練過程:蒙古語基線聲學模型作為自適應的先驗值,通過對小規模蒙古語自適應集的統計計算,分別得到MLLR和MAP模型的參數,最后經過MLLR、MAP轉換后得到了蒙古語MLLR-MAP聲學模型。
輸入:基線聲學模型,小規模蒙古語自適應集
輸出:蒙古語MLLR-MAP聲學模型
步驟1:對自適應訓練集進行MFCC特征提取,得到特征文件。
步驟2:累加觀察序列,得到自適應集的統計信息。
步驟3:使用折半取值逐漸逼近的方法依次選取依賴權重τ值,對蒙古語基線聲學模型的均值、方差、混合權重、轉移矩陣做MAP自適應,得到對應τ值MAP自適應的聲學模型識別率。
步驟4:對比對應τ值MAP自適應后的聲學模型識別率,選取聲學模型識別率最大者對應的τ值。其中τ值的選取采用折半取值辦法,因此,需多次試探判斷是否大于基線聲學模型的識別率。
步驟5:對基線聲學模型的均值和其他參數進行MLLR自適應,得到MLLR自適應轉移矩陣。
步驟6:通過轉移矩陣調整基線聲學模型的均值,得到MLLR自適應后的均值,對應的聲學模型為MLLR聲學模型。
步驟7:進行最優τ值MAP自適應,得到最優的MLLR-MAP聲學模型。
為驗證MLLR-MAP方法在蒙古語語音識別聲學模型中的效果,搭建了基于Sphinx的蒙古語語音識別系統,分別進行了τ值的選取和蒙古語MLLR-MAP聲學模型自適應實驗。
蒙古語語料庫由訓練集、自適應集和測試集構成,具體構成見表1。

表1 語料庫構成
訓練集來源于蒙古語播音員的教學錄音,共310句,計39 MB,用于基線聲學模型的訓練。自適應集和測試集由普通的同一個蒙古族學生按照口語形式錄制,分別包含13和31個句子的錄音。
實驗過程中使用聲學模型識別率對聲學模型進行評價。聲學模型識別率評價指標包括模型總正確率TPC、錯誤率ERR和準確率ACC。
總正確率指以句為單位,識別結果詞序列中正確的詞數所占的比例。不考慮插入錯誤詞的情況,具體見公式:
TPC= (N-D-S)/N×100%
(8)
式中:N指參考詞序列(即每個句子正確的詞一級的序列)中詞的數目;D是識別結果詞序列中未識別的詞數;S是識別詞序列中替換錯誤的詞數。
錯誤率指識別結果詞序列中錯誤詞所占的比例,錯誤詞包括:插入錯誤詞、未識別詞和替換錯誤的詞。計算具體見公式:
ERR= (I+D+S)/N×100%
(9)
式中:I是插入錯誤的詞數。
準確率指在考慮插入錯誤詞的情況下,識別結果詞序列中正確的詞數所占的比例。具體見公式:
ACC= (N-I-D-S)/N×100% = (1-ERR)×100%
(10)
通常準確率的值小于總正確率的值,因為準確率考慮了插入錯誤而總正確率沒有考慮。
由于MLLR-MAP方法中τ值參數不能由自適應訓練數據唯一確定,需要人工選擇。因此,在基線聲學模型的基礎上,通過MAP自適應選取識別率最高的τ值作為最終MAP時的τ值。當τ的取值越大時,自適應收斂速度就越快。根據Nickolay V.Shmyrev的結論[13],τ值是一個在[1,100]區間的整型值。因此,在[1,100]范圍內采用折半取值逐漸逼近的方法進行蒙古語聲學模型建模實驗,選取使聲學模型的識別正確率最優的τ值。
實驗中,按照τ值與蒙古語聲學模型正確率變化的情況,τ值的取值依次按照:50->1->100->4->75->38->13->31->19->22->28->23->24。對應的τ值與聲學模型識別正確率的實驗結果如圖2所示。實驗結果表明,在[1,100]區間內,隨著τ值的增加,聲學模型識別正確率的趨勢是先逐漸升高再逐漸降低,其中,在[22,31]區間識別正確率出現了小起伏的波動,在τ<22時,識別正確率一直在上升,在τ>31時,識別正確率一直在下降,當τ=22時,取得最高識別正確率70.76%。

圖2 聲學模型識別率
為了對比MAP、MLLR、MAP-MLLR、以及MLLR-MAP方法對蒙古語聲學模型自適應性能的影響,我們設計了8個蒙古語聲學模型自適應建模實驗。為了區分不同實驗名稱,實驗中使用建模方法名稱來定義實驗名稱和蒙古語聲學模型名稱,具體定義如表2所示。

表2 聲學模型定義
實驗中,都采用表1中列出的相同蒙古語語料庫。蒙古語語音特征采用梅爾頻率倒譜系數MFCC(Mel Frequency Cepstral Coefficents),幀窗口長度為25 ms,幀移10 ms。幀提取采用上下文結合的辦法,即在當前幀前后各取5幀來表示當前幀的上下文環境。聲學模型訓練以三音素作為識別單元,采用Sphinxtrain-1.0.8工具中的Baum-Welch算法;解碼采用Pocketsphinx-1.0.8工具中的Viterbi算法。
實驗中,自適應集和測試集由不同比例的男女生發音的句子構成,采用聲學模型評價指標對8類實驗進行評價,具體實驗結果數據統計如表3所示。

表3 聲學模型實驗結果
相對于構建的基線聲學模型,其他7種蒙古語聲學模型建模方法在不同男女比例的自適應集和測試集上聲學模型的總正確率和錯誤率上都有不同程度的提升,TPC提升率(TPC↑)=聲學模型的TPC-基線聲學模型的TPC,ERR下降率(ERR↓)=基線聲學模型的ERR-聲學模型的ERR。聲學模型的提升結果如表4所示。

表4 聲學模型提升對比
因此,7種構建自適應蒙古語聲學模型的建模方法在5種自適應與測試數據集上的平均提升結果如圖3所示。

圖3 相對于基線聲學模型性能提升結果
實驗結果表明,在使用相同的蒙古語語料庫和基線聲學模型的實驗環境下,使用MLLR-MAP自適應方法構建的蒙古語聲學模型,無論是在τ=22最優的情況下,還是在其他τ(例如τ=62)值的情況下,蒙古語聲學模型的識別率優于其他自適應的建模方法。并且在τ=22時,MLLR-MAP構建的蒙古語語音聲學模型是最優的。在平衡語料庫下,總正確率提升了14.54%,錯誤率下降了17.52%。在所有的實驗情況下,平均總正確率提升了17.27%,平均錯誤率下降了18.15%。
(1) 通過結合MLLR和MAP兩種自適應模型的
建模方法,給出了一種構建自適應蒙古語語音識別聲學模型的MLLR-MAP方法。
(2) 在τ值選取方面,為了選取合適的τ值,采取了折半取值逐漸逼近的方法,給出了蒙古語語音識別聲學模型MAP自適應的參數τ值。
(3) 在自適應聲學模型建模方法方面,把MLLR自適應后的均值作為聲學模型MAP自適應均值的輸入,有效均值的重估使得聲學模型識別率得到了進一步的提高。
(4) 設計了8個自適應建模實驗,通過實驗數據,充分對比了各種自適應聲學模型的建模方法。實驗結果表明,MLLR-MAP聲學模型自適應性能在聲學模型識別率上明顯優于其他模型,確定了MLLR-MAP方法比MAP-MLLR等其他方法在蒙古語語音識別上的有效性。因此,可以為其他少數民族語言語音識別聲學模型的自適應性建模提供借鑒。
未來的工作中,需要對非平衡訓練集在蒙古語語音識別聲學模型中的應用展開研究,以及對MLLR自適應中重估方差問題的研究。
[1] Leggetter C J, Woodland P C. Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models[J]. Computer Speech & Language, 1995, 9(2):171-185.
[2] Gales M J F. Maximum Likelihood Linear Transformations for HMM-based Speech Recognition[J]. Computer Speech & Language, 1998, 12(12):75-98.
[3] Borsky M, Pollak P. Knowledge-based and Automated Clustering in MLLR Adaptation of Acoustic Models for LVCSR[C]// International Conference on Applied Electronics. 2012:33-36.
[4] Ramya T, Christina S L, Vijayalakshmi P, et al. Analysis on MAP and MLLR based Speaker Adaptation Techniques in Speech Recognition[C]//Circuit, Power and Computing Technologies (ICCPCT), 2014 International Conference on. IEEE, 2014: 1753-1758.
[5] Povey D, Woodland P C, Gales M J F. Discriminative map for acoustic model adaptation[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. IEEE, 2003:312-315.
[6] Mahiba S M, Christina S L, Vijayalakshmi P, et al. Analysis of Cross-Gender Adaptation Using MAP and MLLR in Speech Recognition Systems[C]//Recent Trends in Information Technology (ICRTIT), 2013 International Conference on. IEEE, 2013: 387-392.
[7] Lee C H, Gauvain J L. Speaker adaptation based on MAP estimation of HMM parameters[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing: Speech Processing. IEEE Computer Society, 1993:558-561.
[8] 柯登峰, 徐波. 互聯網時代語音識別基本問題[J]. 中國科學, 2013, 43,(12):1578-1597.
[9] 豐洪才, 盧正鼎. 基于MAP和MLLR的綜合漸進自適應方法研究[J]. 計算機工程, 2005, 31(5):4-7.
[10] 飛龍, 高光來, 閆學亮, 等. 基于分割識別的蒙古語語音關鍵詞檢測方法的研究[J]. 計算機科學, 2013, 40(9): 208-211.
[11] CMU. Sphinx-4 Application Programmer’s Guide [EB]. http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4/#source#source.
[12] CMU. Training Acoustic Model for CMU Sphinx [EB]. http://cmusphinx.sourceforge.net/wiki/tutorialam.
[13] CMU. Adaptation for Very Small Grammar [EB].https://sourceforge.net/p/cmusphinx/discussion/help/thread/fe169a87/?limit=25#6022.