晁 浩,楊占磊,劉文舉
(1.河南理工大學計算機科學與技術學院,河南 焦作 454000;2.中國科學院自動化研究所模式識別國家重點實驗室,北京100190)
基于最大似然線性回歸的隨機段模型說話人自適應研究*
晁 浩1,2,楊占磊2,劉文舉2
(1.河南理工大學計算機科學與技術學院,河南 焦作 454000;2.中國科學院自動化研究所模式識別國家重點實驗室,北京100190)
提出了一種隨機段模型系統的說話人自適應方法。根據隨機段模型的模型特性,將最大似然線性回歸方法引入到隨機段模型系統中。在“863-test”測試集上進行的漢語連續語音識別實驗顯示,在不同的解碼速度下,說話人自適應后漢字錯誤率均有明顯的下降。實驗結果表明,最大似然線性回歸方法在隨機段模型系統中同樣能取得較好的效果。
語音識別;說話人自適應;最大似然線性回歸;隨機段模型
語音識別經過幾十年的發展己經取得了很大的進展,在純凈語音條件下已經達到了很高的識別率,但是當訓練環境和識別環境不匹配時,現有的識別系統的性能通常會嚴重下降,這是語音識別技術實用化的一個嚴重障礙。語音識別系統能在不同的條件下保持較高識別率的性質被稱為穩健性,影響穩健性的因素很多,說話人的變化是影響穩健性的一個重要因素。盡管說話人無關識別系統已經取得了長足的進步,但是這類系統的性能與針對特定說話人的識別系統間仍存在巨大的差異。大部分說話人無關SI(Speaker Independent)系統不能對所有的說話人表現如一,說話人年齡、性別、情緒、語言習慣的差異都可能帶來識別性能的嚴重下降,說話人相關SD(Speaker Dependent)系統可以達到更高的識別率,但是為得到說話人相關的碼本需要大量說話人的數據,這在實際中往往很難得到。說話人自適應技術SA(Speaker Adaptation)則可以很好地解決這一問題。說話人自適應技術利用少量的待識別的說話人數據自適應說話人無關系統,使系統盡量體現待識別說話人的特性。相對于SI系統來說,SA可以提高系統的識別率,相對于SD系統來說,又不需要大量的說話人數據。因此,通過說話人自適應的方式對聲學模型參數進行優化成為語音識別領域一重要的研究方向[1]。
隨機段模型SSM(Stochastic Segment Model)是針對隱馬爾科夫模型HMM(Hidden Markov Model)的缺陷而提出的一種替代模型[2,3],由于其復雜度相對于HMM較高,最初只能用于孤立詞識別,對HMM系統的解碼結果進行二次搜索等任務。經過了十多年的不斷研究,段模型從開始只能用于二次解碼逐漸發展應用到小詞匯量連續語音識別,最后成功地應用到大詞匯量連續語音識別任務中[4,5]。為了使基于隨機段模型的語音識別系統的性能得到進一步提升,從而能夠與最新的基于HMM的識別系統相比較,對段模型進行說話人自適應的優化是十分必要的。
與傳統的最大后驗概率自適應方法MAP(Maximum A Posteriori)[6]相比,最大似然線性回歸MLLR(Maximum Likelihood Linear Regression)方法[7]只需要較少的自適應訓練數據就能得到較好的效果,是HMM系統常用的說話人自適應方法。近年來,基于說話人空間的本征音EV(Eigen Voice)自適應方法成了研究熱點[8~10]。該方法選取參考說話人(Reference Speaker)并從語料庫中抽取基向量,對于目標說話人,其聲學模型參數就是上述基向量的線性組合。相對傳統的MAP和MLLR方法,這種方法能在只有極少自適應數據的條件下取得很好的效果。
本文的主要研究目標是將HMM系統常用的MLLR方法擴展應用到隨機段模型系統。與HMM以語音幀為基本解碼單元不同,SSM以語音段為基本建模單元和解碼單元,是對聲學特征序列描述更為精確的聲學模型。因此,基于HMM系統提出的MLLR方法不能直接用于隨機段模型,需要對MLLR方法進行改進,使其適應于隨機段模型。

(1)

(2)
其中,ri為隨機段模型α的第i個域模型。
MLLR方法是求得一組線性變換,通過這組變換,使自適應數據的似然函數最大化。HMM系統中,MLLR方法待變換的參數一般是狀態層的GMM的均值;在隨機段模型中待變換的參數是域模型的均值向量。變換過程可以簡單地表示如下:

(3)


(4)

(5)


(6)

(7)



(8)


(9)

(10)


(11)

(12)

(13)
其中:
(14)
在協方差矩陣為對角矩陣的情況下,根據公式(13)可得:
(15)

4.1 實驗設定與基線系統
實驗所用的數據庫為國家863項目漢語廣播語音庫。使用全部的83位男性說話人的數據訓練聲學模型,共48 373句,約55.6小時。使用6個男說話人數據做測試集,共240句話,約17.1分鐘。聲學特征包括12維梅爾頻率倒譜系數(MFCC)及一維標準化能量,以及它們的一階及二階差分,幀窗長為25.6 ms,幀移為10 ms。實驗中采用的漢語普通話音素集包含24個聲母及37個韻母,每一個韻母含有五個聲調。去除訓練庫中沒有出現的聲韻母,音素集中共包含191個基本音素。
隨機段模型的建模單元為聲韻母,采用背景相關的三音子結構,每個段模型包含15個域模型和一個基于伽馬分布的時長模型。每個域模型由12個混合數的高斯混合模型模擬。域模型采用基于音素的決策樹進行參數合并。三音子模型一共有202 984個,經過參數綁定后實際上的物理模型數為24 180個,包含了7 983個共享的域模型。
為了與HMM系統進行性能比較,我們將文獻[12]中搭建的基于HMM的解碼器作為HMM的基線系統。該系統同樣采用上下文相關的聲母/帶調韻母作為基本的建模單元,具體為三音子模型。HMM使用連續密度的從左到右的拓撲結構,包含5個狀態,其中3個為發射狀態。每個發射態的輸出概率用16個混合數的混合高斯模型建模。經過參數綁定后,其物理模型個數為15 046個,包含了4 575個共享狀態。兩系統所用語言模型為二元語言模型,包含48 188個詞。兩系統具體參數如表1所示。
4.2 結果及分析
我們對六個不同的說話人分別進行了自適應

Table 1 Parameters of the HMM system and the SSM System表1 HMM系統和SSM系統的參數
的訓練,每個說話人共有40句話的語料,分別利用每個說話人的前5、10、15、20句話作為自適應語料來對聲學模型進行有監督和無監督的訓練,然后用后20句話作為測試語料。所用的數據都從863連續語音庫中選取。同時,我們通過設定剪枝閾值的方式來控制HMM和SSM的解碼速度,從解碼速度和識別精度兩方面比較分析SSM和HMM的性能。表2顯示了采用不同自適應方法以及不同規模的自適應數據后,隨機段模型系統在測試集上的識別結果。可以看出隨著自適應數據的增加,不管是采用無監督MLLR方法還是有監督MLLR方法,系統的誤識率持續下降,而有監督MLLR方法的效果又明顯要優于無監督MLLR方法。

Table 2 Performance of SSM after adaptation表2 隨機段模型的自適應
我們還對HMM和SSM自適應前后的性能做了比較。圖1顯示了四個系統的漢字錯誤率-實時因子曲線,以便同時考察系統解碼的精度和速度。其中SSM和HMM為自適應前兩種模型的識別結果。由于SSM的模型與HMM相比更為復雜,而且SSM采用雙重解碼的形式,所以當要求的解碼時間較短時,SSM的錯誤率要高于HMM。例如,實時因子為0.58時,HMM的漢字錯誤率為17.02%,而SSM為18.09%。而隨著解碼時間的增加,SSM能夠發揮其模型更精細的優勢,和HMM之間識別精度的差距也逐漸縮小。當解碼時間超過1.2倍的實時后,SSM的漢字錯誤率已經低于HMM。
圖1中SSM+MLLR為隨機段模型經過MLLR自適應后的結果,HMM+MLLR為隱馬爾科夫模型經過MLLR自適應后的結果。不管是SSM還是HMM,在解碼時間較短時MLLR自適應對模型精度提升的程度較大。例如,實時因子為0.58時,HMM系統的漢字錯誤率從17.02%下降到15.60%,錯誤率相對下降了8.34%;而SSM的漢字錯誤率從18.09%下降到16.48%,錯誤率相對下降了8.90%。實時因子上升到1.58時,HMM系統的漢字錯誤率從13.65%下降到12.71%,錯誤率相對下降了6.89%;而SSM的漢字錯誤率從13.07%下降到12.48%,錯誤率相對下降了4.51%。解碼時間較長時,由于此時設定的剪枝閾值較低,保留的候選路徑數增大,所以經過說話人自適應優化后的聲學模型能夠更好地發揮作用。而剪枝閾值設置較高時,解碼速度加快,但解碼時保留的候選路徑數降低,有可能將正確的路徑剪掉,這種情況下自適應算法實際上并沒有起到應有的作用,所以無論是HMM還是SSM,自適應后識別精度提高得不明顯。

Figure 1 Performance comparison between HMM and SSM圖1 HMM和SSM自適應前后的性能對比
另外,實時因子較大時,隨機段模型自適應后與HMM相比性能提升程度稍低。原因可能是隨機段模型的SI系統的準確率比HMM高,所以進一步提高系統的準確率要比HMM困難,說話人自適應技術對SSM起到的作用沒有HMM大。盡管如此,實時因子大于1.2時自適應后的SSM系統的誤識率仍然低于HMM系統。
本文根據隨機段模型本身的特點,將HMM系統常用的最大似然線性回歸說話人自適應方法擴展應用到隨機段模型系統中。在863語料庫測試集上的實驗中,自適應后的SSM系統其識別精度在不同的解碼速度下都取得了明顯的提升。實驗結果表明了MLLR說話人自適應方法對SSM系統的有效性。
[1] Li Hu-sheng,Liu Jia,Liu Run-sheng.Technology of speaker adaptation in speech recogniton and its development trend[J]. Acta Electronica Sinica,2003,31(1):103-108. (in Chinese)
[2] Kimball O,Ostendorf M,Bechwati I.Context modeling with the stochastic segment model[J]. IEEE Transactions on Signal Processing,1992,40(6):1584-1587.
[3] Tang Yun, Liu Wen-Ju, Xu Bo, Mandarin digit string recognition based on segment model using posterior probability decoding[J]. Chinese Journal of Computers, 2006,29(4):635-642. (in Chinese)
[4] Tang Yun, Liu Wen-Ju, Zhang Hua. One-pass coarse-to-fine segmental speech decoding algorithm[C]∥Proc of ICASSP, 2006:441-444.
[5] Zhang Hua, Liu Wen-ju, Xu Bo. Research on adaptive step decoding in segment-based LVCSR[C]∥Proc of IEEE NLP-KE’07, 2007:463-467.
[6] Gauvain J L, Lee C H. Maximum a posteriori estimation for multivariate Gaussian observations[J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(2):291-298.
[7] Leggetter C,Woodland P.Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models[J]. Computer Speech and Language, 1995, 9(2):171-185.
[8] Tang Yun, Rose R C. Rapid speaker adaptation using clustered maximum-likelihood linear basis with sparse training data[J]. IEEE Transactions on Audio, Speech & Language Processing, 2008, 16(3):607-616.
[9] Kuhn R, Junqua J C. Rapid speaker adaptation in eigenvoice space[J]. IEEE Transactions on Speech and Audio Processing, 2000, 8(6):695-707.
[10] Luo Jun, Ou Zhi-jian, Wang Zuo-ying. Eigenvoice-based MAP fast adaptation in correlation subspaces[J]. Journal of Tsinghua University (Science and Technology), 2005, 8(6):829-832. (in Chinese)
[11] Li C F, Siu M. Training for polynomial segment model using the expectation maximization algorithm[C]∥Proc of ICASSP, 2004:841-844.
[12] Yang Zhan-lei, Liu Wen-ju. A novel path extension framework using steady segment detection for mandarin speech recognition[C]∥Proc of INTERSPEECH, 2010:226-229.
附中文參考文獻:
[1] 李虎生,劉加,劉潤生. 語音識別說話人自適應研究現狀及發展趨勢[J]. 電子學報,2003,31(1):103-108.
[3] 唐赟,劉文舉,徐波. 基于后驗概率解碼段模型的漢語語音數字串識別[J]. 計算機學報, 2006, 29(4):635-642.
[10] 羅駿, 歐智堅, 王作英. 基于相關子空間本征音分析的MAP快速自適應[J]. 清華大學學報(自然科學版),2005, 44(6):829-832.
CHAOHao,born in 1981,PhD candidate,lecturer,his research interest includes speech recognition.
Researchofspeakeradaptationofstochasticsegmentmodelsusingmaximumlikelihoodlinearregression
CHAO Hao1,2,YANG Zhan-lei2,LIU Wen-ju2
(1.School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo 454000;2.National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)
A speaker adaptation method of Stochastic Segment Model (SSM) is proposed. According to the SSM’s characteristics, the theory of Maximum Likelihood Linear Regression (MLLR) method is introduced into the SSM-based systems. Continuous Chinese speech recognition experiment on "863-test" test suite shows that the proposed method makes the error rate of Chinese characters decrease obviously under different decoding speeds. Experiment results indicate that the proposal can also improve the recognition performance on the SSM-based systems.
speech recognition;speaker adaptation;maximum likelihood linear regression;stochastic segment model
1007-130X(2014)08-1604-05
2012-12-19;
:2013-04-03
國家自然科學基金資助項目(91120303,90820303,90820011);國家973計劃資助項目(2004CB318105);國家863計劃資助項目(20060101Z4073,2006AA01Z194)
TP391.4
:A
10.3969/j.issn.1007-130X.2014.08.032

晁浩(1981-),男,河南鄢陵人,博士生,講師,研究方向為語音識別。E-mail:chaohao@hpu.edu.cn
通信地址:454000 河南省焦作市河南理工大學計算機科學與技術學院
Address:School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo 454000,Henan,P.R.China