胡君,景新幸,楊海燕
HU Jun,JING Xinxing, YANG Haiyan
桂林電子科技大學 信息與通信學院,廣西,桂林 541004
School of information and Communication, Guilin University of Electrical Technology, Guilin,Guangxi, 541004, China
漢語是世界上使用人數最多的語言,越來越多的國外人加入學習漢語的行列中。在漢語的學習過程中,ML2大都缺乏語言環境且容易受自身母語的影響,對漢語發音的掌握尤為困難。隨著計算機技術與自動語音識別(Automatic Speech Recognition ,ASR)技術的引入與發展,計算機輔助語言教學(Computer assisted language learning,CALL)系統很好的解決發音訓練問題[1-3],可以隨時、隨地提供良好的漢語學習環境,實時對學習語音進行評價同時給予錯誤信息反饋。
發音評分作為計算機輔助漢語教學系統中的核心部分,解決學習者學習語音質量評價的問題,目前針對發音評分主要從主觀和客觀兩個角度進行分析。主觀的角度主要是基于語音特征比較的評分方法,由學習語音與標準語音之間的特征參數距離來衡量學習語音的質量,如文獻[2]采用動態時間規整(Dynamic time warping,DTW)方法。此類方法的優劣取決于標準語音的標準程度,同時缺少一定的客觀性;客觀的角度則是基于聲學模型的評分方法,如文獻[3]和文獻[4]采用基于隱馬爾可夫模型(Hidden Markov model,HMM)的后驗概率的方法。這類方法是基于置信度概率大小的計算,算法復雜度高且計算量大,不利于系統擴展。
本文針對ML2學習者研究基于計算機輔助漢語教學系統的發音評分方法,將發音評分分為發音效果與發音方式兩者的評分,從主觀和客觀兩個角度描述發音語音,引入雙語料語音庫減小系統受標準語音庫的影響。采用 BDTW方法進行發音效果和發音方式相似度判斷。最后依據各部分評分結果得出最后的系統得分。
發音評分就是確定學習語音與標準語音之間的相似度大小,可以從發音效果和發音方式兩方面進行比較。發音效果評分是比較學習語音與標準語音聽覺上的相似度,而發音方式評分則側重于判斷發音方式的準確程度。發音效果和發音方式是發音質量兩個不同的評價角度,在發音質量中的影響程度隨著發音質量不同而不同。
2.1.1 特征參數提取
語音特征參數可以表征語音的內容特性,語音的比較即為語音特征參數的比較。語音發音效果可以采用梅爾倒譜參數(Mel Frequency Cepstral Coefficients,MFCC)、韻律參數和能量參數來表征。MFCC能充分利用人耳的聽覺特性,具有很好的系統魯棒性【5】;漢語作為一門聲調語言,韻律在發音質量中占有很大的比重,因此系統中韻律參數對于反應學習者發音效果質量有很重要的評價作用;基頻軌跡曲線可以很好的反應語音聲調、韻律的變化;能量也可作為反映發音效果的重要參數,因此本文提取MFCC、基頻軌跡曲線和能量作為發音效果特征參數。
2.1.2 BDTW評分算法
發音效果的評分關鍵是比較在發音聽覺上與標準語音的相似度,基于DTW技術是用來尋找語音參數之間最近的匹配路徑,通過距離大小可以反映語音相似度大小。BDTW算法是在 DTW基礎上引入雙語種說話人(Bilingual Speaker and Mandarin as a second language,B2)語音庫作為輔助參考標準,將B2語音與標準語音之間的距離作為參考距離來衡量學習語音與標準語音之間的距離。在進行學習語音評分之前需要進行參考距離的距離訓練。
B2語音庫是雙語種說話人的良好到差各個等級發音,作為輔助參考標準可以消除一部分由于ML2母語影響造成的發音聽覺上的差異,同時精細學習者的發音效果,提供更好的學習指導。非標準的B2語音還可用于評分映射模型訓練。圖1示出了雙語音特征比較的評分算法流程。
2.1.3 MFCC特征比評分
系統在模型訓練階段,首先收集母語為漢語的標準發音者(Learner with Mandarin as first language ,ML1)的發音作為標準語音庫,提取標準語音庫MFCC參數,假設標準語音庫中共含有L個語料的標準語音,每個ML1語音在B2語音庫中對應N個B2標準語音,利用DTW分別求出ML1與之對應的最短MFCC參數距離,構成MFCC-ML1參考距離庫,則ML1庫中某個語音的MFCC-ML1參考距離庫可以表示為:{DMl-B1, DMl-B2,…DMl-Bi…DMl-BN}。
發音評分階段提取學習語音的MFCC參數,將學習語音與ML1標準語音的MFCC特征參數距離定義為學習距離 Dl-Ml。將學習距離與標準距離庫進行匹配,尋找最小的特征距離作為最終評判距離Dfin,經過評分機制的映射得到特征比得分。

MFCC特征比評分計算公式為:其中 a和 b為常數,可以通過實驗確定,min(DMli-Bij)為第i個發音的參考距離庫中最小距離,DMli-Bij為第i個發音參考距離庫中第j項距離值,i=1,2…L,j=1,2…N。dist表示歐式距離。

圖1 基于DTW的雙語音特征比較的評分算法流程圖
2.1.4 聲調、能量特征比評分
聲調、能量特征評分是基于基頻軌跡、能量曲線的相似度比較。在B2中尋找到與學習語音MFCC距離最小的語音后,提取該語音的基音周期及基頻軌跡曲線,并與學習語音的基音周期及基頻軌跡曲線進行距離比較。這里的距離取歐氏距離,聲調、能量評分公式為:

其中a[ i]和b[ i]分別為匹配B2語音和學習語音的基頻軌跡曲線或者能量包絡曲線DTW路徑上各點值,C為計算系數,由實驗確定。
2.1.5 發音效果得分
發音效果得分由MFCC、聲調評分和能量參數評分三部分的線性加權得到。計算公式為:


其中wi(i=1,2,3)分別為 MFCC、聲調評分和能量參數權重,可以通過線性回歸的方法得到。Scorei(i=1,2,3)分別為 MFCC、聲調、能量得分。
ML2的發音傾向于清晰度低而且持續時間長,整體發音不飽滿,發音方式容易受母語影響,特別是對于漢語的第三聲、有無后鼻音、和有無翹舌音的發音掌握比較困難,而這三者又是漢語的特色所在。因此在進行發音效果評分之前系統需要能夠判斷ML2學習者的第三聲、后鼻音、和翹舌音的三種發音方式的準確程度。
2.2.1 特征參數
一般來說,第三聲與非三聲語音相比,能量和過零率相似,而三聲持續時間卻要大于非三聲;翹舌音的過零率要比非翹舌音的過零率大的多;后鼻音與非后鼻音整體能量相差不大,只是后鼻音能量在發音轉折前部分高而后部分低,而非后鼻音相反在發音前部分低而后部分能量較高,能量曲線可以很好的反應這種特性。因此可以比較學習語音與標準語音的語音能量、過零率、發音持續時間三種特征參數來評價學習語音發音方式。
2.2.2 評分實現
將整個語音庫按發音方式進行分類并進行標注,分為:三聲和非三聲集合 1、有鼻音和無鼻音的集合 2、有卷舌音和無卷舌音集合 3。分別提取集合中各語音的發音方式特征參數,如集合1中提取發音持續時間、集合2中提取能量曲線、集合3中提取過零率。在學習語音識別后階段通過簡單的決策樹來確定該學習語音比較的參數,如圖2所示。運用BDTW技術找到與標準語音的距離最相近的M個語音,計算學習語音與M個相近的標準語音的參數平均距離,由評分機制求出學習語音的發音方式得分。
發音方式評分的計算公式:

其中distc為學習語音與標準語音之間的歐式距離,M 由實驗得出,dist為標準語音與學習語音之間的距離,distC為標準語音與學習語音之間的平均距離,λ為計算系數,由實驗得到。
學習語音的最終系統得分包含發音效果評分與發音方式評分兩部分,分別為兩部分設定閾值,動態的為兩部分分配權值。在小于閾值情況下,發音方式評分權重大,發音效果評分權重低,相應的大于閾值時發音效果評分的權重更高。即在發音方式小于閾值的情況下,認為發音評分低主要來源于發音方式錯誤而增加發音方式的權重以減少主觀上的錯誤評分,反之則注重發音效果的評判。系統得分公式為:

圖2 決策樹判斷語音比較的發音方式參數

其中f1,f2為權重值,且f1>f2,由實驗得到。Scoref,scorex分別為發音效果和發音方式閾值。
本實驗實現的是母語為英語的學習者學習漢語的發音評分。實驗中包含漢語標準語音庫、雙語種說話人漢語語音庫及測試語音庫三種語音庫。標準語音庫來源于863標準語音庫,雙語種說話人漢語標準語音庫采用20名(其中10男性10女性)母語為英語的說話人語音,說話人每人說50個字詞,由專家評分,評分為良好以上(70%)的說話人語音作為B2標準語音庫,測試語音自實驗室收集的10名(5男5女)母語為英語的學生每人10個字詞的發音,每個字詞發音10遍,將系統得分與專家評分進行對比,得到機器與人工評分的相關度。實驗仿真均在Mtalab 7.0環境下進行。
由于選擇庫標準時性別不同對于評分結果影響很大,因此需要建立性格相關的發音評分模型。建立男聲、女聲獨立的語音庫,提取學習語音參數過程之前判斷學習者性別,調用相應的標準語音庫。表1為某一個測試者10次發音“我們”學習語音的系統評分和人工評分結果。Scoref,scorex閾值分別取45和60,M取10。
表1可以看出,學習者在發音方式得分低的情況下,系統得分偏低,在發音方式得分增加的同時,發音效果與系統得分提高,在發音方式穩定的情況下,系統得分取決于發音效果得分,這與人工評分保持一致,也說明了系統的有效性。

表1 學習者10次發音評分及人工評分
將本文基于發音效果和發音方式的BDTW特征比評分命名 Effect-Mode-BDTW方法,Effect-Mode-BDTW方法和其他評分算法與專家評分之間的相關性比較結果如表2所示。
Effect-Mode-BDTW方法較段時長、對數釋然、GOP算法在相關度上有所提高,且實施方案簡便、評分更為全面。而相對于類似方法的 MFCC-DTW 方法,更為突出漢語發音的特點,對ML2學習者發音特性都有較好的學習評價。對于發音方式的評判目前只是包含三種易錯的發音方式,在加入更多發音方式評判后系統性能更優。

表2 算法之間的相關度比較
本文引入雙語種說話人語音,將發音評分分為發音效果和發音方式兩部分,由特征參數的相似度評價語音的發音質量。該方法簡單有效,適用于ML2的漢語評分。不同母語的學習者發音方式不同,且發音方式本身具有多樣性,系統對表征發音方式的特征參數及其評分尚不完善,還需要提取更為有效的發音效果特征參數、建立更多更為精細的發音方式集合以提高發音評分準確性。
[1]宋芳芳,宋曉麗,馬青玉.基于語音識別技術的英語口語自學系統評分機制的研究[J].Computer Kowledge and Technology 2009, 5(7):1726-1728.
[2]劉振安, 羅永釗.基于特征比較的語音評分方法研究[J].計算機應用.2005,25(12):2928-2930.
[3]Chaohuang, Fengzhang, Frank K.soong .Improving automatic evaluation of Mandarin pronuncition with speaker adaptive training and MLLR speaker adaption[c].Chinese Spoken Language Processing,2008:1-4.
[4]Fengpei Ge,LiLu,YonghongYan.Experimental Invest-igation of Mandari Pronunciation Quality ssessment System[C].2011 International Symposium on Computer Science and Society, 2011:235-239.
[5]Tobias Cincarek, Rainer Gruhn,Christian Hacker.Automatic pronunciation scoring of words and sentences independent from the non-native’s first language[J].Computer Speech and Language, Volum-e23 Issue1, January 2009:65-88.
[6]Helme Strik, Khiet Truong, Febe de Wet,Cstia Cucchiarini.Comparing different approaches for automatic pronunciation error detection[J].Speech Communication, Volume 51 ,issue10,October 2009:845-852.[7]NEUMEYER L, FRANCO H, DIGALAK IS V, et al.Automatic Scoring of Pronunciation Quality[J].Spee-ch Communication,2000, 30(2):83- 93.
[8]WITT SM, YOUNG S J.Phone Level Pronunciat ion S coring and Assessment for Interact ive Language Learn ing[ J].Speech Communication, 2000, 30(2):95 - 108.