朱洪濤, 黃桂敏
(1.桂林電子科技大學 信息與通信學院,廣西 桂林 541004; 2.桂林電子科技大學 計算機與信息安全學院,廣西 桂林 541004)
隨著計算機輔助發(fā)音訓練(computer assisted pronunciation training,簡稱CAPT)技術(shù)的發(fā)展,中國學生自主英語口語學習成為了可能。為了使學生更有針對性地進行口語練習,CAPT系統(tǒng)需要準確評估學生的發(fā)音水平并給出有效的反饋指導[1-2],因此,發(fā)音質(zhì)量評測作為CAPT的一項關(guān)鍵技術(shù)獲得了廣泛的關(guān)注。
在統(tǒng)計語音識別框架下,聲學模型是發(fā)音質(zhì)量評測的基礎(chǔ),許多研究人員通過改進聲學模型來提升評測性能。Abdou等[3]采用最大似然線性回歸(maximum likelihood linear regression,簡稱MLLR)算法調(diào)整聲學模型,以匹配二語學習者的聲學特征。為了使MLLR自適應(yīng)后的聲學模型仍具有較高的標準度,Luo等[4]提出一種Regularized-MLLR方法,該方法使用多個教師變換矩陣的線性組合來表示學習者的變換矩陣,能夠避免過自適應(yīng)情況的發(fā)生。Landini等[5]比較了基于對數(shù)似然比得分的發(fā)音評分系統(tǒng)中不同聲學模型的訓練方法,使用未標注過的大量語音數(shù)據(jù)訓練了一個基線聲學模型,采用最大后驗概率(maximum a posterior,簡稱MAP)算法,并利用與目標說話人特征相匹配的少量語音依次進行模型的自適應(yīng),分別得到2個性能最優(yōu)的母語和非母語聲學模型。Song等[6]采用說話人自適應(yīng)訓練方法來補償訓練語料中眾多說話人的聲學特征差異,也取得了不錯的效果。
除了提高聲學模型的適應(yīng)性外,評分特征融合方法也可提升評測性能。以聲學模型為參考模板,可以提取出不同類型的評分特征,如GOP(goodness of pronunciation)[7]、語速等。單獨使用這些評分特征只能從發(fā)音準確度、流利度等某一方面表征學生的發(fā)音質(zhì)量,經(jīng)過評分特征融合后就能夠全面衡量學生的整體發(fā)音水平[8-9]。此外,提取的這些評分特征與人工評分之間往往呈非線性關(guān)系[10],直接使用多元線性回歸算法進行融合,會降低機器評分的準確性。一些非線性回歸,如神經(jīng)網(wǎng)絡(luò)算法[10],雖然能夠較好地逼近這種非線性關(guān)系,但需要大量的數(shù)據(jù)對模型進行細致的訓練。支持向量回歸(support vector regression,簡稱SVR)算法[11]通過變換特征空間進行線性運算,只需要少量的訓練樣本就能高效地學習系統(tǒng)輸入與輸出之間的非線性關(guān)系,并且比傳統(tǒng)方法具有更好的泛化能力。
鑒于此,針對中國學生的英語朗讀發(fā)音進行研究,從聲學模型和評分特征融合2個方面提出改進方案。利用計算機自動篩選出的發(fā)音正確數(shù)據(jù),對標準美音聲學模型進行MLLR-MAP二級自適應(yīng);在改進后的聲學模型基礎(chǔ)上,分別提取學生朗讀語音的準確度、流利度以及完整度特征;訓練了一個支持向量回歸評分模型,將這些評分特征融合映射為最終的朗讀質(zhì)量分數(shù),從而實現(xiàn)對學生朗讀發(fā)音質(zhì)量的有效評測。
發(fā)音質(zhì)量評測必須確保聲學模型的標準度,只有這樣才能準確度量學生發(fā)音相較于標準模型的相似度。由于標準聲學模型使用標準美音訓練得到,具有很高的標準度,但在實際應(yīng)用中評測中國學生的英語發(fā)音時,不可避免地出現(xiàn)音色、發(fā)音習慣等聲學特征方面的差異,這就造成了聲學模型和測試語音的失配。因此,需要減弱這些差異對聲學模型的影響,才能準確評測出中國學生的英語發(fā)音質(zhì)量。
MLLR和MAP是2種不同的說話人自適應(yīng)算法,在語音識別任務(wù)中可減弱聲學模型與測試語音之間的不匹配。當將其應(yīng)用于發(fā)音質(zhì)量評測時,同樣需要減弱這種不匹配,但必須保證調(diào)整后的聲學模型仍具有較高的標準度。在HMM-GMM聲學模型中,這些差異往往體現(xiàn)在GMM參數(shù)上。MLLR算法通過估計模型參數(shù)的線性變換來最大化自適應(yīng)數(shù)據(jù)的似然度,這些變換能夠調(diào)整聲學模型,以匹配測試語音,只需少量的數(shù)據(jù)就能取得較好的效果。MAP算法能夠更精細地重估GMM模型參數(shù),但只能對自適應(yīng)語料中有觀測矢量的高斯分布進行更新,當數(shù)據(jù)較多時可獲得比MLLR算法更好的性能。因此,為了充分利用這2種算法的優(yōu)點,采取MLLR-MAP二級自適應(yīng)策略來調(diào)整模型參數(shù)。使用MLLR調(diào)整聲學模型時,HMM模型的狀態(tài)高斯分布都使用同一個變換矩陣,以使所有的模型參數(shù)都能更新,再采用MAP算法對模型進行更細致的調(diào)整。同時,為了保證調(diào)整后聲學模型的標準度,利用計算機自動標注學生語音,篩選出發(fā)音正確的音素段作為自適應(yīng)語料。MLLR-MAP聲學模型自適應(yīng)框圖如圖1所示。

圖1 MLLR-MAP聲學模型自適應(yīng)框圖
首先,使用標準美音聲學模型,將學生的朗讀語音切分成獨立的音素段。然后計算得到這些音素段的GOP得分,將得分高于預(yù)設(shè)閾值的音素段作為自適應(yīng)語料。采用MLLR算法調(diào)整模型參數(shù),再采用MAP算法對模型進行更細致的調(diào)整,最終得到一個適合于評測中國學生英語發(fā)音的聲學模型。
為全面衡量學生的朗讀發(fā)音質(zhì)量,從3個方面提取了評分特征:
1)準確度特征:對數(shù)后驗概率、GOP;2)流利度特征:語速、段時長和暫停時長;3)完整度特征:單詞匹配度。
1.2.1 對數(shù)后驗概率
對于音素qi,與其對應(yīng)的每幀觀測向量為Ot,幀級后驗概率定義為
(1)

(2)
一句話的對數(shù)后驗概率評分ρ定義為該句話中所有N個音素的對數(shù)后驗概率評分均值,
(3)
1.2.2 GOP
GOP是對數(shù)后驗概率的一種簡化。音素qi的GOP定義為
(4)
對一句話中所有N個音素的GOP評分求均值,即可得到該句的GOP評分:
(5)
1.2.3 語速
語速定義為單位時間內(nèi)學生朗讀的音素個數(shù),語速的快慢很好地反映了學生朗讀的流暢程度。語速RS的計算式為
(6)
其中:T為朗讀時間;Q為該段時間內(nèi)學生朗讀的音素數(shù)量。
1.2.4 段時長
段時長表示學生朗讀語音中不同音素的發(fā)音時長,段時長評分定義為
(7)
其中:f(di)為歸一化函數(shù),通常用語速進行歸一化,定義為f(di)=diRS。
1.2.5 暫停時長
學生朗讀時,若不清楚某個單詞如何發(fā)音,則單詞之間就會出現(xiàn)停頓,總停頓時間在朗讀時間中所占的比例反映了學生朗讀的流暢程度。暫停時長定義為
(8)
其中TSIL為朗讀語音中靜音部分總時長。
1.2.6 單詞匹配度
學生朗讀時有可能出現(xiàn)單詞漏讀的情況,將學生朗讀的單詞數(shù)在朗讀內(nèi)容中的比率作為完整度的評價指標,單詞匹配度定義為
(9)
其中:w為識別結(jié)果與指定朗讀內(nèi)容相匹配的單詞數(shù);W為朗讀內(nèi)容的單詞總數(shù)。
支持向量回歸是一種基于結(jié)構(gòu)風險最小化準則的機器學習算法,其充分利用了機器學習的優(yōu)勢,僅用有限的訓練樣本就能夠?qū)W習復(fù)雜的數(shù)據(jù)模式,從而將特征映射到目標評分[12]。為此,采用支持向量回歸對評分模型進行特征融合,實現(xiàn)對學生朗讀發(fā)音質(zhì)量的準確評測。
給定訓練集{(xi,yi),i=1,2,…,l},其中xi∈Rn為第i段語音的n維評分特征向量,yi∈R為第i段語音對應(yīng)的人工評分,l為訓練集的語音樣本數(shù),在ε-SVR[13]中,其目標就是對于訓練集的特征向量xi,找到一個最優(yōu)函數(shù)f(xi)來逼近人工評分yi,使得預(yù)測誤差在ε范圍內(nèi)。SVR回歸函數(shù)f(x)定義為
f(x)=〈w,Φ(x)〉+b。
(10)
其中:〈*,*〉為內(nèi)積運算;Φ(x)為x的非線性函數(shù);w為權(quán)值向量;b為偏置項。w、b是需要估計的參數(shù)[13]。回歸函數(shù)f(x)可簡化為
(11)

SVR算法使用不同的核函數(shù)來代替內(nèi)積,避免了高維空間的過量計算,能夠構(gòu)造原始空間的各種非線性模型[12]。為了確定合適的核函數(shù),分別測試了多項式核、Sigmoid核以及RBF核的融合性能。最終選用RBF核函數(shù),形式為
K(xi,x)=exp(-γ‖xi-x‖2),
其中γ為核參數(shù)。
由于直接計算得到的評分特征取值區(qū)間與人工評分不一致,在評分特征融合之前,先采用三次多項式函數(shù)將特征得分歸一化到[0,1]區(qū)間。三次多項式函數(shù)為
(12)

基于SVR的特征融合框圖如圖2所示。對于學生的朗讀語音,首先提取不同種類的評分特征,并計算特征得分。然后采用三次多項式函數(shù)對每個評分特征值進行調(diào)整,將調(diào)整后的評分特征值以及相應(yīng)的人工評分作為輸入訓練SVR模型參數(shù)。最后用訓練好的SVR模型預(yù)測學生的朗讀發(fā)音質(zhì)量評分。
使用卡耐基梅隆大學發(fā)布的Sphinx 4語音識別系統(tǒng)為實驗平臺。聲學模型自適應(yīng)語料來自20名大學生的英語發(fā)音,每位學生盡可能標準地朗讀Arctic語料庫中的30個句子,共計600份語音數(shù)據(jù)。
朗讀語音數(shù)據(jù)庫由50名大學生的英語朗讀語音構(gòu)成,其中25位男生,25位女生,包含了從發(fā)音較差到發(fā)音標準的不同水平學生。每人朗讀Arctic語料庫中的30個句子,每句為8~15個單詞,共計1500份語音數(shù)據(jù)。邀請3位經(jīng)驗豐富的英語教師,從發(fā)音準確度、流利度和完整度3個方面對這些語音的整體發(fā)音質(zhì)量進行0~5打分,0分最低,5分最高,最后以3位教師打分均值為每份語音數(shù)據(jù)的人工打分。
人工打分作為機器評分性能的參考,需要首先評估其一致性。采用open-correlation作為一致性評價的指標。假設(shè)有L位評分者,則評分者k打分的open-correlation計算式為
(13)
其中:hk為評分者k的打分向量;r(*,*)為2個打分向量間的相關(guān)度,計算式為
(14)

3位英語教師打分一致性統(tǒng)計如表1所示。從表1可看出,句子級和說話人級open-correlation均值分別為0.706和0.847,說明人工打分的一致性較好,可作為機器評分的上界。

表1 人工打分的open-correlation
從朗讀語音數(shù)據(jù)庫中隨機抽取80%的數(shù)據(jù)作為訓練集,其余的20%作為測試集,計算測試結(jié)果與對應(yīng)人工評分的相關(guān)度,并采用5折交叉驗證的相關(guān)度均值來衡量機器評分性能。
實驗分別測試了每個評分特征性能,然后采用SVR評分模型將其融合,測試整體性能。發(fā)音準確度特征性能如表2所示。從表2可看出,對數(shù)后驗概率和GOP是很好的準確度度量指標,單獨使用可獲得較高的評測性能,其中GOP的性能最好,句子級相關(guān)度為0.482,說話人級相關(guān)度為0.648。這2種特征結(jié)合,發(fā)音準確度性能進一步提升,句子級相關(guān)度提升到0.506,說話人級相關(guān)度提升到0.735。

表2 發(fā)音準確度特征性能
發(fā)音流利度特征性能如表3所示。從表3可看出,在3個流利度特征中語速的性能最好,句子級和說話人級相關(guān)度分別為0.426和0.618。說明發(fā)音水平高的學生語速相對較快,朗讀更流暢,從而可獲得更高的人工評分。3種特征結(jié)合,發(fā)音流利度整體性能有明顯提升。
朗讀完整度特征性能如表4所示。從表4可看出,使用單詞匹配度來評估朗讀完整度可獲得較好的評測性能,句子級和說話人級相關(guān)度分別為0.439和0.607。

表3 發(fā)音流利度特征性能

表4 朗讀完整度特征性能
綜合準確度、流利度以及完整度特征,朗讀發(fā)音質(zhì)量整體評測結(jié)果如表5所示。從表5可看出,發(fā)音準確度和發(fā)音流利度特征在整體中所占的比重較大,其中發(fā)音準確度特征比發(fā)音流利度特征的性能稍好。同時,綜合發(fā)音準確度、發(fā)音流利度以及朗讀完整度特征來評估整體發(fā)音質(zhì)量,獲得了最高的評測性能,句子級和說話人級相關(guān)度分別達到了0.579和0.796,比發(fā)音準確度特征分別提高了14.4%和8.3%。

表5 整體發(fā)音質(zhì)量性能
為了驗證本發(fā)音質(zhì)量評測模型的效果,采用不同的聲學模型自適應(yīng)方法與評分特征融合算法建立了4個評測模型,并計算機器評分和人工評分之間的說話人級相關(guān)度。采用不同方法的評測模型及其性能分析如表6所示。其中,模型1采用標準美音訓練得到的聲學模型,模型2采用不同發(fā)音質(zhì)量的中國學生英語語料進行MLLR自適應(yīng),模型3和本模型采用經(jīng)過篩選的中國學生發(fā)音正確的語料進行MLLR-MAP二級自適應(yīng)。模型1到模型3都采用多元線性回歸(multiple linear regression,簡稱MLR)算法融合各評分特征,本模型采用SVR算法進行特征融合。

表6 采用不同方法的評測模型及其性能分析
從表6可看出,與模型1相比,模型2采用傳統(tǒng)的MLLR自適應(yīng)方法可顯著提升發(fā)音質(zhì)量評測性能,相關(guān)度從0.605提高到0.743,雖然降低了標準美音聲學模型與中國學生英語發(fā)音的不匹配程度,但仍會受到錯誤音素段的影響。模型3采用MLLR-MAP二級自適應(yīng)方法可較大幅度地提升評測性能,相關(guān)度從0.743繼續(xù)提升到0.782,相對提高了5.2%。此外,本模型采用SVR算法融合評分特征,獲得了比模型3更好的評測效果,相關(guān)度進一步增加到0.796,相對提高了1.8%。
為提升中國學生的英語朗讀發(fā)音質(zhì)量評測性能,提出一種基于聲學模型自適應(yīng)與支持向量回歸的發(fā)音質(zhì)量評測模型。通過自動標注學生語音并篩選出發(fā)音正確的數(shù)據(jù),對標準美音聲學模型進行MLLR-MAP二級自適應(yīng),顯著提升了標準美音聲學模型在評測中國學生英語發(fā)音時的適應(yīng)性和標準度。同時,結(jié)合發(fā)音準確度、流利度以及朗讀完整度特征,全面衡量了學生的朗讀發(fā)音質(zhì)量。此外,使用支持向量回歸算法進行特征融合,能夠很好地逼近評分特征與人工評分之間的非線性關(guān)系,進一步提升了發(fā)音質(zhì)量評測的準確性。如何優(yōu)化評測聲學模型以及引入更多有效的評分特征(如韻律特征等)是下一步的研究方向。