謝婭利,龐煒千,白 靜,薛珮蕓,趙建星,師晨康
(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600)
說話人識(shí)別是一種根據(jù)說話人的特征來(lái)確定身份的模式識(shí)別技術(shù)。說話人識(shí)別技術(shù)廣泛應(yīng)用于各個(gè)領(lǐng)域[1,2],因此對(duì)說話人識(shí)別技術(shù)進(jìn)行研究具有重要現(xiàn)實(shí)意義。
特征提取在說話人識(shí)別系統(tǒng)中扮演舉足輕重的角色。Huang JJ等[3]利用人耳的聽覺特性將小波包分解為五級(jí),提取語(yǔ)音中包含的動(dòng)態(tài)特征進(jìn)行說話人識(shí)別。然而在信噪比較低的情況下,提取的特征參數(shù)會(huì)導(dǎo)致識(shí)別率顯著下降。Yang HY等[4]提出雙閾值函數(shù)去噪的特征方法進(jìn)行說話人識(shí)別,該方法在低信噪比環(huán)境下具有更好的性能。然而該算法較復(fù)雜,訓(xùn)練時(shí)間較長(zhǎng)。周萍等[5]將伽瑪通濾波倒譜系數(shù)和梅爾頻率倒譜系數(shù)融合,并結(jié)合它們的動(dòng)態(tài)特性構(gòu)成混合參數(shù),用高斯混合模型進(jìn)行分類,實(shí)驗(yàn)結(jié)果表明該參數(shù)具有更好的抗噪性和識(shí)別性。Zhang Yan等[6]從發(fā)音器官中提取發(fā)音動(dòng)作參數(shù),使用動(dòng)態(tài)時(shí)間規(guī)整進(jìn)行說話人識(shí)別,研究發(fā)現(xiàn)發(fā)音動(dòng)作特征對(duì)噪聲環(huán)境下的說話人識(shí)別率有明顯提高。
通過上述研究發(fā)現(xiàn),發(fā)音動(dòng)作特征與聲學(xué)特征一樣具有識(shí)別性。目前說話人識(shí)別主要選用單模態(tài)特征,然而僅使用單模態(tài)特征進(jìn)行說話人識(shí)別很難提高其識(shí)別率。于是本文對(duì)傳統(tǒng)發(fā)音動(dòng)作特征進(jìn)行改進(jìn)得到參考點(diǎn)發(fā)音動(dòng)作特征,并將其與聲學(xué)特征進(jìn)行融合,采用基于懲罰項(xiàng)的嵌入式特征選擇去除冗余特征,得到雙模態(tài)融合特征,然后使用TORGO數(shù)據(jù)庫(kù)和自建庫(kù)進(jìn)行實(shí)驗(yàn),驗(yàn)證本文所提參考點(diǎn)發(fā)音動(dòng)作特征和雙模態(tài)融合特征的有效性。
聲學(xué)特征可分為語(yǔ)言學(xué)特征和超語(yǔ)言學(xué)特征,語(yǔ)言學(xué)特征包括詞匯、句法、語(yǔ)法和語(yǔ)境等,超語(yǔ)言學(xué)特征有音質(zhì)特征、韻律特征和頻譜特征。由于語(yǔ)言學(xué)特征提取和分析比較困難,本文選擇韻律特征和伽瑪通濾波倒譜系數(shù)進(jìn)行說話人識(shí)別。
韻律特征主要體現(xiàn)語(yǔ)音信號(hào)語(yǔ)調(diào)和強(qiáng)度的特點(diǎn),不同說話人的聲音強(qiáng)度和語(yǔ)調(diào)流暢度是不同的,由于韻律特征對(duì)信道環(huán)境噪聲不敏感,因此被廣泛應(yīng)用于文本無(wú)關(guān)的說話人識(shí)別[7]。常見的韻律特征有振幅、共振峰、基頻、過零率、短時(shí)能量等。
信號(hào)的振幅表示振動(dòng)的強(qiáng)度,幅值越大,信號(hào)的強(qiáng)度越高。共振峰是元音激勵(lì)產(chǎn)生的一組共振頻率,反映了聲道的共振特性。
基頻是濁音中聲帶振動(dòng)的頻率。在發(fā)音過程中,聲門瞬間閉合,聲道受到強(qiáng)烈刺激,此時(shí)振幅急劇增加,導(dǎo)致突變,則該處基頻為兩個(gè)相鄰聲門閉合時(shí)間的倒數(shù)[8]。使用短時(shí)自相關(guān)函數(shù)進(jìn)行基音檢測(cè),則語(yǔ)音信號(hào)x(m)的基頻為
Rn(k)=∑N-km=nxn(m)xn(m+k)
(1)
語(yǔ)音信號(hào)在一幀內(nèi)越過零電平的次數(shù)為過零率。它能在一定程度上反映信號(hào)的頻譜特性,從而對(duì)語(yǔ)音信號(hào)進(jìn)行粗略估計(jì),則函數(shù)表示為
Zn=0.5∑N-1m=0|sgn[xn(m)]-sgn[xn(m-1)]|
(2)
語(yǔ)音的短時(shí)能量可以通過它的響度來(lái)衡量。設(shè)各幀語(yǔ)音信號(hào)xn(m)的幀長(zhǎng)為N,則能量公式為
En=∑N-1m=0x2n(m)
(3)
伽瑪通濾波倒譜系數(shù)(Gammatone filter cepstral coef-ficient,GFCC)是根據(jù)人耳的聽覺特性構(gòu)造的語(yǔ)音特征參數(shù),反映了說話人之間的差異,并且在一定程度上減小了噪聲對(duì)特征提取的影響,具有良好的識(shí)別性能。語(yǔ)音信號(hào)通過快速傅里葉變換后,使用伽瑪通濾波器組進(jìn)行濾波,伽瑪通濾波器組可模擬人耳耳蝸基底膜的分頻特性[9],其濾波器的帶寬與人耳的臨界頻帶關(guān)系為
ERB(f)=24.7×(4.37f/1000+1)
(4)
對(duì)濾波器的輸出采用對(duì)數(shù)壓縮和離散余弦變換,得到聽覺特征參數(shù)GFCC
GFCC(i)=2π∑Mj=1αjcos[πiM(j-0.5)],i=1,2,…,N
(5)
其中,α1,α2,…,αj是一組對(duì)數(shù)能量譜,N是GFCC參數(shù)的維數(shù),M表示濾波器的個(gè)數(shù)。
發(fā)音動(dòng)作參數(shù)由三維電磁發(fā)音儀(3D electromagnetic articulography,EMA)采集,由發(fā)音部位產(chǎn)生的發(fā)音動(dòng)作參數(shù)位移和速度值作為發(fā)音動(dòng)作特征(articulatory movement features,AMF)[10,11]。EMA采集的發(fā)音動(dòng)作參數(shù)都是原始數(shù)值,由于每個(gè)說話人發(fā)音部位的特性容易受到其它發(fā)音部位的相對(duì)位置變化的影響,在說話人識(shí)別系統(tǒng)中直接用初值進(jìn)行分類效果并不太好,因此要對(duì)原始數(shù)據(jù)進(jìn)行處理。于是本文對(duì)傳統(tǒng)發(fā)音動(dòng)作特征進(jìn)行改進(jìn),提出參考點(diǎn)發(fā)音動(dòng)作特征(reference point articulatory movement features,RPAMF)提取算法,用來(lái)突破單獨(dú)發(fā)音部位提取的發(fā)音動(dòng)作參數(shù)不足、識(shí)別率低的限制。
參考點(diǎn)發(fā)音動(dòng)作特征提取算法的主要思路是由于說話人在發(fā)音時(shí)鼻梁始終與身體保持相對(duì)靜止,因此選擇以鼻梁為參考點(diǎn),舌部(舌尖、舌中、舌后)、唇部(上唇、下唇)和下頜與參考點(diǎn)相對(duì)位移和相對(duì)速度作為發(fā)音動(dòng)作參數(shù),RPAMF參數(shù)公式如下

(6)

(7)

特征融合可同時(shí)提取多個(gè)特征,以實(shí)現(xiàn)特征互補(bǔ)并減少單個(gè)特征固有缺陷的影響[12]。聲學(xué)特征和發(fā)音動(dòng)作特征能從不同角度反映說話人信息,由于不同特征之間具有互補(bǔ)性,有效的融合能更全面的表征出說話人特性。
本文提出的雙模態(tài)融合特征主要思路如下,首先提取語(yǔ)音的韻律特征如過零率、振幅、基頻、短時(shí)能量以及第1和第2共振峰,并計(jì)算韻律特征和GFCC的統(tǒng)計(jì)參數(shù);其次選擇舌尖、舌中、舌后,上唇、下唇和下頜各單獨(dú)發(fā)音部位相對(duì)于鼻梁運(yùn)動(dòng)產(chǎn)生的平均位移、位移的方差、平均速度和速度的方差,組成72維RPAMF;然后將韻律特征和GFCC的統(tǒng)計(jì)函數(shù)與72維RPAMF特征融合,采用基于懲罰項(xiàng)的嵌入式特征選擇方法去除不相關(guān)和冗余的特征,組成最終的雙模態(tài)融合特征。
雙模態(tài)融合特征集合表示為
F={Fr,F(xiàn)g,F(xiàn)rp}
(8)
其中,F(xiàn)r表示韻律特征集合,F(xiàn)g表示GFCC特征集合,F(xiàn)rp表示72維RPAMF特征集合。
韻律特征集合表示為
Fr={z,A,P,E,F(xiàn)1,F(xiàn)2}
(9)
其中,z為過零率;A為振幅的統(tǒng)計(jì)參數(shù)構(gòu)成的向量,即
A=(maxA,minA,,maxA′,minA′,′)
(10)
各量依次為振幅的最大值、最小值、平均值,振幅變化率的最大值、最小值、平均值;P由基頻的統(tǒng)計(jì)參數(shù)構(gòu)成,即
P=(maxP,minP,,maxP′,minP′,′)
(11)
各量依次為基頻的最大值、最小值、平均值,基頻變化率的最大值、最小值、平均值;E表示短時(shí)能量及其變換率的統(tǒng)計(jì)值,即
E=(maxE,minE,,maxE′,minE′,′)
(12)
各量依次為能量最大值、最小值、平均值和能量變化率的最大值、最小值、平均值;F1,F(xiàn)2分別表示由第1和第2共振峰的統(tǒng)計(jì)參數(shù)構(gòu)成的向量,即
F1=(1,σ2F1,Δ1,σ2ΔF1)
(13)
F2=(2,σ2F2,Δ2,σ2ΔF2)
(14)
其各量依次為均值、方差及一階差分的均值和方差。
GFCC特征集合表示為
Fg={G1,G2…,Gk}
(15)
Gk= (k,σ2Gk,Δk,σ2ΔGk)
(16)
k取12,其各量依次為均值、方差及一階差分的均值和方差。
72維RPAMF特征集合表示為
Frp={Sx,Sy,Sz,Vx,Vy,Vz}
(17)
其中,Sx,Sy,Sz分別表示由舌尖、舌中、舌后,上唇、下唇和下頜相對(duì)于鼻梁X軸、Y軸、Z軸平均位移和位移的方差構(gòu)成,即
Sx=(x,σ2Sx)
(18)
Sy=(y,σ2Sy)
(19)
Sz=(z,σ2Sz)
(20)
Vx,Vy,Vz分別表示舌尖、舌中、舌后,上唇、下唇、下頜相對(duì)于鼻梁X軸、Y軸、Z軸平均速度和速度的方差構(gòu)成的特征向量,即
Vx=(x,σ2Vx)
(21)
Vy=(y,σ2Vy)
(22)
Vz=(z,σ2Vz)
(23)
為了去除冗余特征,采用基于懲罰項(xiàng)的嵌入式特征選擇方法,引入L1、L2范數(shù)正則化,L1正則項(xiàng)來(lái)選擇特征,L2正則交叉檢驗(yàn)。其目標(biāo)函數(shù)公式如下
minw∑ni=1(yi-wTxi)2+λ1w1+λ2w22
(24)
對(duì)于同類語(yǔ)音數(shù)據(jù)具有相似性和不同類數(shù)據(jù)具有不同幾何距離的特點(diǎn),本文采用高斯混合模型-支持向量機(jī)(Gaussian mixture model-support vector machine,GMM-SVM)分類器創(chuàng)建說話人識(shí)別系統(tǒng),GMM-SVM說話人識(shí)別系統(tǒng)結(jié)合了高斯混合模型(Gaussian mixture model,GMM)和支持向量機(jī)(support vector machine,SVM)的優(yōu)點(diǎn),與單獨(dú)使用GMM或SVM的說話人識(shí)別系統(tǒng)相比,具有更好的魯棒性和識(shí)別率,語(yǔ)音信號(hào)經(jīng)過GMM模型參數(shù)化表示后的均值超向量可提高SVM模型對(duì)序列的分類能力,并且SVM在數(shù)據(jù)量較小時(shí)也能很好解決分類問題。GMM-SVM算法是通過GMM提取均值超矢量,利用SVM進(jìn)行分類,從而達(dá)到說話人識(shí)別的目的[13]。GMM-SVM的說話人識(shí)別系統(tǒng)如圖1所示。

圖1 基于GMM-SVM的說話人識(shí)別系統(tǒng)
用KL距離表示不同說話人之間的差異性,其公式如下
D=∫Rnga(x)log(ga(x)gb(x))dx
(25)
其中,ga,gb是經(jīng)過MAP自適應(yīng)技術(shù)而得的,但KL距離不能直接用于SVM模型,需使用log-sum不等式來(lái)獲得KL距離上限,MAP自適應(yīng)時(shí),保持其方差和權(quán)重不變,只更新GMM模型的均值。假設(shè)滿足方差為對(duì)角矩陣,則公式如下
d=0.5∑Ni=1wi(μai-μbi)∑-1i(μai-μbi)
(26)
其中,μa,μb為MAP自適應(yīng)后的均值超向量。從上述兩式可得,0≤D≤d, 均值超向量間的差距越大,兩個(gè)語(yǔ)音段的差異就越大,從而能更好區(qū)分說話人。由于上式具備良好的對(duì)稱性,可以將上式轉(zhuǎn)換為內(nèi)積樣式,讓核函數(shù)滿足SVM模型的KKT約束條件
K(utta,uttb)=∑Ni=1wi(μai)t∑-1iμbi=∑Ni=1(wi∑-0.5iμai)(wi∑-0.5iμbi)
(27)
從而得到基于GMM模型均值超向量的線性核函數(shù)。
在SVM模型中,將多分類問題分解為多個(gè)二值分類問題,采用一對(duì)多的方法。一對(duì)多方法要求將每個(gè)類別分別訓(xùn)練成相應(yīng)的分類器,對(duì)于n個(gè)類別,需要分別訓(xùn)練n個(gè)相應(yīng)的分類器。對(duì)于非線性SVM分割超平面表示為
f(x)=∑mi=1αiyiκ(xi,xj)+b
(28)
其中,κ(xi,xj) 就是核函數(shù),核函數(shù)將原始樣本空間映射到高維空間,找到最優(yōu)分類超平面,從而將非線性分類問題轉(zhuǎn)化為線性分類問題。
為驗(yàn)證本文所提方法的優(yōu)越性,采用多倫多大學(xué)和語(yǔ)音病理學(xué)系聯(lián)合開發(fā)的TORGO數(shù)據(jù)庫(kù)和實(shí)驗(yàn)室自建庫(kù)進(jìn)行實(shí)驗(yàn)。TORGO數(shù)據(jù)庫(kù)包含約23 h的英語(yǔ)語(yǔ)音數(shù)據(jù)和發(fā)音動(dòng)作數(shù)據(jù),構(gòu)音障礙的類型是腦癱或肌萎縮性脊髓側(cè)索硬化癥[14],無(wú)其它身體損傷,能自主發(fā)音。實(shí)驗(yàn)室自建庫(kù)包含健聽學(xué)生和構(gòu)音障礙患者的普通話語(yǔ)音數(shù)據(jù)和發(fā)音動(dòng)作數(shù)據(jù),健聽學(xué)生為在校大學(xué)生,構(gòu)音障礙患者為聽力障礙,佩戴助聽器有5年以上,并擁有一年以上語(yǔ)言康復(fù)訓(xùn)練經(jīng)歷,無(wú)其它身體損傷,能自主發(fā)音。數(shù)據(jù)庫(kù)基本構(gòu)成情況見表1和表2。

表1 TORGO數(shù)據(jù)庫(kù)概況

表2 自建數(shù)據(jù)庫(kù)概況
在實(shí)際應(yīng)用中,語(yǔ)音內(nèi)容大多與文本無(wú)關(guān),可供識(shí)別的語(yǔ)音數(shù)據(jù)也往往較少,隨著語(yǔ)音持續(xù)時(shí)間的縮短,準(zhǔn)確率將顯著降低。針對(duì)上述問題,本文隨機(jī)選取每人60個(gè)不同短文本,為了避免數(shù)據(jù)質(zhì)量對(duì)實(shí)驗(yàn)結(jié)果造成不良影響,在開始實(shí)驗(yàn)之前需要對(duì)原始數(shù)據(jù)進(jìn)行多次篩選,用Praat軟件篩選聲學(xué)數(shù)據(jù),Visartico軟件篩選運(yùn)動(dòng)學(xué)數(shù)據(jù),經(jīng)過雙重篩選后,每人提取40條語(yǔ)音數(shù)據(jù),40條發(fā)音動(dòng)作參數(shù)數(shù)據(jù)。
本文用TORGO數(shù)據(jù)庫(kù)和自建庫(kù)進(jìn)行實(shí)驗(yàn),使用SVM、GMM-SVM對(duì)說話人進(jìn)行識(shí)別,GMM模型選擇混合度為32,采用K-Means實(shí)現(xiàn)模型參數(shù)初始化。核函數(shù)采用徑向基核函數(shù),根據(jù)粒子群算法優(yōu)化參數(shù)[15]。采用10折交叉驗(yàn)證方法對(duì)說話人進(jìn)行分類實(shí)驗(yàn)。
為測(cè)試所提RPAMF特征對(duì)正常人和構(gòu)音障礙患者不同發(fā)音部位的識(shí)別性能,把構(gòu)音障礙患者設(shè)為對(duì)照組,對(duì)傳統(tǒng)發(fā)音動(dòng)作特征和參考點(diǎn)發(fā)音動(dòng)作特征進(jìn)行對(duì)比實(shí)驗(yàn),測(cè)試改進(jìn)RPAMF特征的識(shí)別率。然后去除病理因素對(duì)所有人進(jìn)行實(shí)驗(yàn),驗(yàn)證改進(jìn)RPAMF特征的有效性。測(cè)試結(jié)果見表3和表4。

表3 TORGO數(shù)據(jù)庫(kù)不同發(fā)音部位AMF和RPAMF識(shí)別率/%

表4 自建庫(kù)不同發(fā)音部位AMF和RPAMF識(shí)別率/%
從表3和表4的實(shí)驗(yàn)結(jié)果得出,無(wú)論正常人還是構(gòu)音障礙患者,無(wú)論使用何種分類器,提出的RPAMF的識(shí)別準(zhǔn)確率都比AMF的識(shí)別準(zhǔn)確率高,使用GMM-SVM分類器后優(yōu)化效果更為明顯。將正常人和構(gòu)音障礙患者作為整體實(shí)驗(yàn)對(duì)象進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)論同樣適用。驗(yàn)證了本文所提RPAMF的有效性。
從上述實(shí)驗(yàn)結(jié)果得出,無(wú)論使用何種數(shù)據(jù)庫(kù),本文所提的RPAMF的識(shí)別性能都比AMF的識(shí)別性能好,因此將TORGO數(shù)據(jù)庫(kù)和自建庫(kù)作為整體實(shí)驗(yàn)對(duì)象,測(cè)試單模態(tài)特征的分類精度及所提雙模態(tài)融合特征的識(shí)別性能。具體分類識(shí)別結(jié)果見表5。

表5 說話人各類特征識(shí)別率/%
從表5可以看出,無(wú)論使用何種分類器,雙模態(tài)融合特征相比于單模態(tài)特征識(shí)別準(zhǔn)確率都有所提高。使用SVM分類器,雙模態(tài)融合特征識(shí)別準(zhǔn)確率達(dá)到了94.57%,相比于單模態(tài)特征識(shí)別準(zhǔn)確率最少提高了4.21%,提升較為明顯,使用雙模態(tài)融合特征和GMM-SVM分類器的組合達(dá)到的識(shí)別準(zhǔn)確率最高,識(shí)別準(zhǔn)確率達(dá)到了96.72%,體現(xiàn)了本文所提雙模態(tài)融合特征的優(yōu)越性,雙模態(tài)融合特征可以更好地表征說話人之間的差異,同時(shí)選用GMM-SVM分類器,可以取得更好的識(shí)別效果。
隨著社會(huì)的發(fā)展,說話人識(shí)別越來(lái)越重要。雖然相關(guān)研究成果十分豐富,但單模態(tài)特征并不能很好的表現(xiàn)說話人之間的差異,于是本文將聲學(xué)統(tǒng)計(jì)特征和參考點(diǎn)發(fā)音動(dòng)作特征進(jìn)行融合,采用基于懲罰項(xiàng)的嵌入式特征選擇去除冗余特征,從而構(gòu)成雙模態(tài)融合特征下的說話人識(shí)別系統(tǒng)。在TORGO數(shù)據(jù)庫(kù)和自建庫(kù)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提RPAMF的優(yōu)越性。同時(shí),將兩數(shù)據(jù)庫(kù)作為整體實(shí)驗(yàn)對(duì)象,測(cè)試不同特征的分類精度,從而發(fā)現(xiàn)雙模態(tài)融合特征能實(shí)現(xiàn)更高的識(shí)別率。在今后的研究中,需要對(duì)特征融合做進(jìn)一步的理論研究和技術(shù)改進(jìn),力求達(dá)到更高的識(shí)別率。