基于均值特征和改進(jìn)深度神經(jīng)網(wǎng)絡(luò)的說話人識別算法

2021-09-09 01:44:52羅春梅張風(fēng)雷

聲學(xué)技術(shù) 2021年4期

羅春梅，張風(fēng)雷

(遼東學(xué)院化工與機械學(xué)院，遼寧丹東 118000)

0 引言

說話人識別是通過分析語音的個性特征實現(xiàn)說話人辨識的技術(shù)，已經(jīng)在安全領(lǐng)域、司法鑒定等應(yīng)用中廣泛使用[1]。但由于實際環(huán)境中各種干擾的存在，實際環(huán)境中說話人識別系統(tǒng)失配而性能下降，因此，如何提高系統(tǒng)對不同背景噪聲的適應(yīng)性，成為近年來該領(lǐng)域的研究熱點[2-3]。

為減小識別系統(tǒng)的環(huán)境失配，噪聲信息被融入到純凈語音模型中。牛曉可等[4]借鑒神經(jīng)元時空濾波機制對聽覺尺度-速率圖進(jìn)行二次提取，并與梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)相結(jié)合，提高特征對環(huán)境噪聲的容忍性能；仲偉峰等[5]通過融合深、淺層級特征以實現(xiàn)不同層次特征表達(dá)信息的互補，從而提高特征的魯棒性；Zhang等[6]受到干凈幀的啟發(fā)，用高斯通用模型推導(dǎo)出基于總變化矩陣的通用加權(quán)背景模型，并進(jìn)行了聯(lián)合估計規(guī)則更新，有效提升了算法對背景噪聲的適應(yīng)性。

隨著深度學(xué)習(xí)技術(shù)的成熟，深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在說話人識別系統(tǒng)中逐漸展開研究，并取得較好的魯棒性[7]。陳湟康等[8]以深度學(xué)習(xí)的長短期記憶(Long and Short Term Memory, LSTM)網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建多模態(tài)模型，并以深度門對各層單元進(jìn)行上下連接，以提高層特征聯(lián)系的緊密性和分類性能；Abdelmajid等[9]對多模態(tài)LSTM網(wǎng)絡(luò)在決策層進(jìn)行分類融合，提高了模型識別性能，但模型相關(guān)性約束需加強；李煦等[10]將深度神經(jīng)網(wǎng)絡(luò)與非負(fù)矩陣分解相結(jié)合來估計權(quán)值分配，結(jié)合特征字典實現(xiàn)說話人語音增強和識別。

已有DNN算法難以描述語音段的深度信息[11]，為此在已有研究基礎(chǔ)上，提出基于自適應(yīng)高斯均值矩陣特征和改進(jìn)深度卷積神經(jīng)網(wǎng)絡(luò)的說話人識別算法，通過均值矩陣增強信號的幀間關(guān)聯(lián)和特征，通過幀間信息對準(zhǔn)提高特征對背景噪聲環(huán)境的適應(yīng)性，實驗結(jié)果驗證了該算法的有效性。

1 改進(jìn)模型說話人識別

說話人語音識別即為采用一定的方法提取帶有背景噪聲的語音的分類特征，然后根據(jù)分類特征進(jìn)行說話人特征匹配，從而確定說話人身份，文中基于改進(jìn)DNN網(wǎng)絡(luò)的說話人識別過程如圖1所示，算法結(jié)合了傳統(tǒng)特征提取方法和DNN網(wǎng)絡(luò)的優(yōu)點，主要包括特征提取、高斯均值矩陣計算和DNN網(wǎng)絡(luò)三部分。

圖1 基于改進(jìn)深度神經(jīng)網(wǎng)絡(luò)的說話人識別過程Fig.1 Speaker recognition based on improved deep neural network

1.1 特征提取

MFCC特征基于人耳聽覺感知特性，其不需要做出前提假設(shè)，且其與說話人所說的語音內(nèi)容不相關(guān)，能夠較好地反應(yīng)語音信號特征。

設(shè)原始含噪信號為s(n)，對其進(jìn)行時域分幀，對幀信號x(n)進(jìn)行離散余弦變換(Discrete Cosine Transform, DCT)變換，得到頻譜X(k)，提取其能量譜P(k)為[2]

式中：N為DCT變換點數(shù)。采用M階Mel頻率濾波器Hm(k)進(jìn)行濾波處理，得到

式中：m為濾波器序號，0≤m≤M，對Pm(k)取對數(shù)并進(jìn)行離散余弦變換，可得MFCC，即[2]：

1.2 高斯混合模型均值矩陣

高斯混合模型(Gaussian Mixture Model, GMM)通過概率密度函數(shù)描述說話人的語音特征，并通過最大期望算法(Expectation Maximization，EM)提取描述語音特征的模型參數(shù)。GMM通過M個單高斯分布來擬合信號的不同分量特征，并通過線性組合擬合語音的特征分布，即[7]：

在計算高斯模型后，文中采用基于高斯模型的均值矩陣作為識別特征，其將GMM模型的特征向量分別送入通用背景模型(Universal Background Model, UBM)中，然后經(jīng)過MPA(Message Passing Algorithm)自適應(yīng)后，計算輸出特征的均值矩陣。

1.3 特征補償

由于特征分量對最終的語音識別率的影響不同且對背景噪聲的抗噪性能也不同，文中補償算法采用半升正弦函數(shù)(Half Raised-Sine Function,HRSF)對特征進(jìn)行非線性提升，對特征的不同分量分配不同的權(quán)重，以削弱抗噪性能較差的低階分量對識別率的貢獻(xiàn)度[8]，其補償過程為：

(1) 對噪聲及純凈語音信號的模型參數(shù)進(jìn)行頻譜域變換，得到對數(shù)譜域參數(shù)和線性頻譜，即：

式中：C為DCT變換矩陣、L為提升矩陣，其計算式為L(i) =1+ sin (π (i-1) /N)/2，參數(shù)ux,m和Σx,m為GMM模型的第m個高斯單元均值矩陣和協(xié)方差矩陣，下標(biāo)x表示純凈語音信號，上標(biāo)ln和lin分別對數(shù)譜域和線性頻譜域。

(2) 將語音信號與噪聲的參數(shù)進(jìn)行非線性合并，得到含噪信號的GMM模型參數(shù)，即：

式中：G為模型的補償增益因子，下標(biāo)n和y表示噪聲及含噪語音信號。

(3) 將式(9)得到的含噪GMM模型參數(shù)變換到對數(shù)譜域和倒譜域，并優(yōu)化協(xié)方差矩陣，去除非對角元素，提高運算效率，即：

1.4 DRNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

采用基于多層非線性變換的深度神經(jīng)網(wǎng)絡(luò)模型有助于描述語音特征的結(jié)構(gòu)信息與層次信號，為此，文中設(shè)計了基于改進(jìn)深度卷積神經(jīng)網(wǎng)絡(luò)(Deep CNN, DCNN)的說話人語音識別算法，其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 改進(jìn)的DCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Improved DCNN network structure

網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)主要體現(xiàn)在最后的全連接層中用直接目標(biāo)向量計算替代Softmax層的設(shè)計上。盡管結(jié)構(gòu)加深、節(jié)點增多或濾波器增多能有效提高網(wǎng)絡(luò)模型的識別性能，但同時也帶來網(wǎng)絡(luò)模型的高復(fù)雜度和訓(xùn)練的不穩(wěn)定性。結(jié)合文中語音識別特點和數(shù)據(jù)規(guī)模，改進(jìn)模型結(jié)構(gòu)設(shè)計為3個卷積層的2個1024節(jié)點的全連接層，網(wǎng)絡(luò)輸入層為上文提取的特征矩陣，第一層卷積層包含64個尺寸為7×7的濾波器，第二層和第三層卷積層包含128個尺寸為3×3的濾波器，濾波器的步長統(tǒng)一設(shè)置為1×1；激活函數(shù)層后面為3個濾波器尺寸3×3、步長2×2的池化層；輸出層為一個129點全連接層。

深度的增加也帶來梯度弱化，反而不利于提高識別率，深度殘差網(wǎng)絡(luò)以網(wǎng)絡(luò)殘差獲得更穩(wěn)健的特征表達(dá)，通過在網(wǎng)絡(luò)層間增加殘差連接避免梯度消失問題，從而提高網(wǎng)絡(luò)的識別準(zhǔn)確率，其網(wǎng)絡(luò)函數(shù)設(shè)計為理想映射H(x) =F(x) +x的形式，如圖3所示，其中，F(xiàn)(x)為殘差映射，對H(x)求偏導(dǎo)可得：

由圖3和式(11)可以看出，增加殘差連接后，解決了梯度隨網(wǎng)絡(luò)深度消失的問題。

圖3 殘差網(wǎng)絡(luò)模塊Fig.3 Residual network module

2 實驗驗證與分析

為驗證文中基于改進(jìn)DCNN網(wǎng)絡(luò)的說話人識別模型的識別性能，實驗從TIMIT數(shù)據(jù)庫[12]隨機選取180人共3 600條語音，以Noisex92噪聲庫作為實驗用背景噪聲，所有數(shù)據(jù)采樣率調(diào)整為8 kHz，分幀長度為64 ms(512點)，幀移為32 ms，將每一條語音數(shù)據(jù)的前80%作為訓(xùn)練數(shù)據(jù)，而后20%作為測試數(shù)據(jù)，采用39維MFCC頻譜系數(shù)作為識別特征，GMM混合度設(shè)置為32[13]，特征補償因子初始值為G=0.5，當(dāng)背景噪聲較小或無噪聲時，補償算法會調(diào)整增益因子G。

將NoiseX-92數(shù)據(jù)庫中的Factory、Babble及混合Mixed噪聲與純凈訓(xùn)練數(shù)據(jù)按一定的分段信噪比進(jìn)行混合，作為實驗數(shù)據(jù)，以文獻(xiàn)中已有的身份認(rèn)證向量(identity vector, i-vector)識別框架[14]加MFCC和Gammatone頻譜倒譜系數(shù)(Gammatone Frequency Cepstrum Coefficients, GFCC)特征(分別記為IPMFCC和IPGFCC)、GMM－UBM框架[15]加MFCC和補償MFCC特征(分別記為GUMFCC和GUGFCC)及文中改進(jìn)的DCNN識別網(wǎng)絡(luò)加MFCC和補償MFCC特征(分別記為IDMFCC和IDCMFCC)，共6種說話人識別算法進(jìn)行實驗比較，各算法的說話人識別正確率實驗結(jié)果如圖4所示，圖中所示為多次實驗結(jié)果的平均值[11]。

從圖4中的實驗結(jié)果可以看出，隨著信噪比的提高，各算法的識別準(zhǔn)確率都大幅提高，但在低信噪比情況下，各個算法的識別率均不高，但文中模型在各個信噪比時均取得較優(yōu)的識別準(zhǔn)確率，尤其在低信噪比時，優(yōu)勢更加明顯，這主要因為識別網(wǎng)絡(luò)的改進(jìn)，在考慮了語音信號特征基礎(chǔ)上，兼顧了網(wǎng)絡(luò)性能和訓(xùn)練難度，并通過殘差網(wǎng)絡(luò)增強了層間梯度，而識別特征的補償，增強了特征對強背景噪聲的抗干擾能力，從而使算法整體上具有較好的抗背景噪聲干擾性能。

圖4 不同背景噪聲下各算法的識別率Fig.4 Recognition rate of each algorithm under different background noises

如圖5所示為三種識別框架在不同訓(xùn)練階段的均方誤差(Mean Squared Error, MSE)。從圖5可以看出，文中改進(jìn)DCNN網(wǎng)絡(luò)的均方誤差最小，進(jìn)一步說明該網(wǎng)絡(luò)的優(yōu)勢。

圖5 各算法訓(xùn)練階段的均方誤差Fig.5 The mean square error in training stage of each algorithm

3 結(jié) 論

傳統(tǒng)MFCC等聲學(xué)特征大多基于語音信號的短時譜信息，缺乏語音段深度信息，而深度神經(jīng)網(wǎng)絡(luò)缺乏直觀的物理聲學(xué)特征描述。為此，在已有研究基礎(chǔ)上，提出基于高斯增值矩陣特征和改進(jìn)DCNN網(wǎng)絡(luò)的說話人識別算法。算法通過自適應(yīng)高斯均值矩陣增強語音信號的幀間關(guān)聯(lián)和說話人特征信息，采用改進(jìn)的DCNN網(wǎng)絡(luò)進(jìn)一步提高說話人識別的特征學(xué)習(xí)和背景噪聲環(huán)境的適應(yīng)性。實驗結(jié)果表明，相比于i-vector和GMM-UBM等識別框架及傳統(tǒng)MFCC特征，文中算法取得最優(yōu)的識別準(zhǔn)確率和識別均方誤差。