低資源語音識別中融合多流特征的卷積神經(jīng)網(wǎng)絡(luò)聲學(xué)建模方法

2016-11-01 18:26:27秦楚雄張連海

計算機(jī)應(yīng)用 2016年9期

關(guān)鍵詞：特征模型

秦楚雄　張連海

摘要：

針對卷積神經(jīng)網(wǎng)絡(luò)（CNN）聲學(xué)建模參數(shù)在低資源訓(xùn)練數(shù)據(jù)條件下的語音識別任務(wù)中存在訓(xùn)練不充分的問題，提出一種利用多流特征提升低資源卷積神經(jīng)網(wǎng)絡(luò)聲學(xué)模型性能的方法。首先，為了在低資源聲學(xué)建模過程中充分利用有限訓(xùn)練數(shù)據(jù)中更多數(shù)量的聲學(xué)特征，先對訓(xùn)練數(shù)據(jù)提取幾類不同的特征；其次，對每一類類特征分別構(gòu)建卷積子網(wǎng)絡(luò)，形成一個并行結(jié)構(gòu)，使得多特征數(shù)據(jù)在概率分布上得以規(guī)整；然后通過在并行卷積子網(wǎng)絡(luò)之上加入全連接層進(jìn)行融合，從而得到一種新的卷積神經(jīng)網(wǎng)絡(luò)聲學(xué)模型；最后，基于該聲學(xué)模型搭建低資源語音識別系統(tǒng)。實驗結(jié)果表明，并行卷積層子網(wǎng)絡(luò)可以將不同特征空間規(guī)整得更為相似，且該方法相對傳統(tǒng)多特征拼接方法和單特征CNN建模方法分別提升了3.27%和2.08%的識別率；當(dāng)引入多語言訓(xùn)練時，該方法依然適用，且識別率分別相對提升了573%和4.57%。

關(guān)鍵詞：

低資源語音識別；卷積神經(jīng)網(wǎng)絡(luò)；特征規(guī)整；多流特征

中圖分類號：

TN912.34

文獻(xiàn)標(biāo)志碼：A

Abstract：

Aiming at solving the problem of insufficient training of Convolutional Neural Network （CNN） acoustic modeling parameters under the lowresource training data condition in speech recognition tasks， a method for improving CNN acoustic modeling performance in lowresource speech recognition was proposed by utilizing multistream features. Firstly， in order to make use of enough acoustic information of features from limited data to build acoustic model， multiple features of lowresource data were extracted from training data. Secondly， convolutional subnetworks were built for each type of features to form a parallel structure， and to regularize distributions of multiple features. Then， some fully connected layers were added above the parallel convolutional subnetworks to incorporate multistream features， and to form a new CNN acoustic model. Finally， a lowresource speech recognition system was built based on this acoustic model. Experimental results show that parallel convolutional subnetworks normalize different feature spaces more similar， and it gains 3.27% and 2.08% recognition accuracy improvement respectively compared with traditional multifeature splicing training approach and baseline CNN system. Furthermore， when multilingual training is introduced， the proposed method is still applicable， and the recognition accuracy is improved by 5.73% and 457% respectively.

英文關(guān)鍵詞Key words：

lowresource speech recognition； Convolutional Neural Network （CNN）； feature normalization； multistream feature

0引言

隨著人們對于語音識別水平需求越來越多樣，語音識別對于聲學(xué)模型的要求越來越高。在低資源訓(xùn)練數(shù)據(jù)條件下，訓(xùn)練樣本數(shù)量有限，聲學(xué)模型參數(shù)訓(xùn)練嚴(yán)重不足，淺層的高斯混合模型——隱馬爾可夫聲學(xué)模型（Gaussian Mixture ModelHidden Markov Model， GMMHMM）已經(jīng)無法滿足建模要求。隨著深度學(xué)習(xí)（Deep Learning）技術(shù)的深入發(fā)展，人們陸續(xù)提出使用深層神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）、卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）等模型取代傳統(tǒng)的GMM，它們可以有效地對數(shù)據(jù)進(jìn)行更深層次的建模，在多種連續(xù)語音識別任務(wù)中[1-3]取得了更優(yōu)的識別效果。尤其是CNN，作為一種具有更為復(fù)雜的非線性變換能力的深層網(wǎng)絡(luò)結(jié)構(gòu)，在近幾年來廣泛應(yīng)用于語音識別中，并在連續(xù)語音識別任務(wù)中取得了顯著優(yōu)于DNN的識別率[3]。

從模型訓(xùn)練原理的角度來說，CNN的語音建模能力優(yōu)于高斯混合模型（Gaussian Mixture Model， GMM）和DNN，具體表現(xiàn)在如下幾點。

首先，CNN具有局部感受性（locality），特征映射的每個節(jié)點是通過上一層局部頻帶的F個節(jié)點卷積計算得到的，這種方法帶來兩點優(yōu)勢：第一，利用干凈頻譜可計算出性能優(yōu)異的特征，僅有少量特征會受到噪聲成分的影響，因此模型的魯棒性得到提升；第二，局部卷積實際是對語音局部特性的一種增強(qiáng)，而網(wǎng)絡(luò)的較高層通過將每個頻帶計算值組合起來，起到了平均的作用，因此該方法綜合并且平衡了鄰近頻帶的語音信息。

其次，CNN中的池化采樣處理減弱了語音中頻移的影響。由于不同說話人不同的聲道長度會引起語音信號的頻移，即使對于相同的說話人，也會產(chǎn)生較小的頻移現(xiàn)象[4]。當(dāng)使用GMM或者DNN模型解決這類問題時，需要大幅增加高斯混元或者隱含層節(jié)點的數(shù)量，即使對DNN的隱含層采用池化降采樣以減少節(jié)點數(shù)，全連接計算方式也很難緩解頻移問題。而在CNN中，由于相鄰位置卷積計算得到的特征值是池化為一組的，因此當(dāng)輸入特征在頻率軸上有頻移時，這種差異得以最小化。

最后，CNN中同一特征映射的權(quán)值共享性導(dǎo)致參數(shù)總量受限，由于低資源條件下訓(xùn)練數(shù)據(jù)也是有限的，因此模型訓(xùn)練的稀疏程度會得到一定程度的減弱，網(wǎng)絡(luò)參數(shù)訓(xùn)練相對更加充分，性能也就得到了相對提升。

雖然從模型訓(xùn)練的角度分析，CNN有著比其他模型更大的優(yōu)勢，但是當(dāng)受限于訓(xùn)練數(shù)據(jù)量時，所得到的聲學(xué)模型依然存在嚴(yán)重的訓(xùn)練不足問題。

針對CNN在語音識別中的研究有很多，文獻(xiàn)[5-7]驗證了CNN在大規(guī)模連續(xù)語音識別任務(wù)中的優(yōu)越性；文獻(xiàn)[8]驗證了CNN在特征提取方面優(yōu)于DNN；而文獻(xiàn)[9]則通過大量實驗詳細(xì)地驗證了CNN聲學(xué)模型在低資源語音識別任務(wù)中優(yōu)于DNN聲學(xué)模型。CNN的局部卷積處理和池化采樣處理不僅可以從有限的特征中提取更為細(xì)致的分類信息，還可以有效去除一些干擾信息，這些對訓(xùn)練數(shù)據(jù)有限的低資源聲學(xué)模型訓(xùn)練過程尤為重要。

在有限的訓(xùn)練條件下，充分利用更多的特征進(jìn)行建模是一種有效的方法，傳統(tǒng)的融合多特征的訓(xùn)練方法是直接對多種特征進(jìn)行拼接構(gòu)成超矢量訓(xùn)練數(shù)據(jù)，該方法適用于DNN模型，并不適用于CNN模型，因為當(dāng)卷積核跨越特征拼接交界處時，計算所得結(jié)果毫無意義。

為了在低資源條件下充分利用更多特征進(jìn)行CNN聲學(xué)建模，本文提出一種可行的融合多特征的訓(xùn)練方法。該方法充分利用不同表達(dá)形式的特征，通過并行子網(wǎng)絡(luò)對多流特征進(jìn)行獨立的處理，最后使用全連接層對子網(wǎng)絡(luò)進(jìn)行融合。通過多特征流數(shù)據(jù)對網(wǎng)絡(luò)的并行訓(xùn)練，得到一種適合于低資源語音識別的CNN聲學(xué)模型。實驗結(jié)果表明，并行的卷積層能夠?qū)⒎植疾町愝^大的不同特征空間規(guī)整到分布更為相近的特征空間，以利于后續(xù)處理，從而增加了聲學(xué)模型的有效訓(xùn)練數(shù)據(jù)，該方法在未明顯增加訓(xùn)練參數(shù)的情況下，識別率不但優(yōu)于單特征識別系統(tǒng)的識別率，還優(yōu)于傳統(tǒng)的多特征拼接建模方法；其次，對每個子網(wǎng)絡(luò)均使用高資源語料進(jìn)行共享式的輔助訓(xùn)練時，系統(tǒng)的識別率得到進(jìn)一步提升，驗證了模型的泛化性。

1融合多流特征的CNN聲學(xué)模型

CNN是標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)的一種變體網(wǎng)絡(luò)結(jié)構(gòu)，不同于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)全連接層的結(jié)構(gòu)，卷積神經(jīng)網(wǎng)絡(luò)包含了卷積（convolution）處理和池化（pooling）處理。

使用CNN對語音進(jìn)行建模時，需要將輸入聲學(xué)特征組織成特征映射的形式，特征映射既可以是一維的也可以是二維的。根據(jù)文獻(xiàn)[9]，通過提取特征的靜態(tài)、一階差分和二階差分三個分量形成初始的輸入特征映射。

根據(jù)文獻(xiàn)[5，9]，頻移不變性比時移不變性更為重要，因此本文采用沿頻率軸的一維卷積形式建立CNN卷積層，通過卷積核在特征映射上的移動實現(xiàn)對語音特征的卷積計算。如圖1所示，一個典型的CNN的卷積層通常包含卷積和池化采樣過程。

在訓(xùn)練數(shù)據(jù)有限的條件下，使用單一特征不足以訓(xùn)練得到良好的網(wǎng)絡(luò)參數(shù)，進(jìn)而無法估計出較為準(zhǔn)確的后驗概率。對此本文提出使用多種特征訓(xùn)練CNN。由于不同語音聲學(xué)特征的提取原理、算法不盡相同，通過卷積計算等深度處理，能夠從多角度獲取不同表達(dá)形式的同類語音信息，即獲取到具有互補(bǔ)性表達(dá)形式的同類聲學(xué)信息，因此有利于聲學(xué)建模。

1.1特征選擇與模型建立

當(dāng)前最經(jīng)典、使用最廣泛的多特征訓(xùn)練方法是將多類特征進(jìn)行拼接，應(yīng)用倒譜均值方差規(guī)整（Cepstral Mean and Variance Normalization， CMVN）技術(shù)對拼接特征預(yù)處理，然后對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。該方法對于全連接層的DNN較為有效，然而當(dāng)使用CNN建模時，卷積核跨越特征拼接交界計算所得結(jié)果毫無意義，因此常規(guī)的多特征訓(xùn)練方法不適用。為了更為有效地利用多特征信息進(jìn)行CNN聲學(xué)建模，提出一種基于并行式多特征訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)（如圖2）。首先使用多流特征進(jìn)行獨立的、并行式的子網(wǎng)絡(luò)訓(xùn)練，子網(wǎng)絡(luò)由卷積層構(gòu)成，它們分別對不同特征進(jìn)行深度處理，實現(xiàn)特征值規(guī)整；然后使用全連接層將多流子網(wǎng)絡(luò)的輸出匯聚在一起，使用三音子綁定狀態(tài)作為訓(xùn)練目標(biāo)，構(gòu)成一個完整的聲學(xué)模型。

在特征選擇時，考慮到底層聲學(xué)特征之間的互補(bǔ)性與相似性，為了使訓(xùn)練更具有實際意義，本文使用四種特征。具體來說，針對40維濾波器組（filter banks， fbanks）特征、257維功率譜（spectrogram）特征、13維梅爾頻率倒譜系數(shù)（MelFrequency Cepstral Coefficient， MFCC）特征和3維的基音周期（pitch）特征制定不同的CNN多訓(xùn)練方案。這些特征有的基于頻帶濾波計算，有的基于能量計算，還有的基于離散余弦變換（Discrete Cosine Transformation， DCT），表達(dá)形式較為不同，涵蓋長時信息與短時信息，特征空間差異較大。

在特征輸入網(wǎng)絡(luò)前進(jìn)行預(yù)處理時，首先對于維數(shù)較小的fbanks、MFCC、pitch等特征提取一階、二階差分分量并進(jìn)行前后5幀的拼接，這樣輸入時的特征映射數(shù)量均為33個；對于維數(shù)較大的spectrogram特征，提取一階、二階差分分量，并只進(jìn)行前后1幀的拼接，這樣該特征進(jìn)行卷積時的輸入特征映射數(shù)量為9個。總之，對于維數(shù)小的特征，單幀的細(xì)節(jié)信息較少，幀間的局部相關(guān)性較大，拼接幀數(shù)也就設(shè)置大一些；對于維數(shù)大的特征，單幀細(xì)節(jié)信息豐富，卷積時幀間的局部相關(guān)性較小，因此將拼接幀數(shù)設(shè)置小一些。

在模型構(gòu)建時，對于并行網(wǎng)絡(luò)部分，將fbanks、MFCC、pitch等部分的子網(wǎng)絡(luò)均設(shè)置為 “卷積層池化采樣層卷積層”結(jié)構(gòu)；對于spectrogram特征的子卷積網(wǎng)絡(luò)，由于spectrogram特征維數(shù)很大，因此當(dāng)卷積映射的節(jié)點太多時，其輸出向量存在冗余，導(dǎo)致參數(shù)過多不利于訓(xùn)練，因此對高維特征的子網(wǎng)絡(luò)部分再添加一個池化層進(jìn)行降采樣處理，這樣一來，spectrogram特征子網(wǎng)絡(luò)結(jié)構(gòu)為“卷積層池化采樣層卷積層池化采樣層”。

1.2模型參數(shù)訓(xùn)練

為使CNN的訓(xùn)練過程更容易描述，將1×F卷積核用F個權(quán)值表示。這樣每一層卷積計算可以用矩陣相乘形式表示，設(shè)第k流特征的第l個卷積層的權(quán)值描述矩陣為Wk，l，該矩陣由所有局部卷積權(quán)值矩陣構(gòu)成，矩陣包含I×F行、J列，其中：F是一維卷積核所涵蓋節(jié)點數(shù)（構(gòu)成一個頻帶）；I是每個頻帶內(nèi)對應(yīng)輸入特征映射的數(shù)量；J為卷積計算得到下一層的特征映射的數(shù)量。整體權(quán)值矩陣如式（1）所示。

1.3系統(tǒng)搭建方法

為了驗證所提出模型的推廣性，本文不僅考慮單語言訓(xùn)練的情況，還借助文獻(xiàn)[10]的思想，考慮多語言條件下（目標(biāo)低資源+高資源輔助語言）中間層共享訓(xùn)練的方案。融合多流特征的CNN聲學(xué)建模方法主要由以下幾個步驟構(gòu)成：

步驟1構(gòu)建子網(wǎng)絡(luò)。

對每類特征（只考慮特征種類，不考慮語言）建立相應(yīng)的子網(wǎng)絡(luò)， fbanks、MFCC、pitch等部分的子網(wǎng)絡(luò)均設(shè)置為 “卷積層池化采樣層卷積層”結(jié)構(gòu)；spectrogram特征子網(wǎng)絡(luò)結(jié)構(gòu)為“卷積層池化采樣層卷積層池化采樣層”。

步驟2構(gòu)建完整的網(wǎng)絡(luò)。

在并行子網(wǎng)絡(luò)之上串接兩個全連接層，然后按如下方法設(shè)置輸出層：

1）對于低資源單語言的情況，利用MFCC特征訓(xùn)練GMM，通過強(qiáng)制對齊（forcealignment），使用其中的三音子綁定狀態(tài)（senones）作為CNN的訓(xùn)練目標(biāo)；

2）對于多語言的情況，對低資源語料和輔助訓(xùn)練語料分別使用MFCC特征訓(xùn)練隱馬爾可夫模型（Hidden Markov Model， GMM），通過強(qiáng)制對齊得到CNN的多輸出層。

步驟3模型參數(shù)訓(xùn)練。

按照1.1節(jié)的特征選擇方案對每類特征進(jìn)行預(yù)處理，組織成特征映射的形式，準(zhǔn)備訓(xùn)練。

1）低資源單語言訓(xùn)練時，對目標(biāo)訓(xùn)練集的每一幀語音提取所需的四種特征，將四種特征同時送入子網(wǎng)絡(luò)，按照1.2節(jié)所描述的方法進(jìn)行參數(shù)訓(xùn)練，各自的特征訓(xùn)練對應(yīng)的子網(wǎng)絡(luò)，全連接層則是共同訓(xùn)練。

2）多語言訓(xùn)練時，對每種參與訓(xùn)練的語言的每一幀提取所需的四種特征，每種特征的子網(wǎng)絡(luò)接受來自所有參與訓(xùn)練的語言的數(shù)據(jù)。使用多語言特征共同訓(xùn)練中間層參數(shù)，方法同文獻(xiàn)[10-11]，在此不作贅述。其中多語言同類特征獨立訓(xùn)練對應(yīng)的子網(wǎng)絡(luò)，每種語言特征訓(xùn)練對應(yīng)的輸出層參數(shù)。

步驟4測試識別系統(tǒng)。

通過訓(xùn)練HMM，得到基于多特征訓(xùn)練的CNN聲學(xué)模型，然后搭建識別系統(tǒng)，使用低資源測試數(shù)據(jù)完成識別性能測試。

2不同特征空間的相似性度量

之所以對不同特征采用不同子網(wǎng)絡(luò)并行處理，而不是直接將所有特征拼接在一起，是因為不同聲學(xué)特征的分布差異大，總體分布不規(guī)則。由于不同類別的特征其維度不同，無法按傳統(tǒng)的歐氏距離進(jìn)行直接比較。但是在網(wǎng)絡(luò)參數(shù)的訓(xùn)練中，如果特征間的均值、方差相差較大，則訓(xùn)練樣本之間的幅值相差較大，進(jìn)而造成訓(xùn)練時的誤差信號波動較大，不利于基于梯度下降的收斂；反之，若特征間的均值、方差越接近，則訓(xùn)練效果越好。因此，本文定義向量間的平均維度間距作為衡量不同特征空間相似度的評價指標(biāo)，該指標(biāo)的計算類似于歐氏距離的計算。dμ（i， j）為平均維度間均值距離，它表示第i類和第j類輸入聲學(xué)特征均值矢量的差異。對于維度為1×Ni的第i類特征， fik（k=1，2，…，N1）表示該類特征第k維數(shù)據(jù)的均值，這樣第i類聲學(xué)特征中各維特征均值的向量fi=（fi1， fi2，…， fiNi）；dσ2（i， j）為平均維度間方差距離，表示第i類和第j類輸入聲學(xué)特征方差矢量的差異，設(shè)vi表示第i類聲學(xué)特征各維度方差的向量，這樣vi=（vi1，vi2，…，viNi）。它們的計算如式（9）所示：

由于一維卷積計算針對語音頻帶的局部信息進(jìn)行處理，因此在網(wǎng)絡(luò)底層設(shè)置合適的卷積核可以將原本在分布上相差很大的多種特征映射規(guī)整到更為相似的特征空間內(nèi)。使用Fi表示第一類特征在子網(wǎng)絡(luò)中前向傳遞后的激活元輸出的均值向量，同理有Fi=（Fi1，F(xiàn)i2，…，F(xiàn)iMi）；用Dμ（i， j）表示第i類和第j類子網(wǎng)絡(luò)激活元輸出特征平均維度間均值距離；使用Vi表示第一類特征在子網(wǎng)絡(luò)中前向傳遞后的激活元輸出的均值向量， Vi=（Vi1，Vi2，…，ViMi），用Dσ2（i， j）表示第i類和第j類子網(wǎng)絡(luò)激活元輸出特征平均維度間方差距離。它們計算方法如式（10）所示：

正是由于不同流特征所包含元素的幅值得到了相似性的規(guī)整，因此多特征訓(xùn)練效果才優(yōu)于單特征訓(xùn)練效果，本文在實驗部分也驗證了這一點。

經(jīng)過子網(wǎng)絡(luò)規(guī)整后的特征進(jìn)入全連接層進(jìn)行融合訓(xùn)練時，CNN高層網(wǎng)絡(luò)部分的參數(shù)可接受更多有效訓(xùn)練數(shù)據(jù)的訓(xùn)練，因此所得聲學(xué)模型的性能優(yōu)于單特征訓(xùn)練時的情況。訓(xùn)練時，當(dāng)誤差信號傳遞至并行網(wǎng)絡(luò)部分時，對應(yīng)的誤差信號傳遞至對應(yīng)的子網(wǎng)絡(luò)進(jìn)行相互獨立的訓(xùn)練，即子網(wǎng)絡(luò)的參數(shù)更新只與對應(yīng)特征計算得到的梯度相關(guān)，串行的全連接層部分則由所有特征共同參與訓(xùn)練。

3實驗與分析

3.1實驗語料與評價指標(biāo)

實驗采用Vystadial 2013 English data和Vystadial 2013 Czech data兩種語料。Vystadial 2013 English data（Vystadial_en）是一類開源的英語語料庫[12]，全部時長41h，來源于人工信息服務(wù)系統(tǒng)的對話語音數(shù)據(jù)；Vystadial 2013 Czech data（Vystadial_cz）是開源的捷克語語料庫[13]，全部時長15h，來源于：Call Friend電話服務(wù)的語音數(shù)據(jù)、Repeat After Me的語音數(shù)據(jù)和Public Transport Info的口語對話系統(tǒng)的語音數(shù)據(jù)。

實驗評價指標(biāo)有三個。

第一個是識別性能指標(biāo)，使用連續(xù)語音識別中的詞錯誤率（Word Error Rate，WER）來表示。設(shè)N為語料庫人工標(biāo)注文本中詞（全部正確詞）的數(shù)量，W為解碼連續(xù)語音與人工標(biāo)注作對比統(tǒng)計出的插入詞、刪除詞、替代詞的個數(shù)，r表示W(wǎng)ER，將r定義為兩者的比值，并化為百分率，如式（12）所示：

分兩部分計算參數(shù)數(shù)量P：一部分為卷積層的參數(shù)，一部分為全連接層和Softmax層參數(shù)。對于第一部分的權(quán)值與偏移量的計算，式中ci為該層一維卷積核所包含的節(jié)點數(shù)，Ni表示該層特征映射的個數(shù)；第二部分較為簡單，只需根據(jù)層間節(jié)點數(shù)即可計算得到全連接層參數(shù)數(shù)量。

第三個評價指標(biāo)為多特征間的平均特征維度差異，使用2.1節(jié)中定義的平均維度間均值距離和平均維度間方差距離兩個指標(biāo)來衡量。

3.2實驗工具與硬件條件

實驗使用Kaldi工具包[14]進(jìn)行數(shù)據(jù)準(zhǔn)備、底層聲學(xué)特征和高層聲學(xué)特征的提取、語言模型的聲學(xué)模型的訓(xùn)練與解碼。聲學(xué)模型訓(xùn)練、解碼矩陣分解的過程基于12核3.07GHz Xeon CPU實現(xiàn)，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練則基于單核Quadro 600 GPU進(jìn)行計算。

3.3基線系統(tǒng)

首先設(shè)定低資源語料環(huán)境，選取Vystadial_cz中的1h訓(xùn)練語料作為訓(xùn)練集，總共1504句話；再選取Vystadial_cz語料庫測試語音部分的30min左右的數(shù)據(jù)作為測試集，包含666句話，共3910個待識別詞。基于Vystadial_cz語料庫中全部訓(xùn)練語料的標(biāo)注文本構(gòu)建發(fā)音字典并訓(xùn)練二元語言模型（Bigram Language Model）；輔助訓(xùn)練語料為全部Vystadial_en訓(xùn)練語料的一半（約19.7h）。

為得到基線低資源單特征訓(xùn)練的DNN與CNN聲學(xué)模型，首先訓(xùn)練GMM聲學(xué)模型以獲取網(wǎng)絡(luò)訓(xùn)練目標(biāo)，對1h 的Vystadial_cz語料數(shù)據(jù)提取13維MFCC特征，訓(xùn)練基于線性判別分析（Linear Discriminant Analysis， LDA）和最大似然線性變換（Maximum Likelihood Linear Transform， MLLT）的三音子GMM聲學(xué)模型（13維MFCC特征進(jìn)行9幀拼接，LDA降到40維），該模型高斯混元數(shù)為19200個；然后利用特征空間最大似然線性回歸（featurespace Maximum Likelihood Linear Regression， fMLLR）技術(shù)進(jìn)行說話人自適應(yīng)訓(xùn)練（Speaker Adaptive Training，SAT），從而構(gòu)成LDA+MLLT+SAT的GMM聲學(xué)模型。通過對該模型強(qiáng)制對齊的方式，得到DNN和CNN的訓(xùn)練目標(biāo)。這樣，它們的Softmax層均含有915個節(jié)點。

訓(xùn)練基線DNN，將fbanks特征進(jìn)行左右五幀的拼接，因此輸入層有440個節(jié)點，設(shè)置4個隱含層，每個隱含層節(jié)點均為1024個。訓(xùn)練集和交叉驗證（crossvalidation）集各占訓(xùn)練數(shù)據(jù)的90%和10%。對每個隱含層（包含BN層）進(jìn)行20輪的受限玻爾茲曼機(jī)（Restricted Boltzmann Machine， RBM）預(yù)訓(xùn)練，然后利用BP算法進(jìn)行全局參數(shù)的微調(diào)，在訓(xùn)練過程中，學(xué)習(xí)速率設(shè)置初始值為0.08，每當(dāng)相鄰兩輪訓(xùn)練的驗證誤差小于0.1%時就將學(xué)習(xí)速率衰減一半，當(dāng)衰減之后相鄰兩輪的驗證誤差再次小于0.1%時訓(xùn)練停止。此外minibatch尺寸設(shè)為256。

訓(xùn)練基線CNN，首先提取fbanks特征的一階、二階差分量，然后進(jìn)行5幀的拼接，這樣輸入的特征映射節(jié)點共有1320個。網(wǎng)絡(luò)同樣設(shè)置4個中間計算層，其中包含底層的兩個卷積層和高層的兩個全連接層。全連接層的節(jié)點數(shù)為1024；對于第一個卷積層，設(shè)置卷積核尺寸為1×8，沿頻帶的卷積移動步長為1，設(shè)置卷積特征映射的數(shù)量為128（即卷積所得特征映射數(shù)量）；對于第二個卷積層，設(shè)置卷積核尺寸為1×4，沿頻帶的卷積移動步長為1，設(shè)置卷積特征映射的數(shù)量為256。在第一個卷積層和第二個卷積層之間設(shè)置一個池化采樣層，池化采樣尺寸為3，移動步長也為3，這樣節(jié)點數(shù)降采樣為原節(jié)點數(shù)的三分之一。學(xué)習(xí)速率和minibatch設(shè)置同DNN基線系統(tǒng)，網(wǎng)絡(luò)不進(jìn)行預(yù)訓(xùn)練。

此外，訓(xùn)練基于傳統(tǒng)多特征拼接方法的神經(jīng)網(wǎng)絡(luò)作為對比的多特征基線系統(tǒng)。根據(jù)1.2節(jié)的分析，CNN不適用于多特征拼接的訓(xùn)練方法，因此將該方法應(yīng)用于DNN。為得到最優(yōu)結(jié)果，使用fbanks、spectrogram、MFCC、pitch等四種特征進(jìn)行多特征拼接，實驗表明當(dāng)fbanks、MFCC、pitch特征進(jìn)行11幀拼接，spectrogram特征進(jìn)行3幀拼接時可得最優(yōu)結(jié)果。拼接后對特征超矢量作CMVN，DNN訓(xùn)練設(shè)置與基線DNN相同。

表1前三行為基線系統(tǒng)實驗結(jié)果，可知在輸入相同、網(wǎng)絡(luò)結(jié)構(gòu)相似的情況下，基于CNN聲學(xué)模型識別系統(tǒng)的詞錯誤率相對DNN聲學(xué)模型識別系統(tǒng)的詞錯誤率降低了272%（6276%→6105%），且參數(shù)數(shù)量降低約2169%（544×106→426×106）；而傳統(tǒng)的多特征拼接訓(xùn)練方法使得DNN識別系統(tǒng)詞錯誤率相對降低155%（6276%→6180%），但是參數(shù)規(guī)模增大很多。

3.4基于多流特征訓(xùn)練的實驗結(jié)果

在多流特征訓(xùn)練聲學(xué)模型的實驗中，根據(jù)1.2節(jié)圖2所描述的CNN網(wǎng)絡(luò)結(jié)構(gòu)，引入3維pitch、13維MFCC以及257維spectrogram特征，訓(xùn)練聲學(xué)模型搭建識別系統(tǒng)。設(shè)計五個實驗方案，每種實驗方案均在基線系統(tǒng)網(wǎng)絡(luò)的基礎(chǔ)上加入并行子網(wǎng)絡(luò)。

方案一引入3維pitch特征與13維MFCC特征（11幀拼接，計算一階、二階差分量，下同），加入一個并行的全連接子網(wǎng)絡(luò)（與卷積子網(wǎng)絡(luò)作對比），包含兩層，節(jié)點數(shù)均為200，其余參數(shù)設(shè)置與基線CNN相同。

方案二引入13維MFCC特征構(gòu)建并行卷積層，結(jié)構(gòu)為“卷積池化采樣卷積”，設(shè)置第一層和第二層的卷積核分別為1×5和1×2，卷積特征映射數(shù)量分別為64和128，卷積移動步長均為1，采樣尺寸為3，采樣移動步長為3，其余參數(shù)設(shè)置與基線CNN相同。

方案三引入13維MFCC特征與3維pitch特征，將兩類特征視為同一流特征，構(gòu)建共同的卷積層，訓(xùn)練參數(shù)設(shè)置與方案二相同。

方案四引入257維spectrogram特征（實驗表明該特征維數(shù)過大，當(dāng)拼接幀數(shù)多時性能反而會降低，因此只進(jìn)行3幀的拼接，計算一階、二階差分量），同樣對該特征設(shè)置兩個并行卷積層和一個采樣層，第一層和第二層的卷積核分別為1×9和1×3，卷積特征映射數(shù)量分別為8和16，卷積移動步長均為1，采樣尺寸為3，采樣移動步長為3，其余參數(shù)設(shè)置與基線CNN相同。

方案五引入257維spectrogram特征、13維MFCC特征和3維pitch特征加號改成“和”？不知道后兩者是表示一組么還是？---作者表示無誤，對基線系統(tǒng)網(wǎng)絡(luò)添加兩個并行的卷積子網(wǎng)絡(luò)，其中spectrogram特征對應(yīng)的子網(wǎng)絡(luò)與方案四相同，而13維MFCC+3維pitch特征對應(yīng)的子網(wǎng)絡(luò)與方案三相同，其余參數(shù)設(shè)置與基線CNN相同。

方案一到方案五的實驗結(jié)果如表1所示。比較方案一和方案三可知，全連接層對特征的規(guī)整變換效果不如卷積層；比較方案二、三、四、五，可知隨著特征流的增多，聲學(xué)模型性能越來越好，并且網(wǎng)絡(luò)的訓(xùn)練參數(shù)并沒有顯著增多。當(dāng)引入四種特征對CNN聲學(xué)模型進(jìn)行改進(jìn)時（即方案五）識別率最優(yōu)，對比基線CNN系統(tǒng)，以增加1972%（426×106→510×106）參數(shù)數(shù)量為代價換取了詞錯誤率208%（6105%→5978%）的相對降低，而且由于在低資源數(shù)據(jù)條件下進(jìn)行訓(xùn)練，因此CNN訓(xùn)練時間并未明顯增加。對比基線多特征拼接DNN，不但識別詞錯誤率降低327%（6180%→5978%），而且還減少了2044%（641×106→510×106）的參數(shù)數(shù)量。

再根據(jù)平均特征維度均值、方差距離的計算方法，對比各特征間的差異性，結(jié)果如表2。對比表中卷積前后的結(jié)果，發(fā)現(xiàn)卷積子網(wǎng)絡(luò)（CONV）有效降低了不同維度特征之間的均值、方差差異性，尤其每一維特征方差間差異得到極大降低。而特征元素幅值的差異性越小，特征分布越相似，因此該方法能有效起到規(guī)整特征空間的作用。對于低資源語音識別而言，該方法等效于增加有效訓(xùn)練樣本，低資源聲學(xué)模型的訓(xùn)練效果必然會得到提升。綜上所述，使用多特征構(gòu)建并行子網(wǎng)絡(luò)的方法有利于提升低資源下CNN聲學(xué)模型訓(xùn)練效果。

3.5引入多語言訓(xùn)練時多特征CNN模型的擴(kuò)展實驗

在該部分實驗中，引入高資源訓(xùn)練語料進(jìn)行多語言共享訓(xùn)練，驗證該多特征訓(xùn)練CNN模型對多語言訓(xùn)練的擴(kuò)展性。

設(shè)計兩種實驗方案，方案六在基線CNN的基礎(chǔ)上引入約19.7h的英語輔助語料，網(wǎng)絡(luò)的中間層參數(shù)共享，且擁有兩個輸出層；方案七在方案五的基礎(chǔ)上引入同樣的英語輔助語料，

不同語料的相同種特征混合在一起，送入同一個子網(wǎng)絡(luò)進(jìn)行共享訓(xùn)練。對于高資源英語語料部分的網(wǎng)絡(luò)的構(gòu)造，首先對該部分訓(xùn)練數(shù)據(jù)訓(xùn)練基于LDA+MLLT+SAT的英語GMM聲學(xué)模型，然后通過模型強(qiáng)制對齊得到輸出層的訓(xùn)練目標(biāo)，這樣英語部分的CNN輸出層節(jié)點數(shù)為1031個。

對比基線CNN與方案六，可以證明使用單特征時多語言訓(xùn)練對CNN的有效性；對比方案五和方案七，說明基于多特征訓(xùn)練結(jié)構(gòu)的CNN在引入多語言訓(xùn)練后得到了更大的識別性能增益。這些實驗都說明本文所提出的基于多特征的CNN聲學(xué)模型對于單語言、多語言訓(xùn)練數(shù)據(jù)都適用，具有一定的泛化能力。此外，對比實驗方案五和方案六，發(fā)現(xiàn)多特征訓(xùn)練與多語言訓(xùn)練的結(jié)果相差無幾，更加說明子網(wǎng)絡(luò)對不同特征進(jìn)行規(guī)整等效于增加了有效的訓(xùn)練數(shù)據(jù)。

綜上所述，方案七得到了最好的識別率，它的詞錯誤率相對基線DNN系統(tǒng)降低了717%（6276%→5826%），體現(xiàn)了CNN建模相對DNN建模的模型優(yōu)越性；將詞錯誤率相對基線CNN系統(tǒng)降低了457%（6105%→5826%），體現(xiàn)了多特征訓(xùn)練相對于單特征訓(xùn)練的優(yōu)越性；同時相對基線多特征拼接DNN系統(tǒng)的識別詞錯誤率和參數(shù)規(guī)模分別降低了573%（6180%→5826%）和390%（641×106→616×106），體現(xiàn)出本文多特征訓(xùn)練方法相對于傳統(tǒng)特征拼接方法的優(yōu)越性。

4結(jié)語

本文針對低資源條件下的CNN聲學(xué)模型進(jìn)行改進(jìn)，從網(wǎng)絡(luò)結(jié)構(gòu)入手，提出了一種可行的融合多流特征的訓(xùn)練方法。為了充分利用低資源訓(xùn)練數(shù)據(jù)的多種特征表達(dá)，在底層構(gòu)建并行卷積子網(wǎng)絡(luò)，然后通過全連接的方式進(jìn)行多特征流的融合，得到一種適用于CNN的多特征網(wǎng)絡(luò)結(jié)構(gòu)。實驗表明，并行的子網(wǎng)絡(luò)對不同特征起到了特征空間規(guī)整的作用，該方法相對所有單特征基線系統(tǒng)的識別率實現(xiàn)了有效的提升，相對于傳統(tǒng)的多特征拼接融合訓(xùn)練方法，不但有效提升了識別率，還降低了參數(shù)規(guī)模。實驗還表明，該方法對多語言共享訓(xùn)練方式同樣適用，驗證了該模型具有一定的擴(kuò)展性。

參考文獻(xiàn)：

[1]

HINTON G， LI D， DONG Y， et al. Deep neural networks for acoustic modeling in speech recognition： the shared views of four research groups [J]. IEEE Signal Processing Magazine， 2012， 29（6）： 82-97.

[2]

DAHL G E， YU D， DENG L， et al. Contextdependent pretrained deep neural networks for large vocabulary speech recognition [J]. IEEE Transactions on Audio， Speech and Language Processing， 2012， 20（1）： 30-42

[3]

ABDELHAMID O， MOHAMED AR， JIANG H， et al. Applying convolutional neural networks concepts to hybrid NNHMM model for speech recognition [C]// ICASSP 2012： Proceedings of the 2012 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway， NJ： IEEE， 2012： 4277-4280.

[4]

ABDELHAMID O， MOHAMED AR， JIANG H， et al. Convolutional neural networks for speech recognition [J]. IEEE Transactions on Audio， Speech， and Language Processing， 2014， 22（10）： 1533-1545.

[5]

ABDELHAMID O， LI DENG， YU D. Exploring convolutional neural network structures and optimization techniques for speech recognition [C]// INTERSPEECH 2013： Proceedings of the International Speech Communication Association Annual Conference. Lyon， France： International Speech Communication Association， 2013： 3366-3370.

ABDELHAMID O， DENG L， YU D. Exploring convolutional neural network structures and optimization techniques for speech recognition [EB/OL]. [20160105]. https：//www.researchgate.net/publication/264859599_Exploring_Convolutional_Neural_Network_Structures_and_Optimization_Techniques_for_Speech_Recognition.

[6]

SAINATH T N， MOHAMED AR， KINGSBURY B， et al. Deep convolutional neural networks for LVCSR [C]// ICASSP 2013： Proceedings of the 2013 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway， NJ： IEEE， 2013： 8614-8618.

[7]

SAINATH T N， MOHAMED AR， KINGSBURY B， et al. Improvements to deep convolutional neural networks for LVCSR [C]// ASRU 2013： Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway， NJ： IEEE， 2013： 315-320.

[8]

MIAO Y J， METZE F. Improving languageuniversal feature extraction with deep maxout and convolutional neural networks [C]// INTERSPEECH 2014： Proceedings of the 2014 International Speech Communication Association Annual Conference. Singapore： International Speech Communication Association， 2013： 800-804.

MIAO Y J， METZE F. Improving languageuniversal feature extraction with deep maxout and convolutional neural networks [EB/OL]. [20151122]. http：//isl.anthropomatik.kit.edu/cmu-kit/downloads/Improving_Language-Universal_Feature_Extractions_with_Deep_Maxout_and_Convolutional_Neural_Networks.pdf.

[9]

CHAN W， LANE I. Deep convolutional neural networks for acoustic modeling in low resource languages [C]// ICASSP 2015： Proceedings of the 2015 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway， NJ： IEEE， 2015： 2056-2060.

[10]

HUANG J T， LI J Y， YU D， et al. Cross language knowledge transfer using multilingual deep neural network with shared hidden layers [C]// ICASSP 2013： Proceedings of the 2013 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway， NJ： IEEE， 2013： 7304-7308.

[11]

MIAO Y J， METZE F. Improving lowresource CDDNNHMM using dropout and multilingual DNN training [C]// INTERSPEECH 2013： Proceedings of the International Speech Communication Association Annual Conference. Lyon， France： International Speech Communication Association， 2013： 2237-2241.

MIAO Y， METZE F. Improving lowresource CDDNNHMM using dropout and multilingual DNN training [EB/OL]. [20151122]. http：//www.iscaspeech.org/archive/archive_papers/interspeech_2013/i13_2237.pdf.

[12]

KORVAS M， PLTEK O， DUEK O， et al. Vystadial 2013—English data [EB/OL]. [20151012]. https：//lindat.mff.cuni.cz/repository/xmlui/handle/11858/00097C0000002346714.

[13]

KORVAS M， PLTEK O， DUEK O， et al. Vystadial 2013—Czech data [EB/OL]. [20151112]. https：//lindat.mff.cuni.cz/repository/xmlui/handle/11858/00097C0000002346706？localeattribute=cs.

[14]

POVEY D， GHOSHAL A， BOULIANNE G， et al. The Kaldi speech recognition toolkit [C]// ASRU 2013： Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway， NJ： IEEE， 2011： 1-4.

POVEY D， GHOSHAL A， BOULIANNE G， et al. The Kaldi speech recognition toolkit [EB/OL]. [20151112]. https：//www.researchgate.net/publication/228828379_The_Kaldi_speech_recognition_toolkit.