陳 雷,楊俊安,王 龍,李晉徽
(1.電子工程學院,安徽 合肥 230037;2.電子制約技術安徽省重點實驗室,安徽 合肥 230037)
一種新的基于DBN的聲學特征提取方法
陳 雷1,2,楊俊安1,2,王 龍1,2,李晉徽1,2
(1.電子工程學院,安徽 合肥 230037;2.電子制約技術安徽省重點實驗室,安徽 合肥 230037)
大詞匯量連續語音識別系統中,為了進一步增強網絡的魯棒性、提升深度置信網絡的識別準確率,提出一種基于區分性和ODLR自適應瓶頸深度置信網絡的特征提取方法。該方法首先使用魯棒性較強的瓶頸深度置信網絡進行初步特征提取,進而進行區分性訓練,使網絡的區分性更強、識別準確率更高,在此基礎上引入說話人自適應技術對網絡進行調整,提高模型的魯棒性。利用提出的聲學特征在多個噪聲較強、主題風格較為隨意的多個公共連續語音數據庫上進行了測試,識別結果取得了22.2%的提升。實驗結果表明所提出的特征提取方法有效性。
連續語音識別;瓶頸深度置信網絡;區分性訓練;ODLR
語音識別技術是指機器通過識別和理解把人類的語音信號轉變為相應的文本或命令的技術。
目前主流的語音識別系統主要由三部分組成,分別是:特征提取、聲學模型以及解碼。對于特征提取部分而言,它的主要功能是從輸入的原始語音中提取出有利于后續識別的語音特征。本文主要針對上述語音識別系統存在的識別準確率偏低、復雜環境中魯棒性的問題,重點從特征提取展開研究。但是目前基于BN+DBN的特征提取方法在識別準確率、魯棒性上的表現仍不盡如人意。本文通過對現有BN+DBN網絡的深入分析,找出現存特征提取方法存在的問題及其問題產生的原因,提出一種使用區分性和ODLR自適應的瓶頸深度置信網絡進行特征提取的方法。
1.1 深度置信網絡
與傳統神經網絡訓練方法不同的是,DBN采用預訓練與微調相結合的方式來訓練神經網絡,其中預訓練過程使用了一種基于受限波爾茲曼機(Re-stricted Boltzmann Machine,RBM)[1]的非監督訓練方法;微調階段使用BP網絡進行監督式的訓練。通過非監督的訓練將網絡的權重調整到了合適的初始值,進而采用傳統的BP算法對權重進行微調,便得到了一個DBN模型。
1.2 基于BN+DBN的特征提取方法
特征提取模塊是連續語音識別系統的基本組成模塊,對系統起著底層支撐的作用。
傳統的特征提取方法都有著相應的問題,MFCC方法難以提取語音數據中深層次的特征,并且相對于噪聲的魯棒性不強。而運用SDC進行特征提取的過程中需要對倒譜參數個數、差分倒譜的幀間間隔、計算差分倒譜的相鄰塊的幀移以及差分到普塊的個數進行調整,這種通過人工對參數進行調整的方式更多地依賴于研究人員的經驗,而且操作流程較為復雜,需要大量的計算機資源和訓練時間。
瓶頸(Bottle Neck,BN)的思想初次進入視野是在2007年,BN+ANN的特征提取方法在連續語音數據集中取得了較為理想的效果,DBN取代了ANN成為語音識別領域的主流方法之后,相關學者考慮BN+DBN的特征提取方法能否同樣給DBN的性能帶來相應的提升,最終提出了BN+DBN這一性能出色的神經網絡模型。BN+DBN在訓練的過程中通常將網絡的結構設置為相對于中間層對稱,將中間層命名為瓶頸層,瓶頸層所含節點數較少,隨后丟棄中間層之后的網絡結構,將瓶頸層作為網絡的輸出。盡管瓶頸層含有較少的神經元,但是通過選取合適的神經元數目,瓶頸層特征能夠很好地對語音進行表征,同時由于較少的節點數去除了數據冗余,大大提升了識別速率。BN+DBN的特征提取方法在擁有DBN較強的表征能力、較強的魯棒性的同時,由于瓶頸層的引入擁有著較高的識別速率[2]。
基于BN-DBN的特征提取兼顧了DBN和BN的出色性能,目前已經得到廣泛應用,其在連續語音識別中的優越性主要體現在[3]:
①能夠從不同的語音數據集中提取出具有代表性的特征,這些特征成為后續識別過程中的重要依據;
②DBN特有的非監督預訓練使網絡的傳輸權重調整到合適的初值,同時也使系統能夠充分地利用未標注的數據進行訓練,更全面有效地提取語音特征;
③DBN的微調優化部分利用標注數據對網絡進行監督訓練,對網絡模型進行更加精細的調整,提取更有效的特征;
④BN+DBN在原有深度置信網絡基礎上進行降維處理,這種策略對于系統去冗余有著重大意義,提升了訓練速度;
⑤相對于傳統的特征提取方法,需要人工調整的參數較少,具有更加廣泛的適應性。
2.1 基于區分性深度置信網絡的特征提取方法
區分性訓練在語音識別系統中的應用已經有幾十年的歷史。隨著相關算法的不斷提出以及計算機性能的大幅提升,區分性訓練不僅僅局限于小詞匯量數據集,更是將應用的領域擴展到了大詞匯量連續語音識別系統。區分性策略首先選取與模型分類特性緊密相關的目標函數,隨后直接對目標函數進行優化來實現模型調整。這種訓練方式不僅能夠降低模型假設錯誤,而且更直接地關注系統的識別和優化效果,為構建更為有效的聲學模型提供了有力的保證[4,5]。下面本文對DBN準則下的區分性訓練理論進行重點介紹。
DBN區分性訓練的代價函數和目標函數分別使用符號DSEQ和FMMIE表示,則有:

式中,R為訓練樣本句子數的總和,θ表示訓練過程中的參數的集合,Or表示聲學特征序列,Wr則表示詞序列。Mr表示訓練樣本中競爭序列的集合,即混淆集,表示所有可能句子的近似集合。k為聲學規整因子。
為了使DBN的輸出對應于各個綁定狀態的后驗概率,首先要將各個狀態的后驗概率轉換成似然值,使用如下公式進行:

通過鏈式法則,結合:

進一步得到區分性準則下DBN輸出層誤差的分量:

式中,等式右側第一個表達式的求解可以使用傳統GMM+HMM區分性訓練中的導數求解方法。

等號右側第2個表達式使用式得到:

第3個表達式使用如下公式求得:

δs,s′為克羅內克δ函數;s′=s時,δs,s′=1;其他情況下δs,s′=0。
綜上,式子的最終形式為:

最終得到;

至此完成了DBN準則下的區分性訓練,訓練的流程與傳統的GMM+HMM的聲學模型基礎上進行的區分性訓練極為相似。主體思路為首先使用lattice得到分子和分母的狀態占有率,隨后使用上述公式進行計算,最后通過BP算法使誤差在隱含層傳播,使用SGD算法對DBN參數進行更新。在區分性訓練的優化階段,使用EBW優化算法進行,同時結合i-smoothing平滑技術增強區分性訓練的擴展性。
區分性訓練流程:
根據最大互信息的目標函數,本文可以分兩步實現上述過程:第一步是增加分子項,實現與最大似然準則一樣,都是要增加相關特征對模型的相似度;第二步是減少分母項,也就是要降低競爭句子的特征對模型的相似度。這也就是區分性訓練準則與最大似然準則的差異之處,要設法降低競爭句子與正確句子的混淆度,以顯示正確句子的區分度。
在算法實現上,較為經典的方法為擴展的Baum-Welch算法,具體實現步驟如下:
①瓶頸深度置信網絡的訓練;
②利用訓練好的瓶頸深度置信模型進行標注的強制對齊,使用瓶頸特征的深度置信網絡模型做強制切分,使得每一幀特征嚴格對應到模型的各個音素上;
①采用Filter Bank特征作為輸入,使用瓶頸深度置信網絡進行訓練,分別產生正確句子與競爭句子的詞圖;
②忽略原來的聲學得分,根據詞圖進行有限制的識別,識別后在詞圖上產生新的聲學分數;
③利用擴展的Baum-Welch算法計算前向及后向概率,以此計算出的概率判斷競爭句子與正確句子的混淆度;
④根據步驟③計算出反向概率,可知每個詞段所必須做的反向訓練程度,這便是正向與反向統計信息;
⑤根據統計信息對當前模型做參數更新求取新的模型。
2.2 ODLR自適應深度置信網絡的特征提取方法
ODLR(Output-space Discrininative Linear Re-gression)是一種直接對DBN網絡進行自適應的方法,其基本思想是針對每個具體的說話人,使用少量的數據對DBN網絡的最后一個隱含層輸出進行變換,具體原理如圖1所示。[6-8]:
假設最后一個隱含層的輸出特征變換為:

MLP的輸出層的激活值表示為:

變換陣M的梯度表示為:

圖1 ODLR自適應深度置信網絡

偏置B的梯度表示為:

3.1 數據庫
本文使用的數據集規模較大,信噪比普遍較低,背景噪聲多樣,使用該數據庫對所提出的基于區分性和ODLR自適應BN+DBN的特征提取方法進行驗證。

表1 數據庫
3.2 實驗結果及分析
實驗一
實驗一主要對區分性訓練的基本理論進行驗證,首先在BN+DBN基線系統上進行了區分性訓練;隨后在此基礎上對VTLN[9]、網絡結構調整和狀態輸出對系統性能帶來的影響進行實驗[10];最終將各個技術點與區分性訓練相結合,測試總體性能實驗結果如表2所示:

表2 區分性DBN實驗結果
由上述結果,首先,在信噪比較高的數據集上學者已經證明了區分性訓練的有效性,表2的實驗結果說明在噪聲水平較高的數據集上進行區分性訓練同樣能夠增強網絡的區分性,達到較為理想的效果。新特征提取方法方法使識別系統的識別準確率平均提升10.6%,說明在瓶頸深度置信網絡上進行區分性訓練能夠達到預期效果。
其次,聲道長度規整技術能夠對模型產生積極的效果,識別準確率取得了一定提升,表明了VTLN技術從一定程度上濾除了說話人對識別造成的不利影響;第三組實驗在第二組的基礎上進行了網絡狀態調整和狀態輸出累積,識別準確率又取得了進一步的提升,證明了網絡狀態調整和狀態輸出能夠有效地提升DBN網絡的魯棒性,更加精細的網絡結構保證了識別性能的提升;最終第四組實驗提升效果最為明顯,表明了VTLN、網絡結構調整和狀態輸出能夠與區分性DBN完美地結合,這些技術的引入最終使區分性DBN的識別準確率取得了19.5%提升。
實驗二
實驗二中本文主要針對自適應技術進行實驗,驗證在瓶頸深度置信網絡中引入自適應技術的可行性。
在區分性訓練之后進行自適應的實驗,進行了ODLR自適應的實驗,在測試集上得到如表3結果。

表3 區分性自適應DBN特征提取方法的實驗結果
表3的結果表明,在區分性瓶頸深度置信網絡的基礎上進行說話人自適應又取得了3.3%的效果提升。新的特征提取方法總體取得了22.2%的識別準確率提升,性能提升效果較為明顯。實驗結果表明在基線系統下區分性訓練和說話人自適應能夠比較完美的共存。
由于要使用到切分、解詞圖等技術,本文所提出的特征提取方法需要多個程序分步運行,因此特征提取的時間難以準確測算。此外,雖然模型訓練階段耗時較長,但考慮到模型預先訓練完成之后,識別時可直接使用,無需反復訓練,引入區分性訓練和說話人自適應對實際測試過程的耗時影響不大,所以這里沒有對訓練時長做定量分析。
針對現有BN+DBN特征提取方法存在的區分性不強和自適應能力較差的問題,將區分性訓練和ODLR自適應技術與瓶頸深度置信網絡相結合,提出了基于區分性和自適應瓶頸深度置信網絡的特征提取方法,區分性訓練的引入使BN+DBN網絡更直接地強調模型的分類特性,為系統識別準確率的提升提供了依據;自適應技術有效地提升了系統的泛化能力,同時考慮區分性和自適應能否在BN+DBN模型上取得協同作用,在區分性訓練的基礎上進行了說話人自適應的訓練,通過不同背景噪聲,會話主題風格的數據庫上進行的實驗驗證了新的特征提取方法的有效性。
[1]Mohamed A,Dahl G,Hinton G.Acoustic Modeling Using Deep Belief Networks[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22.
[2]Mohamed A,Sainath T,Dahl G,et al.Deep Belief Networks Using Discriminative Features for Phone Recog-nition[C]∥Proceedings of the IEEE International Con-ference on Acoustics,Speech,and Signal Processing. 2011,Prague,Cech Republic,2011:5060-5063.
[3]Sainath T,Kingsbury B,Ramabhadran B.Auto-Encoder Bottleneck Features using Deep Belief Networks[C]∥Proceedings of the IEEE International Conference on A-coustics,Speech,and Signal Processing,Kyoto,Japan. 2012:4153-4156.
[4]Valtchev V,Odell J J,Woodl P C.Lattice-Based Discrimi-native l Yaining for Large Vocabulary Speech Recognition[C]∥Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),1996(2):605-608.
[5]Kingsbury B.Lattice-based Optimization of Sequence Clas-sification Criteria for Neural-Network Acoustic Modeling[C]∥Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2009:3761-3764.
[6]Hinton G,Srivastava N,Krizhevsky A,et al.Improving Neural Networks by Preventing Co-adaptation of Feature Detectors[C]∥CoRR,2012:1207-1210.
[7]Kuhn R,Junqua J C,Nguyen P,et al.Rapid Speaker Ad-aptation in Eigenvoice Space[J].IEEE Transactions on Speech and Audio Processing,2000,8(6):695-707.
[8]張志華.說話人自適應技術研究及其在電話信道下的關鍵詞檢出系統應用[D].鄭州:解放軍信息工程大學,2005:112-116.
[9]Siniscalchi S M,Dong Yu,Li Deng,et al.Speech Recogni-tion Using Long-Span Temporal Patterns in a Deep Network Mode[J].IEEE Signal Processing Letters,2013:20(3):201-204.
[10]BaoYebo,Jiang Hui,Liu Cong,et al.Investigation on Di-mensionality Reduction of Concatenated Features with Deep Neural Network for LVCSR Systems[C]∥Pro-ceedings of the IEEE 11th International Conference on Signal Processing(ICSP2012),Beijing,China,2012:562-566.
A New Feature Extraction Method Based on Bottleneck Deep Belief Network
CHEN Lei1,2,YANG Jun-an1,2,WANG Long1,2,LI Jin-hui1,2
(1.Electronic Engineering Institute,Hefei Anhui 230037,China;2.Key Laboratory of Electronic Restriction,Hefei Anhui 230037,China)
In order to further improve the robustness and recognition rate of deep belief network in Large Vocabulary Continuous Speech Recognition system,this paper presented a novel bottleneck deep belief network to extract new features,which was based on speaker adaptation and discriminative training.Firstly,a bottleneck deep belief network was adopted to get the feature.And discriminative training performed on this basis gave a more distinguished network to improve the recognition accuracy.Simultaneously,a more robust speaker adaptation method was introduced to adjust the network.The proposed method was tested on several public continuous speech databases with strong noise and casual themes and a relative 6.9%promotion of the recognition accuracy was obtained.The result proves the superiority of the proposed method compared to the conventional one.
Continuous Speech Recognition;Bottleneck Deep Belief Network;Discriminative Training;ODLR
TN912.34
A
1003-3114(2015)06-41-5
10.3969/j.issn.1003-3114.2015.06.11
陳 雷,楊俊安,王龍,等.一種新的基于DBN的聲學特征提取方法[J].無線電通信技術,2015,41(6):41-45.
2015-07-13
國家自然科學基金項目(60872113)
陳 雷(1990―),男,碩士研究生,主要研究方向:語音識別。楊俊安(1965―)男,教授,博士生導師,主要研究方向:信號處理、智能計算等。