陳斌,胡平舸,屈丹
(1.解放軍信息工程大學信息系統工程學院, 450001, 鄭州;2.山東大學信息科學與工程學院, 250100, 濟南)
?
子空間域相關特征變換與融合的語音識別方法
陳斌1,胡平舸2,屈丹1
(1.解放軍信息工程大學信息系統工程學院, 450001, 鄭州;2.山東大學信息科學與工程學院, 250100, 濟南)
為了提高語音識別準確率,提出了一種子空間域相關特征變換與融合的語音識別方法(MFCC-BN-TC方法)。該方法提取語音短時譜結構特征(BN)和包絡特征(MFCC)分別描述語音短時譜結構和包絡信息,并采用域相關特征變換的形式分別對BN和MFCC特征進行特征變換;然后對這種變換進行泛化擴展提出子空間域相關特征變換,以采用不同的時間顆粒度(幀和語音分段)進行多層次區分性特征表達;最后,對多種區分性特征變換后的特征進行聯合表征訓練聲學模型,并給出了區分性特征變換與融合的一般框架。實驗結果表明:MFCC-BN-TC方法比采用原始BN特征方法和采用MFCC特征基線系統方法,識別性能各自提高了0.98%和1.62%;融合MFCC-BN-TC方法變換以后的語音信號特征,相比于融合原始特征,識別率提升了1.5%。
語音識別;區分性訓練;深度神經網絡;子空間域相關特征變換
自動語音識別是將人類自然語音轉化為文本或命令的技術,是實現與機器“友好式”交流的重要技術之一。為提高語音識別率,常對特征參數進行某種變換[1-2],以得到具有魯棒性和區分性的特征。其中以采用高斯混合模型進行聲學空間劃分的最小音素錯誤率(feature minimum phone error, fMPE)方法[3]、域相關特征變換(region dependent linear transform, RDLT)方法[4]和狀態綁定(tied-state)的RDLT方法[5]為典型代表。
近年來,由于具有強大的學習和建模能力,深度神經網絡(deep neural network, DNN)[6]受到了廣泛關注而成為另一主流語音識別模型,其中,采用深度神經網絡-隱馬爾科夫模型(deep neural network-hidden Markov model, DNN-HMM)[7]的聲學建模方法相比于高斯混合模型隱馬爾科夫模型(hidden Markov model-Gaussian mixture model, GMM-HMM)聲學模型,在多種語音識別任務下優勢非常明顯。在特征提取方面,基于DNN提取瓶頸(bottleneck,BN)特征[8]的方法提出后,構建的BN-GMM-HMM識別系統,可得到與DNN-HMM相當的識別性能。鑒于GMM-HMM模型下區分性特征變換方法優越的性能,學者們力圖在深度神經網絡中尋找進行特征變換的方法[9-10]。為進一步提高BN特征的區分性,根據傳統的fMPE方法,文獻[11]提出了一種通過調整神經網絡中BN層的權值進行特征變換的方法。提取BN特征時,DNN的輸入為包絡特征(MFCC)、感知加權線性預測系數特征(PLP)等短時譜特征,得到的BN特征主要側重于輸入特征結構信息的學習和表達,這與側重于描述譜包絡的短時譜特征,具有較好的互補性[8,10,12]。但是,如何在同一框架下,利用特征變換方法尋找到更具有區分性表達的特征,以及有效地將側重結構信息表達和譜細節等不同方式的特征進行融合表征,仍然是語音識別領域重點關注問題之一[13]。
為進一步增大BN和MFCC特征的區分性,以及將2種側重不同表征的特征有效融合,本文在同一區分性特征變換目標函數下,分別調整BN特征提取網絡輸出層權值及求得MFCC特征變換矩陣集合,進行特征變換。在特征變換過程中,分別對BN和MFCC特征采用基于幀和分段的方式,在不同的時間層次上進行特征變換,以提高特征間的互補性,然后聯合區分性特征變換后的特征進行聲學模型訓練,得到了區分性特征變換與融合的一般框架。在該框架下,通過設置不同的變換矩陣形式,討論了不同特征融合方法的識別性能。
1.1 BN特征區分性變換
基于DNN提取BN特征的流程如圖1所示,BN特征的輸出層位于網絡的中間層,控制著輸入層到輸出層的信息流。其中,BN層的節點數遠小于其他隱含層的節點數,因而在訓練過程中,會對前一層的輸入矢量進行非線性降維,將有利于降低分類錯誤的信息盡可能地壓縮并保留在BN層,得到一個低維、緊致且富含信息的特征表示。訓練結束后,BN層以后的隱藏層和輸出層將被去除,BN層的線性輸出即為基線系統的BN特征。

圖1 BN特征提取流程圖
在基線BN特征的基礎上,進一步根據特征變換目標函數,對BN特征進行區分性特征變換。特征變換時,僅調整BN特征提取網絡中的最后一層(BN層)權重系數,前2層的系數保持不變,如圖1中梯形虛線框所示。區分性特征變換前后的權重矩陣分別記為WO和WBN∈Rni×(ni-1+1),ni為第i個隱含層的節點數,WBN相當于傳統特征變換方法中的變換矩陣MBN,WO則對應于MO。變換后的特征可以表示為
(1)
式中:h為BN層節點的激勵信號,即輸入特征o(t)經過前3層后的輸出;b為偏移矢量。
1.2 域相關特征變換
RDLT方法[4]利用全局的GMM模型將聲學空間分成R個區域(簡稱域),通過區分性訓練得到一個變換矩陣集合,每個變換矩陣對應于上述聲學特征空間劃分中的一個區域。用特征向量所屬區域對應的變換矩陣對其進行變換,最終變換后的特征有如下形式
(2)
式中:o(t)為時刻t的輸入特征;Ai為第i個域對應的變換矩陣;κt,i為o(t)屬于第i個域的概率,可采用GMM高斯分量后驗概率來表示。通常,RDLT方法中變換矩陣Ai基于詞圖(Lattice)信息獲得,根據MPE準則更新,聲學模型參數通過最大似然(maximum likelihood, ML)準則更新。
1.3 區分性特征變換目標函數
根據聲學模型的區分性訓練準則進行變換矩陣的求解,借鑒文獻[4-5]中的方法。給定訓練語音數據集,最小音素錯誤準則(minimum phone error, MPE)的目標函數為
(3)

由式(1)和(2)的特征變換表達形式可知,兩者變換矩陣的求解過程相類似,僅從表達形式上看,單純考慮變換的作用,忽略輸入的差別,可以認為式(1)為式(2)的一種特殊情況。采用導數鏈式法則求解式(3)所示的MPE目標函數關于RDLT第i個區域參數Ai的偏導,即
(4)

(5)
在對BN和MFCC特征變換過程中,均未考慮偏置項b,實驗結果表明去除該項對識別結果影響不大[4-5]。
上一節中的特征變換方法以幀為處理單元,幀級特征對應時長較小、顆粒度過細,因此特征變換后的區分性提升空間有限,且會出現測試與訓練失配問題,為此學者們提出了段級特征。通常段級特征以幀級特征為基礎,分段方式可采用固定長度分段和自適應長度分段2種,自適應長度分段按照某種準則進行劃分更能體現信號特征空間內在的關聯關系,常用的方法是采用強制對齊方式進行分段。以語音段為單位進行特征變換的方法即為段級特征變換方法。傳統幀級方法中經驗設定變換矩陣個數,再根據每一語音幀后驗概率值的大小進行選擇和加權,而本文的段級特征變換方法是采用子空間變換空間的思想,在區域相關特征變換方法上進行討論,因此稱之為子空間域相關段級特征變換方法。

設經過域劃分后總共有R個域,其每一個域對應的變換矩陣為Ai,語音信號被分成S段,其中第s個語音段的特征變換可以描述為
(6)
式中:xi,s為所選擇的特征變換矩陣Ai對應的權重系數。由于以下論述中,均在語音段s內求解相關參數,為了行文簡化,將下標s略去。為了提高特征變換后的識別性能,依據最大似然準則,要使得變換后特征的似然度最大,其目標函數為
(7)
式中:T為語音段s中含有的總幀數;聲學模型采用HMM-GMM模型,共含有M個高斯分量;μm和Σm分別為第m個高斯分量的均值矢量及協方差矩陣;γm(t)表示第t幀特征屬于第m個高斯分量的后驗概率。
令Oi(t)=Aio(t)為經過域i的變換矩陣Ai變換后的矢量,則o(t)經過所有R個域變換后的矢量矩陣為ξt∈RD×R,則有
(8)
則式(7)可轉換為
(9)
由式(9)可知,子空間域相關段級特征變換方法是一個典型的二次優化問題。對式(9)關于x求導,并令導數等于0,可得
(10)

(11)

在目標函數的優化過程中,直接進行變換矩陣子集的選取,非零系數項所對應的變換矩陣將通過線性加權的方式構成最后的變換矩陣,而零系數所對應的變換矩陣不會參與構建,可采用快速迭代收斂閾值算法(fast iterative shrinkage thresholding algorithm, FISTA)[15]進行求解。
不同識別系統可采用不同的特征參數、聲學模型、在不同的單位層級(如幀、段)[16]等來構造。通過融合不同的語音識別特征和系統輸出結果是提高識別性能的有效方法之一。本文對不同的特征,在不同的時間層次上進行區分性特征變換后,也進一步有效地結合,進行聲學模型的訓練。本文采用級聯(concatenate)的方式融合2種特征,融合后的特征可以表示為
(12)
式中:h為BN層節點的激勵信號,如式(1)所給出;MBN和MRDLT分別為BN和MFCC特征采用RDLT進行特征變換后得到的變換矩陣。
融合后特征所對應的特征變換目標函數為
(13)
式中:變換矩陣MBN、MRDLT分別以式(13)為目標函數進行參數優化和求解,其參數優化過程與1.3節類似。需要指出的是,式(13)并不對[MBN,MRDLT]進行聯合求解,而是針對每一種變換方法單獨進行優化,之所以這樣做,是因為聯合優化相對單獨優化而言更復雜,容易陷入局部極值。采用式(12)的特征融合方式,可以較為方便地討論單一特征以及特征融合后對識別結果的影響,同時還能加入其他的特征,如噪聲譜估計、說話人自適應信息等。
式(12)給出了特征融合的通用性框架,根據MBN、MRDLT選擇方式的不同,對應著不同的特征融合方式,區分性變換后的特征融合方法如圖2所示。在訓練階段,根據特征變換目標函數得到不同時間長度和特征的變換集合或參數;在識別階段,測試語音基于訓練階段獲得的特征變換集合或參數,根據融合方式進行相應特征變換,得到變換后的特征序列進行模型訓練和識別。特征有2種:一是傳統MFCC特征及其段級特征;二是幀級BN特征。根據這些特征,研究2種特征變換方式:一是域相關特征變換,幀級BN、幀級MFCC、段級MFCC均進行該特征變換;二是網絡權值調整特征變換,只采用BN特征。

圖2 區分性變換特征融合示意圖
圖2中,通過設定矩陣MBN、MRDLT的形式,可以研究不同特征融合方法的識別性能。當設定MBN為原BN層權值MO,MRDLT為單位陣時,即為幀級的MFCC特征和幀級的BN特征級聯;當MBN為原BN層權值MO,而MRDLT采用基于子空間域相關段級特征變換方法獲得時,則為另外一種融合方法,可表示為S-RDLT+BN;本文在以下4.2節的實驗中會繼續討論多種不同的融合方式。在區分性特征變換過程中,當采用基于幀和基于分段相結合的方式時,其具體的實現過程為:在利用強制對齊進行語音分段的基礎上,對每一語音段先進行基于分段的特征變換;然后在每一語音分段時間內,逐幀進行特征變換;最后,在每一語音分段內,融合兩者變換后的特征進行聲學模型參數的調整。
4.1 實驗設置
本部分具體研究本文區分性特征變換與融合的方法在連續語音識別中的性能。實驗語料采用中文微軟語料庫Speech Corpora(Version 1.0),其全部語料在安靜辦公室環境下錄制,采樣率為16 kHz,16 bit量化。訓練集共有19 688句,共454 315個音節,測試集共500句。選擇聲韻母作為模型基元,零聲母(_a、_o、_e、_i、_u、_v),加上靜音(sil)以及常規的聲韻母,一共有69個模型基元,在此基礎上將模型基元擴展為上下文相關的交叉詞三音子。特征矢量采用13維的美爾倒譜系數(MFCC)及其一階、二階差分系數,共39維?;贖TK 3.4建立基線系統,聲學模型采用3狀態的HMM模型,通過決策樹對三音子模型進行狀態綁定,綁定后的模型有效狀態數為2 843個。先得到最大似然聲學模型,進一步采用增進的互信息準則(boosted maximum mutual information, BMMI)[17]進行區分性訓練。
利用得到的GMM-HMM系統,對數據進行強制對齊,得到每個狀態對應的數據,訓練DNN模型。DNN含有5個隱含層(共7層),其中BN層節點數為42個,其他隱含層節點數為2 048個,其輸入特征由當前幀以及聯合前后5幀,共11幀MFCC特征組成,輸出節點對應于GMM-HMM系統的2 843個狀態。采用RBM算法預訓練時,每一層的學習率為0.01,精調整時,前5輪的學習率為0.08,后5輪的學習率為0.02。在使用BP算法聯合調整參數過程中,計算隨機梯度下降時,每一次(mini-batch)的數據樣本數為1 024個。最后利用得到的BN特征訓練BN-GMM-HMM模型。采用識別準確率作為實驗結果的評估標準。
4.2 實驗結果
基于MFCC和BN特征,對聲學模型分別采用最大似然(ML)準則和區分性訓練BMMI準則的識別結果如表1所示,其中(BN+D)表示在BN特征基礎上加入BN特征的一階差分,(BN+D+DD)為在BN特征基礎上加入BN特征的一階、二階差分構建識別系統。

表1 采用2種準則對4種特征的識別性能比較
由表1的識別結果可知,采用BN特征得到的識別性能明顯優于基于MFCC特征的識別系統,說明基于深度神經網絡能獲得有利于識別分類的特征。聲學模型區分性訓練后識別性能得到進一步的提升。加入BN特征的一階差分對識別結果的影響不大,加入二階差分之后識別性能反而會降低。這主要是由于在提取BN特征過程中,其輸入為當前幀以及上下文共11幀的長時信息,得到的BN特征已經獲得了上下文相關信息。另外,BN特征的提取過程是一個非線性的學習過程,簡單的進行線性差分可能不足以描述BN特征的這種相關性。因此,在接下來的實驗中,未加入BN特征的差分系數。

表2給出了MFCC和BN特征經區分性特征變換后,分別采用ML和BMMI準則訓練聲學模型的認別性能。表中F-RDLT、S-RDLT分別表示基于幀和基于分段的RDLT特征變換方法,G-BN為基于BN特征采用RDLT的方法進行特征變換,即將原來RDLT方法中的MFCC特征替換為BN特征進行特征變換,N-BN表示在BN特征提取網絡上調整權值進行區分性特征變換。

表2 區分性特征變換后2種準則的識別性能
表2中的識別結果表明,基于分段的RDLT特征變換方法S-RDLT的識別性能優于傳統基于幀的特征變換方法F-RDLT。這主要是由于基于分段的方法利用的是一個相對穩定的語音段信息進行參數的估計,而F-RDLT方法僅基于一幀信號,根據后驗概率選取變換矩陣,其聲學性質易受噪聲或是一些發音現象的影響,較難得到穩定的變換矩陣??v觀MFCC和BN特征,BN參數的總體性能均優于MFCC特征。對BN特征進行特征變換時,采用調整網絡權值的方法(N-BN)得到最好的識別性能,因為特征提取網絡具有更好的特征變換表達和學習能力,因此將區分性目標函數作為目標對特征提取網絡的變換矩陣進行學習時,整個BN特征提取與變換具有較好的相容性和連貫性,而對BN特征直接進行域相關特征變換(即G-BN),即將傳統的MFCC特征替換為BN特征,然后采用傳統的方法對BN特征進行變換,相當于將特征提取和變換分割成較為獨立的部分單獨進行考慮,較難描述BN特征的內在連貫性,進而影響識別性能。
由于各個特征之間具有互補性,因此在區分性特征變換的基礎上,進一步在特征和識別候選結果層進行融合。為了便于比較,給出了7種融合方式的結果:①MFCC+BN,即幀級MFCC和幀級BN進行特征融合;②F-RDLT+BN,即對MFCC進行幀級特征變換后與BN特征進行特征融合;③F-RDLT+N-BN,即對MFCC進行幀級特征變換,再對BN特征進行網絡權值調整變換后,將二者進行特征融合;④S-RDLT+BN,對MFCC進行段級特征變換后與BN特征進行特征融合;⑤MFCC+N-BN,對BN特征進行網絡權值調整變換后與MFCC進行特征融合;⑥S-RDLT+N-BN,對MFCC進行段級特征變換,對BN特征進行網絡權值調整變換后,將二者進行特征融合;⑦HY-S-RDLT+HY-N-BN,采用S-RDLT和N-BN特征變換后得到2種候選識別結果,分別為HY-S-RDLT和HY-N-BN,然后對候選識別結果進行融合。表3給出了2種準則對上述7種融合方式下特征的識別性能。

表3 2種準則對不同融合方式下特征的識別性能
由表3的識別結果可知,采用本文提出的特征融合方式,能通過設置變換矩陣MBN、MRDLT的形式,較為簡便地討論區分性特征變換前后、單一特征以及特征融合對識別結果的影響。當設定MBN為原BN層權值MO,MRDLT為單位陣時,即未對特征進行區分性特征變換,直接融合原始MFCC和BN特征訓練聲學模型,則識別率會優于采用單一特征的識別系統,說明MFCC和BN特征具有較好的互補性。雖然BN特征的提取過程其輸入也為MFCC,但得到的BN特征與MFCC特征會有差異性,2種特征側重于描述語音的不同聲學特性。接著,通過不斷調整MBN、MRDLT為區分性特征變換矩陣和單位陣,可以得到不同特征融合方式的識別性能。從實驗結果可以看出,融合后的識別率均有不同程度的提升,其中融合S-RDLT和N-BN這2種經過區分性特征變換的特征能獲得最佳的識別性能,相對于融合前的S-RDLT系統,融合后不同聲學模型的識別性能在訓練準則下分別提升了5.1%和3.82%;相對于融合前的N-BN系統,不同準則下的識別性能分別提升了0.9%和1.26%。這說明通過在幀級和段級不同時間層次上進行特征變換,能進一步提高2種特征的互補性。同時發現,特征融合后的識別率會優于融合候選結果得到的識別率。
本文提出了一種子空間域相關特征變換與融合的語音識別方法,在區分性特征變換的目標函數下,通過調整神經網絡中BN層的權值,對BN特征利用基于幀的方式進行特征變換,而MFCC特征則是采用基于分段的區分性特征變換方法。進一步提出了區分性特征變換與融合的一般框架,通過設置其中特征變換矩陣的形式,得到了不同特征融合方式下的識別性能。實驗結果表明,本文基于子空間域相關特征變換與融合的方法能夠對多層次的不同特征(如BN特征和MFCC短時譜)進行區分性表達,融合區分性特征變換前后的特征均能有效地提高識別性能,聯合區分性特征變換后的特征進行聲學模型訓練能得到最高的識別率。由于本文方法是一種通用框架下的聯合表示,因此具備多層次不同特征的聯合表征能力,后續的研究可以在此框架下加入其他的特征信息(如環境噪聲信息、說話人信息等)來提升多信息的聯合表征能力。
[1] NASERSHARIF B, AKBARI A. SNR-dependent compression of enhanced Mel subband energies for compensation of noise effects on MFCC features [J]. Pattern Recognition Letters, 2011, 28(11): 1320-1326.
[2] 劉曉明, 班超帆, 馮曉榮. 失真控制下的短時譜估計語音增強算法 [J]. 西安交通大學學報, 2011, 45(8): 78-84. LIU Xiaoming, BAN Chaofan, FENG Xiaorong. A short time spectrum estimation algorithm of speech enhancement under the distortion control [J]. Journal of Xi’an Jiaotong University, 2011, 45(8): 78-84.
[3] POVEY D, KINGSBURY B, MANGU L, et al. fMPE: Discriminatively trained features for speech recognition [C]∥Proceedings of the International Conference on Audio, Speech and Signal Processing. Piscataway, NJ, USA: IEEE, 2005: 961-964.
[4] ZHANG B, MATSOUKAS S, SCHWARTZ R. Recent progress on the discriminative region-dependent transform for speech feature extraction [C]∥Proceedings of the Annual Conference of International Speech Communication Association. Baixs, France: ISCA, 2006: 1495-1498.
[5] YAN Z, HUO Q, XU J, et al. Tied-state based discriminative training of context-expanded region-dependent feature transforms for LVCSR [C]∥Proceedings of the International Conference on Audio, Speech and Signal Processing. Piscataway, NJ, USA: IEEE, 2013: 6940-6944.
[6] 高瑩瑩, 朱維彬. 深層神經網絡中間層可見化建模 [J]. 自動化學報, 2015, 41(9): 1627-1637. GAO Yingying, ZHU Weibin. Deep neural networks with visible intermediate layers [J]. Acta Automatica Sinica, 2015, 41(9): 1627-1637.
[7] 袁勝龍, 郭武, 戴禮榮. 基于深層神經網絡的藏語識別 [J]. 模式識別與人工智能, 2015, 28(3): 209-213. YUAN Shenglong, GUO Wu, DAI Lirong. Speech recognition based on deep neural networks on Tibetan corpus [J]. Pattern Recognition and Artificial Intelligence, 2015, 28(3): 209-213.
[8] SAINATH T N, KINGSBURY B, RAMABHADRAN B. Auto-encoder bottleneck features using deep belief networks [C]∥Proceedings of the International Conference on Audio, Speech and Signal Processing. Piscataway, NJ, USA: IEEE, 2012: 4153-4156.
[9] SAON G, KINGSBURY B. Discriminative feature-space transforms using deep neural networks [C]∥Proceedings of the Annual Conference of International Speech Communication Association. Baixs, France: ISCA, 2012: 14-17.
[10]PAULIK M. Lattice-based training of bottleneck feature extraction neural networks [C]∥Proceedings of the Annual Conference of International Speech Communication Association. Baixs, France: ISCA, 2013: 89-93.
[11]LIU D Y, WEI S, GUO W, et al. Lattice based optimization of bottleneck feature extractor with linear transformation [C]∥Proceedings of the International Conference on Audio, Speech and Signal Processing. Piscataway, NJ, USA: IEEE, 2014: 5617-5621.
[12]YU D, SELTZER M L. Improved bottleneck features using pretrained deep neural networks [C]∥Proceedings of the Annual Conference of International Speech Communication Association. Baixs, France: ISCA, 2011: 237-240.
[13]HOFFMEISTER B, KLEIN T, SCHLUTER R, et al. Frame based system combination and a comparison with weighted ROVER and CNC [C]∥Proceedings of the International Conference on Spoken Language Processing. Piscataway, NJ, USA: IEEE, 2006: 537-540.
[14]ZOU H, HASTIE T. Regularization and variable selection via the elastic net [J]. Journal of the Royal Statistical Society: Series B Statistical Methodology, 2005, 67(2): 301-320.
[15]BECK A, TEBOULLE M. A fast iterative shrinkage thresholding algorithm for linear inverse problems [J]. SIAM Journal on Imaging Sciences, 2009, 2(1): 183-202.
[16]CHEN X, ZHAO Y. Building acoustic model ensembles by data sampling with enhanced trainings and features [J]. IEEE Transactions on Audio Speech and Language Processing, 2013, 21(3): 498-507.
[17]POVEY D, KANEVSKY D, KINGSBURY B, et al. Boosted MMI for model and feature space discriminative training [C]∥Proceedings of the International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ, USA: IEEE, 2008: 4057-4060.
(編輯 劉楊)
A Continuous Speech Recognition Method Using Dependent Feature Transformation and Combination of Subspace Region
CHEN Bin1,HU Pingge2,QU Dan1
(1. Institute of Information System Engineering, Information Engineering University, Zhengzhou 450001, China; 2. Institute of Information Science and Engineering, Shandong University, Jinan 250100, China)
A speech recognition method based on dependent feature transformation and combination of subspace regions (MFCC-BN-TC) is proposed to improve the recognition accuracy. The structure feature (BN) and envelope feature (MFCC) are extracted to separately describe the structure and envelope information of the short speech spectrum, and the region dependent feature transformation is adopted to perform feature transformation for the BN and the MFCC, respectively.The transformation is then generalized to give a subspace region-dependent feature transformation so that different time units (frame and segment) are applied to finish multi-level modeling. Moreover, a feature combination framework is proposed, and the acoustic model is trained using combined multi-features after transformation. Experimental results and comparisons with the method using raw BN and the method based on MFCC feature show that the recognition rate of the MFCC-BN-TC method increases by 0.96% and 1.62%, respectively. The gain in performance of the MFCC-BN-TC method increases by 1.5% through combining the transformed features.
speech recognition; discriminative training; deep neural network; subspace region-dependent feature transformation
2015-08-07。 作者簡介:陳斌(1987—),男,博士生;屈丹(通信作者),女,博士,副教授。 基金項目:國家自然科學基金資助項目(61175017,61403415)。
時間:2016-01-13
10.7652/xjtuxb201604010
TN912
A
0253-987X(2016)04-0060-08
網絡出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20160113.1957.004.html