陳 斌,張連海,屈 丹,李弼程
(解放軍信息工程大學信息系統工程學院,河南鄭州 450001)
?
正則化分段區分性特征變換方法
陳 斌,張連海,屈 丹,李弼程
(解放軍信息工程大學信息系統工程學院,河南鄭州 450001)
摘要:針對基于分幀特征變換穩定性不夠的問題,提出了一種分段的區分性特征變換方法,并采用正則化方法確定出每一語音段的特征變換矩陣.該方法將特征變換視為數據受限條件下的參數選擇問題,在訓練階段,采用狀態綁定的方式訓練得到區域相關線性變換特征變換矩陣,將所有的變換矩陣構成一個過完備字典;在測試階段,采用強制對齊的方式對語音進行分段,在似然度目標函數中加入正則項,利用快速迭代收斂閾值算法進行求解,在求解過程中從字典里確定出最佳的特征變換矩陣子集及其組合系數.實驗結果表明,結合L1和L2正則化,相比于狀態綁定的區域相關線性變換方法,當聲學模型采用最大似然準則訓練時,識別率可以提高1.30%;模型區分性訓練后,識別性能提升了1.66%.
關鍵詞:特征變換;語音識別;域劃分;正則化;區分性訓練
現有的識別系統中常對語音識別特征進行特征變換[1],以得到具有魯棒性和區分性的特征.鑒于聲學模型區分性訓練的優越性能,學者將其應用于特征變換空間中,并同樣取得了較好的性能.其中采用高斯混合模型(Gaussian Mixture Model,GMM)進行聲學空間劃分的最小音素錯誤率特征變換[2](feature Minimum Phone Error,f MPE)和區域相關線性變換(Region Dependent Linear Transform,RDLT)[3-4]是兩種應用較為廣泛的方法.在此基礎上,又陸續提出了結合高斯混元參數信息的(Mean-Offset)m-f MPE[5]方法和考慮上下文相關性的(Context)RDLT[6]方法.深層神經網絡(Deep Neural Network,DNN)[7-8]較為明顯地提升了語音識別性能,不同于傳統的GMM-HMM識別系統,其對獨立的狀態進行訓練.基于此,文獻[9]提出了狀態綁定的(Tied-State)RDLT方法.
上述現有的區分性特征變換方法,在訓練階段,均是基于一段信號進行統計量的計算和變換矩陣的求取.但在測試階段,僅利用一幀信號,根據其后驗概率進行特征變換和補償,這會造成兩者出現一定程度的不匹配現象.另外,由于語音信號具有短時平穩性,僅利用1幀信號較難得到穩定的參數信息.為有效解決該不匹配問題,在測試階段,文中同樣基于一段信號進行特征變換,即根據一段信號的統計量信息,在訓練得到的變換矩陣集合中,自動選擇特征變換矩陣.在這個過程中變換矩陣個數的選取是關鍵,當選擇的變換矩陣較少時,將不能得到精確的變換參數;而當選擇的變換矩陣過多時,會造成過訓練.由于一次求解過程所擁有的數據量較小,可視為一個數據受限條件下的參數選擇問題.
壓縮感知和稀疏信號重建技術為解決這類問題提供了理論支持,其中最小絕對收縮和選擇算子(Least Absolute Shrinkage and Selection Operator,LASSO)L1和L2等正則化方法,能夠較好地進行參數的選擇[10].目前,正則化方法已被成功應用于語音識別領域,如文獻[11]采用L1約束對帶噪語音進行稀疏表示,通過在后端選取可靠分量進行稀疏補償,提高了語音識別的性能.文獻[12]在區分性訓練求解模型精度矩陣過程中,引入L1約束,較好地解決了當訓練數據不足而出現的過擬合問題.在子空間GMM[13]和基于深層神經網絡的聲學建模過程[14]中,通過引入L1和L2約束,減少了模型中非零參數,顯著降低了模型復雜度.
筆者將正則化方法引入到區分性特征變換中,在對語音信號分段的基礎上,基于每一語音信號段求解其特征變換矩陣.該方法采用狀態綁定的方式訓練得到變換矩陣,將訓練得到的特征變換矩陣當成字典項,在特征域進行特征變換相關參數的稀疏表示.由于目標函數連續可微,利用快速迭代收斂閾值算法優化目標函數,自動確定最優的特征變換矩陣及其系數.文中給出了在區分性特征變換中加入正則項的一般框架,并分別討論了L1、L2及兩者相結合的正則化方法,最后,實驗驗證了文中方法的有效性.
1.1 基于狀態綁定的RDLT特征變換矩陣
RDLT利用全局的GMM模型將聲學空間分成多個域,通過區分性訓練得到一個變換矩陣集合,每個變換矩陣對應特征空間中的一個域.用特征向量所屬域對應的變換矩陣對其進行變換,最終變換后的特征表示形式為

其中,o(t)為時刻t的輸入特征;Ai為第i個域對應的變換矩陣;κ(i)t為o(t)屬于第i個域的概率,可用GMM混元后驗概率表示.通常,RDLT方法中變換矩陣Ai基于詞圖信息,根據MPE準則更新,聲學模型參數則通過最大似然準則(Maximum Likelihood,ML)更新.這里采用狀態綁定的方式求解Ai.
1.2 基于語音分段區分性特征變換的一般形式
不同于傳統方法中先經驗地設定所需變換矩陣的個數,再根據每一語音幀后驗概率值的大小進行選擇和加權,這里對每一語音段根據其聲學統計量信息,利用最大似然準則,采用一種可變變換矩陣個數的方式,得到區分性特征變換的一般表達式.
設經過域劃分后總共有R個域,其每一個域對應的變換矩陣為Ai,語音信號被分成S段,其中,第s個語音段的特征變換可描述為

其中,xsi為所選擇的特征變換矩陣Ai對應的權重系數,下文中,均在語音段s內求解相關參數,為敘述的方便,將上標s略去.為提高特征變換后的識別性能,依據最大似然準則,要使得變換后特征的似然度最大,其目標函數為

其中,T表示語音段s中含有的總幀數;聲學模型采用隱馬爾可夫模型,共含有M個高斯混元;μm和Σm分別為第m個混元的均值矢量及協方差矩陣;γm(t)表示第t幀特征屬于第m個高斯混元的后驗概率.

由式(4)可知,基于分段的區分性特征變換是一個典型的二次優化問題.其求解方法為:對式(4)關于x求導,并令導數等于0,其中,C是與變量x無關的常數項,可得基于語音分段區分性特征變換求解的一般表達式為

在特征變換過程中,變換矩陣個數的選取是難點,需根據數據量的多少進行確定.當數據量較小時,應選取較少的變換矩陣,以減少所需估計的參數量,防止過訓練;而當數據量較為充足時,應選取較多的變換矩陣,從而得到更為精確的變換矩陣.但在一次變換過程中,所擁有的數據量有限,得到的方程數常會小于自變量的個數.文中特征變換是一個欠定問題.
近年來,壓縮感知技術已被廣泛應用于信號處理和機器學習中,其中正則化方法可有效在大字典中選取少量的字典項,再采用線性組合的方式稀疏恢復原始信號.在文中特征變換過程中,所有特征變換矩陣組成了一個大的字典,可刻畫較多的特征變換形式.而針對每一段語音,只需要從這個大字典中選取較少的字典項進行特征變換,可視為一個稀疏逼近的問題,因此,可采用正則化方法進行變換矩陣的選取.與常采用逼近誤差目標函數不同,這里采用似然度作為目標函數,似然度的變化率作為誤差項.
根據上述分析,在式(4)的基礎上引入正則項,求解時不考慮常數項C.此時,目標函數轉換為

同時引入L1和L2,也稱為彈性網正則化,此時,有

加入正則項后,可采用多種方法求解目標函數.由于目標函數是二次型,滿足Lipschitz連續可微的條件,這里采用具有二次收斂速度的快速迭代收斂閾值算法(Fast Iterative Shrinkage Thresholding Algorithm,FISTA)[15]進行目標函數的求解.進一步將目標函數式(6)轉換為

根據快速迭代收斂閾值算法,可得到目標函數的求解流程:
(1)設定初始值:y1=x0∈Rn,t1=1,k=1,η=10-5.
第(3)步判斷相鄰兩次迭代的似然度Q(x)相對變化量是否小于η,如果“是”,則停止迭代;否則,則繼續迭代.
4.1 實驗設置
將文中正則化區分性特征變換方法應用到連續語音識別中.實驗語料采用中文微軟語料庫Speech Corpora(Version 1.0),其全部語料在安靜辦公室環境下錄制,采樣率為16 000 Hz,16 bit量化.訓練集共有19 688句,共454 315個音節,測試集共500句.選擇聲韻母作為模型基元,零聲母(_a、_o、_e、_i、_u、_v),加上靜音(sil)以及常規的聲韻母,一共有69個模型基元,在此基礎上將模型基元擴展為上下文相關的交叉詞三音子.基于HTK 3.4建立基線系統,聲學模型采用三狀態的HMM模型,通過決策樹對三音子模型進行狀態綁定,綁定后的模型有效狀態數為2 843個.采用準確率作為實驗結果的評估標準.
4.2 實驗結果
這里采用13維的MFCC特征,聯合當前幀及其前后各4幀共9幀,并采用MLLT+LDA作為初始的變換矩陣,進行最大似然聲學模型的建立.特征變換中全局GMM模型是由聲學模型狀態中的高斯聚類得到,最終共有800個高斯.在此基礎上,分別得到了基于詞圖信息和基于狀態綁定的f MPE、m-f MPE、RDLT特征變換方法的識別性能,并進一步討論了當聲學模型分別采用最大似然和增進的最大互信息(Boosted Maximum Mutual Information,BMMI)準則區分性訓練時,各種特征變換方法的識別率,具體識別結果如表1所示.

表1 不同特征變換方法的識別性能
由表1的識別結果可知,區分性特征變換方法的識別性能均較為明顯地優于線性判別分析方法.mf MPE和RDLT采用狀態綁定的方式得到的識別結果會優于采用詞圖信息的方式,而f MPE方法采用這兩種方式識別的結果相當.為保證f MPE的性能,其所需的高斯混元數為12 000個,這主要是因為其每一個域中所含有的參數和信息量較小,需要增大域的個數以保證信息量.由于它利用前后相關的后驗概率信息進行特征變換,采用狀態綁定的方式,會在一定程度上影響這種前后相關性的獲取.在特征變換的基礎上,對聲學模型區分性訓練后,識別性能得到進一步的提升,且基于狀態綁定的特征變換方法其優勢更為明顯.
由上述的實驗結果可知,基于狀態綁定的RDLT能得到更好的識別結果,接下來將RDLT得到的變換矩陣構造一個字典,字典中共有800個字典項,采用正則化方法選取字典項,進行分段特征變換.在這個過程中,正則化參數λ1、λ2以及語音信號的分段時長對識別結果具有較大的影響,因此,分別討論了上述參數在不同設置條件下的識別性能,識別結果如表2所示,括號內為稀疏度,其度量方式為零系數占所有系數的比例.

表2 不同正則化參數、分段時長的識別性能及其稀疏度
由表2的識別結果可知,基于分段的方法在引入正則項之后,識別性能都獲得不同程度的提升.當對目標函數僅加入一個正則項時,L1正則化(λ1=5)的識別結果會優于L2正則化(λ2=20)的識別結果.加入L1正則化之后,當數據分段較小時,稀疏度較大;在相同的λ1值下,隨著數據量的增大,所選擇的特征變換矩陣也會增多;在相同的數據分段長度下,λ1值越大,稀疏度越大,所選擇的變換矩陣越少.這也說明了L1約束具有參數選擇功能,能夠根據數據量的大小自適應地確定參數的數量.在相同的語音分段方式下,λ2值越大,識別性能越高.L2約束會給每一個變換矩陣分配權重,因此,文中沒有計算其稀疏度.但所分配的權重系數中絕大部分接近于零,其可根據統計量信息進行權重的分配,有效防止某幾個分量出現過大的值,來提高參數估計的穩健性.對目標函數同時加入L1和L2正則項,當λ1=5,λ2=10時,能得到最大的識別性能提升.
同時由表2中的識別結果可知,對語音采用不同的分段方式,其識別結果會有較大的差異.在對語音采用固定長度的分段方法中,將語音分成2 s一段的方式,能得到最優的識別結果.這主要是采用這一長度,能得到相對穩定的統計特性,得到的參數信息較為準確.隨著分段長度的增大,識別性能反而會開始下降.這主要是因為當數據分段過大時,段內的聲學性質會有較大的差異,即使是數據較為充分,也難以獲得最好的參數估計,來同時描述差異性較大的語音信號段.采用強制對齊的分段方法,能得到最高的識別性能,這主要是因為對齊到相同狀態的數據具有相類似的聲學特性,利用這些數據能估計得到穩健的參數信息.另外,通過利用正則化方法,可根據語音段的聲學性質和所擁有的數據量自適應地確定變換矩陣的數量,有效避免基于幀特征變換方法中要經驗設定所需變換矩陣的個數.

表3 聲學模型區分性訓練的識別性能
在設置正則化參數λ1=5,λ2=10的條件下,分別采用固定長度2 s和強制對齊的方式對語音信號分段,并進行特征變換,在此基礎上進一步對聲學模型區分性訓練,識別結果如表3所示.
由表3的識別結果可知,經過聲學模型區分性訓練后識別性能有較大程度的提升.這說明在語音分段的基礎上進行特征變換,可有效克服聲學模型對特征變換的影響,在特征變換求解優化過程中側重于尋找區分性的特征.經過區分性訓練后,采用強制對齊的分段方式其識別率提升幅度更大.
提出了一種基于語音分段的特征變換方法,并將壓縮感知中的正則化方法引入到區分性特征變換中.通過采用狀態綁定的方式訓練得到特征變換矩陣,利用變換矩陣構造字典.針對某一語音段,為有效確定其最優的特征變換矩陣及加權系數,在特征變換的似然度目標函數中加入了正則化約束項,采用快速迭代收斂閾值算法對目標函數進行求解.實驗結果表明,引入L1、L2正則項以及兩者相結合的彈性網正則項,均能夠提高語音識別性能.采用強制對齊的方式進行語音信號分段,可得到最好的識別性能,聲學模型區分性訓練后進一步提升了識別率.后續的研究可在目標函數中引入其他形式的正則化約束項.
參考文獻:
[1]NASERSHARIF B,AKBARI A.SNR-dependent Compression of Enhanced Mel Subband Energies for Compensation of Noise Effects on MFCC Features[J].Pattern Recognition Letters,2011,28(11):1320-1326.
[2]POVEY D,KINGSBURY B,MANGU L,et al.f MPE:Discriminatively Trained Features for Speech Recognition[C]// Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2005: 961-964.
[3]ZHANG B,MATSOUKAS S,SCHWARTZ R.Recent Progress on the Discriminative Region-dependent Transform for Speech Feature Extraction[C]//Proceedings of the 9th International Conference on Spoken Language Processing.Baixas: ISCA,2006:1495-1498.
[4]FUKUDA T,ICHIKAWA O,NISHIMURA M,et al.Regularized Feature-space Discriminative Adaptation for Robust ASR[C]//Proceedings of the Annual Conference of the International Speech Communication Association.Baixas:ISCA,2014:2185-2188.
[5]POVEY D.Improvements to f MPE for Discriminative Training of Features[C]//Proceedings of the Annual Conference of the International Speech Communication Association.Baixas:ISCA,2005:2977-2980.
[6]KARAFIAT M,JANDA M,CERNOCKY J,et al.Region Dependent Linear Transforms in Multilingual Speech Recognition[C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2012:4885-4888.
[7]DENG L,CHEN J S.Sequence Classification Using the High-Level Features Extracted from Deep Neural Networks [C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2014:6844-6898.
[8]LIU D Y,WEI S,GUO W,et al.Lattice Based Optimization of Bottleneck Feature Extractor with Linear Transformation [C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2014: 5617-5621.
[9]YAN Z J,HUO Q,XU J,et al.Tied-state Based Discriminative Training of Context-expanded Region-dependent Feature Transforms for LVCSR[C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2013:6940-6944.
[10]ZIBULEVSKY M.L1-L2Optimization in Signal and Image Processing[J].IEEE Signal Processing Magazine,2010,27(3):76-88.
[11]EMRE Y,JORT F G,HUGO V H.Noise Robust Exemplar Matching Using Sparse Representations of Speech[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(8):1306-1319.
[12]ZHANG W B,FUNG P.Discriminatively Trained Sparse Inverse Covariance Matrices for Speech Recognition[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(5):873-882.
[13]LU L,GHOSHAL A,RENALS S.Regularized Subspace Gaussian Mixture Models for Speech Recognition[J].IEEE Signal Processing Letters,2011,18(7):419-422.
[14]YU Z,EKAPOL C,JAMES G.Extracting Deep Neural Network Bottleneck Features Using Low-rank Matrix Factorization [C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2014: 185-189.
[15]BECK A,TEBOULLE M.A Fast Iterative Shrinkage-thresholding Algorithm for Linear Inverse Problems[J].SIAM Journal on Imaging Sciences,2009,2(1):183-202.
(編輯:齊淑娟)
Regularized discriminative segmental feature transform method
CHEN Bin,ZHANG Lianhai,QU Dan,LI Bicheng
(Institute of Information System Engineering,PLA Information Engineering Univ.,Zhengzhou 450001,China)
Abstract:In order to improve the stability of the frame based feature transform method,a segment based discriminative feature transform method is proposed,and the feature transform matrix of each speech segment is determined using the regularization technique.In the novel method,the feature transform is viewed as a parameter selection problem with limited data.In the training stage,an over-complete dictionary is constructed by the feature transform matrices of tied-state based region dependent linear transform.During testing,after the speech signal is segmented through force alignment,an appropriate regularization term is added to the likelihood objective function.An optimal subset of the transform matrices is selected from the dictionary and their corresponding coefficients are estimated following the fast iterative shrinkage thresholding optimization algorithm.Experimental results show that compared with the tied-state RDLT method,after combining L1and L2regularization,the recognition rate is increased by 1.30% using the maximum likelihood training criterion.The performance gain is increased to 1.66%after discriminative training.
Key Words:feature transform;speech recognition;region dependent;regularization;discriminative training
作者簡介:陳 斌(1987-),男,解放軍信息工程大學博士研究生,E-mail:chenbin873335@163.com.
基金項目:國家自然科學基金資助項目(61175017,61403415);國家863計劃資助項目(2012AA011603)
收稿日期:2014-12-04 網絡出版時間:2015-05-21
doi:10.3969/j.issn.1001-2400.2016.02.018
中圖分類號:TN912.3
文獻標識碼:A
文章編號:1001-2400(2016)02-0102-06
網絡出版地址:http://www.cnki.net/kcms/detail/61.1076.TN.20150521.0902.015.html