摘要:本文提出了一種基于模糊自適應Hamming網絡的連續漢語識別方法,用模糊自適應Hamming網絡來估計HMM中的狀態觀測概率。結合HMM對動態時間序列極強的建模能力和神經網絡的分類決策能力來提高語音識別的準確率。通過對非特定人漢語連續詞的語音識別實驗,證實了該方法的有效性。
關鍵詞:模糊自適應Hamming網絡;連續漢語識別;隱馬爾科夫模型
中圖分類號:TP391文獻標識碼:A 文章編號:1009-3044(2008)17-21507-04
1 引言
讓機器聽懂人類的語音,一直是人們追求的目標。在計算機中,通常人們交互界面以鍵盤為主,而最方便最自然的交互方式首推口述語言。因此語音識別技術一直受到各國科學界的廣泛關注。自二十世紀70年代發展起來的隱馬爾科夫(Hidden Markov Model, HMM)由于其對動態時間序列極強的建模能力,目前在孤立詞識別、連接詞識別、連續語音識別等領域已取得了相當好的識別效果,但HMM方法也有分類決策能力弱、需要語音信號的先驗統計知識等缺點,特別是對連續詞的識別還很難令人滿意。為了提高連續語音識別的準確率,許多改進的方法被提出來。例如,采用由多條并行馬爾可夫鏈組成的并行HMM[1],基于B P神經網絡和隱馬爾可夫模型(HMM)的混合聲學模型[2], 基于后驗概率解碼段模型[3]等。總的來講,這些方法對于改善基本HMM的識別性能都是有效的,但它們實現起來多數比較復雜,或者缺乏嚴格的理論依據。
針對上述問題,本文提出一種基于模糊自適應Hamming網絡的連續漢語識別方法。該方法將每個HMM狀態看成一個模糊自適應Hamming網絡系統,用相繼的若干幀特征矢量作為系統的輸入,構成一種新型的模糊自適應Hamming網(Fuzzy Adaptive Hamming Network,FAHN),對系統的輸出進行預測,從而實現對每個狀態的輸出概率密度函數進行估計。由于FAHN網絡具有良好的聚類特性和一致的全局逼近性[4,5],因此該方法不僅能有效地在語音識別中引入幀間相關性, 而且能克服狀態輸出概率密度函數為混合高斯分布的束縛。通過對非特定人漢語連續詞的語音識別實驗表明,相對于傳統的語音識別方法,該方法明顯降低了訓練時間,在識別率上也獲得了較大的提高。
2 模糊自適應Hamming網
由Cheng-An Hung和Sheng-Fuu Lin提出的模糊自適應Hamming網(FAHN)是一種采用動態閾值處理方式和模糊技術的競爭神經網絡。
2.1 網絡結構
模糊自適應Hamming網由兩層子網絡組成,包括匹配子網(Matching Score Net)和競爭子網(MAXNET)兩部分。在網絡輸入端前向匹配子網,假設輸入樣本為X=[x1,…,xn],且xi∈(0,1)。這里采用互補碼編碼技術,令xci=1-xi,i=1,…,n,為輸入樣本的互補樣本Xc,在網絡輸入時將樣本X及其互補樣本Xc同時輸入,即網絡輸入向量的維數由n變為了2n。采用互補的網絡輸入方式實際上是對輸入樣本的一種歸一化過程,擴大了對數據特征的表征范圍。
該網絡采用3層結構:輸入層F0、隱含層F1和輸出層F2,拓撲結構見圖1匹配子網絡由輸入層F0和隱含層F1組成。功能是計算輸入模式與存儲在網絡中的標準模式 (權值)之間的匹配度。輸入層神經元個數取決于輸入矢量的維數,設為M,假設輸入矢量為X,為克服種類擴散問題及保持穩定的模式編碼特性,在輸入層計算矢量X的補碼Xci=1-X,使輸入層的輸入矢量變為2M維矢量[X,Xc];隱含層與輸出層的神經元個數均為N,代表最大分類數目。
通過權值Wji(i=1,2,…,n; j=1,2,…,2N)與隱含層神經元相連。隱含層輸出為Zj=fQ(∑WjiXi),其中fθ(.)選取為分段函數,如式(1)所示:
式中, ρ稱為警戒參數,且0<ρ≤1。θ是一個自適應動態的調控參數,因為它是由警戒參數和輸入樣本共同決定的,警戒參數的引入實際上就借鑒了自適應共振理論的思想。
2.2 網絡的學習算法
模糊自適應Hamming網絡的學習采用競爭學習,在每次迭代過程中,最對輸出最大的神經元,即獲勝神經元所對應的前向權值Wji和競爭層權值?Wj進行更新,其余神經元所對應的權值不作調整。具體的學習算法步驟如下:
第六步:判斷網絡的當前訓練次數k是否大于K,如果小于,則k等于k+1,回到第三步進行新的一次訓練;否則結束網絡的訓練過程。
3 基于 FAHN/HMM的聲學模型
由于語音信號中存在非線性特性[6],因此對語音信號進行處理必須使用非線性工具,為此我們將FAHN網絡用于語音信號的建模。如圖2所示,每一個HMM狀態對應一個模糊自適應Hamming網絡系統。設輸入特征矢量序列Y=y1,y2,…,yN,HMM的狀態序列X=x1,x2,…,xN,xn∈{Sl~SL} 其中Sl表示HMM 的狀態。
式(9)是前p幀特征矢量的條件概率,它與基本形式HMM的輸出概率不同,即它不僅與所處的狀態有關,而且與前p幀特征矢量也有關,因此能在語音識別中有效地利用語音幀間的時間相關信息。過去的HMM模型都假定狀態輸出概率為混合高斯分布函數,在訓練基本的HMM參數時,通常采用最大似然(Maximun Likelyhood)準則,然而實驗證明根據ML準則和高斯分布假設所得到的系統并非最優系統而僅是次優的結果。為此,本文采用FAHN網絡來取代 HMM 的狀態輸出概率密度函數,這樣對概率密度函數的參數的估計問題,就轉變為對FAHN網絡參數的優化問題。假定FAHN系統的輸入矢量In由前p幀特征矢量構成,即In=(yn-1,yn-2,…,yn-p),輸出矢量On=yn。FAHN系統的實際輸出為Kn,則系統的狀態輸出概率密度函數可表示為:
由式(10)不難看出,系統的狀態輸出概率取決于FAHN系統對實際語音系統的逼近程度FAHN越逼近真實系統,反映出其輸出概率就越大;反之,輸出概率就越小。由于每個HMM 狀態對應一個FAHN網絡,因此在訓練FAHN模型參數時,先用Viterbi對齊算法對每個樣本的語音特征矢量序列進行動態分割,得到相應的各個狀態的起始分割點,再利用FAHN訓練算法對模型參數進行訓練,通過上述方法可為每個語音單元建立一套FAHN模型參數。在進行語音識別時,采用基于Viterbi譯碼的幀同步搜索算法,搜索最佳匹配路徑,從而實現對語音串的識別。
4 實驗與結論
本文使用了80人的語音數據進行連續漢語數字串的實驗。每人的語音數據包括漢語數字孤立詞發音以及10個不同的7位漢語數碼串的發音。其中60人的語音數據用于訓練,另20人的語音數據用于測試。所有數據均在實驗室條件下用計算機自帶的麥克風獲得,數據采樣率為22.05kHz,量化精度為16bits,每幀為25ms,幀間交疊為10ms,特征矢量由12階Mel倒譜頻MFCC加上歸一化能量及其一階和二階差分參數共39維組成。實驗是針對非特定人的連續詞識別。借助HTK工具[7,8,9],分別采用基本的HMM、BPNN/HMM混合模型以及本文所提出的FAHN/HMM模型進行實驗,測試系統的識別正確率和誤識率(包括替換錯誤率、插入錯誤率和刪除錯誤率)。實驗結果如表1所示。與基本的HMM模型相比,結合神經網路的混合模型無論在識別正確率還是在誤識率方面都表現更為出色。這表明通過訓練神經網絡來作為HMM狀態輸出概率估計器能更好表示語音信號的分布。而由于FAHN網絡較BPNN結構簡單且更接近人腦工作特性,所以在識別正確率上提高了兩個百分點。本文實驗是針對非特定人的7位漢語數碼串的識別,因此替代錯誤率明顯高于插入錯誤率和刪除錯誤率。從表1中可以看出采用本文所提出的方法識別率明顯提高。
本文提出了一種結合競爭神經網絡和隱馬爾科夫模型的新的語音識別方法,模糊自適應Hamming網絡采用模糊技術和測抑制機制作為隱馬爾科夫模型中觀察概率輸出的估計器,更符合真正語音信號的分布。 BPNN/HMM混合建模方法明顯地提高了語音識別系統的魯棒性,而且這種聲學模型能隨著實際應用的環境來自動調整模型的參數,使系統模型適合于不斷變化的識別環境,從而更好地改善語音識別系統的效果。由于模糊自適應Hamming網絡本身結構較為簡單、靈活,所以這種聲學建模方法可在大詞匯量、非特定人和連續語音識別系統中采用。未來的研究工作將集中在改進FAHN網絡的泛化能力和將新的識別方法應用于大詞匯量的漢語連續識別。
參考文獻:
[1]陳雁翔.一種適于非特定人語音識別的并行隱馬爾可夫模型[J],電子與信息學報,2004,2(10):1601-1606.
[2]李凡,吳軍,黃剛.基于BPNN/HMM神經網絡的聲學模型研究[J].華中科技大學學報(自然科學版),2004,32(9):9-11.
[3]劉文舉.基于后驗概率解碼段模型的漢語語音數字串識別[J].計算機學報,2006,29(4):635-641.
[4]Paul S.Wu*, LI Ming.Supervised and unsupervised fuzzy-adaptive Hamming net[J].Pattern Recognition,1999(32):1801-1806.
[5]C.Hung.S.Lin. Adaptive Hamming net: a fast-learning ART1 model without searching[J].Neural Networks,1995(8):605-618.
[6]L.Rabiner and B.-H.Juang.Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffs,1993.
[7]P.Woodland and S.Young.The HTK tied-state continuous speech recogniser[J].In Proceedings Eurospeech,1993:2207-2210.
[8]S. Young, G.Evermann, D.Kershaw.TheHTK Book[M].Cambridge University Engineering Department,2002.
[9]L.R. Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proceedings of the IEEE,1989,77(2):257-285.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文