摘要:研究了一種基于動態貝葉斯網絡(dynamic bayesian networks, DBN)的語音識別建模方法,利用GMTK(graphical model tool kits)工具構建音素級音頻流DBN語音訓練和識別模型,同時與傳統的基于隱馬爾可夫的語音識別結果進行比較,并給出詞與音素的切分結果#65377;實驗表明,在各種信噪比測試條件下,基于DBN的語音識別結果與基于HMM的語音識別結果相當,并表現出一定的抗噪性,音素的切分結果也比較準確#65377;
關鍵詞:動態貝葉斯網絡; 圖模型; 圖模型工具包
中圖分類號:TP391.42文獻標志碼:A
文章編號:1001-3695(2007)10-0104-03
隨著語音技術的走向應用,實際環境對語音識別的聲學噪聲魯棒性要求越來越高#65377;僅僅依靠音頻特征進行語音識別,已經不能滿足低信噪比的環境應用#65377;由于語音中的視覺特征具有抗噪性強的特點,近年來,將視覺特征與聽覺特征相結合進行聽視覺語音識別,已經成為提高語音識別系統魯棒性的一條新途徑,并且獲得了較高的識別率[1]#65377;對于聽視覺語音識別的建模方法,傳統采用product HMM[2]和多流HMM[3]#65377;
利用多流HMM模型可以表示聽視覺之間的關系,然而只能對聽視覺異步關系進行音素級的建模#65377;研究實驗證明,對于連續語音識別,協同發音現象非常普遍,使得聽視覺間的異步關系已經超過音素邊界#65377;另外,HMM在結構上只允許一個時間片具有一個狀態,嚴重限制了對細節的描述#65377;同時,product HMM也帶來了狀態空間過大#65380;計算量增加等問題#65377;針對這些問題,對于聽視覺語音識別急需尋找一種新的反映這種異步關系的建模方法#65377;近年來,基于DBN的單流或多流語音模型應用于連續語音識別[4~6],并取得了較高的識別結果#65377;Zhang Yimin等人[7]利用DBN的建模優勢,提出了一種多流DBN模型(multistream DBN, MSDBN)#65377;該模型使用DBN對各種聲學特征進行同步和異步建模#65377;實驗證明該方法比傳統的基于HMM的融合方法帶來更高的識別率#65377;然而現有的DBN模型結構中,并沒有針對音素級切分結果的比較#65377;為此,本文利用GMTK,構建了音素級的單流DBN模型訓練和識別模型;同時還給出了識別率統計結果及詞#65380;音素切分結果,并與手工切分#65380;HTK切分結果進行比較#65377;
1基于動態貝葉斯網絡的語音模型
1.1圖模型與貝葉斯網絡
圖模型[8]是一種將概率論與圖論相結合的抽象統計模型#65377;透過它,可進一步深入地觀察和研究隨機過程中一些極為重要的特性,以及這些隨機過程式圖表示的物理現象#65377;除了強大的表示能力之外,GM還提供了一套高效的概率計算和決策算法#65377;
1.2動態貝葉斯網絡
語音信號是隨時間變化的隨機過程,如果將BN應用于語音建模中,需要將BN與時間聯系起來#65377;動態貝葉斯網絡[9]是在時間上對BN的擴展,非常適合對時間序列進行建模#65377;DBN在有限時間內,將變量之間的因果關系用聯合概率關系的形式表示出來,并繼承了GM和BN強大的表示能力#65377;它是繼HMM之后,建立更為復雜的語音模型的新選擇#65377;
1.3用于連接詞語音識別的DBN模型構建
以華盛頓大學的Bilmes為代表的研究者利用動態貝葉斯網絡,構建了用于語音識別的GMTK[4,5],大大簡化了語音訓練及識別的模型結構,提高了識別的運算速度#65377;本文采用GMTK工具包來構建需要的音素級的模型結構#65377;GMTK中使用腳本語言,定義了語音模型的基本結構,對各個節點變量的類型以及范圍作了詳細定義;同時定義了節點之間的概率轉移關系,并用條件概率關系表(CPT)和決策樹(decision trees,DTs)進行描述#65377;
1.3.1GMTK動態模型結構
GMTK中動態模型的基本結構如圖1所示#65377;
針對圖1 中的結構圖,將中間frame1的結構進行擴展,得到圖2所示的結構,從而顯示地描述更長的時間序列#65377;
1.3.2音素級模型結構描述
在音視頻語音識別的研究中,可以分別利用音頻特征和視頻特征進行語音識別,因而根據GMTK模型結構的基本框架,構建同時適用于音頻特征和視頻特征語音識別的單流DBN模型#65377;模型結構如圖3#65380;4所示#65377;
該模型被分為三個部分:prologue#65380;repeat#65380;epilogue#65377;對repeat塊進行擴展,使得結構能夠顯示地表示語音的發音過程#65377;
圖3和圖4中,實線箭頭表示確定性的條件概率,虛線箭頭條表示隨機概率#65377;充分利用這種確定性概率關系,可以大大提高DBN在推理過程中的計算效率#65377;在識別模型結構圖中,可以看到從節點word transition到word之間有一條虛線有向邊連接,將節點WT稱做轉換節點(switching parent)[4]#65377;CPT的選擇是根據該節點的取值來決定的#65377;
模型中節點的具體含義為:
Skip silence(SS)——隨機變量,相當于靜音或者語音之間的停頓#65377;
Word counter(WC)——表示句子中詞所在的位置(只有訓練模型中有該節點)#65377;
Word(W)——當前詞#65377;
Word transition(WT)——如果值為1,表示詞發生轉移#65377;
Phone position(PP)——表示音素在某個詞中的位置#65377;
Phone transition(PT)——如果值為1,表示音素發生轉移#65377;
Phone(P)——詞中具體的音素#65377;
Observation(O)——音頻或視頻的觀測向量#65377;
2模型腳本的更改及實現
為了能夠輸出音素,同時切分出音素對應的時間,可將原有模型中狀態上層的結構不進行改動,而只是將整詞狀態級更換為真正意義上的音素級,同時構造音素之間的轉移概率以及音素到觀測向量產生的概率#65377;
在GMTK中,對于模型結構#65380;節點之間的概率關系以及參數的初始化設置,都是用腳本語言的方式描述的,因而根據GMTK的文件描述格式,對其中涉及到的腳本文件進行修改#65377;在這里,本文構建了連接詞中zero到oh這11個單詞的音素對應表(表1)#65377;
定義了37個音素, 相應地定義了37個混合高斯,每個高斯分量個數為1,均值和方差分別為42維#65377;對phone position節點到phone之間的概率關系進行定義,針對每個詞輸出相應的音素#65377;
對模型中的chunk塊進行擴展,將prologue#65380;repeat#65380;epilogue這三個部分分別進行三角化(triangulate)處理#65380;簡化模型結構;然后又為每個部分建立決策樹(junction trees);最后連接成一個完整的三角化決策樹#65377;一旦模型結構經過三角化處理后,就可以運用EM算法對模型參數進行重估#65377;
3實驗結果與分析
3.1實驗設置
采用Aurura 3.0數據庫中的連接詞作為實驗數據,訓練樣本為100句,測試樣本為30句,同時對原始語音數據加入高斯白噪聲,可將形成各種信噪比的語音數據作為測試樣本#65377;特征采用13維的mfcc特征,選用窗長為25 ms的Hamming窗#65377;同時計算13維的一階差分和二階差分特征向量,再加上一維的能量特征向量,構成42維特征向量#65377;高斯混合模型采用37個高斯,每個狀態對應一個高斯,一個高斯由兩個高斯混合分量組成#65377;
3.2實驗數據分析
針對信噪比分別對0~40 db的數據進行識別,并與HTK的識別結果進行比較#65377;詞一級的識別結果如表2所示#65377;
4結束語
本文利用動態貝葉斯網絡構建了針對連接詞的語音識別和訓練模型,通過對不同信噪比的語音數據進行識別發現,基于DBN的模型顯示出較強的識別結果,尤其是在低信噪比的環境中,其識別結果高于基于HMM模型結構,從而體現出DBN具有較強的噪聲魯棒性#65377;同時,通過對音素切分結果進行比較,GMTK能夠實現詞以及音素的切分功能,并且切分結果具有有效性,其詞的切分結果與HTK的詞切分結果基本接近#65377;當然,音素的切分結果還不是很理想的,今后還需要對模型中的參數進行調整,以使音素切分結果更加準確;同時也為今后針對基于DBN的音/視頻模型,研究音/視頻之間的異步關系奠定了基礎#65377;
參考文獻:
[1]POTAMIANOS G,NETI C,GRAVIER G,et al.Recent advances in the automatic recognition of audiovisual speech[J].IEEE,2003,91(9):1306 1326.
[2]MUKUNDH N,SREEIVAS T V.ProductHMM: a novel class of HMMs for subsequence modeling[EB/OL].(2003-01-09).[2006-06-04].http://www.iscaspeech.org/orchive/wslp117.html.
[3]HAGEN A,MORRIS A C.Recent advances in the multistream HMM/ANN hybrid approach to noise robust ASR[J].Computer Speech Language,2005,19(1):3-30.
[4]BILMES J.GMTK:the graphical models toolkit[EB/OL].[2006-06-04].http://ssli.ee.washington.edu/~bilmes/gmtk/doc.pdf.
[5]BILMES J A,CHRIS B.Graphical model architectures for speech recognition[J].IEEE Signal Processing,2005,22(5):89100.
[6]KEVIN P M.Dynamic Bayesian networks:representation, inference and learning[D].Berkeley:University of California, 2002.
[7]ZHANG Yimin,DIAO Qian,et al.DBN based multistream models for speech[C]//Proc of IEEE Int Conference on Acoustics, Speech, and Signal Processing.2003:836-839.
[8]ZWEIG G,RUSSELL S.Speech recognition with dynamic Bayesian networks[C]//Proc of the 15th Nat Conf Artificial Intelligence and 10th Innovative Applications of Artificial Intelligence Conf(AAAI’98).1998:173-180.
[9]RUASSELL S,NOORVIG P.人工智能:一種現代方法.[M].中文版.北京:人民郵電出版社,2004:430-437.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”