北方民族大學電氣信息工程學院 樊海花
語音識別技術分析與應用
北方民族大學電氣信息工程學院 樊海花
語音識別作為人機交互的重要方式,正在被人們所研究。針對語音識別的算法有很多,本文對基于HMM的語音識別聲學建模、基于深度神經(jīng)網(wǎng)絡的聲學建模、基于統(tǒng)計模型的語音增強算法等算法做了闡述,為對語音識別作進一步的研究做了基礎。
語音識別;HMM;深度神經(jīng)網(wǎng)絡;統(tǒng)計模型
隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,語音識別作為簡單快捷的人機交互方式,被人們所認識,越來越多的研究被投入其中。隨著各種電子設備如智能手機、家用電器成為人們生活所必不可少的組成部分,人機交互變得越來越重要,而語音識別作為最方便的人機交互方式,被人們所使用。
語音識別技術的應用具體可以從貝爾實驗室首先發(fā)明的英文數(shù)字識別器開始[1],到線性預測編碼技術和動態(tài)時間規(guī)整技術應用于大規(guī)模連續(xù)詞語音識別,到普林斯頓大學將隱馬模型應用到語音識別過程中,再到對于解決海量語音信息識別的基于深度學習的語音識別技術的應用[1]。語音識別本質(zhì)上可以看做是一個序列分類的問題,聲學建模可以看做是解決語音特征觀察序列和狀態(tài)序列匹配的問題。
隱馬爾科夫模型是由隱馬爾科夫鏈演變而來的,用于描述隨機過程中的統(tǒng)計特性的一種方法,它的基本思想是通過一串觀測值用前驗概率計算公式估算出模型參數(shù),在語音識別訓練階段,訓練的數(shù)據(jù)越多,識別結果就會越接近于實際值。馬爾科夫鏈由初始狀態(tài)、轉移矩陣、輸出狀態(tài)組成[2],該模型的不同已知條件和不同未知條件的組合,會產(chǎn)生不同的問題。在利用隱馬科夫模型解決語音識別問題過程中,分別用到解決狀態(tài)序列解碼問題和解決模型參數(shù)估計問題,在語料庫訓練階段,用到班姆維奇算法,推測出模型中的參數(shù)。在語音的識別階段,采用威特比算法,當給定觀測值序列和模型參數(shù)的基礎上,確定最佳意義的狀態(tài)序列。該模型的缺點是當隱馬模型較為復雜的時候,由它訓練的參數(shù)容易收斂于局部最小值。
基于深度神經(jīng)網(wǎng)絡的建模,可以看做是基于高斯混合模型的復雜化,高斯混合模型本質(zhì)上可以看做包含一層隱含層的神經(jīng)網(wǎng)絡,隱含層節(jié)點對應各個高斯分量,輸出層為HMM輸出狀態(tài)[3]。DNN則是包含多個隱含層的多層網(wǎng)絡,輸入語音信號經(jīng)過分解到達第一層隱含層,從聲學特征空間到達隱含層所構造的新的特征空間,各個隱含層又相當于下一個隱含層的輸入層,在最后一層通過softmax網(wǎng)絡后到狀態(tài)空間。DNN相當于通過增加監(jiān)督信息來調(diào)諧網(wǎng)絡。DNN模型用于估算HMM狀態(tài)的后驗概率,網(wǎng)絡采用誤差反向傳播算法,目標函數(shù)采用交叉熵算法表示,通過求取最優(yōu)的目標函數(shù)來完成訓練。DNN在很長的時間里,被人們當做研究使用的熱點,與此同時,問題也隨之而來, 在對它的多流特征融合能力的研究中,發(fā)現(xiàn)其在全局有監(jiān)督的精細調(diào)整階段是比較費時的。人工神經(jīng)網(wǎng)絡需要按照隨機梯隊下降的方法,通過誤差反向傳播算法對訓練語音庫進行訓練。為了解決誤差反向傳播算法瘦臉相對緩慢的問題,提出了多GPU對DNN進行并行訓練。
假設語音信號和語音信號所在環(huán)境的噪聲信號的傅里葉變換系數(shù)都服從統(tǒng)一分布,這類算法估計的是語音信號幅度譜,稱為基于統(tǒng)計模型的語音增強算法。隱馬模型還可用于檢測語音停頓,對于平穩(wěn)噪聲,在整個語音發(fā)音段,可以使用EM算法計算噪聲的最大似然估計,但自適應增益估計只有在下一語音停頓處才能獲取到,這種語音增強算法在非平穩(wěn)噪聲環(huán)境下性能會下降非常快。基于碼書的語音增強算法可以很好地克服這個問題,它引入了瞬時增益計算,在每一幀語音中,它利用了訓練語音信號、噪聲信號的線性預測系數(shù)和帶噪語音觀測序列來計算增益函數(shù)。在基于碼書的語音增強算法中,碼書只提供線性預測的參數(shù)模型,它可以很好的適應非平穩(wěn)噪聲環(huán)境。
在白噪聲的背景下,提出基于功率譜稀疏表示的語音增強算法。該研究方法用非負限制的接近于K奇異值分解的算法訓練不帶噪聲的純凈語音的功率譜字典,采用LARS算法得到功率譜的稀疏表示,這種算法的終止條件通過控制噪聲的水平,到噪聲的語音信號的功率譜和用稀疏功率譜重構的功率譜之差的范數(shù)小于規(guī)定的值,就停止算法。由稀疏表示和經(jīng)過訓練的字典可以得到純凈語音的功率譜估計,后結合SSB-STSA方法可以完成對信號的識別。
盡管立體聲信息最近已經(jīng)廣泛應用于計算機視覺任務,但立體視覺信息在視聽語音識別(AVSR)系統(tǒng)中的并入以及是否可以提高語音準確性仍然是一個很大程度上尚未開發(fā)的領域。該領域需要解決的三個基本問題:1)立體聲功能是否有利于視覺和視聽語音識別? 2)如果是這樣,立體聲功能嵌入了多少信息? 3)如何在緊湊的特征向量中對平面和立體聲信息進行編碼?基于嵌入平面和立體聲特征的不同信息,一種新的級聯(lián)混合外觀視覺特征(CHAVF)提取方案被提出,將平面和立體視覺信息成功地結合到一個緊湊的特征向量中,并且在視覺上評估這一新穎特征和視聽連接數(shù)字識別和孤立短語識別。結果表明,立體聲信息能夠顯著提升語音識別能力,提出的視覺特征的性能優(yōu)于視覺和視聽語音識別任務中其他常用的外觀視覺特征。
抽象是使用替代單詞對給定文本的重述。釋義的識別在問答,信息提取和多文檔摘要等應用中至關重要。文字的詞匯,句法和語義特征可以單獨使用,也可以組合使用以識別釋義。支持向量機(SVM),最近鄰法和決策樹等機器學習分類器已經(jīng)被用于釋義識別,SVM識別器是最受歡迎的。徑向基函數(shù)神經(jīng)網(wǎng)絡(RBFNN)被設計并實現(xiàn)用于識別釋義。該研究在微軟研究釋義語料庫上進行了。從實驗結果可以看出,RBFNN識別器在準確性方面始終優(yōu)于SVM識別器,當使用詞匯,句法和語義特征的組合時,實現(xiàn)了最佳性能。
本文以語音特征提取和聲學建模為切入點,系統(tǒng)的闡述了幾種算法在語音識別方面的應用,為正在研究語音識別技術的學者提供了一定的理論基礎。隨著大數(shù)據(jù)越來越深入人們的生活,語音識別必然會稱為實現(xiàn)人機交互、推動人工智能的關鍵技術,海量的語音數(shù)據(jù)的累積,對人腦感知機制的不斷探索與研究,未來必定會有越來越接近人腦識別語音過程的算法,語音識別技術也會越來越趨于成熟。
近幾年,雖然語音識別技術已經(jīng)逐漸應用于人們的日常生活中:智能家電、服務機器人、車載系統(tǒng)等,但用戶的語音識別率仍然不盡如人意,所以研究出識別效率好且精度高的算法應用于語音識別顯得尤其重要。
[1]于俊婷,劉伍穎,易綿竹,李雪,李娜.國內(nèi)語音識別研究綜述[J].計算機光盤軟件與應用,2014,10:76-78.
[2]于大海,孫建民.淺談語音識別技術的應用和發(fā)展[J].科技傳播,2009,09:22-23.
[3]吳大為.基于HMM模型改進算法的語音識別系統(tǒng)[D].哈爾濱工業(yè)大學,2013.
[4]周盼.基于深層神經(jīng)網(wǎng)絡的語音識別聲學建模研究[D].中國科學技術大學,2014.
樊海花(1991—),女,山西原平人,碩士研究生。
北方民族大學創(chuàng)新項目(YCX1771)資助。