劉豫軍 夏 聰
(珠海多玩信息技術有限公司 廣東 519000)
近期,語音識別在移動終端上的應用最為火熱,語音對話機器人、語音助手、互動工具等層出不窮,許多互聯網公司紛紛投入人力、物力和財力展開此方面的研究和應用,目的是通過語音交互的新穎和便利模式迅速占領客戶群。我國采用嵌入式芯片設計技術研發了語音識別專用芯片系統,這是國內研發的第一塊語音識別專用芯片。芯片中包括了語音識別、語音編碼、語音合成功能,可以識別30條特定人語音命令,識別率超過 95%[1]。這些系統的識別性能完全達到國際先進水平。研發的成果已經進入實用領域,一些應用型產品正在研發中,其商品化的過程也越來越快,而孤立詞識別憑借著識別憑借著識別準確度高、具有較強使用價值等優點打開了廣闊的應用前景。
首先,實現小詞匯量語音識別系統最可靠的方法為孤立詞語音識別。雖然孤立詞語音識別較其他類型的語音識別成熟完善,基本可以達到使用要求,但在實際的具體系統應用環境中,仍存在一些影響因素使其識別率降低,孤立詞語音識別存在的難點問題有:
(1)系統在面對環境變化時的穩定性:環境噪聲廣泛存在易造成訓練與測試環境不匹配,致使系統性能嚴重下降。
(2)系統詞匯的變化(增加):生活中,每天都會有大量新詞匯產生,這導致模型訓練和識別難度加大,系統識別能力下降。
(3)選取識別基元:如何選擇識別基元,才能在穩定性(大基元)和靈活性(小基元)間達到最佳的取舍,是研究難點。
孤立詞語音識別系統指人在發音時,以單字的發音方式向語音識別系統輸入語音,詞語詞之間要有足夠的時間間隙,以便系統能夠檢測到始末點。采用這種方式的語音識別系統可以做到很高的識別率。語音識別系統本質上是一種模式識別系統,因此它的基本結構與常規模式識別系統一樣,包含特征提取、預加重、分幀、端點檢測、模式匹配、參考模式庫等單元。圖1為孤立詞語音識別系統的原理框圖[3]。

圖1 孤立詞語音識別系統的原理框圖
孤立詞語音識別從本質上來說是模式識別,語音識別過程就是根據模式匹配原則,按照一定的相似性度量法則,使待測語音的特征矢量與語音模式庫 中的某一個模板獲得最佳匹配的過程,如圖2所示。

圖2 孤立詞的語音識別過程
隱馬爾科夫模型(Hidden Markov Model,HMM):HMM是一種統計分析模型,是在馬爾可夫鏈的基礎上發展起來的。HMM 有算法成熟、效率高、易于訓練等優點,被廣泛應用于語音識別、行為識別、文字識別和故障診斷等多種領域,是目前語音識別的主流技術。對于非特定人連續識別,HMM 的表現性能良好。
HMM 的缺點在于統計模型的建立需要依賴一個較大的語音庫,這在實際工作中占有很大的工作量,且模型所需要的存儲量和匹配計算的運算量相對較大[4]。
在已知系統目前的狀態(現在)的條件下,一個過程的“將來”僅依賴 “現在”而與“過去”無關,這種過程稱為無記憶的單隨機過程(馬爾可夫過程)。時間和狀態都離散的馬爾可夫過程稱為馬爾可夫鏈。設 S是一個由有限個狀態組成的集合,S={1,2,3,…,n-1,n},可以把馬爾可夫鏈看做小球隨時間在n種狀態跳動的過程。

圖3 馬爾可夫鏈模型

圖4 幾種典型形狀的馬爾可夫鏈
預處理模塊,是對由用戶錄入的語音信號進行初步處理,其目的是濾除與語音識別無關的較小的、會產生負面影響的信息等,并對語音進行端點檢測,需要有濾波器完成。

圖5 濾波后信號頻譜
預加重的目的是為了使語音信號的頻譜更加平坦,響應函數為H(z)=μz-1

圖6 預加重前后語音信號對比圖
(1)語音分幀
語音分幀是為了獲得一個準穩態過程,以方便對語音信號進行理論分析。加漢明窗可有效克服頻率泄漏現象。

圖7 加漢明窗前后語音信號對比圖
(2)特征提取[6]
通過話筒采集到的語音信號中含有很多冗余的信息,只有從語音信號中撮出的表示其特性關鍵參數來表征其特性,才可以為更語音模型庫的建立創造良好的前提條件。由于Mel 頻率濾波器組對人耳的擬合精確度較高,故相關研究人員將Mel頻率的倒譜系數(MFCC)視為一種理想的特征參數,如圖 8所示。

圖8 MFCC提取過程框圖
(3)建立聲學模型庫
建立聲學模型庫最主要是,考慮兩方面的問題,即識別基元選擇問題和聲學模型的訓練問題。語音識別的準確度(識別性能)與以什么訓練方式得到模板有很大關系
A偶然訓練法(單一用戶、小詞匯量)
B多模板平均法(重復朗讀、特征矢量序列、動態時間規整DTW平均)
C聚類訓練法(用于非特定人的語音識別)
語音作為當前通訊系統中最便捷的通信載體,隨著計算機和語音處理技術的發展,語音識別系統的實用性將進一步提高。今后孤立詞語音識別技術的發展方向:
(1)不同語種之間的互譯——語音翻譯;
(2)非特定人、小詞匯、孤立詞、連續語音識別;
(3)人體語音口語與機器語音相結合的人機交互技術;
(4)網絡語音和電話語音、面向通訊和互聯網的語音識別;
(5)逐步微型化發展,從PC機平臺到PDA堂上電腦,再到嵌入式的語音識別。
21世紀是信息和網絡的時代,Internet把全球各連接成一個地球村,海量的信息資源能夠通過互聯網在短暫的時間內迅速傳播到全球各地,人與機器進行信息互通的需求不斷增強,迫切需要語音識別技術領域的技術成果,以滿足人們在任何地方、任何時間、對任何事物都能夠通過語音交互的方式得以實現。從語音識別技術的發展可以看出,科學技術推動了社會發展,滿足人們的需求,社會需求也反過來推動科學技術發展,隨著語音識別技術的快速發展,我們將深切體會到語音識別帶來的種種便利。
語音識別技術發展到今天,特別是中小詞匯量非特定人語音識別系統識別精度已經大于98%,對特定人語音識別系統的識別精度就更高。這些技術已經能夠滿足通常應用的要求。由于大規模集成電路技術的發展,這些復雜的語音識別系統也已經完全可以制成專用芯片,大量生產。在西方經濟發達國家,大量的語音識別產品已經進入市場和服務領域。一些用戶交機、電話機、手機已經包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產品也包括語音識別與語音合成功能。人們可以通過電話網絡用語音識別口語對話系統查詢有關的機票、旅游、銀行信息,并且取得很好的結果。調查統計表明多達85%以上的人對語音識別的信息查詢服務系統的性能表示滿意。
可以預測在近五到十年內,語音識別系統的應用將更加廣泛。各種各樣的語音識別系統產品將出現在市場上,人們也將調整自己的說話方式以適應各種各樣的識別系統。在短期內還不可能造出具有和人相比擬的語音識別系統,要建成這樣一個系統仍然是人類面臨的一個大的挑戰,我們只能一步步朝著改進語音識別系統的方向一步步地前進。至于什么時候可以建立一個像人一樣完善的語音識別系統則是很難預測的。作為一項具有實用性的技術,孤立詞語音識別的應用越來越廣。為了滿足實際需求人們一直在致力于不斷完善孤立詞語音識別系統,使語音識別具有更高的便捷性、高效性、隨機性、交互性等顯著特點,從而進一步推動人類社會的信息化和自動化進程。
[1]劉鈺.語音識別技術概述[J].計算機光盤軟件與應用.2010(14-17).
[2]倪崇嘉,劉文舉,徐波.漢語大詞匯量連續語音識別系統研究進展[J].中文信息學報.2009(01).
[3]王敏妲.語音識別技術的研究與發展[J].微型機與應用.2009(55-58).
[4]李剛建.語音識別模式發展方向研究[J].吉林建筑工程學院學報.2006(03).
[5]安鎮宙,楊鑒王,紅余映.范一種新的基于并行分段裁剪的DTW算法[J].計算機工程與應用 2007(43)研究.
[6]田野.哭聲環境下語音檢測的穩健性問題[M].西安電子科技大學.2003.