陳擁權 李建中 鄭榮穩 魯加旺
合肥寰景信息技術有限公司
?
連續語音識別技術及其應用前景分析
陳擁權 李建中 鄭榮穩 魯加旺
合肥寰景信息技術有限公司
摘要:連續語音識別技術,是集語音處理、模式識別、句法和語義分析于一體的綜合性語音處理技術,能夠識別任意的連續語音,如一個句子或一段話,大大提高了語音交互的連續性和體驗度,是語音識別技術的核心之一。本文介紹了連續語音識別技術的研究現狀及幾種常見的技術方法,并且分析探討了連續語音識別技術的應用和發展前景。
近期,語音識別在移動終端上的應用最為火熱,語音對話機器人、語音助手、互動工具等層出不窮,許多互聯網公司紛紛投入人力、物力和財力展開此方面的研究和應用,目的是通過語音交互的新穎和便利模式迅速占領客戶群。但是,面向個人用途的連續語音聽寫仍然面臨極大的技術挑戰,尤其是對自然語言的識別和理解,因此連續語音識別技術及其應用的研究迫在眉睫。本文介紹了連續語音識別技術的研究現狀及幾種常見的技術方法,并且分析探討了連續語音識別技術的應用和發展前景。
(1)單詞切分難點:連續語音句子中各單詞的發音之間通常是沒有停頓的,即各單詞之間不存在明顯的邊界。
(2)發音變化難點:連續語音中各單詞的發音通常都比較自然和隨便,因而,各單詞受協同發音的影響也更為嚴重。
(3)連續單詞語音識別難點:單詞序列的長度未知;單詞序列中各單詞之間的邊界未知;當給定M個單詞參考模式和L長的待識語音模式時,就可能有ML種組合的匹配序列。
3.1技術核心:聲學模型 (HMM)和語言模型 (N-gramm)
聲學模型是語音識別系統中最為重要的部分之一,目前的主流系統多采用隱馬爾科夫模型進行建模。隱馬爾可夫模型的概念是一個離散時域有限狀態自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內部狀態外界不可見,外界只能看到各個時刻的輸出值。
語言模型是一個單純的、統一的、抽象的形式系統,語言客觀事實經過語言模型的描述,比較適合于電子計算機進行自動處理,因而語言模型對于自然語言的信息處理具有重大的意義。
3.2基本思路
連續語音識別系統的參考模式由孤立單詞的參考模式按時間順序動態接續組合而成,識別系統把待識連續單詞語音和被接續起來的單詞模式序列進行匹配比較,距離最短的單詞參考模式之序列就為識別結果。

圖2 連續單詞的語音識別過程
3.3典型技術解決方案
連續語音句子中每個單詞發音沒有明顯的界限,分割比較困難。目前比較典型的技術解決方案是:基于隱馬爾可夫模型(Hidden Markov Model,HMM)的連續語音識別系統。
3.1 術前心理護理的效果 患者術前常易產生恐懼心理,緊張情緒增加患者心理壓力,護士應與患者在泌尿外科微創術前進行心理疏導與溝通,講解微創手術的優越性及各種導管的性能作用,取得患者積極配合,避免因情緒波動致血壓升高等而影響手術。
該識別系統在訓練過程中采用逐步細化的建模過程,先建立單音素的HMM,然后考慮音素上下文,擴展到三音素HMM,最后進行狀態捆綁,還可逐步增加混合高斯變量數目,最終得到魯棒性較高的連續語音識別HMM。

圖3 基于HMM的連續語音識別系統架構圖
4.1兩級DP法 (Two-Level Dynamic Programming)
計算任意起始幀b和終止幀e之間的最佳累計距離D(b, e)


4.2分層構造法 (Level Building)
使用HMM的概率參數來對似然函數進行估計與判決,從而得到結果。


目前語音信號處理技術的發展方向及研究熱點主要體現在以下幾個方面。
5.1語音識別單元的選取
5.2特征參數提取技術
對語音信號進行分析處理,去除對語音識別無關緊要的冗余信息,獲得影響語音識別的重要信息。Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜,應用了人耳聽覺感知方面的研究成果。實驗證明,采用這種技術,語音識別系統的性能有一定提高。
5.3模式匹配及模型訓練技術
語音識別所應用的模式匹配和模型訓練技術主要有動態時間歸正技術(DTW)、隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)。
DTW是較早的一種模式匹配和模型訓練技術,在孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已被HMM模型和ANN替代。
HMM模型是語音信號時變特征的有參表示法。HMM模型的訓練和識別都已研究出有效的算法,并不斷被完善,以增強HMM模型的魯棒性。
人工神經元網絡在語音識別中的應用是現在研究的又一熱點。其本質上是一個自適應非線性動力學系統,模擬了人類神經元活動的原理,具有自學、聯想、對比、推理和概括能力。
目前的研究熱點是將 HMM 和 ANN 二者的優點有機結合起來,從而提高整個模型的魯棒性。
連續語音識別技術的應用主要是大詞匯量連續語音識別系統,可應用于計算機的聽寫機,以及與電話網或者互聯網相結合的語音信息查詢服務系統,而這些系統都是在計算機平臺上實現的。
6.1個人數字助理
個人數字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機界面一直是其應用和技術的瓶頸之一。現在業界一致認為,PDA的最佳人機交互界面是以語音作為傳輸介質的交互方法,并且已有少量應用。隨著語音識別技術的提高,可以預見,在不久的將來,語音將成為PDA主要的人機交互界面。
6.2家電遙控
用語音可以控制電視機、VCD、空調、電扇、窗簾的操作,而且一個遙控器就可以把家中的電器皆用語音控起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。
6.3汽車的語音控制
在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的衛星導航定位系統(GPS)的操作,汽車空調、照明以及音響等設備的操作,同樣也可以由語音來方便的控制。
6.4智能玩具
通過語音識別技術,我們可以與智能娃娃對話,可以用語音對玩具發出命令,讓其完成一些簡單的任務,甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關鍵在于降低語音芯片的價格。
除了上述應用以外,連續語音識別技術在其他方面的應用可以說是不勝枚舉,將給人們的工作和生活帶來極大的方便。
國家科技支撐計劃,網絡社區語音互動服務關鍵支撐技術研發,2012BAH95F01
參考文獻
[1]黃浩,朱杰,哈力旦.漢語語音識別中的區分性聲調建模方法[J].計算機工程與應用.2009(11)
[2]倪崇嘉,劉文舉,徐波.漢語大詞匯量連續語音識別系統研究進展[J].中文信息學報.2009(01)
[3]李凈,鄭方,張繼勇,吳文虎.漢語連續語音識別中上下文相關的聲韻母建模[J].清華大學學報(自然科學版).2004(01)
[4]韓兆兵,賈磊,張樹武,徐波.連續語音識別中聲學建模的組合聚類算法研究[J].中文信息學報.2003(04)
[5]李虎生,劉加,劉潤生.語音識別說話人自適應研究現狀及發展趨勢[J].電子學報.2003(01)

基金項目
關鍵字:語音識別 連續語音 聲學模型 語言模型