歐陽志紅
摘 要
如同人與人之間的相互對話那樣,用語音對設備、機械等發出控制命令和信息,這不僅對于從事計算機的工作者,而且對于普通的人們,也曾是一個令人神往的夢想。近些年來,由于集成電路技術、數字信號處理技術和圖形識別等技術的不斷取得進展,語音識別技術也在長足地向前發展。如今,以聲音為輸入信號的自動控制系統已在不少場合開始得到應用。
【關鍵詞】特點 方法 現狀 應用
1 語音識別的優點和方法
直接用語音作為輸入控制信號方法具有許多優點:對人來說,作為最自然的輸入控制信號的手段,不必進行特殊的訓練;信息的產生速度較快,一般為鍵盤輸入方法的2~4倍;操作者在用眼和手共同進行其它作業的同時能輸入信息;操作者能邊走動邊輸入信息;能遠距離用電話輸入;可以省略鍵盤、發光字母讀出器等中間輸入設備;即使在某些緊急的場合,也能在轉瞬之間投入使用。
說明語音識別的方法,應首先從語音的分析談起。語音大體上包含著兩種信息:即具有一定含義的信息和發音者固有的信息。前者的識別處理稱為:“狹義聲音識別”,而后者的識別處理則叫作“發言人辨認”。
在聲音頻譜中,能量集中的頻帶稱為共振峰。共振峰頻率隨著發音者性別及其他條件的不同而變化。分析輸入的語音,找出其特征是語音識別的第一步。
識別輸入的語言是語音識別的下一步。對此在“單詞識別”和“單音識別”兩種方式。前者是在識別裝置內設有以單詞為單位的模擬型詞匯標準,進而選出與輸入語音最類似模式的方式。后者的方式是在識別裝置內設有以此單詞低次的單音、音節為單位的模擬型標準,將輸入的語音按單音的不同進行變換,再進行單詞的識別。
單詞(單間)與單詞(單音)之間是否有間隔,這是語音識別技術要考慮的一個重要問題。“離散話音”指的是在單詞間有200毫秒左右時間間隔的輸入方法。還有所謂“連續會話”方式,其作為識別對象的是多個單詞連續一氣講出的語句,相應的識別處理將較復雜一些。
另外,講話人是否受到限制的問題,對語音識別裝置來說,在技術上和造價方面都是必須考慮的。所謂“特別指定說話人”識別,就是將識別對象的全部單詞,經數次練習預先進行話音輸入,使之在裝置中存儲發音人個人所特有的單詞模式,使用時將輸入的語音與比單詞模式進行比較而加以識別的方式。這種方式以比較簡單的識別處理就能得到較高的識別率。還有“可更換發音人”的識別方式,它是預先用多人的語音信號瞬時值作成標準模式,這樣在更換了發音人、口音有所差異的情況下,識別裝置也能進行正確的識別。
語音識別的最高發展階段是識別人們以普通速度講的會話語言。眾所周知,一般人的會話中包含著無意義用語(口頭語),因此要一字一句地準確識別人的普通會話語言是極難的。作為解決方法,產生了被稱之為“語音理解”的新概念:就是將輸入的語音中所包含的冗余信息(方言、單調等)進行引用,作為理解輸入信息內容的近似方法,而不要求一定將輸入語音逐一正確地加以識別,這是與其它的語音識別方式根本不同的。采用此種識別方式的語音識別裝置作文章理解系統,它在聲音打字機和口語自動翻譯等方面可得廣泛的應用。
2 語音識別技術的現狀
按功能分類,語音識別裝置有數據輸入型、自然口語輸入型和發音人辨認三種。
2.1 數據輸入型
語音識別裝置首先在美國開始實用并最早出現商用產品的,現在實用的語音識別主要采用的還是對專人的并基于以單詞為單位的離散信息的識別方式,識別率達99%以上,適用于識別語句較少而且在較肅靜的室內場合使用。作為一般用戶為對象的(例如:旅客問詢)系統,則要求使用“可更換發音人”方式的語音識別裝置。
2.2 自然口語輸入型
對于自然口語輸入型的語音識別,美國國防部作為ARPA計劃,進行了大量的研究工作。在日本也以電子技術綜合研究所為中心,作為圖形識別研究大型計劃的一環進行了研究。目前已有聲音打字機那樣的應用。
2.3 發音人辨認
“發音人辨認”是語音識別最完善的方式。由于不同的發音人在發同一語音時,可以產生有顯著差別的聲學圖案,這種差別便體現了個人的特征。人的聽覺區別個人特征的能力是很強的。目前用電子設備辨認發音人常用的簡便方法是:檢出語音基頻隨時間變化的圖形作為辨認的依據。它的應用前景是相當廣泛的,比如用存儲某人的語音代替簽字(有人稱之為“聲紋”)進而利用電話等實現遠距離的身分確認將成可能。
3 語音識別在鐵路系統的應用
語音識別裝置按應用分類:有控制、指令型,利用電話(包括無線電話)型,OA(事務自動化)應用型和“發音人辨認”型等。
3.1 有控制、指令型
在控制、指令型的應用方面,采用“專人”語音識別裝置可以進行選排調車進路、調車機車的無人駕駛、行包自動分揀等;采用“可更換發音人”的語音識別裝置可以實現自動售票、行包受理和列車緊急停車等。
3.2 利用電話(包括無線電話)型
在利用電話型的應用方面,采用“專人”語音識別裝置可以進行在危險處所工作的機械操作(高空作業等)、火車司機的模擬訓練和列車到發時刻通知等;采用“可更換發音人”的語音識別裝置可應用于指定票(指定乘車日期和車次的車票)發售情況的問詢和預約及列車運行情況問詢。
3.3 OA(事務自動化)應用型和“發音人辨認”型
在OA型應用方面,適用于編制口述程序、語音打字機、圖書及文獻的檢索等。
例如在車站上的調車作業中,以往是按照作為高度作業指揮者的調車員的指示,由扳道員(電氣集中車站是由信號樓的信號員)扳道岔來辦理進路的。若將站內聯絡用的無線通信設備附加選路用的語音裝置,則可由調車員在站內任意地點直接指揮進行調車作業。
再比如利用主意控制的電磁客票預售自動化系統,在國外也已使用。這樣在一些預定將來也不設置“綠色窗口”(售票窗口)的沿線小站上,可通過聯機的形式向旅客發售指定票。站務員按旅客的要求,只要用電話以語音輸入的方式向售票中心站申請發售指定票,當得到由中心站發出的確有該指定票座席的話音應答之后,站務員即可向旅客發售指定票。
語音識別技術作為一門成熟的技術,已進入實用化階段,應用范圍也越來越來廣泛,隨著電子技術的飛速發展,它的技術將越來越成熟,應用領域也將不斷地擴大,從而更好的服務于各行各業。
參考文獻
[1]高新濤.語音識別技術的發展現狀及應用前景[J].甘肅科技縱橫,2007.
[2]馬志欣.語音識別技術綜述[J].昌吉學院學報,2006.
作者單位
湖南化工職業技術學院 湖南省株洲市 412011endprint