張子辰

摘 要語音識別和反饋技術是一種重要的人機交互技術,隨著語音識別算法和硬件性能的提升,語音識別率和識別速度得到顯著提升,使得目前廣大的信息系統、科學計算平臺和輔助系統集成語音輔助技術的可行性大大提高,有效增強各種信息服務平臺、辦公系統、信息輔助系統等信息系統的易用性和場景適應性。本文提出一種基于有限狀態機的語音輔助系統,通過采用有限狀態機,提高辦公系統的命令輸入準確性,同時,通過模式識別優化,提高指令輸入效率。
【關鍵詞】語音識別 語音輔助 辦公系統 有限狀態機
語音交互是人們最廣泛使用和適應的一種日常交互方式,在電子信息領域,也是一種理想的人機交互方式,隨著語音識別算法的發展和相關硬件技術進步,語音識別技術逐步走向成熟,目前在語音輸入領域、語音大數據分析、語音生活輔助等領域已經有較多的應用場景。但是語音輔助技術目前仍存在一定難點,例如語音開集庫識別、語音交互速度等方面。同時,語音識別技術在辦公輔助系統上應用還較少,尤其是某些工作人員不方便進行手動指令輸入操作的場景或手動指令輸入效率較低場景,如果利用語音輔助技術,可以有效提高用戶辦公效率和系統適應性。
本文基于上述問題,針對性地提出了一種語音輔助系統模型,通過合理的模型設計和算法設計,有效改進了上述技術難點帶來的語音識別效率和指令輸入效率問題,提高用戶使用語音輔助時的工作效率和用戶體驗。
1 系統概述
1.1 系統整體框架介紹
系統整體框架如圖1所示,系統分為三層架構,分別為用戶交互層、邏輯處理層和底層框架。用戶交互層主要負責與用戶進行指令交互工作和信息反饋工作,主要包含三個模塊,為語音監聽模塊、用戶輸入模塊和語音反饋模塊,三個分別負責用戶語音監聽,用戶手動指令輸入和系統信息語音反饋。
邏輯層為系統核心部分,包含模式識別模塊、指令執行模塊和語音識別模塊,其中,語音識別模塊獲取交互層提交的用戶語音音頻信息,將用戶語音指令或語音輸入轉換為輸入字符串,以便進一步處理。模式識別模塊的主要作用是將用戶輸入語音轉換獲得的字符串進行模式匹配,將無結構的字符串轉換為結構化的指令樹,從中提取用戶真正的指令信息。指令執行模塊的主要功能是進行用戶數據和系統操作的指令執行,其中為其他模塊提供系統操作接口,供其他模塊調用。
底層框架提供了系統基礎運行平臺,分別包含系統運行框架和數據庫平臺,底層框架根據不同的系統部署要求可以進行對應的調整。
2 系統關鍵部分
2.1 語音監聽與識別模塊
語音監聽與識別屬于用戶交互端和邏輯預處理端,其核心部分為語音識別技術(Auto Speech Recognize,簡稱ASR),在本論文的實現過程中,采用科大訊飛的語音識別SDK,其語音識別算法采用深度神經網絡(DNN)聲學建模,同時采用多重降噪算法進行降噪處理,經測試,能夠充分滿足本系統針對的多樣化使用場景需求。
系統在啟動后,語音監聽模塊將進行常駐監聽,保證用戶指令隨時處于輸入狀態,減少用戶手動操作效率降低問題,獲取語音信息經壓縮后傳遞給語音識別模塊,語音識別模塊將音頻信息識別后轉換為字符串,此生成信息作為模式匹配樣本交給邏輯層處理。
2.2 指令模式識別模塊
指令識別模塊的主要作用是獲取經過對用戶輸入語音轉換后的字符串,通過與系統預先設置的用戶指令進行對比匹配,提取用戶輸入信息中的指令部分,再交由指令執行模塊進行信息處理。
為提升用戶指令匹配成功率,在指令模式識別過程中,采用有限狀態機模型(Finite-state machine),采用有限狀態機,可以建立指令樣本,在對用戶輸入信息進行指令匹配時,采用順序字符串匹配算法,這樣可以高效過濾用戶信息,快速提取用戶指令。
3 系統關鍵技術
3.1 基于有限狀態機的指令匹配模型
此部分主要包含兩個方面,一是系統指令的預設定,如上文所述,在某信息系統嵌入該語音輔助系統時,首先要確定該系統所需要對用戶提供的指令內容,將每個指令內容作為有限狀態機中的單一狀態,例如圖2所示。
第二部分為用戶輸入信息指令提取,由于用戶指令數有限,所以,在獲取用戶模式匹配樣本之后,可以采用順序字符串匹配計算,當匹配到預設指令時,便將該指令作為狀態機狀態轉移標志,進而獲取用戶所需要進行的操作,達到指令匹配目的。在匹配過程中,采用KMP算法,有效提高用戶指令輸入效率。
3.2 指令快速匹配優化
在大多數信息系統中,除了用戶操作有限之外,還具有上下層級關系,為提高用戶輸入效率,在系統初始化設定過程中,針對具有層級關系的指令,將其構筑為指令樹結構,如圖3中所示,如果用戶輸入指令為“AABB0246CC”,系統在匹配至“0”時,將不再向用戶返回確認請求,將繼續進行指令匹配,直至匹配至“C”,那么最終狀態將跳轉至狀態7,向用戶返回請求指令7執行,得到確認后,將執行指令。按照上述流程,在面對多層指令操作時,用戶只需要語音輸入連續狀態指令,將直接跳轉至目標狀態,執行目標執行,達到指令快速匹配目的,這樣極大提升了用戶輸入效率,省去大量重復語音指令輸入步驟。
4 總結
目前語音識別正在進入越來越多的領域,利用本文設計的語音輔助系統,用戶指令輸入效率得到顯著提升,同時給出整體模型,以便其他信息系統平臺高效接入此語音輔助系統。
參考文獻
[1]王炳錫.實用語音識別基礎[M].北京:國防工業出版社,2005.
[2]童亞拉.辦公自動化系統中語音功能的設計和實現[J].湖北工業大學學報,2005,20(02):71-73.
[3]訊飛開放平臺.科大訊飛股份有限公司.2017.http://www.xfyun.cn/.
作者單位
淄博市實驗中學 山東省淄博市 255000