國網江蘇省電力有限公司鎮江供電分公司 張大林 任萱 徐藝敏 笪濤 于曉蒙
為滿足企業內網Web智能問答系統中語音識別需求,充分利用網絡資源和客戶端資源,提高用戶體驗,論文設計并實現了一種適應于企業內網的語音識別方案,解決了多款瀏覽器的語音識別兼容問題,并提供了針對不同行業術語的優化方法。該方案已成功應用到電力行業智能問答系統中,語音識別準確率明顯高于其他同類系統。
與機器進行語音交流,讓機器明白人們說什么,這是人們長期以來夢寐以求的事情[1]。隨著科學技術的不斷發展,語音識別技術的出現,使人類的這一理想得以實現。語音識別技術是讓機器通過識別和理解將語音信號轉變為相應的文本或命令的智能技術[2]。語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面[3]。語音識別正逐步成為信息系統中人機交互的關鍵技術。語音識別技術與語音合成技術的結合,使人們能夠甩掉鍵盤,通過語音進行人機互動[4]。語音技術的應用已經成為一個具有競爭性的新興高技術產業。
語音識別技術也被稱為自動語音識別(Automatic Speech Recognition,ASR)、電腦語音識別(Computer Speech Recognition)或語音轉文本識別(Speech To Text,STT),其目標是利用計算機自動將人類的語音內容轉換為相應的文字。語音識別通常分為兩個技術過程,即語音錄入和通過識別模型識別語音。企業內網系統語音識別技術基于js-audio-recorder,實現錄音和音頻格式轉換,使用VOSK來實現語音識別。
利用js-audio-recorder插件實現語音的錄入,還支持錄音、暫停、恢復播報等功能。目前系統考慮常用音頻內容的大小,將音頻參數設置為8kHz(采樣率)、單聲道,16 Bit(采樣位數)。
常規的音頻錄入會伴隨一些環境雜音,以及音頻前后部分都會有“空白”出現,所以系統的音頻錄入保留了裁剪操作,即截取音頻的中間部分作為最終識別的對象。語音錄入過程如下:
先獲取錄音權限然后自動開啟錄音(如圖1所示),監聽到語音錄入結束3s后自動結束并轉為WAV格式音頻,并且自動過濾無效識別內容,環境噪聲也會被過濾。自動結束通過判斷音量比實現,音量比低于10%則默認當前無語音錄入。

圖1 語音錄入Fig.1 Speech record
利用FileReader以安全方式從遠程系統中讀取文件內容,它允許Web應用程序異步讀取存儲文件或原始數據緩沖區,指定要讀取的文件或數據。
使用的SDK是半成品化的VOSK語音識別模型,主要用于識別中文對象,其能夠基本滿足日常化的語音識別使用需求。
由于應用場景的不同,更多情況下會使用固定的特殊詞,比如在電力公司[5],更多的是調度命令詞、動作命令詞等[6]。在滿足基本使用的前提下,還需要對詞典進行優化,根據同音詞、同音字、近音詞或近音字等來對詞典進行修改,將低識別率的詞語或字替換成行業專用的詞或字(比如同音、諧音詞的替換),優化VOSK語音識別模塊,語音識別率能得到有效的提高[7]。





VOSK Model分為三部分:Dictionary、Coustic Model和Language Mode。通過Kaldi的語言識別技術及其工具,我們可以再次編譯VOSK Model。首先準備類似于Kaldi風格的“新詞”詞典,以TXT文本格式保存,通過G2P工具進行音素預測,排除無誤后用SRILM進行Perplexity測試,滿足需求后與現有的Language Model融合并編譯成HCLG.fst文件,最后與現有的模型進行替換即可[8]。
這樣就相當于增加了新詞的解碼,大大提高了語言識別的準確率。例如將原始語音識別詞典中的“鍘刀”修改成“閘刀”,通過“zhadao”可語音輕松識別出“閘刀”(如圖2、圖3所示)。

圖2 優化語音識別詞典Fig.2 Optimize speech recognition dictionary
在下一步的開發中,將會繼續優化VOSK Model,包括在消除方言、口音、降噪等方面優化Acoustic Model,以及為智能問答系統開發喚醒詞功能、將HanLP分詞接入語音識別中,實現實時錄入新詞等。
引用
[1] 何金燦.基于語音識別技術的智能家居現地控制節點設計[J].工業控制計算機,2014,27(3):142-143.
[2] 朱亞迪,吳毅堅,趙文耘.基于代碼片段復用的安卓應用組裝技術研究[J].計算機應用與軟件,2016,33(11):164-168.
[3] 朱余啟,朱潤杭,傘晨峻,等.語音檢索在電力調度領域的發展[J].電子技術與軟件工程,2021(15):214-216.
[4] 陳芳芳,吳艷,王丹萍.論人工智能技術發展及在電力客服系統的應用[J].電子世界,2021(7):176-177.
[5] 劉宏,郝乾嘯,蕭嘉榮.人工智能語音交互技術在電力調控領域的應用[J].電子技術與軟件工程,2021(4):217-219.
[6] 張云翔,李智誠.面向電力行業的熱詞語音識別技術[J].現代計算機,2020(22):14-17.
[7] 蔣久松,熊富強,毛文奇,等.智能語音識別方法在電力移動作業平臺中的應用[J].自動化應用,2017(11):124-127.
[8] 李清,許冠中.淺析語音識別技術在電網中的應用[J].計算機產品與流通,2019(11):148.