
【摘要】隨著電網調控一體模式的應用打破傳統的調度的業務范疇,調控拓展成為電網信息通信與設備的集中監視與指揮控制中心,各類生產業務的實時、準確信息逐步匯集到調度臺。作為各類監控信息和管理流程的匯集點,調度下令的準確性直接關乎電網運行穩定性。本文針對調度錄音系統的需求,通過對聲紋識別技術在調度錄音分析的應用進行分析研究,期望再進一步通過技術力量改變調度下令不規范,用語不真切的不良習慣,從根本上解決調度下令的多年詬病,提升電網調度下令水平。
【關鍵詞】調度;調度錄音;錄音分析;聲紋識別
1.研究目的及意義
調度崗位業務范疇的擴容,直接導致調度人員的工作量上浮,對于日常工作,指揮下令的操作更為頻繁,目前調度電話錄音每月數量已經接近萬條,平均下來每一天都有三、四百條錄音文件產生,其中正規調度下令錄音占約2/5,目前針對錄音內容,采用人工逐一收聽的辦法來判定錄音內容是否規范,下令是否正確。通過人工抽檢測聽的方式,無法全面有效地評價調度質量,難以確保調度人員正確使用規定的調度術語且調度指令準確、無誤;且人工抽檢方式工作量大,效率低。
應用語音分析技術,將電網調度中心保存的非結構化的錄音數據轉為結構化的索引信息(文本結構),通過關鍵詞檢索、篩選、業務歸類等處理及分析,建立聲紋模型以及設定關鍵字,如拉開、閉合、下令等關鍵字眼,對調度流程規范進行自動確認和問題分析,大幅度提高質檢效率和覆蓋面,提升電網調度質量,降低運營成本,提高運營管理水平。
2.主要技術在調度錄音分析的應用
2.1 調度錄音預處理
輸入的調度語音信號需要進行預處理,預處理過程的好壞在一定程度上影響系統的識別效果。在調度錄音預處理過程中,采用文本相關的聲紋識別技術。
語音轉寫(識別),是指將非結構化的語音文件轉換為結構化的文本信息,是語音分析的核心功能。處理時將分離后的調度錄音通過聲學模型轉換為漢語音標符號,再通過超大詞匯網絡的語言模型將音標信息識別為文本內容。
由于調度員的本地口音及中文自帶的語調,必須優化聲學模型和語言模型,以提升語音轉寫準確率。在具體實施過程中,采用識別詞混淆網絡(Word Confusion Network,WCN)作為文本分類器的輸入,使用WCN中覆蓋的詞而不是只使用語音轉寫結果進行文本分類,提高對識別錯誤的魯棒性。
2.2 調度錄音索引及檢索
目前,在調度錄音中,同一個錄音記錄了調控人員和運行人員的全部對話。通過場景分割技術對兩方通話內容進行分離,進而針對性對調度質量分別進行監控和分析,以識別問題發生點及問題內容。場景分割,是指對通話錄音中的雙方通話行為進行檢測、切割和分離。經過預處理的調度錄音經過場景分割,再進行下一步的進行索引與檢索。
語音索引,是指將語音中包含的各類信息進行識別和歸類,并形成方便查詢統計的索過檢測電話錄音的基頻、音高等變化幅度,預測情緒波動并定位其位置信息,分析出通話錄音的平均語速以及語速變化,檢出通話錄音的靜音時間等,生成標準XML格式的索引文件。索引內容包括:
調控人員語音和運行人員語音的文字轉寫結果,如果是雙聲道語音,則給出聲道信息(關鍵詞位于哪個聲道);通話的語音端點、語速等信息,主要包括調控人員和運行人員各自的每次說話的起止時間、語速(字/秒)、平均語速(字/秒)、異常情緒、靜音時長等。
語音檢索,是指從索引文件進行關鍵詞信息的快速篩選,返回語音結果并進行自動統計。語音檢索,支持邏輯組合檢索、二次檢索等功能。
在語音檢索應用中,通過使用“拉開”、“閉合”、“下令”、“復誦”等關鍵字進行檢索,可快速定位與關鍵字相關的錄音信息,從而進一步進行人工篩選。
2.3 調度錄音模型選取
在語音分析應用中,語音識別效果取決于聲學模型和語言模型。聲學模型方面,需要考慮人以及用戶使用環境對語音的影響,建立了不同口音的聲學模型和噪音處理的聲學模型;語言模型方面,結合電力實際業務需要,通過對調度過程的分析,建立有針對性的業務語言模型。
中文為帶調的語言,聲學特征除傳統的MFCC譜特征外,也使用代表調型的Pitch特征。一般調型的特征反映在韻母上,即一個韻母因為調型不同有4個單元。考慮到對于同一個韻母的4個單元,其MFCC特征是沒有差異的;而對于不同韻母的同一個調,其Pitch特征也是很接近的。
雙流模型:
采用雙流聲學模型建模技術,將MFCC和Pitch特征分成兩個流:在Tri-phone決策樹聚類階段,對于聲母部分,每個音素建一棵決策樹;對于韻母部分,在MFCC流同一個音素不同調建一棵決策樹,在Pitch流同一個調不同音素建一棵決策樹。這種建模方式,大大降低了帶調韻母需要的模型復雜度,也改善聲學模型的精度。
區分性訓練:
在最大似然(Maximum Likelihood,ML)模型訓練準則基礎上,將最小音素錯誤(Minimum Phone Error,MPE)模型訓練準則應用于中英文混合雙流聲學模型的訓練,關鍵在于中英文混合模型MPE訓練生成競爭空間時語言模型的選擇。
訓練數據,分成純中文、純英文、中英文混合3個部分:純中文數據,采用中文Uni-gram語言模型、純英文數據采用英文Uni-gram語言模型;中英文混合數據,采用中文Uni-gram與英文Uni-gram進行插值后的語言模型,采用3部分數據進行MPE訓練后,聲學模型的識別率得到顯著提高。
2.4 調度錄音聲紋識別模式匹配
聲紋識別技術的關鍵在于對各種聲學特征參數進行處理,并確定模式匹配方法[3],主要模式匹配的方法有:概率統計法、動態時間規整法(DTW)、矢量量化法(VQ)、隱馬爾可夫模型法(HMM)、人工神經網絡法(ANN)、支持向量機法(SVM)、融合方法等。
本文旨在高效準確的匹配出目標調度錄音,并對調度錄音進行進一步人工分析判斷,因此只要選取合適的模型對原始調度錄音進行模式匹配,再依靠關鍵詞檢索成功即可。識別率及關鍵詞檢索正確率是進行語音分析的根本和核心的前置條件,經測試,關鍵詞檢索正確率約為83%,實際應用環境中智能語音分析應用系統具有彈性的置信度策略,可根據不同的業務場景和應用需求綜合調試設置信度閥值,從而達到最好的應用效果。
3.結語
調度錄音聲紋識別技術的應用,使得調度錄音在先期處理過程中更加全面、高效、智能、準確,大幅度提高調度錄音質檢效率和覆蓋面。通過對調度下令不規范、用語不真切的不良習慣不斷進行整改,提升電網調度下令水平,從而提高電網運行穩定性。
參考文獻
[1]楊陽,陳永明.聲紋識別技術及應用[J].電聲技術,2007, 31(2):45-47.
[2]趙力.語音信號處理[M].機械工業出版社,2003.
[3]王濤,徐乃平.說話人識別及其應用的研究[J].微處理機,1997(4):50-53.