深圳供電局有限公司信息中心 王旭勇
隨著我國經濟發展水平的不斷提高,智能質檢系統的研究日趨深入,使之不斷進步與發展,語言質檢深入研究之下,大大將呼叫中心質檢抽樣準確率提高了,工作效率也大幅度提高。縱向分析智能質檢系統當前備受關注,人們開始普遍對智能質檢自動關鍵詞發現功能開展研究,系統整合后可以快速將預設好的關鍵詞提取到,將語音轉換為文本后,提取錄音文本關鍵詞,還可以通過TextRank對文本錄音中關鍵詞提取,匹配、融合與預設的質檢關鍵詞庫,最終將文本錄音中出現頻率最高的目標關鍵詞提取出來。本文將具體對智能質檢關鍵詞基于語音分析的提取方法的設計進行論述。
基于語音分析的智能質檢關鍵詞提取意義有以下幾方面:語音文本表述口語化更嚴重并且存在一些不規范表述,關鍵詞提取可準確鎖定有價值信息,有效去除冗余;質檢人員要對檢測重點信息有所了解,并獲取信息權重值,關鍵詞提取可將重點質檢問題及時發現并處理好。還有就是快速識別關鍵詞并提取,可以幫助質檢人員對語音信息全面了解。
為了更好的應對新一輪電力改革帶來的巨大挑戰,增強供電企業與用戶間的交流,進一步將服務質量與效率提高,就必須對語音服務質量相關智能質檢系統當前得到廣泛關注,更深層次的研究及應用語音分析技術,轉換為文本的語音信息,為進一步檢測語音服務質量創造了條件。在實際檢測中,固有主題的檢測仍是語音文本信息檢測的重點,為幫助質檢人員獲取更多有價值信息,就必須快速將關鍵詞檢索出來,精煉文本信息,將關鍵的、能夠反映原文主旨思想的詞語反映出來。已經具備非常強的實用性對于關鍵詞提取來說,同時也稱為信息處理基本工作之一。為此,對于提升質檢工作質量及效率來說,高效、準確提取關鍵詞非常有必要,也是智能化質檢系統核心內容。自然語言處理(NLP)是指用自然語言對錄音文本處理,并抽取文本關鍵詞的方法,作為人工智能的重要研究領域,該方法中體現語音識別、文本分類、文本校對等基本功能,還可以體現機器翻譯、自動分詞等智能化功能。信息抽取(IE),可快速提取關鍵信息。
語音質檢系統與原有電銷管理系統之間是相互關聯的,輸入語音分析系統將錄音管理中的語音,借助語音識別功能,可以將文本轉換完成,隨后就可以檢索關鍵詞,并進行建模等。基于語音質檢系統,首先進行信息轉化,即將錄音信息轉變為文本信息,然后使用TextRank算法將文本錄音中關鍵詞自動提取出來,做詳細匹配與預設好的質檢關鍵詞,并實現兩者融合,最終將實際文本錄音中出現次數最多的目標關鍵詞提取出來。整個設計方案流程見圖1:

圖1 基于語音分析的智能質檢關鍵詞提取方案
由Page Rank算法衍生出來的一種算法,TextRank基于排序算法原理使用,不單單依靠局部某點信息進行節點排序,而是依據全局信息遞歸計算,對文本分割,由分割出的若干個單元組建出一個完整的圖像模型,排序對文本中重要成分,提取算法針對單一文檔中關鍵詞。可用一個有向權圖G=(V,E)表示TextRank模型,詞語構成權圖中的V,V×V的子集就是E。任意兩點vi由Wji表示,圖中指向該點的其他集合表示為In(Vi)入度,vi指向其他點集合,稱為出度,表示為Out(vi),Vi得分計算公式為:

圖中表示某一點都有1-d的概率指向其他任意點為d,即阻尼系數,d∈[0,1],0.85為d的默認系數。每個點進行打分時,應用TextRank算法,每個點必須為指定任意的初值,計算采用迭代計算方式并收斂。鑒于圖有著一定連貫性,收斂需經過較少次數迭代實現。
從一段文本中將眾多有價值的語句提取出來就是TextRank算法下關鍵詞提取的基本方法。利用一定窗口內的詞匯間關系排序后續關鍵詞,關鍵詞從文本中直接抽取出來,也就是指在圖中隨機游走的過程,關鍵詞的選擇最終依據投票得分高低而定。具體方法為:
獲取到錄音集合文本T,通過接口,對完整的語句進行分割。各個分割的片段表示為[S1、S2、S3、S4.....,Sn]。先分詞、確定詞性對每個文本,然后進行詞性標注,并集中處理,最終將與主題無關或者冗余的文字去除,比如“的”、“而且”、“但是”,剩下的定性詞作為備選關鍵詞,這些備選詞表示為[ti,1,、ti,2、ti,r,.....ti,n]。構建出備選關鍵詞圖,即G=(V,E),依據指定共現窗口K大小進行構造,任意兩點間的邊由共同關系構造出來。然后依據特定公式進行計算,最終將迭代傳播計算各節點權重得分值計算出,直到將收斂完成。對各節點權重進行排列,按照倒序排列方式,關鍵詞提取的結果為得到的最重要的T個單詞。
因屬于一種無監督的提取方法,TextRank算法對文本整體結構綜合考慮后進行提取,受業務規范流程影響,會出現關鍵詞提取數目過大的情況,在使用TextRank算法提取關鍵詞時,并且有較多的禮貌用語,包括“您好”、“謝謝”等,會影響到目標關鍵詞的提取效果。
為將語音質檢關鍵詞日趨的針對性增強并提高準確性,就必須總結過去呼叫中心語音質檢關鍵詞提取相關經驗,將語音出現頻率最高的關鍵詞提取出來,同時提取出出現次數最多的專業詞語。對重點關鍵詞構建自定義詞庫,依據語音質檢工作實際要求及標準,這樣才能保證關鍵詞更為規范、具備更強的表達性,同時,還要給予一個權重值對于自定義詞庫中每一個關鍵詞。關于自定義詞庫關鍵詞提取方法,具體做如下介紹。
可以直接將語音質檢中與關鍵詞相關程度高的樣本篩選出來,從眾多的篩選出的樣本中提取出關鍵詞。具體方法如下:
(1)將錄音集合文本T獲取到以后通過接口方式,中分分詞對文本內容,仍表示為[S1、S2、S3、S4.....,Sn]。
(2)對每個詞語在文本中出現的頻率進行統計,這里主要指自定義詞庫。其中,關鍵詞在文本中出現頻率表示為count(Si),文本中總分詞數表示為count(T)。
(3)經過兩次抽取以后的語音文本,將關鍵詞結果集最終得到,結果集帶有兩組關鍵詞。此時,按照1:1的比例數量設置關鍵詞顯示數,最終將關鍵詞結果集提取出來。具體過程詳見圖2。
比如,關鍵詞總共有10個,需要從結果集中提取出5個關鍵詞,這5個關鍵詞一定要是分數最高的,并作為備選,去重處理對這5個備選關鍵詞,提取出其他關鍵詞從詞庫中,補充備選關鍵詞,將最終的關鍵詞結果集得到。

圖2 基于語音分析的智能質檢關鍵詞融合過程
本文主要介紹了基于語音分析技術,將語音轉換為文本進行關鍵詞智能提取的方法,設計了基于TextRank算法的智能質檢關鍵詞提取方法,基于這種算法可以對單一文本文件關鍵詞進行提取,將關鍵詞提取的準確性與針對性增強。同時,參照呼叫中心語音質檢相關經驗成果,將自定義詞庫引進,給予不同權重,最終將目標文本的關鍵詞提取出來。同時,在提取后,對兩組關鍵詞集進行融合與匹配,將出現頻率最高的目標關鍵詞結果輸出,這種關鍵詞日趨方式有效保證了關鍵詞質量與準確性,可進一步將呼叫中心質檢問題錄音監測概率提高,對于將語音質檢工作質量提高有著非常重要的意義。在今后,仍需要不斷改進自定義詞庫并對其優化,這樣才能對質檢工作出現的變化更好的適應,將關鍵詞提取問題解決,將客戶服務質量提升。