朱余啟 朱潤杭 傘晨峻 莫熙
(云南電網有限責任公司 云南省昆明市 650200)
伴隨著人工智能技術的發展,電力企業也緊跟步伐,大力發展人工智能在電網中的應用,如今語音識別系統開始走向實用化的進程,隨著發展計算機對于人類語言的容錯性也大大提升,更深入的理解人的意圖,來執行人的意愿。語音識別已經深入到人們的日常生活生活中并扮演著關鍵角色也成為了人們生活的伙伴和工作的助手,語音技術的不斷突破,對任何一個能夠從語音互動中獲益的行業來說,它將徹底改變使用和服務的方式,大大提升工作效率。為減輕電力調度系統工作人員的壓力,將語音檢索運用到日常工作中,提升信息快速篩選、快速獲取能力。
從20世紀50年代開始,開展了語音識別技術的研究工作,20世80年代后,HMM技術基本成熟,21世紀以來語音識別技術飛速發展,伴隨統計學被引入到語音識別中,語音識別技術從模板化匹配轉向統計模型技術。語音識別技術發展到今天,國內關于文語轉換技術和基于中小詞匯量的語音命令識別技術已經達到比較實用的程度,特別是中小詞匯量非特定人語音識別精度已經大于98%,對特定人語音識別系統的識別精度就更高。這為語音識別的實際應用掃除了障礙,眾多領域已經開始實際應用這項技術,各類計算機軟件也是如此,在電力系統調度過程中,也完全可以利用該技術進行語音控制。
語音識別正確率的一些影響因素有:在噪聲環境下識別率較低、口語化語言和方言識別率低等。在實際應用中,調度中心的工作環境很好,并不存在噪聲干擾的問題;調度員在進行操作時也完全可以避免使用口語和方言。因此,語音識別技術的發展水平為電力調度領域的實際應用奠定了客觀基礎。
電力行業一直以來都是國際國內先進技術的集中應用之地,代表了同類技術的最高水平。因此將語音識別及控制技術在電力系統尤其是調度中心進行深入應用研究是非常有意義的。[1]
語音識別即為將通過降噪處理的語音進行特征提取,之后對語音信號特征進行處理并輸出識別結果。[2]如圖1。

圖1:語音識別原理
語音識別,可將用戶語音信息實時轉換成文字,通過建立電力專業詞匯庫、特定聲調庫,基于最新的深度神經網絡(DNN)的建模方法,采用基于WFST動靜態結合的Viterbi解碼技術,搭建調控語音辨識模塊。通過在聲學特征庫中構建方言語音庫,在語言模型中構建電力專業詞匯庫,提高電力專業術語文字轉換正確率。
語音識別和語音合成作為獨立的模塊存在,通過服務的方式接收語音,經過噪音處理、特征提取、語音解碼等過程,以服務的方式輸出文本(如圖2)。

圖2:語音訓練
語音識別系統采用統計模式識別技術,由以下幾個基本模塊所構成:
(1)信號處理及特征提取模塊,從輸入信號中提取特征,供聲學模型處理。同時,采用一些信號處理技術,以降低環境噪聲、信道、說話人等因素對特征造成的影響。
(2)統計聲學模型是采用基于多粒度隱馬爾科夫模型進行建模。
(3)發音詞典,包含系統所能處理的詞匯集及其發音(調控專業詞典)。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。
(4)語言模型,對系統所針對的語言進行建模,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,主要采用的還是基于統計的N元文法及其變體。
(5)解碼器,是語音識別系統的核心之一,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。
語音識別和語音合成是相對成熟的技術,在電力行業偶爾也有應用,但其難點在于語音識別的準確率,因此,一個適用于電網調控領域的訓練工具非常重要,訓練電網調控業務的語言模型,以提高語音識別的準確度。
語義理解也叫意圖理解,意圖理解包括意圖分析、對話狀態跟蹤及對話決策。
(1)意圖分析是把用戶說的話標準化成計算機可以處理的標準形式。
例如:意圖名稱<槽位1,槽位2,……>,
通知相關單位<單位名稱,通知內容>
意圖分析分為兩個基本模型:
1.意圖分類模型,負責把用戶說的話分類成若干個意圖。
例如:電網調用場景有通知相關單位、打開開關等100個意圖,意圖分類模型就是判斷用戶說的話是這100個意圖里的哪一個。
2.槽位提取算法,意圖分類完成后,提取算法負責將槽位信息抽取出來。
(2)對話狀態跟蹤。對話狀態,指用戶在人機交互過程中,說過什么話,表達過什么意圖以及意圖的置信度。
對話狀態跟蹤,指在會話進行中管理在當前對話狀態里要記錄哪些用戶意圖或槽位信息,刪掉哪些意圖或槽位信息。
(3)對話決策,指根據對話狀態,會話系統要做什么答復或執行什么動作。
當電力場景的音頻被語音識別成文本后,進入文本的后處理流程,主要有自然語義理解(NLU),自然語言生成(NLG),語音合成(TTS),會話管理(DM),會話解析(MDM),從而形成一個人機對話交互的過程,實現一些具體的業務功能,能夠代替人工做簡單的重復性的工作,提高工作效率和減少人力投入。
意圖管理實現用戶意圖及意圖參數的配置,包含意圖語料、意圖模板表達、詞槽配置等。
意圖語料庫:同一個意圖可能存在多條的意圖語料,盡可能完善所有的常用語料,提高保證意圖語義理解的準確率。
意圖配置:配置意圖所需要實現的業務功能,同時通過模板表達式利用詞槽配置每個意圖需要的信息,配置通用的語義表達。
詞槽實體維護:每個詞槽會對應一系列的實體(詞典),應用名稱詞槽可以包括許多應用名稱,提供新增、刪除、導入等功能。
目前,調度員的工作對信息的交互要求更高,傳統的電力系統軟件服務已經不能滿足日常工作的需要,表現在:
(1)特殊情況下,海量信息的快速定位查找,例如無法快速使用有線輸入方式;
(2)工作效率待提升。
將語音識別技術引入到調度日常工作中,使得調度軟件系統也將由如今的被動靜態架構變化為具有主動辨別能力語音檢索的智慧系統,通過人工智能語音識別技術在海量的數據中精準、迅速的定位所需內容,提供一流信息檢索效率,讓調度運行工作中的海量信息檢索更加精準化、友好化,通過配置電力術語,根據自動建立的關鍵字列表、相應操作的對應關系建立語音關鍵字操作數據,應用于調控人員工作操控,使調度人員拋開鼠標,拋開鍵盤,不必記錄程序路徑和程序中繁雜的按鈕位置,解放雙手,省下按鍵或手寫輸入花費的時間,讓調度人員更加輕松和高效,使調度員專注于電網運行,減輕電網調控人員的運行壓力,提高電網調控操作的智能化水平,保障電網安全穩定運行。
語音檢索,簡而言之就是將語音內容轉化成文本信息之后,通過自然語言解析技術,提取出關鍵的電網信息、操作信息等數據,將提取的關鍵字與本身構建的電網規則數據庫進行智能匹配,結合全文內容,轉化為系統可以理解電網信息或者操作知識,以一種智能調度管家助理的方式,為調度人員提供輔助決策。針對電力調度經常使用的專業術語、專有名詞、習慣表達方式、特殊讀音、特殊符號進行語音識別訓練,采用適用于電力調度的行業語音識別技術。[3]
傳統的有線輸入存在輸入效率底下、輸入手段受限等問題,在語音識別的技術支持下可實現對電網信息進行智能語音檢索,具備人機之間語音的智能交互,例如語音導航功能,長音頻、短音頻識別,音頻轉文字,生成的文字記錄可以供各類應用使用。[4]利用自然語言處理技術實現與調度員、運行人員、檢修人員、管理人員、設備巡檢機器人等五類人智能交互,包括語音、短信和各系統間數據推送(值班日志自動記錄、故錄調取、調度電話監聽等)等多種形式。
采用聲學建模、訓練、調參等機器學習方法,對收集的語音語料、文本語料進行處理,根據調度通話內容或其他口述語音、調度運行對應的文檔、資料、規程、規定等調度管理信息系統中的各類數據資源,形成電網信息庫,具備基于電力領域的全業務搜索能力,以自然語言作為輸入對象,利用語義分析技術,提高智能搜索系統中文語句理解能力,構建電力系統調度領域全景本體庫。電力系統調度領域全景本體庫包含電力字典、名實體、調規等文本語料、錄音等語音語料,為構建精準、智能的知識庫提供原始數據支撐并不斷進行擴充、完善。基于電力系統調度領域全景本體庫,通過核心算法和學習訓練,形成調控知識庫、語言模型、意圖識別模型等成熟知識庫,為人工智能學習決策(感知、交互、思、行、學)提供知識來源。
電力調控領域相關業務數據中,含有特定的廠站、線路名稱等大量的專有名稱,同時也含有大量的監控信號、倒閘操作等方面的行業術語。搭建針對特定電網的電力語料規則庫,是對調控業務數據進行語音識別的基礎和關鍵。
電力調控業務數據中,包含電壓等級、設備類型等基礎的配置信息,這類信息是文本分割、設備定位的基礎元素,要根據這類數據各種可能的寫法,生成基礎語料庫。
(1)電壓等級:目前我國電網中包含1000kV、750kV、500kV、330kV、220kV、110kV、66kV、35kV、10kV、380V等不同的電壓等級。在處理的過程中,還要考慮各種不規范寫法的問題(比如字母大小寫、采用漢字“千伏”等問題)。
(2)設備類型:電力數據文本中的設備類型信息,是定位、識別設備信息的關鍵。電網輸變電設備中,包含變壓器、母線、線路、開關、刀閘、電容器、電抗器、站用變、PT、CT、避雷器等多種類型的設備,每類設備又有不同的寫法,需要將設備類型信息放到基礎語料庫中。
電網模型中,包含廠站、線路名稱、設備(開關刀閘等)編號等信息,需要根據特定電網模型,自動生成當地特有的模型語料庫。隨著電網模型的變化,模型語料庫是需要持續更新的。為了應對信息命名不標準、不統一的情況,以上信息在入庫之前,需要進行規范化處置。
根據操作、檢修、遙信等業務的分類及業務特點,生成不同專題特定的語料庫。
操作術語語料庫中,包含設備狀態的命名,也包括各逐項令、綜合令的術語描述。針對逐項令、綜合令各類操作命令的語料規則中,不僅僅包含命令的關鍵字,還包含不規范關鍵字的變體、命令的解析規則等。
利用全景本體庫,及其推理規則,實現結構化信息、非結構化信息、報表、應用程序功能模塊等的精確搜索、模糊搜索、多輪對話式搜索。在日常調控操作中,利用機器學習不斷自主完善電力語音、語料、規則庫,具有良好的自更新性。[5]可實現的場景,例如:檢索設備檢修情況、設備操作情況、設備參數、各類規程、預案、語音調閱接線圖等。
一般應用在電力領域的智能檢索功能包括:
(1)多關鍵字組合模糊搜索;
(2)多條件組合搜索;
(3)前后語境的多輪對話式問答搜索;
(4)無需人工配置公式的數據庫字段自動關聯匹配精準搜索;
(5)搜索結果匹配度智能排序及自我學習,按登錄用戶權限、所管轄電網、專業習慣等進行搜索結果個性化輸出。
在人類社會中,最主要的溝通手段無疑是依靠聽覺和視覺兩種方式。在聲音信息中語音是最常規的表達方式,它簡單、自然、高效,伴隨著科學技術的一次又一次的突破,人與機器進行交流變得更為方便、快捷。語音識別技術的應用范圍極為廣泛,不僅涉及到日常生活的方方面面,在電力領域也發揮著極其重要的作用,自動識別語音關鍵字并自動解析語義內涵,根據解析結果檢索相應指令,進行電網各類運行管理數據的即時調閱幫助調度員處置輔助決策,為調度安全運行保駕護航。語音技術是信息社會朝著智能化和自動化發展的關鍵技術,使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。