南方電網(wǎng)調(diào)峰調(diào)頻發(fā)電有限公司信息通信分公司 董天波
本文首先對知識圖譜智能問答分析系統(tǒng)發(fā)展現(xiàn)狀簡要分析,然后從深度學(xué)習(xí)的文本特征提取技術(shù)原理、規(guī)則引擎基本原理、智能問答系統(tǒng)基本原理等方面分析研究原理和理論依據(jù),從依托工程、實踐基礎(chǔ)等方面分析研究實踐依據(jù),基于知識圖譜的智能問答分析系統(tǒng)實現(xiàn)理論和實踐依據(jù)闡述研究的關(guān)鍵點和難點,最后闡述基于知識圖譜的智能問答分析系統(tǒng)技術(shù)路線,并從IT設(shè)備質(zhì)量信息文本特征提取技術(shù)、IT設(shè)備質(zhì)量信息知識發(fā)現(xiàn)技術(shù)、IT設(shè)備質(zhì)量事件智能問答技術(shù)等方面闡述基于知識圖譜的智能問答分析系統(tǒng)實現(xiàn)與研究方案。
知識圖譜關(guān)聯(lián)的IT設(shè)備故障與智能問答系統(tǒng)相結(jié)合,通過智能助手系統(tǒng),采集到相關(guān)故障,通過問答對找到根本原因,依據(jù)IT設(shè)備故障相關(guān)報告處理故障,改善IT設(shè)備運行環(huán)境,提高IT設(shè)備運維效率。電力、機械、IT等行業(yè)中知識圖譜的智能問答分析系統(tǒng)的研究價值更是遠超于其他行業(yè),IT設(shè)備智能問答分析系統(tǒng)若能根據(jù)知識圖譜智能問答分析系統(tǒng)自主判斷故障位置和原因,則IT設(shè)備智能問答分析系統(tǒng)維修效率和質(zhì)量可以獲得極大提高。
國內(nèi)研究人員主要使用Filter算法、Wrapper算法、Embedded算法研究文本特征自動提取方法,IT設(shè)備文本中運用知識工程的領(lǐng)域本體構(gòu)建方法、敘詞表的領(lǐng)域本體構(gòu)建方法、頂層本體的領(lǐng)域本體構(gòu)建方法完成海量非結(jié)構(gòu)化質(zhì)量信息數(shù)據(jù)的獲取,這樣再使用JRules、Drools、Mandarax、IBM ILOG、QuickRules等規(guī)則引擎即可不斷優(yōu)化算法模型[1]。
國外研究人員可以直接利用DBpedia、Yago等高質(zhì)量大規(guī)模開放知識圖譜,采用一種多源數(shù)據(jù)融合的框架或者原語、功能和模型構(gòu)建的多維信息的集成框架實現(xiàn)智能應(yīng)用的高層次融合,例如智能問答機器人。
(1)深度學(xué)習(xí)的文本特征提取技術(shù)原理。為了搭建起文本語言與計算機語言之間的橋梁,需要采用文本特征提取技術(shù),該技術(shù)的核心任務(wù)就是將文本向量化。研究人員可以先掃描語料庫記錄詞組信息,隨后基于詞頻分析構(gòu)建起向量空間,實現(xiàn)文本向量化,但是IT設(shè)備智能問答分析系統(tǒng)中文本信息是海量的,因此需要基于深度學(xué)習(xí)進行文本向量化。深度學(xué)習(xí)中經(jīng)常使用卷積神經(jīng)網(wǎng)絡(luò)算法,通過觀察、提取特征得到分類結(jié)果,其優(yōu)點是準確率較高。卷積神經(jīng)網(wǎng)絡(luò)可以在提取特征信息之后通過全連接層提取最終特征信息。卷積層中卷積運算公式如式(1)所示:

公式(1)中各指標意義如下:Z表示卷積運算最終的結(jié)果矩陣;d為窗口的寬度和高度;i,j表示滑動窗口的索引;x表示輸入矩陣向量;m,n表示滑動窗口對應(yīng)矩陣的局部區(qū)域索引;W表示卷積核;b表示偏置參數(shù)[2]。
(2)規(guī)則引擎基本原理。規(guī)則引擎基本原理為利用文本特征提取技術(shù)提取IT設(shè)備文本中設(shè)備參數(shù)、地點、時間、原因及處理措施等關(guān)鍵信息,最終形成一套以設(shè)備質(zhì)量、設(shè)備狀態(tài)管理和設(shè)備處置相關(guān)規(guī)定為依據(jù)的業(yè)務(wù)規(guī)則的設(shè)備質(zhì)量信息規(guī)則引擎構(gòu)建方法。其核心就是獲取知識,再應(yīng)用知識到特定的數(shù)據(jù)上,它可以將任何復(fù)雜的業(yè)務(wù)邏輯清晰、簡要地表達出來。規(guī)則引擎具有靈活快捷、邏輯和數(shù)據(jù)分離、知識集中化、實現(xiàn)業(yè)務(wù)邏輯與業(yè)務(wù)規(guī)則的分離等優(yōu)點[3]。
(3)智能問答系統(tǒng)基本原理。基于大量IT設(shè)備文本建立起的IT設(shè)備知識圖譜與規(guī)則引擎需要通過智能問答系統(tǒng)才能夠與IT設(shè)備運維人員方便地進行信息交互與反饋更新,從而實現(xiàn)人機之間關(guān)于IT設(shè)備質(zhì)量事件的問答對話[4]。智能問答系統(tǒng)處理框架如圖1所示。

圖1 智能問答系統(tǒng)處理框架Fig.1 Processing framework of intelligent question answering system
(1)主要研究方向。知識圖譜關(guān)聯(lián)的IT設(shè)備故障與智能問答系統(tǒng)相結(jié)合,通過智能助手系統(tǒng),采集到相關(guān)故障,通過問答對找到根本原因,依據(jù)IT設(shè)備故障相關(guān)報告處理故障,改善IT設(shè)備運行環(huán)境,提高IT設(shè)備運維效率。
(2)實踐基礎(chǔ)。基于知識圖譜的智能問答分析系統(tǒng)打造一個集狀態(tài)全面感知、信息高效處理、應(yīng)用深度智能為特征的IT設(shè)備運維中心,針對當(dāng)前IT設(shè)備狀態(tài)實時監(jiān)測難、信息傳輸效率低、狀態(tài)評價智能化水平不足的問題,通過多維狀態(tài)信息融合監(jiān)測實現(xiàn)設(shè)備狀態(tài)的全面感知,結(jié)合邊緣代理技術(shù)實現(xiàn)狀態(tài)監(jiān)測數(shù)據(jù)的安全接入和高效傳輸,進一步應(yīng)用智能AI主動學(xué)習(xí)技術(shù),深度挖掘多維狀態(tài)監(jiān)測信息,實現(xiàn)設(shè)備狀態(tài)的精準評價和智能決策。同時以設(shè)備文本信息結(jié)構(gòu)化為基礎(chǔ),將與設(shè)備管理密切相關(guān)的信息作為知識點進行整合,通過對結(jié)構(gòu)化與非結(jié)構(gòu)化知識的抽取與融合,形成了以相似案例推薦、知識檢索為核心的設(shè)備高級知識庫,同時再不斷拓展設(shè)備知識驅(qū)動的高級應(yīng)用,提升設(shè)備管理智能化水平。
(1)關(guān)鍵點。基于知識圖譜的智能問答分析系統(tǒng)實現(xiàn)與研究必須先根據(jù)IT設(shè)備文本數(shù)據(jù)的普適性、多樣性、多場景構(gòu)建IT設(shè)備本體標準與方法,并保證IT設(shè)備領(lǐng)域文本的高準確率、實用化自動抽取。而知識表征技術(shù)必須包含數(shù)值單位、復(fù)雜邏輯、計算公式的物理機理,使其具備自動挖掘、知識的自動發(fā)現(xiàn)規(guī)則。這樣在高質(zhì)量的IT設(shè)備文本數(shù)據(jù)下,才能完成IT設(shè)備文本中復(fù)雜問題的解答,因此IT設(shè)備處理服務(wù)器、芯片必須采取并行與分布式方式。
(2)技術(shù)難點。基于知識圖譜的智能問答分析系統(tǒng)實現(xiàn)與研究必須收集大量的IT設(shè)備文本數(shù)據(jù),而IT設(shè)備領(lǐng)域中大部分都是專業(yè)術(shù)語,直接從互聯(lián)網(wǎng)爬取相關(guān)數(shù)據(jù)信息并不準確。基礎(chǔ)IT設(shè)備文本數(shù)量如何根據(jù)復(fù)雜的規(guī)律、公式對相關(guān)的問題進行解答也是其中的關(guān)鍵問題,因此研究人員必須解決小樣本的情況下該系統(tǒng)如何基于自學(xué)習(xí)算法覆蓋全部故障類型處置方案。
項目總體技術(shù)路線如圖2所示。

圖2 項目總體技術(shù)路線Fig.2 Overall technical route of the project
(1)研究基于領(lǐng)域的IT設(shè)備質(zhì)量信息本體模型構(gòu)建方法。首先開展本體構(gòu)建引擎調(diào)研總結(jié)本體構(gòu)建方法的成功經(jīng)驗,然后開展領(lǐng)域本體構(gòu)建引擎評價研究比較各方法技術(shù)的優(yōu)缺點,最后優(yōu)選本體模型構(gòu)建引擎并制定本體評價標準對所建本體模型的概念體系,這樣即可得到IT設(shè)備質(zhì)量信息本體模型。
(2)研究基于人工標注的IT設(shè)備質(zhì)量文本特征自動提取方法。首先對故障案例、處置方案、規(guī)范、導(dǎo)則、標準、科研論文等IT設(shè)備文本數(shù)據(jù)進行廣泛收集通過多部門協(xié)調(diào)合作,大量收集、整理與IT設(shè)備質(zhì)量相關(guān)的文本,然后開展IT設(shè)備文本預(yù)處理技術(shù)研究通過人工標注初步形成IT設(shè)備質(zhì)量信息文本特征詞字典,最后開展IT設(shè)備文本表示方法和實時自動信息抽取技術(shù)研究,對信息抽取模型進行修正和評估。
(3)研究基于深度學(xué)習(xí)的IT設(shè)備質(zhì)量信息融合方法。首先開展IT設(shè)備多源質(zhì)量信息融合需求分析掌握IT設(shè)備質(zhì)量信息來源和特點,提出IT設(shè)備多源質(zhì)量信息融合需求,然后開展深度學(xué)習(xí)框架下的多源異構(gòu)數(shù)據(jù)融合機制設(shè)計,最后開展基于深度學(xué)習(xí)的IT設(shè)備質(zhì)量信息融合算法研究,這樣才能提出異構(gòu)數(shù)據(jù)的設(shè)備質(zhì)量信息融合方法。
(1)圍繞業(yè)務(wù)規(guī)則研究IT設(shè)備質(zhì)量信息規(guī)則引擎構(gòu)建方法。首先建立IT設(shè)備質(zhì)量信息規(guī)則引擎的業(yè)務(wù)規(guī)則,編寫規(guī)則引擎所需的規(guī)則文件,然后提取出的信息是人類所使用的自然語言,對業(yè)務(wù)規(guī)則進行規(guī)則編譯,最后對IT設(shè)備質(zhì)量信息規(guī)則引擎的模式識別方法進行研究,得到推薦的IT設(shè)備故障原因及故障處置方案的功能。
(2)結(jié)合知識網(wǎng)絡(luò)結(jié)構(gòu)與規(guī)則引擎,研究IT設(shè)備質(zhì)量信息知識發(fā)現(xiàn)方法。首先提取冗余數(shù)據(jù)并對有效數(shù)據(jù)進行歸類和挖掘,得到真實案例中的故障現(xiàn)象、潛在故障原因與故障處置方案等有效信息,然后開展不同故障原因與故障現(xiàn)象之間的映射關(guān)系的建模分析,構(gòu)建故障原因與故障現(xiàn)象之間的映射關(guān)系網(wǎng)絡(luò),最后完善規(guī)則引擎相關(guān)判斷處置功能,建立可高效準確工作的設(shè)備質(zhì)量信息規(guī)則引擎。
(3)研究基于置信度的專業(yè)領(lǐng)域知識網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量評估與治理方法。首先建立一套IT設(shè)備安全管理文本智能分析系統(tǒng)評價體系,然后選取大量真實設(shè)備案例文本,并利用統(tǒng)計學(xué)原理,關(guān)聯(lián)規(guī)則算法等計算得到系統(tǒng)結(jié)果的置信度,最后并將相應(yīng)結(jié)果補充進入業(yè)務(wù)規(guī)則、知識圖譜,實現(xiàn)系統(tǒng)治理,形成高置信度的設(shè)備質(zhì)量信息知識網(wǎng)絡(luò)。
(1)研究基于數(shù)據(jù)挖掘的IT設(shè)備質(zhì)量事件特征標簽分析方法。首先通過研究文本數(shù)據(jù)挖掘技術(shù)實現(xiàn)對主設(shè)備質(zhì)量事件樣本特征提取及標簽歸類,然后訓(xùn)練文本特征深度學(xué)習(xí)模型使其能夠自動識別文本中存在的質(zhì)量事件特征,最后評估驗證深度學(xué)習(xí)模型實現(xiàn)IT設(shè)備質(zhì)量信息知識庫在應(yīng)用層上的開發(fā)與集成。
(2)研究基于特征標簽與圖搜索的IT設(shè)備質(zhì)量事件智能問答方法。首先利用信息抽取模型生成被問詢質(zhì)量事件的問句子圖,然后開展圖搜索方法獲得基于現(xiàn)有數(shù)據(jù)庫的具有最高置信度的答案信息,最后基于樣本特征標簽與圖搜索方法幫助其進行故障判斷與決策處理,這樣才能不斷提高智能問答引擎性能。
綜上所述,本項目將首先通過分析IT設(shè)備質(zhì)量信息數(shù)據(jù),對海量非結(jié)構(gòu)化的文本數(shù)據(jù)中包含的詞、語法、語義等信息進行標識、理解和抽取,挖掘其中存在的知識、規(guī)律,其中重點研究文本數(shù)據(jù)特征提取技術(shù),建立可提取文本數(shù)據(jù)中設(shè)備參數(shù)、地點、時間、原因及處理措施等關(guān)鍵信息的文本特征提取模型。然后研究IT設(shè)備質(zhì)量信息關(guān)聯(lián)分析技術(shù),融合知識網(wǎng)絡(luò)與規(guī)則引擎,實現(xiàn)質(zhì)量信息知識圖譜建立、關(guān)聯(lián)分析和原因推薦。最后研究IT設(shè)備質(zhì)量事件智能問答技術(shù)研究,實現(xiàn)質(zhì)量事件特征標簽分析和智能問答。