曹 宇,葉健輝,于永超
(1.南瑞集團北京科東公司,北京 100192;2. 國網湖南省電力公司,長沙 410000)
基于電網本體知識庫的智能搜索研究與實現
曹宇1,葉健輝2,于永超1
(1.南瑞集團北京科東公司,北京100192;2. 國網湖南省電力公司,長沙410000)
摘要:針對電網調度數據類型多樣,結構復雜,管理困難的問題,以構建電網本體知識庫為基礎,將電網設備、調度運行數據、電網專業術語進行統一知識建模,研究電網調度運行結構化與非結構化數據的存儲、解析,及其數據間相互關聯,歸屬及同義關系。根據電網本體推理規則找出本體之間潛在的關聯關系。基于電網本體知識庫、對結構化與非結構化采用倒排索引解析技術,最終研究電網調度數據的智能檢索技術,在快速檢索到相關數據的同時,找出數據間內在聯系。最后以查詢運行數據與分析電網事故為例,討論了該技術的應用場景,以及未來對電網調度運行智能分析提供技術支撐。
關鍵詞:本體知識庫;推理規則;非結構化;倒排索引
隨著國內電力系統的發展,特別是智能電網建設的全面開展,電網運行管理系統在各級調控中心的應用越發廣泛。電網結構日益復雜、同時面臨的問題也層出不窮,如電網數據量的飛速增長,而傳統固化的業務查詢方式難以響應靈活的數據查詢需求。常出現一個急需的業務數據查詢,因為系統有的查詢不能支持,所以必須等待應用升級或功能完善,影響了決策的及時性,也嚴重束縛了業務人員對信息的主動查詢的需求,影響了業務人員主動靈活分析數據獲取價值信息的工作。
為了應對日益增長的電網業務數據分析需求,使電網系統的相關計算、分析、決策管理更加智能化。要求相關電網工作人員能夠快速的獲得所需的知識和信息,并能準確的分析出信息之間潛在的關系,系統急需研制一種更便捷、更準確、更智能的數據檢索技術。這些都需要借助于人工智能、快速檢索相關技術的研究與支持。
在人工智能領域,本體知識庫既要描述知識的特點、位置、說明等信息,最重要的是要記錄本體間的關系。近十年來人工智能技術在知識表達,特別是描述本體及本體間的關系提供了新的技術、理論基礎。
在電網調度領域歸納分析知識本體,需要對電網數據進行抽象分析,這部分數據除了包括傳統意義上的電網調度運行、管理等結構化數據外,也包括各類電子文檔、文章、通知等非結構化數據。電網數據存在結構復雜、存儲分散、多類型異構的特點,傳統的關鍵詞搜索、模糊匹配的方法已經很難滿足現在電網對數據深層次分析的需求,也無法將電網調度知識體系進行統一管理分析,更加準確、智能的得出想要的分析結論。通過人工智能技術,將電網專業知識、設備信息、運行數據、管理信息進行本體建模,基于電網本體知識庫運用解析結構化與非結構化數據,倒排索引的技術,實現智能化的信息快速檢索,是目前信息搜索領域的發展方向。
本文在互聯網領域搜索引擎以及電力搜索引擎研究進展上[1-2],基于智能電網D5000調度管理類應用(OMS),立足于電網調度業務,研究人工智能領域的本體知識庫構建技術,通過分析結構化與非結構化數據存儲、解析,建立電網調度領域本體知識庫,包括電網調度運行數據、設備管理、技術規范、電網模型、參數、流程數據,以及描述電網本體間的關系,研究智能化的數據檢索技術,輔助分布式部署的省、地調管理系統(省地一體化OMS)智能化管理,滿足調度數據的互聯互通,提升智能電網調度運行數據檢索的便捷性、準確性,從而提高電網運行數據管理的智能化水平。研究“有思想的”智能檢索技術,并通過電網事故分析案例說明了基于電網本體知識庫構建的智能檢索技術在電網調度領域的應用。
1電網調度本體知識庫
1.1調度本體知識庫概念
知識是人類在實踐中所積累的認識和經驗的總和,是人類進行智能活動的基礎。知識庫不僅僅貯存知識,還包括知識處理方式。知識庫形成一個知識域,知識域中除了事實、規則和概念之外還包含推理、歸納、演繹等知識處理方法, 邏輯查詢語言、語義查詢優化和人機交互界面等[3]。本體知識庫包含有明確定義的事實、斷言和通過規則推理表達的某些明顯的關系[4]。
本體(Ontology)這個術語來自于哲學,它是研究世界上的各種實體以及他們是怎么關聯的科學。本體是一個可以共享的概念化范圍,描述了某個領域及其相互關聯的視圖,本體是共享概念模型的明確的形式化規范說明[5]。本體描述了給定領域的知識結構,內在關系。
智能電網的調度知識表達了各個調度數據間的內在聯系,依據其建立的本體知識庫作為描述調度領域數據含義及關系的基礎。從理論上來講,在電網調度領域中,本體對象可以使具體的電網設備、文檔資料,也可以描述抽象的專業知識概念、定義。基于調度本體知識庫對調度本體進行分析,研究問題的語義抽象處理,描述調度本體的及其內在關系,構建調度本體知識庫,目的是為電網運行數據檢索進行推理和知識積累。調度本體知識庫包括知識本體定義、調度本體間的關系兩部分,其中調度知識本體定義即調度領域分析方向和研究問題的抽象描述,是調度本體知識庫的基礎。調度知識本體的關系,用于描述本體間的關聯關系。
調度本體知識庫作用在于:①明確調度本體的定義,從而避免知識庫中來自不同數據源的信息的語義異構;②實現知識本體推理。本體可以體現出類似人類思維的邏輯性。用其對用戶提交的查詢式進行語義擴展, 可以推理出其所需的卻未能表達出的信息需求。
1.2調度本體知識庫構建
本文采集并抽取現階段電網調度運行中存在的各類數據,包括結構化和非結構化數據,其中結構化數據包括電網設備、調度運行、管理流程;非結構化數據包括調度生產過程中生成的報告、公文、圖像以及采集的視頻錄音等內容。結合電網調度概念和專業術語生成調度本體知識庫,如圖1所示。

圖1 調度本體知識庫數據來源
電網調度本體描述語言采用OWL,OWL( Web 本體語言)是W3C發布的推薦標準。OWL可被用來明確表示詞匯表中術語的含義以及術語間的關系。用于那些處理信息的內容,而不是僅向人類呈現信息的應用。OWL通過提供更多具有形式語義的詞匯使之在Web內容的機器可理解性方面要強于XML,RDF 和RDF Schema( RDF- S)等所能達到的程度[6]。
OWL本體可以描述電網調度領域專業數據、設備及之間的關系。
這段本體描述表示“變壓器”這個概念是“變電站”概念的子類。
可以描述本體的屬性,屬性本身是二元關系。
支持本體與屬性值定義。
這段本體描述的是變壓器的屬性,表示變壓器是變電站內的設備,同時描述了變壓器有“額定容量”屬性,又進一步列舉出變電站本體,這樣能根據變電站找出變壓器屬性,也可以找到所屬變電站,通過一個本體可以查找出據有關系的其他本體及屬性,并且支持迭代查詢。
1.3調度本體知識庫推理
完成構建電網調度本體知識庫后,面臨的首要問題是基于知識庫如何查詢本體,查詢本體間的關系,得到查詢結果,滿足使用者的需求。本文研究通過解析OWL本體描述,結合調度業務,利用推理規則的實現手段,分析查詢關鍵字,再利用這些關鍵字在本體知識庫中進行本體查詢及推理,以滿足深層次的檢索需求。其中電網調度知識庫提供的推理服務主要是關系推理,屬性查詢推理兩種[7]。
本體推理結果用Q表示,本體屬性描述P表示,O表示本體,R表示關系,C表示推理條件,W表示屬性的權重(重要屬性,一般屬性等)。
(1)本體間關系推理,形如Q=(O,R,C),執行推理后可得到關于這個本體O包含指定關系R的所有本體及其描述信息,如果不存在具有該關系的本體,則返回為空。例如推理條件定義為“電壓等級=‘220’”條件(“變壓器”,“繼承”,“電壓等級=‘220’”)得到結果的是所有變電站本體“小營變”以及包括該本體的屬性信息。如將條件改為“電壓等級=‘500’”則符合條件的本體為空。
(2)本體屬性查詢推理,形如P=((O1…On),W),包括本體定位查詢Q=(O1…On),(O1…On)為具有繼承關系的本體,按照本體繼承關系從高到低依次排列形成唯一本體查詢路徑,如(“變電站”,“小營變”,“變壓器”,“1號主變”),從而快速定位本體及其描述。執行本體屬性查詢推理P后可得到本體O按照權重W過濾后的屬性,包含屬性值。例如(“變電站”,“小營變”,“變壓器”,“1號主變”,“一般屬性”)可以獲得小營變1號主變的所有屬性,額定容量,電壓等級。
基于調度本體知識庫以及推理規則可以分析使用者需求,需要檢索的信息在本體知識庫中的存儲、關聯關系。
2智能檢索技術
本文研究的快速檢索技術采用的是Lucene搜索引擎,Lucene是一個基于Java的全文檢索工具包,提供擴展添加索引管理和全文檢索功能,輕量級,性能較好。
2.1基于電網專業詞庫切詞
基于Lucene搜索引擎采用IKAnalyzer對查詢條件與非結構化文檔的內容切詞,IKAnalyzer特有的“正向迭代最細粒度切分算法“具有60萬字/s的高速處理能力,而且對中文支持較好,支持用戶詞典擴展定義。結合電網調度本體知識庫,將電網本體及屬性導出到詞典中,作為IKAnalyzer切詞的依據。
2.2結構化數據的查詢
電網設備數據、調度運行數據及其統計分析數據主要以結構化方式進行存儲,依賴于數據庫,因此查詢的重點是將電網本體與屬性按照SQL92標準生成可以執行的SQL語句,包含數據庫、模式、表、字段等屬性。
在通過調度本體知識庫生成索引文件時對每個本體提供數據類型屬性,包括結構化數據與非結構化數據描述,對于結構化數據提供其擴展屬性,主要包括有(數據源,模式,表/視圖,字段名,條件,結果,結果別名)。根據輸入的查詢關鍵字在索引文件中進行查詢,按照出現次數作為權重,排列出符合條件的所有結果。在查詢結果中的結構化數據按照其擴展屬性組織成可執行的標準SQL語句,如輸入查詢條件“小營變1號主變額定容量”,通過IKAnalyzer將查詢條件切割成“小營變”、“1號主變”、“額定容量”幾個電網領域知識本體,然后從索引文件中查詢出對應的索引元數據的擴展屬性。
小營變:[ip,datasource,psidp,idpps,變電站管理表,調度命名,小營變,ID,廠站ID]
1號變:[ip,datasource,psidp,idpps,變壓器參數表,調度命名,1號主變,,]
額定容量:[ip,datasource,psidp,idpps,變電站參數表, 額定容量,,,]查詢過程如下:
(1)查詢“小營變”對應的廠站ID:
SELECT ID AS廠站ID FROM變電站管理表 WHERE 調度命名=‘小營變’
(2)查詢“額定容量”,由于額定容量是“1號變”的屬性,這兩個索引條件合并生成SQL語句:
SELECT額定容量 FROM變電站參數表WHERE調度命名=‘1號主變’AND 廠站ID=廠站ID
分別執行兩個查詢過程獲得查詢結果。
2.3非結構化數據查詢
針對電力調度領域非結構化數據搜索而言,現有做法是根據非結構化數據格式、類型采用各種解析器對各種不同類型的文檔進行解析,通過Lucene生成索引。比如對于WORD文檔,提供的WORD解析器會做一些預處理的工作,如過濾文檔中的文檔格式、樣式等等。WORD解析器的輸出的是文檔文本內容,接著通過Lucene的分詞器(IKAnalyzer)從讀取出的文本內容中提取出索引項以及相關信息,比如索引項的出現頻率、文檔位置。接著Lucene的分詞器把這些信息寫到索引文件中,如圖2所示。

圖2 非結構化數據索引文件生成
例如電網調度運行文件、規程規范、文檔資料,網頁新聞等非結構化數據,提供相應的文檔解析器,處理word、html、pdf、excel、txt等將解析完的數據按照調度專業詞庫進行切詞,生成索引文件。
Lucene的搜索過程是將分散在不同的對象中的各種信息分析、處理、寫入,其中核心是建立索引機制。索引是在搜索時使用到的一種特殊的數據結構。當文檔的數量相當龐大,并且這些文檔中的信息相對穩定時,建立索引可以大大提高搜索時的效率。在使用索引進行查找時,首先對需要索引的文檔進行預處理,建立關于這些文檔的索引結構。
本文研究的智能檢索技術的搜索準確、快速必須依賴于建立合理的索引機制。基于調度本體知識庫以及電網本體的推理規則,找出本體及其關聯的知識本體,對本體及其屬性描述生成本體描述文件,描述文件中的每一個本體對應索引文件中的唯一元數據,都具備兩個基本屬性及ID與描述,同時配有輔助屬性如關鍵字、數據類型、存儲位置、修改時間,擴展屬性等。通過Lucene將本體描述文件生成索引供Lucene查詢使用。
Lucene索引機制是倒排索引,結構區別于傳統的索引結構,這種結構在應用中需要根據屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引。基于調度本體知識庫的索引生成方式如圖3所示。

圖3 調度本體倒排索引生成
為了提高檢索效率,可以將索引文件按照本體分類進行建立,如電網設備類、運行信息類、生成管理類等。然后將各個索引文件進行合并,利用 Lucene在創建索引的過程中可以充分利用機器的硬件資源來提高索引的效率。Lucene在內存中開辟一塊緩沖區,采用二級緩存的機制來提高讀寫效率,通過使用IndexWriter方法調整緩沖區的大小以及往機器磁盤上寫索引文件的頻率與控制索引文件的合并。
3電網本體知識庫與檢索應用
現階段智能電網調度支持系統存在數據量龐大,類型多樣,關聯關系復雜的實際情況,這些都對系統的建設,人員技能的要求都提出更高的要求,因此使用基于電網調度本體知識庫的智能檢索技術對提升調度管理系統(OMS)的智能性,降低使用人員的技能門檻,具有深遠的意義[8]。
(1)智能檢索技術在電網調度運行數據查詢分析上的應用。調度數據種類多樣,涵蓋了現階段電網調度運行中能夠采集及統計得到的所有的數據,如圖4所示,包括運行數據、統計數據。查詢關鍵字通過本體知識庫進行推理找到相應的本體及與其存在關系的本體,然后用結構化或非結構化檢索技術對數據進行查詢與展示。

圖4 智能檢索發電量結果
(2)在電網調度管理上的提升,智能檢索技術在電網調度運行中的應用以電網事故分析為例。電網運行穩定、安全是調度運行管理重要的指標之一,因此調度人員要對電網故障、事故有提前的預判能力,提前做好事故預案、分析以及事故后總結的工作。但電網運行情況復雜,調度人員很難掌握所有的情況,因此需要一種便捷的手段查詢所有的電網事故和歷史情況分析,包括事故產生原因,事故后果、處理要點等[9]。
通過分析歷史電網事故、故障將事故按照原因進行分類,例如輸入“氣象災害 電網事故”,通過對“氣象災害”與“電網事故”兩個本體的分析推理,找到有關聯的一系列知識本體,“降水”、“雷擊”……“線路跳閘”、“線路覆冰”等,這些作為進階查詢條件,在結構化數據與非結構化數據中進行進一步檢索,如在結構化數據中根據“降水”的結構化數據屬性找到氣象數據,預警數據,對應的OMS中調度日志由降水導致的事故記錄以及相應的處理流程,如圖5所示。

圖5 電網事故檢索過程
根據查詢結果使用者可以全面的了解一段時間內的事故發生情況,發生原因,處理過程,分析措施和建議,從各種潛在數據中找到必然聯系,為日后預防此類電網事故的發生提供技術支持,提高電網運行穩定性,增強業務人員管理水平。
4結語
基于電網調度本體知識庫的智能檢索技術,將電網調度領域專業術語、運行管理數據進行知識梳理,維護調度本體以及關聯關系形成專業電網調度本體知識庫。通過調度本體知識庫生成檢索索引,對電網調度中的結構化、非結構化數據進行數據分析、檢索,實現電網調度領域內數據的相關性分析,提高調度數據檢索準確性、智能性。為調度中心所有工作人員提供了具備全局性、透明性和高效性的調度數據智能檢索功能,提高系統的智能化水平,降低使用者的技能門檻。實現調度運行信息全景管理、調度精細化決策、運行數據智能分析、資源優化配置,提升調度駕馭電網能力、科學決策管理能力和靈活高效調控能力,為智能電網調度管理系統(OMS)深化應用提供技術支撐。
參考文獻:
[1]張蓮梅, 陳世鴻, 陳紅梅, 等. 基于分布式電力資源庫的搜索引擎框架[J]. 高電壓技術, 2005,31(8):66-68.
ZHANG Lian-mei, CHEN Shi-hong, CHEN Hong-mei, et al. Framework of searching engine based on distributed electrical resource database[J]. High Voltage Engineering, 2005,31(8):66-68.
[2]趙海波,黃勇理,陳勝,等. 基于電廠運行數據庫的專業智能搜索引擎[J]. 電力自動化設備, 2003,23(8):25-28.
ZHAO Hai-bo, HUANG Yong-li, CHEN Sheng, et al.
Professional intelligent search engine based on running database of power plant[J]. 電力自動化設備, 2003,23(8):25-28.
[3]吳順祥,吉國力. 數據庫系統與知識庫系統的對比分析[J]. 計算機工程與應用, 1999(35) : 83-85.
WU Shun-xiang, JI Guo-li. Comparative analysis of database system and knowledge-base system[J]. Computer Engineering and Application, 1999(35) : 83-85.
[4]楊勇, 鄒時林, 蔡源. 知識庫系統的原理[J]. 華東地質學院學報, 2001, 24(4):334-337.
YANG Yong, ZHOU Shi-lin, CAI Yuan. Principle of knowledge-base system[J]. Journal of East China Geological Institute, 2001, 24(4) :334-337.
[5]何新貴. 知識處理與專家系統[M]. 北京:國防工業出版社, 1990.
HE Xin-gui. Knowledge processing and expert system[M]. National Defence Industry Press, 1990.
[6]W3C. Web Ontology Language(OWL) [ EB/OL]. [ 2007-10-08] .http://www.w3.org/2004/OWL/.
[7]李春. 基于本體的文本信息檢索技術研究與實現[D]. 南京:南京航空航天大學, 2009.
LI Chun. Research and implementation of text information retrieval based on Ontology[D]. Nanjing University of Aeronautics and Astronautics, 2009.
[8]錢智勇. 基于本體的專題域知識庫系統設計與實現——以張謇研究專題知識庫系統實現為例[J]. 情報理論與實踐, 2006(4):58-60.
QIAO Zhi-yong. Special domain ontology knowledge base system design and implementation——on zhang jian research subject knowledge database system implementation[J]. Information Studies:Theory & Application, 2006(4):58-60.
[9]徐瑞卿, 周渝慧. 電力系統應急管理探討[A]. 第八屆中國管理科學學術年會論文集[C], 2006.
XU Rui-qing, ZHOU Yu-hui. Study on emergency management of power system[A]. The Eighth Session of The China Management Science Annual Meeting Proceedings[C], 2006.
(本文編輯:嚴加)
Research and Implementation of Intelligent Search Based on Power Grid Ontology-Based Knowledge Base
CAO Yu1, YE Jian-hui2, YU Yong-chao1
(1. NARI Group Corporation Beijing KeDong Company, Beijing 100192, China;2. State Grid Hunan Electric Power Company, Changsha 410000, China)
Abstract:In view of the type diversity, structure complexity and management difficulty of power grid dispatching data, this paper builds unified model on grid equipment, dispatching operation data and power grid term by constructing ontology-based knowledge base. Further, we research the storage and analysis of structured and unstructured data and correlation, subordination and synonymy among the data in dispatching operating system. The potential correlation among ontology is derived from power grid ontology inference rules. Then the intelligent retrieval technology in power grid dispatching data is researched based on the ontology-based knowledge base, structured and unstructured data and inverted index analysis techniques, which can search the relevant data very fast and find out the internal relationship among data at the same time. Finally, taking querying operating data and analyzing power grid accident as an example, we discuss the application scenarios of this technology, aiming to provide future technology support to intelligent analysis of power grid dispatching operation.
Key words:ontology-based knowledge base; inference rule; unstructured; inverted index
作者簡介:曹宇(1983),男,碩士,工程師,主要研究方向為數據挖掘,人工智能等。
中圖分類號:TM769
文獻標志碼:B
文章編號:2095-1256(2016)01-0001-06
收稿日期:2015-11-01