謝 慶 蔡 揚 謝 軍 王春鑫 張雨桐 徐之康
基于ALBERT的電力變壓器運維知識圖譜構建方法與應用研究
謝 慶1,2蔡 揚1謝 軍1王春鑫1張雨桐1徐之康1
(1. 新能源電力系統國家重點實驗室(華北電力大學) 北京 102206 2. 河北省輸變電設備安全防御重點實驗室(華北電力大學) 保定 071003)
當前電網數字化轉型升級,且電力變壓器智能健康管理技術快速發展,而在運維過程中存在信息關聯性弱以及決策生成效率低的問題。目前,知識圖譜在航天器運維等其他工業領域已有應用,知識查詢效率顯著提升。電力變壓器運維領域鮮有知識圖譜構建相關文獻,且針對電力變壓器運維領域公開數據較少、運維知識難以被有效挖掘的問題,該文提出一種基于ALBERT的電力變壓器運維知識圖譜構建方法。首先獲取電力變壓器領域公開文獻,并使用正則匹配的樣本生成方法對電力系統事故調查報告等半結構化語料進行樣本增強,構建電力變壓器運維領域的訓練數據集;然后應用ALBERT-BiLSTM-CRF深度學習算法從電力變壓器相關文獻與事故調查報告中抽取了電力變壓器運維實體,并將此算法與傳統深度學習算法進行對比,驗證了此方法的優越性;接著,利用融入了ALBERT和注意力機制的ALBERT-BiLSTM-Attention深度學習算法對電力變壓器運維實體進行關系抽取,相較于其他深度學習算法,此算法在電力變壓器運維領域文本中具有更好的表現;最后使用Neo4j圖數據庫對知識圖譜進行可視化呈現,并實現了基于電力變壓器運維知識圖譜的輔助決策功能。
電力變壓器 知識圖譜 深度學習 ALBERT 輔助決策
我國提出“2030年前實現碳達峰,2060年前實現碳中和”行動方案,大力推動電網數字化轉型升級[1],這對傳統電力設備的運行維護提出了更高的要求[2]。變壓器作為電力系統中的核心設備,不同程度的電力變壓器故障都會對整個電網的安全穩定運行產生挑戰。快速準確地掌握變壓器信息,提升變壓器檢修維護效率和水平,是保證用戶用電質量的重要基礎。
當前變壓器運維主要依賴傳統經驗,導致運維措施可解釋性較弱,且運維人員對故障變化反應較慢,無法及時對故障進行快速準確的處理[3]。同時變壓器故障時常發生,電力變壓器結構復雜,不同類型的變壓器運維方式存在差異,故變壓器運維對技術人員專業能力要求較高且難度較大。當前電力系統中積累了大量的故障處理案例[4],主要為非結構化與半結構化的文本,如何從海量的數據中快速、準確地提取出有價值的信息,使用“知識-數據”聯合驅動的方式進行變壓器智能運維,是目前電力領域迫切需要解決的問題[5]。
知識圖譜的概念在2012年由谷歌正式提出,其本質上是實體關系的語義網絡,目前被用來泛指大規模的數據庫[6]。在其他領域智能決策、設備運維中知識圖譜的研究開展較早,目前已有初步應用。文獻[7]構建了緊急事件處理領域輔助決策知識圖譜,并使用graphDB數據庫對三元組進行存儲,實現了應急決策的智能服務。文獻[8]以航空系統為例,構建了基于飛機系統運維知識圖譜的專家系統,闡述了將知識圖譜與航空系統運維相結合的運維方法具有較大優勢。文獻[9]構建了盾構掘進機運維知識圖譜,相較于傳統工程師定期維護耗時長、人力需求大等情況,應用知識圖譜可使運維更加高效智能,并驗證了此方法的可行性與有效性。當前,在電力設備運維領域鮮有知識圖譜參與,故將知識圖譜與電力變壓器智能運維相結合具有廣闊的應用前景與較高的使用價值。
目前,知識圖譜的研究在電力系統領域中已經有了一定的進展[10],但在電力變壓器運維領域尚屬起步階段。文獻[11]闡述了知識圖譜在電力領域的應用前景,并分析了知識圖譜在應用過程中需要解決的問題。文獻[12]提出了基于雙向循環機制和注意力機制的長短期記憶(Attention-based Bidirectional Long Short Term Memory Networks for relation classification, BiLSTM-Attention)算法的電力設備缺陷實體識別方法,但并未對電力設備知識圖譜的構建方法做進一步闡述。文獻[13]采用局部感知域卷積神經網絡(Local-aware Region Convolutional Neutral Network, LR-CNN)算法進行電網故障處置預案的實體抽取,并基于BiGRU-Attention進行關系抽取,進而構建了電網故障處置知識圖譜。但在電力變壓器運維領域,公開的可獲取的運維文檔及事故處理報告等文本數量較少,不足以支撐傳統的深度學習模型訓練,且標注海量的訓練數據存在耗費時間長、成本高等問題,故將傳統的深度學習算法應用在電力變壓器運維知識圖譜構建領域難以取得很好的效果。
BERT(bidirectional encoder representations from transformers)是Google于2018 年提出的預訓練模型[14],其已在多個自然語言任務中取得理想效果,但BERT的參數量達到百萬級別,需要龐大的算力進行支撐,故本文使用輕量級BERT模型(A Lite BERT, ALBERT)[15],該模型相較于BERT,減少了參數數量以及模型訓練占用的資源和時間,能夠有效避免傳統深度學習方法需要構建大量訓練數據的問題,同時由于ALBERT模型中的編碼層可以更好地獲取文本在語境中的特征信息,生成動態詞向量,故可以高效地應對電力變壓器運維文本中專有名詞多、漢字間包含字母以及符號等問題。
據此,本文提出了基于ALBERT的電力變壓器運維知識圖譜構建方法。首先以變壓器檢修導則為指導[16],結合專家意見對變壓器運維相關的實體及關系進行分類,構建出知識圖譜的本體層。其次基于Selenium框架獲取公開的電力變壓器運維文獻,同時使用正則匹配的方法對非結構化運維文檔進行樣本生成,接著對文本信息進行標注從而構建電力變壓器運維數據集。然后使用ALBERT-BiLSTM-條件隨機場(Conditional Random Field, CRF)算法抽取實體信息,采用ALBERT-BiLSTM-Attention算法進行關系抽取,從而獲得變壓器運維實體三元組。最后,利用Neo4j圖數據庫進行三元組的存儲以及可視化展示,同時基于電力變壓器運維知識圖譜實現了運維輔助決策功能。
電力變壓器運維知識圖譜是面向電力變壓器進行例行檢修、故障運維時的知識檢索、故障信息查詢以及輔助決策等場景的知識圖譜,主要由本體層、實體層、關系和屬性構成[17]。
通常知識圖譜結構可分為模式層和數據層,模式層又稱本體層,是實體及關系的描述框架[18]。數據層又稱實體層,用來存儲本體層所對應的實體及關系信息,模式層和數據層中數據均以“實體-關系-實體”的形式進行存儲[19]。由于變壓器運維文本專業性較強,需在電力領域專家的指導下對語料進行深入分析,提煉文本語料的實體信息及其相互關系,構建出本體層。知識圖譜實體層主要來源于電力變壓器運行、檢修和日常管理中所產生的大量非結構化、半結構化的文本數據,利用自然語言處理技術對文本進行實體抽取,再填充進構建的本體當中[20]。實體屬性可在圖譜構建完成后及使用過程中進行填充和更新,其中包含電力變壓器生產廠商、試驗方法、缺陷名稱、基本參數等信息。電力變壓器運維知識圖譜結構示意圖如圖1所示。
知識圖譜構建方法主要包括由知識驅動的自頂向下(top-down)式、由數據驅動的自底向上(bottom-up)式以及兩者的組合方式[21]。本文采用自頂向下與自底向上兩者相結合的方式進行構建,即在最初階段定義好本體概念及它們相互之間的關系,在進行實體及關系抽取的同時對模式層進行調整與完善。
本文在電力領域專家的指導下,對語料文本信息進行提煉,形成了包含變壓器型號、部件、缺陷、屬性、試驗方法、保護措施等本體概念及它們之間的相互關系,構建出本體層。電力變壓器運維知識圖譜實體層構建主要在本體層概念的基礎上進行實體抽取、關系抽取、屬性抽取等[22]。首先對非結構化文本進行數據標注構成訓練數據集,同時對半結構化變壓器故障報告進行樣本生成從而擴充語料數目,接著使用深度學習算法對電力變壓器運維文本進行實體及關系抽取,構建出三元組并存入圖數據庫中,從而完成知識圖譜的構建。

圖1 變壓器運維知識圖譜結構示意圖
在知識圖譜構建完成之后,考慮到構建圖譜過程中所使用的數據來源和質量的不同,在進行信息抽取過程中可能會出現部分信息錯誤或冗余,故需要進行知識融合。其中實體對齊是將采用不同表達方式的同一實體進行合并,如“局部放電”和“局放”表達意思一致,可用同一實體表示。實體消歧是將相同名稱表示的不同實體進行區分,如運維文本中“1號母線”的意義可表示“1號主變的1號母線”也可表示“2號主變的1號母線”,故需要對兩者中的“1號母線”進行區分。在日常電力變壓器運維過程中,若遇見新的知識或者發現圖譜內存在信息缺失、錯誤等情況,需及時對圖譜進行知識補全,提升圖譜質量。本文最終構建的知識圖譜包含6類本體, 5 545個實體以及5類本體關系,3 529個實體關系。電力變壓器運維知識圖譜構建方法示意圖如圖2所示。
在2018年,J. Devlin等[14]提出了BERT預訓練模型,該模型能很好地解決包括字詞的上下文表示、表征字詞的多樣性等句法特征問題。BERT 使用雙 Transformer 作為編碼器來融合文本上下文的信息以及前文本和后文本信息。對于一個短語,其輸入表示可以通過將令牌嵌入(token embeddings)、段落嵌入(segment embeddings)和位置嵌入(position embeddings)的三個部分相加來組成。Transformer基于注意力機制對文本進行建模,注意力機制為

在式中,Q、K和V為輸入詞向量矩陣;dk為輸入向量維度。由公式可以看出不同詞之間有著相互聯系,且在一定程度上反映了句子中不同詞之間具有相互各異的重要程度,即每個字向量都含有當前句子內所有字向量的信息。



在式中,H為向量維度;為對字序列進行字嵌入編碼;為對字序列進行位置信息編碼;為對字序列進行語句信息編碼,將以上三者映射到高維度相加得到ALBERT層的輸入序列X[23]。

關系抽取(Relation Extraction, RE)是知識抽取的核心任務之一,其目的是對句子中實體間的關系進行識別,關系抽取是構建變壓器運維知識圖譜與智能運維問答系統等下游任務的基礎[25]。
電力變壓器運維實體關系抽取同樣基于ALBERT預訓練模型,并且在BiLSTM的基礎上引入Attention注意力機制。該機制有助于給關系分類中的關鍵信息加大權重,減少干擾無義信息的權重,從而進一步提高模型特征抽取的準確性,并且可對BiLSTM預測的狀態信息序列進行加權變換,自動按信息的重要程度賦予不同的權重。ALBERT-BiLSTM-Attention模型如圖4所示。

圖4 ALBERT-BiLSTM-Attention模型
電力變壓器運維領域中公開的運維文檔與事故處理報告較少,即可用于模型訓練的語料較少,故需構建用于電力變壓器領域的訓練數據集。本文的數據集中包含基于Selenium框架獲取的關鍵詞中含有“電力變壓器運維”的公開文本等非結構化文本,以及變壓器現場故障分析報告、異常檢測報告等半結構化文本,其中變壓器相關的技術文獻800余篇,變壓器運維檢修事故報告200余篇,共約80余萬字。內容包括變壓器故障診斷方法、變壓器故障運維方案等,涵蓋了電力變壓器領域絕大部分的故障類型、故障診斷方法以及熱點研究內容。
數據集構建過程分為兩部分:第一部分是對獲取的故障分析報告、異常檢測報告等文本基于正則匹配規則的方法進行樣本生成;第二部分是對獲取的文獻文本進行數據清洗,接著對處理后的文本進行標注。本文采取的標準策略為BIO標注,每個字符標注以“B”、“I”或者“O”開頭[26],當頭尾及中間實體標簽全部預測正確時,才判斷該實體預測正確。六類實體的待預測標簽見表1。
表1 實體待預測標簽

Tab.1 Labels of the entity to be predicted
由于電力變壓器運維屬于專業領域,運維文檔和異常檢測報告等語料獲取途徑以及數量有限,不足以支撐深度學習的模型訓練,故電力變壓器運維數據集構建的第一部分是對所獲取的事故報告進行樣本生成,從而擴充語料庫規模。首先需要進行詞典準備,其中包含變電站名稱、變壓器型號、部件生產廠商、故障名稱、部件屬性等信息共計150余條變壓器運維領域專業信息,電力變壓器運維詞典部分內容見表2。
在電力變壓器運維詞典準備完成后,本文采用基于正則表達式匹配和詞典替換的方法進行樣本增強,匹配規則為“(。|!|?|;)”,該正則表達式用于中文分句的符號標識符,即在此類符號所劃定的區間內,基于詞典內的各類專業名詞短語,對電力變壓器運維文檔以及異常檢測報告中的變電站名稱、變壓器型號、部件生產廠商、故障名稱、部件屬性等信息進行匹配轉換,并輔以專家經驗對生成的報告進行校驗,保證了生成文本的科學性與準確性。
表2 電力變壓器運維詞典(部分)
經過樣本增強,將最初獲取的40余篇運維文檔擴充至200余篇事故分析報告和異常檢測報告,豐富了訓練數據集的內容,解決了樣本數量少的問題,進而提升了模型的泛化能力和魯棒性。
數據集構建的第二部分是對獲取的電力變壓器相關的公開文本進行數據清洗及文本標注。由于語料中包含互聯網中的非結構化文本,故包含一定的噪聲,為了提升算法訓練質量以及最終所構建知識圖譜的可靠性,需對文本進行數據清洗,即刪除當中無用的字符,包括換行符、空格等,然后對文本內容進行BIO標注。
文本內容實例如下:“±800kV換流變壓器干式套管設計方案,特高壓套管的電場分布不均勻:套管頭部、電容芯子內部及套管尾部的電場較為集中。均壓球內部、油箱底部及遠離套管空間中的電場均較低,…,高場強主要集中在芯子極板區域內部,保護層中的電場強度較低,但電磁暫態仿真表明極板邊緣區域電場強度較高,極板邊緣易于產生局部放電,長期燒蝕可出現炭化痕跡,最終導致套管芯子的內部絕緣擊穿。”其對應的標注文件格式為ann格式文件,內容見表3。通過讀取ann文件將實體類型與實體文字相匹配,從而實現對訓練集的標注,標注后的數據格式見表4。
表3 ann標注文件示例

Tab.3 ann annotation file example
表4 實體標注結果

Tab.4 Entity labeling results
本文的實驗環境為:Win10操作系統,處理器為Intel(R)Core(TM)i5-6360U CPU,16GB內存,顯卡為Tesla T4 GPU,編程平臺為PyCharm,編程環境是Python3.6。




式中,P、P、N為混淆矩陣(confusion matrix)中的元素。P指被正確預測的正例,P指真實值為反例被錯誤預測為正例,N指真實值為正例被錯誤預測為反例。
模型訓練前,需要對模型進行參數設置,ALBERT-BiLSTM-CRF模型訓練參數見表5。
表5 ALBERT-BiLSTM-CRF模型訓練參數

Tab.5 ALBERT-BiLSTM-CRF model training parameter
為了驗證對于電力變壓器運維,本文采用ALBERT-BiLSTM-CRF算法進行實體抽取的優越性,將此算法與BiLSTM和BiLSTM-CRF算法進行對比,實驗結果分別見表6和圖5所示。
表6 實體抽取算法結果對比

Tab.6 Comparison of results of entity extraction algorithms

圖5 算法F1分數對比圖
本文基于ALBERT-BiLSTM-CRF算法從電力變壓器語料中抽取出5 545個實體,從實驗結果可以看出,基于該實體抽取算法的識別評價結果高于其他兩種方法,這是由于ALBERT預訓練模型不僅可以獲取到包含上下文信息的詞級特征,還能有效捕捉句子級別的特征,并且能夠基于上下文生成動態詞向量,能有效解決變壓器運維文本一詞多義問題。
實驗評測采用與實體抽取一致的評價指標:準確率、召回率和1值。模型參數設置見表7,關系抽取結果對比見表8,三種深度學習模型關系抽取過程中1分數如圖6所示。
表7 ALBERT-BiLSTM-Attention模型訓練參數

Tab.7 ALBERT-BiLSTM-Attention model training parameter
表8 關系抽取算法結果對比

Tab.8 Comparison of results of relation extraction algorithms

圖6 關系抽取模型訓練模曲線
從表8以及圖6可以看出,ALBERT預訓練模型在電力變壓器運維領域文本的關系抽取任務中有明顯的優勢,相較于BiLSTM-Attention,ALBERT-BiLSTM-Attention模型1分數由0.926提升至0.951,且融入了注意力機制,可對文本中更重要的字賦予權重以提高重要性,從而提升關系抽取的準確率。本文基于ALBERT-BiLSTM-Attention模型從語料中共抽取出3 529個實體間關系,且該模型關系抽取的1值達到0.951,可準確地識別實體間的關系。
本文使用pipeline式的知識抽取方法分別進行實體和關系抽取,同時考慮到訓練語料為電力變壓器運維相關的專業領域文本,語言較為精煉、專業性較強,而ALBERT預訓練模型具有強大的特征抽取能力,且BiLSTM模型能夠很好地捕獲上下文信息,同時在實體抽取算法最后加入CRF層可以自動學習到實體標簽的約束,從而保證最終預測結果的有效性;在關系抽取中融入Attention機制,可以給信息按照重要程度加上不同的權重,從而提升關系抽取的準確率。故采用ALBERT-BiLSTM-CRF算法進行實體抽取,使用ALBERT-BiLSTM- Attention算法進行關系抽取,通過對比實驗可以看出,采用這兩種算法分別進行實體和關系抽取,相較于傳統的深度學習算法有著明顯優勢。
Neo4j 是一個性能卓越的非關系型圖數據庫,其使用的 Cypher語言是一種專屬 Neo4j 的聲明式查詢語言[27]。Neo4j的數據主要由節點、邊、屬性構成,其中它的頂點和邊都可以構建屬性值,并且具有高可用性和高擴展性。
本文基于構建的電力變壓器運維數據集共抽取了5 545個電力變壓器運維領域實體和3 529個實體間關系,在知識抽取完成后,根據關系的主體和客體進行鏈接,即形成如表9所示的〈實體1,關系,實體2〉三元組。
表9 電力變壓器運維三元組示例

Tab.9 Examples of power transformer operation and maintenance triplet
將實體關系三元組存儲為CSV文件格式導入Neo4j數據庫,基于該數據庫繪制出的電力變壓器運維知識圖譜全貌如圖7所示。其中,每個顏色代表一類電力變壓器運維實體,每個節點代表實體內容,實體之間連線表示二者之間存在的實體關系。

圖7 電力變壓器運維知識圖譜
目前,變壓器故障診斷及運維過程中所使用的神經網絡依賴大量樣本進行訓練,輸出的結果缺乏可解釋性,而融合知識圖譜的知識推理與深度問答過程依賴的是知識本身的關聯關系,使得生成的輔助決策信息具有更高的可解釋性。在電力變壓器運維領域,知識圖譜可以參與運維問答、輔助決策等多種智能運維場景。將推理結果輔以人工經驗及運維規程等信息加以規范,最終形成具有高可信度的運維決策建議,對電力變壓器運維有較強的指導意義。電力變壓器運維知識圖譜應用示意圖如圖8所示,融入知識圖譜后,傳統的以經驗為基礎的運維模式轉變為“知識-數據”驅動的智能運維模式,大幅地提升了電力變壓器的健康管理水平。

圖8 電力變壓器運維知識圖譜應用示意圖
基于構建的電力變壓器運維知識圖譜本文實現了輔助決策的功能,如圖9所示,根據電力變壓器運維圖譜中的故障發生地點及故障描述等相關信息,提取故障變壓器的型號及部件等關鍵信息,并將這些信息與圖譜內的海量知識進行匹配篩選,從而獲得相關設備部件的規范運維方案并生成故障處理報告,進而實現輔助決策的功能。
本文以“X時X分XX變電站110kV主變壓器鐵心過熱故障”為例,通過故障信息解析,得到故障發生的時間、地點以及故障設備為“110kV電力變壓器”,發生的故障為“鐵心過熱故障”,運維人員通過例如“110kV變壓器鐵心過熱故障處理方法是什么?”的問題對運維方案進行查詢,輸入語句經過分詞工具分為“110kV變壓器”“鐵心”“過熱故障”“處理方法”等字段,對實體內容在運維圖譜里進行匹配,并以“處理方法”為實體關系對該故障對應的運維方法進行檢索與提取,從而實現電力變壓器故障的輔助決策并自動生成故障運維報告。同時,結合相應的故障診斷方法,運維人員對處理決策核驗與完善,即將圖譜知識與專家經驗相結合對變壓器進行運維,進而提升運維準確率和效率,并且新生成的運維報告可對圖譜更新提供支撐,有助于提升知識圖譜的規模和質量。再者,基于變壓器運維知識圖譜可進一步對可能發生相關故障的部件進行推理,達到對類似部件進行統一維護的目的,從而降低同類型部件故障的發生概率。

圖9 基于電力變壓器運維知識圖譜應用實例
本文基于電力變壓器運維相關文獻以及故障檢修報告等文本語料,提出了一種基于ALBERT的電力變壓器知識圖譜構建方法,主要結論如下:
1)提出了電力變壓器運維知識圖譜構建思路,構建出知識圖譜本體層,包含變壓器型號、部件、缺陷、屬性、試驗方法、保護措施六類本體。針對電力變壓器運維領域文本數量少的問題,利用公開文獻以及變壓器運維報告等語料信息,自主構建了電力變壓器領域訓練數據集。
2)基于ALBERT-BiLSTM-CRF的深度學習算法實現了變壓器運維實體識別,1分數可達0.942,并通過對比試驗驗證了此算法的優越性。
3)采用融合注意力機制的ALBERT-BiLSTM- Attention算法抽取了變壓器運維實體關系,并與其他兩個深度學習關系抽取算法進行對比實驗,此算法1分數達到0.951,較好地實現了電力變壓器運維領域實體間關系抽取任務。
4)將5 545個實體及3 529個實體關系存儲至Neo4j數據庫構建出變壓器運維知識圖譜并實現可視化,同時實現了基于電力變壓器運維知識圖譜的輔助決策功能。
[1] 李剛, 李銀強, 王洪濤, 等. 電力設備健康管理知識圖譜:基本概念、關鍵技術及研究進展[J]. 電力系統自動化, 2022, 46(3): 1-13.
Li Gang, Li Yinqiang, Wang Hongtao, et al. Knowledge graph of power equipment health management: basic concepts, key technologies and research progress[J]. Automation of Electric Power Systems, 2022, 46(3): 1-13.
[2] 謝慶, 楊天馳, 裴少通, 等. 基于多尺度協作模型的電氣設備紅外圖像超分辨率故障辨識方法[J]. 電工技術學報, 2021, 36(21): 4608-4616.
Xie Qing, Yang Tianchi, Pei Shaotong, et al. Super-resolution identification method of electrical equipment fault based on multi-scale cooperation model[J]. Transactions of China Electrotechnical Society, 2021, 36(21): 4608-4616.
[3] 趙鵬, 蒲天驕, 王新迎, 等. 面向能源互聯網數字孿生的電力物聯網關鍵技術及展望[J]. 中國電機工程學報, 2022, 42(2): 447-457.
Zhao Peng, Pu Tianjiao, Wang Xinying, et al. Key technologies and perspectives of power Internet of Things facing with digital twins of the energy Internet[J]. Proceedings of the CSEE, 2022, 42(2): 447-457.
[4] 律方成, 牛雷雷, 王勝輝, 等. 基于優化YOLOv4的主要電氣設備智能檢測及調參策略[J]. 電工技術學報, 2021, 36(22): 4837-4848.
Lü Fangcheng, Niu Leilei, Wang Shenghui, et al. Intelligent detection and parameter adjustment strategy of major electrical equipment based on optimized YOLOv4[J]. Transactions of China Electrotechnical Society, 2021, 36(22): 4837-4848.
[5] 蔣逸雯, 李黎, 李智威, 等. 基于深度語義學習的電力變壓器運維文本信息挖掘方法[J]. 中國電機工程學報, 2019, 39(14): 4162-4171.
Jiang Yiwen, Li Li, Li Zhiwei, et al. An information mining method of power transformer operation and maintenance texts based on deep semantic learning[J]. Proceedings of the CSEE, 2019, 39(14): 4162-4171.
[6] 劉梓權, 王慧芳. 基于知識圖譜技術的電力設備缺陷記錄檢索方法[J]. 電力系統自動化, 2018, 42(14): 158-164.
Liu Ziquan, Wang Huifang. Retrieval method for defect records of power equipment based on knowledge graph technology[J]. Automation of Electric Power Systems, 2018, 42(14): 158-164.
[7] Chen Jiahui, Ge Xingtong, Li Weichao, et al. Construction of spatiotemporal knowledge graph for emergency decision making[C]//2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS, Brussels, Belgium, 2021: 3920-3923.
[8] Sarazin A, Bascans J, Sciau J B, et al. Expert system dedicated to condition-based maintenance based on a knowledge graph approach: application to an aeronautic system[J]. Expert Systems With Applications, 2021, 186: 115767.
[9] Qin Hao, Jin Jiong. Intelligent maintenance of shield tunelling machine based on knowledge graph[C]// 2020 IEEE 18th International Conference on Industrial Informatics, Warwick, United Kingdom, 2020: 793-797.
[10] 邊曉燕, 張璐瑤, 周波, 等. 基于知識圖譜的國內外電力市場研究綜述[J]. 電工技術學報, 2022, 37(11): 2777-2788.
Bian Xiaoyan, Zhang Luyao, Zhou Bo, et al. Review on domestic and international electricity market research based on knowledge graph[J]. Transactions of China Electrotechnical Society, 2022, 37(11): 2777-2788.
[11] 蒲天驕, 談元鵬, 彭國政, 等. 電力領域知識圖譜的構建與應用[J]. 電網技術, 2021, 45(6): 2080-2091.
Pu Tianjiao, Tan Yuanpeng, Peng Guozheng, et al. Construction and application of knowledge graph in the electric power field[J]. Power System Technology, 2021, 45(6): 2080-2091.
[12] 馮斌, 張又文, 唐昕, 等. 基于BiLSTM-Attention神經網絡的電力設備缺陷文本挖掘[J]. 中國電機工程學報, 2020, 40(增刊1): 1-10.
Feng Bin, Zhang Youwen, Tang Xin, et al. Power equipment defect record text mining based on BiLSTM-attention neural network[J]. Proceedings of the CSEE, 2020, 40(S1): 1-10.
[13] 郭榕, 楊群, 劉紹翰, 等. 電網故障處置知識圖譜構建研究與應用[J]. 電網技術, 2021, 45(6): 2092-2100.
Guo Rong, Yang Qun, Liu Shaohan, et al. Construction and application of power grid fault handing knowledge graph[J]. Power System Technology, 2021, 45(6): 2092-2100.
[14] Devlin J, Chang Mingwei, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J/OL]. https://doi.org/10. 48550/arXiv.1810.04805, 2019,
[15] Lan Z, Chen M, Goodman S, et al. ALBERT: a lite BERT for self-supervised learning of language representations[C]//Proceedings of the 8th International Conference on Learning Representations, La Jolla, CA, 2020: 1-17.
[16] 國家能源局. DL/T 573—2010電力變壓器檢修導則[S]. 北京: 中國電力出版社, 2010.
[17] Fan Tao, Wang Hao. Research of Chinese intangible cultural heritage knowledge graph construction and attribute value extraction with graph attention network[J]. Information Processing & Management, 2022, 59(1): 102753.
[18] zhang Fan, Wu Jizhou, Nie Yingli, et al. Research of knowledge graph technology and its applications in agricultural information consultation field[C]//2020 IEEE 39th International Performance Computing and Communications Conference, Austin, TX, USA, 2020: 1-4.
[19] Zeng Xiangxiang, Tu Xinqi, Liu Yuansheng, et al. Toward better drug discovery with knowledge graph[J]. Current Opinion in Structural Biology, 2022, 72: 114-126.
[20] Ma Xiaogang. Knowledge graph construction and application in geosciences: a review[J]. Computers & Geosciences, 2022, 161: 105082.
[21] 喬驥, 王新迎, 閔睿, 等. 面向電網調度故障處理的知識圖譜框架與關鍵技術初探[J]. 中國電機工程學報, 2020, 40(18): 5837-5848.
Qiao Ji, Wang Xinying, Min Rui, et al. Framework and key technologies of knowledge-graph-based fault handling system in power grid[J]. Proceedings of the CSEE, 2020, 40(18): 5837-5848.
[22] Ma Lianbo, Wang Jingwei, Cheng Jian, et al. MLRP-KG: mine landslide risk prediction based on knowledge graph[J]. IEEE Transactions on Artificial Intelligence, 2022, 3(1): 78-87.
[23] 葉欣智, 尚磊, 董旭柱, 等. 面向配電網故障處置的知識圖譜研究與應用[J]. 電網技術, 2022, 46(10): 3739-3749.
Ye Xinzhi, Shang Lei, Dong Xuzhu, et al. Knowledge graph for distribution network fault handling[J]. Power System Technology, 2022, 46(10): 3739-3749.
[24] 賀瑞芳, 段紹楊. 基于多任務學習的中文事件抽取聯合模型[J]. 軟件學報, 2019, 30(4): 1015-1030.
He Ruifang, Duan Shaoyang. Joint Chinese event extraction based multi-task learning[J]. Journal of Software, 2019, 30(4): 1015-1030.
[25] 楊穗珠, 劉艷霞, 張凱文, 等. 遠程監督關系抽取綜述[J]. 計算機學報, 2021, 44(8): 1636-1660.
Yang Suizhu, Liu Yanxia, Zhang Kaiwen, et al. Survey on distantly-supervised relation extraction[J]. Chinese Journal of Computers, 2021, 44(8): 1636-1660.
[26] 蔡莉, 王淑婷, 劉俊暉, 等. 數據標注研究綜述[J]. 軟件學報, 2020, 31(2): 302-320.
Cai Li, Wang Shuting, Liu Junhui, et al. Survey of data annotation[J]. Journal of Software, 2020, 31(2): 302-320.
[27] Li Chun xin, Lu Qian nan, Huang Ming, et al. Construction of radio transmission equipment type approval knowledge graph and its application[C]// 2021 IEEE 2nd International Conference on Big Data, Artificial Intelligence and Internet of Things Engineering, Nanchang, China, 2021: 956-961.
Research on Construction Method and Application of Knowledge Graph for Power Transformer Operation and Maintenance Based on ALBERT
Xie Qing1,2Cai Yang1Xie Jun1Wang Chunxin1Zhang Yutong1Xu Zhikang1
(1. State Key Laboratory of Alternate Electrical Power System with Renewable Energy Sources North China Electric Power University Beijing 102206 China 2. Hebei Provincial Key Laboratory of Power Transmission Equipment Security Defense North China Electric Power University Baoding 071003 China)
Knowledge graph can effectively manage massive information and deal with complex and diverse relationships. At the same time, knowledge search and decision-making based on knowledge graph are more in line with human logic and enhance the interpretability of answers. Since the current power transformer operations mainly depends on traditional experience, and has accumulated the massive operations within the power system documentation and the accident report, it is an urgent need to solve the problem on how to read the vast amounts of data quickly and accurately extract the valuable information, so as to use data-driven approach to transformer intelligent operations. Therefore, this paper proposes an ALBERT based knowledge graph construction method for power transformer operation and maintenance.
First of all, due to the small number of publicly available operation and maintenance documents and accident handling reports in the field of power transformer operation and maintenance, it is necessary to build a training dataset for the field of power transformer. The construction process of the dataset is divided into two parts. The first part is to generate samples of the obtained fault analysis report, anomaly detection report and other texts on basis of the method of regular matching rules. The second part is to clean the obtained literature texts and annotate the processed texts with BIO method. Then, the ALBERT-BiLSTM-CRF model was used to extract entities from the operation and maintenance texts of power transformers, and the ALBERT-BiLSTM-Attention model is used to extract relations from the operation and maintenance texts of power transformers. Finally, the Neo4j graph database is used to store and visualize the extracted triple. In the light of the constructed knowledge graph of power transformer operation and maintenance, the auxiliary decision-making function of power transformer operation and maintenance can be realized.
The ALBERT-BiLSTM-CRF model and ALBERT-BiLSTM-Attention model are used to conduct relation extraction experiments on the operation and maintenance texts of power transformers respectively. The accuracy of entity extraction using the ALBERT-BiLSTM-CRF model can reach 94.4%. The1score can reach 94.2%, which is 9.1% and 7.9% higher than BiLSTM-CRF respectively. The accuracy of ALBERT-BiLSTM-Attention model can reach 94.1%, and the1score can reach 95.1%, which are improved by 3.2% and 2.5% compared with the BiLSTM-Attention model. From the experimental results, it shows that the ALBERT pre-trained model has a good adaptability to extract entities and relations for power transformer operation and maintenance, and can better complete the task of knowledge extraction.
To sum up, this paper proposes a knowledge graph construction method of power transformer operation and maintenance based on ALBERT model. The main conclusions are as follows: ① A training dataset of power transformer operation and maintenance text is constructed based on Selenium framework and the sample generation method of regular matching, which effectively solves the difficult problem of obtaining data sets in the field of power transformer operation and maintenance. ② The ALBERT-BiLSTM-CRF model and ALBERT-BiLSTM-Attention model are used to extract entities and relations from the operation and maintenance texts of power transformers. Compared with the traditional deep learning model, ALBERT model can effectively overcome the problems in power transformer operation and maintenance texts, such as too many proper nouns, letters and symbols among Chinese characters. ③ Based on the constructed power transformer operation and maintenance knowledge graph, the operation and maintenance auxiliary decision-making function can be realized, which provides a new idea for the intelligent operation and maintenance of power transformers.
Power transformer, knowledge graph, deep learning, ALBERT, auxiliary decision
10.19595/j.cnki.1000-6753.tces.221751
TM41; TM391.1
謝 慶 男,1979年生,博士,教授,研究方向為人工智能在電力系統中的應用和高電壓絕緣技術。E-mail:xq_ncepu@126.com
謝 軍 男,1988年生,副教授,碩士生導師,主要研究方向為輸變電設備狀態智能評估、先進電工絕緣材料。E-mail:junxie@ncepu.edu.cn(通信作者)
國家重點研發計劃資助項目(2020YFB0906000, 2020YFB0906005)。
2022-09-15
2022-10-25
(編輯 郭麗軍)