張鵬 王瑋 趙德偉 司曉峰



摘 要:針對電力系統調度員在OMS調度日志中記錄的電力設備缺陷數據繁雜,冗余等問題,提出了一種基于文本挖掘的電力設備缺陷用戶畫像構建新方法。首先在分析電力設備缺陷文本數據的基礎上,對集合樣本進行標簽化處理,以電力調度員的錄入缺陷數據及運檢人員在現場實際發現的缺陷數據為輸入,運用改進的聚類算法對電力設備缺陷標簽進行了定義及歸類,最后結合構建的文本預處理模型以及卷積神經網絡分類器,對電力設備缺陷文本進行了分類,并根據分類文本構建了電力設備缺陷的用戶畫像系統。實驗結果表明,該方法有效的解決了電力調度員標簽語義化問題,將需要調度人員關心的設備缺陷信息進行智能提取,實現了從PMS系統所有缺陷數據中自動推薦調度員關心的缺陷。
關鍵詞:電力調度;設備缺陷;聚類算法;用戶畫像構建;文本挖掘
中圖分類號:TM930.7 ?文獻標識碼:A
Abstract:Aiming at the redundancy and other problems of power equipment defect data in the OMS scheduling recorded by power dispatchers,this paper presents a new method for constructing user portraits of power equipment defects based on text mining.Firstly,the text data of power equipment defects are analyzed,the set samples are labeled.The defect data recorded by the power dispatcher and the actual defect data found by the operator are taken as input,the defect labels of power equipment are defined and classified by the improved clustering algorithm.Finally,combined the text preprocessing model and the convolutional neural network classifier,classified the defect text of power equipment.,a user portrait system of power equipment defects is constructed according to the classified text.Experimental results show that this method can solve the problem of semanticization of power dispatcher labels effectively,the equipment defect information concerned by the dispatcher is extracted intelligently,and can recommend defects to the dispatcher from all defect data of the PMS system automatic.
Key words:electric power dispatching;defective equipment;clustering algorithm;user portrait;text mining
智能電網系統依賴于生產,傳輸,分配,設備用電的各個環節,如果在其中出現任何問題,都會給電力系統造成巨大的影響及經濟損失。特別是用電設備出現損傷及缺陷后,需要對該事故進行迅速的分析及處理是解決智能電網可靠性和穩定性的關鍵[1]。現代智能電網系統運行中會產生大量的多源異構數據[2],其中電力設備缺陷文本中包含著與電網穩定可靠運行關系最為密切的信息,在海量的設備缺陷數據中,現場調度員及設備操作員往往只關注與他們工作息息相關的數據,研究如何從PMS抽取符合規則的缺陷信息到OMS中,并建立調度員關心的缺陷研判規則具有重要的意義。
為了構建電力設備缺陷用戶畫像系統,首先需要對電力調度員感興趣的缺陷文本進行挖掘,之后
利用自然語言處理中的機器學習或決策樹算法使缺陷文本挖掘變的簡單而高效。目前用于構建用戶畫像的方法主要有K-means聚類算法[3]、貝葉斯網絡算法[4]、結合主題模型算法[5]、基于統計分析算法[6]等。但是實際運行的電力系統中提取的缺陷信息中經常由于不規范、歧義、不完整等問題,造成缺陷文本的失效。本文基于多種文本挖掘技術,通過分析不同的缺陷標簽,對冗余文本進行刪除,并對質量較差的文本進行改進,從設備缺陷的數據源頭上提升文本質量,構建合理的電網缺陷用戶畫像系統。
1 電力設備缺陷標簽
在構建用于故障研判的電力設備缺陷用戶畫像之前,首先要定義電力設備缺陷標簽。電力設備缺陷是在實際運用或者備用中,電力設備及設施出現的一種對電網系統或設備健康具有一定損害的現象[7]。電力設備缺陷按照國家電網公司企業標準,根據其損害程度可以定義為一般缺陷、嚴重缺陷、危急缺陷,見表1。
通過設備運維管理系統(PMS)與調度管理系統(OMS)發現的缺陷,由于種類繁多且缺陷類別復雜,導致運檢人員在發現設備缺陷后,需要親自確認該缺陷是否在對應調度的觀測類別中,并且運檢人員也要確認該缺陷的等級才能制定相應的處理策略。在上述過程中,工作人員記錄的大量的設備缺陷數據稱為電力設備缺陷文本,通常缺陷文本應包含設備分層、缺陷描述、缺陷等級三個部分。其中按照分層可以將文本歸納為設備類型、部件類型、設備種類、部件種類以及發生部位,為了實現缺陷的用戶畫像系統構建,在進行缺陷流程發起時,對其缺陷文本定義如下:類別(type)、開始時間(start-time)、結束時間(end-time)、變電所名稱(st-name)、變電所ID(st-id)、發現單位(found-com)、電壓等級(vol-level)、設備類型(dev-type)、設備名稱(dev-name)、缺陷等級(defect-level)、缺陷描述(defect-des)。
通過對缺陷文本進行標簽化處理,可以得到用于構建用戶畫像的多維度高精度的特征量,本文采用分詞算法對缺陷文本數據進行標簽化步驟如下:
(1)取缺陷文本信息的首字母記為First;
(2)按First對缺陷字典庫進行排序,并按文本數據的長度降序排列,其長度不能超過設定好的maxLength;
(3)將選擇的詞分別與缺陷文本字符串進行匹配;
(4)若匹配結果中出現該缺陷詞,將其保存;
(5)將缺陷文本字符串中已經匹配到的子串刪除,將剩余文本數據保存并返回步驟2;
(6)重復步驟2至步驟5一直到缺陷文本中再也沒有匹配到的缺陷特征量關鍵詞為止,即可停止對該缺陷文本的檢索,至此完成電力設備缺陷的標簽的準確分類定義。
2 聚類算法及其改進
2.1 K-means算法基本原理
若某電力設備缺陷發生在該時間段的次數占行為總發生次數的百分之六十以上,則證明該電力設備缺陷具有周期性的時間段缺陷,即在重復時間段內會發生周期性故障,此時調度員應當在描述標簽中加入時間段名稱。
利用改進聚類算法,對電力設備缺陷描述數據進行單維度離散化可生成不同分類的電力設備缺陷標簽,給該系統每月的缺陷標簽分為一般缺陷、嚴重缺陷、危急缺陷等級標簽,根據改進聚類算法,經多次試驗,設置t=0.1時聚類效果最好。計算出所有數據點的局部密度后,再計算出每個數據點的γ值,如圖1所示:
由圖1可見,選擇γ值前20的值作為該電力設備缺陷標簽等級的聚類中心,依據聚類中心大小分成一般缺陷、嚴重缺陷、危急缺陷等級標簽,然后將非聚類中心的數據點進行分類,因此可以將電力設備缺陷分為五個等級,并建立相應的缺陷標簽。
3 電力缺陷用戶畫像構建
3.1 自動文本分類模型的構建
在文本分類的過程中,需要設置該分類的標準及分類的方法,使得計算機對待分類的文本集合自動進行劃分。對文本進行挖掘的前提就是設置預先計算好的主題類別及算法,通過構建合理的自動文本分類模型,可以將文本集中待分類的文本自動劃分到相近的類別,從而大幅度降低人工處理文本集合的成本[11]。
對電力設備缺陷數據進行文本挖掘,基于特征量對待分類文本進行最優的劃分,從而構建出能夠突出不同電力設備缺陷的用戶畫像系統。文本分類過程一般由預處理、文本表示、特征選擇、構造分類器等步驟組成[12],如圖2所示。
電力設備缺陷文本與其他文本集合不同,其中包含了大量的專用詞匯,并且由于現場調度員及檢修人員的錄入習慣不同,對同一設備缺陷或故障的描述詞匯可能不同,例如“儲油柜”和“油枕”。在電力設備的缺陷文本中可能同時包含大量的英文和數字,例如“壓力釋放閥漏油,1min內15~20滴”,這些信息雖然復雜但卻對缺陷文本的分類具有重要作用[13]。綜合上述電力設備缺陷的特點,本文在普通文本分類模型上進行了改進,首先對平臺數據進行清洗,對清洗后的數據集合進行文本分詞,通過一些預處理手段,得到具有代表性且統一表述的詞語。通過參考電力設備用語規范,對同義詞的詞向量進行了合并,使模型更加適用于電力設備缺陷文本的分類任務。文本預處理過程見圖3所示。
3.2 卷積神經網絡分類器構建
卷積神經網絡于1989年由Lecun提出[14],其在網絡中的一層中使用卷積來代替一般矩陣的乘法。卷積神經網絡的結構主要包括:卷積層,池化層以及全連接層,其中最重要的部分是卷積層和池化層組合的特征提取器[15]。卷積層與池化層共同組成了用于特征提取的選擇器,卷積層的一個神經元只能和相鄰的神經元相連,每層可以含有多個特征映射[16]。通過對不同文本特征量計算提取,本文構建的卷積神經網絡結構圖如下:
對于池化層,本文采用最大池化方法,將每個卷積得出的卷積層向量的最大值max作為特征值,來提取各個卷積窗口對應的特征值[17],同時將所有提取出的特征量進行拼接,形成一個新的池化層的向量p∈R,從而實現了特征量的進一步提取并降低了特征量的維度。
4 仿真驗證
針對本文提出的電力缺陷標簽分類及用戶畫像構建算法,選取甘肅省電網公司2008-2018年內的3000條電力設備缺陷數據進行試驗,其中包括變壓器缺陷,斷路器缺陷,互感器缺陷,其他二次設備缺陷等。每條缺陷數據均包含具體的設備缺陷數據參數值,以及調度員當時對該缺陷的描述及等級分類的記錄。將該3000條記錄平均分為5組,其中每組包含600條缺陷數據,輪流將前4組缺陷樣本作為訓練數據集合,第5組缺陷數據作為測試結果集合。
對于一般缺陷和危急缺陷,所包含的對于設備缺陷等級的描述及等級劃分具有非常大的差別,因此把以上兩種調度員的相互錯誤描述定義為嚴重誤分類,基于嚴重誤分類的缺陷描述使用戶畫像的構建產生嚴重偏差,在此引入嚴重誤差率指標進行描述如下:
嚴重誤差率=∑5i=1第i個數據集嚴重錯誤分類數第i份測試集總數5(10)
為了驗證電力設備缺陷用戶畫像構建的準確性,本文對卷積神經網絡的結構參數進行了優化與改進,設置了兩組用于對比實驗驗證結果性能的不同卷積神經網絡模型,電力設備缺陷標簽文本分類結果見表2。
從表2可以看出,本文提出的改進聚類與卷積神經網絡相結合的文本挖掘方法,對于提高模型準確率有很大作用,耗時與傳統方法雖然接近,但由于兩者向量維度相同,使得耗時只受維度的影響。結合卷積神經網絡分類結果,得出電力設備缺陷標簽用戶畫像見表3。
5 結論
針對電力設備缺陷的用戶畫像系統的構建,本文提出了改進聚類算法結合卷積神經網絡來實現文本挖掘的新方法:
(1)從表3可以看出,卷積神經網絡標簽分類模型與傳統機器學習算法相比,構建的模型在分類精度和用戶畫像描述的準確度都有了極大的提高。
(2)通過國家電網公司實測電力設備缺陷數據訓練與測試,驗證了該文本挖掘方法在電力設備缺陷用戶畫像構建上的顯著優勢和效率上的可行性,該方法有效的解決了電力調度員標簽語義化問題,提取了需要調度人員關心的設備缺陷信息標簽,實現了從PMS系統所有缺陷數據中自動推薦調度員關心的缺陷。
(3)通過該用戶畫像系統,如何擴大數據挖掘缺陷信息,實現電力設備缺陷的及時提醒和預防有待進一步研究。
參考文獻:
[1]杜修明,秦佳峰,郭詩瑤,等.電力設備典型故障案例的文本挖掘[J].高電壓技術,2018,44(4):1078-1084.
[2]周念成,廖建權,王強鋼,等.深度學習在智能電網中的應用現狀分析與展望[J].電力系統自動化,2019,43(4):180-191.
[3]趙紅丹,田喜平.基于K-means算法分割遙感圖像的閾值確定方法研究[J].科學技術與工程,2017,17(09):255-259.
[4]李苗苗,黃麗華,李靜雅,等.基于貝葉斯網絡時序模擬配電系統可靠性評估軟件[J].科學技術與工程,2013,13(1):70-74.
[5]曹占偉,胡曉鵬.一種結合主題模型的推薦算法[J].計算機應用研究,2019,36(6).
[6]許明樂,游曉明,劉升.基于統計分析的自適應蟻群算法及應用[J].計算機應用與軟,2017,34(7):204-211.
[7]林鈺杰,吳麗賢.基于工作流的電力設備缺陷管理系統設計[J].自動化技術與應用,2018,37(7):122-125.
[8]夏士雄,李文超,周勇,等.一種改進的k-means聚類算法[J].東南大學學報(英文版),2007,23(3):435-438.
[9]白樹仁,陳龍.自適應K值的粒子群聚類算法[J].計算機工程與應用,2017,53(16):116-120.
[10]王學賀.一種基于改進微粒群和輪廓系數的劃分聚類方法[J].云南民族大學學報(自然科學版),2016,25(4):367-371.
[11]胡杰,李少波,于麗婭,等.基于卷積神經網絡與隨機森林算法的專利文本分類模型[J].科學技術與工程,2018,18(6):268-272.
[12]Lodhi H,Saunders C,Shawe-Taylor J,etal.Text classification using string kernels[J].Journal of Machine Learning Research,2002,2(3):419-444.
[13]曹靖,陳陸燊,邱劍,等.基于語義框架的電網缺陷文本挖掘技術及其應用[J].電網技術,2017,41(2):637-643.
[14]李新葉,王光陛.基于卷積神經網絡語義檢測的細粒度鳥類識別[J].科學技術與工程,2018,18(10):240-244.
[15]馬驍烊,張謐.基于標簽卷積神經網絡的文本推薦算法[J].計算機系統應用,2018,27(8):136-141.
[16]Ming L,Hu X.Recurrent convolutional neural network for object recognition[C].Computer Vision & Pattern Recognition,2015.
[17]何俊林,趙曉亮,孫連海,等.結合MACH濾波最大池化及多類SVM的行為識別[J].計算機工程與設計,2017,38(12):3431-3435.
References:
[1]Du Xiuming,Qin Jiafeng,Guo Shiyao,etal.Test mining of typical defects in power equipment[J].High Voltage Engineering,2018,44(4):1078-1084.
[2]Zhou Niancheng,Liao Jianquan,Wang Qianggang,etal.Analysis and prospect of deep learning application in smart grid[J].Automation of Electric Power Systems,2019,43(4):180-191.
[3]Zhao Hongdan,Tian Xiping.Based on K-means Algorithm of Remote Sensing Image Threshold Segmentation Method for Determining the Research[J].Science Technology and Engineering,2017,17(09):255-259.
[4]Li Miaomiao,Huang Lihua,Li Jingya,etal.Distribution System Reliability Assessment Software Based on Bayesian Network and Sequence Simulation[J].Science Technology and Engineering,2013,13(1):70-74.
[5]Cao Zhanwei,Hu Xiaopeng.Recommendation algorithm combining theme model[J].Application Research of Computers,2019,36(6).
[6]Xu Mingle,You Xiaoming,Liu Sheng.Self-adaptive ant colony algorithm based on statistical analysis and its application[J].Computer Applications and Software,2017,34(7):204-211.
[7]Lin Yujie,Wu Lixian.Design of Power Equipment Defect Management System Based on Workflow[J].Techniques of Automation and Applications,2018,37(7):122-125.
[8]Xia Shixiong,Li Wenchao,Zhou Yong,etal.Improved k-means clustering algorithm[J].Journal of Southeast University(English Edition),2007,23(3):435-438.
[9]Bai Shuren,Chen Long.Particle clustering algorithm with adaptive K values[J].Computer Engineering and Applications,2017,53(16):116-120.
[10]Wang Xuehe.An automatic approach to solving clustering problems with the number of clusters unknown based on the particle swarm optimization and silhouette coefficient[J].Journal of Yunnan University of Nationalities(Natural Sciences Edition),2016,25(4):367-371.
[11]Hu Jie,Li Shaobo,Yu Liya,etal.A Patent Classification Model Based on Convolutional Neural Networks and Rand Forest[J].Science Technology and Engineering,2018,18(6):268-272.
[12]Lodhi H,Saunders C,Shawe-Taylor J,et al.Text classification using string kernels[J].Journal of Machine Learning Research,2002,2(3):419-444.
[13]Cao Jing,Chen Lushen,QIU Jian,etal.Semantic Framework-Based Defect Text Mining Technique and Application in Power Grid[J].Power System Technology,2017,41(2):637-643.
[14]Li Xinye,Wang Guangbi.Fine-grained Bird Recognition Based on Convolution Neural Network Semantic Detection[J].Science Technology and Engineering,2018,18(10):240-244.
[15]Ma Xiaoyang,Zhang Mi.Personalized Academic Article Recommendation with Tagged Convolutional Nets[J].Computer Systems & Applications,2018,27(8):136-141.
[16]Ming L,Hu X.Recurrent convolutional neural network for object recognition[C].Computer Vision & Pattern Recognition.2015.
[17]He Junlin,Zhao Xiaoliang,Sun Lianhai,etal.Activity recognition combined with MACH filter,max-pooling and multi-class SVM[J].Computer Engineering and Design,2017,38(12):3431-3435.
作者簡介:張鵬(1977-),男,漢族,本科,高級工程師。
*通訊作者:司曉峰(1981-),男,漢族,本科,高級工程師。