余振華,楊世勇,舒征宇,李黃強,張偉奇
(國網湖北省電力公司宜昌供電公司,湖北 宜昌 443000)
基于聚類的電網運行監控信息辨識分類方法研究
余振華,楊世勇,舒征宇,李黃強,張偉奇
(國網湖北省電力公司宜昌供電公司,湖北 宜昌 443000)
針對電網告警信息的分類與整理完全依賴監控員人工完成的弊端,為輔助監控人員辨識告警信號,提高電網調度響應效率,提出了一種基于聚類的電網運行監控信息辨識分類方法。本方法以大量的電網運行監控信息為基礎,采用聚類分析算法,提取電網運行監控信息的聚類規則,從而實現對電網運行監控信息的自動篩選和分類。進而輔助監控人員及時發現電網設備發出的高危信號,保持電網的安全穩定運行。
監控信息;聚類分析;信息熵;智能辨識
隨著我國電力行業的發展,變電和輸電設備的自動化改造不斷深入,以往有人值守的運維模式逐漸在向無人值守、集中監控的模式進行轉化。目前全國絕大部分110 kV及以上電壓等級的變電站都采用集中監控的模式進行管理[1],現場電力設備的異常和告警信號都通過通信設施直接傳輸到調控中心已文本的形式展示給電網監控人員。
目前,我國關于電網異常信號的監視主要采用人工監屏的方式[2]。然而人工監屏受到外部影響因素較多,當電網正常操作和電網設備異常時都會發出大量的電氣量信號、物理量信號,這些異常信號的篩選和辨識會耗費監控人員大量時間,若不能及時判斷故障發生情況則會影響事故處理的及時性。而一旦發生信號漏看或辨識錯誤的現象,則會對電網設備造成不可估量的損失。因此,研究一種適用于電網監控的自動辨識方法,獨立于人工辨識之外提供輔助功能,是當前亟需解決的熱點問題。
鑒于此,本文提出一種基于聚類的電網運行監控信息智能辨識分類方法,以調度監控收到的告警信號為樣本,通過聚類分析的方法形成典型告警信號的特征向量,從而實現對告警信號的自動辨識。最終達到提高電網設備告警信號的辨識效率,保障電網安全穩定運行的目的。
1.1 建立電網監控的信息熵模型
電網設備的告警信息是典型的觸發式告警信息,即當有設備出現異常時發出告警信息。傳遞到電網監控后臺機上的信息都是帶有時間標簽的離散信息,例如:2015-10-30 21:56:21 110 kV某某線某某開關斷開。并且,當電網發生跳閘時,短期之內會伴隨大量的信號,例如XX保護動作、XX開關分閘等。因此,電網正常運行時刻與故障時刻接收到的信號頻次存在較大差異。
為在大量信號中快速辨別故障信息,本文以時間尺度為標準搜集監控信息,并整理成可以計算信息熵的數據樣本,其具體方法為每隔3 s統計一次最近3 s內發出的監控信息個數。將電網監控告警信息表征為下式形式

式中:S為按時段劃分后得到的監控信息文檔;t為時長為3 s的時段;cn為3 s以內的告警文本內容;m為對應時段中出現的告警信號個數。其中(tn,mn,cn)被稱為一個數據項,表示tn時間段內接收到的告警信息條數mn以及告警文本內容cn。
1.2 告警信號的信息熵計算
電網事故發生時,與事故相關的告警信號一般在10 s以內都會發出。為避免漏掉有效信號,本文以30 s為時間跨度形成對應的告警信號文檔S,并計算警信息文檔S的信息熵。其計算公式如下

式中:?為常數;n為預先劃分的狀態數,其數值大小為監控系統在3 s內接收到告警信號條數的最大值;P(k)為該種狀態在文檔S中出現的概率,

式(3)中Xk為30 s內的10個數據項中告警信號條數為k的個數,為總的樣本個數。該集合的監控信息熵越大,其無序程度越高,在該時段內有設備故障的幾率也越大。
1.3 基于信息熵的文本處理
本文以30 s為時間跨度,每隔10 s進行一次采樣,計算對應的監控信息文檔S的熵。將信息熵H(S)<0.3的監控信息文檔篩選掉,即排除監控告警信號發出特別規律的時段。自此,信息熵大于0.3的監控信息文檔都涵蓋有30 s內的告警信息。然而電網故障發生后相關聯的監控信息一般在10 s以內傳達到監控系統,即有效信息的時間跨度遠沒有30 s,因此需要對得到的監控信息文檔S內的文本進行二次篩選。為此本方法給出文本的篩選方法:1)逐項刪除文檔S中的數據項,即(ti,mi,ci),并計算刪除時間段后的信息熵H'(S);2)將刪除前后監控信息熵變化最大的數據項作為中心,從邊緣起逐步刪除數據項,直至H(S')<H(S),如圖1所示。

圖1 信息篩選過程Fig.1 The process of Information screening
由以上步驟可以得到任意監控系統在任意時段得到的監控信息文檔集合{} Si。其中Si=[(t1,m1,c1), (t2,m2,c2)(tn,mn,cn)]為含有有效告警信息的文檔。
2.1 文本特征項提取
由于電網告警信息是由一次、二次設備發出的標準化信息,信息集合中文本對同一事物的描述方式都相對固定,因此可以采用基于統計的分詞方法對文本進行分詞處理和統計。按照下式統計兩個漢字的互現信息系數

式中:M(X,Y)為漢字 X和Y的互現信息系數;P(X,Y)為 X,Y相鄰出現在文本中的幾率;P(X)和 P(Y)分別為漢字 X,Y在文本中出現的幾率。相鄰的兩個字同時出現的次數越多,其可信度越高,由漢字X,Y組成的詞組也越有可能成為關鍵詞。將互相系數M(X,Y)>0的詞條計入文本特征相集合。
去除平凡詞。電網監控告警信息中會存在大量諸如“的”、“了”的平凡詞。該類漢字對于文本描述的內容無貢獻,因此將這類詞排除在外,最終形成文本的特征項集合,其中 δ為篩選后得到的關鍵詞。
2.2 計算文本特征項權重
采用TF-IDF公式計算詞條在文本中的權重大小[3-4],其計算公式為

式中:f(δ1,d)為詞條δ1在文檔中出現頻率;N為所有文檔的個數;ni為含有詞條δi的文檔個數。由TF-IDF公式計算得到的權重系數表征了詞條的特異性,若wi越大則表明詞條δi的特異性越高,在不同文檔中出現的比率越低,但在單個文檔中出現的頻次越高,那么詞條δi用于表征文檔d的可信度越高。
由此,可以計算得到不同詞條在文檔中的權重,歸一化處理后的權重為

因此任意文檔可以表征為一個二維向量,其形式如下式所示,

如果將不同的詞條看作一個坐標軸,那么該二維向量可以看作是該空間中的一個向量[5]。
隨機選擇k個本文,形成包含k個本文簇的初始簇集合,即{Si…Si+k}。這k個對象均可以表示成 {[δ1,W1],[δ2,W2],…[δn,Wn]},一個二維的特征向量集合。采用夾角余弦公式計算新文本與各個簇空間特征向量的“距離”(即相似度),夾角余弦公式為

根據計算得到的相似度,將新文本歸類到最為相似的簇中,并重新計算該簇的平均值,其計算公式為

式中:a為原簇中文本的個數;[Wj,1,Wj,2…Wj,n]為原簇的特征向量;[Wi,1,Wi,2…Wi,n]為新增文本的特征向量。通過式(9)計算將結果作為該簇新的空間特征向量。

在得到簇的空間特征向量后,還需要進行通過“評價”的方式對空間特征向量進行“訓練”,從而使得不同空間向量之間有較高的識別度[6-7],評價函數的計算公式為式中:J為評價函數,其大小為任意對象(即文本S)與各個簇特征向量的均方差之和;xn為文本文檔Sn對應的特征向量;為第 k 個簇的特征向量;d(,xn)為文檔Sn與第k個簇的相似度;Zk為第k個簇中含有的元素個數;K為所有簇的個數。
基于聚類分析的告警信號辨識方法,其具體流程如下。
步驟1每隔10 s統計一次最近30 s的告警信號,形成新增文本S。
步驟2計算文本S的信息熵,對其進行預處理。
步驟3計算經過預處理文本的漢字的互現系數、對本文進行分詞處理。
步驟4根據聚類分析得到的特征詞,采用TF-IDF公式計算權重,形成空間特征向量。
步驟5采用K-means算法對空間特征向量的樣本集進行聚類分析。
步驟6采用評價函數整合空間特征向量簇。
步驟7人工干預,對分類完成的簇進行識別。通過查看不同簇中的文本文檔人工識別該簇代表的告警信號的現實意義。從而最終得出聚類分析結果,既不同類型電網故障信號的典型空間特征向量。
步驟8當電網監控后臺機收到新的告警信號時,通過步驟1~3計算其空間特征向量。
步驟9通過計算新接收告警信號空間特征向量與典型告警信號的空間特征向量的相似度對告警信號進行分類和辨識。
上述步驟中,步驟1~7是對歷史告警信號的聚類分析階段,用以捕捉典型的電網事故告警信號,步驟8~9是對事實告警信號的處理過程。
本文將聚類分析引入到電網監控信息辨識的研究中,在對歷史存檔的電網監控告警信號進行預處理的前提下,將其轉化為有效的告警信號文檔集合。并采用聚類分析的方法建立對應的空間特征向量,結合K-means算法計算得出典型的告警信號空間特征向量。當監控后臺機有新的告警信息出現時,可通過計算新增告警信息與典型告警信號空間特征向量的相似度對新增告警信號進行分類。從而實現電網監控信息自動分類,達到提高電網設備告警信號的辨識效率,防止信號的漏看和錯誤辨識,保障電網安全穩定運行的目的。
(References)
[1]王晶晶,劉巍,張勇平,等.華北電網無人值班站和集控中心管理模式的探討[J].華東電力,2011(10):23-24.
WANG Jingjing,LIU Wei,ZHANG Yongping,et al. Unattended station and control center management mode in north china powergrid[J].EastChina Electric Power,2011(10):23-24.
[2]黃煒,張杰明,綦孝文,等.調度集控一體化系統責任區管理和告警解決方案[J].電網技術,2007,31(S2):264-267.
HUANG Wei,ZHANG Jieming,QI Xiaowen,et al.So?lution to Alarming and Management of Duty Region in Integrated System of Dispatching and Centralized Control[J].Power System Technology,2007,31(S2): 264-267.
[3]羅欣,夏德麟,晏蒲柳.基于詞頻差異的特征選取及改進的TF-IDF公式[J].計算機應用,2012(9):43-47.
LUO Xin,XIA Delin,YAN Puliu.Feature selection based on word frequency difference and improvement of TF-IDF formula[J].Computer Application,2012(9): 43-47.
[4]李鎮君,周竹榮.基于Document Triage的TF-IDF算法的改進[J].計算機應用,2015(12):56-60.
LIZhenjun,ZHOU Zhurong.Theimprovementof TF-IDF algorithm based on documenttriage[J]. Computer Application,2015(12):56-60.
[5]陸媛,楊慧中.基于代表熵的基因表達數據聚類分析方法[J].計算機工程與應用,2008(27):77-81.
LU Yuan,YANG Huizhong.The research of clustering analysis method based on entropy of gene expression data[J].Computer Engineering and Application,2008 (27):77-81.
[6]李小梅,郭紅.基因表達數據的模糊聚類技術研究[J].信息系統工程,2013(11):36-41.
LI Xiaomei,GUO Hong.The research of fuzzy clus?tering gene expression data technology[J].Informa?tion Systems Engineering,2013(11):36-41.
[7]柴寶杰,劉大為.基于粒子群優化的蟻群算法在TSP中的應用[J].計算機仿真,2014(8):16-18.
CHAI Baojie,LIU Dawei.The application of ant col?ony algorithm in TSP based on particle swarm opti?mization[J].The Computer Simulation,2014(8):16-18.
The Research of Smart Identification of Power Grid Monitoring Information Based on Cluster Analysis
YU Zhenhua,YANG Shiyong,SHU Zhengyu,LI Huangqiang,ZHANG Weiqi
(State Grid Hubei Electric Power Company Yichang Power Supply Company,Yichang Hubei 443000,China)
The classification and arrangement of the alarm information of the power network is completely dependent on the manual completion of the monitor,in view of the disadvantages,a cluster-based method is put forward in order to help monitor the alarm signal,improve the efficiency of power grid dispatching.Based on a large number of network operation monitoring information,this method uses clustering analysis algorithm to extract the power grid operation monitoring information clustering rules,so as to realize the automatic screening and classification of network operation monitoring information,and then assist monitoring personnel to detect high-risk network equipment, to maintain safe and stable operation of the grid.
monitoring information;cluster analysis;information entropy;intelligent identification
TM762
A
1006-3986(2016)04-0017-04
10.19308/j.hep.2016.04.004
2016-03-05
余振華(1982),男,湖北宜昌人,工程師。