劉 東鄒 波李 剛駱凱波何 蓓
(1.國網重慶市電力公司 重慶 400015)(2.國網重慶市電力公司電力科學研究院 重慶 401123)
隨著電網設備的智能化技術的不斷提升,我們可以方便地對電網設備的檢測數據進行采集[1]。電網中大量安裝的傳感設備產生了大量的檢測數據,這些檢測數據從屬性維度對電網設備的運行狀態進行了展現[2~3]。但是目前對檢測數據的應用不夠深入,多數是針對單個電網設備屬性的故障閾值判斷。然而電網設備的故障常常不是獨立出現,而是相互關聯,因此需要針對檢測數據進行數據挖掘從而發現設備故障的主要原因和共性原因,為電網設備的運維和檢修提供直接的數據支撐[4~6]。
針對電網檢測數據的數據挖掘研究,已有大量研究成果。文獻[7]將粗糙集與神經網絡有效融合,設計了一套改進算法用于將電網設備的基礎數據加工處理成狀態評價所需要的狀態量信息,文獻[8]采用數據挖掘技術研制出了一套保護設備故障信息管理與分析系統,為實現繼電保護裝置的狀態檢修提供依據。
本文基于數據挖掘技術對電網計量終端的檢測數據分析進行研究,利用數據挖掘算法建立具有明顯關聯規則規律的電網計量終端的缺陷分析模型,并通過實際算例所挖掘的關聯規則進行分析,以得出對實際生產具有指導意義的結果。
關聯規則是對事物之間的屬性關系的數學描述。一般關聯規則就是描述不同類型數據屬性和變 量 之 間 所 存 在 的 關 聯 規 則[9~10]。 設I={i1, i2,…,in} 是項i的集合,D為一個事務集合,T是 項 集 的 一 個 子 集 T?I, 其 中D={T1,T2,…,Tm} ,若T中的任意兩個項或兩個子集A和B滿足關系 A∩B=?,則關聯規則為[12~14]:

式1中參數定義為

式(2)、(3)、(4)分別為關聯規則概念中三個重要參數支持度、置信度和興趣度的計算公式。支持度是對數據集相對數據統計重要度的量化參數。置信度是對數據之間關聯性的可信程度的量化參數。興趣度是對用戶需求符合性的量化參數。
支持度與置信度是衡量關聯規則強弱的關鍵參數。若生成的某一規則同時大于設定的支持度閾值和置信度閾值則稱為強關聯規,否則稱為弱關聯規則[15]。
關聯規則分析通常包括以下兩個步驟[16]:
1)最大頻繁項集搜索。找出大于最小支持度Smin的所有頻繁集。用迭代方式再由頻繁集的集合中對最大頻繁項集進行搜索。
2)生成關聯規則。設定的最小置信度Cmin,從最大頻繁項集中找出置信度不小于Cmin的關聯規則。
Apriori算法基于逐層迭代搜索的原理,挖掘數據庫中項與項集之間的關系,并將關系密切的滿足最小支持度的頻繁集以規則的形式展現出來[17]。算法流程如圖1所示。

圖1 算法流程
對電網檢測數據的分析是解決對電網設備潛在故障的及時發現和提前預測。與電網設備故障相關的數據主要有設備管理系統提供的基礎資料數據和電網生產系統采集的各類檢測數據。這些數據可分為3類:
1)設備基礎資料,如設備的生產廠家、設備類型、設備型號、設備的投運時間、發生缺陷的部位等。
2)設備故障相關數據,如故障的級別和故障的原因等。
3)發現故障的時間、處理的時間和所涉及的專業等設備故障流程性數據。
其中,前2類信息主要用于故障的事后分析,而第3類更偏向于故障的管理。本文針對前2類信息,并考慮部分類型的信息之間存在冗余關系,提取出設備的生產廠家、設備型號、設備故障的原因、發生故障的設備部位以及故障等級等5項重要信息作為數據挖掘和故障分析的對象。
在數據挖掘中考慮二次設備的生產廠家與設備類型能有助于分析設備的主要原因和共性原因;考慮設備故障原因和故障發生部位有助于分析設備的薄弱環節,為設計、調試和檢修等提供建設性的參考依據;考慮故障的嚴重程度能夠給不同的故障樣本提供客觀的區分度。
構建關聯規則項集Q,用于表示二次設備的故障集,如式(5)所示。

式(5)中F、N、R、P、L分別表示不同類型檢測數據向量。向量F表示故障區域,向量N表示故障類型,向量R代表故障的誘因,向量P代表故障的部位,向量L表示故障的重要程度。
電網設備的故障原因很多,概括起來有設備參數不正確、設備存在設計缺陷、設備存在質量隱患、超期服役、安裝質量不過關、以及強電場作用下設備存在工作不正常現象等。設備故障的發生位置有軟件程序、變流模塊、插板接口、二次回路以及人機交互系統等。故障依據重要程度分為三個級別:一般、重大和緊急。
可見,每一個故障樣本都是由這5類缺陷信息構建的五維空間上的一個點,通過Apriori算法挖掘最多可能獲得頻繁“5項集”。假設電網設備共有n1個廠家、n2個類型、n3個故障原因、n4個故障部位以及3個故障級別,則初始候選項集共包含有總數為n1+n2+n3+n4+3個項,在此基礎上基于Apriori算法進行頻繁項集迭代搜索和關聯規則的挖掘。
從計量自動化系統中導出某電力公司某年度一整年的計量終端的檢測數據,基于數據挖掘算法對計量終端的檢測數據進行關聯規則挖掘,并針對所獲得的關聯規則進行進一步分析,以期得出具有實際意義的結果。
對計量終端的檢測數據進行預處理后,共采集到1377個有效數據樣本。在樣本數據中,缺陷計量設備來自96家設備供應商。設備類型有11類,囊括工作站、測控、時間同步設備和交換機等。設備缺陷誘因有安裝質量欠缺、工作時間超期、參數設置和產品存在質量隱患等13類。設備缺陷發生部位包括程序固件、功能插件和電源模塊等20類,缺陷嚴重程度包括一般、重大和緊急3類。
由于經過預處理的數據集合規模較大,且各類型檢測數據樣本分布較為平均,因此在數據挖掘Apriori算法的參數設置上選擇1.5%的支持度、60%的置信度。經過挖掘算法運算后,得出各頻繁項集的數量如表1所示。

表1 頻繁項集的數量
經過對頻繁項集的關聯關系進行分析,最終歸納出具有明顯關系且有指導意義的強關聯規則19條,如表2所示。

表2 強關聯規則
基于表2對檢修所挖掘出的隱含的關聯關系進行分析,可以畫出基于檢測數據的關聯規則圖。以表1中的關聯規則1~4為例,歸納關聯規則關系如圖1所示。圖1中采用合并方法對有重疊部分的關聯規進行處理,支持度和置信度則標注在括弧內。
此類關聯規則能夠揭露計量終端出現故障的原因,為計量終端的運維提供可靠的數據支撐。
對關聯規則2、5、6進行綜合分析能夠看出,廠商A、B和D所生產的計量終端的軟件BUG問題較為明顯。由關聯規則7能夠分析出計量終端所發生的軟件宕機故障的原因與相關采集和執行部件制造質量不符合標準由較大關系,這條規則的置信度達到86%。同時由關聯規則8看出,計量終端的軟件故障與參數配置問題聯系。由上述分析可知,為了提高計量終端的在線率,應在加強廠家A、B和D交貨環節的驗收規范性,尤其對其軟件升級進行有效管控,防止出現由軟件BUG引起的大面積計量終端掉線。

圖2 關聯規則關系
由關聯規則的分析結果能夠得出以下結論,依據強關聯規則能夠實現對計量終端設備的常見故障進行總結,這有利于歸納出常見故障的一般原因,為計量終端設備的采購、安裝以及驗收等環節的工作提供針對性的數據支撐。
對關聯規則15~18的分析可以看出,接口元件是交換機的最常見的故障部位,而工作時間過長是交換機接口元件出現故障直接原因。上述分析結果為交換機的運維提供了方向性的指導,即在日常運維中,應針對交換機的接口元件進行針對性檢查,并及時更換老化的接口元件。
此外,關聯規則18和19指出,同步設備的常見故障微博是其接口元件。而二次元件故障也常導致計量終端無法正常工作。因此,基于提高計量終端和同步設備可靠性的考慮,應在采購、安裝和運維中對容易發生故障的部位加強日常巡檢。
本文基于數據挖掘算法對電網檢測數據的分析方法進行了研究,并通過關聯規則分析的方式利用該方法對某電力公司的計量自動化系統的檢測數據進行挖掘和分析,并歸納出指向計量終端設備故障的一系列潛在原因。通過對數據挖掘結果的分析,得出以下結論:1)該方法能夠對電網檢測數據進行有效分析,歸納出檢測數據所關聯的設備故障的故障誘因,為電網設備運維提供直接的依據;2)該方法能夠挖掘出檢測數據所關聯的電網設備的通用性的故障原因,為設備安裝、運維提供指導意見。