王鳴譽,李鐵成,任江波,徐 巖
(1.華北電力大學電氣與電子工程學院,保定 071003;2.河北省電力有限公司電力科學研究院,石家莊 050021;3.河北省電力有限公司,石家莊 050021)
智能變電站二次系統故障診斷主要憑借檢修人員的經驗,同時由于二次回路存在不可視的虛回路[1],虛回路中的數據通過光纖傳輸,這種隱蔽的數據傳輸方式導致很多情況下故障無法精確定位。同時虛回路由于存在交叉重疊,當某一元件在出現故障時可能會引起多個回路出現故障[2]。以往憑借經驗判斷的方法更加難以使用。
文獻[3]介紹了一種基于拓撲結構生成的知識表示方法,該系統可以用來處理分布式變電站的多重故障,雖然直觀有效,但由于不易補充完善,因此該方法的自學習能力差;文獻[4-5]根據裝置的自檢信息,利用D-S證據理論,得出每個裝置的故障概率,但這種方法需要在故障診斷時列出所有的二次回路,形成舉證表,尋找每一個回路中的可疑故障元件,除此之外,在計算某裝置的故障概率時還需要針對每一個不同的告警信息列出所有可疑裝置的發生故障的概率,大大增加了故障診斷所需要的時間;文獻[6]提出了一種基于故障樹的診斷方法,其主要原理是以某一系統的故障樹圖為基礎,求取最小割集和它的可靠性估計方差,優先改善每個組成單元中影響最大的部分;也可與Petri網結合[7],但是由于其方法需要找尋最優解,因此求解速度會受到一定影響;文獻[8]利用神經網絡實現了對二次系統故障的診斷,但由于需要的樣本量太大,因此在搜集數據時存在較大的難度。
除了上述方法,現階段關聯分析也被用于分析二次系統的狀態,但用在故障診斷方面的并不多。文獻[9]將Apriori算法用以解決二次設備缺陷問題,并且證明了該方法簡單可靠。綜上所述,本文提出了一種利用Apriori算法實現變電站二次系統故障診斷的方法,建立了以關聯規則為基礎的二次故障診斷模型,并通過算例說明了Apriori算法可以根據二次系統運行數據得出二次系統故障類型以及故障裝置。該方法只需要通過對歷史數據進行分析,而故障診斷時不需要每次都對二次回路可疑的元件進行統計處理,因此該算法簡單有效,可以縮短診斷時間,還具備不錯的自學習能力。
關聯分析通常用來找出某事物與某事物之間的隱藏關系,這個隱藏關系可用關聯規則來表示。關聯規則大致是用數據挖掘的手段找出不同事物之間的關聯關系,以便了解事物之間的機理,最終實現對事物的預測及分析。
最常見的關聯規則是“啤酒-尿布”案例,因為男士在給嬰兒購買尿布的時候通常會選擇同時購買幾瓶啤酒,因此如果將這二者放在一起,那么顧客會樂于購買,其中的“啤酒”、“尿布”二者便存在關聯關系。
對于關聯分析這類算法,通常人們定義所含元素各不相同的集合為項集,其中元素個數稱為項集的長度,記作k,該項集稱為k-項集,用于關聯分析的樣本稱為樣本集,樣本集是項集的子集。
文中用來衡量關聯分析結果好壞的指標是支持度和置信度,支持度的含義是指發生某類事務的概率。置信度是指關聯規則的可信程度,它表示的是某一種項集在包含另一種項集的事務中出現的次數。從統計學上講,置信度也就是B在A發生的情況下發生的概率。
支持度s和置信度c的計算公式分別為

式中:A、B為挖掘出的項集個數;N為總項集數。
通常把支持度所要滿足的最低值稱為最小支持度,而置信度需要滿足的最低值稱為最小置信度。當某一個項集的支持度滿足要求時,這個項集就是頻繁項集。當某一規則同時滿足這兩者的要求時,被稱作強關聯規則。
Apriori的思想是在符合要求的候選項集中逐層搜索,最終生成最多項的頻繁項集[10]。然后從結果中尋找關聯規則,具體步驟如下。
步驟1掃描一遍全體數據,求出所有1-項集的支持度,依據指標要求對其進行篩選。將滿足條件的1-項集留下。
步驟2連接。連接上一步中生成的1-項集,生成2-項集集合,此集合中由所有符合條件的1-項集組成。
步驟3剪枝。通過掃描該2-項集中的每一個事物確定所有事物的支持度,剪去所有不符合要求的子集。保留所有滿足條件的2-項集。值得一提的是,當某集合中某項的某子集不符合支持度篩選要求的時候,就可以認定該項也不符合要求。也就是說,在剪枝步驟中剪去的集合,它們的超集一定不符合要求。由此,給后續步驟奠定基礎。
步驟4將上述所有2-項集與1-項集再次使用上述兩步操作,循環往復,生成集合Ck-1。
步驟5刪除最終生成的集合Ck-1中所有不滿足要求的項集。根據上述的剪枝步驟,逐步篩選,然后再經過連接步驟,生成集合Ck,該集合經篩選后沒有不符合要求的子集,即Ck集合為生成的最大項集。
Apriori算法流程如圖1所示。

圖1 Apriori算法流程Fig.1 Flow chart of Apriori algorithm
在關聯規則挖掘過程中,可能會遇到原因→故障的情況,也有可能會遇到故障→故障的情況,因此在創建故障特征信息數據庫時,需要對數據進行一定的處理。本文將故障原因設置分類編號1,將變電站二次系統檢測信息分類為2,從檢修報告中篩選出這些數據,同時只挖掘1→2的關聯規則,這樣可以避免挖掘同類事物。
除了上述支持度和置信度的參數外,還引入了提升度[11]這個指標概念。提升度是指A項和B項一同出現的頻率,其表達式為

式中:L為提升度;P為某一項出現的概率;C為置信度;X和Y為項集。
提升度反映了兩個變量的相關度,通常認為提升度越高,二者正相關性越明顯。以1為界,當提升度為1時,二者并無相關性。
在結果中移除部分不符合提升度要求的個例,如線路保護采樣值SV(sampled value)告警→合并單元DSP故障。當故障發生在合并單元DSP模塊時,該模塊會發出采樣報警,與此同時保護裝置也會發出SV告警。因此,雖然由線路保護SV告警→合并單元DSP故障關聯規則計算出來的置信度符合要求,但是在分析中隨著線路保護SV告警數據出現次數的提高,合并單元DSP故障的數據并無明顯增長趨勢,也就是說,二者之間并無直接關系,因此這種關聯規則并不可靠。
智能變電站中,二次設備通常具有自檢和報文功能[12-13]。自檢信息主要包括裝置自身的采樣值、開關量信息以及裝置自身軟件和硬件的檢測信息等。報文主要指SV和GOOSE(generic object-orient?ed substation event),其中,GOOSE報文是面向通用對象的變電站事件,包含智能電子設備之間的信息;SV報文主要是按照一定的采樣率將同步采樣的數字化信息進行定期傳送。在故障診斷時,需要重點記錄二次設備的自檢報警信息以及網絡報文的異常告警信息。
對于二次系統故障分析對象的選取,本文根據實際變電站的運行情況以及故障的獲取方法[14-15],選擇分析的對象為合并單元、智能終端和保護測控裝置以及連接它們的光纜構成的系統。
在智能變電站中,由于虛回路與物理回路這兩者之間難以一一對應[16-17],因此,在診斷故障之前需要先找到虛回路對應的物理回路,在智能站中,二次系統配置依賴于含有虛回路和端子對應關系[18]的變電站配置描述SCD(substation configuration de?scription)文件。本文利用SCD文件中的Port、Ca?ble、intAddr字段[19]來實現二次回路的構建。SCD文件中的Port字段和Cable字段分別記錄了本側物理端口和連接這個端口的光纖的信息,當2個物理端口的Cable字段相同時表明二者是通過光纖連接的,而intAddr字段記錄了虛端子對應的物理端口,因此可以根據intAddr字段找到虛端子對應的物理端口信息。
結合Apriori算法,二次系統的故障診斷流程如下。
步驟1利用SCD文件列出虛實回路映射表;
步驟2記錄發生故障時的特征信息;
步驟3利用Apriori對歷史數據進行關聯分析;
步驟4篩選符合要求的關聯規則;
步驟5檢修人員從結果中篩選出置信度較大者,進行重點排查。
本文的數據是根據調度系統D5000以及相關的檢修報告提取的,包括故障發生的時間、具體的廠站、發生故障時的告警內容及發生故障的實際裝置。將這些不同來源、不同類型的數據經過抽取、處理后得到數據庫模型,其故障數據如表1所示。

表1 故障數據Tab.1 Fault data
表1中,報警信號以及故障裝置這兩種數據的記錄方式是自然語言,由于現有的技術還不夠成熟,因此這兩種數據需要人工配置編碼來進行解析。在進行數據挖掘時,將同一次記錄下的報警信號和故障裝置合并成一個集合(合并單元SV告警,合并單元自檢告警,合并單元),而在進行關聯分析前,再把它們分解成獨立的元素。在求取關聯規則時,本文重點尋找報警信號與故障裝置之間的關系。除此之外,還統計了故障設備的故障頻率。
首先對某市某110 kV智能變電站的SCD文件進行解析,得到該變電站的二次系統回路,并以線路保護為例進行分析。繼電保護物理二次回路如圖2所示。

圖2 繼電保護物理二次回路Fig.2 Secondary circuit of relay protection
圖2中PM為母差保護,SW為交換機,PL為線路保護,MU為合并單元,CL為線路測控裝置,IL為線路保護的智能終端。
該變電站的虛實回路映射如表2所示。

表2 虛實回路映射Tab.2 Mapping between virtual and real circuits
在挖掘故障類型時將故障的特征信息和診斷結果作為特征量,對于不同類型的故障進行故障頻繁項挖掘。在分析過程中,由于某些故障在數據庫中出現次數不多,因此在挖掘故障頻繁項集的過程中不宜將支持度設置過高,設置支持度為1%。各故障裝置支持度如圖3所示。在分析故障之前,首先使用Apriori算法統計出現發生故障最多的部位,篩選了部分頻繁項集。

圖3 各故障裝置支持度Fig.3 Support degree of each fault device
除此之外,還要尋找故障報警信號和故障類型之間的關聯關系,置信度閾值設為10%,篩選出符合要求的規則,然后再經過提升度的篩選,只篩選提升度大于2的關聯規則。本文列舉出部分置信度較高的強關聯規則,如表3所示,表中的數據可以為檢修人員提供參考。檢修人員可以根據系統發出告警信號時,對二次系統發出的告警信號進行查詢,將結果一一印證,最終找出故障原因。

表3 部分強關聯規則Tab.3 Part of strong association rules
上述關聯規則的置信度較高,均大于50%,同時具備較高的支持度,因此它們具有一定的代表性,可以作為故障診斷的依據。
在故障分析時,可以利用歷史數據來進行關聯分析,將報警信號作為條件,將關聯規則中的后項集作為結果,便可得到診斷的結果。其中置信度越高,推測出的結論越可靠。
算例1:當該站發生保護拒動時,二次系統出現如下告警信息:智能終端GOOSE告警、保護裝置GOOSE告警、智能終端通信異常。
利用歷史數據進行數據挖掘,在上述3種前提條件下關聯規則的置信度和提升度如圖4所示。

圖4 算例1的置信度和提升度Fig.4 Confidence coefficient and improvement degree in Example 1
由圖4可見,當關聯規則前提條件為智能終端GOOSE告警、保護裝置GOOSE告警、智能終端通信異常的情況下,光纖故障的關聯規則置信度最高,即最有可能發生該故障的裝置為連接智能裝置與保護裝置的光纖。運行維護人員應該重點檢查該光纖,如果情況屬實,應該立刻對其進行維修或者將其替換。
算例2:當該站發生某次保護拒動時,二次系統發出如下報警信號:合并單元裝置異常告警、SV告警,保護裝置SV告警。
將上述3種報警信號與關聯分析后的結果進行對比,置信度和提升度如圖5所示。

圖5 算例2置信度和提升度Fig.5 Confidence coefficient and improvement degree in Example 2
從分析結果圖5可以看出,最有可能發生故障的裝置是合并單元I/O模塊,也就是圖2中合并單元與保護裝置相連接的部分,其他裝置發生故障的置信度都小于它,因此維修人員應該重點檢查合并單元。
通過上述2種算例的結果,可以證明,本文提出的方法簡單有效,不必依靠虛回路模型,只用將報警信息與歷史數據的關聯分析結果進行對比即可。
本文提出了一種基于Apriori算法的變電站二次系統診斷模型,通過該算法生成的關聯規則可以作為診斷結果,給二次系統檢修人員提供參考依據和建議。該方法在處理故障報警信號時,不用對某個具體的二次回路進行分析,只需利用歷史數據便可以得到關聯規則,因此該方法不僅簡單有效,而且診斷迅速。