林 霞, 董曉峰, 陸于平, 劉玉歡
(1.河海大學能源與電氣學院, 南京 210098; 2.蘇州供電公司, 蘇州 215004;3.東南大學電氣工程學院, 南京 210096; 4.華東電力調度中心, 上海 200002)
基于數據挖掘的分布式系統孤島檢測方法①
林 霞1, 董曉峰2, 陸于平3, 劉玉歡4
(1.河海大學能源與電氣學院, 南京 210098; 2.蘇州供電公司, 蘇州 215004;3.東南大學電氣工程學院, 南京 210096; 4.華東電力調度中心, 上海 200002)
分布式發電系統并網運行時處于孤島狀態影響電力系統安全正常運行,反孤島設備必須在可以接受的時限內把孤島檢測出來。該文主要采用數據挖掘技術中的C4.5決策樹來作為分布式發電系統的孤島檢測方法。首先離線建立精確的系統運行模型,然后用該模型建立C4.5決策樹,最后采用建好的C4.5決策樹來進行在線的孤島檢測。在整個孤島檢測過程中C4.5決策樹有能力進行自完善,而且可以最小化檢測區域。文中使用Matlab仿真驗證了C4.5決策樹進行孤島檢測的可行性。
數據挖掘; C4.5; 分布式發電; 孤島檢測
隨著可再生能源的推廣,分布式發電DG(distributed generation)已成為一種重要的電力電源形式。DG接入后,配電系統不再是單電源網絡,大量的發電機和負荷同時存在,配電系統中的潮流方向理論上可以是任意的,這勢必要影響配電網保護的靈敏性、選擇性[1,2]。當帶部分負荷的DG與電力系統斷開時,DG將有可能繼續向孤立運行的電力系統供電,形成孤立系統即孤島。一般情況下,基于對設備、運行人員的安全以及孤島系統中電能質量方面的考慮,應該避免DG運行在孤島狀態。因此,研究孤島檢測方法及保護措施,將孤島產生的危害降低到最小,具有重要的現實意義。
現有的分布式發電系統孤島檢測的基本方法有3大類:基于通信技術、同步分布式發電機本地檢測和基于逆變器的分布式發電系統本地檢測[3]。
基于通信的孤島檢測是依靠無線電通訊傳輸孤島狀態信號,信號發生器發出的孤島檢測信號可能干擾其他電力線路載波通信;孤島的本地檢測方法一般檢測DG的輸出電壓和電流信號。其中,無源檢測方法對干擾而不是對孤島更敏感,并且確定孤島動作閾值也很難。有源檢測方法較為復雜,并且此方法還可能造成某些負面影響,如電能質量變差和轉子振動等;基于逆變器的分布式發電系統本地檢測方式比較多,根據DG系統中的電源采用不同的逆變器與電網連接,而采取不同的檢測方式,很難適應系統拓撲結構的改變[4~9]。
數據挖掘技術不僅能對過去的電力系統運行數據進行查詢,而且能找出過去數據之間的潛在聯系,進行更高層次的分析,以便更好地解決決策、預測等問題。學會一個分類模型,該模型能把檢測出的DG運行電氣量映射到給定類別中的某一個分類,即能對測量到的DG運行電氣量進行孤島狀態預測。本文用數據挖掘技術中的C4.5分類方法,并抽取部分Matlab7.01仿真得到的數據作為樣本,建立分類模型,運用其余數據對C4.5決策樹進行驗證,通過再學習可以對C4.5決策樹進行完善[10~13]。用得到的C4.5決策樹來進行孤島檢測,用檢測結果再次完善C4.5決策樹,這是一個周而復始,不斷對孤島檢測方法完善的過程。
分類在數據挖掘中是一項非常重要的任務。C4.5算法是從ID3演變而來,除了擁有ID3算法的功能外,還能處理屬性連續值和屬性缺省值[3]。所以C4.5算法對電力系統中的數據是一種比較好的分類方法。
1.1 樣本空間選取
隨機給定n組DG運行電氣量作為樣本:
S={s1,s2,…,sn}
(1)

(2)
{(si,yi),i=1,2,…,n}
(3)
其中:S是n個數據樣本的集合;i是組編號;fi是頻率值屬性;Vi是電壓標幺值屬性;(Δf/Δt)i頻率改變率屬性;(ΔP/Δt)i有功功率改變率屬性;yi是類標號屬性;當DG在孤島運行情況下,yi=1;當DG不在孤島運行情況下,yi=0。
1.2 信息增益計算
一個屬性的熵越大,它蘊含的不確定信息越大,越有利于數據的分類。
S是n組數據樣本的集合,每組數據具有4個屬性。類標號屬性具有2個不同值,即0和1。對一個給定的樣本分類所需的期望信息由下式給出:

(4)
其中pi是任意樣本屬于yi的概率,一般可用si/s來估計。
設屬性A具有v個不同值{a1,a2,…,av}。可以用屬性A將S劃分為v個子集{S1,S2,…,Sv},其中Sj包含S中這樣一些樣本:它們在A上具有值aj。設sij是子集Sj中類yi的樣本數。熵值越小,子集劃分的純度越高。根據由A劃分成子集的熵由下式給出:

I(s1j,s2j,…,snj)
(5)
由期望信息和熵值可以得到對應的信息增益:
Gain(A)=I(s1,s2,…,sn)-E(A)
(6)
1.3 信息增益比例的計算
一個屬性的信息增益比例用下面的公式給出:

(7)
其中
1.4 合并具有連續值的屬性
對于檢測得到的電氣量,絕大部分是連續屬性值,C4.5處理過程如下:
1)根據屬性的值,對數據集排序;
2)用不同的閾值將數據集動態地進行劃分;
3)當輸出改變時確定一個閾值;
4)取兩個實際值中的中點作為一個閾值;
5)取兩個劃分,所有樣本都在這兩個劃分中;
6)得到所有可能的閾值、增益及增益比;
7)在每一個屬性會變為兩個取值,即小于閾值或大于閾值。
針對屬性有連續值的情況,則在訓練集中可以按升序方式排列a1,a2,…,an(n為訓練集的個數),計算每個劃分的增益比率,選擇增益比率合適的劃分來對相應的屬性進行離散化。
1.5 規則的產生
一旦樹被建立,就可以把樹轉換成if-then規則。規則存儲于一個二維數組中,每一行代表樹中的一個規則,即從根到葉之間的一個路徑。表中的每列存放著樹中的結點。建立好的決策樹不僅可以查詢過去的DG系統運行數據,而且能對未來檢測到的DG運行的電氣量進行孤島檢測。建立好的決策樹添加新的正確數據重復以上的工作,可以通過再學習不斷進行自我完善。用于孤島檢測的C4.5決策樹建立過程可以歸納為圖1。

圖1 建立C4.5決策樹流程圖Fig.1 Flow chart of constructing C4.5 decision-tree
典型的DG接入模型,如圖2。S代表等效系統,DR代表分布式電源,T代表電力變壓器,L代表負載,cb代表三相斷路器,PCC代表起連接作用的母線,LV代表低壓,HV代表高壓。

圖2 典型DG拓撲結構Fig.2 Typical distributed generation
DG接入后,配電系統的運行模式很多,要選取盡可能多的運行方式來建立分類方法。選取有代表性的三類運行模式:系統負載的不同模式;全部DG負載的不同模式;單獨一個DG負載的不同模式。按上述選取方式,共有七種運行模式:1)HVTL負載85%;2)HVTL負載50%;3)HVTL負載100%;4)DG負載50%;5)DG負載100%;6)DG1負載50%;7)DG1負載100%。
假設故障發生后系統的三相斷路器正確斷開,把故障線路和負載從系統中切除。為了比較全面覆蓋故障類型,對于圖1系統斷路器假設八種斷開方式:1)cb1斷開;2)cb3斷開;3)cb-DR2斷開;4)母線PCC-LV發生三相短路,cb1,cb3和cb4斷開;5)線路TL1發生三相短路,cb3,cb-DR1和cb-DR2斷開;6)cb-L3斷開;7)線路TL4發生三相短路,cb4斷開;8)負載HVTL發生三相短路,cb-HVLT斷開。
一個多DG的系統拓撲中,選取一個分布式電源作為檢測對象。在圖1中,選取分布式電源DR1作為檢測對象。上述的斷路器八種斷開方式中,1,2,4,5使DR1運行在孤島狀態,3,6,7,8使DR1不是運行在孤島狀態。
利用Matlab仿真軟件對算法進行仿真驗證,利用Simulink工具,按照圖2電路拓撲建立電力系統仿真模型,如圖3所示。

圖3 Matlab中典型分布式發電模型仿真結構圖Fig.3 Configuration of typical distributed generation in Matlab
3.1 具體參數設置
1)S數據: rated short-circuit VA=1000,f=50 Hz,rated kV=69,Vbase=69 kV。
2)分布式電源DR1,DR2和DR3數據:
rated MVA=10,f=50 Hz,54poles,Yn,
rated kV=13.8,Vbase=13.8 kV,
Inertia constantH=3.0,
R0=0.0025 p.u.,X0=0.113 p.u.,
R1=0.001 p.u.,X1=0.15 p.u.,
Xd=1.028 p.u.,Xq=0.654 p.u.,


3)電力變壓器T1數據:
rated MVA=25,f=50 Hz,
rated kV=69/13.8,Dyn1,Vbase=13.8 kV,
R1=0.00375 p.u.,X1=0.01 p.u.,
Rm=500 p.u.,Xm=500 p.u.
4)電力變壓器T2,T3和T4數據:
rated MVA=10,f=50 Hz,
rated kV=13.8/13.8,Ynd1,
Vbase=13.8 kV,R1=0.00375 p.u.,
X1=0.01p.u.,
Rm=500 p.u.,Xm=500 p.u.
5)傳輸線數據:rated MVA=20,f=50 Hz,
Vbase=13.8 kV,rated kV=13.8,
R0L=0.0414 ohms/km,
R1L=0.0138 ohms/km,
X0L=0.0534 ohms/km,
X1L=0.0178 ohms/km,X0CL=5.1 nF/km,
X1CL=17 nF/km,
Line1=20 km,Line2=10 km,
Line3=10 km,Line4=20 km,
Line5= Line6= Line7=10 km
6)負載85%數據:
Rated kV=13.8,
L1=10 MW,3.5 MVAR,
L2=L3=L4=L8=5.0 MW,2.0 MVAR,
L5=L6=L7=3.0 MW,1.0 MVAR
3.2 仿真結果
以分布式電源DR1為考察對象,分別仿真56次,得出cb-DR1處的56組狀態信息。表1為用于建立C4.5決策樹的14組數據,表2為用于C4.5決策樹檢驗和C4.5決策樹再學習的42組數據。

表1 用于建立C4.5決策樹的14組數據 (已對第三列數據降序排序)Tab.1 14 groups of data to construct C4.5 decision-tree (The third column of data has been arrangedin a descending order)

表2 C4.5決策樹檢驗和C4.5決策樹再學習的42組數據Tab.2 42 groups of data to test C4.5 decision-tree and reinstitute it
4.1 初步分類
按第三個屬性值對表1的數據進行初步分類,根據表1計算得到的分類期望:

把連續的屬性離散化,對比三種離散方法。
在第8組和第9組中間把數據分兩組,按本文1.3介紹的方法,得到分組閾值為0.161:


E=1,Gain=0,GainRatio=0
在第9組和第10組中間把數據分兩組,按本文1.3介紹的方法,得到分組閾值為0.126:

I(C10,C11)= 0.971

I(C20,C21)= 0.991
E=0.984,Gain=0.0163,SplitI=0.940,GainRatio=0.0173
在第5組和第6組中間,第9組和第10組中間把數據分三組,按本文1.3介紹的方法,得到分組閾值分別為0.544和0.126:

I(C20,C21)=0;

E=0.6933,Gain=0.3067,SplitI=1.577,GainRatio=0.1945
綜合對比三種分類方法,第三種的增益比最大,選取第三種分類方法。得到數據表3、4、5。

表3 df/dt>0.544的數據Tab.3 Data at df/dt>0.544

表4 0.126 表5 df/dt≤0.126的數據Tab.5 Data at df/dt≤0.126 4.2 繼續分類 按第四個屬性值對表3、表4、表5的數據繼續分類,依據本文4.1的分類方法,最終得到C4.5決策樹見圖4。 由于本文采用的模型規模比較小,C4.5決策樹最終只用到了兩個屬性,隨著系統規模的不斷擴大,會用到所有的四個屬性值。也可以在表3,表4和表5中選取不同的屬性值進行分類,得到的C4.5決策樹將不同。 表2中42組數據用來驗證決策樹的正確性,第8組數據,即當系統負載HVTL工作在50%的情況下,斷路器cb3斷開時,cb-DR1處測得的頻率改變率為1.967 Hz/s,有功功率的改變率為1974.419 MW/s,決策樹判斷出錯。初次建立的C4.5決策樹判斷正確率為98.2%。 圖4 C4.5決策樹Fig.4 C4.5 Decision-tree 4.3 完善C4.5決策樹 用表2中的第8組數據完善C4.5決策樹,把表2中第8組數據插入到表1第2、3組數據之間,并重新計算分類期望得到: 仍然按分組閾值0.544和0.126進行分組,并計算信息增益比: E=0.3235,Gain=0.6732,SplitI=1.5656,GainRatio=0.4299 圖5 最終完善的C4.5決策樹Fig.5 Final perfect C4.5 decision-tree 計算結果顯示,加入一組數據后,增益比明顯變大。 最終完善的C4.5決策樹如圖5,通過決策樹的再學習,可以正確分類56組孤島檢測數據。注意最右邊分支閾值的改變。 4.4C4.5決策樹優缺點 決策樹方法檢測孤島的優點在于:1)系統可以在不同的工作模式下;2)系統的網絡拓撲可以改變;3)通過決策樹的再學習,可以改變決策樹的if-then規則;4)最小化檢測區域。 但是決策樹方法也有自身的缺點:1)當系統規模比較大時,建立規則的時間比較長;2)用于建立規則的樣本空間對最終的if-then規則有影響,但是影響可以控制在有限范圍內;3)C4.5算法得到的決策樹不一定是最優的。 另外可以使用決策樹的優化方法,如決策樹修剪算法來改善建立好的決策樹。 本文結合數據挖掘技術,提出了新的基于C4.5決策樹的孤島檢測算法。C4.5決策樹特別適用于挖掘數據量多,且對效率和性能要求高的場合。本文詳細介紹了如何用過去的分布式發電系統運行數據建立C4.5決策樹,并通過建立的C4.5決策樹進行分布式發電孤島檢測的方法,最后用Matlab進行仿真驗證。通過實例的應用,實驗證明C4.5決策樹算法是有效的,能避免DG運行在孤島狀態,將孤島產生的危害降低到最小,并且可以提高孤島檢測的性能以及避免對電能質量產生影響。 [1] 吳罡,陸于平(Wu Gang, Lu Yuping). 分布式發電采用故障限流器對繼電保護性能的影響(Impact of fault current limiter to the performance of relay protection in distributed generation)[J].江蘇電機工程(Jiangsu Electrical Engineering),2007,26(2):1-4. [2] 王志群, 朱守真, 周雙喜,等(Wang Zhiqun , Zhu Shouzhen, Zhou Shuangxi,etal).分布式發電接入位置和注入容量限制的研究(Study on location and penetration of distributed generations)[J].電力系統及其自動化學報( Proceedings of the CSU-EPSA),2005,17(1): 53-58. [3] 曾議, 吳政球, 劉楊華,等(Zeng Yi, Wu Zhengqiu, Liu Yanghua,etal).分布式發電系統孤島檢測技術 (Islanding detection method for distributed generation systems)[J].電力系統及其自動化學報(Proceedings of the CSU-EPSA),2009,21(3): 106-110. [4] 殷桂梁,孫美玲,肖麗萍(Yin Guiliang, Sun Meiling, Xiao Liping).分布式發電系統孤島檢測方法研究(Review of island detection methods of distributed generation)[J].電子測量技術(Electronic Measurement Technology),2007,30(1): 1-6. [5] 毛國軍,段立娟,王實,等.數據挖掘原理與算法(第二版)[M].北京:清華大學出版社,2007. [6] El-Arroudi Khalil, Joos Geza.Data mining approach to threshold settings of islanding relays in distributed generation[J].IEEE Trans on Power Systems,2007,22(3): 1112-1119. [7] 吳天明,謝小竹,彭彬.MATLAB電力系統設計與分析[M].北京:國防工業出版社,2004. [8] 孫亞男(Sun Yanan).分布式發電孤島檢測判據研究(Islanding Detection Method for the DG System)[D].濟南:山東大學電氣工程學院(College of Electrical Engineering of Shandong University),2006. [9] IEEE Std 1547-2003, IEEE standard for interconnecting distributed resources with electric power system[S]. [10]Safavian S Rasoul, Landgrebe David. A survey of decision tree classifier methodology[J].IEEE Trans on Systems, Man and Cybernetics, 1991, 21(3): 660-674. [11]屈志毅,周海波(Qu Zhiyi,Zhou Haibo). 決策樹算法的一種改進算法(Improved algorithm based on decision tree)[J]. 計算機應用(Journal of Computer Applications),2008,28(S1): 141-143. [12]王桂芹,黃道(Wang Guiqin, Huang Dao). 決策樹算法研究及應用(Study and application in decision tree algorithm)[J]. 電腦應用技術(Microcomputer Application Technology),2008,(1):1-7. [13]Mori Hiroyuki. State-of-the-art overview on data mining in power systems[C]∥IEEE Power Engineering Society General Meeting, Montreal, Canada: 2006. ApplicationofDataMininginIslandDectectionofDistributedGeneration LIN Xia1, DONG Xiao-feng2, LU Yu-ping3, LIU Yu-huan4 (1.College of Electrical Engineering, Hehai University, Nanjing 210098, China;2.Jiangsu Suzhou Power Supply Company, Suzhou 215004, China;3.School of Electronic Engineering, Southeast University, Nanjing 210096, China;4.East China Electric Control Centre, Shanghai 200002, China) Distributed generation system operating in connection with grid under the island state will impact the normal operation of power system security.Anti-islanding unit must detect out island under the acceptable time limit.This paper uses C4.5 decision tree in the data mining technology as a distributed generation system islanding detection method.First,setting up a accurate system off-line model,which is used to build the C4.5 decision tree to detect the island on line.During the island detecting process,the C4.5 decision tree have the ability to self-improve,and can minimize the detection area.Simulation result using C4.5 decision tree for islanding detection is proved to be feasible. data mining; C4.5; distributed generation(DG); island detection 2010-02-04 2010-06-21 河海大學自然科學基金項目(2009424511) TM615 A 1003-8930(2011)02-0038-07 林 霞(1975-),女,博士,講師,研究方向為分布式發電系統保護及控制。Email:boulevard2@seu.edu.cn 董曉峰(1984-),男,碩士研究生,研究方向為分布式發電系統的保護和控制。Email:dong_xiaofeng@qq.com 陸于平(1962-),男,博士,教授,博士生導師,主要從事電力系統繼電保護分布式發電系統的保護與控制等方面的教學和研究工作。Email:yupinglu@seu.edu.cn





5 結語