于燕平 林 濤
1(柳州鐵道職業技術學院動力技術學院 廣西 柳州 545616)2(武漢大學電氣工程學院 湖北 武漢 430072)
?
基于分形特征提取的電能質量數據挖掘
于燕平1,2林 濤2
1(柳州鐵道職業技術學院動力技術學院 廣西 柳州 545616)2(武漢大學電氣工程學院 湖北 武漢 430072)
發現“海量”監測數據中電能質量問題,并提取出有用信息,是電能質量有效治理的關鍵。將大數據挖掘技術應用于電能質量知識發現,8類電能質量數據先進行EMD分解,取前2階IMF參數后結合分形理論分別求取計盒維、截距等10維特征參數。經泛化處理后,訓練并生成了可靠的決策樹,抽取出IF-THEN分類規則,用于電能質量問題預測。通過對比分析,分形參數較其他特征參數更有利于如振蕩暫態、切痕、尖峰、閃變等電能質量問題分析,特別是對含噪電能質量的分析。結合大數據挖掘技術,不含噪和含噪信號的平均識別率分別提高了1.8%和4.1%。
數據挖掘 EMD分解 分形理論 決策樹
現代工業技術的不斷發展使得人們生活水平不斷地提高,進而對電能質量和供電可靠性提出更嚴格的要求。近年來,世界各國為改善供電環境,都在積極地開發利用清潔、可再生能源。這些新能源并入原有的電力系統,會引起電壓偏差、電壓波動、閃變、諧波污染等一系列電能質量問題。如何有效地區分不同的電能質量問題,是提高電能質量的關鍵。
智能電網的深入建設,大量運營數據的積累,電力領域“數據大爆炸”的時代已經到來。面對每年數以千兆字節的海量數據,對數據的存儲、分析和類型識別帶來了巨大的挑戰。電能質量識別主要包括特征提取和分類兩個過程,特征參數提取的方法有S變換[1]、小波變換[2]、希爾伯特黃變換[3](HHT)等。電力系統實質是一個強非線性系統,存在著混沌機制和現象[4],而分形理論可以抽象非線性系統發現其內在的規律性。近幾年來,該理論逐漸的應用于電力系統分析領域。分類方法主要是基于傳統數學統計和機器學習,如人工神經網絡[5]、支持向量機等,這些分類方法的使用在電能質量識別方面取得了很大的成功。
面對日新月異的數據更新,從中發掘出有用的知識,如電能質量事件預測、故障識別、干擾源識別與定位和實時控制等。我們迫切需要尋找一種能夠進行強大數據分析的方法——大數據挖掘,它以數據庫和機器學習為技術支撐,進而對其進行繼承與發展。大數據挖掘技術已經逐漸運用于電力各個領域,如電能消費趨勢預測[6]、電力系統暫態穩定性預測[7]、火力發電機組的節能分析[8]等。
數據挖掘是從大量數據中抽取和挖掘出未知的、有價值的模式或規律等知識的復雜過程。文中根據IEEE有關電能擾動模型規定,結合MATLAB軟件仿真了8類電能質量擾動信號。具體的挖掘過程如下:
(1) 運用希爾伯特黃變換(HHT)對8類電能質量擾動信號進行特征參數提取;
(2) 對提取的特征參數進行泛化處理作為決策樹的輸入,訓練模型并產生規則;
(3) 對電能質量擾動信號進行模式識別;
(4) 擾動類型的深度知識發掘。
1.1 分形理論簡介
分形理論是用于描述混沌信號有效地分析方法,其認為系統的各部分之間的幾何結構都存在自相似性和標度不變性,這為其奠定了物理基礎,從而得到了許多成功的應用。分形的度量方式有很多種,常用的有Hausdorff維、計盒維、相似維、關聯維等。文中特征提取的是計盒維。
計盒維定義[9]設集合F?Rn,記Nε(F)是可以覆蓋F的、邊長為ε的n維立方體(記為εn-立方體)的最少個數,則F的計盒維數DB定義為:
(1)
計盒維的計算相對較容易,所以應用廣泛,文中運用多點擬合來計算Db,步驟如下:
1) 取m個ε值,記為εi(i=1,2,…,m)。
2) 計算Nεi(F)。歸一化電能質量擾動信號到單位立方形區域,即:F={s(t)|min(s(t))=0,max(s(t))=1,0≤t≤1},其中s(t)表示歸一化后電能擾動信號,取最小立方體的邊長為ε,可知在區間In=[(n-1)ε,nε]內,覆蓋F的最少正方體數為:
Nn=[(maxs(t)-mins(t))/ε]t∈In
則在[0,1]區間內覆蓋F的總正方體的個數表示為:
(2)
3) 若令xi=log(1/ε),yi=logNε(F),分別計算點(xi,yi),擬合直線y=kx+b,得到直線的斜率k即為計盒維Db,式中b為截距,即:
(3)
1.2 基于分形理論的特征參數提取
電力系統發生故障時,系統會不同程度地出現混沌現象。提取出有效區分各電能質量擾動信號的特征參數是獲得好的識別結果的關鍵。本文采用MATLAB軟件,隨機生成8種電能質量擾動信號,分別是暫降、中斷、諧波、振蕩暫態、切痕、尖峰、暫升和閃變。采樣頻率2 KHz,數據長度取10周波,即為0.2 s,通過觀察各擾動信號,提取出10維特征向量,具體提取過程如下:
1) 考慮信號幅度的變化規律,對輸入電能質量擾動信號每周波求取最大值,得到10維的特征向量,然后再從這10維最大值向量中求取最大值和最小值,分別記為Max1、Max2;
2) 考慮信號經由變換后,分解為不同的頻率分量后,有利于區分含有諧波成分的信號;因此,對輸入信號進行經驗模態分解(EMD),取出前兩階IMF分量:IMF1、IMF2;
3) 分別對IMF1、IMF2提取出各自的能量分布E1、E2;
4) 分別求取IMF1、IMF2的過零率Zcr1、Zcr2;
5) 根據分形理論,分別計算IMF1、IMF2的計盒維Db和截距b,得到4個特征向量,分別為:K1、B1、K2、B2;
6) 文中為驗證分形理論的優越性,將分別組合特征參數為:不含分形參數{Max1,Max2,E1,E2,Zcr1,Zcr2 }、含分形參數{Max1,Max2,E1,E2,Zcr1、Zcr2,K1,B1,K2,B2}2組特征向量。
2.1 決策樹基本算法
決策樹算法本質上是一種貪心算法,是以自頂向下遞歸的分治方式構造。樹的每個內部結點代表對一個屬性的測試,分支代表測試的每個結果,樹的每個葉子結點就表示一個類別。
算法 Generate_decision_tree根據給定的電能質量擾動訓練特征集生成決策樹。
輸入:訓練特征參數的各屬性數據均離散化處理,feature_list為候選屬性集。
輸出:決策樹。
處理流程:
a. 創建一個結點N;
b. if 該結點中的所有樣本均屬于同一類別C,then
c. 返回N作為葉子結點,并標記為類別C;
d. if feature_list為空,then
e. 返回N作為葉子結點,標記為樣本中的多數類別;
f. 從feature_list求取信息增益最大的屬性test_feature;
g. 用test_feature標記結點N;
h. 對于test_feature中的每一個已知取值ai準備劃分結點N所包含的樣本集;
i. 由test_feature=ai產生結點N相應的分支,用以表示測試條件;
j. 設Di為test_feature=ai所獲得的樣本集合;
k. if Di為空,then 相應的葉子結點標記為樣本中類別個數最多的類別;
l. else 葉子結點標記為:Generate_decision_tree(Di,feature_list-test_feature)endfor;
m. 返回N。
2.2 屬性選擇度量
屬性選擇度量是決策樹的分裂準則,用以幫助確定生成每個結點時應采用的合適屬性,常用的方法有信息增益、增益率和基尼指數等,本文選取信息增益。
設S是包含s個數據樣本的集合,該集合中包含m種類別屬性,不同的類別記為Ci,i={1,2,3,…,m}。設si為Ci類別中的樣本個數,則對給定數據對象分類所需要的信息量定義為:
(4)
式中pi為數據對象屬于類別Ci的概率。
本文數據由MATLAB 7.04隨機生成8種不含噪的電能質量擾動信號共1610例,其中803例作為訓練集,807例作為測試集;加入30 dB高斯白噪聲的電能質量擾動信號共1240例,616例作為訓練集,624例作為測試集。
3.1 特征參數值泛化處理
將提取出的特征參數保存于數據庫中,這些數據包含了大量的細節性的數據信息,因此需要對這些數據進行更高層次的抽象以獲得概要性的描述。提取的各類特征參數命名在數據庫中就對應一個屬性,則有條件屬性C={E1,E2,Max1,Max2,Zcr1,Zcr2,K1,B1,K2,B2},假設它們存在一個概念層次樹,可以將它們劃分為若干間隔(組),本文根據數據的實際分布情況用等級進行劃分,表1為含30 dB高斯白噪聲的特征數據的泛化情況。

表1 含30 dB噪聲的各類擾動特征參數值的泛化表示
表1中只列出了含噪特征參數的泛化情況,不含噪的特征參數的泛化類似。但是由于噪聲的加入,前兩階IMF分量的過零率會有較明顯的改變,特別是第一階的IMF1分量,主要體現的是信號中的最高頻的分量,加入噪聲后IMF1就主要包括信號的突變部分以及大部分的噪聲信號,直接導致過零率的大幅增加。
3.2 模型評估
建模過程中把訓練集隨機劃分為70%訓練部分和30%測試部分,將訓練部分數據作為決策樹的輸入,計算信息增益選取合適的屬性作為分支結點,構造決策樹,利用測試部分數據對生成好的決策樹進行準確性評估,訓練集測試部分數據具體挖掘結果如表2所示。

表2 電能質量擾動信號訓練集測試部分挖掘結果
表2對訓練集30%測試部分數據的挖掘結果:(1)不含噪聲的各類擾動信號不論其特征參數是否含有分形參數,其識別率都為100%,實驗說明對于不含噪聲的電能質量擾動信號的分類識別,分形參數對識別結果的影響并不大;(2)對于含30 dB噪聲的擾動信號,不含分形特征參數獲得的識別率為90.08%,而含分形特征參數的特征集識別率為98.32%,結果表明,分形參數結合其他特征參數更有利于含噪聲的電能擾動信號的識別;(3)訓練集測試部分數據的識別結果說明已經構建了一個較可靠的決策樹。
3.3 分類規則獲取
決策樹表示的分類知識可以被抽取出來并用IF-THEN分類規則形式表示,表3所示為含30 dB噪聲的電能質量擾動信號決策樹中抽取的部分分類規則。

表3 分類規則獲取
分形理論研究的是非線性系統產生的不光滑和不可微的幾何形體,表3的分類規則表明:(1) 對于電能信號(特別是加入噪聲以后)波形出現振蕩暫態、切痕、尖峰、閃變等現象時,分類決策就會不同程度地依賴于分形參數(計盒維數或截距);(2) 對于帶噪的諧波信號,經過EMD分解后,第一階IMF噪聲加載在高頻分量上,反而導致IMF1的過零率較其他的信號低;(3) 對于短時電壓變動類的電能擾動,如暫降、暫升、中斷,它們更多地依賴與幅值變化相關的特征參數(如:max1,max2,E1或E2)。
3.4 知識驗證及評價
利用測試數據集對分類規則的預測準確性進行評估,分類結果如表4、表5所示。

表4 無噪聲電能質量擾動信號(不含/含分形參數)測試集挖掘結果
表5 含30 dB噪聲電能質量擾動信號(不含/含分形參數)測試集挖掘結果

預測實際分形12345678平均識別率%1無730000000100有7300000001002無078000000100有0780000001003無10753000096.2有00771000098.74無00073214091.3有00078002097.55無00007330293.6有00007710098.76無000114640081有00006730092.47無00030075096.2有00010077098.78無00014007593.8有00010007998.8
表4為不加噪聲的電能質量擾動信號測試集評估結果,第1、2、3、7共4類擾動信號的識別率特征參數中不論是否包含分形參數都取得了100%的好結果。但從第4、5、6、8這幾類的結果對比看,特征參數含分形參數較不含分形參數的特征參數的識別率都有所提高。
表5中對加入30 dB噪聲的擾動信號的識別情況來看,不含分形參數的特征參數對第6類尖峰信號的識別有14例被誤識為切痕信號,只取得了81%的識別率。而分形參數加入以后,取得了92.4%的識別率,有了較明顯的提高,對于其他幾類擾動信號(如類3、4、5、7、8)的識別率也有較大增長。仿真結果表明:與幅值變化相關的特征參數在擾動信號的識別方面,很容易造成如振蕩暫態、切痕、尖峰等的誤識,它們無法很好地區分各信號,當加入分形參數以后,這幾類擾動的識別率有了明顯改善,特別是在含噪聲擾動信號的識別方面,體現了分形參數在描述不規則變化信號的優越性。
(1) 電力系統存在混沌機制,本文將電能質量擾動信號經由EMD分解結合分形理論應用于電能質量擾動信號的特征參數提取,提取出的向量作為特征集。為證明分形參數的有效性,分別對不含分形參數與含分形參數的特征參數進行了對比分析。實驗結果表明,表征幅值變化的相關特征參數對振蕩暫態、切痕、尖峰等信號的區分能力稍差,當加上分形特征參數后能有效地抽取出各擾動信號之間微小的差異性。較文獻[10]對暫態閃變、尖峰、凹痕3類擾動的數據挖掘,本文有效地區分開8類電能質量問題。
(2) 借助大數據挖掘工具,為電力系統數據發掘提供了新思路、新途徑。文中首先對特征數據進行泛化處理,應用決策樹技術對電能質量擾動數據進行訓練與預測,并抽取出部分的決策規則。含分形參數的特征集對電能質量擾動測試集的分類結果為:不加噪的平均識別準確率為99.09%,較不含分形參數的97.29%,識別率提高了1.8%;含30 dB噪聲的平均識別率為98.1%,而不含分形參數的平均識別率只為94.01%,提高了4.1%,都取得了較好的分類結果。
(3) 本文中特征參數提取應用的大部分是全局性方法,造成了一定的誤識情況。如表4中振蕩暫態仍有5例被誤識為暫升信號,表5中尖峰有6例誤識為切痕信號等,表明提取出有效的、能抽取局部信息的特征參數將更有利于多類且相似度高信號的分類識別。
[1] Kumar R,Singh B,Shahani D T,et al.Recognition of Power Quality Disturbances Using S-Transform Based ANN Classifier and Rule Based Decision Tree[J].IEEE Transactions on Industry Applications,2015,51(2):1249-1258.
[2] 潘從茂,李鳳婷.基于小波變換的暫態電能質量的檢測與識別[J].電測與儀表,2013,50(11):69-72.
[3] 馬慧君.希爾伯特—黃變換在電能質量檢測中的應用研究[D].哈爾濱理工大學,2013.
[4] 何友全,肖建,熊啟軍.基于分形理論的電力系統高頻暫態波形特征識別[J].電力系統自動化,2005,29(02):29-33.
[5] Biswal B,Biswal M,Mishra S,et al.Automatic Classification of Power Quality Events Using Balanced Neural Tree[J].IEEE Transactions on Industrial Electronics,2014,61(1):521-530.
[6] Yang Hang,Chen Huajun,Yuan Cai,et al.An Intelligent System for Forecasting the Trend of Consumed Electricity[C]// IEEE International Congress on Big Data (Big Data Congress).Anchorage,AK:IEEE,2014:.677-682.
[7] Tao X,Renmu H,Peng W,et al.Applications of data mining technique for power system transient stability prediction[C]//Proceedings of 2004 IEEE International Conference on Electric Utility Deregulation,Restructuring and Power Technologies.Hong Kong:IEEE,2004:389-392 .
[8] Yong-Ping Y,Ning-Ling W,Zhi-Wei Z,et al.Data mining-based modeling and application in the energy-saving analysis of large coal-fired power units[C]// 2010 International Conference on Machine Learning and Cybernetics (ICMLC).Qingdao:IEEE,2010:1095-1100.
[9] 韓培友,郝重陽,張先勇,等.基于模糊粗糙集、數學形態學和分形理論的醫學圖像分類研究[J].計算機應用研究,2004,21(2):241-245.
[10] Dash P K,Chun I L W,Chilukuri M V.Power quality data mining using soft computing and wavelet transform[C]//IEEE TENCON.Conference on Convergent Technologies for the Asia-Pacific Region.India,Kurukshetra:IEEE,2003:976-980.
POWER QUALITY DATA MINING BASED ON FRACTAL FEATURE EXTRACTION
Yu Yanping1,2Lin Tao2
1(DepartmentofPowerTechnology,LiuzhouRailwayVocationalTechnicalCollege,Liuzhou545616,Guangxi,China)2(SchoolofElectricalEngineering,WuhanUniversity,Wuhan430072,Hubei,China)
To find the power quality problems from "mass" monitoring data and to extract available information from it,this is the key to control the power quality effectively.We applied the big data mining technology to power quality knowledge discovery,exerted the empirical mode decomposition (EMD) on 8 kinds of power quality data in advance,took the first 2-order IMF parameters and then combined the fractal theory to calculate respectively 10-dimension feature vectors of box-counting dimension,intercept,etc.After the generalisation processing,they were trained and generated the reliable decision tree which was used to extract the classification rules of IF-THEN,and was used to forecast the power quality problems.By comparative analysis,the fractal parameters were more conducive to analysing the power quality problems such as oscillatory transient,notch,spike,flicker etc.,than other features,especially to the analysis of power quality signals with noise.Combining the big data mining technology,the average recognition rate of signals with and without noise increased 1.8% and 4.1% respectively.
Data mining EMD Fractal theory Decision tree
2015-07-06。國家自然科學基金項目(51177111)。于燕平,講師,主研領域:電能質量分析與處理,信號處理。林濤,教授。
TP391.9
A
10.3969/j.issn.1000-386x.2016.11.006