鐘 慶,劉 峰,王 鋼,李海鋒
(華南理工大學電力學院,廣州 510641)
電能質量監測數據中間距離法聚類分析
鐘慶,劉峰,王鋼,李海鋒
(華南理工大學電力學院,廣州 510641)
電能質量監測點不斷增多,導致電能質量監測數據規模的爆炸性增長。有效地分析電能質量監測數據,并從中獲取有用的信息是一個亟待解決的問題?;诔浞治沾髷祿乃枷敕椒ǎ捎弥虚g距離法對某區域電能質量監測中心的監測數據開展聚類分析。首先選定各種不同的電能質量指標作為聚類變量,然后利用統計指標確定聚類個數,最后對聚類結果中的電能質量指標特征及樣本特征進行綜合分析,確定有效的聚類分析結果并提取出某些典型用戶類型的電能質量特征。算例分析結果表明了方法的有效性。研究結果對電能質量問題的監管、分析和有針對性地提出治理策略有重要的輔助作用。
電能質量;大數據;聚類分析;中間距離法
隨著各種非線性負荷及各種數字控制裝置的廣泛應用,電能質量問題日益突出,已成為電力部門和用戶日益關注的問題[1]。為此,電網公司加大了對電能質量監測工作的投入。隨著電能質量監測點的逐漸增多,電能質量監測數據規模不斷增大。每個監測點每天所收集的數據量在0.2 Mb左右[2]。即使采用壓縮方法,壓縮率為2~4之間時[3],每個監測點每天所收集的數據量也達到0.05~0.10 Mb。因此電能質量檢測數據呈爆炸性增長態勢。
在電能質量監測數據量增長的同時,數據分析方面基本上是“數據富有,信息貧乏”。許多學者已經意識到這個問題,嘗試使用數據分析方法將海量的電能質量數據轉換為所需要的信息。文獻[4]提出了一個新概念,電力擾動數據分析,即利用電能質量數據解決非電能質量問題的一種數據分析方法,例如解決故障診斷、故障定位等;文獻[5]提出了一種電能質量數據清洗方法,能夠有效去除數據中的噪聲,為挖掘數據的準確性提供了一定的保障;基于軟計算和小波變換的數據挖掘方法[6],利用數據挖掘提取負荷電能質量特征[7],基于分布式文件系統的海量電能質量檢測數據管理方案[8]等都在某特定情況下提出了電能質量數據挖掘建模與存儲方法。這些方法雖然很好地完成了既定的分析任務,但并未得到實際應用。
現有的大數據分析思想方法主要體現在以下3個方面[9]:①大數據注重對樣本整體的分析,而不是傳統數據方法中的隨機抽樣分析;②由于大數據中數據的數量極為巨大,因此相當一部分不準確的數據并不會過多地影響最終的分析結果;③大數據把分析的重點放在了相關分析上,而不是因果分析上,即注重“是什么”,而不注重“為什么”;即關注結果,并不過多地關注結果背后的原因。
本文利用大數據分析的理念,將聚類分析應用于電能質量監測數據的分析中。首先,利用全部監測點監測的電能質量數據,以各種電能質量指標組合作為聚類變量,采用中間距離法進行大量的聚類;其次,通過統計指標值確定聚類個數;最后,只根據聚類結果,分析類別的電能質量指標特征和樣本特征分布,獲得有效的聚類分析結果,而拋棄無效的聚類結果。通過聚類分析,可以得出特征明顯的各類用戶的電能質量特征,可作為不同類型用戶的電能質量問題差異化治理的參考依據。
聚類分析是研究分類問題的一種數理統計分析方法。它能夠將一批樣本數據,在沒有先驗知識的前提下,根據數據的諸多特征,按照其在性質上的親疏程度進行自動分組,且使組內的個體的結構特征具有較大的相似性,組間個體的特征相似性較?。?0]。
典型的聚類過程主要包括數據(或樣本、模式)準備、特征選擇和特征提取、接近度計算、聚類(或分組)、聚類結果有效性評估等步驟[11]。聚類所說的類是根據數據的相似性和距離來劃分,其數目和結構不事先假定,所以聚類分析是一種無監督的學習方法[12-13]。這種方法被廣泛地應用于數據挖掘、統計學、機器學習等工程與科學領域。
目前聚類方法有很多,如最短距離法、最長距離法、質心法、可變法、中間距離法等。本文采用中間距離法,其基本原理如下。
兩類質心之間的距離即兩類之間的距離。設類Gp和類Gq的質心分別為,則Gp和Gq之間的距離。設Gp和Gq的樣本分別為np和nq,將Gp和Gq合并為類Gr,則其樣本個數nr=np+nq,質心為設Gk的質心為,則它與Gr的距離為


式中,Dkp、Dkq分別為Gp和Gq到質心的距離。當np=nq時,即為中間距離法,此時兩個質心的距離為

當中心距離滿足聚類要求時,所選樣本歸為一類。
聚類個數是決定聚類分析有效性的關鍵。確定聚類個數可以通過樣品的散點圖和設置閾值來確定,也可以通過方差分析來確定聚類的個數。本文綜合考慮聚類分析的R2統計量RSQ(reception status queue)、半偏相關量SPRSQ(semi partial R-square)、偽F統計量PSF(pseudo statistics of F)和偽t2統計量PFT2(pseudo of T2)確定聚類個數。
2.1R2統計量
R2統計量定義為

式中:T為總變量的總離差平方和;PG為分類數為G時總類內離差平方和。R2=1表示所有分類對象各自成為一類;R2=0表示所有分類對象最后合并成一類。R2的大小隨著聚類個數G的減少而減小,可以從R2值的變化來確定分類個數。G越多,R2越大。當隨著聚類個數的增加,R2增加幅度不大時,聚類個數不需再增多。
2.2半偏相關
當類Gp和Gq合并為類Gr時,定義半偏相關為

式中,Bpq為合并類引起的類內離差平方和的增量。
半偏相關表示聚類類別合并對信息的損失程度。R2越大,合并損失信息越多;R2越小,合并損失信息越少。因此當R2較小時,聚類個數較為合理。
2.3偽F統計量
PSF的定義為

式中,n為樣本容量。
如果聚類個數較合理時,則各類內離差平方和應該較小,類間平方和應該較大,PSF的值應該較大。所以當PSF達到峰值時,所對應的聚類個數較為合適。
2.4偽t2統計量
PFT2定義為

式中,Wp、Wq分別為類Gp、Gq的類內離差平方和。
PFT2與SPRSQ類似,用來說明類合并的效果,PFT2越大說明改變聚類個數的效果越差。
上述4個指標均能說明聚類的效果,因此綜合考慮這4個指標的大小,可以最終確定聚類個數。
對某電網電能質量監測中心在6個區域340個監測點測得的6 333條電能質量監測數據進行分析。用戶類型分為差異化大用戶、不同的重大污染源用戶和新能源接入用戶4個大類。電能質量指標包括國家標準中的系列指標,如電壓偏差、頻率偏差、電壓諧波總畸變率、各次電壓諧波含有率、長時短時電壓閃變值和三相電壓不平衡度等。為尋求有效的聚類分析結果,本文運用中間距離法對電能質量指標的不同組合方式進行聚類分析??紤]各指標中明顯的相關性,忽略諧波電壓與諧波電流、電壓總畸變率和各次電壓含有率的組合形式。聚類過程中,首先確定電能質量指標的組合方式;然后對不同組合方式,計算不同聚類個數的4個統計指標,由這4種統計指標值確定聚類個數;最后,對聚類結果進行詳細分析,以樣本用戶的區域和類型作為特征評判標準,當聚類結果中用戶區域或用戶類型具有明顯分類特征時,聚類分析結果視為有效。
在大量聚類分析的基礎上,得出聚類特征明顯的有效指標組合共有4種,如表1所示。

表1 聚類特征明顯的有效指標組合Tab.1 Valid combinations of PQ indicators for clustering
3.1組合1
以A相電壓總畸變率和長時閃變指標為組合1,不同聚類個數對應的RSQ、SPRSQ、PSF和PFT2指標如表2所示。由表可知,當聚類個數由8增加到9時,RSQ變化不大;聚類個數為8時,SPRSQ較小,PSF最大,PFT2也較小,因此聚類數選8最合適。
樣本聚類結果如圖1所示,圖中數字代表類別。類別1的樣本量較大,特征不明顯,因此未在圖中顯示。聚類特征指標如表3所示。

表2 組合1中不同聚類個數指標Tab.2 Clustering indicators of combination 1

圖1 組合1的聚類結果Fag.1 Clustering results of combination 1

表3 組合1聚類類別特征Tab.3 Clustering category description of combination 1
通過對聚類結果分析可知:類別2中的2個樣本均為B地區的差異化用戶;D地區的大部分重大污染源用戶均屬于類別3;C地區重大污染源用戶中的化工廠、電解鋁用戶和A地區35 kV冶金用戶構成類別5。
3.2組合2
以A相電壓總畸變率和三相電壓不平衡度指標為組合2,不同聚類數對應的RSQ、SPRSQ、PSF和PFT2指標如表4所示,確定聚類個數為8。

表4 組合2中不同聚類個數指標Tab.4 Clustering indicators of combination 2
樣本聚類結果如圖2所示,因類別1、2樣本數量較多,未在圖中顯示。聚類特征指標如表5所示。
通過對聚類結果分析可知:C地區重大污染源中的電解鋁用戶大部分歸屬于類別1;B地區差異化需求用戶、D地區的重大污染源均屬于類別2;C地區重大污染源用戶中的化工廠和A地區35 kV冶金用戶屬于類別4;C地區除化工廠、電解鋁外的重大污染源用戶則屬于類別5;A地區除35 kV等級以外的冶金用戶屬于類別7。

圖2 組合2的聚類結果Fag.2 Clustering results of combination 2

表5 組合2聚類類別描述Tab.5 Clustering category description of combination 2
3.3組合3
以A相長時閃變和三相電壓不平衡指標為組合3,不同聚類個數對應的RSQ、SPRSQ、PSF和PFT2如表6所示,并確定聚類個數為8。

表6 組合3中不同聚類個數指標Tab.6 Clustering indicators of combination 3
樣本聚類結果如圖3所示,因類別1、2樣本數量較多未在圖中顯示。聚類特征指標如表7所示。

圖3 組合3的聚類結果Fag.3 Clustering results of combination 3
通過對聚類結果分析可知:C地區重大污染源中的電解鋁用戶屬于類別2;D地區的重大污染源屬于類別3;C地區除化工廠、電解鋁外的重大污染源用戶、A地區的冶金用戶和新能源監測點屬于類別4;B地區差異化需求用戶屬于類別8。

表7 組合3聚類類別描述Tab.7 Clustering category description of combination 3
3.4組合4
以A相5次和7次諧波電壓指標為組合4,不同聚類個數對應的RSQ、SPRSQ、PSF和PFT2如表8所示,并確定聚類個數為8。

表8 組合4中不同聚類個數指標Tab.8 Clustering indicators of combination 4
樣本聚類結果如圖4所示,因類別1樣本數量較多,因此未在圖中顯示。聚類特征指標如表9所示。

圖4 組合4的聚類結果Fag.4 Clustering results of combination 4

表9 組合4聚類類別描述Tab.9 Clustering category description of combination 4
通過對聚類結果分析可知:A地區35 kV冶金用戶屬于類別2主要包括;B地區的差異化大用戶屬于類別3;C地區重大污染源用戶中的化工用戶和D地區重大污染源用戶屬于類別8。
3.5聚類結果匯總
對以上4中組合得到的聚類結果進行匯總,特征較為明顯的用戶有7類,包括:A地區35 kV冶金用戶、B地區差異化大用戶、C地區化工用戶、電解鋁用戶和冶金用戶、D地區重大污染源用戶和新能源接入用戶。各類用戶通過聚類分析后得到的電能質量特征如表10所示。

表10 各類用戶電能質量特征Tab.10 Power quality characteristics of different users
由于電能質量的監測數據越來越多,運用有效的數學分析方法從大量監測數據中分析出有用信息,是非常必要的。本文應用中間距離聚類法對某地區電能質量監測數據進行聚類分析,通過選擇大量的電能質量指標組合作為聚類變量,利用RSQ、SPRSQ、PSF和PFT24個統計指標確定聚類個數。由聚類類別特征和樣本特征進行綜合分析,得出4個有效組合形式和7類不同用戶類型的電能質量指標特征。通過實際算例驗證和對電能質量監測數據進行有效聚類分析,得出不同用戶的電能質量特征,可為電能質量問題的監管、分析和有針對性的提出治理措施提供輔助決策。
[1]林海雪(Lin Haixue).現代電能質量的基本問題(Main problems of modern power quality)[J].電網技術(Power System Technology),2001,25(10):5-12.
[2]Santoso S,Lamoree J D.Power quality data analysis:from raw data to knowledge using knowledge discovery ap?proach[C]//IEEEPowerEngineeringSocietySummer Meeting,Seattle,USA,2000:172-177.
[3]劇高峰,羅安(Ju Gaofeng,Luo An).離散小波變換用于電能質量擾動數據實時壓縮(DWT application to realtime compression of power quality disturbance data)[J].電力系統自動化(Automation of Electric Power Systems),2002,26(19):61-63.
[4]徐文遠,雍靜(Xu Wenyuan,Yong Jing).電力擾動數據分析學——電能質量監測數據的新應用(Power distur?bance data analytics-new application of power quality monitoring data)[J].中國電機工程學報(Proceedings of the CSEE),2013,33(19):93-101.
[5]張曉星,程其云,周湶,等(Zhang Xiaoxing,Chen Qiyun,Zhou Quan,et al).基于數據挖掘的電力負荷臟數據動態智能清洗(Dynamic intelligent cleaning for dirty elec?tric load data based on data mining)[J].電力系統自動化(Automation of Electric Power Systems),2005,29(8):60-64.
[6]Dash P K,Chun I L W,Chilukuri M V.Power quality data mining using soft computing and wavelet transform[C]// Conference on Convergent Technologies for the Asia-Pa?cific Region,Bangalore,India,2003:976-980.
[7] Ali Asheibi,David Stirling,Duane Robinson.Identifica?tion of load power quality characteristics using data min?ing[J].Electrical and Computer Engineering,2006,36 (12):157-162.
[8] 張逸,楊洪耕,葉茂清(Zhang Yi,Yang Honggeng,Ye Maoqing).基于分布式文件系統的海量電能質量監測數據管理方案(A data management scheme for massive power quality monitoring data based on distributed file system)[J].電力系統自動化(Automation of Electric Pow?er Systems),2014,38(2):102-108.
[9]Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].2版.北京:機械工業出版社,2006.
[10]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思+維的大變革[M].杭州:浙江人民出版社,2012.
[11]孫吉貴,劉杰,趙連宇(Sun Jigui,Liu Jie,Zhao Lianyu).聚類算法研究(Clustering algorithms research)[J].軟件學報(Journal of Software),2008,19(1):48-61.
[12]周濤,陸惠玲(Zhou Tao,Lu Huiling).數據挖掘中聚類算法研究進展(Clustering algorithm research advances on data mining)[J].計算機工程與應用(Computer Sci?ence and Application),2012,48(12):100-111.
[13]黃毅成,楊洪耕(Huang Yicheng,Yang Honggeng).改進遺傳K均值算法在負荷特性分類的應用(Application of improved genetic and K-means algorithm on load char?acteristics classification)[J].電力系統及其自動化學報(Proceedings of the CSU-EPSA),2014,26(7):70-75.
Middle Distance Clustering of Power Quality Monitor Data
ZHONG Qing,LIU Feng,WANG Gang,LI Haifeng
(School of Electric Power,South China University of Technology,Guangzhou 510641,China)
With the increasing number of power quality monitors(PQMs),the monitoring data are growing quickly.It is necessary to analyze the big data of PQM and extract some important information for the power quality(PQ)solutions. This paper fully absorbs the thinking of big data,and applies the middle distance clustering into the analysis of PQM da?ta from certain region.Firstly,the combinations of PQ indicators are selected as the clustering variables.Secondly,the statistical indicators are used to determine the number of clustering categories.Finally,the valid clustering results are used to extract the characteristics of different power users.The case study shows the effectiveness of the proposed ap?proach.The clustering results are helpful in assisting the supervision,analysis and solution of the PQ problems.
power quality(PQ);big data;cluster analysis;middle distance clustering
TM 71
A
1003-8930(2016)08-0069-05
10.3969/j.issn.1003-8930.2016.08.012
2014-12-24;
2016-01-04
鐘慶(1978—),男,博士,教授,博導,研究方向為電力系統運行分析與控制、電能質量分析與控制。Email:epqzhong@scut.edu.cn
劉峰(1989—),男,碩士研究生,研究方向為電力系統數據挖掘與應用。Email:zclflove@gmail.com
王鋼(1966—),男,博士,教授,博士生導師,研究方向為電力系統及其自動化,電力系統繼電保護。Email:wangg@scut. edu.cn