王琳璘,謝忠局,陳永權,王琦
?
機器學習聚類組合算法及其應用
王琳璘1,謝忠局2,陳永權3*,王琦4
1. 國網能源研究院有限公司, 北京 102209 2. 北京匯通金財信息科技有限公司, 北京 100031 3. 華北電力大學, 北京 102206 4. 國網國際融資租賃有限公司, 北京 100020
本文首先分析了電力負荷的特點,并對現有的負荷特性指標做了分類,然后在詳細分析系統聚類法和K-means聚類算法的基礎上,結合電力負荷特性的特點提出了一種基于系統聚類與K-means相結合的組合分類方法,該方法可以用于電力負荷特性分類,也可以用于現金流量歷史數據的特性分類以及負荷預測的數據分析。最后,應用某產業園區電子企業的日負荷數據對算法做了算例驗證,算例結果表明該方法能夠對用戶的負荷特點做出較為準確的判斷。
系統聚類; K-means; 電力用戶; 負荷分類
電力工業中,無論是大比例的可再生能源的消納還是對用電能效的管理都需要對負荷特性做精細化的分類,并做準確的判斷。但是,面對群體龐大的電力用戶,是沒有可能對每個用戶都去分別建立模型,而是需要通過對典型用戶類別的準確描述,然后用典型用戶類別類推其它用戶,從而類推確定與之同構的用戶的綜合負荷特性[1,2]。本文將機器學習中的系統聚類法和K-means聚類方法按照各自的特點有效的組合在一起,構成了新的組合聚類法[3,4]。該方法能夠對電力用戶的負荷類型進行分析,也可以應用到電價制定、負荷預測等多項工作中。
根據歷史發展和現狀我國已經形成一套負荷指標體系。該指標體系包含指標有的是曲線型指標有的是數值型指標,考慮實用性本文對指標體系分類如表1所示[5,6]。
系統聚類是將多個樣品分成若干類的方法,其基本思想是:通過選擇類與類之間的最小距離,把距離最近的類合并,直到合并成一類為止,算法步驟如下[7]:
第一步:建立個自成一類的初始模式樣本,即建立類,1(0),2(0),…,Y(0)。然后計算類與類之間的距離。
第二步:距離矩陣()已知的條件下,則求()中的最小元素。當它是Y()和Y()類之間的距離建立新的分類:1(+1),2(+1),…,l(+1)。
第三步:計算合并了的新類別的距離,得到(+1)。計算Y(+1)與其它暫未合并的1(+1),2(+1),…,l(+1)之間的距離,可使用不同的距離計算方法加以計算。
第四步:如果還沒有獲得期望的聚類結果,則重新迭代返回第二步。
總結來看,系統聚類法最大優點是系統自己根據數據之間的距離來自動列出類別。

表 1 負荷特性指標分類
最小最大聚類算法是一種綜合考慮各個簇之間簇內方差值關系的聚類目標函數,提出在最小化個簇中的最大簇內方差值來進行聚類,即將公式(1)聚類最小化,被稱為最小最大聚類方法[8]。

將公式(1)通過迭代的方式,松弛化為公式(2)。

采用拉格朗日乘子法求解,經過運算可以得到如下的解:


聚類過程就是簇和聚類中心不斷更新的過程。隨著權重的增加,接近聚類中心的樣本才被劃分到簇中。聚類中心的更新公式為(6)。

由于0<=<1,1/(1-)>0,方差越大則權重越大。
由于電力負荷的樣本數量較大,特征向量維數較多,若單獨采用一種聚類方法,效果往往不是很理想。因此為了更客觀準確的識別樣本類型,提高分類效率,必須找到一種可以適合大樣本、高維度的聚類算法進行負荷特性聚類[9]。觀察各個聚類算法的特點可以發現,初始聚類中心的設置對聚類算法的聚類效果影響很大,導致其結果不穩定,而系統聚類法雖然在處理大樣本時,重復性步驟較多,但卻是一種過程簡單、原理直觀,分類快速且無需初始設定的經典聚類算法,同時傳統聚類算法的聚類結果容易陷入局部最優解,因此本文采用二次組合聚類法對用戶負荷特性進行分類研究,即一次聚類采用系統聚類法對負荷特性進行分類;二次聚類采用最小最大均值聚類算法,聚類中心由初次系統聚類結果提供[10]。既可避免傳統聚類算法對初始參數的敏感性,又能取得分類準確客觀的聚類效果,圖1為組合聚類算法流程圖。

圖 1 機器學習聚類組合算法流圖
本文提出的機器學習聚類組合算法的執行分為三部分,第一部分負責數據導入、預處理以及特征向量提取,第二部分為改進的組合聚類算法執行,第三部分顯示聚類效果,提取聚類結果中的特殊數據組[11,12]。執行流程如圖2所示。

圖 2 簡化的程序流程圖
本算例選取某工業園區中的某電子元件制造企業進行每日負荷數據的組合聚類分析。選取某電子元件制造企業2010年4月及6~9月的每日24點負荷數據作為聚類的特征向量,一共152組數據,剔除非正常數據后剩余130組,分為6類,且提取出三組特殊數據[13,14]。聚類結果分為見下圖所示。

圖 3 某電子元件制造企業負荷聚類
從圖中可以看出,負荷曲線出現三個高峰值,分別在2點,8~11點和14~16點,有一部分為迎峰負荷。分別分析各類別情況可以看出,第一類和第二類比較特殊,屬于減產和停產的情況,其他幾類負荷曲線的形態類似。分析高峰負荷可以看出,負荷最高達到1200 kW,最低在800 kW,大致穩定在1000 kW,且和季節沒有太大的關聯,初步分析得知,高峰時可以通過減產等措施降下200~300 kW的負荷量。
算例結果表明該方法能夠實現通過掌握和分析電力系統中的負荷構成,達到引導電力用戶選擇合理的用電時間,或采用合理的蓄能方式,達到移峰填谷、高效利用電能的作用。可見該組合聚類法對于進行負荷特性聚類研究,具有非常重要的理論和實踐意義。
[1] 楊浩,張磊,何潛,等.基于自適應模糊C均值算法的電為負荷分類研究[J].電力系統保護與控制,2010,38(16):111-115
[2] 劉莉,王剛,霍登輝.K-means聚類算法在負荷曲線分類中的應用[J].電力系統保護與控制,2011,39(23):65-68,73
[3] 劉自發,龐錯鏡,王澤黎,等.基于云理論和元胞自動機理論的城市配電網空間負荷預測[J].中國電機工程學報,2013,33(10):98-105.
[4] 彭顯剛,賴家文,陳奕.基于聚類分析的客戶用電模式智能識別方法[J].電為系統保護與控制,2014,42(19):68-73
[5] 肖白,憂鵬,穆鋼,等.基于多級聚類分析和支持向量機的空間負荷預測方法[J].電力系統自動化,2015,39(12):56-61
[6] 蒲天驕,陳乃仕,王曉輝,等.主動配電網多源協同優化調度架構分析及應用設計[J].電力系統自動化,2016,40(1):17-23
[7] 馮明燦,謝寧,王承民,等.考慮瞬時性峰值負荷特性的配電網可靠性規劃[J].電網技術,2015,39(3):757-762
[8] 鄧海,覃華,孫欣.一種優化初始中成、K-means聚類算法[J].計算機技術與發展,2013(11):42-45
[9] 劉思,傅旭華,葉承晉,等.考慮地域差異的配電網空間負荷聚類及一體化研究方法機[J].電力系統白動化,2017,41(3):70-75
[10] 劉思,傅旭華,葉承晉,等.基于聚類分析和非參數核密度估計的空間負荷分布規律研究[J].電網技術,2017,41(2):604-609
[11] 李知藝,丁劍鷹,吳迪,等.電力負荷區間預測的集成極限學習機方法[J].華北電力大學學報,2014,41(2):79-87
[12] 符楊,朱蘭,曹家麟.基于模糊貼近度理論的負荷密度指標求取新方法[J].電力系統自動化,2007,31(19):46-49
[13] 黃宇騰,侯芳,周勤,等.一種面向需求側管理的用戶負荷形態組合分析方法[J].電力系統保護與控制,2013,41(13):20-25
[14] 韓家煒.數據挖掘:概念與技術[M].范明,譯.北京:機械工業出版社,2012:299-301
A Machine Learning Combination Clustering Algorithm and Its Application
WANG Lin-lin1, XIE Zhong-ju2, CHEN Yong-quan3*, WANG Qi4
1.2.100031,3.102206,4.100020,
The characteristics of power load first analyzed and the load characteristics indexes were made a classification in this paper. Then based on a detailed analysis of system clustering method and K-means clustering algorithm, combined with the characteristics of the load characteristics of power system was proposed. This method can be applied to the classification of power load characteristics, as well as the classification of cash flow historical data and data analysis of load forecasting. Finally, the daily load data of a certain electronic enterprise as example to validate the algorithm, the results show that the method can make more accurate judgments in load characteristics of users.
System clustering; K-means clustering; power enterprise; load classification
TP181
A
1000-2324(2018)03-0463-04
2017-02-13
2017-03-20
國家電網公司總部科技項目:改革背景下國家電網公司現金流管理關鍵技術研究(sdw20170101)
王琳璘(1983-),女,碩士,副所長,主要研究方向為金融方向. E-mail:wanglinlin16@126.com
Author for correspondence. E-mail:yqc@vip.163.com