常鮮戎,孫景文(華北電力大學電氣與電子工程學院,保定071003)
粒子群優化的模糊聚類在負荷預處理的應用
常鮮戎,孫景文
(華北電力大學電氣與電子工程學院,保定071003)
負荷預處理對于準確的負荷預測來說是至關重要的。為了提高負荷預處理的準確性,提出了將傳統的橫向縱向比較法與改進模糊聚類算法結合的新型方法。該方法首先采用傳統的橫向縱向比較法處理突變量較大的負荷和缺失負荷;然后對模糊C均值算法的目標函數進行改進,將粒子群算法引入,得到改進的模糊聚類算法,進行曲線聚類,得到特征曲線;最后,利用特征曲線對壞數據進行辨識和修正。實例分析表明,通過將粒子群優化的模糊聚類與傳統處理方法進行結合,取得了良好的效果,驗證了該方法有效性。
負荷預處理;壞數據;模糊C均值;粒子群算法
在電力系統負荷預測實際工作中,由于SCADA(supervisory control and dataacquisition)系統中的量測、記錄、轉換、傳輸等任意環節故障都有可能導致觀測數據出現反常態勢,以致與大多數觀測值不一致;另外,由于突發事件或者某些原因線路檢修停電、切負荷停電、大事件沖擊等而引起負荷的異常變化。這些數據統稱為壞數據,其存在使得預測結果的準確度無法保證。因此,在進行負荷預測之前,有必要對原始負荷數據進行預處理[1]。
有關壞數據的處理已經有很多方法,比如傳統的橫向縱向比較法、負荷變化率檢測法、基于統計的檢測法、灰色預測法、小波分析法和聚類算法等。文獻[2]通過分析歷史上各日相鄰時刻負荷變化率來確定負荷變化率閾值,以相鄰時刻負荷變化率是否滿足來判斷該點負荷是否異常,這對于單點出現壞數據很有效;文獻[3]采用灰色理論和參數估計結合的方法進行壞數據的檢測和修正,但是參數估計效率比較低,灰色理論估計解決成片出現壞數據效果也不好;文獻[4]采用二維小波去噪原理,將日期排列成二維矩陣,利用橫向和縱向數據連續性進行去噪處理,但是去噪并不能有效去除奇異點,且去噪的效果與小波的選擇關系很大,并且問題變得復雜化;文獻[5-7]嘗試著將模糊聚類的思想引入到負荷預處理中,取得了不錯的效果,但是,模糊聚類方法有其固有的缺點,盡管文獻中也有提到,但是并沒有很好地解決。
本文首先利用傳統的橫向縱向比較法,將比較明顯的壞數據如連續缺失數據和突變量很大數據,進行修正,這樣可以為下一步有效地聚類做好基礎;然后將模糊C均值聚類引入到預處理過程中,并針對其存在的對噪聲敏感、初始聚類中心難以確定的問題進行解決,提出了基于粒子群優化的可能性模糊C均值算法,即PSO-PFCM(possibility fuzzy C-meansbased on particle swar Moptimization);最后,利用聚類產生的特征曲線進行壞數據的辨識和修正。
數據橫向比較法是一種利用日負荷曲線中連續2個點負荷不突變的特性來判別異常點的數據處理方法;數據縱向比較法也是如此,利用連續兩天同時刻負荷不突變的特性來判別異常點。
數據橫向比較法描述如下。
如果

式中:L(d,t)為第d天第t時刻負荷;α(t)、β(t)分別為不同的閾值。
數據縱向比較法描述如下。如果

式中,γ(t)和δ(t)分別為不同的閾值。
該方法的最大難點就是閾值的確定,同時也決定著處理效果的好壞。由于這里僅僅是針對缺失數據和大突變量數據進行處理,因此閾值很容易確定,可以設置為一個比較大的數值,就能夠滿足要求。還有一點需要說明,傳統的橫向縱向處理方法會考慮該點的下一時刻值或者第二天同一時刻值,如果正好下一個數據為壞數據,則處理效果會大受影響。因此,這里僅僅采用該點之前的數據。處理過程簡述如下。
步驟1設置橫向比較、縱向比較的閾值;
步驟2前5 d的數據人為修正,以此為基準,從第6 d開始,每天每個時刻數據進行橫向比較和縱向比較,若兩次比較都滿足閾值要求,則轉到步驟4;若有任何一次比較超出閾值要求,則轉到步驟3;
步驟3利用前一時刻數據以及同時刻前5 d數據加權修正,則加權公式為

2.1 模糊C均值聚類(FCM)
模糊C均值FCM(fuzzy C-means)聚類算法[8-9]是基于劃分的聚類算法,其通過對目標函數逐步迭代優化來實現數據聚類,使得類內對象之間相似度最大,不同類對象間相似度最小。FCM聚類算法能夠自動對樣本點進行分類,其通過準則函數的優化來得到樣本點對聚類中心的隸屬度,從而確定樣本所隸屬的類別。FCM算法原理實現如下。
設樣本集X={x1,x2,…,xi,…,xn}中元素xi有s個特征,即xi={xi1,xi2,…,xis},要把X分為c類(2≤c≤n)。
設有c個聚類中心V={v1,v2,…,vc},取dik為聚類中心vi與樣本xk與的歐氏距離,記作

聚類準則是其目標函數達到最小值,即

式中:uik為樣本k在第i類的隸屬度;m為模糊因子,表示聚類結果模糊度的權重指數,m∈[1,∞),取經驗值范圍為1.5≤m≤2.5;U為模糊劃分矩陣;V為聚類原型。
結合式(8)的約束條件與Lagrange乘數法對式(7)求解,可求得U和V的更新公式為


FCM算法理論在眾多的模糊聚類算法中是最完善的,其擁有深厚的數學基礎,并且在眾多領域獲得了成功的應用。但是FCM算法依然存在一些問題,其中比較棘手并且關鍵的就是對噪聲的敏感性和初始聚類中心無法確定的問題。
2.2 可能性模糊C均值聚類(PFCM)
2.2.1可能性C均值聚類(PCM)
在FCM算法中,分析約束條件(8)可以知道,聚類中所有數據點的影響力是相同的,噪聲也不例外。這就導致樣本的隸屬度不僅與該類的中心有關,而且也受其他類中心的影響,因為每個樣本點隸屬度之和均為1。然而噪聲往往既不屬于這個類也不屬于其他類,由于隸屬度和為1這個條件的限制,聚類結果會受較大的影響。
為了解決該問題,Keller和Krishnapuram放寬了隸屬度的約束條件,解決了FCM對噪聲的敏感性問題[10]。其目標函數定義為

式中:U為可能性劃分矩陣,U=[uik]c×n,其元素uik為第k個數據隸屬于第i類的可能值;ηi為自己定義的參數,建議取值為

式中,K一般取1。由式(11)可以看出可能性C均值PCM(possibility C-means)目標函數的第1項正是FCM目標函數的第1項,體現著不同數據點到聚類中心的加權距離;PCM目標函數的第2項是懲罰因子,以防出現U為0的情況。因為此處隸屬度的含義是數據樣本屬于類別的可能性,因此稱其為可能性聚類。
2.2.2可能性模糊C均值聚類(PFCM)
盡管PCM算法能更真實地反映數據點對聚類中心的距離,擺脫了FCM算法中隸屬度之和為1的約束,對噪聲的魯棒性好,但是,PCM算法依然存在一定的問題,即目標函數的最小化等價于最小化c個子目標函數,也即

由式(13)可以看出,其值只跟一個聚類中心有關。因此,只有當所有的聚類中心一樣時才能得到全局最優解,從而引起了聚類一致性問題。
針對FCM和PCM存在的問題,提出了可能性模糊C均值PFCM(possibility fuzzy C-means)聚類算法,其目標函數為

式中:T為可能性劃分矩陣,T=[tik]c×n;γi的取值為

式中:a〉0;b〉0;m〉1;η〉1。uik與FCM中模糊隸屬度一樣,tik與PCM中可能性劃分矩陣一樣。由以上分析可知,PFCM算法兼具FCM和PCM的優點,既有很好的噪聲魯棒性,又避免了聚類一致性問題。
2.3 粒子群優化算法(PSO)
粒子群優化PSO(particleswar Moptimization)[11]算法是由Eberhart博士和Kennedy博士于1995年提出的一種全局優化計算技術。PSO算法中,首先初始化一群隨機粒子,然后每個粒子在搜索空間不斷調整其位置來搜索新解。每個粒子都能記憶其搜索到的最優解Pid,以及整個粒子群的最優解Pgd,每個粒子都有一個搜索速度vid。每個粒子更新自身速度為

式中:vid為粒子i的第d維速度;ω為慣性權重;c1和c2分別為個體和全局的加速系數,調節每個粒子向個體最優粒子和全局最優粒子方向搜索的最大步長,通常c1,c2∈[0,4],一般均取為2;r1和r2為0到1之間的隨機變量。則粒子的位置更新公式為

PSO算法沒有太多的參數需要調整,能夠記憶個體最優和全局最優的信息,收斂快速,編程簡單,易于實現,且搜索不需要依賴梯度信息。
2.4 PSO-PFCM實現
2.4.1 PFCM的實用處理
如前所述,PFCM兼具FCM和PCM的優點。但是,由式(13)可以看出,其目標函數需要設定的參數太多,并且其懲罰因子的計算依賴FCM和PCM算法,計算復雜。實際應用時,以協方差矩陣優化懲罰因子,得到改進的目標函數[12]為

式中,J的第1項是FCM和PCM兩種算法的結合,第2項是對目標函數的懲罰項,以防目標函數出現無意義的平凡解。通過推導可得U、T、V的更新公式為

2.4.2 PSO的實用改進
PSO算法中,每個粒子在搜索空間中不斷進化搜索直到滿足終止條件。粒子進化過程的評價指標是適應度函數,即目標函數J。由式(15)可知,r1和r2是0到1之間的隨機變量,即粒子每次的迭代學習能力是隨機的,然而為了使粒子更好地向優秀粒子學習,提高收斂速度,可以進行改進,即

PSO算法中,慣性權重ω的大小表征著全局搜索與局部搜索能力的大小。其值大,則算法有較強的全局搜索能力;反之,算法有較強的局部搜索能力。通常采用線性遞減權值策略,將ω設置為0.9~0.4,即

2.4.3 PSO-PFCM的實現
對s維的樣本空間X={x1,x2,…,xn}進行聚類,就是要尋找所有的聚類中心,然后根據聚類中心來計算每個樣本的隸屬度,決定樣本的歸屬。粒子群中每一個粒子都是c×s維向量,其中c代表聚類類別數。采用粒子群算法進行聚類,就是使粒子通過每一次迭代來改變聚類中心,從而產生不同的聚類結果,直到聚類結果達到最優,有效解決了由于初始聚類中心難以確定而導致的算法陷入局部最優,聚類效果差的問題。流程如下。
(1)初始化參數,包括聚類中心,聚類數目c,加權指數m和q(m,q〉1);根據式(20)、式(21)初始學習因子ω1、ω2和權重ω,設定最大迭代次數itertotal和閾值ε;
(3)由式(19)來計算或更新U、T、V;
(4)由式(16)進行粒子適應度值的計算,與之前的適應度值進行比較。若當前的適應度值小,則用取代取代否則保持;
(5)由式(16)、式(17)進行粒子速度和位置的更新;
(6)如果達到最大迭代次數或者粒子搜索到足夠好位置,即滿足閾值條件ε,則聚類結束;否則,轉至第(3)步。
以四川省某電網2012-03—2012-05的實際負荷為例,用上述所提出方法進行實際驗證。該電網的負荷采樣數據間隔為5min,即日負荷數據為288點。由于采樣點數較多,會造成聚類特征曲線求取之后與實際負荷曲線整體特征差異較大。因此,本文將288點分為3部分,即96點作為一部分,分別進行同樣的處理過程。這樣使得每一段聚類特征曲線更能反映日負荷曲線,有利于壞數據辨識。
3.1 橫向縱向法處理
圖1是2012-03—2012-05未處理前負荷曲線以及經過橫向縱向比較法處理后的負荷曲線。從圖中可以看出,由于一些原因,該段時間的負荷有一部分出現了大段的負荷數值為負數的情況;并且該段時間負荷還有幾處出現了大的毛刺,很明顯這些都是壞數據。如前所述,由于閾值選擇比較困難,本文選擇一個較大的閾值,只對這些突變比較大的負荷數據進行修正,修正效果如圖1所示,效果很明顯。做了這些基本的處理之后,負荷曲線的聚類就會更加有效和準確。

圖1 處理前與處理后負荷曲線對比Fig.1 Co Mparison of load curve before and after processing
3.2 PSO-PFCM聚類
聚類負荷曲線主要是考慮負荷曲線的平滑性和相似性,為了消除負荷增長可能帶來的影響,文中對負荷進行歸一化處理,即將每日每點負荷值除以當日最大負荷。歸一化之后,消除負荷增長對聚類的影響。
由于初始聚類中心已經由PSO算法確定,聚類過程中,除了事先給定一些參數外,還有一點比較重要的就是聚類數目的確定。聚類數目如果太多,那么聚類復雜性就會增加,并且也沒有什么意義;聚類如果太少,很多不相似的曲線就會變為一類,結果比較粗糙。本文采用計算比較簡單的k均值聚類算法[13],并結合電力負荷曲線的特點,首先確定聚類數目。
如前所述,本文將288點分為3部分進行處理,這里以其中1~96點為例進行分析。該段負荷曲線共聚類為5類,本文取其中一個聚類分析,如圖2所示。容易看出,前20個時刻點,有幾條曲線不滿足整體曲線的特征,即為壞數據;在第60個采樣點至第70個采樣點之間有一小段突起,偏離曲線整體特征,即為壞數據。這些點均可以由聚類得到的特征曲線進行辨識并且加以修正,具體方法見第3.3節。

圖2 隸屬于某條特征曲線的一簇歸一化負荷曲線Fig.2 Normalized load curvesbelonging to one of the characteristic curves
3.3 壞數據辨識與修正
根據第3.2節中的聚類,可以得到特征曲線,以及隸屬于每條特征曲線的負荷曲線,據此可以計算出每個采樣點的方差值。根據概率上的原理,可以利用每條負荷曲線上各點與特征曲線上對應點的差值來判斷是否為壞數據,并進行修正。設檢出某曲線xi的t1點至t2點為壞數據,修正后為xi′,修正公式為

式中:t=t1,t1+1,…,t2-1,t2;vk為xi隸屬的特征曲線。
圖3為修正后的日負荷曲線。從圖中可以看出,對于偏離整體特征的負荷數據,本文提出方法給予了很好的修正,為精確地負荷預測做了準備工作。

圖3 對含有壞數據負荷曲線檢測效果Fig.3 Detection effectofthe load curvecontainingbad data
為了說明檢測壞數據的效果,表1給出了2012-03—2012-05壞數據檢測的準確率,結果表明該方法是很有效的。

表1 壞數據檢測正確率Tab.1 Correct rate ofbad data detection
通過SCADA系統得到的負荷數據,由于各種原因,會存在壞數據;一些偶然性事件也會導致產生壞數據;壞數據的存在會對負荷預測的精度產生很大的影響。本文首先采用傳統的橫向縱向比較法,并加以改進,來處理突變量比較大的壞數據,為進一步地精處理做好基礎;模糊聚類算法是數據處理中常用的方法,但是存在對噪聲敏感、初始聚類中心難以確定等固有問題,本文通過改造模糊聚類的目標函數,得到具有良好噪聲魯棒性和良好聚類一致性的PFCM算法,并且引入粒子群算法解決初始聚類中心難以確定的問題,對負荷數據進行很好的聚類;最后利用特征曲線對壞數據進行辨識和修正。實例分析證明了該方法具有良好的特性和實用性。
[1]康重慶,夏清,劉梅.電力系統負荷預測[M].北京:中國電力出版社,2007.
[2]莫維仁,張伯明,孫宏斌,等(MoWeiren,Zhang Boming,Sun Hongbin,et al).擴展短期負荷預測方法的應用(Application of extended short-ter Mload forecasting)[J].電網技術(Power Syste MTechnology),2003,27(5):6-9.
[3]康重慶,夏清,相年德(Kang Chongqing,Xia Qing,Xiang Niande).灰色系統參數估計與不良數據辨識(Parameterestimation and bad data identification ofgrey systems)[J].清華大學學報:自然科學版(Journalof Tsinghua U-niversity:Sci&Tech),1997,37(4):72-75.
[4]童述林,文福拴,陳亮(Tong Shulin,Wen Fushuan,Chen Liang).電力負荷數據預處理的二維小波閾值去噪方法(A two-dimension wavelet threshold de-noisingmethod forelectric load data pre-processing)[J].電力系統自動化(Automation of Electric Power Systems),2012,36(2):101-104.
[5]蔣雯倩,李欣然,錢軍(JiangWenqian,Li Xinran,Qian Jun).改進FCM算法及其在電力負荷壞數據處理的應用(Application of improved FC Malgorith Min outlier processing of power load)[J].電力系統及其自動化學報(Proceedingsof the CSU-EPSA),2011,23(5):1-5.
[6]陳柔伊,張堯,武志剛,等(Chen Rouyi,Zhang Yao,Wu Zhigang,etal).改進的模糊聚類算法在負荷預測中的應用(Application of improving fuzzy clustering algorith Mto power load forecasting)[J].電力系統及其自動化學報(Proceedingsof the CSU-EPSA),2005,17(3):73-77.
[7]李培強,李欣然,陳輝華,等(Li Peiqiang,Li Xinran,Chen Huihua,etal).基于模糊聚類的電力負荷特性的分類與綜合(The characteristics classification and synthesisof power load based on fuzzy clustering)[J].中國電機工程學報(Proceedings of the CSEE),2005,25(24):73-78.
[8]陳東輝(Chen Donghui).基于目標函數的模糊聚類算法關鍵技術研究(Research on the Key Technology of Fuzzy Clustering Algorith MBased on Objective Function)[D].西安:西安電子科技大學計算機學院(Xian:SchoolofComputer,Xidian University),2012.
[9]范九倫(Fan Jiulun).模糊聚類新算法與聚類有效性問題研究(Study on New Fuzzy Clustering Algorith Mand Clustering Validity Problems)[D].西安:西安電子科技大學計算機學院(Xian:Schoolof Computer,Xidian University),1998.
[10]Krishnapura MR,Keller JM.A possibilistic approach to clustering[J].IEEE Trans on Fuzzy Systems,1993,1(2):98-110.
[11]劉玲,嚴登俊,龔燈才,等(Liu Ling,Yan Dengjun,Gong Dengcai,etal).基于粒子群模糊神經網絡的短期電力負荷預測(Newmethod for short ter Mload forecasting based on particle swar Moptimization and fuzzy neural network)[J].電力系統及其自動化學報(Proceedings of the CSUEPSA),2006,18(3):47-50.
[12]Yang Miinshen,Wu Kuolung.Unsupervised possibilistic clustering[J].Pattern Recognition,2006,39(1):5-21.
[13]朱明.數據挖掘[M].合肥:中國科技大學出版社,2002.
[14]Cao Yan,Zhang Zhongjun,Zhou Chi.Data Processing Strategies in Short Ter MElectric Load Forecasting[C]//International Conference on Computer Science and Service System.Nanjing,China,2012:174-177.
[15]梁健武,陳祖權,譚龍海(Liang Jianwu,Chen Zuquan,Tan Longhai).短期負荷預測的聚類組合和支持向量機方法(Application of clustering combination and support vectormachine in short-ter Mload forecasting)[J].電力系統及其自動化學報(ProceedingsoftheCSU-EPSA),2011,23(1):34-38.
[16]楊明海,劉洪,王成山,等(Yang Minghai,Liu Hong,Wang Chengshan,etal).基于粒子群文化算法的變電站選址與定容(Optimalsubstation locating and sizing based on culturalalgorith Mofparticle swarm)[J].天津大學學報(Journalof Tianjin University),2012,45(9):785-790.
Application of Fuzzy Clustering Based on Particle Swar MOpti Mization in Data Processing
CHANGXianrong,SUN Jingwen
(Schoolof Electricaland Electronic Engineering,North China Electric Power University,Baoding071003,China)
Load pre-processing is crucial to accurate load forecasting.In order to improve the accuracy of load processing,a newmethod by combining the traditional transverse and longitudinal comparisonmethod with the improved fuzzy clustering algorith Mis presented.Themethod uses traditional transverse and longitudinal comparison to process largevariables load and themissing load firstly.Secondly,the objective function of fuzzy C-meansmethod is improved and the particle swar Moptimization algorith Mis introduced to get the improved fuzzy clustering algorithm.The characteristic curve is gained by curve clustering.Finally the bad data are corrected by using the characteristic curve.Example analysis indicates that the newmethod achievesa good resultand verifies the effectivenessof the newmethod.
data processing;bad data;fuzzy C-meansclustering;particle swar Malgorithm
TM715
A
1003-8930(2015)07-0078-06
10.3969/j.issn.1003-8930.2015.07.14
常鮮戎(1956—),男,博士,教授,研究方向為電力系統分析與控制。Email:changxr1@sina.com
2013-12-24;
2014-03-26
孫景文(1991—),男,碩士研究生,研究方向為電力系統分析與控制。Email:championsun1@163.com