徐毅,吳鳴,李廣瑋,王昕揚
(1.上海電力大學 電子與信息工程學院,上海 200090; 2.中國電力科學研究院有限公司,北京 100192)
近年來,隨著智能電網的深入和推進,越來越多的高級量測體系(Advanced Metering Infrastructure,AMI)投入運營中,電力負荷數(shù)據(jù)變得易于感知和測量,為電網公司提供了海量的用戶負荷數(shù)據(jù)[1]。通過聚類技術可以從大量的用戶負荷數(shù)據(jù)中挖掘出其典型的用電特征,能夠為電網公司實現(xiàn)負荷預測[2]、需求側管理[3]等方面提供強有力支撐。因此研究合理準確的負荷曲線聚類方法具有十分重要的現(xiàn)實意義。
目前國內外對負荷曲線的聚類大致上可分為直接法和間接法[4]。直接法是對經采集過的負荷數(shù)據(jù)直接進行聚類,常見的聚類算法有K-means[5]、FCM、SOM等。但隨著負荷數(shù)據(jù)規(guī)模的不斷增長,直接法帶來了存儲和計算效率的雙重挑戰(zhàn)。
間接法可以解決這一矛盾。間接法是指先提取負荷曲線的特征,再根據(jù)其特征進行聚類分析。間接法可分為變換和降維兩種方法。常見的變換方法有離散小波變換[6]、離散傅里葉變換[7]等。降維是指將負荷數(shù)據(jù)維數(shù)進行降低,再進行聚類。例如文獻[8]采用了6個有明確物理意義的特征指標作為負荷曲線降維的依據(jù),再利用加權K-means聚類方法進行聚類。文獻[9]采用主分量分析方法得到日負荷曲線的部分主要特征作為降維聚類的指標,再利用加權K-means方法進行聚類。文獻[10]采用奇異值分解方法將數(shù)據(jù)旋轉變換至新的坐標系中,然后將各坐標軸上的坐標作為降維指標,再利用改進的K-means方法進行聚類。文獻[11]采用SAX算法對負荷曲線進行降維并提取特征,再運用改進AP聚類算法對負荷曲線進行聚類。文獻[12]采用主成分分析進行降維,再用四種聚類方法進行聚類,最后用共識矩陣對各聚類成員進行聚類融合。
上述選取的不同降維方法雖然都能進行有效的聚類,但在聚類過程中均存在兩個問題:(1)采用降維破壞了原本曲線之間的差異性,對原始曲線信息造成一定程度損失,可能會導致原本被分成一類的曲線通過降維被分成不同類別,進而會對曲線聚類的準確度造成影響;(2)通過降維得到的指標是有重要程度之分的,需要對其進行權重配置。
多維縮放(Multi-Dimensional Scaling,MDS)是一種典型的降維算法,它是保持了樣本在原始空間和低維空間的距離不改變?yōu)樵瓌t,最大程度地減小了數(shù)據(jù)“失真”的現(xiàn)象[13]。這樣可以很好的解決因降維后所導致的樣本間差異性降低的問題。
假設有n個用戶,每個用戶采集到m維數(shù)據(jù),可以計算出在原始m維空間中的距離矩陣D∈Rn×n(這里采用歐式距離),其中dij表示第i個用戶和第j個用戶之間的距離。若把數(shù)據(jù)降維到q維空間中去,得到所有用戶點在q維空間中的表示為矩陣Z∈Rn×q,其中第i行數(shù)據(jù)zi=[zi,1,zi,2,…,zi,q]表示第i個樣本,并且任意兩個用戶在q維空間中的距離等于原始空間中的距離。由此,可推導出滿足此條件矩陣Z的解析解[14]。
由保持距離原則可知:
(1)
假設低維空間中的樣本是中心化的,即:
(2)
對式(1)左右兩邊求和有:
(3)
(4)
(5)
定義內積矩陣B=ZZT∈Rn×n,bij是矩陣B中第i行第j列的元素,即bij=zizTj。則由式(1)可知:
(6)
由式(2)~式(6)可得
(7)
對矩陣B做特征分解,得到:
B=VΛVT
(8)
式中Λ是由B的特征值生成的對角矩陣;V是特征向量作為列的矩陣。
由矩陣B的定義則有:
(9)
為了能實現(xiàn)降維,往往僅需降維后的距離與原始空間中的距離盡可能接近,而不必嚴格相等。若降到q維空間中去,則選取前q個最大的特征值及其所對應的特征向量,得到Λq和Vq,則降維后的特征表示為:
(10)
求出矩陣B的特征值并按照從大到小(取前m個)排列為:λ1≥λ2≥…≥λq…≥λm
定義sq為累計貢獻率,其公式如下:
(11)
累計貢獻率越大,則說明降維后的矩陣保留了越多的信息。通常累計貢獻率達到95%即可確定降維的數(shù)目。
文中據(jù)預處理包括異常數(shù)據(jù)處理、數(shù)據(jù)歸一化處理和曲線平滑處理三部分。
2.1.1 異常數(shù)據(jù)處理
在數(shù)據(jù)采集的過程中,由于數(shù)據(jù)傳輸、裝置故障、線路等問題會產生異常數(shù)據(jù)[15]。對異常數(shù)據(jù)需要通過負荷變化率來判別,當某條日負荷曲線的數(shù)據(jù)異常量超過10%時,需剔除;若小于10%時,則通過均值替換法進行修正。其計算方式如下:
設第i條曲線的第k個數(shù)據(jù)值xi,k為異常數(shù)據(jù)點,修正值為:
(12)

2.1.2 數(shù)據(jù)歸一化處理
由于采集到的日負荷曲線數(shù)據(jù)之間存在較大的差異,為消除負荷數(shù)量級對聚類效果的影響,因此要對數(shù)據(jù)進行歸一化處理。
通過歸一化可將用戶負荷特性數(shù)據(jù)壓縮在區(qū)間[0,1]中。文中用極值歸一化方法,表達式如下:
(13)
式中x(i,k)是經采集過的第i條用電曲線在第k點的負荷數(shù)據(jù);x′(i,k)是經歸一化后的第i條用電曲線在第k點的負荷數(shù)據(jù);x(i)max和x(i)min是第i條負荷曲線的最大、最小用電量。
2.1.3 曲線平滑處理
電網在實際運行時由于受到通信中斷、軟硬件故障、信號干擾等影響會使得負荷數(shù)據(jù)產生失真情況,導致負荷曲線出現(xiàn)較大波動,從而影響聚類結果。而高斯濾波法可以更有效地“消除干擾”,進一步突出曲線形狀,反映出曲線的總體趨勢[16]。故采用高斯法處理數(shù)據(jù),經過處理前后的負荷曲線如圖1所示。

圖1 負荷曲線的平滑處理
2.2.1 基于CRITIC—熵權法的指標權重配置方法
基于MDS的理論,若降低到q維空間中去,則取出前q個最大的特征值。這說明特征值的大小反映出了該維空間的重要程度,也同時說明降維指標是有重要程度之分的。若將降維后的矩陣直接進行K-means聚類,則會忽略降維指標的重要程度,將在很大程度上影響負荷聚類質量。故需要進行降維指標權重配置。
單一的CRITIC法未能考慮指標間的差異性對指標權重的影響,而熵權法則是充分運用指標的數(shù)據(jù)信息的差異來確定指標權重,可以彌補這一不足;但是單一的熵權法又容易受到指標數(shù)值變動的影響,指標值的變動很小或者很突然地變大變小會使得熵權法用起來有局限。故本文將兩種方法相融合,優(yōu)勢互補,構建了基于CRITIC—熵權法的指標權重配置方法[17]。
設降維后的矩陣Z=(zij)n×q,i=1,2,…,n;j=1,2,…,q。則熵權法步驟如下:
(1)計算信息熵
(14)
(15)
式中Pij是第i個用戶在第j個降維指標下的貢獻度;Ej是第j個降維指標的信息熵。
(2)確定權重
(16)
式中wj是第j個降維指標的權重。
CRITIC法步驟如下:
(1)計算指標信息量
(17)
式中Cj是第j個降維指標所含有的數(shù)據(jù)信息量;δj是第j個降維指標所含有的數(shù)據(jù)標準差;rkj是k、j兩個降維指標之間的相關系數(shù)。
(2) 確定權重
(18)

進而得到降維指標的綜合權重為:
(19)
由此即可確定權重向量W=[W1,W2,…,Wq]。
2.2.2 改進的K-means聚類方法
以降維后的矩陣Z為輸入,以歐式距離作為相似性判據(jù),進行聚類,其處理過程如下:

Step2:樣本分類。計算每條日負荷曲線到K個子聚類中心的加權歐式距離,再將該條日負荷曲線劃分到距離它最近的子聚類中心。從樣本zi到第j個聚類中心zj=[zj,1,zj,2,…,zj,q]的加權歐式距離可由式(20)計算:

(20)
Step3:更新聚類中心。根據(jù)Step2中所得到的結果,對每個類簇中的所有日負荷曲線求取平均值,并將其作為各類簇的新聚類中心;
Step4:迭代計算。計算聚類中心是否收斂,若未收斂則跳轉至Step2,重復步驟Step2和Step3;若收斂則算法結束。
聚類有效性檢驗是使用聚類有效性指標,對聚類后的結果進行評價,以此來明確最優(yōu)類簇數(shù)的過程[18]。常見的聚類有效性指標有輪廓系數(shù)(Silhouette Coefficient, SC)、CHI指標(Calinski-Harabasz Index,CHI)、戴維森堡丁指數(shù)(Davies-Bouldin Index,DBI)。
由于SC是通過極值點來判斷最優(yōu)類簇數(shù),而極值點相比較于拐點從視覺上更易覺察出;此外SC的內聚度指標和分離度指標使用的是樣本的平均歐式距離,穩(wěn)定性強,不易受到類簇中心干擾,所以采用SC作為聚類有效性指標[19]。
設曲線被分成K個類簇U1,U2,…,UK,當計及權重向量W時,則對于第i個樣本其對應的向量修正輪廓系數(shù)為:
(21)
其中:
式中a(i)為i向量到同一簇內其他點不相似程度的平均值,該值越小,簇內越緊湊;b(i)為i向量到其他簇的平均不相似程度的最小值,該值越大,簇間分離程度越高。
將所有樣本的輪廓系數(shù)求平均值,就是該聚類結果的總輪廓系數(shù)Sn(i):
(22)
Sn(i)可用于評估聚類的總體質量,其值越大就表明聚類的效果越好,對應于最大值時的聚類數(shù)目K就是該聚類結果的最優(yōu)類簇數(shù)。基于MDS的負荷聚類算法的流程圖如圖2所示。

圖2 基于MDS的負荷聚類流程圖
文中實驗數(shù)據(jù)集來自于SEAI發(fā)布的愛爾蘭智能電表實際測量數(shù)據(jù),其覆蓋了2009年~2011年6 369個家庭用戶及中小型企業(yè)用戶,負荷數(shù)據(jù)每30 min采集一次,每個用戶每天共采集48個數(shù)據(jù)點[20]。
本文共選取2 945戶負荷數(shù)據(jù)作為樣本進行實驗,經過數(shù)據(jù)預處理后,最終獲得了共計2 732條有效的日負荷曲線,構成了2 732×48階矩陣A。
采用MDS降維并求累計貢獻率sq,如圖3所示。

圖3 累計貢獻率
由圖3可知,當降維指標數(shù)目達到3時其累計貢獻率可達到95%以上,故選取降維指標數(shù)目q=3,由此得到2 732×3階降維矩陣Z。再經熵權法確定權重,得權重向量W=[0.780 6,0.084 5,0.134 9]。采用改進K-means算法對矩陣Z進行聚類,經過計算得出總的輪廓系數(shù)Sn(i)和聚類數(shù)目K之間的曲線如圖4所示。

圖4 基于MDS降維的聚類指標曲線
由圖4可知當K=5時,Sn(i)取最大值為0.935 4,此時聚類效果最好,故最優(yōu)類簇數(shù)為5。這時得到的日負荷曲線聚類結果如圖5所示。

圖5 基于MDS降維的日負荷曲線聚類結果
計算每類簇中所有日負荷曲線的平均值,并將其作為該類簇負荷的典型日負荷曲線,則得到的結果如圖6所示。

圖6 基于MDS降維的典型日負荷曲線圖
在圖6中,各類簇曲線按照順序依次呈避峰型負荷、平穩(wěn)型負荷、單峰型負荷、雙峰型負荷和錯峰型負荷。在聚類結果中屬于各類簇的曲線數(shù)目依次為566,222,819,220和605。
類簇1為避峰型負荷,主要用電量在18:00-次日6:00期間,這類負荷主要是夜間營業(yè)用電量大,符合酒店、酒吧、KTV等的用電特征。類簇2為平穩(wěn)型負荷,全天用電量較為平坦,這類負荷應為一些保障民生生活類的負荷,全天無休,如供電、供暖等。類簇3為單峰型負荷,表現(xiàn)為在白天9:00-17:00期間用電量大,負荷曲線較為平滑,這類負荷包括學校、醫(yī)院、辦公樓等。類簇4為雙峰型負荷,兩個負荷峰期集中在9:00-12:00和14:00-17:00期間,多為政府機關、企事業(yè)辦事機構等行業(yè)性用戶。類簇5為錯峰型負荷,主要用電量在0:00-6:00和15:00-24:00期間,在凌晨左右有小范圍的波動,所以主要呈夜間用電特征,這類負荷主要為家庭用戶白天不在家用電在晚上,同時符合一些用電量大的企業(yè)利用峰谷電價在電價低谷時安排企業(yè)進行生產的習慣。
各類簇曲線走勢符合數(shù)據(jù)集的特征,故基于MDS降維的聚類算法能夠較為準確地對日負荷曲線進行分類,分類結果較為合理。
將原始數(shù)據(jù)經數(shù)據(jù)預處理及曲線平滑處理后,直接采用以48個數(shù)據(jù)點的數(shù)據(jù)為輸入,利用傳統(tǒng)K-means算法進行聚類。此時得出總的輪廓系數(shù)Sn(i)和聚類結果分別如圖7、圖8所示。

圖7 基于K-means降維的聚類指標曲線

圖8 基于K-means降維的日負荷曲線聚類結果
此時得到屬于各類簇的曲線數(shù)目依次為570,222,815,224和601。與采用MDS降維聚類的結果相比可知雙峰型負荷和錯峰型負荷顯得雜亂無章,
負荷曲線不平滑。
將使用MDS降維聚類得到的輪廓系數(shù)、運行時間等數(shù)據(jù)和采用傳統(tǒng)K-means聚類算法得到的運行數(shù)據(jù)作對比,結果見表1所示。

表1 MDS算法和k-means算法聚類結果對比
由表1可知,兩種算法的最優(yōu)類簇數(shù)都是5,說明分類數(shù)目選擇合理。在采用MDS降維算法時的總輪廓系數(shù)Sn(i)略大于傳統(tǒng)K-menas聚類算法,則前者的聚類質量優(yōu)于后者,這是因為采用MDS降維提取出負荷最本質的特征,忽略了無關緊要的信息的干擾,同時也說明了采用MDS降維聚類的準確度高于采用傳統(tǒng)K-menas聚類。MDS降維聚類算法的程序總運行時間約為傳統(tǒng)K-menas聚類算法7/11。因此,使用MDS降維聚類算法的分類數(shù)選擇準確,分類結果合理,并且在聚類準確度和聚類時間兩方面均優(yōu)于傳統(tǒng)K-means聚類算法。
綜上,MDS降維聚類算法較傳統(tǒng)K-means方法更能準確地反映用戶的功耗特性,具有更好的技術應用價值。
文章提出一種基于多維縮放的日負荷曲線聚類方法,通過多維縮放進行降維處理、CRITIC—熵權法確定降維指標的權重并采用加權歐式距離作為相似性判據(jù),對日負荷曲線進行聚類。算例結果顯示該降維聚類方法應用于日負荷曲線聚類提高了聚類的準確度,提升了聚類的質量。
文中使用的是K-means聚類算法進行聚類,初始的聚類中心隨機選取,易陷于局部最優(yōu),后續(xù)研究可以提出一種選擇初始的聚類中心的方法,亦可將MDS降維和其他聚類算法相結合。此外,研究方法是將其應用于負荷曲線聚類領域,其關注點是曲線形態(tài)的走勢,后續(xù)研究可以將文中方法應用于其他領域當中。