楊 鄧,楊俊杰,2
(1. 上海電力大學電子與信息工程學院,上海 200090;2. 上海電機學院,上海 201306)
近年來,隨著智能電網數(shù)字化、信息化的不斷發(fā)展,電網公司積累了海量的用電負荷數(shù)據。聚類算法就是通過挖掘用戶的用電行為實現(xiàn)對電力用戶負荷曲線有效分類,對電網的實時調度以及運行規(guī)劃等方面提供一定的參考意義。常用的聚類方法有直接聚類和間接聚類。程江州等[1]采用CK-means算法對負荷曲線直接聚類,但直接聚類方法在計算效率、聚類質量等方面存在著嚴重的不足。間接聚類是將原始負荷數(shù)據進行降維或特征提取,然后進行二次處理的技術。陳菲等[2]采用多層凝聚方法降低負荷曲線的維度,提高了聚類精度。陳燁等[3]采用SVD分解將高維負荷數(shù)據映射至低維坐標中,實現(xiàn)降維聚類。宋英軍等[4]將歐式距離與動態(tài)時間彎曲距離相結合提取出日負荷曲線的整體與局部等3種特征,采用K-means算法對日負荷曲線聚類。
上述研究成果,采用的降維方式不能準確反映原始負荷曲線的特征,這會對聚類的效果產生影響,從而影響聚類的質量。鑒于此,本文提出了一種基于多維標尺及加權模糊C均值聚類的日負荷曲線聚類方法。通過MDS降維技術保留了原始負荷曲線之間的特征,結合加權模糊C均值聚類方法達到對負荷曲線的精準分類。以我國某地區(qū)真實數(shù)據為例,驗證了本文方法的有效性。
將MDS理論[5,6]應用于日負荷曲線降維中,假定一個由m條負荷曲線,每條負荷曲線有n個采樣點,其構成原始空間的距離矩陣D∈Rm×m,表示為

(1)
dij表示第i個用戶負荷曲線到第j個用戶負荷曲線之間的歐氏距離,將原始n維空間數(shù)據降至q維空間表示為Z=[z1,z2,…,zm]∈Rm×q,第i個用戶的負荷數(shù)據為zi=[zi1,zi2,…,ziq],且滿足任意兩個用戶在q維空間中的歐氏距離等于n維空間的歐氏距離,以此達到降維效果。
根據降維前后距離不變原則可得

(2)


(3)
對矩陣B做特征值分解,得:B=VΛVT,其中Λ=diag(λ1,λ2,…,λn)為矩陣B的特征值構成的對角矩陣,滿足λ1≥λ2≥…≥λn,V為特征向量矩陣。取前q個最大非零特征值,它們構成的對角矩陣為Λq=diag(λ1,λ2,…,λq),對角陣元素依然按照降序排列令Vq為其對應的特征向量矩陣,則降維后矩陣Z可以表示為

(4)
3.1.1 異常數(shù)據處理
負荷數(shù)據在采集過程中由于儀表故障、傳輸通信故障等常常會產生異常數(shù)據。當采集的某條負荷曲線的異常量高于10%及以上時,就認為該條負荷曲線無效,反之,則通過式(5)進行修正。本文假設某條負荷曲線xk=[xk,1,xk,2,…,xk,n]經檢測存在異常且異常量低于10%,則其修正量為

(5)

3.1.2 負荷數(shù)據歸一化
為防止原始數(shù)據之間因數(shù)量級差異影響聚類效果。需要將原始數(shù)據歸一化處理變換至[0,1]之間。本文采用最大值歸一化的方法,如式(6)所示

(6)

3.1.3 高斯平滑處理
在實際的負荷數(shù)據采集過程中,所采集的數(shù)據不可避免的會受到多種干擾信號或者設備故障等因素導致負荷數(shù)據存在較大的波動。采用高斯平滑處理能夠消除因為數(shù)據突變而帶來的高額噪聲干擾,起到更好的聚類效果。以某條負荷曲線為例,平滑處理前后的負荷曲線對比如圖1所示。

圖1 負荷曲線的平滑處理
為了充分利用第2節(jié)中矩陣B特征值的下降趨勢,本文采用最小二乘法來確定q值的大小,步驟如下:
Step 1:計算特征值。對矩陣X多維標尺處理,獲得n個特征點(i,λi)組成的數(shù)據集S。

Step 3:求擬合誤差。求出前q個特征點的擬合平均誤差Tq,并計入數(shù)據集T。
Step 4:計算q=q+1,重復Step2和3,當q>n時,轉到Step 5。
Step 5:確定降維指標q的值。找出數(shù)據集T中的最小值,對應的q值即為最終的降維指標數(shù)目。
改進熵權法配置指標權重如下
1)計算熵值ej。第j個降維指標的熵值可由下式確定

(7)

(8)
式中:i=1,2,…,m,j=1,2,…,q;k為常數(shù),k=1/lnm;Pij為第i個用戶下的第j個被評價對象的貢獻度。
2)計算權重wj。利用改進后的權重計算公式計算wj

(9)
式中:wj∈[0,1],且滿足

(10)
考慮指標權重對聚類結果的影響,本文采用的WFCM算法與傳統(tǒng)FCM算法稍有不同,步驟如下:

Step 2:確定隸屬度矩陣U。隸屬度矩陣U=[U1,…,Ui,…,Um],Ui=[ui1,…,uij,…,uiL],其中uij表示zi屬于第j個聚類中心的隸屬值,uij可以表示為

(11)
Step 3:計算目標函數(shù)J。在負荷曲線聚類過程中,將每個用戶負荷數(shù)據到所有聚類中心的距離的加權平方和定義為目標函數(shù):

(12)
Step 4:更新聚類中心。若Step 3中目標函數(shù)J的值未達到最小,那么需要根據式(13)重新選取聚類中心并返回Step 2。
(13)
Step 5:當目標函數(shù)J達到最小值時,算法結束。
采用的加權模糊C均值算法是在原始FCM的基礎上對隸屬度矩陣、目標函數(shù)等更加細致化的調整,對聚類效果有更進一步的提升。
聚類的有效性檢驗是通過聚類有效性指標確定最佳的聚類數(shù)。常用的指標有XB指標、SC指標、SSE指標、CHI指標、DBI指標等[7]。其中XB指標在模糊聚類當中是較為有效的指標。XB指標值越小,代表的聚類效果越好,并且該指標相對于其它指標更加適合用于負荷曲線聚類的研究。由于本文考慮計入權重的影響,故XB指標計算公式如下

(14)
XB指標的分子與分母分別反映的是類內緊湊程度與類間分散程度,當類內緊湊度越小,類間分散度越大時,即XB值越小,聚類效果越好。反之,不然。所以當XB指標取得最小值時所對應的L即為最佳聚類數(shù)。
本文的MDS-WFCM負荷聚類算法流程圖如圖2所示。

圖2 基于XB指標的MDS-WFCM負荷聚類算法流程圖
本算例選取中國北方某地區(qū)2017年9月某個工作日2142個用戶的日負荷曲線為研究對象,采樣間隔為30min,每條負荷曲線共計48個采樣點。樣本數(shù)據經預處理去除無效負荷曲線后,最終共含2112條有效的日負荷曲線,構成2112×48階初始矩陣。
采用MDS降維后繪制矩陣B的特征值曲線,如圖3所示。采用最小二乘法,求平均擬合誤差Tq,擬合誤差集如表1所示。

表1 擬合誤差集

圖3 特征值曲線
由表1可知,當q為3時,Tq取最小值,獲得最佳擬合曲線y=kx+b,如圖4所示。因此本算例最佳降維數(shù)為3,初始2312×48階矩陣便轉換為2312×3階降維矩陣Z,同時采用改進熵權法獲得3個降維指標對應的權重向量為W=[0.65,0.27,0.08]。以矩陣Z以及權重向量W作為輸入,采用加權FCM算法進行聚類,將聚類結果與負荷數(shù)據經預處理后直接利用FCM算法聚類(以下稱為傳統(tǒng)方法)對比。

圖4 兩種方法在不同聚類數(shù)下的XB指標
由圖5本文方法與傳統(tǒng)方法在不同聚類數(shù)下的有效性檢驗指標可知,兩種方法分類數(shù)對應XB指標走勢基本相似,當聚類數(shù)為4時,兩種方法的XB指標值均取得最小值,因此兩種方法確定最終的聚類數(shù)均為4。

圖5 本文方法聚類結果
如圖6、7所示,本文方法聚類結果中4類曲線數(shù)目分別為544、547、362、659,傳統(tǒng)方法聚類結果中對應的4類曲線數(shù)目為563、528、362、659。從分類結果可以看出傳統(tǒng)方法在類別1與類別2之間存在少量的誤分。分析其原因,傳統(tǒng)方法是以負荷數(shù)據之間的距離作為相似性判據進行的聚類,這會因為樣本數(shù)據維度較高導致聚類質量效果較差。而本文方法所采用的MDS降維特征提取,在保證負荷曲線之間距離不變的情況下,以負荷主要特征作為聚類的依據,分類結果相對準確且穩(wěn)定,在聚類質量上優(yōu)于傳統(tǒng)方法。雖然兩種方法在結果上存在一定的差異,但總體分類結果仍具有高度的相似性。

圖6 傳統(tǒng)方法聚類結果
圖7為兩種方法提取的聚類中心曲線。具體分析這四類曲線:第1類負荷曲線為雙峰型,主要用戶包含政府、公共事業(yè)單位等用電較為規(guī)律。第2類負荷曲線為單峰型,主要為某些商場、寫字樓等。第3類負荷曲線為避峰型,主要包括夜間用電量高的行業(yè),如公用路燈、網吧、KTV、酒吧等。第4類負荷曲線為平峰型,主要包括大工業(yè),制造業(yè)等用電量持續(xù)高峰。分析表明,本文方法和傳統(tǒng)方法聚類中心曲線較為相似,但從工程角度分析,本文方法更能體現(xiàn)用戶的實際用電特征,具有較好的應用價值。

圖7 兩種方法聚類中心曲線對比
綜合比較兩種方法的性能,如表2所示,在同時取得最佳聚類數(shù)目的情況下,使用本文方法的總的程序運行時間僅為4.83s,相對于傳統(tǒng)方法縮短了64.8%,且XB指標值以及聚類過程迭代次數(shù)也均小于傳統(tǒng)方法。不難發(fā)現(xiàn),本文方法在運行效率和聚類質量上具有較大的優(yōu)勢,體現(xiàn)了本文方法的有效性。

表2 兩種方法聚類結果性能對比
為了檢驗本文所提聚類方法的魯棒性[8],這里基于6類典型日負荷曲線,并在每類負荷曲線每個數(shù)據點加入一定比例r的隨機噪聲。模擬出每類200條,共計1200條日負荷曲線。當噪聲比例r為20%時,6類典型曲線如圖8所示。

圖8 1200條模擬曲線(r=20%)
改變噪聲比例r的大小,然后采用本文和傳統(tǒng)兩種方法對模擬的負荷曲線聚類分析。這里定義聚類準確率h為分類準確的負荷數(shù)量占總負荷數(shù)量的百分比。以最佳聚類數(shù)、XB指標、聚類準確率h來對比本文和傳統(tǒng)兩種算法的魯棒性,結果如表3所示。

表3 不同占比擾動信號下兩種方法魯棒性對比
根據表3可以得出以下結論。
1)隨著噪聲比例的依次遞增,兩種方法XB指標值也越來越大,分類準確率h開始出現(xiàn)下降趨勢,同時最佳聚類數(shù)也隨著噪聲比例的增加出現(xiàn)一定的偏差。因此可以用該3種指標衡量算法的魯棒性。
2)當所加噪聲比例較小時,兩種方法的分類準確率均接近于100%。但隨著噪聲比例的增加,對于本文方法,當擾動比例達到30%時,最佳聚類數(shù)開始出現(xiàn)偏差,分類準確率也出現(xiàn)一定的下滑。對于傳統(tǒng)方法當擾動比例達到25%時,最佳聚類數(shù)不再為6,同時分類準確率也出現(xiàn)了大幅度下滑。
通過對比,不難發(fā)現(xiàn),本文方法抗干擾能力優(yōu)于傳統(tǒng)方法,魯棒性較好。在一定強度的干擾下能夠較為準確的反映日負荷曲線的主要特征。
本文提出了一種基于MDS-WFCM的日負荷曲線聚類方法,通過MDS降維技術對原始負荷曲線進行降維,采用最小二乘法確定降維數(shù)目以及改進熵權法配置權重,最后采用加權模糊C均值聚類算法進行聚類。通過本文算例可以得出以下結論:
1)該方法用于負荷曲線聚類在總體效率、聚類質量、魯棒性等方面具有一定的優(yōu)越性,均優(yōu)于傳統(tǒng)方法,具有一定的參考價值。
2)采用MDS降維方法,使降維后用戶負荷曲線之間的距離維持了原有高維空間的相應距離,從而使降維后的負荷曲線能夠保持原有的重要特性,是對聚類質量的潛在提升。
3)本文采用改進熵權法來配置3個指標權重,避免了傳統(tǒng)熵權法計算帶來的誤差,在一定程度上保證了聚類結果的客觀性與準確性。選用加權模糊聚類算法,在聚類過程中自適應配置各項指標的權重,對聚類的準確度有了更進一步的提升。
本文提出基于多維標尺降維聚類算法,有助于掌握用戶的用電特征,對用戶用電異常檢測、電網需求側響應等方面具有實際的參考意義,如何將該方法在實際中應用也是本文下一步研究的重點。此外,是否有其它優(yōu)化算法對于本文降維方法的改進也是本文下一階段研究的內容之一。