基于密度峰值聚類的超短期工業負荷預測

2023-03-29 13:38:28金維剛周良松

計算機仿真 2023年2期

金維剛，李鋒，周良松

(1. 國家電網公司華中分部，湖北武漢 430077；2. 華中科技大學電氣與電子工程學院，湖北武漢 430074)

1 引言

2015年國務院發布的第9號文件提出了關于進一步深化電力體制的改革，促進我國電力行業又好又快的發展的精神。努力解決電力行業的突出矛盾和深層次問題，并且要盡力推動結構轉型和產業升級[1]。隨著我國新一輪電力體制改革的實施，挖掘用戶用電數據和用電行為，掌握用戶用電規律，進行精準的負荷預測具有重要意義[2]。

水泥行業是一類電力高耗能產業，其負荷總量大，波動性強，具有一定的沖擊負荷，對電力系統具有較大影響，威脅著電力系統安全穩定和電能質量。因此，要科學的對影響水泥行業電力負荷的因素進行分析，達到提高負荷預測的準確性的目的，并以此為依據對生產方式進行調整，保證電力系統的穩定運行。

目前，針對高耗能的工業用戶負荷預測主要集中在中長期負荷預測上，文獻[3]提出了針對高耗能工業用戶的負荷波動特點用分類建模的思想進行負荷預測模型的構建，但是其分類原則依靠主觀判斷。文獻[4]使用粒子群算法優化后的最小二乘支持向量機預測模型對某工業用戶進行了中長期負荷預測。文獻[5]、文獻[6]均中使用了FCM聚類法，研究工業用戶的負荷特性，但是FCM聚類算法容易陷入局部鞍點，所以預測精度不高。文獻[7]采用的遺傳膜優化BP神經網絡預測模型存在較大主觀性，且預測精度不高。

針對以上問題，本文針對以水泥工業為例的高耗能工業用戶提出了一種基于密度峰值聚類的GRNN神經網絡的超短期負荷預測的方法，區別于其它預測方法的是，本文中使用聚類效果更佳的密度峰值聚類算法對負荷數據進行聚類分析，再對聚類所得類簇分別建立預測模型，預測精度更高，對于指導用戶合理購電更具指導意義。

2 數據預處理及分析

2.1 數據預處理

本文中采用的負荷數據來源是某市某水泥公司，通過關口表采集到的數據。時間跨度是2018年5月1日到2018年12月31日，共計245天，每15分鐘進行一次數據采集，每日共計96個點。刪除含有異常值的26天的數據，并將數據歸一化到區間[0，1]中。

2.2 數據分析

圖1 原始負荷曲線

對數據進行時間序列分析如圖1將原始數據分為長期趨勢和短期趨勢進行分析，可以看出水泥行業的負荷特點是日負荷曲線波動很大，每日曲線的形狀也有一定的差異，有時負荷還會接近0。但就每天的總體趨勢來看，日間負荷會出現低谷，高峰出現在夜間，原因是用戶根據分時電價制定生產計劃。在保證正常生產狀況的情況下，峰時電價時間段盡可能減少用電，谷時電價時可以滿負荷運作，以達到減小生產成本的目的。基于這種情況。考慮對用戶的負荷曲線進行聚類研究，然后進行負荷預測。

3 密度峰值聚類算法

2014年，亞歷克斯·羅德里格斯(Alex Rodriguez)和亞歷山德羅·萊奧(Alessandro Laio)在Science上發表文章，提出了一種新的聚類算法，稱為“密度峰值聚類”。該算法通過計算數據點之間的距離識別非球狀類簇，與FCM聚類方法相比，該算法可以自動確定聚類中心和聚類數，并快速搜索并找到數據點的密度峰值[8]。可以得到更精準的類簇，用以分析用戶用電行為。

3.1 算法原理

密度峰值聚類算法的核心是對聚類中心的定義，聚類中心有兩個重要的特征：

1)聚類中心具有較大的自身密度，即聚類中心的密度大于包圍聚類中心的“鄰居”的局部密度[8]。

2)聚類中心和局部密度比它更大的數據點之間的距離相對來說會更大。

假設待聚類的數據集為X={xi}N，其對應的指標集為IX={1，2，…，N}，用dij表示數據點xi與xj之間距離，對于數據集X中的任一數據點xi，定義兩個重要的參數：局部密度ρi和距離δi。

局部密度ρi通常采用截止核函數(Cut-off kernel)或者高斯核函數(Gaussian kernel)進行計算，但Cut-off kernel為離散值，而Gaussian kernel為連續值。考慮到本文中原始數據為連續值，故采用高斯核函數來計算局部密度。

(1)

式中，dij表示數據點xi與xj之間的距離，dc表示截斷距離，ρi表示數據集X中與數據點xi的距離小于dc的點的個數。其中dc需要人為指定，對于大型數據集，密度峰值聚類算法對于dc的選取具有魯棒性[12]。

ρq1≥ρq2≥…≥ρqN

(2)

定義距離δi為

(3)

運用式(1)(3)計算可以得到各數據點xi∈X的(ρi，δi)，然后在二維坐標圖中將所有數據點表示出來得到決策圖。選擇聚類中心的原則是該數據點的ρ值和δ值均比較大。而剩余的數據點會在確定聚類中心之后被分派到距離最近的自身密度更高的數據點所在類簇中。

對于在決策圖中難以用肉眼判斷出聚類中心的情況，定義一個綜合考慮ρ值和δ值的指標γi

γi=ρiδi，i=IX

(4)

3.2 兩個距離dij和dc的選取

3.2.1距離dij的選取

距離dij用于評價不同樣本之間的差異度[9]，由于已經對原始數據進行歸一化處理，因此，只需要考慮不同樣本之間在空間距離上的數值差異，在此引入歐式距離，其表達式為

(5)

式中，xik和xjk為樣本xi和xj的第k維元素。

3.2.2截斷距離dc的選取

首先計算樣本之間的歐氏距離得到N個距離值，然后將距離值升序排列為d1≤d2≤…≤dN。截斷距離dc=dn，其下標n=[0.02N]([ ]為取整函數)。

4 密度峰值聚類

4.1 決策圖

將第一節中歸一化后的數據，共計219天，每天96個點構成的219×96維的負荷特征向量進行平滑處理然后進行聚類，得到如圖2的結果。圖(a)中同時具有較大ρ值和δ值的點共有4個，圖(b)中顯示這4個點與其它點在γ≈0.13處有明顯躍變。所以聚類中心共有4個，聚類數為4。

圖2 聚類結果

4.2 類簇分析

各類簇反映的日負荷波動情況如圖3所示，由于已對數據歸一化到區間[0，1]，所以縱軸刻度為[0，1]。

圖3中的四種波動情況基本涵蓋了水泥行業的在各種生產狀況下的負荷波動情況。類簇1反映了減產甚至停產的負荷情況，類簇2和類簇4反映了正常生產情況下采用避峰的手段降低用電成本的負荷特性，類簇3反映了企業全天候滿負荷生產時的負荷特性。

圖3 類簇圖

5 廣義回歸神經網絡

廣義回歸神經網絡是一種非線性映射能力更強，容錯性更好，魯棒性更高的改進型徑向基函數[12]。而且在樣本數較少的情況下依然能有較高的預測精度。鑒于本文中的負荷數據較少，所以選用廣義回歸神經網絡進行預測。

5.1 廣義回歸神經網絡結構

本文中所使用的廣義回歸神經網絡結構共四層，分別是輸入層、輸出層、模式層和輸出層。輸入層和輸出層均設96個神經元。

5.2 神經網絡訓練

5.2.1 K折交叉驗證

由于部分類簇的樣本數量較少，所以本文采用交叉驗證的方法進行神經網絡的訓練[13]。根據每一類簇的具體樣本數進行K折交叉驗證，將樣本分割成K個子樣本，輪流將一個子樣本作為測試集，剩余的K-1個子樣本作為訓練集，重復K次。再針對每一類簇建立神經網絡預測模型，求得最優輸入輸出。

5.2.2 最優SPREAD值的選擇

SPREAD值是調節廣義回歸神經網絡的重要參數[10]，其合理的選值是否合理直接影響著預測結果的精度。SPREAD值越大，就越能保證神經元能對輸入向量所覆蓋的區域都能產生對應，但是SPREAD值如果太大，數值計算就會變得較為困難，同時太大的SPREAD值會使神經網絡在數據樣本的逼近結果出變得光滑，導致誤差的變大。所以本文為了對數據進行更為嚴格的擬合，通過循環選取SPREAD值的方法，選擇最優SPREAD值。

以比較有代表性的類簇2為例，共有48個樣本，進行4折交叉驗證，設置SPREAD值的取值范圍為[0.1，2]，步長為0.1，以均方誤差MSE作為輸出結果的評價指標。交叉驗證結果見表1

表1 類簇2交叉驗證結果

由表1得交叉驗證在第4次交叉驗證，SPREAD值取1.5時MSE的值最小。所以對于類簇2采用第5次驗證時所用的訓練集，SPREAD值取1.5，構建的GRNN神經網絡模型的預測效果最好。針對其它3個類簇構建GRNN神經網絡預測預測模型時也遵照此方法選取最優訓練集和最優SPREAD值。

6 算例分析

本文選用某市某水泥企業2018年5月1日至12月31日的負荷數據為基礎，對未來全天每15分鐘一個點進行負荷預測。分別與密度峰值聚類+BP和FCM+GRNN的預測模型進行對比。

6.1 預測結果分析

本文中所采用的評價預測精度的指標為平均絕對誤差百分比(MAPE)和均方根誤差(RMSE)。

(6)

(7)

式中，PP(i)表示企業負荷預測值，PR(i)表示企業負荷實際值。N=96，表示一天的預測點個數。

從4個類簇中分別隨機選取2018年12月4日(類簇1)、2018年12月30日(類簇2)、2018年3月19日(類簇3)和2018年6月1日(類簇4)，作為實測曲線與預測曲線進行對比，見圖4，預測誤差統計結果見表2。可以看出，本文提出的預測方法在各個類簇中均表現較好，預測精度較高。但是對于2018年3月19日14時前后的時刻和2018年6月1日8時左右的時刻的預測，精度較低。且均是未能將突然出現的負荷波動預測出來，但是對于類簇1中的劇烈波動卻能有較好的預測結果。原因是類簇1的樣本數量較多，而類簇3和類簇4的樣本相較偏少。對于類似水泥行業的大型工業用戶來說，在生產過程中，由于人為因素，或者市場，政治因素導致的用電負荷出現劇烈波動的情況時有發生，那么對于在小樣本下如何提升對產生劇烈波動的負荷特征的提取與預測是下一步要研究的重點。

表2 預測效果評價

圖4 負荷預測結果

6.2 預測模型對比

將2018年12月30日作為預測日，用相同的數據集，再分別使用密度峰值聚類+BP神經網絡預測方法和FCM+GRNN預測方法進行預測，同樣使用MAPE和RMES作為評價指標。預測效果指標模型對比結果見表3，各模型預測結果對比圖見圖5，為保證圖片清晰度，僅選擇每日24個點進行繪圖。從對比結果中可以看出，使用本文提出的方法可以更好地提高預測精度。

表3 預測模型對比結果

圖5 2017年12月30日各模型預測曲線

7 結論

本文針對水泥行業提出了一種超短期負荷預測的方法，采用密度峰值聚類方法對負荷數據進行聚類，再針對不同類簇分別建立GRNN負荷預測模型，使用Matlab軟件得到仿真結果，預測精度可以達到9.27%，現有以下結論。

1)密度峰值聚類相較于傳統聚類方法可以更準確的對原始負荷數據進行聚類，且不需要人為指定聚類中心和聚類數，在對大用戶進行負荷預測之前對原始數據進行聚類方面具有較好的適用性。

2)構建GRNN神經網絡負荷預測模型時，根據不同類簇樣本數的不同，選擇K折交叉驗證訓練模型，循環選取SPREAD值，然后去的最優值構建GRNN神經網絡。預測精度較高，能夠更好地指導用戶合理購電。