王 瑞,閆 方,逯 靜,楊文藝
(河南理工大學計算機科學與技術學院,焦作 454000)
準確的負荷預測與合理地安排電網內部發動機組的啟停,對電力系統的安全、電網的穩定,以及電網的規劃與調度起著重要作用[1]。
目前,國內外常用的短期電力負荷預測方法可分為兩類。一類是傳統的時間序列分析方法,例如,時間序列預測法[2]、指數平滑分析法[3]、多元線性回歸法[4]等,這一類方法對數據的時序性要求很高,但非線性擬合能力不強,隨著智能電網的發展,電力數據的爆發式增長,利用此類方法預測的精度已經不能滿足社會發展的需求。因此,機器學習方法應運而生,例如,人工神經網絡[5]、支持向量機SVM(support vector machine)[6]和隨機森林 RF(random forest)等,這一類機器學習方法很好地解決了數據之間的非線性關系,但在用于負荷預測時,需要人為添加時間特征來保證預測精度。
隨著經濟的發展,人民生活水平逐步提高,空調等用電設備的使用量逐年増加,導致氣象因素、日類型因素對電力負荷的影響越來越大,傳統的預測方法難以準確進行負荷預測。考慮到歷史負荷數據之間有很強的時序性,故本文使用擅長處理時序性數據的長短期記憶LSTM(long short-term mem?ory)神經網絡作為基本模型對電力負荷數據進行預測。該網絡可以最大限度地挖掘數據之間時序性與非線性的關系。但此網絡容易忽略影響因素導致負荷數據突變,造成丟失數據的周期性,因此在LSTM神經網絡用于短期電力負荷預測的研究中,只考慮了數據時序性與非線性的關系,未考慮數據的周期性、時序性和非線性三者之間的關系。
選擇相似日是提高負荷預測、綜合預測、模型預測效果的有效途徑[7],為解決上述問題,減弱氣象因素、日類型因素對短期電力負荷的影響,同時兼顧負荷數據的時序性、周期性、非線性三者之間的關系,本文運用相似日和LSTM神經網絡對短期電力負荷進行雙向組合預測。通過相似日選擇的方法確定數據集以提高輸入樣本質量,將同一相似日不同時刻的負荷稱為橫向樣本,不同相似日同一時刻的負荷稱為縱向樣本。把橫向樣本和縱向樣本分別輸入LSTM神經網絡進行預測,對每一個采樣點都采用最小方差法計算橫向、縱向預測權重并得出最終預測結果。利用河南省某縣的電力負荷數據驗證了此方法的準確性。
本文采用灰色關聯分析法挑選相似日。灰色關聯分析反映了曲線間的關聯程度[8]。根據關聯度大小,先后挑選出測試日、訓練集標簽日和訓練日。
1.1.1 確定分析數列及初值化處理
確定相似日的影響因素時,樣本氣象數據序列為子序列,第i天的影響因素序列Xi可表示為
式中:m為影響相似日因素的種類,在本文中m=5;i=1,2,…,n,n為根據歷史天氣記錄的天數,在選擇測試日、訓練集標簽和訓練日時,分別取值為n=26,31,30。
選取標簽日與待預測日的影響因素序列為母序列X0,可表示為
1.1.2 計算關聯系數
設第i個子序列的第k個影響因素與母序列的第k個影響因素的關聯系數為

1.1.3 計算關聯度
每個影響因素對應一個關聯系數,故關聯系數有m個,其平均值作為子序列和母序列之間的關聯度,即

式中,ri越大,表示關聯度越高,即相似度越大。
影響短期負荷預測精度的因素隨地區的不同而有所差別。在河南省某縣,對電力負荷影響程度較大的因素有日平均溫度、日最高溫度、日最低溫度、天氣類型和日類型[9]。在本文中,日平均溫度為日最高和最低溫度的平均值,可在很大程度上反映用電量的變化;日最高溫度過高,空調和電扇的使用將增加用電量;日最低氣溫過低,取暖設備的使用也會增加用電量。
不同影響因素量綱不同無法比較,因此需要將影響因素映射到特定區間,使各個量之間可以有數值上的可比性[10]。為方便關聯度的計算,將影響因素均映射到[0,1]區間。
日平均溫度、日最高溫度、日最低溫度的具體映射方法可表示為

式中:X為實際溫度;Xmax為溫度最大值;Xmin為溫度最小值;Z為映射值。在映射時需用3種溫度指標各自的最大值與最小值。這樣日平均溫度、日最高溫度、日最低溫度分別映射到[0,1]上,部分溫度映射值見表1。

表1 溫度映射Tab.1 Temperature mapping
天氣類型也會導致用電量變化,陰雨天不方便外出、天氣陰暗導致視線不好、空氣濕度加大除濕需求等均會增加用電量,總體來說,陰雨天比晴天用電量更大。本文在對天氣類型進行映射時,越惡劣的天氣映射值越大,晴天,Z=0.2;多云,Z=0.4;陰天,Z=0.5;小雨,Z=0.6;中雨,Z=0.7。
休息日負荷明顯低于工作日,星期一負荷又會受星期日負荷的影響,星期五負荷也會因為星期六的到來與一般工作日(星期二—星期四)的負荷有所不同[11],總之,映射值與用電量成正比。因此本文在星期二—星期四,Z=0.2;星期一、星期五,Z=0.4;星期六—星期日,Z=0.6;小長假按情況Z=0.8~1。天氣類型及日類型映射值見表2。

表2 天氣類型及日類型映射值Tab.2 Weather-day mapping
在短期電力負荷預測中,選擇相似日可以提高負荷預測的準確性,而合適的數據集是建立負荷預測模型中最為關鍵的一步。本文所用氣象因素數據來自河南省某氣象局;實驗負荷數據來自河南省某縣2018年3月和4月某站點,每15 min為一個采樣點,1 d共96個采樣點。
以2018年4月27日為待預測日,其負荷數據為待預測數據。采用以下方法確定數據集。
1.3.1 測試日的確定
為保證測試集和訓練集的學習過程盡可能相似,測試日是以待預測日的氣象信息為母序列,在2018年4月1日—2018年4月26日中,按照關聯度排序挑選出關聯度最高的前7個相似日作為測試日,如表3所示。

表3 測試日關聯度排序Tab.3 Correlation degree ranking of test days
7個測試日中,關聯度越高,相似度越高,離待預測日越近。由表3可知,雖然4月1日在時間上離待預測日最遠,但由于這一天與待預測日的關聯度最大,因此在組成測試集時,4月1日的負荷數據在距離上離待預測日最近。測試數據和待預測數據組成測試集。
1.3.2 標簽日的確定
以2018年4月27日的氣象信息序列為母序列,在2018年3月中挑選與其相似度最高的一天作為標簽日,標簽日關聯度排序如表4所示。

表4 標簽日關聯度排序Tab.4 Correlation degree ranking of tag days
由表4可知,2018年3月31日與待預測日的關聯度最大,選作為標簽日,并將其負荷數據作為訓練集標簽。
1.3.3 訓練日的確定
訓練日是以標簽日的氣象信息為母序列挑選出的前7個相似日,訓練日關聯度排序如表5所示。

表5 訓練日關聯度排序Tab.5 Correlation degree ranking of training days
以表5中7個相似日作為訓練日,將其負荷數據和標簽數據作為訓練集。數據集的確定流程如圖1所示。

圖1 數據集的確定流程Fig.1 Identification process of data set
Sepp Hochreiter和Jurgen Schmidhuber最早提出LSTM神經網絡[12]。該神經網絡是對循環神經網絡RNN(recurrent neural network)的改進,RNN是一種專門處理序列性數據的神經網絡,隨著相關歷史信息和當前預測信息的位置間隔不斷增大,RNN會喪失從過去學習信息的能力,即梯度消失,而LSTM神經網絡很好地解決了RNN的梯度消失問題[13]。LSTM神經網絡標準結構如圖2所示。

圖2 LSTM網絡結構Fig.2 Structure of LSTM network
LSTM神經網絡之所以能解決RNN的梯度消失問題,是因為它的算法中加入了處理器,處理器中放置了三扇門,分別為遺忘門ft、輸入門it和輸出門ot[14]。一個信息進入到LSTM神經網絡中,可根據記憶單元更新過程判斷該信息是否有用,符合算法認證的信息才能留下,不符合的信息則通過遺忘門遺忘,這就解決了數據的長期依賴問題。
2.2.1 遺忘門
遺忘門決定上一時刻的細胞狀態Ct-1中有多少信息可以傳遞到當前時刻的細胞狀態Ct中。若輸出為0,則上一時刻信息全部丟棄;若輸出為1,則上一時刻信息保留。遺忘門ft可表示為

式中:σ為神經網絡的激活函數sigmoid;Wf為遺忘門ft當前時刻輸入Xt和前一時刻隱藏層輸出ht-1相乘的矩陣權重;bf為偏置。
2.2.2 輸入門
輸入門和記憶單元候選狀態是需要更新的信息。輸入門用來控制當前新輸入信息中有多少信息可以加入到記憶單元,激活函數sigmoid是控制哪些值用來更新;tanh層用來產生當前時刻新的記憶單元候選狀態。由圖2可知,這兩部分結合進行更新其表達式為

式中:Wit為輸入門it當前時刻的權重矩陣;Wc為新生成信息在當前時刻的權重矩陣;bi、bc為偏置;-Ct為當前時刻記憶單元候選狀態。
2.2.3 更新細胞狀態
更新細胞狀態是由兩部分組成,①是遺忘門ft的輸出與前一時刻舊細胞狀態Ct-1的乘積;②是輸入門的輸入it與記憶單元候選狀態的乘積。將兩部分相加得到候選值,此過程是丟掉不需要的信息,添加新信息。其表達式為

2.2.4 輸出門和隱藏層輸出
輸出門ot由激活函數sigmoid控制,得到初始輸出;然后由激活函數tanh將細胞狀態Ct縮小到(-1,1),再與初始輸出逐對相乘得到模型的輸出。其計算公式為

式中,Wot為輸出門ot當前時刻的權重矩陣。
激活函數sigmoid的輸出為不考慮先前時刻學到信息的輸出;激活函數tanh為對先前學到信息的壓縮處理,起到穩定數值的作用;兩者的結合學習就是LSTM神經網絡的學習思想。
經過相似日選擇后的初始矩陣為

式中,負荷矩陣X為16×96矩陣。其中,1~7行為訓練集中的訓練數據;第8行為訓練集標簽數據;9~15行為測試集中的測試數據;第16行為待預測數據;負荷矩陣的一行對應同一相似日96個采樣點的數據,即橫向樣本;一列對應不同相似日同一時刻點的負荷數據,即縱向樣本。
重新調整矩陣X的形狀,使其成為一個新矩陣,即

式中,橫向輸入矩陣Xh為1 536×1矩陣。
取1~8行成為一個新矩陣,將其轉置矩陣重新調整形狀,使其成為一個新矩陣,即

式中,Xa為768×1矩陣,前7個為訓練集中的訓練數據,第8個為訓練集中的標簽數據,以此循環。
按同樣的方法得到測試集矩陣,即

最終模型的縱向輸入矩陣Xv為

式中,Xv為1 536×1矩陣,由Xa與Xb組成。
本文采用最小方差作為優化目標,得到每一個采樣點的最終預測結果以及每一個采樣點預測方法的權重系數[15]。即

式中:f為一個采樣點的組合預測值;fq為一個采樣點第q種預測方法的預測值,q=1,2,…,p,p為預測方法的數量;wq為一個采樣點第q種預測方法的權重系數;Var(eb)、Var(ej)分別為一個采樣點第b、j種預測方法的預測方差。
在傳統的LSTM神經網絡用于短期電力負荷預測的研究中,多是利用相鄰時刻點之間的連續性對下一時刻的負荷數據進行預測,即考慮數據的時序性與非線性關系。本文在選擇相似日的基礎上,對每一個采樣點都進行橫向預測和縱向預測,橫向預測可保證負荷數據的時序性與非線性關系,縱向預測可保證負荷數據的周期性與非線性關系;利用最小方差法計算每一個采樣點橫向預測值和縱向預測值的權重系數,根據權重系數得出最終雙向組合預測結果。雙向組合負荷預測流程如圖3所示。

圖3 雙向組合預測流程Fig.3 Combined forecasting process
本文預測評價指標采用平均絕對百分誤差MAPE(mean absolute percentage error)、平均絕對誤差MAE(mean absolute error)和均方根誤差RMSE(root mean square error)來衡量,即

式中:yi為真實值;yp為預測值;n為待預測的負荷點數,取值為96。
采用河南省某縣2018年3月和4月的部分負荷數據進行實驗。將加入相似日選擇算法后的反向傳播BP(back propagation)神經網絡預測結果、橫向預測結果、縱向預測結果與雙向預測結果在同樣超參數和參數情況下進行可視化對比。橫向、縱向預測權重系數如表6所示;負荷預測結果對比如圖4所示;絕對誤差對比如圖5所示;評價指標對比如表7所示。

表6 兩種模型權重Tab.6 Weights of two models

表7 預測評價指標對比Tab.7 Comparison among prediction evaluation indexes

圖4 負荷預測結果對比Fig.4 Comparison among load forecasting results

圖5 絕對誤差對比Fig.5 Comparison among absolute errors
每個采樣點的真實值、橫向預測值和縱向預測值均有差別,所以每個采樣點的橫向預測權重和縱向預測權重均不同。由于雙向組合預測是橫向預測和縱向預測的組合,故每一個采樣點的橫向預測權重與縱向預測權重之和為1。
由圖4可知,雙向預測值曲線更接近真實值曲線。由圖5可知,雙向預測值的波動更小,橫向預測值次之,縱向預測值與BP神經網絡預測值波動較大。這是因為橫向預測保留了樣本的時序性,縱向預測保留了樣本的周期性,電力負荷數據是時序數據,而LSTM神經網絡是專門處理時序數據的網絡,故橫向預測比縱向預測誤差要小。由實驗結果可知,BP神經網絡預測與縱向預測曲線較為接近,誤差同樣較大,這是因為BP神經網絡不善于處理時序數據,其預測能力在很大程度上受到制約。
由表7可知,從相似日選擇角度,無論是BP神經網絡預測、橫向預測、縱向預測或雙向預測,添加相似日選擇算法后的預測精度都要比未添加之前的算法預測精度高;從算法的方向,本文提出的雙向預測模型取得了更高的預測精度,其MAPE、MAE和RMSE都有了明顯下降,表現出了較好的擬合能力。這是因為選擇相似日后,減弱了氣象因素、日類型因素突變對負荷數據的影響;橫向預測與縱向預測分別考慮了時序性與非線性、周期性與非線性的關系;雙向預測模型通過優化兩種預測模型的權重系數而兼顧到了三者之間的關系。經過反復實驗,雙向預測模型預測效果更佳。
本文提出的基于相似日和LSTM的短期負荷雙向組合預測模型,通過相似日選擇降低了氣象因素、日類型因素等對負荷數據的影響,提高了訓練集的質量。對每個采樣點進行橫向預測與縱向預測,采用最小方差法優化其權重系數,既考慮了數據的時序性與非線性,又考慮了數據的周期性與非線性。通過河南省某縣的實際負荷數據驗證了雙向組合預測方法預測效果更佳。