張振中 郭傅傲 劉大明 唐 飛
1(天水電氣傳動研究所集團有限公司 甘肅 天水 741020) 2(大型電氣傳動系統與裝備技術國家重點實驗室 甘肅 天水 741020) 3(上海電力大學計算機科學與技術學院 上海 200093)
負荷預測是智能電網發展過程中的一項重要任務[1]。準確的負荷預測對于電力系統調度和安全、可靠、經濟的系統運行至關重要。現如今隨著可再生能源并入電網、電動汽車的日益普及和配電網負荷需求的時變性,不可避免地增加了電力系統的復雜性、不確定性和非平穩性。
在短期負荷預測中,原始數據集選擇和預測模型構建是近些年研究的兩個重點領域。原始數據集特征提取方面,文獻[2-3]采用Person相關系數分析對電力負荷進行特征選擇。但由于電力系統相關數據是多維非線性的,采用線性相關的Pearson系數分析并不合適。歷史負荷序列具有非平穩的特點,文獻[4]利用小波分解將歷史負荷分解為一系列平穩子序列進行預測,最后由重構得到最終預測。結果表明,非平穩的負荷經小波分解后將會得到更準確的預測結果。
在預測模型構建方面,機器學習模型由于對非線性序列具有良好的預測能力,從而被廣泛應用于電力系統負荷預測中,代表模型主要有支持向量回歸(SVR)、多層感知機(MLP)、深度學習和集成預測。由于單一模型在預測方面的泛化能力和預測精度不足,文獻[5-6]采用多模型融合進行預測,提高了預測精度。
為提高負荷預測精度,本文提出一種基于最大互信息系數(MIC)與小波分解的多模型集成短期負荷預測新方法。首先采用MIC對多源特征進行選擇,生成最佳特征集;然后經小波變換將提取出的非平穩負荷序列進行頻域分解,生成平穩高通和低通分量信號;運用多模型預測算法對各分量信號進行訓練,由重構得出各個模型的子預測結果;最后通過二次學習生成的決策模型集成并生成最終預測結果。對IESO官網公開的加拿大渥太華市真實電網數據進行實驗分析,并與其他預測模型做對比,實驗結果表明本文集成預測方法具有更高預測精度。
最大互信息系數(MIC)是2011年由Reshef等[8]提出的,它是在互信息(MI)的基礎上發展而來的?;バ畔⒖煽醋饕粋€隨機變量由于已知另一個隨機變量而減少的不確定度,主要用來衡量線性或非線性變量之間的關聯程度。設x、y為隨機變量,則互信息定義為:
(1)
式中:I(x;y)為變量x、y的互信息;p(x,y)為聯合概率密度函數;p(x)和p(y)為邊緣密度函數。兩個變量之間互信息越大,則相關性越強。相較于互信息而言,MIC在MI基礎上克服了互信息對連續變量計算不便的缺點,具有更高的準確度。當擁有足夠的統計樣本時MIC可以捕獲廣泛的關系,更能體現屬性特征之間的關聯程度[8]。
MIC計算主要分為以下三步:

2) 對所求最大互信息值除以log(min(m,n))歸一化處理,將其轉化到(0,1)區間;
3) 構建多種不同網格尺度m×n,依次代入式(1)和式(2)求得最大歸一化互信息值作為最終MIC值。MIC的整體求值公式為:
(2)
式中:m×n
D=[Wi,M1i,M2i,…,D1i,D2i,…,li]
(3)
式中:W為負荷所屬日類型,定義W=1為工作日,W=0為周末或假日;M1i、M2i、…表示經MIC特征選擇后的氣象特征變量;D1i、D2i、…表示經特征選擇后的日期類型特征變量;li表示歷史負荷變量;下標i為對應負荷時刻的氣象和日期類型變量,i=1,2,…,n,n為負荷值個數。
小波變換(Wavelet Transform,WT)是一種新的變換分析方法,它繼承和發展了短時傅里葉變換局部化的思想,同時又克服了窗口大小不隨頻率變化等缺點,在信號處理、去噪等方面表現出強大的優越性[9]。本文利用小波變換將非平穩負荷相關數據分解成一組具有不同頻率的本構分量。每個本構分量都由一個預測模型來預測。與原始發電序列相比,本構分量的方差穩定、平穩性好[4],因此可以更準確地進行預測。
小波變換可分為連續小波變換(CWT)和離散小波變換(DWT)兩類。CWT可定義為:
(4)
(5)
式中:x(t)表示原始輸入;ψa,b(t)表示母波信號,a、b分別為尺度因子和平移參數;*表示共軛復參數。DWT可通過對母波信號的離散化平移和縮放得到:
(6)
式中:a=2m,b=n2m;T為離散點個數。負荷序列通過離散小波變換進行分解。將預處理后的負荷序列信號進行兩級小波分解,分為一低頻兩高頻信號。負荷序列兩級分解的一個實例如下:
l(t)=A1(t)+D1(t)=A2(t)+D2(t)+D1(t)
(7)
負荷序列首先分為低頻A1和高頻D1信號。然后,低頻A1被進一步分解成兩個分量:A2和D2。低頻近似分量A2反映了總體趨勢,呈現負荷光滑形式。D1和D2描述了負荷中的高頻分量。
利用母小波coif4對文中負荷時間序列分解,生成低頻近似分量和高頻細節分量,共3個子數據集。
在預測模型構建方面,為克服了單模型擬合過度和泛化能力有限的問題,在經特征選擇和小波分解的數據集基礎上,采用不同的機器學習算法構建出異構集成預測模型,利用多算法的互補優勢來解決單一算法精度低和應用有限的問題[10]。
在負荷預測中,LSSVR是支持向量回歸的一種擴展,其將SVR算法的不等式約束轉換為等式約束,大大方便了Lagrange乘子α的求解,降低了計算復雜度,且由于待選參數少、求解速度快的優勢,被廣泛地應用于電力系統負荷預測中。LSTM是普通循環神經網絡RNN衍變出的一種變種模型,能夠建立先前信息與當前環境之間的時間相關性,克服了普通RNN在訓練反傳過程中出現的梯度消失等問題,因其中含有記憶單元,非常適用于處理和預測長時間序列問題。XGBoost是一種對異常值具有較強魯棒性的樹型算法,并在工程實現上做了大量優化,是目前具有良好分類和預測的機器學習方法之一,且用于模型訓練的設置參數較少,該方法能有效克服過擬合問題,預測性能優于漸近梯度回歸樹和隨機森林。
因此,本文首選LSSVR、LSTM和XGBoost三種異構預測模型來分別訓練經MIC特征選擇和小波分解后的數據集,最后通過小波重構得到對應的預測結果。其中:原始數據的前90%作為訓練集,后10%作為測試集。訓練集中每前一個星期數據(包括負荷、天氣、日期類型數據)作為訓練輸入,訓練輸出為當天的負荷數據。
多模型融合預測的集成方法主要有四類:簡單平均法、加權平均法、線性模型訓練集成和非線性學習模型訓練集成等。簡單平均法和加權平均法只是將多模型的預測輸出作為變量,然后采取簡單措施得出一個最終結果,但是忽略了原始數據集特征,所得最終輸出效果不佳。而二次學習則是在原始特征和上一階段預測輸出的基礎上訓練一個新的學習模型,通過參數調整得到集成決策模型。然后將多模型的預測結果作為決策模型的輸入并由決策模型訓練學習得到最終預測結果。
學習模型主要包括線性模型和非線性學習模型。由于時序電力負荷呈非線性,線性模型在處理非線性數據時預測精度較低,魯棒性差。而非線性模型卻可以很好地對電力負荷數據進行處理。
二次學習決策模型訓練方法:
1) 原始訓練集(包括原始負荷及相關影響因素特征)和各個預測模型的輸出結果組成新的訓練集。利用經訓練后的多模型對預測前K小時負荷進行預測,將預測負荷(LSS1,LSS2,…,LSSk),(LST1,LST2,…,LSTk),(XGB1,XGB2,…,XGBk)作為新特征加入到原始訓練集中,得到新的訓練特征集:
DS=[Wi,M1i,M2i,…,D1i,D2i,…,li,
LSS1,LSS2,…,LSSk,LST1,LST2,…,LSTk
XGB1,XGB2,…,XGBk]
2) 將步驟1)所得的新訓練集分別輸入至非線性預測模型(LSSVR、LSTM、XGBoost)進行再次訓練學習,通過以損失函數最小為目標進行參數調整,最后找出訓練良好、預測精度高的模型作為決策模型。如圖1所示。

圖1 二次學習生成決策模型的訓練過程
設計的預測方法總體流程如圖2所示,可分為四個階段。

圖2 預測方法總體流程
1) MIC特征選擇及處理:對原始數據集利用MIC特征選擇技術選出與歷史負荷相關性較大的因素,并生成輸入特征序列。
2) 小波變換:在上一步基礎上,利用小波變換將非平穩負荷序列進行兩級小波分解,轉換為較為平穩的負荷相關序列,更有利于負荷預測。
3) 異構多模型集成預測:利用較強泛化能力和預測精度的LSSVR、LSTM、XGBoost三種機器學習模型對小波分解后的平穩信號訓練學習,由模型重構得到每種模型的預測輸出。
4) 二次學習:將三種不同預測模型輸出的結果同原始特征集組成新的訓練集,輸入到預測性能優越的模型進行再次訓練學習,經調參后得到訓練良好的決策模型。最后由決策模型得到最終預測結果。
實驗選用加拿大渥太華市2016年到2018年三年真實電網數據(一天24數據點)、氣象因素(溫度、風速、濕度)、日期類型(年、月、日)為例。原始負荷數據集如圖3所示。

圖3 原始負荷數據集
由圖3可知,負荷數據集中存在個別異常值,為簡單處理,可直接將其剔除。然后由最大互信息系數對日負荷相關影響因素進行特征選擇,如表1所示。

表1 MIC特征選擇
樣本數據量越大,達到顯著性相關的系數就會越小。本文最終選取了溫度特征變量同相應的歷史負荷一同作為預測模型的輸入,輸入特征集D為:
D=[Wi,temp1,temp2,…,tempi,l1,l2,…,li]
式中:W為待預測負荷所屬日類型;tempi表示溫度特征變量,li表示歷史負荷變量;i=1,2,…,n,n為輸入負荷值個數。
數據集經預處理后,利用兩級小波分解將歷史負荷變量變換為平穩序列,分解后序列如圖4所示。

(a) A2

(b) D2

(c) D1圖4 負荷序列小波分解
此預測方法運行在個人PC(配置為CoreI7處理器、8 GB RAM和DDR3存儲)的Python 3.6環境下。經訓練學習后三類模型主要參數選擇如表2所示。

表2 各模型參數選擇
將平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)和平均絕對誤差(MAE)作為誤差評估指標,其公式分別如下:
(8)
(9)
(10)

經上述MIC特征選取和DWT小波分解后的負荷子序列及對應特征作為預測模型輸入。其中,三個子序列分別由同種預測模型進行訓練學習,最后由小波重構得出預測結果。本文采用了近幾年在負荷預測領域表現良好的多種機器學習模型(LSSVR、LSTM、XGBoost)進行預測。一個月的預測結果如圖5所示。

圖5 單一預測模型對比
月負荷預測評估結果如表3所示??梢钥闯觯琗GBoost、LSTM和LSSVR的MAPE分別為1.28%、1.33%、1.47%,上述單一模型均具有較好負荷預測能力。

表3 月負荷預測評估結果
為進一步提升預測模型的整體預測精度和泛化能力,采用了XGBoost、LSTM和LSSVR進行多模型融合預測,融合階段由二次學習得到的非線性決策模型進行集成融合,決策模型的選擇則是根據上述實驗得出。XGBoost相較于LSTM、LSSVR具有更高的預測精度,且XGBoost是由多個同構決策樹集成所得,泛化能力強,所以本文選擇XGBoost作為決策模型。
為了驗證所提的基于最大互信息系數和小波分解的XGBoost負荷預測模型的有效性,本文將所提模型預測結果與上述單一模型中表現最好的XGBoost進行比較,預測未來三天的負荷值(2018年12月29日—2018年12月31日),所得結果如圖6所示。

圖6 單一與集成預測模型對比
經進一步分析對比可得出,本文方法集成方法(MIC+DWT+Ensemble)的預測值和真實值的偏差明顯小于預測效果最好的單一模型MIC+DWT+XGBoost的預測結果,它們的MAPE分別為0.91%、1.24%,如表4所示。

表4 負荷預測評估結果
實驗結果表明,經多模型融合的集成預測模型預測效果高于預測性能良好的單一預測模型。通過MIC特征選擇與DWT小波分解為平穩負荷序列后,由預測性能較好的模型對每個近似和細節平穩分量進行預測,然后由重構得出三種不同預測結果,這些預測結果在同一小時內是不同的,最后通過非線性二次學習將上述預測結果融合作為最終輸出,可進一步提高負荷預測精度。
時序電力負荷具有非平穩特性且受多種外在因素影響。單一預測模型在復雜電力系統中存在預測性能和泛化能力低的缺陷,較難滿足電力調度的要求。本文提出了一種基于最大互信息系數與小波分解的多模型集成短期負荷預測模型,并通過真實電網數據進行了驗證。得出以下結論:1) 影響負荷的因素眾多,利用適用于非線性數據的最大互信息系數選出與負荷相關性較大的影響因素,并將所選因素與歷史負荷一同作為預測模型輸入,可提高預測精度。2) 在預測模型方面,通過小波分解將非平穩的負荷序列轉換成一組相對平穩的本構分量,更適用于負荷預測。3) 由預測性能良好的單一模型融合后生成的集成模型,可有效避免過擬合和梯度消失問題,進一步提升負荷預測精度和泛化能力,在實際應用中更具有價值。