熊 潔,牛 燕,劉 偉
(國網湖北省電力有限公司鄂州供電公司,湖北 鄂州 436000)
隨著“雙碳”目標的逐步實施和新型電力系統的建設,推動用電革命、確保用電供應、推進能源轉型已成為新的電力工作重點。準確預測地區全社會用電量對地方電力企業節能減排、合理安排產能消納、實現“削峰平谷”等具有重要意義。用電數據是經濟發展的“風向標”。準確預測地區全社會用電量對區域經濟發展的評估具有一定作用。因此,用電預測模型的準確性和穩定性尤為重要。
近年來,用電量預測研究成果豐碩,針對不同應用場景、不同數據特征,適用的預測模型有所不同。康輝等[1]認為產業結構的變化是用電量波動的原因之一。因此,其在預測用電量的指標體系中,除高耗能行業外,增加了第一、第二產業增加值作為預測指標,并從絕對誤差、模型震蕩程度、適用性和經驗值這4個方面評價預測結果的準確性。馮偉等[2]利用誤差反向傳播(back propagation,BP)神經網絡,采集面積、國內生產總值、人口數量、大型企業數量、農機總動力、民營企業數量、建筑業總產值和公路里程這8個方面的影響因素,對泰州的月用電量進行預測。其提高了春節和7~8月用電高峰期的預測精度。學者們利用差分自回歸整合滑動平均(auto regressive integrated moving average,ARIMA)模型在時間序列預測方面的優勢,對不同地區的年用電量進行預測。該模型在短期內(1年)的預測效果較為理想[3-4]。吳文培[5]利用極限梯度提升機(extreme gradient boosting,XGBoost)對數據進行預測先驗,并采用先驗結果優化 Prophet 模型,以防止過擬合現象;同時,指出預測差異主要是溫度升高引起的,因此建議下一步需增加氣溫數據以進行修正。毛錦偉等[6]利用聚類方法對用電數據進行分類,將自組織特征映射(self-organizing feature maps,SOM)神經網絡和多變量的徑向基函數(radial basis function,RBF)相結合搭建神經網絡模型,采集國內生產總值、人口、固定資產投資等影響因素,以構建某省用電量預測模型。其比較了單一模型和混合模型的預測差異,指出了混合模型的優勢。陳露東等[7]比較了ARIMA、卷積神經網絡(convolutional neural networks,CNN)-長短期記憶(long short-term memory,LSTM)網絡和生成對抗網絡的預測(predict using generative adversarial network,PGAN)模型在日電量預測中的差異,指出PGAN模型存在精度高的優點,以及計算時間長的缺點。胡春鳳等[8]從用電量、氣象、交通、經濟這4類共340個變量集中,采用彈性網絡因子、Granger因果關系分析找出用電量的影響因素,并預測月用電量。其結果與向量自回歸(vector auto regression,VAR)、BP、最小絕對值收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)模型相比,更加精準。曹敏等[9]為避免自回歸滑動平均(auto regressive moving average,ARMA)模型對外生因素考慮不足的問題,引入支持向量機(support vector machine,SVM)模型。其對SVM模型加以修正,并對不同企業的年用電量進行預測,預測結果較單獨使用ARMA和SVM模型更加準確。劉侃等[10]采用LSTM模型改進ARIMA模型,以LSTM預測用電量、ARIMA修正殘差,對某園區企業周用電量進行預測,并比較了單一方法與組合方法的預測精度差異。李艷青[11]比較了多元線性回歸、季節趨勢、指數平滑這3種方法對鋼鐵企業的年用電量的預測結果,指出季節趨勢結果適用于長期發展規律研究,而指數平滑則偏重于中短期預測。沈豫等[12]采用Granger因果關系提取與用電量預測有顯著影響的產業經濟指標,構建自回歸分布滯后(auto regressive distributed lag,ARDL)方法用電量預測模型,對高耗能產業月用電量進行預測。預測結果準確性高于自回歸(auto regressive,AR)模型。
上述研究大多數使用時間序列、機器學習或兩者相結合的方式,對地區、行業或企業分年、月、日電量進行預測,均有一定參考意義。地區用電量是行業電量的線性組合,行業電量的發展趨勢不盡相同,因此增加了地區用電量預測的不確定性。一方面,從歷史地區用電量預測未來地區用電量,容易因各行業的不同發展趨勢導致預測結果產生偏差。而從行業預測出發,合成地區預測用電量的研究還存在一定空白,是值得深入研究的細分領域。另一方面,時間序列的地區用電量屬于非線性數據。ARIMA模型的缺點在于無法處理非線性數據。本文考慮到ARIMA模型的殘差包含了非線性信息,可以采用ARIMA模型預測的殘差來分析數據的非線性成分。因此,本文提出ARIMA和隨機森林(random forest,RF)的混合模型——季節性自回歸整合滑動平均-隨機森林(seasonal auto regressive integrated moving average-random forest,SARIMA-RF)模型。該模型通過發揮ARIMA和RF的各自優勢,在處理非線性數據的同時,得出較為準確的預測結果。
作為聚類算法之一,K-means算法得到了廣泛的運用。K-means算法主要思想如下:給定K個初始類簇中心點以及K值后,分配各數據到與其距離最近類簇中心點的類簇中;分配完全部點后,計算1個類簇中全部點的中心點 (一般采取平均值);以該點為中心點,再次重新分配點。如此迭代計算,對類簇中心點進行更新并循環往復,直到類簇中心點基本上沒有變化,或滿足預定要求的迭代次數。
本文假設數據樣本X涵蓋了n個對象,即X={X1,X2,…,Xn},且各對象的屬性均涵蓋m個維度。對K-means算法而言,其目標是按照對象之間的相似性,將上述n個對象集聚在指定的k個類簇中,并使得每個對象到其所在類簇中心點的距離最小。K-means應對k個聚類中心{C1,C2,…,Ck}(1 (1) 式中:Xi為第i個對象(1≤i≤n);Cj為第j個聚類中心(1≤j≤k);Xit為第i個對象的第t個屬性;Cjt為第j個聚類中心的第t個屬性(1≤t≤m)。 本文分別對比各對象到各聚類中心之間的距離,并分配各對象到最近距離的聚類中心的類簇中,獲得了k個類簇{S1,S2,…,Sk}。 K-means算法借助類簇中心,對類簇的原型進行界定。類簇中心即類簇內全部對象在諸多維度的平均值。其計算式如式(2)所示。 (2) 式中:Cl為第l個聚類的中心;當1≤l≤k時,SL、Xi分別為第l個類簇中對象的個數以及第i個對象(1≤i≤|SL|)。 第k個決策樹能夠生成θk(隨機變量)。θk和前面生成的θ1,θ2,…,θk-1,θk相互獨立,但概率分布相同。決策樹借助訓練集和θk實現了生長后,能夠塑造出分類器h(x,θk)。x為輸入的特征向量。其在生成了很多決策樹后,借助投票的方式,選出理想方案。 RF是由很多分類樹{h(x,θk),k=1,2,…,n}共同組合而成的分類器。隨機變量{θk}呈現出獨立同分布的特點。各分類樹均參與到投票中,以決出最后的輸出。 本文給定多個分類樹h1(x),h2(x),…,hk(x),從隨機向量X、Y的分布中隨機挑選訓練集。邊緣函數的定義如式(3)所示。 (3) 式中:I[hk(X)=Y]為指示函數;j為X分類中的隨機種類。 式(3)邊緣函數用于測量平均正確分類數超過平均錯誤分類數的程度。邊緣函數值越大,分類預測越可靠。 時間序列中的規則周期稱為季節性(seasonal,S)。SARIMA作為ARIMA模型的拓展,被廣泛應用于預測季節性時間序列。 SARIMA在ARIMA(p,d,q)的基礎上增加了3個超參數(P,D,Q)和s,即SARIMA(p,d,q)(P,D,Q,s)。 其中:p為非季節性ARIMA的滑動窗口數;P為SARIMA的滑動窗口數;q為非季節性滑動平均(moving average,MA)滑動窗口數;Q為季節性MA滑動窗口數;d為非季節性差分階數;D為季節性差分階數;s為季節性周期參數。 某省用電量為非線性數據,SARIMA不能提取數據的非線性成分。SARIMA模型的缺點在于無法處理非線性數據。考慮到SARIMA模型的殘差包含了非線性信息,可以利用SARIMA模型預測的殘差分析數據的非線性成分。因此,本文提出SARIMA和機器學習方法的混合模型SARIMA-RF。 SARIMA-RF預測流程如圖1所示。 圖1 SARIMA-RF預測流程圖Fig.1 SARIMA-RF prediction flowchart 為了提高預測效率、加快預測速度,需要對各行業的歷史用電量數據進行聚類。K-means聚類算法簡單、快速,可以有效地對行業用電量進行預測。本文在確定k值的前提下,快速劃分類別,以提煉不同類別的用電差異和用電規律。在此基礎上,本文采用RF算法對地區全社會用電量進行預測。 本文在進行K-means分類之前,需要對各行業用電量數據進行處理。處理方式如下。 ①對各行業用電量進行降序排列。 ②計算各行業用電量的累計百分比。 ③篩選累計百分比在99%以內的各行業。因累計百分比低于1%的部分行業用電量過小,不具有典型性,且在分類過程中處理困難,故本文只選取累計百分比在99%以內的各行業。 經處理,本文在71個行業中選出了59個行業,并利用K-means聚類算法對所選的58個行業用電量進行分類。 本文利用K-means聚類算法,對某省2018年1月至2021年6月的月度用電數據進行聚類,并將行業用電量分為了5類。為了便于統計和計算,本文采用指數的方式進行測算,分別對5類行業測算月均總用電指數、行業月均用電指數、月用電極差指數、用電變異系數等,以觀察不同行業分類下的各類行業用電特點。 行業用電分類基本情況如表1所示。 表1 行業用電分類基本情況表Tab.1 Basic table of classification of electricity consumption by industry ①第1類行業月均總用電指數最高,達到137.9。其包含6個行業,分別是城鎮居民、電力/熱力的生產和供應業、黑色金屬冶煉和壓延加工業、化學原料和化學制品制造業、鄉村居民和非金屬礦物制品業。 第1類行業總用電指數及同比增長率如圖2所示。 圖2 第1類行業總用電指數及同比增長率Fig.2 Total electricity consumption index and year-on-year growth rate for category 1 industries 總用電指數具有一定的季節波動性。每年2月,行業用電量均有不同程度的回落。受2020年2月疫情的影響,3月總用電指數跌至低點,用電指數僅為112.1。行業總用電指數同比增速降低(僅為-20.4%),降幅超過20%。第1類行業受疫情影響用電指數具有一定滯后性。滯后期為1個月左右。2020年9月受發電企業用電負值的影響,用電指數降至112.0,同比增速降為21.7%。隨著疫情得到有效控制,各行各業逐漸復工復產,第1類行業總用電指數迅速提升,2020年8月達到峰值214.0。2020年12月、2021年1月均保持較高的用電指數,分別為173.9、173.3,恢復勢頭迅猛。 ②第2類行業總用電指數不高,處于中等水平,為38.4。其包含6個行業,分別是有色金屬冶煉和壓延加工業、房地產業、計算機/通信和其他電子設備制造業、金屬制品業、紡織業和汽車制造業。 第2類行業總用電指數及同比增長率如圖3所示。 圖3 第2類行業總用電指數及同比增長率Fig.3 Total electricity consumption index and year-on-year growth rate for category 2 industries 第2類行業總用電指數具有一定的季節波動性,2020年2月行業總用電指數較低。與第1類行業相比,第2類行業受疫情影響更大。2020年2月總用電指數急速下滑,僅為14.9,同比下降53.3%。2021年2月總用電指數急劇上升,同比增長率高達125.7%,較2020年增長1倍以上,略高于2019年2月的用電水平,即恢復到疫情前用電水平。除疫情引起的特殊波動外,不同月份的用電波動較小,月用電極差指數僅為36.8,用電變異系數為0.19。 ③第3類行業總用電量指數最低,僅為24.3。行業月均用電量略高(為3.5),僅高于第5類行業。其包含7個行業,分別是教育/文化/體育和娛樂業、鐵路運輸業、住宿和餐飲業、水利/環境和公共設施管理業、石油/煤炭及其他燃料加工業、電氣機械和器材制造業、橡膠/塑料制品業。 第3類行業總用電指數及同比增長率如圖4所示。 圖4 第3類行業總用電指數及同比增長率Fig.4 Total electricity consumption index and year-on-year growth rate for category 3 industries 第3類行業的總用電指數具有一定的淡旺季特征。淡季集中在2~5月,2月并沒有明顯的走低現象。旺季集中在7~9月。受疫情影響,2020年2月總用電指數僅為12.6,同比下降49.0%。2021年2月增速達到97.0%。結合峰度、偏度等可以看出,第3類行業用電指數的走勢與第2類行業較為相似。 ④第4類行業總用電指數相對較高,為66.4,但波動大,用電變異系數為0.37,是5類行業中波動最大的行業分類。其包含13個行業,分別是農副食品加工業、水生產和供應業、衛生和社會工作、造紙和紙制品業、公共管理和社會組織/國際組織、醫藥制造業、通用設備制造業、其他制造業、農/林/牧/漁服務業、道路運輸業、建筑裝飾/裝修和其他建筑業、房屋建筑業、非金屬礦采選業。 第4類行業總用電指數及同比增長率如圖5所示。 圖5 第4類行業總用電指數及同比增長率Fig.5 Total electricity consumption index and year-on-year growth rate for category 4 industries 第4類行業總用電指數具有明顯的季節性,2月總用電指數下滑明顯。2020年其用電指數受疫情影響并不嚴重,2020年2月總用電指數僅下滑12.1%,是5類行業中下滑最低的一類。但2020年9月同樣出現發電企業負電量的現象,9月總用電指數僅為2.3,同比下降96.2%。第4類行業用電極差指數較大(為142.3,接近150),是5類行業中最大的一類,這說明該類行業月用電差異大。隨著疫情影響逐漸消失,2020年第四季度開始,其總用電指數趨于穩定,僅有小幅波動。 ⑤第5類行業總用電指數偏低,行業月均用電指數最低,僅為1.0。這說明該類行業用電量較少,電力不是主要的生產資料,或者行業規模較小。該類行業包含行業最多,共26個,分別是電信/廣播電視和衛星傳輸服務、農業、木材加工和木/竹/藤/棕/草制品業、食品制造業、鐵路/船舶/航空航天和其他運輸設備制造業、多式聯運和運輸代理業、科學研究和技術服務業、其他采礦業、畜牧業、黑色金屬礦采選業、商務服務以及租賃業、土木工程建筑業、專用設備制造業、互聯網以及相關服務、酒/飲料及精制茶制造業、紡織服裝/服飾業、居民服務/修理和其他服務業、金融業、有色金屬礦采選業、燃氣生產和供應業、金屬制品/機械和設備修理業、石油和天燃氣開采業、廢棄資源綜合利用業、裝卸搬運和倉儲業、軟件和信息技術服務業、化學纖維制造業。 第5類行業總用電指數及同比增長率如圖6所示。 圖6 第5類行業總用電指數及同比增長率Fig.6 Total electricity consumption index and year-on-year growth rate for category 5 industries 第5類行業總用電指數相對穩定,季節性較強,具有明顯的周期性。除2020年2月、2021年2月因疫情導致總用電指數同比增長率異常波動外,其他月份均較為穩定,同比增長率基本控制在±20%以內。2020年疫情后用電有所復蘇,行業總用電量指數從2020年2月的12.4上升到2020年9月的35.6,超過2019年同期水平。這說明疫情后用電量恢復情況較好。2020年第四季度到2021年上半年,總用電指數均保持同期較高水平。 5個類型行業的用電波動程度不同、疫情對行業用電影響不同、用電增長情況不同等,對用電量預測產生較大影響。如果將其疊加起來進行預測,預測結果難免出現較大偏差。因此,各行業需要各自選擇合適的預測模型,以保證預測準確性。 本文針對K-means聚類所劃分的5個不同梯度的行業用電量,分別采用SARIMA、RF、SARIMA-RF模型對不同類型的行業總用電指數進行預測,以預測2021年7~10月5類行業總用電指數。因用電行業并非全部行業,故由模型所算得的預測值需按比例調整,以確定全社會用電指數預測值。 2021年全社會用電指數真實值與預測值對比如表2所示。 表2 2021年全社會用電指數真實值與預測值對比表Tab.2 Comparison of real value and forecast value of the index of electricity consumption of whole society in 2021 由表2可知,SARIMA-RF模型預測偏差整體有所改善。2021年8~10月,某省全社會用電量呈現下降趨勢。隨著夏季高溫天氣的減少,“迎峰度夏”到達尾段,8~10月某省全社會用電量有下降趨勢符合預期。 用電預測不僅關乎電力公司經營管理,而且關系著合理安排電力生產、提高用電保障、降低電力運維成本等,是電力企業經營規劃中必不可少的數據基礎。精準的數據預測可以協助電力公司預判未來潛在用電客戶增長地區、行業分布等,以提升電網規劃的科學性和電網投資的精準性、提高電網投資效益。同時,精準的用電預測可以配合政府制訂、優化、調整分時電價、階梯電價、差別電價等,支撐完善電力中長期交易、現貨市場交易機制,以防范電價政策調整風險。 本文選取某省代表性行業58個,利用K-means聚類方法將58個行業用電數據分為5類。5類行業的用電趨勢各不相同。本文根據每一類型行業的用電特點,采用SARIMA和RF混合模型分別預測出各類型行業的用電指數。本文合成全社會用電量的預測值,以觀察用電發展趨勢。經檢驗,本文模型具有較好的穩定性,預測結果最大相對誤差控制在2.0%以內。 由于各地區產業結構具有較大差異,導致用電結構同樣存在一定差異,不同地區的用電預測模型不盡相同。針對不同地區的經濟特點,應采取與之相適應的預測模型,并按照實際情況對不同的預測模型加以完善。1.2 RF算法
1.3 SARIMA
1.4 SARIMA-RF

2 行業用電量分類
2.1 數據預處理
2.2 K-means聚類劃分行業用電類型






3 全社會用電指數預測

4 結論