高迪


摘 要:隨著產業結構調整、國企深化改革等政策措施的逐步深入,我國經濟進入新常態。2015年,我國經濟下行壓力持續加大,售電市場形勢較為嚴峻,因此售電量預測具有重要意義。本文應用數據挖掘分析方法,充分收集內部、外部數據信息,挖掘分析影響售電量的主要因素。同時,在售電量相關性分析基礎上,嘗試應用時間序列和神經網絡多種分析工具,構建預測模型,預測年度售電量情況,并綜合評估各方法優劣。
關鍵詞:電力;售電量;數據挖掘;預測
0 引言
隨著產業結構調整、國企深化改革等政策措施的逐步深入,我國經濟進入新常態。2015年,我國經濟下行壓力持續加大,售電市場形勢較為嚴峻,因此售電量預測具有重要意義。
長期以來,諸多學者對月售電量預測的理論和方法做了大量研究,提出了多種各具特點的預測方法。其中,以基于神經網絡模型和基于時間序列的回歸模型的預測研究最為常見。
神經網絡模型通過尋找電量與各影響因素(如經濟、人口等)之間的非線性回歸關系來進行分析預測,其優點是在不構建確定函數的情況下便可實現回歸過程,具有一定的推廣能力且預測精度較高。時間序列回歸模型是根據電量過去的變化規律建模,預測未來變化的可能性及變化趨勢,其優點是簡單易行、便于掌握、樣本需求量不大且預測精度較高。
本文應用數據挖掘分析方法,充分收集內部、外部數據信息,挖掘分析影響售電量的主要因素。同時,在售電量相關性分析基礎上,嘗試應用時間序列和神經網絡多種分析工具,構建預測模型,預測年度售電量情況,并綜合評估各方法優劣。
1 方法
1.1 分析思路
綜合宏觀經濟政策、產業行業發展、氣象等外部數據,以及分類別、分產業用電量、業擴報裝等內部數據,應用數據挖掘分析方法,找出影響售電量的內外部因素以及趨勢規律特征,采用多種方法構建售電量預測模型,預測2015年售電量完成情況,為運營決策提供參考。
1.2 方法及評估
影響售電量的因素很多且部分因素存在共線性,售電量自身也存在一定的發展波動規律,因此本次研究分別采用時間序列方法、RBF神經網絡方法建立售電量模型,并從模型擬合優度、顯著性檢驗、共線性、異方差、相對誤差等多個角度出發對模型進行綜合評估。
(1)方法一:時間序列
售電量呈現出明顯的季節波動性,因此可以選用傳統的時間序列模型預測售電量。
(2)方法二:RBF神經網絡
RBF網絡是以函數逼近理論為基礎而構造的一類前向網絡,分析速度快,擬合效果優,尤其適合擬合因變量及自變量之間復雜的非線性問題,采用RBF神經網絡對售電量與其影響因素的非線性復雜關系進行擬合,以期實現更小的預測誤差。
2 數據挖掘分析
2.1 指標選取
本文研究外部數據涵蓋宏觀經濟、景氣指數、對外貿易、金融、財政、氣溫等方面,內部數據涵蓋售電量、業擴報裝、重點企業用電量等方面,數據時間跨度為2003年12月至2015年6月,共16,532條數據項。
其中,宏觀經濟數據包括:國內生產總值(GDP)、分行業總產值、分產業增加值、社會消費品零售總額、城鎮居民人均可支配收入、固定資產投資額、城鎮化率等。
景氣指數數據包括:居民消費價格指數(CPI)、采購經理指數(PMI)、工業品出廠價格指數(PPI)、商品零售價格指數、分行業出廠價格、重要生產資料價格(含煤炭、螺紋鋼、鋁、銅、燃料油、鉛、線材、鋅)等。
對外貿易數據包括:進出口總額、出口總值等。
金融數據包括:貨幣供應量(含M2、M1)、國內信貸、金融存款(含存款金額、新增金額、存款余額)、境內上市總市值及總資本、股票成交金額及數量、上證所及深交所開戶交易信息(含上市、上市證券、股票股本、股票市值、投資開戶、市盈率、成交金額信息等)、保險收入、賠付金額、保險資金運用余額、保險營業費用等。
財政數據包括:財政收支差額、公共財政支出、中央本級財政支出、地方財政支出、分類別公共財政支出、公共財政收入、稅收收入等。
氣候數據包括:經營區各省會城市平均溫度等。
2.2 指標與售電量相關系數
通過分類的Pearson相關性分析,根據相關性判斷原則,可以發現: GDP、城鎮化率與售電量及各分類售電量均強相關,相關系數均高于0.9;除共性影響因素外,工業售電量與可支配收入、第二產業增加值、進出口總值強相關;非居民售電量及居民售電量與可支配收入強相關;農業售電量與固定資產投資、新裝增容農業戶數相關程度較高;商業售電量與可支配收入強相關,與新裝增容戶數容量相關程度較高。
3 模型構建及評估
基于相關性分析結果,確定因變量及自變量的時間維度、指標維度如下:
(1)數據時間跨度
本次建模數據包括月度、季度和年度三個時間維度。其中,月度數據包括2005年1月至2015年6月共126個月;季度數據包括2005年1季度至2015年2季度共42個季度;年度數據包括2003年至2014年共12年。
(2)數據指標選取
月度、季度數據包括:售電量及分類別售電量、高耗能行業用電量及占工業用電量比重、化學原料及化學制品制造業用電量、非金屬礦物制品業用電量、黑色金屬冶煉及壓延加工業用電量、有色金屬冶煉及壓延加工業用電量、國內生產總值、社會消費品零售總額、商品零售價格指數、全國居民消費價格指數、工業出產者出廠價格指數、城鎮居民可支配收入、平均溫度等。
年度數據包括:售電量、四大高耗能用電量、四大高耗能用電量占工業用電量比重、GDP、分產業增加值占比、城鎮化率、城鎮人口數、固定資產投資、平均溫度等。
3.1 時間序列法
首先對售電量進行平穩性處理,通過自相關和偏自相關圖來決定ARIMA模型的參數,最終模型為ARIMA(1,1,2)(1,1,2)。
模型R方為0.988,說明擬合模型可以解釋原序列98.8%的信息量;標準化BIC值為8.613,較小。按照時間序列法預測模型預測,預計2015年售電量完成34,899億千瓦時,同比增長0.75%。
從2005年1月至2015年7月各月售電量實際值與估值對比情況看,模型較好的擬合了售電量的波動趨勢,實際值與預測值之間的誤差基本控制在3%以內,2005年以來的誤差控制在1%左右,平均相對誤差僅為1.31%,最高相對誤差為3.81%,最低相對誤差為0.16%。模型擬合效果圖詳見圖1。
3.2 RBF神經網絡法
(1)自變量選取
RBF神經網絡需要設置隱含中心層數,歷史數據只有12條記錄,因此自變量不宜選擇過多,根據前文分析,經過反復訓練模型,最終選取自變量GDP、高耗能用電量、氣溫、城鎮化率。
按照RBF神經網絡預測模型預測,2015年售電量預計完成35,279億千瓦時,同比增長1.6%。
(2)擬合效果
從歷史上12年售電量實際完成值與模型估值對比情況看,預測平均誤差僅為0.78%,模型較好的擬合了售電量的波動趨勢,實際值與預測值之間的誤差基本控制在1%左右,2015年以來的誤差控制在1%以內。平均相對誤差為0.77%,最高相對誤差為1.38%,最低相對誤差為0.03%,預測準確度高(擬合效果詳見圖2)。
3.3 模型評估
按照時間序列法、RBF神經網絡法預測模型,預測2015年售電量分別為34,899億千瓦時和35,279億千瓦時,同比增速分別為0.75%、1.6%,兩類預測方法預測結果差異較大。
為了對2015年售電量兩種方法的預測結果進行客觀評估,首先對售電量、經營區用電量、全國用電量、GDP進行對比分析:
(1)售電量、經營區用電量、全國用電量、GDP發展趨勢一致,呈現正向強相關關系;
(2)2004—2014年,售電量、經營區用電量、全國用電量三者歷年同比增速波動規律非常相似,且與GDP增速波動一致;但近3年全國用電量增速明顯放緩,由高速轉為中速發展,電力消費彈性系數由2004年的1.1降為2014年的0.4;
(3)經營區全社會用電量與全國全社會用電量發展趨勢一致,但占比呈現下降趨勢,已由2004年的0.798降為2014年的0.790。
綜合分析,我國2015年GDP增長目標設為7%,較2014年下調0.5個百分點,2014年電力消費彈性系數為0.4,全社會用電量增速將在3%左右,由于經營區用電占比下降,2015年經營區全社會用電量增速將低于3%。
同時,由于售電量與經營區用電量強相關,且售電量增速下滑速度較快,因此售電量增速將遠低于3%。
4 結論
4.1 售電量與GDP、城鎮化率呈強相關關系
經分析發現,GDP、城鎮化率與售電量呈強相關關系,相關系數高于0.94。除GDP、城鎮化率等共性影響因素外,工業售電量與可支配收入、第二產業增加值、進出口總值強相關,相關系數分別為0.94、0.94、0.91;非居民售電量及居民售電量與可支配收入強相關,相關系數分別為0.95、0.96;農業售電量與固定資產投資、新裝增容農業戶數相關程度較高。其中,與固定資產投資相關系數為0.81,與滯后1個月的新裝增容農業戶數變化趨勢基本一致,相關系數為0.8;商業售電量與可支配收入強相關,相關系數為0.9;與滯后8個月的新裝增容戶數變化趨勢基本一致,相關系數為0.82。
4.2 RBF神經網絡模型預測售電量效果更佳
相較于已有預測方式,本次售電量預測充分收集售電量內外部影響因素數據信息,應用數據挖掘分析方法,通過售電量相關性分析,選取與售電量相關性高的因素作為預測模型的輸入變量;基于相關性分析結果,在模型中納入GDP、可支配收入、高耗能用電占比、城鎮化率、溫度、第二產業增加值占比等自變量,考慮了經濟增速放緩、人民生活水平提高、產業結構調整、高耗能轉移、溫度等多方面影響因素;引入季節虛擬變量,剔除了季節因素影響,分析因變量與自變量發展的長期趨勢;分別采用時間序列、回歸預測、神經網絡等多種方法構建預測模型,密切結合經濟現狀和業務現狀,以電力彈性系數等指標進行校核,綜合評估不同預測方法的預測結果。
經模型評估發現,采用偏最小二乘回歸法和時間序列法,預測結果偏差較大,平均相對誤差為2.32%和1.31%;采用RBF神經網絡法,預測值與實際值平均相對誤差僅為0.77%,預測結果偏差較小。RBF神經網絡法能有效避免售電量中季節周期分量和隨機分量對趨勢分量預測的干擾,相對于時間序列法和偏最小二乘回歸法對售電量序列直接建模預測的方法,RBF神經網絡法具有更高的預測精度。