劉曉娟,方建安
(1.東華大學信息科學與技術學院,上海 200051;2.上海電力學院數(shù)理學院,上海 201300)
穩(wěn)健回歸方法在電力消費預測中的應用
劉曉娟1,2,方建安1
(1.東華大學信息科學與技術學院,上海 200051;2.上海電力學院數(shù)理學院,上海 201300)
電力系統(tǒng)電力消費量受諸多因素的影響,為了提高其預測的精度,得到更好的預測結果,首先分析了異常數(shù)據(jù)產(chǎn)生的原因以及其對預測結果的影響,提出了基于M-估計的穩(wěn)健回歸預測算法。在該預測算法中首先選擇恰當?shù)哪繕撕瘮?shù)和權重函數(shù),接著利用泰勒展開對參數(shù)進行迭代估計,得到穩(wěn)健的預測值,最后進行算例分析。算例數(shù)值表明該算法同傳統(tǒng)線性回歸方法相比,具有較好的抗干擾性,預測結果能更好地吻合實際數(shù)據(jù)和未來的趨勢。
最小二乘法;M-估計;穩(wěn)健回歸;預測;電力消費
隨著科學技術和經(jīng)濟的發(fā)展,電力能源在日常生活和生產(chǎn)中起著越來越重要的作用。電力消費量與工農(nóng)業(yè)生產(chǎn)以及居民的消費水平有著密切的聯(lián)系,隨著我國工農(nóng)業(yè)生產(chǎn)的快速發(fā)展和居民人口的不斷增長,如何精確地預測電力消費量,以期能夠及時調(diào)整電力系統(tǒng)能源的分布,對進行有效地計劃調(diào)度和優(yōu)化電力設施的功能等具有十分重要的現(xiàn)實意義[1,2]。
電力消費量是受諸多因素影響的既有規(guī)律性又有隨機性的時間序列,電力消費量的預測是依賴于大量的歷史數(shù)據(jù)和相關影響因素資料的被動型預測。翔實可靠的資料數(shù)據(jù)對預測精度有至關重要的影響。但大量的測量數(shù)據(jù)中經(jīng)常出現(xiàn)一些異常數(shù)據(jù)(Hampel(1977)指出實際數(shù)據(jù)中含有10%左右的異常值是正常的),很多方法對異常數(shù)值非常敏感,少量的異常值可能會對預測規(guī)律和預測結果產(chǎn)生完全錯誤的影響[3,4]。近年來,大量的模型和方法被應用于電力消費的預測[5~9]。但是目前的一些模型和方法,常常假設歷史的數(shù)據(jù)資料完全正確,忽略了對異常數(shù)據(jù)的預處理。
本文提出了一種基于穩(wěn)健統(tǒng)計的預測算法,該算法可降低異常數(shù)據(jù)對預測結果的影響,并且具有較好的穩(wěn)定性。
1.1 異常值的產(chǎn)生以及對預測結果的影響
異常值是指在一個預測樣本中,其殘差嚴重偏離其他樣本殘差的數(shù)據(jù)。異常值的出現(xiàn)有3種原因:一方面,電力系統(tǒng)在實際運行時,數(shù)據(jù)采集系統(tǒng)的量測、記錄和傳輸過程中的任一環(huán)節(jié)都可能導致觀測數(shù)據(jù)的異常;另一方面,數(shù)據(jù)采集系統(tǒng)正常,特殊事件(線路停電檢修、大事件沖擊等)引起負荷的異常變化,也會導致觀測數(shù)據(jù)的異常;第三,抽樣調(diào)查技術不完善、記錄錯誤、人為虛報等原因也有可能產(chǎn)生異常值。
如果這些異常值得不到正確地識別和有效地校正,它們將以偽變化規(guī)律的方式提供給預測者作為參考,影響預測結果的精確度和可靠性。在實際電力負荷預測時,歷史資料數(shù)據(jù)中的異常數(shù)據(jù)常常會產(chǎn)生兩方面的影響:①作為建模數(shù)據(jù),干擾了變化規(guī)律,影響了訓練精度;②作為檢驗預測結果的預測值,會導致對預測結果預測精度的誤判。
1.2 傳統(tǒng)的多元回歸分析
傳統(tǒng)的多元線性回歸分析的基本原理模型為

式中:β0,β1,…,βk為未知的回歸系數(shù);e1,e2,…,en為隨機誤差且獨立同分布,常假設:E[ei]=0;E(ei2)=σ2,E(ei2)為一常數(shù)。

基于以上原理,采用最小二乘法進行參數(shù)β的估計。可以看出傳統(tǒng)的最小二乘回歸分析是通過極小化殘差的平方和求得各個回歸系數(shù)的,而這個過程本身使得回歸系數(shù)的大小對殘差的大小異常敏感。如果樣本數(shù)據(jù)中有異常值,其對應的回歸殘差也異常(偏大或偏小),往往導致擬合、預測模型的失真。可見,傳統(tǒng)的多元回歸分析具有較大的弊端,特別是樣本中存在異常數(shù)據(jù)時。
當樣本數(shù)據(jù)中含異常值時,最小二乘估計OLS(optimal leastsquare)估計出的殘差一般不是正態(tài)分布,往往是偏尾的,由于考慮殘差的平方和,使異常值的作用顯著增加,導致估計的精度較差。穩(wěn)健回歸方法的主要目的在于改進最小二乘估計受異常值影響太大的缺點,其基本思想是極小化殘差函數(shù)ρ(ei),得到各個回歸系數(shù),選取的殘差函數(shù)ρ(ei)不是像OLS選取殘差平方和那樣,對所有樣本數(shù)據(jù)賦予相同的影響因子,而是根據(jù)殘差的大小賦予不同的權重,從而減弱異常值對回歸結果的影響。
常用的穩(wěn)健回歸方法是由Huber在1964年提出的M-估計方法。其基本原理的回歸模型為

式中:β0,β1,…,βp為未知的回歸系數(shù);e1,e2,…,en獨立同分布,且E[ei]=0。
Huber提出的M-估計就是尋找β,使得

達到最小。
為減小Y1,Y2,…,Yn中異常值的作用,取ρ(x)為增長速度比x2慢的函數(shù),且滿足:①ρ(x)處處連續(xù),-∞<x<+∞;②ρ(0)=0,ρ(x)=ρ(-x);且當
顯然,當ρ(ei)=ei2時,M-估計就是OLS,因此可視M-估計為OLS估計的擴展。記

則目標函數(shù)對參數(shù)β求偏導數(shù),并令偏導數(shù)等于0,則得到關于參數(shù)的k+1個方程組為

為使上述方程組有解,ρ(x)需滿足:ρ(x)為定義在(-∞,+∞)上的非負凸函數(shù),且ρ′(x)=ψ(x)處處存在且
可見,M-估計的性質(zhì)與所選擇的函數(shù)ρ(x)有很大關系,并且在計算β時,初始值的選擇非常重要。經(jīng)尺度同變性,式(7)可化簡為

式(8)為一加權最小二乘估計問題,且它的權重依賴于殘差ei的大小,殘差又依賴于回歸系數(shù)β,回歸系數(shù)又依賴于估計時的權重Wi,因此必須使用迭代法對方程進行求解。并且在求解時,關鍵點在于:一是選擇恰當?shù)哪繕撕瘮?shù)ρ(x);二是權重函數(shù)W(x)的選擇,使導致殘差異常的異常值權重變小,殘差小的樣本數(shù)據(jù)權重變大,以減弱異常點對回歸分析的影響,增強回歸方程的穩(wěn)健性。
穩(wěn)健回歸估計預測的目的不在于縮小殘差,而在于求得回歸系數(shù)較正確的估計,以達到比較精確的預測。穩(wěn)健回歸估計預測的主要作用是對付異常值,盡可能減小異常值對預測的影響。因此,在構造目標函數(shù)時,充分考慮函數(shù)的時間優(yōu)先性,即越靠近預測時間的數(shù)據(jù)具有更高的參考價值,應賦予較高的權重。此外,參數(shù)?的估計依賴于目標函數(shù)ρ(t,et,x)的迭代估計;Y的預測則考慮了權重函數(shù)W(t,et)和目標函數(shù)。
穩(wěn)健回歸預測算法步驟如下。
步驟1選擇初始估計值β(0)、目標函數(shù)ρ(t,ei,x)和權重函數(shù)W(t,ei);
步驟2令

關于βk泰勒展開至二次項,并令殘差


本文以上海市1985、1990—2010年共22年的工業(yè)總產(chǎn)值(億元)、農(nóng)業(yè)總產(chǎn)值(億元)、常駐人口(萬人)和電力消費量(億千瓦時)的數(shù)據(jù)[10]為依據(jù),建立上海市電力消費量關于工業(yè)總產(chǎn)值、農(nóng)業(yè)總產(chǎn)值以及常駐人口數(shù)的線性回歸方程,并對該回歸方程進行傳統(tǒng)回歸預測分析和穩(wěn)健回歸預測方法分析。
對其進行傳統(tǒng)多元線性回歸分析,得到的回歸方程為

通過分析其殘差和殘差,明顯可以看出,2005年的原始數(shù)據(jù)有異常,該回歸方程受其影響,明顯偏離原始數(shù)據(jù)。
采用穩(wěn)健回歸預測算法分析,得到的回歸方程為

與傳統(tǒng)的回歸分析預測模型相比較,結果如圖1所示。

圖1 實際值與兩種回歸算法預測值比較Fig.1 Comparison of the actualdata and the forecasting data obtained by the two regression algorithms
從圖1可以看出,在2005年數(shù)據(jù)(第17個原始數(shù)據(jù))以后,傳統(tǒng)回歸曲線明顯偏離了實際數(shù)據(jù),并且隨著原始數(shù)據(jù)的不斷增加,傳統(tǒng)回歸曲線具有越來越偏離原始數(shù)據(jù)的趨勢。事實上,由于政治、經(jīng)濟等各方面的原因,近期數(shù)據(jù)對預測未來電力消費量的的影響遠大于遠期數(shù)據(jù),傳統(tǒng)回歸曲線并不能較為準確地擬合預測未來的電力消費量。
為了比較預測的精度,定義絕對百分比誤差APE(absolute percentage error)來作為預測的誤差準則。

式中:yk為k年電力消費量的真實值;y?k為k年電力消費量的預測值。
從表1預測誤差比較可以看出,異常點2007年以后,穩(wěn)健回歸誤差有較大程度的改善。穩(wěn)健回歸的主要目的不是減小預測誤差,而是減弱異常點對回歸分析的影響,增強回歸方程的穩(wěn)健性。由此可以看出文中所給出的穩(wěn)健回歸算法在異常點以后能更準確地描述電力消費量的趨勢。

表1 誤差比較表Tab.1 Comparison of the error
針對上海市年用電量受工業(yè)總產(chǎn)值、農(nóng)業(yè)總產(chǎn)值和常駐人口等諸多因素的影響可能出現(xiàn)異常值數(shù)據(jù)與預測模型不能高度吻合直接影響到預測的精度的情況,本文提出了一種穩(wěn)健回歸的預測算法,該算法同傳統(tǒng)線性回歸算法相比,能自動減弱異常數(shù)據(jù)對預測結果的影響,增強對異常數(shù)據(jù)的抗干擾性。數(shù)值結果表明,該穩(wěn)健算法比傳統(tǒng)的線性回歸算法能更好地吻合實際數(shù)據(jù)。
[1]李培強,李欣然,林舜江(LiPeiqiang,LiXinran,Lin Shunjiang).電力負荷建模研究述評(Critical review on synthesis load modeling)[J].電力系統(tǒng)及其自動化學報(ProceedingsoftheCSU-EPSA),2008,20(5):56-64,123.
[2]吳曾,張慶豐(Wu Zeng,Zhang Qingfeng).基于穩(wěn)健回歸的電力負荷預測(Forecastofpower load based on robust regression)[J].電力科學與工程(Electric Power Science and Engineering),2009,25(4):25-27.
[3]Moller SF,F(xiàn)rese JV,Bro R.Robustmethods formultivariate data analysis[J].JournalofChemometrics,2005,19(10):549-563.
[4]Pell R J.Multiple outlier detection formultivariate calibration using robuststatistical techniques[J].Chemometricsand Intelligent Laboratory Systems,2000,52(1):87-104.
[5]王新軍,黃守坤(Wang Xinjun,Huang Shoukun).預測型穩(wěn)健回歸模型及其實證分析(Forecasting robust regressionmodel and the experimental analysis)[J].統(tǒng)計研究(StatisticalResearch),2004,(12):42-45.
[6]奇鳳,魏占民(QiFeng,WeiZhanmin).Matlab穩(wěn)健回歸在作物水模型建模中的應用(Application ofMatlab robust regressionmodeling of crop response towater)[J].內(nèi)蒙古農(nóng)業(yè)大學學報(Journalof InnerMongolia AgriculturalUniversity),2008,29(2):144-147.
[7]李建偉,趙法起,劉鳳玲(Li Jianwei,Zhao Faqi,Liu Fengling).中長期電力負荷的組合預測法(Forecast combining approach ofmid-long term power load)[J].電力系統(tǒng)及其自動化學報(Proceedings of the CSU-EPSA),2011,23(4):133-136.
[8]Liu Jin,Yu Jilai,Tang Xianglong,etal.Peak load forecasting based on robust regressionmodel[C]//International Conference on Probabilistic Methods Applied to Power Systems.Ames,USA:2004.
[9]Jia Runda,Mao Zhizhong,Chang Yuqing.A nonlinear robustpartial leastsquaresmethod with application[C]//Chinese Control and Decision Conference.Xuzhou,China:2010.
[10]上海市統(tǒng)計局編.2011年上海統(tǒng)計年鑒[M].北京:中國統(tǒng)計出版社,2011.
Application of Robust Regression M ethod in Electric Power Consumption Forecasting
LIUXiao-juan1,2,F(xiàn)ANG Jian-an1
(1.College of Information Scienceand Technology,Donghua University,Shanghai200051,China;2.SchoolofMathematicsand physics,ShanghaiUniversity of Electric Power,Shanghai201300,China)
Electric power consumption is influenced bymany factors.To improve its forecasting precision and obtain better results,the cause and effectofanomalousdataare analyzed,and a robust regression algorithm based on M-estimation isgiven.In the algorithm,properobjective function and weight functionsare chosen,and then iterative estimation using Taylor expansion ismade to obtain robust forecasting results.In the end,experiment results show that the proposedmethod performsbetterboth in robustnessand in accuracy than the conventional linear regressionmethod.
optimal leastsquare;M-estimation;robust regression;forecasting;electric power consumption
TM715;O212
A
1003-8930(2013)05-0022-04
劉曉娟(1977—)女,博士研究生,講師,研究方向為最優(yōu)化理論、最優(yōu)預測及控制等。Email:xiaojl_01@163.com
2012-07-03;
2012-11-30
國家自然科學基金項目(60874113)
方建安(1966—)男,博士,教授,博士生導師,研究方向為復雜系統(tǒng)建模與仿真等。Email:jafang@dhu.edu.cn(通訊作者)