陳 昊,王玉榮
(1.南京供電公司,南京 210008;2.東南大學 電氣工程學院,南京 210096)
一種負荷預測模型預測能力的評價標準
陳 昊1,王玉榮2
(1.南京供電公司,南京 210008;2.東南大學 電氣工程學院,南京 210096)
常用的負荷預測模型預測能力的評價標準(如MSE和MAE)在使用過程中存在一定的局限性。引入Diebold?Mariano(DM)檢驗,給出了判斷不同預測模型預測能力是否存在顯著差別的定量分析方案。算例分析表明,基于DM檢驗的現代評價標準可以緩解樣本中隨機干擾造成的影響,有效地甄別模型的預測能力,為更全面地比較負荷預測模型提供了參考。
負荷預測;損失函數;MSE;MAE;DM檢驗
電力系統的經濟、安全運行離不開有效的電力負荷預測。經過近幾十年來人們的努力,已涌現出一大批實用的負荷預測模型,如:神經網絡模型[1]、混沌模型[2]、Box?Jenkins時間序列模型[3]以及波動模型[4]等。實際的負荷預測系統,通常提供多種負荷預測模型,讓調度和規劃計劃人員根據實際情況相機而決。此時,對負荷預測模型預測能力的考核和評價就顯得尤為重要,但現有文獻中對預測評價方面的研究[5]相對較少,具有定量判斷依據的現代評價標準的討論是必要和有益的。
一個科學全面的評價標準,對不同預測模型的篩選和修正起著關鍵的作用。從文獻上看,目前使用較多的是均方誤差(mean squared error,MSE)和平均絕對誤差(mean absolute error,MAE)等常規評價標準。電力系統生產實踐中,各地電力公司使用的負荷預測精度考核評價標準也多是MSE與MAE的變體。依靠這些常規評價標準來判斷模型預測能力的高下較為簡單便捷,一般可以給出合理判斷,但在一些場合仍存在局限性。由于樣本偶然性的普遍存在,容易使預測結果出現隨機差異,此時沿用常規評價標準容易做出誤導性的判斷,且不能給出模型預測能力明確的、定量的優劣分界線。
本文引入DM檢驗[6],給出了一種基于DM檢驗的負荷預測模型預測能力的現代評價標準,對MSE和MAE數值大小差別能否評價模型預測能力的高下提出了定量分析方案。

MSE和MAE是最常用的2種評價標準。下面以MSE為例,討論常用評價標準可能存在的局限性。
計算出2個負荷預測模型樣本外預測結果的MSE后,如果模型A和模型B的MSE有細微差別,是否可以認為MSE小的模型預測能力一定優于MSE大的模型?在一些情況下,這樣的論斷可能是沒有把握的。如模型A的MSE比模型B的MSE稍大,這種差距未必有統計上的顯著意義,可能僅僅是由于樣本偶然性導致結果出現了一些隨機差異,此時不能對2種模型預測能力的高下作出認定。
MSE的差別是否在統計意義上足夠顯著,是否足以確信這種差距的出現是因為模型預測能力的確有高下之分,這些是常規評價標準不能提供的。從現代評價標準的視角入手,預測能力的評價問題可以通過構造假設檢驗在數理層面給出一個定量的結果。
常用預測評價標準未涉及2個模型的統計檢驗。只有當模型A的MSE數值上低于模型B,且這種差別顯著大于零時,才有足夠的信心認為模型A的預測能力優于模型B。DM檢驗正可以用于甄別這種差別是否顯著大于零。
在正式展開DM檢驗之前,必須先定義損失函數的概念。
考察一組時間序列{yt},建立i個模型進而使用這些模型進行預測,得到i組的預測值4…),算得相應的預測誤差序列(i=1,2,3,4…)。
定義:損失函數為預測誤差的函數,形如

損失函數需要滿足3個條件:①L(0)=0;②L()是連續的;③L()隨著|的增加而單調上升。
損失函數的形式很多[7,8],最常用的是誤差平方損失(squared error loss)

其次為誤差絕對損失(absolute error loss)

對一個預測長度為T期的預測,為判斷一個模型的預測能力是否顯著異于另一個模型,構建如下零假設


其中,0)為零點譜密度。
此時構造的DM統計量依分布收斂于正態分布[6],即


對2009年江蘇省某地區96點日負荷數據建立3種負荷預測模型。其中模型A為GARCH(廣義回歸條件異方差)模型[4],模型B為TAR(門限自回歸)模型[9],模型C為ARMA(自回歸移動平均)模型[4]。


表1 預測模型的MAE、MSE比較
由表1可見,MAE和MSE對3種負荷預測模型預測能力的評價是不一致的。以MAE而言,預測能力排序為A>B>C;以MSE而言,預測能力排序為A>C>B。通常個別預測誤差較大的點對MSE的影響大于MAE,本算例中的排序也反應了這種差別。
下面使用DM檢驗,定量檢驗模型的預測能力是否存在高下之分。
首先比較模型A與模型B,計算基于MAE和MSE的DM統計量(DM?MAE,DM?MSE)及相伴P值,如表2所示。

表2 模型A和模型B預測能力比較
由表2可見,在MSE意義下的DM檢驗的結果為2種模型的預測能力差異顯著(DM?MSE統計量的絕對值大于臨界值的絕對值),即在MSE意義上2種模型預測能力差距較大,有信心認為模型A預測能力的確優于模型B;而在MAE意義下的DM檢驗的結果不能拒絕2種模型的預測能力相當的原假設(DM?MAE統計量的絕對值稍小于臨界值的絕對值),隨機干擾因素的存在也許是造成這2種模型的MAE有差距的原因,而并非2種負荷預測模型預測能力有實質性的差異。
類似的,模型B與模型C的比較結果如表3所示。

表3 模型B與模型C預測能力比較
由表3可見,在MAE意義下的DM檢驗的結果不能拒絕2種模型預測能力相當的原假設。有理由推測模型B與模型C預測結果的MAE差別或許是由于某些隨機因素造成的;在MSE意義下亦然。
模型C與模型A的比較結果如表4所示。

表4 模型C與模型A預測能力比較
由表4可見,在MSE意義下的DM檢驗的結果為2種模型的預測能力有顯著差別;在MAE意義下亦然。
從算例分析中可以得到以下幾點結論:
(1)借助DM檢驗,3種負荷預測模型預測能力差別是否顯著可以得到甄別。MSE意義下,模型A、B預測能力有顯著差異;無論在MSE還是MAE意義下,模型C、A預測能力有顯著差異。其他3種情況下,對比模型的預測能力難分軒輊。
(2)基于MSE意義下的DM檢驗結論和基于MAE意義下的DM檢驗結論有時會有差別,這是由MSE和MAE 2種標準本身的差異造成的。
(3)直觀來看,MSE數值上差別越大,2種模型的預測能力越可能有高下之分,但究竟MSE差別大到何種程度才能下這樣的判斷?DM檢驗通過構造統計量能夠定量地給出判別方法。基于MAE的DM檢驗亦然。
本文指出了負荷預測常用評價標準可能受隨機干擾影響的局限性,并給出了基于DM檢驗的負荷預測模型預測能力評價標準。DM檢驗可以在很大程度上區分由于樣本偶然性造成的預測結果的隨機差異和模型預測能力的實質性差別造成的結果的差異,是對以往常用評價標準的一種完善。基于DM檢驗的評價標準為更全面地比較和品評負荷預測模型提供了參考。
此外,算例分析中雖然以負荷預測為例,但DM檢驗的適用范圍很廣,絕非只此一隅,亦可適用于風速預測、電價預測等電力系統領域的相關預測課題。
:
[1]高山.短期負荷預測技術[D].南京:東南大學,1997.
[2]張步涵,劉小華,萬建平,等.基于混沌時間序列的負荷預測及其關鍵問題分析[J].電網技術,2004,28(13):32-35.
[3]Amjady N.Short?term hourly load forecasting using time series modeling with peak load estimation capability[J].IEEE Transactions on Power Systems,2001,16(4):795-805.
[4]陳昊.基于廣義自回歸條件異方差模型的負荷預測新方法[J].電力系統自動化,2007,31(15):51-54.
[5]陳亞紅,馬麗,穆剛,等.兩種負荷預測精度考核指標的比較[J].電力系統自動化,2003,27(17):73-77.
[6]Diebold F X,Mariano R.Comparing predictive accuracy[J].Journal of Business and Economic Statistics,1995(13):253-265.
[7]Diebold F.Elements of Forecasting[M].Cincinnati:South?Western,2001.
[8]Granger Clive W J.Outline of forecast theory using gener?alized cost functions[J].Spanish Economic Review,1999,2(1):161-173.
[9]艾欣,蔡國偉,張湛.電力系統短期負荷預測中非線性模型的研究與應用[J].電力系統自動化,1994,18(12):19-23.
An evaluation criterion for the forecast accuracy of load forecasting models
CHEN Hao1,WANG Yu?rong1
(1.Nanjing Electric Power Supply Company,Nanjing 210008,China;2.Southeast University,Nanjing 210096,China)
Common load forecast models evaluation crite?ria,such as MSE and MAE,have limitation in application to some degrees.In this paper,the Diebold-Mariano(DM)test is introduced.Furthermore,the scheme of quantitative analysis,which can discriminate the significant difference of forecasting ac?curacy between different models,is proposed.Case study indi?cates that this morden evaluation criterion based on DM test can relieve the influence of random sample disturbance,and can also evaluate the performance of load forecasting models.Moreover,the proposed method can provide reference to the comprehensive evaluation for load forecasting models.
load forecasting;loss function;mean squared er?ror(MSE);mean absolute error(MAE);diebold?mariano(DM)test
TM715;F407.61
A
1009-1831(2010)06-0024-03
2010-09-08;修回日期:2010-09-19
陳昊(1980—),男,江蘇南京人,統計師,工程師,研究方向為高等時間序列分析與多元統計;王玉榮(1981—),女,河北唐山人,博士研究生,研究方向為電力系統時間序列分析與無功優化。