彭澤武
(廣東電網有限責任公司信息中心,廣州510030)
基于分箱灰色預測的月用電量數據缺失值處理方法
彭澤武
(廣東電網有限責任公司信息中心,廣州510030)
在月用電量數據缺失問題的預處理方法中,如何使預處理的數據更接近原數據,一直是研究的重點內容。采用分箱灰色預測的方法,先將月用電量數據進行分箱處理,再用灰色預測方法進行線性填補,最終得到填補后的月用電量數據。
電力系統是人民生產生活中必不可少的一部分,在對電力系統的研究中,企業可以通過預測未來的月用電量,做出例如供電量等準確的決策。將企業往年的月用電量做成時間序列數據,但是在對時間序列進行預測的過程中,往往會出現數據缺失的問題。時間序列是將某種統計數據,按時間先后順序排列所形成的數列,時間序列預測法就是通過對時間序列的性質進行分析,根據時間序列所反映出來的發展過程、方向和趨勢,進行類推或延伸,借以預測下一段時間或以后若干年內可能達到的水平。
在時間序列預測過程中,現實世界的數據不一定是完整的,針對數據缺失值的填補問題,特別是針對波動數據的預處理方法,在現有的方法中還未有較好的處理方法。通常情況下處理缺失數據的方法主要采取忽略元祖,人工填寫,使用屬性中心度(入均值或中位數)等方法,然而,往往這些方法預測出的缺失值與數據本身差異較大,通過這種方法填補缺失值容易導致后期預測出現偏差。因此,我們對缺失值處理方法進行改進,在對缺失值的處理過程中,先將用電量數據進行分箱數理,再進行線性填補,從而使結果更加準確。
分箱是一種簡單常用的預處理方法,可以將波動數據分成幾組平穩數據,從而達到局部平滑的目的。分箱法顧名思義是將數據進行分箱處理形成多組數據的過程,通過考察相鄰數據來確定最終值。分箱法實際上就是將時間序列數據按照一定的規則放入一些箱子中,使每個箱子中的數據都是平穩數據,通過這種預處理方法再進行灰色預測可以減小誤差。其中每個數據位于對公式:

取余數所得的值的箱中,p為該數據在時間序列中的排序值,n為時間序列的周期。且每組中共有個數據,m為時間序列數值的總個數。
在運用分箱法的過程中,如何求出分箱的個數,即時間序列的周期,是問題的重點,在這里采用ACF檢測算法計算非平穩時間序列周期數。ACF算法是計算時間序列自相關函數,其公式為:

由于非平穩時間序列的自相關函數與時間序列具有相同的周期,從而求出時間序列的周期n,這些箱中的數據都是平穩數據。
灰色預測方法就是對既含有已知信息又含有未知或非確定信息的系統進行預測,就是在對一定方位內變化的、與實踐有關的灰色過程的預測。在這里由于每個箱中的數據較少,用灰色預測方法,利用缺失值前后值進行線性填補,對于連續缺失問題,進行前后數據延順。具體公式為:

以佛山從2004年1月至2015年12月的用電量為例,其時間序列圖像為:

圖1
由圖像可直觀看出該時間序列為波動數據,且間斷點則為時間序列中存在的缺失值。
為了使計算簡便,現將月用電量數據的時間補充定義為每月的15日結算。
將間斷點利用前后值進行線性填補,可得圖像如圖2所示。
(1)分箱法
用acf檢測算法計算出佛山市月用電量時間序列的周期,將月用電量數據代入公式:

計算出時間序列的自相關函數,再將函數求導可得到自相關函數的周期。
計算可得,月用電量數據時間序列的自相關函數周期為12,即時間序列的周期為12,因此將時間序列分為12個箱。

圖2
(2)灰色預測
對每個箱中的缺失值進行線性填補,可得填補后的圖像:

圖3
分箱灰色預測:q=1422.3
線性填補法:q=4076.8
可得,用分箱灰色預測方法填補的準確性更高。

圖4
其中,黑色線條為原始數據,藍色是線性填補方法,紅色是分箱灰色預測方法,可以看出紅色線條與黑色線條擬合程度較高。
本文以提高數據預處理準確性為出發點,提出了分箱灰色預測的缺失值填補方法,并通過比較,最終證明分箱灰色預測比線性填補更符合現實規律。
[1]郭淑婷,趙明輝.基于ACF的基音檢測算法[J].鄭州輕工業學院學報(自然科學版),2011.
[2]肖正安.基音周期檢測ACF算法及MATLAB仿真[J].湖北第二師范學院學報,2011.
[3]夏殿松,胡淼,洪夏俊.一種基于AMDF和ACF的基音周期提取算法研究[J].軍事通信技術,2009.
[4]崔立志.灰色預測技術及其應用研究[D].南京航空航天大學,2010.
彭澤武(1987-),男,湖北荊州人,工程師,研究方向為電力大數據技術
2017-07-13
2017-09-28
Binning;Grey Prediction;Time Series
Missing Value Processing Method of Monthly Electricity Consumption Data Based on Box Grey Forecast
PENG Ze-wu
(Information Center of Guangdong Power Grid Co.,Ltd.,510030)
In the pretreatment of data loss in monthly electricity consumption,one of the important things is how to make preprocessing data closer to the original data.Makes the monthly electricity consumption apart first,and predicts the losing data by grey prediction and finally obtains the monthly electricity consumption.
分箱法;灰色預測;時間序列
1007-1423(2017)29-0017-03
10.3969/j.issn.1007-1423.2017.29.004