翁湦元, 單杏花
(1.中國鐵道科學(xué)研究院 鐵道技術(shù)研修學(xué)院,北京 100081;2.中國鐵道科學(xué)研究院 電子計算技術(shù)研究所學(xué)院,北京 100081)
基于EEMD-GA-BP的組合客流預(yù)測算法研究
翁湦元1, 單杏花2
(1.中國鐵道科學(xué)研究院 鐵道技術(shù)研修學(xué)院,北京 100081;2.中國鐵道科學(xué)研究院 電子計算技術(shù)研究所學(xué)院,北京 100081)
以高速鐵路泰安站到達(dá)客流為研究對象,從客流數(shù)據(jù)的時頻特性角度分析客流的特征,并結(jié)合經(jīng)驗?zāi)B(tài)分解法的時頻分析優(yōu)勢以及遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)的擬合能力,探索可行組合預(yù)測算法,以泰安站到達(dá)客流數(shù)據(jù)為例進(jìn)行了實例分析,比較不同的IMF分量重構(gòu)方法并確定了較優(yōu)方案。
經(jīng)驗?zāi)B(tài)分解;遺傳算法;BP神經(jīng)網(wǎng)絡(luò);統(tǒng)計
客流數(shù)據(jù)具有復(fù)雜的變化規(guī)律,從客流的時頻特性上進(jìn)行分析有利于分解這些規(guī)律,并為預(yù)測工作提供更有效的信息[1]。噪聲輔助經(jīng)驗?zāi)B(tài)分解法(EEMD)在分析非平穩(wěn)及非線性數(shù)據(jù)上效果出色,結(jié)合遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)(GA-BP)[2]建模工具形成的組合預(yù)測方法(以下簡稱EEMD-GA-BP算法)較傳統(tǒng)的單一預(yù)測方法有明顯的優(yōu)勢[3]。本文以泰安站到達(dá)客流數(shù)據(jù)為例,對基于EEMD的組合預(yù)測方法以及傳統(tǒng)單一預(yù)測方法的效果進(jìn)行對比,并針對EEMD的本征模函數(shù)預(yù)測值,選擇出較優(yōu)的重構(gòu)方式,以保證最終預(yù)測精度。
1.1 EEMD-GA-BP組合預(yù)測算法綜述
基于EEMD的組合預(yù)測算法的一般步驟如下:
將原始數(shù)據(jù)x(t)(t=1, 2,…,T)通過EEMD分解為若干本征模函數(shù)Cj(t)(j=1, 2,…,N)以及趨勢項r(t)。
(1)使用遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)(GA-BP)對本征模函數(shù)進(jìn)行建模與預(yù)測。
(2)將分量的預(yù)測結(jié)果相加使其還原為原序列的預(yù)測結(jié)果。

圖1 EEMD-GA-BP組合預(yù)測算法流程圖
1.2 噪聲輔助經(jīng)驗?zāi)B(tài)分解算法
經(jīng)驗?zāi)B(tài)分解法(EMD)將非平穩(wěn)序列分解成有限本征模函數(shù)(IMF)分量和一個趨勢項,這些分量包含的頻率成分隨序列的變化而變化,通過對分量的頻率和幅值進(jìn)行分析,可以準(zhǔn)確地反映出原有序列的時頻特性。經(jīng)過EMD處理后的數(shù)據(jù)表示如式(1):

其中,N表示本征模函數(shù)的個數(shù),Cj(t)(j=1, 2,…,N)表示本征模函數(shù),頻率范圍由高到低,r(t)是趨勢項,代表原序列的主要趨勢。
在處理真實數(shù)據(jù)時存在的外部干擾因素,EMD分解容易出現(xiàn)模式混疊的現(xiàn)象而影響本征模函數(shù)的分析。因此引入噪聲輔助經(jīng)驗?zāi)B(tài)分解法(EEMD)[4],即在分析時對原序列加入隨機白噪聲信號后再進(jìn)行分解,如此重復(fù)M次,取分解結(jié)果的平均值。IMF的分量表達(dá)式由式(2)表示:

其中 ,Cji(t)代表第i次EMD分解加入噪聲后的數(shù)據(jù)的IMF分量。
1.3 GA-BP算法
遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)(GA-BP)算法,即在傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上根據(jù)神經(jīng)網(wǎng)絡(luò)個體的擬合精度作為適應(yīng)度指標(biāo),以BP神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點數(shù)、節(jié)點間的權(quán)重系數(shù)作為遺傳因子利用遺傳算法進(jìn)行參數(shù)優(yōu)化[5],最終生成擬合精度較高的神經(jīng)網(wǎng)絡(luò)的算法。其流程如圖2所示。
王 雪 男,1979年3月出生于遼寧省錦州市,現(xiàn)為中國科學(xué)院國家授時中心導(dǎo)航與通信研究室研究員.從事導(dǎo)航技術(shù)研究工作.

圖2 GA-BP算法流程圖
1.4 IMF分量重構(gòu)
對于IMF分量的重構(gòu)[6]有多重方法,若簡單的相加會影響預(yù)測的精度。GA-BP神經(jīng)網(wǎng)絡(luò)本身具有非線性映射的功能,因此可以使用GA-BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練來搜索IMF的最優(yōu)權(quán)重組合。在重構(gòu)時是否需要選擇所有的分量,以及往年同期數(shù)據(jù)的加入是否對預(yù)測有所幫助將在章節(jié)3中做出討論。
2.1 高速鐵路泰安站客流特性
高速鐵路泰安站是京滬高速鐵路24個站點之一,毗鄰著名旅游風(fēng)景區(qū)泰山,在一年中不同時段有著明顯不同的特點[7]。泰安站2013年全年的到達(dá)客流序列如圖3所示。

圖3 高速鐵路泰安站2013年日到達(dá)客流示意圖
可以看到4月4日(清明)、4月29日(五一)、6月10日(端午)、9月19日(中秋)、10月1日(國慶)均表現(xiàn)為客流迅速攀升達(dá)到尖峰,可以推測為旅游流的集中爆發(fā)。2月9日(除夕)以前的客流表現(xiàn)為逐漸攀升至高點而在2月10日(初一)突降至最低點,可以推測增加的客流為返鄉(xiāng)流。由圖3可以看出高鐵泰安站表現(xiàn)出明顯的非平穩(wěn)特征,部分時間點的客流表現(xiàn)出相較于平時明顯的差異性。
2.2 客流序列的聚類分析
通過對客流序列進(jìn)行聚類分析為客流分類提供依據(jù),將客流分為若干段長度為7天的片段,并使用K均值聚類方法分為具有明顯區(qū)別的4類,各類片段在全年的分布如圖4所示。
由圖4可以看出除節(jié)假日外絕大部分日期均被歸類為類別1,說明泰安站的平日客流具有相似的特征,因此對于平日客流的預(yù)測可以使用較為統(tǒng)一的方法。
2.3 客流序列數(shù)據(jù)EEMD分析
將客流序列進(jìn)行EEMD分解后的IMF以及趨勢項曲線如圖5所示。

圖4 客流聚類分布圖

圖5 客流數(shù)據(jù)EEMD分解結(jié)果
將IMF分量以及趨勢項與原序列進(jìn)行Pearson相關(guān)性分析,結(jié)果如下:

可以看出IMF-1與原序列的相關(guān)性極小,可以推測序列間的相關(guān)性不大。
其經(jīng)過希爾伯特變換(HHT)[8]后的邊際圖譜反映了原數(shù)據(jù)的頻率與幅值的對應(yīng)關(guān)系,為了更好的反應(yīng)數(shù)據(jù)中的主要頻率分布,我們從原序列中去除不相關(guān)的IMF分量以及能量較對大趨勢項后繪制其邊際圖譜如圖6所示。

圖6 客流數(shù)據(jù)邊際圖譜示意圖
可以看出其幅值的局部極值點分布頻率為:0.002 76 Hz、0.034 53 Hz、0.066 29 Hz、0.498 62 Hz處,對應(yīng)的周期分別為:362天、30天、15天、2天,即全年客流序列大致呈現(xiàn)出以1年、1月、15日以及2日的周期分布。其中,以2日為周期的能量幅值雖不高,但可以明顯與周圍幅值分布區(qū)分出來,因此推測為節(jié)假日的短時旅游客流大幅增加所致。
本文以2013年1月1日~12月31日數(shù)據(jù)作為歷史數(shù)據(jù),預(yù)測的目標(biāo)時間范圍為2014年1月1日~3月30日。將GA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測與EEMD-GABP組合預(yù)測方法的預(yù)測效果進(jìn)行對比。選用絕對誤差率(MAPE)以及皮爾遜相關(guān)系數(shù)(PEARSON)作為比較依據(jù),IMF的GA-BP預(yù)測結(jié)果如表1所示。

表1 IMF分量預(yù)測結(jié)果
由表1可以看出高頻成分IMF1的預(yù)測結(jié)果不理想,但考慮到IMF1分量本身與原數(shù)據(jù)的相關(guān)性不高,因此可以考慮將其剔除。其余分量的預(yù)測誤差在10%以內(nèi),同時Pearson相關(guān)系數(shù)呈現(xiàn)強正相關(guān)。其中IMF3~7,R7的分量預(yù)測結(jié)果已經(jīng)十分精確,由此可以看出對于分量的預(yù)測精度隨分量的頻率下降而提高。
為了探究分量重構(gòu)的在該情景下的最佳方法,我們做如下嘗試:
(1)將所有8個IMF分量求和作為預(yù)測結(jié)果;
(2)使用所有8個IMF分量,將其作為GA-BP神經(jīng)網(wǎng)絡(luò)的輸入,對當(dāng)日客流作為輸出進(jìn)行訓(xùn)練并測試;
(3)使用所有8個IMF分量, 以及GA-BP預(yù)測的客流數(shù)據(jù)作為輸入,對當(dāng)日客流作為輸出進(jìn)行訓(xùn)練并測試。
(4)使用相關(guān)性較強的IMF2~7,R7,以及GA-BP預(yù)測的客流數(shù)據(jù)作為輸入,對當(dāng)日客流作為輸出進(jìn)行訓(xùn)練并測試。
最終的預(yù)測結(jié)果如表2所示。
Combined passenger fow prediction algorithm based on EEMD-GA-BP
WENG Shengyuan1, SHAN Xinghua2
( 1.Railway Technology Research College, China Academy of Railway Sciences, Beijing 100081, China 2.Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )
This article analyzed the passenger fow time and frequency characteristic of Tai’an Station, explored a feasible combination forecasting algorithm combining with EEMD and GA-BP Algorithms, taken the travelers of Tai’an Station as example to analyze and compare different reconstruction methods of IMFs, determine the optimal one.
Empirical Mode Decomposition(EMD); Genetic Algorithm; Back Propagation(BP) neural network; statistics
U293.13∶TP39
A
2015-08-31
國家自然科學(xué)基金(U1334201)。
翁湦元, 在讀碩士研究生;單杏花,研究員。
1005-8451(2016)03-0031-04