謝俏,李斌斌,何建濤,姚恩建
(1.廣州地鐵集團有限公司,廣州510030;2.北京交通大學交通運輸學院,北京100044)
基于非參數(shù)回歸的
城軌實時進出站客流預(yù)測
謝俏1,李斌斌2,何建濤1,姚恩建2
(1.廣州地鐵集團有限公司,廣州510030;2.北京交通大學交通運輸學院,北京100044)
為準確預(yù)測城軌實時進出站客流,構(gòu)建基于非參數(shù)回歸的實時進出站客流預(yù)測模型。首先,對不同特征日分時進出站客流量進行對比分析,據(jù)此構(gòu)建歷史數(shù)據(jù)庫;其次,通過計算歷史分時數(shù)據(jù)的相關(guān)系數(shù),并設(shè)置閾值對分時客流數(shù)據(jù)間的相關(guān)性進行判斷,從而確定合適的非參數(shù)模型狀態(tài)向量;再次,根據(jù)K近鄰樣本與預(yù)測目標的客流量差異性,設(shè)計基于權(quán)重加權(quán)的預(yù)測算法;最后利用廣州市城軌客流數(shù)據(jù)對預(yù)測模型進行精度分析,對全網(wǎng)站點多天的預(yù)測結(jié)果顯示:全天平均絕對百分比誤差均在2%以下,分時平均絕對百分比誤差均在14%以下,表明模型具有較高的預(yù)測精度和良好的適用性。
城市軌道交通;進出站客流;實時預(yù)測;K近鄰;非參數(shù)回歸
隨著城市軌道交通網(wǎng)絡(luò)格局的逐步形成,網(wǎng)絡(luò)客流規(guī)模持續(xù)攀升,地鐵運營壓力日益凸顯。運營管理部門需要實時掌握未來短時間內(nèi)客流量的變化趨勢,以制定和實施合適的運營管理及客流組織計劃[1]。因此,需要利用數(shù)據(jù)挖掘技術(shù),深入剖析實時客流變化規(guī)律,滾動精準地實時預(yù)測網(wǎng)絡(luò)客流分布狀態(tài)和趨勢,實現(xiàn)高效、精準的客流預(yù)測和預(yù)警,誘導(dǎo)乘客合理有序出行,節(jié)約乘客出行成本。
在實時客流預(yù)測方面,國內(nèi)外已有諸多研究,常用的模型有時間序列模型[23]、卡爾曼濾波模型[45]、神經(jīng)網(wǎng)絡(luò)模型[69]、支持向量機模型[1011]等。時間序列模型是在過去變化規(guī)律的基礎(chǔ)上來推斷和預(yù)測其未來值,因此對于具有固定變化規(guī)律的數(shù)據(jù)可以得到較好的預(yù)測結(jié)果,而小粒度下的進出站客流量變化隨機性較大,另外由于在預(yù)測時模型參數(shù)固定,使其難以達到實時客流非靜態(tài)預(yù)測的要求。卡爾曼濾波模型則是由狀態(tài)方程和觀測方程組成,采用遞推算法,但其在對非線性、波動性較大的客流做預(yù)測時,精度較差。對于神經(jīng)網(wǎng)絡(luò)模型,其根據(jù)歷史數(shù)據(jù)訓練神經(jīng)元,得到輸入與輸出數(shù)據(jù)之間內(nèi)在的復(fù)雜、非線性關(guān)系。通過訓練好的模型輸出預(yù)測值,具有一定的自適應(yīng)性,但容易陷入局部最優(yōu)和過擬合的困境,且預(yù)測精度受到訓練樣本量的影響較大。而支持向量機模型雖然克服了小樣本問題,但對于變化性較強的實時進出站客流預(yù)測,其精度也達不到預(yù)測精度的要求。
相對于參數(shù)回歸,非參數(shù)回歸(nonparametric regression,NPR)是另一類預(yù)測方法,它并不對數(shù)據(jù)作任何嚴格的限定,而是依賴于已有數(shù)據(jù)來決定輸入和輸出的關(guān)系。新觀測到的數(shù)據(jù)可以方便地加入到非參數(shù)回歸模型中去,而不像在參數(shù)回歸的環(huán)境下需要對參數(shù)做耗時的調(diào)整。它所具有的數(shù)據(jù)挖掘能力,不需要任何先驗知識和大量的參數(shù)識別,只需借助足夠的歷史數(shù)據(jù)來描述這個系統(tǒng)。另外,非參數(shù)回歸保持了原始數(shù)據(jù)的特性,因為它并沒有對原始數(shù)據(jù)做平滑處理,因此在歷史數(shù)據(jù)庫樣本量增大時,非參數(shù)回歸預(yù)測的準確性也隨之提高。
Davis G A[12]最早于1991年真正將非參數(shù)回歸的方法應(yīng)用到了交通流量預(yù)測中,得到了較好的預(yù)測結(jié)果,并得到大樣本量將會提高預(yù)測精度的結(jié)論。宮曉燕[13]對傳統(tǒng)的非參數(shù)回歸進行了改進,運用變K搜索算法得到基于動態(tài)聚類和散列函數(shù)的歷史數(shù)據(jù)組織方式。翁劍成[14]對基于北京市快速路上的檢測器所采集的歷史數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選及處理后建立了交通狀態(tài)演變系列的歷史樣本數(shù)據(jù)庫,并基于K近鄰的非參數(shù)回歸構(gòu)建了短時交通預(yù)測模型,并得到了較好的預(yù)測結(jié)果。張濤[15]利用K近鄰方法對短時交通流進行了預(yù)測,考察了模型中關(guān)鍵因素對預(yù)測效果的影響,但對于K值并沒有給出較為合理的取值,在實際場景應(yīng)用中可操作性及可移植性較差。以上研究中,國內(nèi)外的學者主要將非參數(shù)回歸模型應(yīng)用到交通流的預(yù)測中,對城軌進出站客流的預(yù)測研究較少,而城軌作為一個較為封閉的系統(tǒng),利用AFC(auto fare collection)系統(tǒng)可以較為容易地采集得到分時進出站客流量,并且隨著客流運營的時間推移,歷史樣本數(shù)據(jù)量不斷增加,為非參數(shù)回歸提供了很好的應(yīng)用基礎(chǔ)。
國內(nèi)絕大部分城市軌道交通采用AFC,可以較為便利地獲取大量的實時進出站客流數(shù)據(jù),筆者利用廣州地鐵AFC系統(tǒng)所采集的進出站客流,充分挖掘進出站客流的規(guī)律。對于實時客流預(yù)測,其時間粒度一般控制在15 min以內(nèi),因此本文重點對15 min粒度的客流進行分析。
2.1 平常日客流變化規(guī)律差異性
挑選廣州市城市軌道交通線網(wǎng)中的某站點為研究對象,隨機挑選2015年的連續(xù)一周15 min粒度的分時進站客流數(shù)據(jù)進行分析,畫出其變化折線圖,如圖1所示。

圖1 廣州市軌道交通某站點一周內(nèi)15 min分時進站客流量變化Fig.1 15min entrance passenger flow of one station in Guangzhou metro
從圖1中可以看出,該站點周一至周日的變化規(guī)律存在一定的差異,具體表現(xiàn)在:1)周一至周五的7:00—9:00存在較大的客流高峰,而在18:00—19:00時存在較小的客流高峰,周六、日則不存在;2)周一至周五的客流變化也不盡相同,如周一的早高峰峰值更大,周五的晚高峰持續(xù)時間較其他工作日長;3)周六、周日客流量較工作日有整體下降,而周六與周日相比存在較小的早晚高峰。
2.2 平常日客流變化規(guī)律相似性
為更好地把握平常日進出站客流變化特征,不僅需要對分時客流變化規(guī)律的差異性進行分析,同時也需要對其相似性進行分析。下面分析不同周之間的客流變化規(guī)律。
從2015年的3月、6月、9月和12月中隨機挑選一周的分時客流數(shù)據(jù),畫出不同月份的周一、周三的客流變化折線圖如圖2、3所示。

圖2 廣州市軌道交通某站點不同月份的周一15 min分時進站客流量變化Fig.2 Entrance passenger flow of one station in Guangzhou metro on Mon of differentmonths

圖3 廣州市軌道交通某站點不同月份的周三15 min分時進站客流量變化Fig.3 Entrance passenger flow of one station in Guangzhoumetro on Wed of differentmonths
從圖2、圖3可以看出,不同月份的周對應(yīng)日的分時客流變化規(guī)律相似性較高,在早晚高峰及平峰期間的客流變化基本一致,可以得到周內(nèi)次序相同日間相似性較高的結(jié)論,這將為非參數(shù)回歸模型中歷史庫的構(gòu)建提供依據(jù)。
3.1 模型框架
本文重點考慮城軌分時進出站客流數(shù)據(jù)的特點,建立適用于城軌實時客流預(yù)測的模型。K近鄰算法是基于實例學習的非參數(shù)預(yù)測法,其核心思想是取得一個盡量完備的歷史數(shù)據(jù)庫,提取數(shù)據(jù)特征,根據(jù)當前的數(shù)據(jù)特點搜索歷史數(shù)據(jù)庫中與預(yù)測值的狀態(tài)向量最相似的K個樣本來進行預(yù)測。
根據(jù)上一節(jié)對進出站客流變化規(guī)律特征的研究,發(fā)現(xiàn)周內(nèi)次序相同的日間客流變化規(guī)律具有較好的相似性,而對于平常日其歷史數(shù)據(jù)樣本量也較大,因此對于平常日的預(yù)測,本文構(gòu)建周一至周日7個歷史數(shù)據(jù)庫,以提高模型預(yù)測效率與精度。之后,根據(jù)預(yù)測目標與歷史數(shù)據(jù)庫中樣本的狀態(tài)向量計算距離,并依照距離進行排序,抽取出與預(yù)測目標距離最近的K個近鄰樣本,并利用K近鄰樣本進行計算,得到下一時段的分時進出站客流量。其中,K的取值會影響預(yù)測結(jié)果,本文選取預(yù)測日前多個相同場景日作為虛擬預(yù)測日,通過構(gòu)造與預(yù)測時類似的歷史數(shù)據(jù)庫,對虛擬預(yù)測日進行預(yù)測,預(yù)測過程中逐漸增加K值(起始值為1),得到在不同K值下的預(yù)測結(jié)果,通過計算絕對誤差,將誤差最小時對應(yīng)的K值作為預(yù)測時的最優(yōu)K值。
3.2 狀態(tài)向量選取
分時進(出)站客流量具有時間序列的特征,與預(yù)測時段進(出)站客流量最密切相關(guān)的是相鄰時段的進(出)站客流量,因此,通常選取預(yù)測時段前m個時段的進(出)站客流量作為狀態(tài)向量。本文通過計算進(出)站客流量組成的時間序列的自相關(guān)系數(shù)量化相鄰時段進(出)站客流量間的相關(guān)性以確定m的取值,計算公式為

通常當相關(guān)系數(shù)rix,q≥0.5時,可認為i站點x日分時進(出)站客流序列中間隔q個時段的兩個值相關(guān)性較強。為更好地把握客流變化規(guī)律,需盡可能多地包含與預(yù)測時段分時客流有較強相關(guān)性的客流時段,因此取值m=max(q),即m取令rix,q≥0.5的最大q值。
根據(jù)2014—2015年廣州市軌道交通線網(wǎng)全部站點平常日(去除節(jié)假日、大型活動等特殊日期)15 min分時進站客流量數(shù)據(jù),以每日每站點72個分時進站客流量數(shù)據(jù)為一個樣本序列,根據(jù)公式(1)和(2)計算樣本各階自相關(guān)系數(shù),并按周一至周日進行統(tǒng)計,結(jié)果如表1所示。
表中結(jié)果顯示,周一至周日7個子樣本庫中當q= 1,2,3時,有90%以上樣本數(shù)據(jù)滿足rix,q≥0.5,而q=4時,絕大多數(shù)的樣本均不能滿足rix,q≥0.5,可以認為在分時進站客流量數(shù)據(jù)中,前3個時段的進站客流量數(shù)據(jù)與預(yù)測時段的進站客流量數(shù)據(jù)相關(guān)性比較強。因此,確定平常日場景下預(yù)測進站客流量時,狀態(tài)向量為預(yù)測時段前3個時段的分時進站客流量。3.3預(yù)測算法

表1 廣州市軌道交通分時進站客流量自相關(guān)系數(shù)統(tǒng)計Tab.1 Self correlation coefficient of entrance passenger flow in Guangzhou metro%
傳統(tǒng)K近鄰非參數(shù)回歸中的預(yù)測算法較多是直接對K個近鄰的客流數(shù)據(jù)進行平均后得到預(yù)測客流數(shù)值,但對于匹配得到的K個近鄰來說,其與預(yù)測目標間的距離不盡相同,因此有必要基于近鄰樣本與預(yù)測目標距離越小權(quán)重值越大的原則,對K個近鄰設(shè)置權(quán)重,進行加權(quán)平均得到預(yù)測值。同時隨著時間的推移,城市軌道交通車站的進出站客流量存在一定的自然增長趨勢,因而通過匹配得到K個近鄰的客流數(shù)據(jù)與預(yù)測日的客流數(shù)據(jù)會存在不同程度的差異。為了減小差異性,提高預(yù)測準確度,設(shè)置趨勢系數(shù),用已發(fā)生時段近鄰數(shù)據(jù)的客流增長情況反映預(yù)測時段客流的增長情況。將預(yù)測日記為T,預(yù)測時段記為t,根據(jù)狀態(tài)向量匹配的K個近鄰對應(yīng)的日期記為z1z2…zK,具體計算方法如下:

3.4 模型驗證
應(yīng)用所構(gòu)建的K近鄰非參數(shù)回歸模型,對廣州地鐵各個站點的分時進出站客流量進行預(yù)測。采用2014年9月1日至2015年12月19日期間平常日的分時進出站客流量作為歷史數(shù)據(jù),結(jié)合當天已發(fā)生時段的分時客流數(shù)據(jù)對2015年12月14—20日(周一至周日)實時進(出)站量進行預(yù)測,通過計算預(yù)測結(jié)果與實際值,得出全網(wǎng)全天平均絕對百分比誤差ED與15 min粒度分時平均絕對百分比誤差Et,對模型進行精度檢驗,計算公式如下所示,統(tǒng)計結(jié)果如表2所示。


表2 廣州市軌道交通全網(wǎng)站點預(yù)測誤差統(tǒng)計Tab.2 Error of all stations’entrance and exit passenger flow in Guangzhou metro%
從誤差統(tǒng)計來看,預(yù)測日線網(wǎng)全天平均絕對百分比誤差ED與分時平均絕對百分比誤差Et分別在2%、14%以下,預(yù)測精度較高。為更加詳細地分析預(yù)測效果,挑選12月14日的線網(wǎng)所有站點的分時進站客流數(shù)據(jù),做出預(yù)測值與真實值的對比圖(見圖4),并計算每個站點分時進站客流量預(yù)測值的平均絕對百分比誤差(MAPE),對其誤差分布情況進行統(tǒng)計,見圖5。

圖4 全網(wǎng)站點分時進站客流預(yù)測值與真實值對比Fig.4 Comparisons between actual and estimated entrance passenger flow of all stations

圖5 全網(wǎng)站點預(yù)測誤差分布Fig.5 Error distribution of all stations’entrance passenger flow
從圖4可以看出,大部分數(shù)據(jù)點分布在45°線附近,說明預(yù)測結(jié)果與真實值非常靠近,未出現(xiàn)“漂移”現(xiàn)象,說明預(yù)測結(jié)果較合理。同時由圖5得到,52.2%的站點MAPE在10%以下,79.4%的站點MAPE在15%以下,89.7%的站點MAPE在20%以下,而大于50%的站點只有1個,通過查找原始數(shù)據(jù),發(fā)現(xiàn)其為低涌站,進一步分析發(fā)現(xiàn),該站點客流量非常小,15 min粒度分時進站客流量大部分為10人次以下,由于基礎(chǔ)量過小而造成站點MAPE過大。由此說明,本文構(gòu)造的非參數(shù)回歸模型在實時進出站客流預(yù)測應(yīng)用中具有較好的預(yù)測精度和良好的適應(yīng)性。
本文以軌道交通進出站客流為研究對象,通過研究分析實時進出站客流特征,對平常日客流進行合理歸類。然后,對模型中的狀態(tài)向量選取及預(yù)測算法進行研究,構(gòu)建適用于實時進出站客流預(yù)測的K近鄰非參數(shù)回歸模型。最后,基于所構(gòu)建的非參數(shù)回歸模型,預(yù)測了2015年12月14—20日線網(wǎng)各站點的分時進出站客流量,并通過與實際數(shù)據(jù)進行對比分析,檢驗了預(yù)測模型的精度。結(jié)果顯示,該模型預(yù)測的分時進出站客流量的全天平均絕對百分比誤差ED與分時平均絕對百分比誤差Et在2%、14%以下,其中,89.7%的站點誤差在20%以內(nèi),只有極少的站點在20%以上。由此表明,該模型具有較高的精度和良好的適用性,可以為城市軌道交通運營組織管理工作提供重要的決策依據(jù)。
[1]呂利民,李吳,溫辛妍,等.城市軌道交通短期客流預(yù)測方法[J].都市快軌交通,2015,28(2):21- 25.
LYU Lim in,LIWu,WEN Xinyan,et al.Methods for forecasting short- term urban mass transit passenger flow[J].Urban rapid rail transit,2015,28(2):21 25.
[2]VAN DER VOORT M,DOUGHERTY M,WATSON S.Combining kohonen mapsw ith arima time seriesmodels to forecast traffic flow[J].Transportation research part C:E-merging technologies,1996,4(5):307- 318.
[3]W ILLIAMS B M,HOEL L A.Modeling and forecasting vehicular traffic flow as a seasonal arima process:theoretical basis and empirical results[J].Journal of transportation engineering,2003,129(6):664- 672.
[4]OKUTANI I,STEPHANEDESY J.Dynam ic prediction of traffic volume through Kalman filtering theory[J].Transportation research part B:Methodological,1984,18(1): 1- 11.
[5]張春輝,宋瑞,孫楊.基于卡爾曼濾波的公交站點短時客流預(yù)測[J].交通運輸系統(tǒng)工程與信息,2011,11(4): 154- 159.
ZHANG Chunhui,SONG Rui,SUN Yang.Kalman filter based short- term passenger flow forecasting on bus stop[J].Journal of transportation systems engineering and information technology,2011,11(4):154- 159.
[6]XIAO JM,WANG X H.Study on traffic flow prediction using RBF neural network[C]//International Conference on Machine Learning and Cybernetics,IEEE,2004:2672 2675.
[7]魯明旭,葉銀忠,馬向華.神經(jīng)網(wǎng)絡(luò)在地鐵客流預(yù)測中的應(yīng)用[J].機械研究與應(yīng)用,2012,25(3):86 89.
LU M ingxu,YE Yinzhong,MA Xianghua.Application of neural network in the subway passenger flow prediction[J].Mechanical research&application,2012,25(3):86 89.
[8]董升偉.基于改進BP神經(jīng)網(wǎng)絡(luò)的軌道交通短時客流預(yù)測方法研究[D].北京:北京交通大學,2013.
DONG Shengwei.The research of short-time passenger flow forecasting based on improved BP neural network in urban rail transit[D].Beijing:Beijing Jiaotong University,2013.
[9]鄒巍,陸百川,鄧捷,等.基于遺傳算法與小波神經(jīng)網(wǎng)絡(luò)的客流預(yù)測研究[J].武漢理工大學學報(交通科學與工程版),2014,38(5):1148 1151.
ZOUWei,LU Baichuan,DENG Jie,etal.Passenger flow prediction based on genetic algorithms and wavelet neural networks[J].Journal of Wuhan University of Technology (transportation science&engineering),2014,38(5): 1148- 1151.
[10]楊軍,侯忠生.基于小波分析的最小二乘支持向量機軌道交通客流預(yù)測方法[J].中國鐵道科學,2013,34(3): 122- 127.
YANG Jun,HOU Zhongsheng.A wavelet analysis based LS- SVM rail transit passenger flow prediction method[J].China railway science,2013,34(3):122- 127.
[11]趙麗琴.混合核支持向量機在地鐵客流預(yù)測中的應(yīng)用研究[D].蘭州:蘭州交通大學,2015.
ZHAO Liqin.Application and research on prediction of subway passenger flow using m ixed kernel support vector machine[D].Lanzhou:Lanzhou Jiaotong University,2015.
[12]DAVISG A,NIHAN N L.Nonparametric Regression and Short- Term Freeway Traffic Forecasting[J].Journal of transportation engineering,1991,117(2):178 188.
[13]宮曉燕,湯淑明.基于非參數(shù)回歸的短時交通流量預(yù)測與事件檢測綜合算法[J].中國公路學報,2003,16(1): 83- 87.
GONG Xiaoyan,TANG Shum ing.Integrated traffic flow forecasting and traffic incidentdetection algorithm based on non-parametric regression[J].China journal of highway and transport,2003,16(1):83- 87.
[14]翁劍成,榮建,任福田,等.基于非參數(shù)回歸的快速路行程速度短期預(yù)測算法[J].公路交通科技,2007,24 (3):93- 97.
WENG Jiancheng,RONG Jian,REN Futian,et al.Nonparametric Regression Model Based Short-term Prediction for Expressway Travel Speed[J].Journal of highway and transportation research and development,2007,24(3): 93- 97.
[15]張濤,陳先,謝美萍,等.基于K近鄰非參數(shù)回歸的短時交通流預(yù)測方法[J].系統(tǒng)工程理論與實踐,2010,30 (2):376- 384.
ZHANG Tao,CHEN Xian,XIE Meiping,et al.K NN based nonparametric regression method for short-term traffic flow forecasting[J].Systems engineering-theory&practice,2010,30(2):376- 384.
(編輯:郝京紅)
Real- time Forecasting of Entrance and Exit Passenger Flows for Urban Rail Transit Station:A Non- parametric Regression Approach
XIE Qiao1,LIBinbin2,HE Jiantao1,YAO Enjian2
(1.Guangzhou Metro Group Co.,Ltd.,Guagnzhou 510030; 2.School of Traffic and Transportation,Beijing Jiaotong University,Beijing 100044)
The short term fluctuations of passenger flows should be responded quickly w ith the help of re al- time forecasts to guarantee safe transportation.A non parametric regression model is established to accura tely forecast the real- time entrance and exit passenger flows in urban rail transit stations.Firstly,the time- sharing data for entrance and exit passenger flows of different days are compared and analyzed to lay a foundation for the construction of historical database.Secondly,the appropriate state vector for the non-parametricmodel is defined by calculating the self- correlation coefficient of historicaltime share passenger flow data and setting the threshold value of correlation to judge the data dependency.Thirdly,the forecasting algorithm is designed according to the entrance and exitpassenger flows’difference between K- nearestneighbor samplesand prediction objectives.Finally,the data of entrance and exit passenger flows collected from Guangzhou metro system is used for the case study,and the result shows that themean absolute per centage errors for the day and time- sharing passenger flowsare successfully limited to 2%and 14%respectively,which demonstrates that the forecasting accuracy of the proposedmodel is satisfactory.
urban rail transit;entrance and exit passenger flows;real- time forecast;K- nearest neighbor;non-parametric regression
U231
A
1672- 6073(2017)02- 0032- 05
10.3969/j.issn.1672 6073.2017.02.007
2016- 09 29
2016 11 27
謝俏,女,本科,線網(wǎng)管控中心副總經(jīng)理,鐵道工程(站場)工程師,軌道交通運輸管理方向,xieq iao@gzm tr.com
李斌斌,男,博士研究生,交通運輸規(guī)劃與管理方向,16114203@b jtu.edu.cn
中央高校基本科研業(yè)務(wù)費專項資金資助(2016YJS066)