石敏蓮 劉志鋼 胡華 汪景



摘要:城市軌道交通的進出站客流量具有較大的不確定性和復雜性,尤其是短期客流預測,一直是地鐵客流預測中的一個研究熱點和難點。AFC設備能準確讀取刷卡數據,實現歷史和實時進出站客流量的有效統計。為提高進出站客流預測精度,本文以杭州地鐵西興站為例,利用主成分分析法(PCA)對通過AFC設備采集的歷史進出站客流數據進行特征提取,然后通過處理后的數據建立長短期記憶網絡(LSTM)短期客流預測模型。仿真結果表明該方法在城市軌道交通進出站客流預測中有較好的表現,滿足短期客流預測的要求,能夠為地鐵的運營管理提供一定的指導作用。
關鍵詞: 短期預測; 客流; PCA; LSTM
【Abstract】 The passenger flow ?of urban rail transit ?in and out of the station is ?of great uncertainty and complexity, so it's hard to forecast the volume of it in short-term. AFC equipment can accurately read card data, then realize the history and real-time statistics of passenger flow in and out of the station. In order to improve the prediction accuracy of forecast of number of people arriving or leaving the station, this paper takes Hangzhou Xixing Station as an example. Firstly, the principal component analysis (PCA) method is used to extract the characteristics of the historical passenger flow data collected by AFC equipment, and then establishes the short-term and long-term memory network (LSTM) short-term passenger flow prediction model through the processed data. The simulation results show that this method has a good performance in the passenger flow prediction in and out of the station of urban rail transit, meets the requirements of short-term passenger flow prediction, which can provide some guidance for the operation and management of the subway.
【Key words】 ?short-term forecast; passenger flow; PCA; LSTM
0 引 言
隨著社會經濟的飛速發展,人們的生活節奏加快,出行頻率也大幅度增加,同時對出行效率和舒適度的要求也越來越高。對于城市軌道交通而言,客流量是運營的主要依據,也是構建智慧交通的重要基礎。日常列車排班計劃的制定、大客流的預防等均要求對未來客流量進行預測。
對于短期客流預測,主要可分為線性和非線性兩類。其中,線性預測常用方法有卡爾曼濾波、時間序列預測等;非線性預測常用方法主要包括灰色理論、神經網絡、支持向量機等。近年來,國內外許多專家學者對這類客流預測進行了大量的研究。王奕等人[1]根據周期時變特點在灰色預測模型的基礎上改進了馬爾科夫算法。楊軍[2]將小波分析與支持向量機結合提出了短期客流預測方法。程浩等人[3]利用BP神經網絡對短期客流進行預測。侯晨煜等人[4]在神經網絡算法的基礎上,結合卡爾曼濾波,提出了一種新型有效的地鐵客流短時預測算法。Han等人[5]提出了一種新的基于深度學習的方法STG-CNN (spatial - temporal graph convolutional neural networks for metro),對城市每個地鐵站的進站流量和出站流量進行了綜合預測。Sun 等人[6]提出了一種新的混合模型小波-支持向量機,結合了小波與支持向量機模型的互補優勢,同時克服了其各自的不足。但是,較少有學者把預測站點與其他站點的客流相關性放入預測模型中進行綜合考慮。
本文以杭州地鐵西興站為例,考慮到站點之間客流的空間和時序相關性,利用主成分分析法(PCA)對通過AFC設備采集的歷史進出站客流數據進行特征提取,然后通過處理后的數據建立長短期記憶網絡(LSTM)短期客流預測模型并進行模型有效性驗證。
1 短期客流預測
對城市軌道交通短期客流預測的研究能為突發性大客流的預防和列車調度的優化提供有力的參考。現有的短期客流預測一般以15~60 min為時間粒度,指根據歷史客流和實時客流等數據,利用客流預測模型,計算得到預測對象在15 min后的客流情況,若該數值超過行業規范或運營公司所給出的安全范圍,則相關運營部門和工作人員應按照相應的安全預案立刻開展行動,如通過廣播播報、入口限流等措施來保障車站以及站臺人流密度在安全范圍內,預防踩踏等危及乘客人身安全事件的發生,確保乘客的安全和列車的正常運營。而以60 min為時間粒度進行客流預測,能夠為列車調度的優化提供依據,通過調整列車運行計劃提高運輸效率或節約運營成本。列車運行計劃的調整,一般情況下,并不能在15 min內即刻完成。例如,根據客流需求的意外增長,某線路產生了加開一班列車的需求,調度部門需先結合原有排班計劃調整列車運行圖,再通過部門審批、車輛段對上線列車進行準備工作,還需通知司機等相關執行人員等,整個過程需要30 min~1 h。因此,以1 h為長度對車站進出站客流進行預測,對列車運行實時優化具有十分重要的意義。
2 PCA-LSTM預測模型
2.1 PCA特征提取
在實驗和研究的過程中,經常會遇到這樣的情況,即對同一研究對象存在大量影響因素。越全面的數據確實能為實驗目的提供越豐富的信息,但是同時也會提高模型的計算和訓練時間。而且,許多變量之間可能存在較大的相關性或相似性。因此,盲目地增加變量可能會極大地加長運算時間,但是對研究目的產生的幫助甚微,而盲目地減少變量可能會損失重要的信息,影響結論的準確性。
PCA法就是一種對多維數據進行降維的數據預處理方法[7]。通過計算分析各維度數據之間的相關性,PCA法能去除多維數據中一部分不重要的特征,保留相對重要的那部分,從而使得數據更易于使用,提升計算速度。PCA法主要思想是將n維數據映射到k維上,且這k維的特征向量相互正交。特征向量的選取標準是取特征值最大的k個特征所對應的特征向量,目的是使得這k為數據盡量多的保留原數據的特征,減少信息損失。新構造的維度對原維度數據信息的反映一般通過方程貢獻率來衡量。一般會選取累計貢獻率為80%~95%的k維數據作為降維后數據。
在城市軌道交通客流預測研究中,歷史客流數據是進行客流預測的最主要、也是最直接的依據。在對某一站點進行客流預測時,一般該站點的歷史進出站客流數據作為主要因素,再結合其他因素,作為預測模型的輸入。其實,除了預測站點自身的歷史客流數據外,同一線網中的其他的車站的客流進出量也能為該車站的客流預測提供很好的參考。例如A站點在某時間段內進站客流的增加,有一定的可能性使得B站點在下一時間段的出站客流增加。再如,首發站點A站在這一時間段內進站客流增加較大,則其后續站點在之后的短時間內進站客流增加的概率較大。
然而,對大多數城市來說,整個地鐵線網的數據量過于龐大,就上海地鐵來說,一共有16條線路,共有415座車站(含2座磁懸浮線車站)。即使就單一一天地鐵線路來講,其站點數量也不少,例如杭州地鐵1號線,一共有34個車站。若使用所有站點的歷史進出站數據,會極大地提高計算復雜性和計算時間,導致計算機無法在有限時間內給出相應的預測結果。因此,為提高模型訓練速度并降低計算復雜性,本文采用主成分分析方法對線路上的進出站客流數據進行降維。
選取杭州軌道交通一號線在2018年12月20日~ 2019年5月9日期間沿線各站點運營時段每小時(5:00~7:00時段數據合并為一個數據)進出站客流量作為實驗數據。把全天運營時間按順序劃分為20個時段,見表1,每時段采集一次線路上各站點的進出站客流數據。一號線一共有34個車站,每個車站采集各時段進站客流和出站客流兩組數據,全線共有68組數據。同時,數據采集時段與各車站客流之間的關系非常密切,故將運營時段進行編號后放入影響因素集中,詳見表1。此時數據集為69維。
選定某站點進站或出站客流作為預測對象,文中隨機選擇了西興站出站客流作為預測目標,因此先從69維數據集中抽取出西興站的出站客流數據以備后用,將剩余的68維數據通過PCA法進行降維,得到新的變量。根據方差貢獻率和累計貢獻率,從高到低,選擇主成分,將原來的68個變量壓縮成4個主成分,保留了原始數據約90%的信息,得到的主成分方差貢獻率和累計貢獻率見表2。
將西興站出站數據與降維得到的4個主成分數據合并,得到維度為5的變量數據作為預測模型的輸入。
2.2 LSTM網絡
LSTM網絡是循環神經網絡的一種,是為了解決普通循環神經網絡(RNN)所存在的梯度易消失和長期記憶被遺忘的缺點而提出的[8-10]。RNN網絡主要由重復的神經網絡模塊進行鏈式組合而成,每個模塊有2個輸入數據和2個輸出數據。LSTM網絡在RNN網絡的基礎上增加了一個輸入和一個輸出,內部結構也更為復雜精細。增加的這一路輸入和輸出稱為細胞狀態,是LSTM實現狀態記憶和遺忘的主要結構,上面的信息與當前狀態的輸入信息僅有2次線性交互,使得細胞狀態較容易保持穩定,達到長期記憶的目的。
2.3 運用LSTM網絡進行預測
2.3.1 參數配置
建立該LSTM網絡預測模型需要確定一些超參數,包括輸入層的維數、隱藏層的層數與維數、時間步長以及輸出層的維數。
本實驗以西興站出站客流量為預測對象,將其歷史數據與PCA降維得到的4維變量數據一起作為LSTM網絡的輸入,該LSTM網絡輸入層維數為5。預測目標為下一小時出站客流量,確定時間步長為1,輸出層維數為1。經過多次嘗試,確定隱藏層為2層,第一層中神經元數量為50個,第二層中神經元數量為30個。選定Adam優化器作為該LSTM網絡的優化算法。
3 結束語
本文從同一地鐵線路上車站客流之間存在相關性這一角度出發,設計了基于PCA-LSTM的城市軌道交通短時客流預測模型,采用了杭州地鐵一號線139天的進出站客流數據進行預測實驗。結果表明,該模型在對站點下一小時進站客流量和出站客流量的預測方面具有較好的表現,能夠為地鐵運營部門在實際的列車運行優化和調度方面提供可靠的參考。該方法同樣適用于以15 min、30 min等其他時間粒度的短期客流預測。未來的研究工作可以考慮把天氣以及是否為工作日等其他因素加入到影響因素集中,從而進一步提高模型的預測精度。
參考文獻
[1] 王奕, 徐瑞華. 基于周期時變特點的城市軌道交通短期客流預測研究[J]. 城市軌道交通研究, 2010, 13(1): 46.
[2]楊軍. 地鐵客流短期預測及客流疏散模擬研究 [D]. 北京:北京交通大學, 2014.
[3]程浩, 徐昕. 基于BP神經網絡的軌道客流短期預測 [J]. 電子技術與軟件工程, 2016(22): 15.
[4]侯晨煜, 孫暉, 周藝芳, 等. 基于神經網絡的地鐵短時客流預測服務 [J]. 小型微型計算機系統, 2019, 40(1): 226.
[5]HAN Yong, WANG Shukang, REN Yibin, et al. Predicting station-level short-term passenger flow in a citywide metro network using spatiotemporal graph Convolutional Neural Networks [J]. ISPRS International Journal of Geo-Information, 2019, 8(6):243.
[6]SUN Yuxing, LENG Biao, GUAN Wei. A novel wavelet-SVM short-time passenger flow prediction in Beijing subway system [J]. Neurocomputing, 2015, 166:109.
[7]白亞男. 基于大數據的實時交通流預測方法研究 [D]. 廣州:廣東工業大學, 2018.
[8]晏臻, 于重重, 韓璐, 等. 基于CNN+LSTM的短時交通流量預測方法 [J]. 計算機工程與設計, 2019, 40(9): 2620.
[9]張銘坤, 王昕. 基于GRU-RNN模型的城市主干道交通時間預測 [J]. 北京信息科技大學學報(自然科學版), 2019, 34(4): 30.
[10]崔洪濤, 陳曉旭, 楊超, 等. 基于深度長短期記憶網絡的地鐵進站客流預測 [J]. 城市軌道交通研究, 2019(9): 41.