張素潔



摘要:通過對杭州地鐵2019年1月1日到2019年1月25日的地鐵刷卡數據進行分析,根據進出站高峰小時系數和站點位置將80個站點分為居住、工作、交通場站和混合類型四類。不同類型的車站早高峰晚高峰進出站高峰小時系數均不相同。對不同地鐵線路的換乘量進行分析發現3號線換乘量比例最高,占其出站人數的77.7%。使用機器學習方法(隨機森林和lightgbm)對不同站點每小時的進出站人數進行預測,平均相對誤差均值為9.0%。表現出較強的可預測性。
Abstract: Based on subway card data of Hangzhou metro on January 1, 2019 to January 25, 2019, according to the inbound and outbound of the station peak hour coefficient and site location, 80 stations can be divided into living, working, traffic hub and the mixed type four categories. Different types of station morning peak and evening peak inbound and outbound of the station peak hour coefficient are not the same. By analyzing the transfer volume of different subway lines, it is found that the transfer volume of line 3 is the highest, accounting for 77.7% of the number of people leaving the station. The machine learning method (Randomforest and Lightgbm) is used to predict the number of people entering and leaving the station at different stations per hour. The average mean absolute percentage error(MAPE) is 9.0%, showing strong predictability.
關鍵詞:客流預測;機器學習;隨機森林;lightgbm
Key words: passenger flow prediction;machine learning;randomforest;lightgbm
0? 引言
地鐵因在綠色、環保和運量等方面領先于其他城市公共交通方式,成為各大城市優先發展的交通方式。隨著新建成線路的投入運營.線網規模的日益擴大和運輸組織形式的日益復雜,地鐵客流的安全形勢日益嚴峻、根據客流量的變化并及時采取相應措施對地鐵的客流進行有效疏通,這對運營組織提出了更高的要求[1]。
分析地鐵客流的特征,尋找主要特征,建立模型預測客流量變化,并啟動相應的預案,提高地鐵運營組織的靈活性和多樣性,充分發揮設施設備能力,確保運營安全。國內外的研究人員已經提出了諸多理論和方法,以實現連續交通流狀態的實時預測,主要包括基于歷史平均、基于序列方法(例如SARIMA模型)[2]、基于機器學習的神經網絡方法[3]、K-近鄰方法[1]、支持向量機方法[4]等,其中每一類預測方法又包含若干種預測模型。
由于地鐵客流具有很大的隨機性,基于機器學習的方法擅長處理此類數據,因此本文采用天池提供的杭州市地鐵2019年1月1日到2019年1月26日的地鐵刷卡數據,進行以小時為單位對總進出站客流量的統計、分析與研究,利用Python語言和隨機森林模型、Lightgbm模型對進出站客流量進行預測。
1? 方法與數據
1.1 模型介紹
隨機森林是一種集成算法(Ensemble Learning),它屬于Bagging類型,通過組合多個弱分類器,最終結果通過投票或取均值,使得整體模型的結果具有較高的精確度和泛化性能。
Bagging也叫自舉匯聚法(bootstrap aggregating),是一種在原始數據集上通過有放回抽樣重新選出k個新數據集來訓練分類器的集成技術。隨機森林的弱分類器使用的是CART樹,CART決策樹又稱分類回歸樹。當數據集的因變量為連續性數值時,該樹算法就是一個回歸樹,可以用葉節點觀察的均值作為預測值;當數據集的因變量為離散型數值時,該樹算法就是一個分類樹,可以很好的解決分類問題。CART樹選擇使子節點的GINI值或者回歸方差最小的屬性作為分裂的方案。
Lightgbm是基于GBDT的樹回歸,通過迭代多棵樹來共同決策其核心就在于,每一棵樹學的是之前所有樹結論和的殘差,這個殘差就是一個加預測值后能得真實值的累加量。Lightgbm模型在運行速度、內存使用、準確率和并行學習等多方面進行了優化。其計算速度快,結果優異。模型采用絕對平均誤差(MAE)和絕對相對誤差(MAPE)進行評價。
1.2 數據介紹
數據來源于天池大賽,包含20190101至20190125共25天地鐵刷卡數據記錄,共涉及3條線路80個地鐵站約7000萬條數據。數據字段包括刷卡時間、線路ID、站點ID、刷卡設備號ID、用戶ID、進出站狀態和刷卡類型。
2? 結果
2.1 客流特征分析
全網進站早高峰高峰小時系數出現在上午8:00-9:00,占全天進站量的11.1%,晚高峰高峰小時系數出現在17:00-18:00占全天進站量的9.3%。全網出站早高峰高峰小時系數出現在上午8:00-9:00,占全天進站量的11.4%,晚高峰高峰小時系數出現在18:00-19:00占全天進站量的9.4%(圖1)。早高峰的出行量比晚高峰的出行量大。上午7:00-9:00,下午17:00-19:00的出行量占全天出行量的52.4%左右,需要重點關注。分析換乘客流發現發現3號線出站流量換乘比例最高,占其出站人數的77.7%(圖2)。
所有線路進站量的時間分布呈現駝峰型,全網客流高峰較為集中。所有線路的早高峰出站人數均大于晚高峰,但晚高峰的持續時間長于早高峰(圖3)。分析每個車站的進站人數,發現不同車站間的變化很大。依據高峰小時系數和站點周圍信息將站點分為4類。將工作日晚高峰入站人數小時系數形成當日峰值的站點定義為工作類站點,將工作日早高峰入站人數小時系數形成當日峰值的站點定義為居住類站點,將站點位于火車站或醫院附近的站點定義為交通場站類。不同類別間進站量的時間分布如(圖4)。圖中編號15和9的為杭州火車站和杭州火車東站。
綜合以上信息在建模預測中,主要考慮歷史客流特征,預測日的前一日和上周的同星期的時間段的數據,站點的類別特征和時間特征包括是否是工作日等。另外短時客流預測受前一日數據影響最大。所以采用將模型預測結果與前一日數據進行線性融合,進一步提高預測準確度。
2.2 模型預測結果
選取2019年1月24(周四)、2019年1月25(周五)和1月20(周日)數據作為測試集,其中2019年1月24(周四)作為線性融合的測試集,其余數據作為訓練集,對原始數據按小時進行匯整,特征包括前一日進出站人數和前一周同星期進出站人數,分工作日和周末,使用Lightgbm和隨機森林分別建模。預測站點的進出站人數,然后利用前一日數據和預測結果進行線性融合。結果如圖(圖5,表1)。測試結果顯示工作日和休息日客流預測值的平均絕對誤差均值為71.2人,平均相對誤差均值為9.0%。最大平均相對誤差均小于12.5%,保持在較小的水平。因此說明,擬合得到的模型能夠較好地預測客流的波動。Lightgbm模型結果優于隨機森林。同時線性融合能提高模型的準確度,說明前一日數據對預測日短時客流影響最大。
3? 結論
①經過對個站點客流量的分析發現不同的站點客流量差異較大,同一站點不同時段差異也很明顯,可根據這些數據靈活的制定應對措施,保證地鐵安全運營。
②Lightgbm模型和隨機森林模型可以很好的預測客流量的隨機變化,能較準確的預測客流量的短時變化,值得的在應用中推廣。
參考文獻:
[1]林培群,陳麗甜,雷永巍.基于K近鄰模式匹配的地鐵客流量短時預測[J].華南理工大學學報(自然科學版),2018,46(01):50-57.
[2]王瑩,韓寶明,張琦,李得偉.基于SARIMA模型的北京地鐵進站客流量預測[J].交通運輸系統工程與信息,2015,15(06):205-211.
[3]李梅,李靜,魏子健,王思達,陳賴謹.基于深度學習長短期記憶網絡結構的地鐵站短時客流量預測[J].城市軌道交通研究,2018,21(11):42-46,77.
[4]謝俏,葉紅霞.基于支持向量機的節假日進出站客流預測方法[J].城市軌道交通研究,2018,21(08):26-29,35.