










摘要 文章旨在研究城市軌道交通短時客流預測。針對單站點數據,通過LSTM模型進行客流預測;針對海量線網數據,選擇LightGBM、XGBoost、RF和Ridge四種不同的算法調參配以權重建立集成預測模型。通過對2020年7月蘇州地鐵5號線的AFC數據進行處理挖掘,并結合天氣數據、空氣質量數據等多種信息特征,對訓練集和驗證集進行了劃分,使用構建的集成模型加以預測并進行了驗證,精確度達到了0.89,論證了該集成模型的可行性。
關鍵詞 集成模型;短時客流預測;LSTM;線網OD客流
中圖分類號 U293.13 文獻標識碼 A 文章編號 2096-8949(2024)13-0018-04
0 引言
城市地鐵作為一種高效的公共交通方式,能夠有效緩解交通壓力。軌道交通運營部門可以通過短時客流預測結果制定運輸組織策略和發布行車調度命令,乘客可以根據短時客流預測結果判斷是否選擇軌道交通方式出行以及選擇合理的換乘路徑,以規避區間擁堵。
城市軌道交通短時客流預測具有一定的復雜性和挑戰性,一方面,地鐵系統存在如上下班高峰期、節假日等復雜的時空特征,這些特征的變化使得預測任務更加困難;另一方面,傳統的軌道交通短時客流預測方法在捕捉非線性關系和時空依賴性方面,存在一定的局限性。為了克服這些挑戰,基于集成模型的城市軌道交通短時客流預測方法逐漸成為研究熱點。劉杰[1]采用集成算法Adaboost將多個子模型集成為一個預測模型,證明了在鐵路車站間OD客流預測方面,集成模型在預測精度和泛化能力上高于單個模型;Chen E等[2]將四個不同的廣義自回歸條件異方差模型與自回歸移動平均模型集成為一個預測模型,得出集成模型預測效果高于單一模型的結論。集成模型綜合了多個機器學習算法的優勢,能夠更好地捕捉大規模數據中的非線性關系和時空特征,從而提高預測精度和穩定性。
1 基于LSTM的單站點客流預測模型
LSTM(Long Short-Term Memory)神經網絡是一種用于處理長時間序列的特殊時間遞歸神經網絡(RNN)。傳統的RNN網絡隨著所需處理時間序列長度的增加,將在模型訓練時出現梯度消失和梯度爆炸的問題,從而影響預測的準確度。為完善RNN網絡,LSTM網絡引入了門控機制,在RNN網絡的基礎上增加了輸入門、遺忘門和輸出門[3],LSTM網絡可通過對這些門的開關選擇性地遺忘、存儲或讀取時間序列信息,從長序列數據中提取長期依賴信息,更好地處理長期依賴關系,從而解決了傳統RNN網絡在長序列預測中存在的梯度消失和梯度爆炸的問題。
作為RNN網絡的變體,LSTM網絡的基本構架包括輸入門it、遺忘門ft、輸出門ot以及內部記憶細胞的單元狀態ct等四個部分,LSTM網絡單元結構如圖1所示:
2 基于集成模型的線網OD預測模型
在使用機器學習進行預測時,使用單一的弱分類器存在一定缺點,而集成學習能夠平衡各個分類器的優缺點,使得預測更加準確。集成學習的基本思想是通過組合多個模型的預測結果減小預測誤差,同時提高模型的穩定性和泛化能力。集成模型能夠充分利用各個基礎模型的優勢,彌補它們的不足之處,從而獲得更好的預測效果。該文選擇LightGBM、XGBoost、RF和Ridge四種不同的算法,調參配以權重建立集成預測模型,充分利用每個模型的優勢,提高線網OD預測模型的性能,使得線網OD預測更加精準和可靠,從而幫助軌道交通運營商做出更明智的決策,提高系統運行效率,同時為乘客提供更好的出行體驗。
在選擇集成方式時,該文對Boosting串行式、Bagging并行式和Stacking堆疊式等三種集成方式進行了改進,即首先選擇基于串行式集成和并行式集成的不同子模型進行二層的Stacking集成,然后在此基礎上添加第三層優化集成,示意圖如圖2所示。
(1)將LightGBM、XGBoost、RF、Ridge分別作為模型1、模型2、模型3、模型4,以雙層的Stacking集成模型作為模型5。
(2)對這5個子模型的預測結果賦予損失函數權重,形成子模型損失函數的權重矩陣,同時應滿足。
(3)通過五層循環遍歷找出使得集成模型損失函數最小的子模型損失函數權重矩陣,這便是最優的集成模型組合。
3 實例分析
3.1 數據預處理
該研究數據集來源于蘇州市地鐵AFC系統采集的刷卡數據,包含2020年7月6日—2020年7月31日期間剔除周末后共計20天的刷卡記錄。每條記錄包括乘客卡號、票卡類型、進站車站編號、進站日期時間、出站車站編號、出站日期時間,AFC初始數據集如表1所示。
由于工作維修、乘客進錯站、AFC系統出錯等原因,初始數據集存在一些異常記錄,主要包括:①缺少某些字段信息;②重復記錄;③進出站刷卡時間不在地鐵運營時間范圍內;④進站車站編號與出站車站編號相同;⑤進站時間比出站時間晚。因此,應對原始數據進行數據清洗,剔除上述異常記錄。
3.2 客流特征分析
地鐵短時客流受不同因素影響,該文研究在30 min時間粒度下,考慮工作日、天氣、平均溫度、空氣質量四因素對地鐵客流的影響,預測地鐵的短時客流。
對訓練數據進行時間序列平穩性檢驗,平穩性檢驗參數值如表2所示。由表2可知,p值小于0.05,則該研究所使用的案例數據具有平穩性,基于此數據集進行訓練得到的模型準確有效。
抽取連續的周一至周五數據,基于30 min時間粒度,使用Pearson系數分析工作日地鐵客流的相似性,Pearson系數熱力圖如圖3所示。Pearson系數越接近1,說明變量之間的相關性越強。由圖3可知,在30 min時間粒度下,工作日與工作日之間的客流時間序列具有較強的相關性。
3.3 影響因素
地鐵短時客流受天氣影響,如雨天會造成地鐵客流下降,該文在清洗后的AFC數據基礎上添加天氣字段,并進行特征編碼。其中,數字“0”代表晴、“1”代表多云、“2”代表陰、“3”代表雨。地鐵短時客流也受溫度影響,高溫和低溫都會引起地鐵短時客流的波動,由于一天的氣溫是動態的,該文取平均溫度進行研究,在清洗后的AFC數據基礎上添加平均溫度字段。此外,空氣質量也影響著地鐵短時客流,該文根據空氣質量指數AQI進行空氣質量的等級劃分:20~50為優,以數字“1”表示;50~60為良,以數字“0”表示。
蘇州地鐵運營時間大致為5:00—24:00,根據30 min的時間間隔將處于5:00—24:00運營時段的1 140 min劃分為38個時段[4],將一天的所有時刻與不同時間粒度的時段及日期進行匹配,如該月6日9:00—9:30時間表示為0609,最終訓練數據集如表3所示。
3.4 模型對比
該研究以2020年7月6日—2020年7月24日期間剔除周六周日后的三周數據為訓練集,以2020年7月27日—2020年7月31日為測試集。
將基于LightGBM、XGBoost、RF和Ridge子模型的集成模型與LightGBM模型、LSTM模型進行對比,對比三者的預測效果,各模型預測結果評價如表4所示。由表4可知,針對地鐵客流海量線網數據,集成模型的預測誤差更小。
分析各子模型和集成模型的損失,如圖4所示。由圖4可知,集成模型的損失最低,比原四個子模型的預測精度都高,因此集成模型的構建具有意義。
3.5 結果分析
根據模型對比分析,選擇預測效果最好的集成模型,在30 min時間粒度下進行地鐵短時客流預測。由于線網數據巨大,取獨墅湖南站-桑田島站、鐘南街站-臨頓路站兩個OD對,則客流預測結果的擬合圖如圖5~6所示,工作日每日客流預測結果的擬合圖如圖7~8所示。
4 結語
該文基于30 min時間粒度,綜合考慮天氣、平均溫度、空氣質量三個因素對客流的影響,研究預測工作日的地鐵短時客流。構建以LightGBM、XGBoost、RF和Ridge為子模型的集成模型,對比其與LSTM模型、LightGBM模型的預測效果。針對海量線網數據,該研究的集成模型具有意義且預測效果最優。
基于蘇州市2020年7月的AFC刷卡數據,融合天氣、平均溫度、空氣質量三個外部數據,使用該文構建的集成模型進行客流預測擬合分析,隨機選取兩個OD對進行驗證。結果表明,模型預測值與實際值誤差在20%以內,線網整體預測準確率為89%,模型預測精度較高。該文研究可為地鐵公司提供精確及時的軌道交通短期客流預測模型,方便運營單位主動規劃并采取合適的客流控制疏導措施,從而緩解車站客流壓力,實現地鐵安全、高效運營。
該文提出的方法主要適用于工作日的地鐵短時客流預測,考慮節假日、突發事件的地鐵短時客流預測仍需進一步研究。
參考文獻
[1]劉杰. 基于集成算法的鐵路客流短期預測模型研究[J]. 重慶交通大學學報(自然科學版), 2022(5): 20-
25.
[2]Chen E, Ye Z, Wang C, et al. Subway Passenger Flow Prediction for Special Events Using Smart Card Data[J]. Ieee Transactions on Intelligent Transportation Systems, 2019.
[3]龔飄怡, 羅云峰, 方哲梅, 等. 基于Attention-BiLSTM-LSTM神經網絡的短期電力負荷預測方法[J]. 計算機應用, 2021(S1): 81-86.
[4]張恒, 秦振華, 肖為周, 等. 基于決策樹模型的地鐵線網短時OD客流預測[J]. 河北工業科技, 2023(2): 146-154.
收稿日期:2024-01-23
作者簡介:張明嬌(2002—),女,本科,研究方向:交通運輸規劃與管理。
基金項目:蘇州大學大學生創新創業訓練計劃“基于深度學習的軌道交通短期客流預測模型設計與實現”(202210285164Y)。