













基金項目:
2021年度廣西高校中青年教師科研基礎能力提升項目“基于DALI及無線技術的智能照明控制系統的研究與應用”(編號:2021KY1125)
作者簡介:
王菊嬌(1986—),碩士,講師,工程師,研究方向:電子信息技術,物聯網技術、計算機應用技術。
摘要:針對軌道交通客流量預測問題,文章以南寧市軌道交通1號線為對象,提出了一種基于多模型Stacking集成學習的方法,對客流量進行預測并進行評估。通過融合XGBoost、LightGBM和LSTM模型,利用各模型優勢互補,降低過擬合風險,提高預測準確性和泛化能力。結果顯示:Stacking模型在客流量預測中表現優異,與實際值接近,評價指標表現良好,可有效提高運營效率和管理決策水平。
關鍵詞:軌道交通;客流量預測;Stacking集成學習
中圖分類號:U491.1+4文獻標識碼:A 47 157 3
0 引言
近年來,城市軌道交通迅速發展,據2023年數據顯示,全國已有66座城市開通城市軌道交通,總線路長度達11 900.29 km,其中僅當年新增的城市軌道交通運營線路長度達884.55 km,占全球新增線路長度的42.56%。高效便捷、綠色經濟的軌道交通,日益成為人們的優選出行工具。然而,軌道交通系統面臨諸如天氣變化,大型文體活動、重大節假日等造成客流量激增,交通擁堵等問題,除了直接影響著交通運營的效率和乘客出行體驗,甚至還會引發公共安全事件。因此,準確預測客流量可以掌握客流規律和特點,幫助軌道交通提前制定預案,對優化軌道交通系統的運營、緩解交通擁堵、提升服務質量以及改善乘客出行體驗至關重要。
當前學術界關于短期客流預測的方法有很多,趙鵬等[1]用ARIMA模型對客流量進行預測取得一定的成果,但在處理非線性和突發性數據時表現有限;付甜等[2]使用多因素XGBoost進行城市軌道交通短時客流預測,較好地分析客流量與天氣、日期等多種影響因素的關系模型,利用歷史數據進行較準確預測,不足的是涉及的環境因素相對較少;韓皓等[3]研究的LightGBM預測模型,不需要對數據進行假定,利用其高效性能和較快的訓練速度來處理大規模數據集,并取得較好的預測效果,但在數據量較小或噪聲較多的情況容易過擬合;孫越等[4]對原始數據進行分析和特征提取,訓練LSTM模型和ARMA模型,通過組合模型對鐵路客流量預測,但在多因素影響方面存在改進空間。
由于影響軌道交通短時客流量的因素很多,如天氣、時間、特殊事項等,其數據具有周期性、非線性和隨機性,在上述單模型算法和同質組合模型中,存在著一定的局限性,如處理非線性關系時表現有限,容易過擬合,多因素影響上表現不佳等問題。針對這些挑戰,本文提出了一種基于多模型Stacking集成學習的軌道交通短時客流量預測方法。該方法通過融合多種優秀的異質模型(XGBoost、LightGBM、LSTM),訓練并預測最終的客流量結果,綜合利用各模型優勢,彌補其不足,降低過擬合風險,提高整體預測性能和泛化能力,從而實現更準確和穩健的客流量預測。
1 模型準備
1.1 XGBoost算法
XGBoost算法[5]處理一些不規則數據有較大的優勢,屬于集成學習中的Boosting框架算法,包括多個CART(分類回歸樹)的集成,采取迭代增加樹,擬合上一輪迭代中預測值和真實值的殘差,逐步逼近真實數值。
XGBoost的預測模型公式如下:
y︿i=∑mm=1fm(xi)
(1)
式中:m——樹的總量;
fm——第m棵樹;
y︿i——數據xi的對應的預測結果。
1.2 LightGBM算法
LightGBM是一種基于決策樹算法(GBDT)的梯度提升框架,采用基于直方圖的決策樹算法,通過Leaf-wise生長策略來構建樹,同時引入了互斥特征捆綁和直方圖做差等技術,以提高訓練效率和預測性能。
LightGBM利用直方圖算法,將連續的浮點特征(#data)分割為k個離散數值(分桶bins),建立寬度為k的直方圖,遍歷訓練數據,計算每個離散值在直方圖中的累積統計量,根據直方圖的離散值來尋找最優的分割點。如下頁圖1所示。
LightGBM采用Leaf-wise(按葉子生長)生長策略,能夠在更小的計算代價上建立所需的決策樹。每次從當前所有葉子中找到分裂增益最大(一般也是數據量最大)的一個葉子,然后分裂,如此循環,但需要控制樹的深度和每個葉子節點的最小數據量,從而減少過擬合。如圖2所示。
1.3 LSTM算法
基于Stacking集成學習的軌道交通短時客流量預測研究/
王菊嬌,闕凡博
LSTM(Long Short-Term Memory)如圖3所示,是一種專門用于處理時間序列數據的深度學習模型,具有記憶單元和門控機制,能夠有效捕捉長期依賴關系。通過遺忘門、輸入門和輸出門的調控神經元細胞的信息流動,避免梯度消失或梯度爆炸問題,從而在處理序列數據時表現更為優越。
1.4 Stacking模型
Stacking是一種集成學習方法,其通過將多個基礎模型的預測結果作為新特征,并通過訓練一個次級模型來融合基本模型的預測結果。由于兩次所使用的訓練數據不同,因此可以在一定程度上防止過擬合。本研究采用兩層的學習器構成,初級學習器使用兩種模型,分別是處理不規則數據效果好的XGBoost和效率性能佳的LightGBM,次級學習器使用預測能力強的LSTM深度神經網絡,可以捕捉數據中的重要模式和特征。
2 模型融合與預測結果分析
本文對南寧軌道交通1號線進行短時客流預測分析。1號線是南寧軌道交通系統的首條地鐵線路,全線長32.1 km,起點站為石埠,終點為南寧東站,沿途有25座地下站。
2.1 客流量數據分析
客流量數據選取的時間為2023-11-06至2023-12-03(4周),并通過官網獲取這個時間段的天氣和氣溫情況。軌道交通1號線各個車站客流量如圖4所示。由圖4可知,在南寧市軌道交通1號線25個車站中,客流量較多的有火車東站、瑯東客運站、會展中心站、廣西大學站、動物園站和朝陽廣場站,這里選取客流量最多的朝陽廣場站作為研究對象。圖5~6為地鐵1號線朝陽廣場站一個月內6:30-23:00的進站量的分布曲線。客流在早高峰和晚高峰有較大的波動性。另外,朝陽廣場站的客流量整體體現了以星期為周期的波動規律,周一到周五晚高峰客流量明顯增多,周六、周日客流量增多,同時也受溫度、天氣和所處地段的影響(見圖7)。
對客流量相關的數據特征進行分類,分為區域類型、日期、氣溫、天氣、特殊事件類型等,如表1所示。
2.2 模型融合
基于Stacking集成學習的軌道交通短時客流量預測是通過集成兩層學習器,第一層學習器采用XGBoost、LightGBM,第二層學習器采用LSTM。對應的步驟如下:
步驟一:數據準備,將軌道交通客流的原數據劃分為兩大類,一類是用于訓練的數據的集合T,另一類是用于測試的數據集合V。按日期進行分類,A類為周一~周四的數據,B類為周五數據,C類為雙休日數據。以A類數據預測為例結合其他特征參數進行分析,將4周中A類數據共16 d的數據,按照15 min粒度的客流量進行分析,時間為南寧地鐵1號線的運營時間6:30-23:00,每天67條數據,合計有1 072條數據。將前15 d的數據歸為訓練集,后1 d的數據歸為測試集。
步驟二:初級學習器訓練過程,如圖8所示。采用XGBoost、LightGBM兩類基模型對訓練集合T數據處理,將訓練集隨機平分為等5個子集T1、T2、T3、T4、T5,即將前15 d共1 005條客流量數據均分成5份,每份客流量數據為201條。其中4個子集用作訓練集,剩下的1個子集用作測試集,將子集連續進行5次迭代。每次迭代完成后,就使用原始測試集進行預測,得到一個預測結果Y,每個基學習器進行5折交叉驗證會得到對應的預測結果,這樣就會產生特征樣本的預測集{Y1,Y2,Y3,Y4,Y5}。5次迭代結束后,對每一次預測的結果取均值得到基學習器的預測結果,并將此預測結果與訓練數據集5次的測試結果保存在一起作為次級學習器的特征值。
步驟三:將初級學習器訓練得到的新訓練集Y與測試集C作為輸入,通過第二層學習器LSTM用于次級訓練,最后輸出城市軌道交通客流量預測的最終結果。如圖9所示。
2.3 測試結果
通過Stacking對多種模型進行融合,設置相關參數,訓練集損失最小時即為最合適的迭代次數。本研究最佳迭代次數為195次,其在訓練集和測試集最終預測結果與真實值對比如圖10和圖11所示。
由圖10、圖11可知,預測結果與實際值非常接近,兩條曲線相差很小,說明本研究采用的Stacking模型預測效果很好。
結合評價指標對模型進行評估,主要計算出以下三個參數,得出的結果如表2所示。
MAPE=1N∑ni=1yi-y︿iyi
(2)
MAE=1N∑ni=1|yi-y︿i|
(3)
RMSE= 1N∑ni=1yi-y︿iyi2
(4)
根據評估結果可以看出,Stacking模型的平均絕對百分比MAPE、均方根差RMSE、平均絕對誤差MAE都較小,整體效果良好。
3 結語
本文以南寧市軌道交通1號線為研究對象,通過Stacking集成學習算法進行客流量的預測。選擇XGBoost和LightGBM這兩種基于決策樹算法的梯度提升框架作為基學習器,以提高預測準確性和泛化能力;利用長短期記憶網絡(LSTM)作為元學習器,充分發揮其在序列數據處理方面的優勢。通過對南寧市軌道交通1號線客流量的精準預測,可以為城市軌道交通部門提前規劃運營策略,調整發車間隔、優化運營時間等措施,從而提升運營效率,為城市軌道交通系統的管理決策提供更精確的支持。
參考文獻
[1]趙 鵬,李 璐. 基于ARIMA模型的城市軌道交通進站量[J]. 重慶理工大學學報(自然科學版),2020,39(1):40-44.
[2]付 甜,劉曉鋒,陳 強. 多因素的XGBoost城市軌道交通短時客流預測方法[J].裝備制造技術,2022(10):34-37,56.
[3]韓 皓,徐圣安,趙 蒙. 考慮線網結構的LightGBM軌道交通短時客流預測模型[J]. 鐵道運輸與經濟,2021,43(10):109-117.
[4]孫 越,宋曉宇,金莉婷,等. 基于ARMA-LSTM組合模型的鐵路客流量預測[J]. 計算機應用與軟件,2021,38(12):262-267,273.
[5]張杉基.城市軌道交通短時客流預測與實證分析研究[D]. 蘭州:蘭州交通大學,2020.