基于組合深度學習的軌道交通短時進站客流預測模型

2024-03-08 06:01:40李淑慶劉耀鴻

重慶交通大學學報(自然科學版) 2024年2期

李淑慶,李偉,劉耀鴻,馬波

(重慶交通大學交通運輸學院,重慶 400074)

0 引言

隨著軌道交通的飛速發展,軌道交通網絡化運營不斷加強,這對軌道交通的運營組織調度、車站管理與服務提出了越來越高的要求。軌道交通短時進站客流是影響車站運營和預警管理與服務水平的重要因素,及時、準確和高精度地對軌道交通短時進站客流進行預測是提高軌道交通系統運行效率、安全、管理水平和服務水平的關鍵。

目前軌道交通短時客流預測主要分為傳統統計模型、機器學習模型、神經網絡模型和組合模型等4種方法。傳統統計模型主要包括整合移動平均自回歸(ARIMA)模型[1]、滑動平均法[2]和卡爾曼濾波[3]等,這類模型計算簡單,但無法處理客流序列數據的波動性和非線性關系。機器學習模型主要包括貝葉斯網絡[4]、K近鄰(KNN)[5]和支持向量回歸(SVR)[6]等,這類模型在訓練時會消耗大量的內存,無法應用在大樣本數據中。神經網絡模型主要包括BP神經網絡、卷積神經網絡(CNN)和長短時記憶神經網絡(LSTM)等,惠陽等[7]采用粒子群算法對BP神經網絡進行了優化,基于天氣、節假日和非節假日等因素對不同站點不同時段的客流進行了預測;MA Xiaolei等[8]將交通流預測定義為圖像學習的問題,利用卷積神經網絡(CNN)模型對北京二環路和東北的交通網絡進行了預測,證明CNN模型可在合理的訓練時間內使預測精度提高,適合于對大規模運輸網絡的預測;YANG Xin等[9]基于客運量歷史數據、車站OD矩陣和部分軌道交通網絡運營數據,提出了改進的時空長短期記憶模型(SP-LSTM),并用來預測城市軌道交通單個站點的短期出站客運量。這類模型憑借其強大的非線性處理能力被廣泛應用于短時交通流預測中,但單個神經網絡模型仍存在特征提取不全面而導致預測精度較低的缺陷。部分學者將多種模型進行組合,對軌道交通客流進行了預測。LI Wei等[10]提出了一種結合季節性ARIMA和支持向量機(SVM)的混合模型,該模型結合了單一模型的優勢,能很好地對客流數據集下不同形式的關系進行建模;趙陽陽等[11]從歷史客流量出發,結合經驗模態分解和長短時記憶神經網絡的優勢,對上海地鐵人民廣場站進行了預測,結果表明該模型相比傳統模型具有更高的預測精度;王秋雯等[12]為進一步提高軌道客流的預測精度,通過K-Means聚類算法實現了客流時段特征的提取,并結合卷積長短時記憶神經網絡模型對深圳北站的地鐵客流進行了預測。

綜上,隨著深度學習技術的不斷發展,國內外學者將其應用于軌道交通短時客流預測中,并取得了較好效果,但軌道交通短時客流具有很強的非線性和波動性,易受到各種外部因素影響,使得現有模型的特征信息學習因不全面而導致預測精度還不夠高、泛化能力還不夠強。針對以上問題,筆者基于軌道交通內部客流特性與外部環境因素,結合CNN、ResNet、BiLSTM等3種模型各自的優勢,構建了一種多因素的CNN-ResNet-BiLSTM組合模型,并對軌道交通短時進站客流進行了預測。

1 問題描述

軌道交通短時進站客流預測一般是利用歷史時間片段信息構造模型,捕捉進站客流內部的復雜關系,對未來某一時段的進站客流量進行預測的方法。

假設t時刻預測的進站客流片段為q[t,t+Δt],預測時間粒度為Δt,令qt=q[t,t+Δt],則有qt=f[(xt-1,xt-2,…,xt-k)T],其中,(xt-1,xt-2,…,xt-k)T表示前k時刻輸入的客流影響因素。軌道交通短時進站客流預測問題可轉化為尋找一個映射函數g,并使g≈f的過程,這實現了對未來軌道交通各個站點進站客流量的預測。

2 多因素特征變量選取

從軌道交通運營組織調度與預警管理需求而言,以10 min作為軌道交通短時進站客流的預測時間粒度比較合適[13]。影響軌道交通進站客流的因素很多,主要分為內部客流特征和外部環境特征。

2.1 內部客流特征

2.1.1 前序時間客流

當前時刻客流與前序時刻客流具有一定的相關性[14],故選取前10、20、30、40 min的客流作為特征變量。

2.1.2 統計特征

在進行軌道交通短時進站客流預測時,應考慮到進出站客流的影響[15]。對每個站點每10 min和每1 h的客流量進行分組統計,通過分析進出站客流的最大值、最小值和平均值來反映客流的分鐘細粒度特征和小時細粒度特征。統計前5 d同一時段的進出站客流最大值、最小值和均值來反映一周工作日的客流特征。

2.1.3 變化特征

利用前3 d進出站客流的平均值,第1、2 d客流的差值,第2、3 d客流的差值,兩次變化的差值,第1、2 d的比值,第2、3 d的比值來反映客流變化特征。

2.2 外部環境特征

2.2.1 天氣特征

天氣變化在一定程度上會對人們出行產生影響,從而導致軌道客流的短期波動[16]。選取能夠反映天氣與客流關系且易于量化的特征變量作為客流預測的輸入變量,如表1。

表1 天氣特征變量描述Table 1 Description of weather characteristic variables

2.2.2 空氣質量

與天氣條件類似,空氣質量也會對軌道交通客流產生一定影響[17]。空氣質量數據均為數值型變量,將其作為輸入特征變量。

2.2.3 道路交通擁堵指數

軌道交通客流與道路交通擁堵指數之間存在一定的相關性[18]。故將道路交通擁堵指數作為輸入特征變量。

2.2.4 標記特征

標記每個站點的編號和站點類型,用來反映不同站點的客流特性;將全網的軌道交通站點分為6類,站點類型編號為1～6[19]。為反映客流的時間特性,標記當月的日期范圍、對應的周日、軌道運營小時區間。

3 CNN-ResNet-BiLSTM組合模型

3.1 卷積神經網絡模型(CNN)

卷積神經網絡(convolution neural network,CNN)是深度學習中比較經典的模型,其思想源于模擬自然生物的視覺系統,近年來在圖像分類和目標檢測方面得到了很好應用[20]。CNN在傳統神經網絡基礎上增加了卷積層和池化層,通過局部連接和權重共享方式,使其能對輸入特征進行高效提取,其結構如圖1。

圖1 卷積神經網絡結構Fig.1 CNN structure

CNN中每個位置的特征數據都可與同一卷積核的權值參數進行計算,這與傳統神經網絡中每個權值參數只能計算一次不同。權值共享不僅極大地減少了參數數量,還充分挖掘了特征局部相關性,通過卷積操作自動提取了相應特征,提高了模型的學習效率。

3.2 殘差神經網絡(ResNet)

網絡模型的性能往往與其深度有關,一般情況下,只要提供足夠的訓練數據,隨著網絡結構深度增加,模型的預測效果就會越來越好;但當網絡結構深度達到一定程度時,繼續增加網絡結構,模型則會出現泛化能力減弱的情況,這說明網絡結構深度對預測結果影響較大。HE Kaiming等[21]提出了一種新的網絡結構,即殘差神經網絡(ResNet),該網絡在普通的堆疊卷積操作外,引入了一個“快捷連接”,將輸入張量x直接傳送到輸出張量中,實現了恒等變換,其結構如圖2。

圖2 殘差模塊網絡結構Fig.2 ResNet structure

由圖2可知：假設神經網絡的輸入張量為x,期望輸出為H(x),原來的神經網絡層操作變換為f(x),則殘差模塊計算輸出可表示為H(x)=f(x)+x。如將f(x)的相關參數設為0,即f(x)=0,此時只有“快捷連接”的輸入張量x能通過,原來神經網絡層中的操作都被屏蔽,這樣殘差模塊就實現了恒等變換。殘差模塊計算如式(1)：

y=w2σ1(w1x)+x

(1)

式中：y為殘差模塊輸出張量;w2為第2個權重層的權重參數;σ1為ReLU激活函數;w1為第1個權重層的權重參數。

對原始殘差網絡進行改進,將原本殘差網絡中Addition層后的ReLU層放在右側分支層,將批歸一化層放在ReLU層前面,并對權重層進行預激活,證明了改進后殘差網絡的有效性[22],如圖3。

圖3 殘差模塊原始版本與改進版本對比Fig.3 Comparison diagram of original version and improved version of ResNet model

改進后的殘差模塊使用批歸一化可提高模型的正則化,從而減少了過擬合風險,更有利于訓練,泛化能力也更強;改進后的殘差模塊梯度傳播更加順暢,減少了信息流失。

3.3 雙向LSTM模型(BiLSTM)

長短時記憶神經網絡(long short-term memory,LSTM)是循環神經網絡(RNN)的一種變體形式,可適用于軌道交通短時客流時間序列預測。該模型是在RNN基礎上添加了門控制單元,能對歷史信息進行選擇性記憶或遺忘,將重要信息記錄下來,遺忘掉價值不大的信息,這種方式能很好地維持模型對輸入數據的長期記憶,并在一定程度上解決了RNN只有短期記憶的問題[23]。

LSTM雖可很好地進行時間序列預測,但只能從軌道交通客流單一方向進行數據特征學習。為了提高軌道交通客流預測準確性,筆者采用雙向長短時記憶神經網絡模型(BiLSTM)對客流數據的時間特征進行提取。LSTM由正、反向模型組合而成[24],其結構如圖4。

圖4 BiLSTM網絡結構Fig.4 BiLSTM structure

(2)

式中：?為整合操作。

3.4 CNN-ResNet-BiLSTM組合模型

CNN能從復雜數據中自動提取多維度特征,但不能很好地處理時間序列數據;LSTM能很好地捕捉時間序列數據中的長期依賴信息,但只能從單一方向進行特征學習,沒有充分考慮到軌道交通客流前后方向信息對當前狀態影響;BiLSTM模型將兩個LSTM模型結合,從前后兩個方向捕捉了軌道交通客流序列的時間特征,但在處理長時間多維度特征時會存在信息丟失、挖掘不充分而導致預測精度較低的問題;ResNet可緩解因模型層數增加而出現的梯度消失或梯度爆炸問題。基于此,筆者綜合上述3類深度學習模型優點,結合軌道交通內部客流特征與外部環境特征,將這3類進行組合,提出了CNN-ResNet-BiLSTM組合模型(以下簡稱：C-R-B組合模型),如圖5。

圖5 多因素CNN-ResNet-BiLSTM組合模型結構Fig.5 Structure diagram of multi-factor CNN-ResNet-BiLSTM combined model

由圖5可知：多因素C-R-B組合模型結構由輸入層、隱含層和輸出層構成。在輸入層中,融合了包括前序時間客流、統計客流及變化客流的內部客流特征因素和包括天氣、空氣質量、道路交通擁堵指數及標記特征的外部環境特征,并按時間、站點編號順序構造輸入的多因素特征矩陣。在第1個隱含層中,利用CNN中的卷積、池化操作提取多因素客流時間序列特征,減少時間序列數據長度,降低后續網絡分析的難度;在CNN中加入殘差網絡ResNet,以加深網絡結構的深度,提高模型的預測效果;在第2個隱含層中,將CNN提取到的特征輸入到BiLSTM中,完成前后兩個方向的時間序列特征提取;在輸出層中,將BiLSTM提取到最終特征進行展平,接入到全連接層,得到最后客流的預測輸出值。

3.5 模型訓練流程

多因素C-R-B組合模型的訓練流程分為8個步驟：

1)選取特征變量構造多因素的軌道交通客流特征矩陣,將其歸一化后劃分為訓練集和測試集;

2)設定模型的批處理大小、模型層數、神經元數及學習率下降策略;

3)初始化多因素C-R-B組合模型的所有權重參數;

4)搭建多因素C-R-B組合模型;

5)計算模型在正向傳播網絡層中每個神經元的輸出值與真實值的誤差;

6)將正向傳播的輸出誤差反向傳播,計算其誤差項以確定每個參數的梯度,利用優化算法對權重參數進行更新;

7)當梯度誤差達到要求或者迭代次數達到設定值時,完成本輪訓練,否則繼續迭代;

8)當模型達到最大訓練次數時,輸出多因素C-R-B組合模型的預測結果,計算評價指標,保存模型。

3.6 評價指標

選取常用的均方根誤差(ERMS)、平均絕對誤差(EMA)和平均絕對百分比誤差(EMAP)等3個指標來衡量模型的預測精度,其計算為：

(3)

(4)

(5)

4 實證分析

4.1 數據集及實驗環境

筆者選用2019年1月2日—26日杭州地鐵全網80個軌道站點的刷卡數據(合計7 000多萬條)進行分析;選取2019年1月2日—23日的工作日數據作為訓練集,1月24、25日工作日的數據作為驗證集,訓練集、驗證集數據比例為8∶1,統計時間粒度為10 min。

硬件環境為Intel(R) Core(TM) I7-9750H CPU和NVIDIA GTX 1660Ti GPU的Windows10 64位操作系統,開發語言為Python,編輯器為Pycharm,利用Tensor-Flow的高級API-keras搭建深度學習網絡。

4.2 模型參數設定

采用網格搜索法對批處理大小、模型層數和神經元數進行調節。經反復調參后,得到了多因素C-R-B組合模型的最終優化參數。其中：ResNet網絡的層數為3,神經元數均為32;BiLSTM網絡層數為1,神經元數為64;設定初始學習率為0.001,當迭代8次模型效果不再提升時,降低學習率;采用Dropout為0.2來避免模型訓練過程中過擬合發生。

4.3 不同類型站點預測結果

為評估模型對不同類別站點進站客流的預測性能,將訓練好的多因素C-R-B組合模型分別對不同類型站點進站客流進行預測,如圖6。

圖6 不同類型站點進站客流預測結果Fig.6 Prediction results of inbound passenger flow at different types of stations

由圖6可知：即便軌道交通進站客流真實值具有一定波動性,筆者所建立模型仍可精準地捕捉到短時進站客流變化情況,預測效果良好。

4.4 不同模型預測對比

為驗證筆者所構建的模型準確性和有效性,選取8個常用的模型與文中構建模型進行對比,其中CNN、LSTM、BiLSTM、CNN-LSTM、CNN-ResNet-LSTM和單因素C-R-B模型的配置參數值與文中構建模型一致。基于評價指標對各個模型預測誤差進行計算,結果如表2、表3。

表2 不同模型預測誤差Table 2 Prediction error of different models

表3 誤差損失值下降百分比Table 3 Percentage decrease in error loss value %

由表2可知：多因素C-R-B組合模型的各指標均優于常用模型,各誤差指標均最小。其中：ERMS=21.909 63,EMA=12.884 94,EMAP=12.777 37%。

由表3可知：對比ARIMA、SVR、CNN、LSTM和BiLSTM模型,多因素C-R-B組合模型的ERMS相比單一模型分別降低了34.71%、36.12%、15.92%、16.87%和10.61%;EMA分別降低了43.26%、36.23%、20.63%、17.35%和15.63%;EMAP分別降低了47.23%、38.73%、17.20%、12.18%和17.57%。

在常用單一模型中,深度學習模型的預測表現遠遠優于傳統統計模型ARIMA和機器學習模型SVR。其中,ARIMA預測表現最差,無法很好地捕捉軌道客流非線性,而SVR在建模時消耗大量計算時間,不適用于大型數據集建模。在單一深度學習模型中,具有處理時間序列數據能力的LSTM效果優于CNN型,而BiLSTM效果要優于單向的LSTM,這是因為BiLSTM能同時處理前后兩個方向的時間序列數據。然而,單一模型只能學習到單個模型特征,無法結合其他模型優勢而導致預測精度較低。

由表3可知：對比CNN-LSTM和CNN-ResNet-LSTM模型,多因素C-R-B模型的ERMS比常用組合模型分別降低了9.24%和8.50%;EMA分別降低了10.00%和6.76%,EMAP分別降低了10.14%和6.52%。

在4個組合模型與5個單一模型對比方面,4個組合模型的3個評價指標均低于常用單一模型,這說明組合模型能結合單一模型優勢,提高軌道交通短時進站客流的預測精度。然而對于常用的組合模型,CNN-LSTM只能提取淺層的空間特征信息,CNN-ResNet-LSTM雖能提取深層空間特征信息,但也只能提取到單向的時間序列信息,無法捕捉軌道交通客流的雙向時間信息。

多因素C-R-B組合模型相比單因素C-R-B模型的ERMS、EMA和EMAP分別降低了11.74%、6.74%和30.13%。這說明增加的天氣、空氣質量和道路交通擁堵指數等外部環境因素能提高模型的預測精度,這是因為引入的外部環境因素使模型學習到了更多特征,驗證了文中模型引入多因素特征的有效性。

5 結論

通過融入內部客流特征和外部環境特征多因素,筆者提出了多因素C-R-B組合模型,并對軌道交通短時進站客流進行預測。得出主要結論如下：

1)結合了CNN模型能對多因素客流時間序列的自動提取,ResNet模型能對更深網絡結構的高效訓練,BiLSTM模型能對客流時間序列的長期依賴,提出了多因素組合模型,實現了對客流時間序列特征的有效提取;

2)除考慮內部客流特征外,還引入了天氣、空氣質量和道路交通擁堵指數等外部環境因素,通過實例驗證了引入多因素特征的有效性;

3)多因素C-R-B組合模型的ERMS、EMA和EMAP值相比于常用的幾種模型分別降低了8.50%～36.12%、6.74%～43.26%和6.52%～47.23%,表現出更加準確的預測結果;

4)筆者僅對常規條件下的軌道交通短時進站客流進行了預測,下一步可考慮對節假日、大型活動或突發事件等特殊情況下的軌道交通短時進站客流進行預測,并尋找更多更新數據集對模型進行驗證。