楊鑫宇,陳隊永
1.河北科技學院汽車工程學院,河北 唐山 063200;2.石家莊鐵道大學河北省交通安全與控制重點實驗室,河北 石家莊 050043;3.石家莊鐵道大學交通運輸學院,河北 石家莊 050043
地鐵作為新型交通出行方式之一,具有快捷、準時、高效等優點,地鐵站內通行客流量較大,易引發客流擁堵、踩踏等安全事故。準確的地鐵站客流預測對保證地鐵站內正常的公共秩序及相關部門宏觀管控有重要意義。
馬延龍等[1]將主成分分析法與隨機森林算法結合預測廣州地鐵客流;Du等[2]采用深度非規則卷積殘差神經網絡模型預測某城市地鐵站客流;梁強升[3]采用融合門控循環單元和圖卷積神經網絡的時空神經網絡模型預測2019年廣州地鐵國慶節假期7 d的客流量;曹夏玲[4]采用自回歸移動平均-支持向量機回歸組合模型預測2018年西安地鐵客流;王秋雯等[5]基于卷積長短時記憶(convolutional long short-term memory,ConvLSTM)神經網絡建立地鐵換乘站客流預測模型;龍小強等[6]采用深度信念網絡-支持向量機回歸組合模型預測成都地鐵火車北站的客流量;孫曉黎等[7]采用極端梯度推進決策樹法預測西安地鐵2號線客流;蔡昌俊[8]采用誤差融合模型預測廣州地鐵18號線的短時客流。已有文獻對節假日及大型活動期間的地鐵站客流預測居多,方法以單一時間序列或神經網絡模型為主,此類模型參數量化有一定的偶然性與隨機性,預測準確度較低,可信度較差。貝葉斯優化算法(Bayesian optimization algorithm,BOA)[9-11]可幫助神經網絡模型篩選符合要求的超參數并確定最優值,多用于計算機仿真與經濟學系統中,目前在地鐵客流預測領域的應用較少。
本文針對地鐵站常態期間的客流預測問題,采用Python語言將BOA與長短時記憶(long short time memory,LSTM)神經網絡相結合,構建BOA-LSTM地鐵站客流預測模型,以石家莊地鐵1號線北國商城站為例,驗證模型的可行性與適用性,為類似站點的客流預測提供參考。
Pelikan等學者于1998年提出BOA,包括概率代理模型和采集函數[12-13]。概率代理模型也稱為高斯過程(Gaussian processes,GP)模型[14],由均值函數μ(x)、協方差函數k(x,x′)組成,公式為:
F(x)~G[μ(x),k(x,x′)],
(1)
式中:F(x)為絕對誤差函數,G為高斯分布,x為自變量數據,x′為隨機生成變量數據。
根據歷史數據,設搜尋的下一個自變量為xt+1,則協方差矩陣
(2)
GP模型中的Ft和Ft+1分別為xt、xt+1的待預測值,二者均服從聯合高斯分布N,假設其μ(x)=0,對應的分布公式為:
(3)
通過邊緣密度函數得到Ft+1的后驗概率
(4)

選取EI函數作為采集函數的運算方式,公式為:
(5)
式中:f(x+)為已知目標函數的最小值;ε(z)為概率密度函數,z=(μ(x)-f(x+))/σ(x);δ(z)為分布函數;σ(x)為方差函數。
EI函數需引入權衡標量ε(ε>0),代入式(5)后得到新的EI函數,公式為:
(6)
式中z=[μ(x)-f(x+)-ε]/σ(x)。
進行后驗分布評價,后驗概率函數
P(f|D)=P(D|f)P(f)/P(D),
(7)
式中:f為目標集合,D為參數樣本,P(D|f)為似然函數,P(f)為前驗概率函數,P(D)為邊際似然函數。

圖1 LSTM神經網絡結構示意圖
LSTM神經網絡為循環神經網絡的改進形式,在原有網絡基礎上加入門控單元,可篩選歷史樣本數據并保存一定時間內的數據,加入記憶與遺忘2個神經單元,有效解決梯度消失問題[15-17]。LSTM神經網絡結構如圖1所示。
由圖1可知:LSTM神經網絡由4部分構成,輸入層輸入原始數據,LSTM層解決梯度消失問題,全連接層對值域數據進行降維處理,輸出層輸出最終結果。
LSTM層包含遺忘、輸入、輸出3個門控單元。遺忘門的輸出
ft=σ(Wf[ht-1xt]+bf),
(8)
式中:σ為Sigmoid激活函數,Wf為遺忘門的權重矩陣,ht-1為短記憶t-1時刻的輸出,xt為t時刻的輸入,bf為遺忘門的偏置。
輸入門的輸出
it=σ(Wi[ht-1xt]+bi),
(9)
式中:Wi為輸入門的權重矩陣,bi為輸入門的偏置。
輸出門的輸出
ot=σ(Wo[ht-1xt]+bo),
(10)
式中:Wo為輸出門的權重矩陣,bo為輸出門的偏置。
長記憶
Ct=ftCt-1+itgt,
(11)
式中:Ct-1為t-1時刻的歷史信息;gt為新記憶,gt=tanh(Wg[ht-1xt]+bg),其中Wg為新記憶的權重矩陣,bg為新記憶的偏置,tanh為雙曲正切激活函數。
短記憶
ht=ottanh(Ct)。
(12)
通過BOA的全局尋優能力彌補LSTM神經網絡參數隨機性取值的短板,獲取所需最佳參數。LSTM神經網絡中9個超參數如表1所示[18]。

表1 LSTM神經網絡中的超參數
根據模型及參數特點,優化數據處理的批次和棄權系數,計算得到數據處理的最優批次為100,最優棄權系數為0.5,其他參數依據數據變化特征賦值。采用平均絕對誤差(mean absolute error,MAE)EMAE、平均絕對百分比誤差(mean absolute percentage error,MAPE)EMAPE、均方誤差(mean square error,MSE)EMSE、均方根誤差(root mean square error,RMSE)ERMSE作為目標函數,評價模型的預測性能,公式分別為:
(13)
(14)
(15)
(16)
式中:xi為實際值,xi′為預測值,n為樣本總數。

圖2 BOA-LSTM模型結合流程
BOA-LSTM模型結合的核心是超參數優化,類似于求解黑盒問題,主要包括選定超參數集、構建目標函數、實時優化和輸出最優參數4部分。采用樹狀結構(tree-structured parzen estimator,TPE)的BOA建立超參數組合與目標函數間的黑盒,尋找使目標函數g(x)最小化的超參數,最優參數集
x*=argming(x)。
(17)
優化過程中存在誤差,為最大程度降低誤差影響,采用最小二乘法擬合校正輸出參數Fi,經誤差校正后的參數
Fi′=Fi+g′(x)-F1,
(18)
式中:F1為擬合曲線第1個點的參數,g(x′)為擬合校正后的目標函數。
判斷模型是否滿足初始化要求,若滿足,代入式(1)~(4)的高斯模型中,反之,產生初始樣本點,通過高斯模型的μ(x)和k(x,x′)進行修正;根據式(5)~(7)的采集函數篩選數據,將過濾后的集合代入式(8)~(12)的LSTM神經網絡中,采用式(17)(18)對式(13)~(16)的目標函數進行迭代更新,直至滿足LSTM神經網絡超參數輸出要求。BOA-LSTM模型結合流程如圖2所示。
收集石家莊地鐵1號線北國商城站2021-07-05—2021-08-29每日07:00—22:30的進出站客流數據,如圖3所示。

圖3 石家莊地鐵1號線北國商城站進、出站客流量
由圖3可知:地鐵1號線北國商城站的進、出站客流量變化趨勢基本相同,有明顯的波動性;受新線開通影響,進站客流量小于出站客流量;最小客流量出現在8月初,最大客流量出現在7月初。將客流量劃分為多個區間,采用BOA-LSTM模型對規律性較強的某區間進行客流預測。
匯總收集的客流量數據,得到約296萬條數據,進、出站客流的檢票方式以城市軌道交通微信小程序掃碼、人工刷卡為主。自助檢票系統數據信息主要包括:刷卡/掃碼時間、線路編號(A為1號線、B為2號線、C為3號線)、站點編號(北國商城站編號為9)、設備編號、刷卡/掃碼狀態(0為出站,1為進站,2為換乘)、用戶代碼、刷卡/掃碼類型(1為公交一卡通,2為儲值卡,3為學生卡,4為單程卡,5為紀念計次卡,6為職工卡,7為微信小程序掃碼)。
已獲取的客流數據中存在部分不完整和重復序列,采用軟件Python中的第三方擴展庫Numpy、Pandas處理數據序列,剔除樣本數據中的缺失項和重復項,保留數據信息中的刷卡時間、站點編號、刷卡狀態、用戶代碼,以30 min為單位將每日客流量劃分為31個時間片段,篩選編號為9的進、出站客流數據,以“.csv”格式保存文件。
歸一化是指采用機器學習算法將初始數據同比例縮小再放大的過程[19]。采用標準化方法進行數據歸一化,歸一化客流量數據

BOA-LSTM客流預測模型主要包括超參數優化、LSTM神經網絡訓練及客流預測3部分,預測流程如圖4所示。

圖4 BOA-LSTM模型預測客流過程
創建初始參數集,根據概率代理模型和采集函數修正參數集,將結果代入LSTM神經網絡進行迭代,直至滿足目標函數要求,將輸出結果代入BOA-LSTM客流預測模型,預測目標站點的客流量。
4.4.1 可行性驗證
為驗證預測模型的可行性,分別采用自回歸移動平均(autoregressive integrated moving average,ARIMA)模型、LSTM神經網絡與BOA-LSTM客流預測模型預測工作日與自然日的地鐵站客流量,以2021-07-05—2021-07-09的進站客流量為工作日的訓練集,以2021-07-26的進站客流量為工作日的測試集,以2021-07-10—2021-07-11的進站客流量為自然日的訓練集,以2021-07-31的進站客流量為自然日的測試集。ARIMA模型、LSTM神經網絡與BOA-LSTM模型的進站客流量預測結果如圖5所示。由圖5可知:與ARIMA模型、LSTM神經網絡相比,BOA-LSTM模型的預測結果與實際進站客流量的偏差較小。3種模型的進站客流量預測結果誤差如表2所示。

a)工作日 b)自然日 圖5 不同模型的進站客流量預測結果
由表2可知:BOA-LSTM模型預測結果的4類誤差均最小,LSTM神經網絡的誤差較大,ARIMA模型的誤差最大,說明BOA-LSTM模型在實際地鐵客流預測中具有可行性,且預測準確度較高。
4.4.2 適用性驗證
驗證BOA-LSTM客流預測模型的適用性。以2021-07-05—2021-07-09的出站客流量為工作日的訓練集,以2021-07-12、2021-07-19、2021-07-26、2021-08-02、2021-08-09、2021-08-16、2021-08-23、2021-08-30的出站客流量為工作日的測試集;以2021-07-10—2021-07-11的出站客流量為自然日的訓練集,以2021-07-17、2021-07-24、2021-07-31、2021-08-07、2021-08-14、2021-08-21、2021-08-28的出站客流量為自然日的測試集,BOA-LSTM模型的出站客流量預測結果如圖6所示。

a)工作日 b)自然日 圖6 BOA-LSTM模型的出站客流量預測結果
由圖6可知:BOA-LSTM模型的預測結果與實際出站客流量基本吻合,預測客流量數據擬合效果較好,周期規律明顯,都有7個波峰,最大日客流量均出現在08:30—09:00。
分別計算工作日與自然日時BOA-LSTM模型出站客流量預測結果誤差如表3、4所示。

表4 自然日時BOA-LSTM模型預測結果誤差
由表3、4可知:預測出站客流量與實際出站客流量的4類誤差均隨時間的延長而逐漸增大,但變化范圍均未超出可接受范圍[20],結合表3、4中日期推算BOA-LSTM客流預測模型的適用期為1~2個月。
為預測常態期間地鐵站客流量,基于BOA優化LSTM神經網絡的參數,提出BOA-LSTM地鐵站客流預測模型,以石家莊地鐵1號線北國商城站2021-07-01—2021-08-31的進、出站客流為例,驗證模型的可行性與適用性。
1)采用第三方擴庫NumPy和Pandas對石家莊地鐵1號線北國商城站的自動售檢票系統刷卡數據進行集成、歸一等處理,顯示該站7、8月的進、出站客流整體較高。
2)根據BOA計算LSTM神經網絡的最優超參數,分別采用ARIMA模型、LSTM神經網絡、BOA-LSTM模型預測北國商城站的客流,結果表明:BOA-LSTM模型的預測客流量與實際客流量的誤差最小,預測準確度較高,適用期為1~2個月。