王玉鑫,王 勇,梁曉波,劉 飛
(中鐵電氣化局集團有限公司設計研究院,北京 100166)
近年來,國內城市軌道交通高速發展,地鐵出行成為多數人們首選的出行方式,因此城市軌道交通的客流量也逐漸加大[1]。地鐵運營模式和列車發車間隔等方案的制定與地鐵客流量均有不可分割的關系。因此,提前進行客流預測成為降低運營成本、提高經濟效益以及制定行車計劃的重要方法之一。
基于此,提出一種混合EMD-BPNN的方法對地鐵客流量進行預測。在論述該方法基本原理的基礎上,建立地鐵客流預測的模型并進行實驗驗證。實驗結果表明,所提方法的預測精度較高且穩定性好,具有收斂速度快、方法簡單易行等優點。
經驗模態分解(Empirical Mode Decomposition,EMD)對信號的分解步驟如下。
1)計算信號x的所有極值點。
2)利用插值得到最大值和最小值的包絡線,并將其定義為m。
3)設置函數h1=x-m。
4)判斷函數h1是否滿足終止條件。如果不滿足,則h1作為一個新的信號重復步驟1)至步驟3),直到hi滿足終止條件[2]。則hi為第一個固有模態函數(Intrinsic mode function,IMF)分量,記為c1。
5)設殘差r1=x-c1,將r1作為新的信號,執行以上步驟,直到rn滿足結束條件,最后得到信號其中,ci為第i個固有模態函數,rn為第n個信號殘差。
這樣,信號x就可以被分解為n個IMF分量和一個殘差疊加的結果[3]。
混合EMD-BPNN算法可以有效預測短期客流量。如圖1所示,在EMD-BPNN方法中,包括經驗模態分解的數據分解、經驗模態分解的成分識別和BP神經網絡的客流預測3個階段。其中第一階段為EMD階段,用于將短期客流序列數據分解為多個IMF分量;第二階段為成分識別階段,用來篩選出有意義的IMF分量,作為BP神經網絡的輸入。第三階段為BP神經網絡階段,將BP神經網絡應用于客流預測中,進行客流量的預測分析。

圖1 混合EMD-BPNN預測客流量步驟Fig.1 Hybrid EMD-BPNN prediction steps of passenger flow
1)第一階段:EMD階段
第一階段將原始客流序列數據分解為多個IMF分量,同時也起到數據過濾的作用。提取的IMF分量為從高到低的一系列頻率,可以表示客流的各種周期性模式。每個IMF分量可以單獨代表本地特征時間尺度。BP神經網絡的計算要求隨著輸入節點的數量增加到一個極端的程度。因此,識別神經網絡的輸入數據對于在保持預測精度的同時減少計算需求至關重要。
2)第二階段:成分識別
第二階段是選出有意義的IMF分量作為神經網絡的輸入。提取的IMF代表從高到低的一系列頻率,分別代表不同模式的時期。頻率較高的IMF代表較短時期的模式,而頻率較低的IMF代表較長時期的模式。
本文主要是對短時期的客流進行預測,因此為減少計算時間,需要過濾掉低頻率的IMF分量,選取有意義的、較高頻的IMF分量建立適合短期預測的模型。通過Pearson乘積矩相關方法,衡量IMF分量與原始時間序列數據之間的相關性,選取有意義的IMF分量。如果Pearson積矩相關系數為正,則表示IMF分量變化與原始數據變化一致。相關系數越高,分量與原始數據的相關性越強。
3)第三階段:BP神經網絡階段
第三階段為BP神經網絡階段,主要作用為應用BP神經網絡進行客流預測。在構建基于BP神經網絡的預測模型時應確定幾個參數。這些參數包括輸入節點數、隱藏層數、隱藏節點數、激活函數、學習率和動量[4]。
輸入節點即輸入變量的數量會影響學習和預測能力。因此可以說輸入節點的數量是時間序列預測模型最關鍵的參數之一。在混合模型中,IMF分量可以被看作多個序列數據和輸入變量,其時滯數是基于滾動步長和滾動范圍。滾動步長表示用于預測的IMF系列的分辨率。滾動范圍等于輸入層中輸入變量的時滯數。如果滾動范圍過大,預測模型對客流波動的響應較慢。相反,如果滾動范圍太小,預測模型對客流波動反應過度。
在輸出層中,輸出變量包括預測步長和預測范圍。預測步長用來表示執行或更新預測的時間間隔。預測范圍表示預測提前的時間范圍。通常,較長的預測范圍會導致預測模型的準確性較低。
為驗證混合EMD-BPNN方法用于預測短期客流的可行性,收集石家莊站地鐵站2021年11月1日-11月21日兩周時間內數據,根據地鐵運營時間,統計的客流數據從每天06:30-22:30,統計時間間隔為15 min。每周工作日各時間段內進站的平均客流量如圖2所示,每周六日中各時間段內進站的平均客流量如圖3所示。

圖2 工作日各時間段內進站的平均客流量Fig.2 Average inbound passenger flow during each time period on weekdays

圖3 非工作日中各時間段內進站的平均客流量Fig.3 Average inbound passenger flow during each time period on weekend
從圖2中可以看出,在普通的工作日中,地鐵站存在較為明顯的客流出行高峰期的現象,07:00-09:00為人們上班出行的早高峰,下午17:00-18:00為下班時期的晚高峰,其余時間客流量變化較小。圖3顯示的非工作日客流量中并沒有明顯峰值,但全天出行的客流量均較高,尤其在11:00-17:00之間的出行量較大。
原始客流數據信號的時譜圖和頻譜如圖4所示。在第一階段(EMD階段)中,利用EMD將原始客流數據分解為5個IMF分量和1個殘差,如圖5所示,所有提取的IMF分量都按照頻率從最高到低的順序排列[5]。分量IMF1、IMF2代表原始客流數據中的高時變或噪聲,而分量IMF3、IMF4和IMF5代表長周期分量。最后分量IMF6是篩選的殘差,用來代表時間序列的趨勢。

圖4 原始客流數據信號Fig.4 Raw passenger flow data signal

圖5 EMD提取的各IMF分量Fig.5 Each IMF component extracted by EMD
在第二階段(IMF分量識別階段)中,采用Pearson積矩相關系數計算每個IMF分量與原始時間序列數據之間的相關性,從而判斷提取的IMF分量是否有意義。假設樣本記為(Xi,Yi),其中Xi為原始時間序列數據,Yi為IMF分量,r為Pearson積矩相關系數,為樣本均值。則Pearson積矩相關系數如公式(1)所示。

由公式(1)可計算各分量的Pearson相關系數,其中IMF3、IMF4和IMF5的Pearson相關系數分別為0.512、0.547和0.551,表明其正相關更強。因此,可以確定IMF3、IMF4和IMF5為有意義的短期客流序列數據分量。
在第三階段(BP神經網絡階段),在執行預測模型之前,將收集到的數據分為兩個獨立的數據集,一個訓練數據集和一個測試數據集。訓練數據集包含11月1日-11月21日的客流量數據,占原始數據的76%,將其作為BP的預測模型的輸入,用于訓練神經元的權重和偏差。測試數據集包含11月22日-11月28日的客流量數據,占原始數據的24%,用來驗證預測模型的有效性。對于這兩個數據集,輸入變量的數量由滾動范圍決定,輸出變量的數量由預測范圍決定。混合EMD-BPNN模型由輸入層、隱藏層和輸出層的設計如下。
1)輸入層
輸入層的元素包括客流數據、客流模式(即IMF分量)和時間因素。客流模式涉及與輸入特征識別相關的有意義的分量(IMF3、IMF4、IMF5)和其他分量(IMF1、IMF2、IMF6)。由于IMF3、IMF4和IMF5與原始數據的相關性較高,因此,選擇這些有意義的分量作為單獨或聚合形式的輸入。客流統計的時間間隔設置為15 min,輸入層的輸入神經元數量從9~21個。神經網絡的超參數包括激活函數、學習率和動量。對超參數的設置參考Wang Kai等人的研究,其中學習率設置為0.2,動量設置為0.8,初始權重設置為0.3[6]。
2)隱藏層
隱藏層中的激活函數、學習率、動量和初始權重設置與輸入層相同。隱藏層神經元越多,網絡的訓練速度越快,計算誤差也越小。但是誤差過小網絡可能會出現過擬合的現象,因此需要通過對比訓練參數和預測結果,來確定隱藏層的合適神經元數量。
3)輸出層
輸出神經元的數量取決于預測步驟和預測范圍。如上所述,可以提前一步或多步執行預測。在本文中,使用最多4個預測步驟的預測,即預測范圍最多擴展到60 min。因此,輸出神經元的數量設置為1~4個。
選擇平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)和均方根誤差(Root Mean Square Error,RMSE)[7]兩種方法來評判模型是否可行。其中MAPE用來表示平均預測精度,RMSE反映預測穩定性,二者的表達式分別如公式(2)、(3)所示。

其中,yi是第i個時間間隔的觀測值, 是第i個時間間隔的預測值,n是觀測次數。公式(2)、(3)分別計算各區間觀測值與預測值相對誤差的平均值和方差。很明顯,具有較大MAPE的預測模型不如具有較小MAPE的預測模型準確。同樣,具有較大RMSE的預測模型不如具有較小RMSE的預測模型穩定。
實驗中對原始數據進行適當處理,以保證代碼的收斂速度更快。選取2021年11月石家莊站地鐵站自動售檢票系統(AFC)的數據為研究對象,其中以11月前三周的客流數據為訓練數據,以11月22日到28日,即第四周的數據為測試數據。通過對比預測結果,分析模型在一周中不同時期的預測精度。實驗的預測結果平均值如圖6所示。

圖6 預測客流量實驗結果Fig.6 The results of the passenger flow prediction experiment
預測結果表明,構建的EMD-BPNN混合算法在短期客流預測方面是有效的。
比較混合EMD-BP神經網絡算法與傳統BP網絡模型的平均預測精度和預測穩定性,如表1所示。表1中,混合EMD-BP神經網絡算法的MAPE和VAPE均低于傳統BP網絡模型,說明混合EMDBPNN能夠很好地捕捉短期時間序列中數據的變化,有效提高預測精度與穩定性。

表1 傳統BPNN模型與混合EMD-BPNN模型預測結果對比Tab.1 Comparison of prediction results of traditional BPNN models and hybrid EMD-BPNN models
通過客流數據分析,預測客流高峰和客流趨勢,可以針對客流量的短期波動制定出合適的列車開行方案[8],從而提高經濟效益,減少不必要的運營損失。通過分析地鐵站工作日和周末客流量的差異性和周期變化規律,確定短期客流的特征規律,為網絡模型訓練提供依據,并構建基于混合EMD-BP神經網絡的短期客流預測模型。該模型通過EMD對原始數據進行處理,可以充分獲取客流分布的特征,使神經網絡模型在短期客流預測的效果顯著提升。最后,以石家莊站客流數據為研究對象,對基于混合EMD-BPNN算法的短期客流預測模型進行測試驗證。結果表明,該模型在工作日和周末均具有較高的預測精度,且高于傳統神經網絡的預測精度與穩定性。