張 敏,卿粼波,王 巧,才虹麗,陳 楊
(1 四川大學 電子信息學院,成都 610065;2 四川通信科研規劃設計有限責任公司,成都 610065)
城市區域人流量預測在智慧交通系統中具有重大現實意義。例如,當區域人流量過大、人群聚集程度較高時,如果不能及時察覺潛在的風險,進行科學的疏導和控制,很容易發生踩踏等事件[1-2]。城市區域人流量預測在智慧交通系統中具有重大現實意義,人群流動建模為日益嚴峻的交通狀況、公共衛生安全、資源配置、風險評估等問題提供有效的決策支持[3]。
在城市區域人流量預測問題中,傳統的建模思路難以同時有效的處理時序的兩級周期性和空間依賴性問題。2017 年,Zhang 等人[4]建立了基于深度殘差網絡的城市人流量預測模型ST-ResNet。其后,研究人員在此基礎上陸續提出了ConvGRU[5]等一系列模型,將每個網格區域的人流量用規則矩陣表征卷積輸入,表征人流量預測中的空間依賴關系。文獻[6]中提出了DeepSTN+模型,結合區域的功能特性,能夠捕捉更大范圍空間的依賴關系。文獻[7]中使用空間卷積,來構建預測不規則區域的人流量模型MVGCN 等等。然而,上述傳統的區域人流量預測模型,沒有充分挖掘人流量數據的時間特征,雖利用深度學習進行預測,但在數據量不足時,訓練數據的性能會顯著下降。
本文數據來源于CCF 2020 重點區域人群密度預測[8],在Top1[9]模型基礎上,針對以上問題,考慮時序特征的兩級周期性,一方面利用圖神經網絡(GNN)[10]提取空間特征,另一方面將空間區域特性因素納入其中,構建模型預測城市區域未來一周分小時的人流量分布。
城市區域人流量預測相比一般的時序預測問題具有時序特征、區域特征,而時間特征具有兩級周期性。圖1 為一個星期內,北京市內兩種類型區域24小時人流量統計圖。圖中很明顯地展示了城市區域人流量預測的時序特征與區域特性。
(1)天級別周期性:體現了每個區域在一天內小時級別的周期性。例如圖中兩個區域人流量,由于人們每日作息影響呈現周期性變化,即早晨和晚上人流量驟減,中午達到高峰。
(2)周級別周期性:體現了每個區域周級別的周期性。圖中兩個區域人流量受工作日的人群出行規律的影響,工作日和周末的人流量差異較為明顯。
(3)區域特性:由于人的移動是發生在物理世界中,直接受到區域屬性的影響。從圖中也可看出人流量的分布與功能區之間存在相關性。例如,北京站整體人流量較高,所以在構建模型時應當充分考慮區域類型與時間的相關性對人流量的影響。
本文提出的基于混合時空感知網絡模型的完整網絡結構如圖2 所示。其中包括分為數據層、特征層和融合層。數據層選擇區域歷史人流量和區域屬性數據作為模型的輸入。首先進行特征提取得到兩個級別的時序特征,通過圖神經網絡(GNN)[10]提取空間特征;將時序特征和空間特征輸入到回歸樹模型和規則模型,對未來人流量進行連續預測;最后融合功能類型、時間影響因子、區域特性因子輸出預測值。
1.3.1 時序特征提取
本文對相關數據進行特征提取,得到區域人流量兩級時序特征。人流量具有天級別和周級別的兩級周期性,所以選擇預測方式分為水平方向預測與垂直方向預測,如圖3 所示。

圖3 兩級時序特征提取Fig.3 Two level sequential feature extraction
其中,水平方向預測主要基于歷史數據每天的相同小時進行預測,這樣訓練24 個回歸樹模型進行預測,將預測的序列長度縮短到了7,垂直方向預測主要對歷史訓練數據進行統計建模。
1.3.2 空間特征提取
本文利用圖神經網絡,對不規則的空間特征進行提取。其基本原理如下:
將城市區域人流量的相關數據抽象成空間內有意義的模式與特征后,再將圖轉化成代數形式來對空間特征進行提取。
圖4 為以定點i計算出的核大小為1 的圖卷積。而定點i與4 個一階相鄰定點的空間依賴關系則為圖4 中的f(1)、f(2)、f(3)、f(4)。

圖4 區域人流量空間特征提取Fig.4 Extraction of spatial characteristics of regional passenger flow
本文使用LightGBM[11]和XGBoost[12]兩模型預測人群密度預測值flowi,d,h。其中,growthi,h表示區域i在第h小時的增長趨勢因子,ph和qh表示第h小時對應的兩個模型,則第i個區域在第d天第h小時的人流量預測值為:

區域特性因子wp主要是計算同一時刻t內,遷入某一區域的人流量PE與遷出這一地區的人流量PR的比值,如公式(2)。


最后融合周級別周期因子α與天級別的影響因子β,可得到基于規則統計模型的人流量預測值為:

根據現實需求,本文選取的數據集包括北京市2020-01-17~2020-02-15 重點區域信息、100 個類別的重點區域小時級別的人群密度數據、城市間遷入遷出指數、網格聯系強度。預測接下來9 天北京市重點區域的人流量。所以要預測的序列長度為216,屬于長期序列預測問題。數據集的統計信息見表1。

表1 數據集統計信息Tab.1 Statistical information of data set
基于本文所構建的模型,用均方根誤差RMSE(Root Mean Square Error)作為模型預測效果的評價指標。

其中,ε表示城市的區域總數;k表示預測的時間區間總數;φ是預測值;是真實值。
為了驗證本文模型在區域人流量預測問題上的可行性,選擇以下基準預測方法進行對比。預測方法包括:時間序列預測模型和基于深度學習的預測模型。主要有長短期記憶網絡(LSTM)[13]、自回歸積分滑動平均模型(ARIMA)[14]、以及基礎方法(base)。
(1)ARIMA 模型:自回歸積分滑動平均模型,是時間序列預測模型中非常經典的預測方法,ARIMA的預測結果較好,但模型對數據要求較高。
(2)LSTM 模型:長短期記憶模型是一種循環神經網絡,擅長處理序列類型的數據。
混合時空感知模型預測結果見表2。

表2 實驗結果Tab.2 Experimental results
本文提出一種基于混合時空感知網絡模型,用于解決城市區域人流量預測問題。該模型可以對影響區域人流量的兩類因素(即空間信息和時間信息)進行建模,根據天周期性和周周期性進行預測,將時序特征和空間特征分別輸入回歸樹模型和統計規則模型,對未來人群密度進行連續預測。進一步對回歸樹模型和統計規則模型的預測結果進行加權求和,融合后效果顯著。通過對北京重點區域人流量數據驗證,證明本文提出的模型具有良好的效果。
當前大部分的城市區域人流量預測模型都只考慮了某種單一的數據集,實際上,本模型可以考慮其他因素用于改進城市區域人流量預測。為了驗證模型的魯棒性,不同城市需要用到更多的數據來驗證時空變化對預測精度的影響。同時為提高訓練效率,可減少迭代次數以提高訓練結果的準確性。