湯肖



摘 要:動態(tài)的交通需求對于開發(fā)有效的實時交通管理和控制策略、算法至關(guān)重要。準(zhǔn)確預(yù)測網(wǎng)約車需求具有一定的挑戰(zhàn)性,但對智能交通系統(tǒng)的發(fā)展具有重要作用,有助于協(xié)調(diào)區(qū)域內(nèi)的網(wǎng)約車供需,提高車輛的利用率,為乘客減少等待時間。文章提出一種時空門控多圖卷積網(wǎng)絡(luò)(Spatial-Temporal Gated Multi-Graph Convolutional Network,STGMGCN)模型,使用門控循環(huán)單元挖掘時間特征,并研究了三種不同的圖卷積網(wǎng)絡(luò)挖掘空間上的相關(guān)性。文章首先使用門控循環(huán)(GRU)單元提取研究區(qū)域的網(wǎng)約車的需求的時間相關(guān)性,之后構(gòu)建三種不同圖結(jié)構(gòu)提取空間特征包括鄰近關(guān)系圖、功能相似性圖、交互關(guān)系圖并對輸出結(jié)果進(jìn)行融合,得到最終的預(yù)測結(jié)果;最后將該研究模型在真實網(wǎng)約車數(shù)據(jù)集上與基準(zhǔn)模型進(jìn)行對比實驗,實驗結(jié)果表明該模型的預(yù)測性能優(yōu)于其他模型。
關(guān)鍵詞:網(wǎng)約車需求預(yù)測;圖卷積網(wǎng)絡(luò);門控循環(huán)單元;深度學(xué)習(xí)
中圖分類號:F572.88;TP183;U492.434文獻(xiàn)標(biāo)志碼:ADOI:10.13714/j.cnki.1002-3100.2023.04.027
Abstract: Dynamic traffic demand is crucial for developing effective real-time traffic management and control strategies and algorithms. Accurate ride-hailing demand forecasting is challenging but valuable for the development of intelligent transportation systems, which can help coordinate the supply and demand of online vehicles in a region, improve the utilization of vehicles, and reduce the waiting time for passengers. In this paper, we propose a Spatio-Temporal Gated Multi-Graph Convolutional Network (STGMGCN) model that uses gated recurrent units to mine temporal features and three different graph convolutional networks to mine spatial correlations. After that, three different graph structures are constructed to extract spatial features including proximity graph, functional similarity graph, and interaction graph, and the output results are fused to obtain the final prediction results. Finally, the model is compared with the benchmark model on a real online taxi dataset, and the experimental results show that the model outperforms other models.
Key words: online car-hailing demand forecasting; graph convolutional network; gated recurrent unit; deep learning
0? ? 引? ? 言
隨著經(jīng)濟不斷發(fā)展,網(wǎng)約車在人們的日常出行中擔(dān)負(fù)起越來越重的責(zé)任,已經(jīng)成為人們?nèi)粘I钪胁豢扇鄙俚囊徊糠?。短時的區(qū)域網(wǎng)約車需求預(yù)測可以協(xié)調(diào)網(wǎng)約車的供需協(xié)調(diào)指揮車輛調(diào)度,提高車輛的利用率,為乘客減少等待時間,提高車輛利用率。短期交通特征預(yù)測方法基于數(shù)據(jù)挖掘,主要分為三種:第一種是基于時間序列的統(tǒng)計學(xué)方法如自回歸整合移動平均模型(ARIMA)[1]等,但由于這類模型是基于時間序列的穩(wěn)定性假設(shè)的,它們無法捕捉交通流的突變,預(yù)測精度較低。第二種是包括支持向量機[2]、K-近鄰模型(KNN)[3]等算法在內(nèi)的機器學(xué)習(xí)模型,它們可以對交通流的更復(fù)雜特征進(jìn)行建模,但是捕捉非線性模式的能力有限;并且隨著交通大數(shù)據(jù)的不斷增加,機器學(xué)習(xí)模型也不再能滿足交通預(yù)測的需要了。第三種就是深度學(xué)習(xí)模型如循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)[4]、卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)[5]、圖卷積神經(jīng)網(wǎng)絡(luò)模型(GCN)[6]等。研究人員發(fā)現(xiàn)這類模型在更大的數(shù)據(jù)中表現(xiàn)效果更好。它強悍的特征表達(dá)能力和非線性擬合能力也吸引了更多的研究人員。這類模型中,人們最開始是將循環(huán)網(wǎng)絡(luò)(RNN)用于預(yù)測交通流量,然而深入研究后研究人員發(fā)現(xiàn)這類模型存在梯度消失和梯度爆炸現(xiàn)象,這一缺陷在處理長序列數(shù)據(jù)時尤其明顯,因此循環(huán)網(wǎng)絡(luò)在學(xué)習(xí)長時間序列的非線性關(guān)系上表現(xiàn)得很差。面對這一難題,人們對RNN進(jìn)行了改進(jìn),出現(xiàn)了很多RNN變體如長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)、雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)等。其中LSTM解決了RNN時間跨度大的信息學(xué)習(xí)方面的問題,并以其特殊的門控結(jié)構(gòu)和在記憶長短期信息方面的出色表現(xiàn)受到人們的關(guān)注。林友芳等[7]基于LSTM建立出發(fā)地至目的地客運需求預(yù)測模型以預(yù)測OD之間的客運需求量,并用實例驗證模型的有效性。而作為LSTM變體的GRU,因為其預(yù)測效果與LSTM同樣優(yōu)秀,但是它將LSTM的3個門改為了2個,大大減少了參數(shù)數(shù)量,從而加快了數(shù)據(jù)收斂的速度,受到研究人員的青睞。劉明宇等[8]利用GRU預(yù)測交通流量,并探求了預(yù)測效果最佳的GRU單元數(shù)。然而,這些基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型只能挖掘數(shù)據(jù)的時間特征,而不能挖掘其空間特征。段宗濤等[9]提出了融合CNN與LSTM的深度學(xué)習(xí)架構(gòu)進(jìn)行出租車需求預(yù)測, CNN捕捉流量的局部空間關(guān)系,LSTM則學(xué)習(xí)數(shù)據(jù)的臨近性、周期性和趨勢性變化。最后融入了天氣、溫度等外部條件進(jìn)行相關(guān)研究。然而,CNN是基于歐幾里得空間設(shè)計的,如圖像和網(wǎng)格,它不適用于具有圖結(jié)構(gòu)特征的交通數(shù)據(jù)。陳丹蕾等[10]提出了GCN與GRU的組合模型以預(yù)測路網(wǎng)的交通流量,利用GCN拓?fù)鋸?fù)雜的城市路網(wǎng)結(jié)構(gòu)。閆旭等[11]利用圖卷積網(wǎng)絡(luò)預(yù)測交通流量,他們定義了一個自由流可達(dá)矩陣作為虛擬的路網(wǎng)圖,并在真實數(shù)據(jù)集上驗證了其優(yōu)越性。陳喜群等[12]提出了基于切比雪夫圖卷積(ChebNet)和GRU的多時空圖卷預(yù)測路網(wǎng)速度,他們使用了日序列、周序列和月序列三種不同的時間組件捕獲其在歷史時間上的相關(guān)性。
然而,現(xiàn)有的利用圖卷積對時空交通數(shù)據(jù)的預(yù)測模型大多只考慮了歐氏距離,但是具有類似背景環(huán)境的遠(yuǎn)方區(qū)域網(wǎng)約車的需求量也有關(guān)系?;诖?,本文提出時空門控多圖卷積循環(huán)網(wǎng)(STGMGCN),以對研究區(qū)域內(nèi)的網(wǎng)約車短時的區(qū)域級需求量進(jìn)行預(yù)測。該模型采用GRU挖掘區(qū)域網(wǎng)約車歷史需求的時間相關(guān)性,之后將GRU的輸出分別輸入3個具有不同圖結(jié)構(gòu)的圖卷積進(jìn)行卷積操作,最后對卷積結(jié)果進(jìn)行聚合得到最終結(jié)果,并采用西安二環(huán)軌跡數(shù)據(jù)驗證該模型的有效性。
1? ? 問題定義
1.1? ? 網(wǎng)絡(luò)圖
本文使用無向圖G=(V,E,A)表示研究區(qū)域。其中,V是圖的頂點集合。將研究區(qū)域按照經(jīng)緯度劃分為N個網(wǎng)格,每個網(wǎng)格被定義為一個區(qū)域v∈V,其中V={v1,v2,v3,v4,...,vN}∈RN。E是邊的集合,A∈RN×N是圖的鄰接矩陣,其每個元素值代表這邊的權(quán)重。
1.2? ? 網(wǎng)約車需求預(yù)測
區(qū)域vi在第t個時間段網(wǎng)約車的訂單數(shù)量為xit∈Xt,其中Xt={x1t,x2t,x3t,x4t,...,xNt}∈RN代表了該時間段所有區(qū)域的訂單量。網(wǎng)約車需求預(yù)測就是計算映射函數(shù)f(·),利用該函數(shù)通過歷史需求與區(qū)域網(wǎng)格圖G預(yù)測第t+1時間段的網(wǎng)約車需求量Xt+1。那么下一時刻的網(wǎng)約車需求量可以表示為。
其中T是歷史窗口中的時間步數(shù)。
2? ? ?STGMGCN模型
2.1? ? 時間相關(guān)性建模
在基于深度學(xué)習(xí)方法解決時間序列預(yù)測問題中,常常選擇長短期記憶(LSTM)和門控循環(huán)單元(GRU)實現(xiàn)預(yù)測目標(biāo)。GRU 是 LSTM 的一種變體,在相同的數(shù)據(jù)集上,其預(yù)測結(jié)果與LSTM結(jié)果差距不大。但是其與LSTM相比,它將門的數(shù)量從3個減少到2個,顯著地減少了參數(shù)量和計算量,收斂速度更快,因此本文選擇GRU挖掘數(shù)據(jù)的時間相關(guān)性,其狀態(tài)更新過程如下。
圖1為GRU的內(nèi)部更新過程:在更新門,第t-1時刻隱藏狀態(tài)h(t-1)與第t時刻Xt分別進(jìn)行線性變換(即與偏置矩陣相乘)并將兩部分相加,之后加入Sigmoid激活函數(shù)得到zt∈[0,1]。重置門得到rt∈[0,1],它的計算方法與更新門一樣,只是線性變化的偏置矩陣不同,功能和用法也不一致。重置門是用來控制前一時刻的狀態(tài)信息的保留程度,更新門則是用來決定帶入當(dāng)前狀態(tài)的前一時刻的隱藏狀態(tài)信息量。ht-1經(jīng)過線性變化后與rt計算Hadamard乘積,Xt與經(jīng)線性變換后的矩陣相加,并投入雙曲正切激活函數(shù)得到當(dāng)前時刻的記憶內(nèi)容h't。ht-1與zt的Hadamard乘積實現(xiàn)前一時刻的信息保存,當(dāng)zt=0時不保留前一時刻的信息,只保留當(dāng)前時刻自身的信息;1-zt與h't的Hadamard 實現(xiàn)當(dāng)前時刻信息的保留,zt=1則舍棄當(dāng)前信息,全數(shù)保留前一時刻的信息。將兩部分相加得到當(dāng)前時刻的隱藏狀態(tài)ht。Wr,Wh,Wz,bh,br,b2為可學(xué)習(xí)參數(shù)。
2.2? ? 圖卷積
圖卷積在交通網(wǎng)絡(luò)上已經(jīng)應(yīng)用于動態(tài)最短路徑規(guī)劃、動態(tài)交通分配、交通擁堵分析等方面。交通鄰域的圖卷積網(wǎng)絡(luò)是基于譜域上的圖卷積。Bruna等[4]最早提出了這種譜圖卷積。譜圖卷積網(wǎng)絡(luò)利用鄰接矩陣或拉普拉斯矩陣描述圖的結(jié)構(gòu)。對于無向圖G=(V,E,A)的對稱歸一化拉普拉斯矩陣為L=IN-D-1/2AD-1/2,其中D是度矩陣,當(dāng)i=j時Di,j=ΣjAi,j,否則Di,j=0,IN是單位矩陣。L=UUT是對L進(jìn)行特征分解得到其特征相向量U和所有特征值組成的對角矩陣。在處理規(guī)模巨大的圖結(jié)構(gòu)數(shù)據(jù)時,求解U和的過程復(fù)雜度很大,時間成本很高。為解決這一問題,研究人員采用 Chebyshev 多項式近似求解代替特征分解,對網(wǎng)絡(luò)進(jìn)行加速。切比雪夫圖卷積方法利用了切比雪夫多項式。
其中,T(·)是階Chebyshev多項式,即,T0(x)=1,T1(x)=x,表示Chebyshev 多項式系數(shù),c是圖信號矩陣c',表示將拉普拉斯矩陣L縮放到區(qū)間[-1,1],λmax是L的最大特征值。使用切比雪夫多項式對圖卷積的卷積核進(jìn)行改造就可以得到切比雪夫圖卷積。
其中,表示Xl+1的輸入特征,ReLU表示激活函數(shù) 。
本文用圖對三種不同類型區(qū)域之間的相關(guān)性進(jìn)行建模,包括鄰近關(guān)系圖GD=(V,E,AD),編碼歐式距離的接近性;功能相似性圖GS=(V,E,AS),編碼區(qū)域周圍興趣點(POI)的相似性;交互關(guān)系圖GC=(V,E,AC),編碼空間距離遙遠(yuǎn)但網(wǎng)約車流入、流出的相似性。
2.3? ? 空間依賴性建模
2.3.1? ? 臨近關(guān)系
Toble的地理學(xué)第一定律:“毗鄰區(qū)域的相關(guān)性遠(yuǎn)高于遙遠(yuǎn)區(qū)域”,這一定律可以理解為歐式距離近的兩個區(qū)域之間網(wǎng)約車需求的相關(guān)性大于距離較遠(yuǎn)的區(qū)域?;诖?,本文用網(wǎng)格質(zhì)心之間的相對距離,體現(xiàn)網(wǎng)格之間網(wǎng)約車需求量的相關(guān)性,距離越小,相關(guān)性越強。具體做法如下:將任意區(qū)域的網(wǎng)約車需求量集中反映在幾何中心處,首先算出任意兩個區(qū)域 vi、vj之間的幾何中心歐式距離Dij,然后用Dij與區(qū)域相鄰方格的距離D0計算出網(wǎng)格之間的相對距離Dij/D0。由于網(wǎng)約車需求量與空間距離之間具有負(fù)相關(guān)性,為了表示具有不同空間距離的區(qū)域間的相互關(guān)系的強度,本文采用相對距離的倒數(shù)作為臨近關(guān)系結(jié)構(gòu)圖的邊的權(quán)重。由于空間距離太大區(qū)域間的相關(guān)性較低,設(shè)置閾值δD,因此臨近關(guān)系的距離矩陣表示如下。
2.3.2? ? 交互關(guān)系
空間相隔較遠(yuǎn)的兩個區(qū)域之間的網(wǎng)約車流量的流入和流出也有一定關(guān)系,這種關(guān)系被稱為區(qū)域之間的交互關(guān)系。兩個區(qū)域之間人們出行交互的密切程度在網(wǎng)約車需求中體現(xiàn)在訂單量上,且密切程度與訂單量成正比。分別計算以區(qū)域vi為起點、vj為終點的訂單量Svi→j和以區(qū)域vj為起點,vi為終點的訂單數(shù)Svj→i,比較選擇最少值構(gòu)成交互矩陣NI,對其利用最小—最大規(guī)范化對其線性變換歸一化??紤]到區(qū)域間訂單的交互量較小時,對需求影響較小,因此設(shè)置了閾值δC,本文中歸一化的交互矩陣由如下公式計算。
2.3.3? ? 功能相似性
兩個區(qū)域之間由于具有相似的功能而具有相似的網(wǎng)約車訂單序列模式。比如,同為教育屬性的兩個不同的地域,它們的空間距離較遠(yuǎn),兩個區(qū)域間的訂單交換量也不一定很大,但這兩個區(qū)域在早晚高峰以及工作日和節(jié)假日上有著相似的訂單規(guī)律。本文用興趣點(POI)衡量區(qū)域的類別屬性,如果兩個區(qū)域的類別相似度較高,那么其具有一定關(guān)聯(lián)性。用Pi∈RM表示區(qū)域vi的POI、M表示選取的POI屬性種類。計算Pearson相關(guān)系數(shù)得到兩個區(qū)域間的類別相關(guān)性,以此表示區(qū)域之間的功能相似性的強度pi,j;并設(shè)置閾值δS,低于該值則認(rèn)為兩個區(qū)域之間的功能不相似,因此功能相似性矩陣計算如下。
3? ? 數(shù)據(jù)集處理
西安市二環(huán)局部區(qū)域被選為研究區(qū)域,使用滴滴出行“蓋亞”數(shù)據(jù)開放計劃提供的軌跡數(shù)據(jù)集進(jìn)行研究,該數(shù)據(jù)集中軌跡點的采集間隔為2~4s,字段包括訂車編號、司機編號、時間戳、經(jīng)緯度等。本文從軌跡數(shù)據(jù)集中提取訂單起訖點信息,按照訂單編號提取同一訂單的起終點時間戳和經(jīng)緯度構(gòu)成初始數(shù)據(jù)集。采樣時間為2016年10月1日—2016年10月30日,共30天。對數(shù)據(jù)集以5min為間隔統(tǒng)計各個區(qū)域的訂單量,那么整個研究時間段被劃分為8 640個時間段。將研究區(qū)域劃分為1km2的90個方形網(wǎng)格,POI數(shù)據(jù)由高德地圖API得到,其中包括13種不同屬性。GRU隱藏單元數(shù)為32,3 個不同圖卷積的超參數(shù)完全相同的隱藏單元數(shù)為64,選用Adam優(yōu)化器,學(xué)習(xí)率為0.001,關(guān)系圖閾值δD=0.6、δC=0.5、δP=0.6,多項式階數(shù)為2,歷史時間序列的長度為12,預(yù)測結(jié)果為單步預(yù)測,即用前60min的網(wǎng)約車需求量預(yù)測未來5min網(wǎng)約車的需求量。 沿著時間軸將所用的數(shù)據(jù)集分為三部分:訓(xùn)練集(75%的樣本)、控制集(15%的樣本)和驗證集(10%的樣本)。
為了評估模型的預(yù)測性能,實際網(wǎng)約車需求量和預(yù)測結(jié)果之間的誤差本文選均方根誤差(RMSE)的平均絕對誤差(MAE)來評估。
其中,M代表著數(shù)據(jù)個數(shù),Yi代表真實網(wǎng)約車需求量,為模型預(yù)測結(jié)果。
實驗選取了3種典型模型作為基準(zhǔn)模型,以此與本文所提出的模型的預(yù)測結(jié)果進(jìn)行對比。3種基準(zhǔn)模型分別支持向量回歸模型(SVR)、歷史平均模型(HA)和門控循環(huán)單元(GRU)。實驗結(jié)果如表1所示,從表1中的結(jié)果可以看出,本文的時空門控多圖卷積模型在相同數(shù)據(jù)集上的預(yù)測效能高于其他3種模型。
此外為了探求空間建模所構(gòu)建的三種空間圖結(jié)構(gòu)對模型的預(yù)測效能的影響,對于模型不同圖結(jié)構(gòu)方式的預(yù)測結(jié)果進(jìn)行了橫向?qū)Ρ?,即分別采用單一圖結(jié)構(gòu)模型和雙圖結(jié)構(gòu)與本文中的三圖結(jié)構(gòu)模型進(jìn)行對比,在實驗中除了所采用的空間結(jié)構(gòu)圖不同以外,其他參數(shù)均相同。預(yù)測結(jié)果如表2所示,從表2可以看出文中的具有三圖結(jié)構(gòu)的STGMGCN模型優(yōu)于單一圖結(jié)構(gòu)模型和雙圖結(jié)構(gòu)模型。
4? ? 結(jié)? ? 論
本文提出了時空門控多圖卷積模型(STGMGCN)以對網(wǎng)約車需求進(jìn)行區(qū)域級的短期預(yù)測??紤]到網(wǎng)約車需求預(yù)測的復(fù)雜時空特性,該模型利用門控循環(huán)單元挖掘歷史網(wǎng)約車需求的時間相關(guān)性,構(gòu)建了鄰近關(guān)系圖、功能相似圖和交互關(guān)系圖三種不同的空間結(jié)構(gòu)圖表示不同區(qū)域之間的關(guān)系,充分挖掘其空間相關(guān)性。研究最后將模型運用在實際數(shù)據(jù)集上進(jìn)行實驗并與其他基準(zhǔn)模型對比,實驗結(jié)果表明該模型優(yōu)于其他模型;研究還對該模型在不同結(jié)構(gòu)圖上的表現(xiàn)進(jìn)行橫向?qū)Ρ?,實驗表明具有三種不同圖結(jié)構(gòu)的STGMGCN的性能比具有單一圖結(jié)構(gòu)和雙圖結(jié)構(gòu)的模型性能好。因此該模型在網(wǎng)約車短時需求預(yù)測方面具有較為精準(zhǔn)的預(yù)測效果。但網(wǎng)約車的需求量還受到天氣、溫度等外部因素的影響,因此在下一步的工作中需要將這些相關(guān)的外部因素加入模型中,盡可能地提升模型的預(yù)測精度。
參考文獻(xiàn):
[1] 韓超,宋蘇,王成紅.基于ARIMA模型的短時交通流實時自適應(yīng)預(yù)測[J].系統(tǒng)仿真學(xué)報,2004(7):1530-1532+1535.
[2] 楊兆升,王媛,管青.基于支持向量機方法的短時交通流量預(yù)測方法[J].吉林大學(xué)學(xué)報(工學(xué)版),2006(6):881-884.
[3] 張曉利,賀國光,陸化普.基于K-鄰域非參數(shù)回歸短時交通流預(yù)測方法[J].系統(tǒng)工程學(xué)報,2009,24(2):178-183.
[4] 秦瑤,李勇,王世民.改進(jìn)RNN的城市交通擁堵預(yù)測模型研究[J].電子世界,2018(6):45-46.
[5] 孔繁鈺,周愉峰,陳綱.基于時空特征挖掘的交通流量預(yù)測方法[J].計算機科學(xué),2019,46(7):322-326.
[6] 馮思蕓,施振佺,曹陽.基于全局時空特性的城市路網(wǎng)交通速度預(yù)測模型[J].計算機工程,2022,48(5):112-117.
[7] 林友芳,尹康,黨毅,等.基于時空LSTM的OD客運需求預(yù)測[J].北京交通大學(xué)學(xué)報,2019,43(1):114-121.
[8] 劉明宇,吳建平,王鈺博,等.基于深度學(xué)習(xí)的交通流量預(yù)測[J].系統(tǒng)仿真學(xué)報,2018,30(11):4100-4105+4114.
[9] 段宗濤,張凱,楊云,等.基于深度CNN-LSTM-ResNet組合模型的出租車需求預(yù)測[J].交通運輸系統(tǒng)工程與信息,2018,? ? ? ? 18(4):215-223.
[10]? 陳丹蕾,陳紅,任安虎.考慮時空影響下的圖卷積網(wǎng)絡(luò)短時交通流預(yù)測[J].計算機工程與應(yīng)用,2021,57(13):269-275.
[11]? 閆旭,范曉亮,鄭傳潘,等.基于圖卷積神經(jīng)網(wǎng)絡(luò)的城市交通態(tài)勢預(yù)測算法[J].浙江大學(xué)學(xué)報(工學(xué)版),2020,54(6):1147-? ? ? ? 1155.
[12]? 陳喜群,周凌霄,曹震.基于圖卷積網(wǎng)絡(luò)的路網(wǎng)短時交通流預(yù)測研究[J].交通運輸系統(tǒng)工程與信息,2020,20(4):49-55.