溫美玲,路鵬遠,蔡 林,程洋溢
(1.武漢大學 測繪學院,湖北 武漢 430070;2.武漢大學 計算機學院,湖北 武漢 430070)
隨著城市的快速發展,城市道路上的車輛逐日增多,留下海量的軌跡數據。這些軌跡數據較傳統交通數據具有覆蓋面廣、實時性高等突出特點,具有巨大的利用潛力。如何使用大規模軌跡數據處理交通和道路問題,是世界各國智能交通領域研究的熱點,各種研究成果如雨后春筍般涌現,目前主要應用領域有路網更新[1]、交通決策[2]、道路堵塞疏通[3]、交通擁堵評價[4]、動態交通誘導[5]和城市交通綜合評估[6]等。
交通擁堵已成為我國的一個老大難問題,嚴重影響了人民群眾生活,制約了社會經濟的發展[7],因此筆者著重探討軌跡大數據在交通擁堵評估和預測方面的應用,建立了一種基于深度學習的城市短時交通擁堵評估和預測模型。
筆者采用交通流參數對交通擁堵狀況進行評估[8],3個主要的交通流參數分別是交通量f、交通流速度v、交通流密度k。其計算公式為:
f=N/t
(1)
式中:N為通過該路段的車輛數;t為時間。
v=L/t
(2)
式中:L為道路總長度;t為道路上所有車輛穿過道路所用的平均時間。本文對交通流速度的計算采用某段道路上所有車輛速度的平均值。
k=N/L
(3)
式中:N為路段內車輛數,L為路段總長度。
由式(1)~式(3)可得到交通流密度與交通量和交通流速度的關系:
k=f/v
(4)
研究樣本為北京市2012年11月1日到8日的城市出租車交通數據,以市北二環的一條道路為研究目標。數據預處理流程如圖1所示。

圖1 數據預處理流程圖
使用MATLAB R2016a批量讀取數據,未經處理的每一天的數據在三千萬條左右,將范圍鎖定在目標道路后,每一天的數據在三百萬條左右,每一條數據包括9個數據項,它們分別是車輛標識、觸發事件、運營狀態、GPS時間、GPS經度、GPS緯度、GPS速度、GPS方向和GPS狀態。
由于研究目標為短時交通流,提取每兩分鐘的數據,因此一天共分為720個時間點。然后求出目標道路每一時間點的交通量f、速度v和密度k,處理結果如表1所示。因原表格過大,此處只截取前5段數據。

表1 交通流部分參數
對平均車速v、交通量f和交通流密度k進行權值配置,得到評價交通狀況的綜合參數,根據評價區間判斷道路的交通狀況。但3個參數的量綱互不相同,需要對參數進行歸一化處理,參照文獻[9]的方法對處理后的參數進行權值配置,得到綜合參數。
計算出路段在若干時間點的平均車速v、交通量f和交通流密度k,即得到交通狀況指標向量F,如式(5)所示。
F={(v1,f1,k1),(v2,f2,k2),…,(vn,fn,kn) }
(5)
對于路段在第i個時間點的平均車速vi、交通量fi和交通流密度ki進行權值配置,權值矩陣B定義如式(6)所示。
B=[b1,b2,b3]=[0.45,0.10,0.45]
(6)
式中:b1為平均車速的權值;b2為交通量的權值;b3為交通流密度的權值。
根據交通狀況指標向量F和權值矩陣B可得交通狀況綜合參數C為:
C=F×BT
(7)
(8)
式中:ci為第i個時間點該路段的交通狀況綜合參數。
為方便后續數據處理,利用標準函數法對交通狀況綜合參數C進行歸一化處理:
(9)
式中:cmin,cmax分別為綜合參數向量C中的最小值和最大值。
城市道路交通擁堵評價指標體系將道路分為城市道路和高速公路,將路段的平均行程速度劃分為5個等級,1級表示運行最擁堵,5級表示運行最暢通,如表2所示。

表2 路段平均行程速度等級劃分
對北京二環北端路段8天交通數據,以兩分鐘為時間間隔進行數據采樣,利用表2判斷道路交通擁堵情況。
根據式(5)~式(9)得到當日北二環交通狀況綜合參數如圖2所示。

圖2 11月8日北京市北二環交通狀況綜合參數
根據表2可知,在圖2中11月8日北京市北二環在0:00~6:40交通較為通暢,在6:40~8:00交通狀況逐漸變得擁堵,在8:00~11:00交通較為擁堵,在11:00~13:00擁堵有所緩解,在13:00~19:00交通較為擁堵,在19:00~24:00交通逐漸好轉,與日常認知基本一致。同時可以看出北二環在中午最為擁堵,同時存在早晚高峰的情況。
將北京市北二環11月1日~8日共計8天的交通數據作為數據集,并利用長短期記憶模型(long short-term memory,LSTM)建立交通擁堵預測模型,實現參數向量的數字化表達,通過參數向量一段時間的數據變化預測參數向量的走勢。選擇均方誤差(mean square error,MSE),均方根誤差(root mean square error,RMSE),平均絕對誤差(mean absolute error,MAE)和平均絕對百分比誤差(mean absolute percent error,MAPE)作為評價指標,將長短期記憶模型(LSTM)與向量回歸模型(support vector regression,SVR)和循環神經網絡模型(recurrent neural netwok,RNN)進行對比,最后得出LSTM模型的預測結果并進行評價。
LSTM[10]是一種特殊的RNN網絡,LSTM結構的特點是利用遺忘門、輸入門和輸出門優化RNN網絡,有效解決了梯度消失或梯度爆炸的問題。LSTM的相關方程如式(10)~式(15)所示[11]。
ft=σ(Wfht-1+Ufxt+bf)
(10)
it=σ(Wiht-1+Uixt+bi)
(11)
(12)
(13)
ot=σ(Woht-1+Uoxt+bo)
(14)
(15)

將已有的參數向量數據分為訓練集和測試集兩部分,訓練集用于訓練已有的LSTM網絡,測試集用于驗證LSTM網絡的預測效果。具體步驟為:對采集的道路交通數據進行數據預處理并構建數據樣本集,將樣本集數據送入LSTM循環神經網絡進行模型訓練,并導出網絡參數,建立短期交通擁堵的預測模型。其流程如圖3所示。

圖3 交通擁堵預測流程圖
為避免過擬合,在LSTM層后加入Dropout層,增加每層各個特征之間的正交性,在最后加入輸出層。每次將30個數據送入LSTM循環神經網絡進行訓練,為了提高訓練精度,每次將最新的數據帶入網絡進行更新,使預測結果更加準確。
仿真環境為window10系統(64 bit),Python選用Anaconda下3.7.5版本,編譯器為pycharm(2020.2),keras,sklearn的集成開發庫。支持向量回歸模型選用linearSVR模型,C=1.25。RNN模型中第一層RNN網絡神經元數為80,第二層RNN網絡神經元數為100,第一層和第二層Dropout網絡屏蔽率均為0.2。LSTM模型中第一層LSTM網絡神經元數為80,第二層LSTM網絡神經元數為100,第一層和第二層Dropout網絡屏蔽率均為0.2。
將11月1日~7日的數據作為訓練集,8日數據作為預測集,linearSVR模型、RNN模型和LSTM模型的預測效果如表3所示。

表3 各模型交通狀況綜合參數預測效果
從表3可知,LSTM模型的預測結果在各個指標上均好于linearSVR模型和RNN模型,具有較好的預測效果。
linearSVR模型、RNN模型和LSTM模型的預測結果和實際結果對比如圖4~圖6所示。通過比較發現,長短期記憶模型(LSTM)具有較好的預測效果,可以為有關部門的決策提供依據,改善交通狀況。

圖4 linearSVR模型預測結果和實際結果對比圖

圖5 RNN模型預測結果和實際結果對比圖

圖6 LSTM模型預測結果和實際結果對比圖
通過讀取海量軌跡數據,獲得了平均車速、交通量和交通流密度,并對上述數據進行加權計算得到了交通狀況綜合參數,建立了合理的交通狀況評估模型。將深度學習的方法應用到交通狀況預測模型中,分析比較了不同神經網絡的精度,并通過比較發現,長短期記憶模型(LSTM)具有較好的預測效果,可為決策分析提供有價值的參考。