龐稀廉, 龍科軍*
(1.長沙理工大學交通運輸工程學院, 長沙 410114; 2.智能道路與車路協同湖南省重點實驗室, 長沙 410114)
由于中國經濟的快速發展,城市交通供需不平衡造成道路交通擁堵問題日趨嚴重。智能交通系統能夠解決道路交通流擁堵問題[1-2],短時交通流預測可以為其提供未來一段時間內所需的精準交通流數據。因此,提升道路短時交通流預測精度和穩定性對智能交通系統運作效率具有重要意義[3]。
隨著交通環境日益復雜多變,交通流數據不穩定、非線性等特征愈發顯著,基于傳統統計方法和機器學習模型的短時交通流預測研究[4-5],存在較大局限性,模型預測準確性不高。近些年來,許多學者研究開始運用神經網絡對交通流數據進行分析,并進一步通過與優化算法、其他預測模型組合的方法,提升模型預測精度[6-9]。神經網絡因具有無確定性數學模型和強映射能力等特征,在預測不穩定、非線性的道路交通流方面,具有良好的優越性。門控循環單元(gated recurrent units,GRU)網絡作為長短時記憶(long short-term memory,LSTM)的變種,預測精確度與LSTM相當,但計算量大幅降低,具有更快的收斂速度[10-11]。張璽君等[12-13]、桂智明等[14]利用GRU作為底層網絡進行短時交通流預測,并取得了良好的預測效果。牟振華等[3]提出一種基于小波分解和貝葉斯神經網絡的組合方法預測交叉口短時交通流量;Zhang等[15]提出一種基于改進小波包分析和LSTM網絡模型的短時交通流預測方法;方方等[16]提出一種小波分解和集成學習的組合方法,實驗結果表明小波分解算法能有效提升模型的預測精度和穩定性。上述實驗結果表明,結合了小波分解算法的神經網絡,其預測效果得到了提高。盧海鵬[17]等將變分模態分解(variational mode decomposition,VMD)算法和雙向長短時記憶模型相結合進行道路短時交通預測,提升模型預測精度;Liang等[18]提出一種將VMD算法和LSTM網絡模型相結合的方法來預測城市軌道交通短期客流量,取得了良好的預測結果;Shi等[19]利用VMD算法和集成學習機網絡組合的方法來預測網絡流量,提升了模型預測性能。上述實驗表明VMD算法是一種有效的分解算法,能很好地提取城市軌道交通短期客流量時間序列信息,提高模型預測精度。
然而,通過小波分解后的數據會生成一個更繁雜、不穩定性、非線性的噪聲信息數據,該部分會使神經網絡預測效能降低,從而影響模型預測精度。VMD算法可以對噪聲信息數據進一步分解降噪,提取出噪聲信息數據有效信息,從而提高模型的預測準確性;注意力機制能夠計算出不同時刻道路交通流量特征對預測結果的重要性[12,14],進而提升模型的預測精度,但現有研究很少有將三者結合門控循環單元網絡運用到短時交通流預測方面。
綜上,現將小波分解算法、變分模態分解算法以及融合了注意力機制的門控循環單元網絡應用到短時交通流預測領域,提出基于分解算法和神經網絡的短時交通流預測模型。最后通過實例驗證該方法的有效性。
小波分解是通過一系列小波基函數將原始信號分解成高頻分量Di和低頻分量Ai兩個部分。其中,高頻分量反映原始信號數據細節信息的變動,低頻分量反映原始信號數據的總體趨勢走向。現采用Daubechies小波對時間間隔一致的時序道路流量數據進行小波分解與重構。Daubechies 小波具有緊支性、正交性、雙正交性和正則性等特征[20],能夠使道路流量實現精準的小波分解與重構。
對于給定信號Xt,其小波分解結果可以表示為

(1)
式(1)中:ψm,k(t)=2m2ψ(2m2t-k)為尺度函數;φm,k(t)=2m2φ(2m2t-k)為母小波;am,k為尺度展開系數;dm,k為母小波展開系數;m為尺度因子;k為平均因子;t為時間變量。
小波分解與重構過程如圖1所示。以原始道路流量數據Xt作為輸入,Daubechies小波將其分解為低頻系數Ln和高頻系數Hj(j=1,2,…,n)。

圖1 Daubechies小波分解與重構Fig.1 Daubechies wavelet decomposition and reconstruction
經過Daubechies小波分解后的小波系數Ln和Hj信號長度與原始信號長度不一致,且不具有實際信號特征,對該分量進行重構求解,得到高頻分量Di和低頻分量Ai,Di與Ai的關系和最終的道路流量數據X′t相關公式為

(2)
An-1=An+Dn
(3)
X′t=A1+D1
(4)
變分模態分解VMD是一種在信號處理中檢測非平穩、非線性信號的新方法[21],它可以將信號分解為一系列在頻譜域中具有特定帶寬的本征模態函數(intrinsic mode functions,IMF)。由于經小波分解重構后的高頻分量Di比原始交通流平穩性更差,非線性更強,因此采用VMD分解算法,將小波分解重構后的高頻分量Di分解為多個相對平穩但頻率不同的IMF。進行變分模態分解公式為

(5)
式(5)中:uk、wk分別為第k個模態分量及其中心頻率;δ(t)為狄拉克函數;k為分解尺度;f(t)為原始信號;K為模態分量個數。
變分模態分解求解過程分為兩部分:首先構造非約束變分問題;然后利用交替方向乘子法進行不斷迭代優化,求得式(5)最優解;VMD以小波分解(wavelet decomposition,WD)分解重構得到的高頻分量Di作為輸入,將其分解為具有一定中心頻率的IMF。
GRU網絡模型中包含更新門Z(update gate)和重置門r(reset gate),來確定信息的存儲、丟棄和修改。它較LSTM網絡的結構更加簡單,并能解決循環神經網絡(recurrent neural network,RNN)模型梯度彌散的問題,可有效刻畫具有時空關聯的序列數據。
如有輸入序列X為(x1,x2,…,xt),隱含層狀態H為(h1,h2,…,ht),用sigmoid激勵函數進行信息重置計算,公式為
rt=σ(Wr[ht-1,xt])
(6)
式(6)中:rt為t時刻重置門的輸出;σ為sigmoid激勵函數;Wr為重置門的權重向量;ht-1為t-1時刻隱含層的狀態;xt為t時刻的輸入;[]表示兩個向量相連接。
計算更新門對當前隱含層狀態進行更新,公式為
Zt=σ(WZ[ht-1,xt])
(7)
式(7)中:Zt為t時刻更新門的輸出;WZ為更新門的權重向量。
計算當前時刻t新記憶內容,公式為

(8)
計算時刻t最終門控循環單元的輸出,公式為

(9)
式(9)中:ht為t時刻最終門控循環單元的輸出。
輸出層將ht經過一個全連接層計算得到t時刻交通流時間序列預測值,公式為
yt=σ(Wo·ht)
(10)
式(10)中:Wo為學習參數權重向量;yt為t時刻預測的交通流時間序列值。
與LSTM神經網絡相比,GRU神經網絡僅通過一個更新門Z就能實現同時擦除和存儲維度中的信息,所需訓練迭代次數更少,效率更高,便于計算。GRU神經網絡中用來激活控制門和候選狀態的激勵函數分別是sigmoid和tanh激活函數,表達式為
sigx=(1+e-x)-1
(11)
tanhx=(ex-e-x)(ex-e-x)-1
(12)
GRU模型結構如圖2所示。

圖2 GRU模型結構Fig.2 Structure of GRU model
GRU模型的隱含層輸出通過一個全連接層得到最終的交通流量預測結果。將GRU模型與注意力機制融合,把注意力機制嵌入到GRU模型的隱含層和輸出層之間,計算GRU模型隱含層輸出的向量權值,避免全連接層中權重固定的問題,從而提高模型的可解釋性和預測性能[14],其結構如圖3所示。注意力機制使用relu函數作為激勵函數。

圖3 局部GRU-AT模型Fig.3 Local GRU-AT model
注意力機制層的向量gt計算公式為
gt=φ(Wght)
(13)
式(13)中:φ(·)為relu激勵函數;Wg為權重向量。

(14)
則GRU-AT模型最終的預測結果為

(15)
提取交通流數據波動規律存在一定的困難,往往直接對交通流進行預測并不能達到較好的預測效果,交通流數據波動越大,預測效果越差。為了有效提取出交通流內在的規律信息,提高模型預測精度,現提出一種基于小波分解WD、變分模態分解VMD和門控循環單元GRU網絡模型的短時交通流預測方法:首先利用Daubechies小波基函數對原始交通流數據進行3層小波分解和重構;然后將分解得到的高頻分量累加后作為VMD的輸入,對數據進行降噪處理,將其分解為具有一定中心頻率的IMF;最后把算法分解后的分量作為GRU-AT網絡模型的輸入數據進行預測,圖3描述了所提出方法的體系結構。

圖4 WD+VMD+GRU-AT模型結構Fig.4 Structure of WD+VMD+GRU-AT model
實驗數據分別取自美國加利福尼亞州交通流PeMS系統中道路流量數據和岳陽市城區的道路流量數據,并分別使用這兩條不同道路流量數據進行實驗分析,驗證本文所提模型的有效性。路段1(美國PeMS系統)選取了2021年9月1日—10月1日全天時段交通流量為原始樣本數據,路段2(岳陽市城區)選取了2021年10月1日—31日全天時段交通流量為原始樣本數據,本實驗所有預測模型都使用以5 min為間隔進行預測,共計288×31+288×31個數據。為了便于展示,故只分別描述出兩條道路連續2 d的原始流量數據,如圖5所示。

圖5 實驗數據集Fig.5 Experimental data set
3.2.1 數據預處理
數據標準化。為了加快模型收斂速度,提高模型預測能力,在進行WD分解和VMD分解操作步驟后,采用Min-Max函數對實驗數據進行歸一化處理,將流量映射到[0,1]區間內。
訓練集和測試集劃分。采用滑動窗口方法[22]將時間序列數據構造出模型所需的訓練樣本和測試樣本,當時間步長為d,長度為n的時間序列Tn(Tn=[t1,t2,…,tn])可生成n-d個樣本。第o個樣本表示為[to,to+1,…,to+d-1],其中to+d-1作為模型的輸出,其余的值為模型的輸入。如圖6所示,為使用滑動窗口方法生成實驗所需樣本的例子。該例假設長度為9的時間序列T9,包括t1,t2,…,t9。當d=4時,對于樣本1為[t1,t2,t3,t4],其中t1、t2、t3作為模型輸入,t4作為模型輸出;對于樣本2為[t2,t3,t4,t5],其中t2、t3、t4作為模型輸入,t5作為模型輸出;依次類推,共生成6個樣本;當d=5時,對于樣本1為[t1,t2,t3,t4,t5],其中t1、t2、t3、t4作為模型輸入,t5作為模型輸出;對于樣本2為[t2,t3,t4,t5,t6],其中t2、t3、t4、t5作為模型輸入,t6作為模型輸出;依次類推,共生成5個樣本。
分別選取路段1的31 d交通流數據和路段2的31 d數據,通過滑動窗口方法(圖6),取一定的時間步長生成的數據樣本以30∶1的比例劃分為訓練集和測試集。

圖6 滑動窗口Fig.6 Slide window
3.2.2 評價指標選取
采用三個評價標準來評價該方法的性能:均方誤差的平方根(root mean squared error,RMSE)、平均絕對誤差(mean absolute error,MAE)和 平均絕對百分比誤差(mean absolute percentage error,MAPE)。這些標準的值越小,預測結果越接近原始交通流值。評估標準定義為

(16)

(17)

(18)

為驗證本文提出的WD+VMD+GRU-AT模型預測效果,采用LSTM、GRU、WD+GRU、WD+VMD+GRU四個模型作為對比實驗,其模型的主要參數如表 1 所示。本文提出的模型主要參數:隱含層數為2,輸出層數為1,隱含層節點個數都為70,注意力機制層數為1,全連接層數為1,訓練參數batch_size為64,訓練迭代次數為80,時間序列步長為6。
3.4.1 小波分解與重構
使用db2小波基函數對兩條道路交通流數據Xt

表1 模型參數
進行3層分解,并將其重構成低頻分量A3和高頻分量D1、D2、D3,如圖7所示。其中A3相比與原始數據Xt更加平滑;D1、D2、D3變化無規律,是Xt的噪聲部分。通過小波分解與重構后的信號不會改變原始道路交通流數據Xt的大小,并能確保后續實驗模型預測精度。兩條路段小波分解重構結果如圖8所示(為便于展示,只給出了其2 d數據)。
3.4.2 VMD分解
小波分解重構的高頻分量D1、D2、D3累加后得到高頻分量D,采用VMD分解算法將其分解為22個IMF。兩條道路VMD分解后分別得到的IMF,如圖8所示(只給出了IMF1、IMF5、IMF9等部分分量的分解結果),每個IMF都均勻分布在不同頻域上(為便于展示,只給出了其2 d數據)。VMD分解算法可將具有無線性、不平穩性強的高頻分量D分解成多個穩定性和平滑性更好的IMF分量,有利于發現和學習交通流數據中包含的更多信息,使模型更容易擬合,預測結果更加精準。

圖7 小波分解實驗結果Fig.7 Results of wavelet decomposition experiment

圖8 D的VMD分解結果Fig.8 VMD decomposition results of D
3.4.3 WD+VMD+GRU-AT模型參數尋優
本節主要研究WD+VMD+GRU-AT模型的VMD分解個數K對本模型預測精度的影響,對樣本數據進行實驗驗證和對比分析。
VMD分解個數K取不同值,將影響本征模態函數對應頻率在頻域上的分布情況[23],進而影響高頻分量Di預測的精度。通過WD+VMD+GRU-AT模型來尋找VMD最優分解個數K。進行3層WD分解后,通過對比實驗確定最優K值,VMD不同K值的實驗結果如圖9所示,兩條道路交通量最終模型預測指標與高頻分量Di的預測指標變化趨勢基本一致,當K=22時模型誤差達到最小。各分量的最優預測結果如圖10所示。

圖9 不同K值的模型預測結果對比Fig.9 Comparison of model prediction results with different K values

圖10 各分量最優預測結果Fig.10 Optimal prediction results of each component
3.4.4 預測模型實驗結果分析
為了驗證本算法的優越性,采用3.3節所提的四種方法進行對比實驗。經過多次試驗,最終確定WD+VMD+GRU-AT模型訓練次數為80次,采用db2小波基進行3層小波分解與重構,高頻分量D的VMD分解個數K=22,按照第2節提出的方法對實驗樣本數據進行預測,不同模型對兩條道路短時交通量預測結果如圖11所示。并對實驗結果的誤差評價指標RMSE、MAE、MAPE進行對比分析,不同模型預測性能評價結果如表2和表3所示。
(1)與單一模型比較。對比分析圖12中兩條道路的單一模型預測對比圖,可以得到,LSTM和GRU這兩種模型雖然能預測交通流序列的大致走向,但在交通流突變處,模型預測滯后問題突出,該模型在一些時段預測的結果與實際交通量存在較大誤差,預測穩定性差。由表2知,LSTM、GRU模型預測道路1交通量結果的RMSE、MAE和MAPE都分別接近60%、40%、7%,而本文模型的RMSE、MAE和MAPE只分別為10.03%、6.38%、1.18%。相較于單一模型,本文模型的這三個評價指標分別平均降低了82.85%、84.67%、82.44%。由表3知,本文模型預測路段2道路交通量的評價指標,相較于單一模型,RMSE、MAE和MAPE分別平均降低了77.83%、81.77%、77.67%。證明了本文預測短時交通量的穩定性和準確度都明顯高于單一模型,這是由于單一模型不能很好地挖掘出復雜、非線性強、不穩定交通流時間序列特征。

圖11 不同模型流量預測結果Fig.11 Traffic prediction results of different models

表2 道路1不同模型預測性能評價結果

表3 道路2不同模型預測性能評價結果
(2)與加入分解算法比較。對比分析圖12中兩條道路的加入分解算法模型預測對比圖,WD+GRU和WD+VMD+GRU模型預測結果較LSTM、GRU模型更加接近實際交通量,且WD+VMD+GRU模型預測穩定性和準確度優于WD+GRU模型。本文模型與WD+VMD+GRU模型相比,預測效果與之非常接近,都解決了預測結果滯后的問題,明顯改善了交通流突變處預測不準確性的問題,本文模型結果預測精度和穩定性較之有一定的提升。由表2知,相較于WD+GRU,本文模型的RMSE、MAE和MAPE分別下降了11.61%、9.1%、1.34%;由表3知,相較于WD+GRU,本文模型的RMSE、MAE、MAPE分別下降了10.10%、8.40%、5.26%。本文模型預測效果顯著提升,這是由于本文利用了VMD分解算法的數據降噪作用,將對小波分解算法生成的噪聲部分有效信息進一步提取,提高了模型的預測性能。通過表2和表3可以看出,本文模型的RMSE、MAE、MAPE分別比WD+VMD+GRU模型平均降低了8.60%、9.23%、6.76%。這是由于門控循環單元融入了注意力機制,其能夠根據交通量序列不同時刻的重要特征,重新對模型隱含層輸出結果的權重進行分配,所以進一步提高了模型的預測精度和穩定性。
將WD算法、VMD算法與融入注意力機制的GRU網絡模型相結合,提出一種新型短時交通流預測模型。結果表明,本文所提的模型具有更優的預測效果,減少了模型預測誤差,提升了模型的預測結果的穩定性,可為利用深度學習進行時間序列預測的研究提供參考。在后續研究中,將探究相關路段流量、速度、占有率等時空因素對模型預測效果的影響,以便進一步提高短時交通流量的預測精度。