李 杰,張子辰,孟凡熙,朱 瑋
(長安大學 電子與控制工程學院,西安 710064)
短期交通流預測是智能交通系統的重要技術基礎,建立高精度的短期交通流預測模型,對于交通管理與規劃、緩解交通擁堵和提高交通效率具有重要意義.文獻[1]針對短時交通流數據的非線性和隨機性特點,為提高其預測精度,提出了一種基于自適應最稀疏窄帶分解(adaptive sparsest narrow-band decomposition,ASNBD)和復合多尺度模糊熵(composite multiscale fuzzy entropy,CMFE)的短時交通流數據特征信息提取方法,試驗結果表明,該方法可以有效提取短期交通流中的特征信息,進而提高預測精度;文獻[2]將擴展Kalman濾波算法應用于高速公路交通流模型中,并討論了該模型在一條具有3個等長路段的公路的應用,對該路段車流密度、車流速度進行跟蹤,仿真結果證明了該算法具有很高的實用性;文獻[3]建立了一種基于張量分解的算法,實現了短期交通流數據的建模預測;文獻[4]提出了一種基于支持的短期交通流預測模型,并運用該模型對指定地點及其鄰域內的交通流數據進行建模分析;文獻[5]提出了一種基于褪色卡爾曼濾波的算法,對藍牙采集到的交通流數據進行預測實驗.以上模型結構簡單且計算方便,但是針對高度非線性、不穩定的交通序列難以達到較好的效果,且模型抗干擾能力有待提高.
近年來,隨著數學理論的發展和深度學習的崛起,越來越多的學者將深度學習應用于交通流預測領域中.文獻[6]提出了一種深度全連接神經網絡模型,對短期交通流時間序列進行預測,并通過參數調整,提高了預測精度;文獻[7]提出了一種基于圖卷積網絡的深度學習模型,對車速和車流量數據進行了建模預測;文獻[8]提出了一種時空深度張量神經網絡模型(spatial-temporal deep tensor neural networks,ST-DTNN)來捕獲網絡交通流數據中的時間維、空間維和深度維特征信息,形成融合路段傳輸模型和深度學習的城市路網短時交通流預測模型,實驗證明,該模型相對于基準模型預測精度更高,且具備模擬演化機理方面的優勢;文獻[9]提出了一種基于時空圖卷積循環神經網絡(spatiotemporal graph-convolutional recurrent neural network,STG-CRNN)的短期交通流預測模型,將時空圖作為預測模型的輸入,采用圖卷積獲取交通流數據空間依賴關系,采用門控循環神經網絡獲取交通流數據的時空依賴關系,在美國公共數據集中進行驗證,實驗結果表明,該模型在平均絕對誤差、均方根誤差、平均絕對百分比誤差上均優于其他競爭模型;文獻[10]提出了基于注意力機制和1DCNN-LSTM(convolutional neural networks-long short-term memory)網絡的短時交通流預測模型,該模型結合了CNN(convolutional neural networks)的時間擴展和LSTM(long short-term memory,LSTM)的長時記憶的優點,提高了交通流的預測精度;文獻[11]提出了一種多組分時空跨域神經網絡模型,該模型采用Conv-LSTM(convolutional neural networks-long short-term memory)或Conv-GRU(convolutional neural networks-gated recurrent unit)對多種數據進行建模,將模型與時間戳特征嵌入、多個跨域數據融合相結合,并與其他模型共同輔助模型進行流量預測.以上研究雖然顯示出了更快的收斂速度和更強的魯棒性,但是面對非平穩性和非線性極強的交通流序列,預測精度仍有待提高.
經驗模態分解(empirical mode decomposition,EMD)能夠將交通流信號分解成多個固有模態分量,使得由多個特征影響的復雜序列被分解為由單一特征影響的信號,從而提高交通流序列的平穩性[12],易于分析和建模,但其缺點在于多個特征尺度的信號在同一個模態分量中出現,使得冗雜信號被引入各個模態分量,出現模態混疊現象[13].相對于LSTM,雙向長短期記憶網絡(bidirectional long short-term memory,BiLSTM)的優點在于從正向和反向同時讀取輸入序列[14],使得模型可以更充分的學習交通流序列中的時間關系,提高模型的預測精度.此外,注意力機制(attention mechanism,AM)能夠進一步捕捉對于整個時間序列更加有影響力的時間點,并對其分配更高的訓練權重,提高遞歸模型的特征提取能力[15].因此,本文針對車道占用率序列,提出了一種基于集成經驗模態分解(ensenmble empirical mode decomposition,EEMD)和BiLSTM的深度神經網絡學習模型,并將AM融入神經網絡中,為遞歸網絡序列中的神經元分配權重,對短期交通流序列預測進行研究.
本文采用車道占用率描述交通流信息.車道占用率是交通流預測中的一個重要參數,其描述了某一時間段內車輛通過一截面的時間占該段時間的百分比,其表示如下:

其中;Rt表示t時間段內車道占用率;tT為總觀測時間;ti為第i輛車的占用時間;n為該路段的車輛數.
PeMS(california transportation agency performance measurement system,PeMS)數據集是加州交通運輸局測量系統采用39 000個獨立探測器實時采集的交通流數據,這些傳感器跨域了加州所有主要城市的高速公路系統.PeMSD-SF(performance measurement system dataset-san francisco)數據集是PeMS數據集的一個子數據集,它是舊金山海灣地區高速公路的車道占用率的測量數據.本文重點研究其中一個探測器所采集的從2008年3月6日至2008年4月3日的車道占用率,其探測器位置如圖1所示.數據每10 min采樣一次,每天的數據序列中樣本數為144個,總的樣本數為4 032個.本文取其中前三周作為訓練集,后一周作為測試集.由于偶然因素,所測得的交通流數據會存在少量異常值.本文使用統計學方法中的3σ原則篩選濾除異常值,然后取異常點附近的10個采樣值的均值來填補該異常點.

圖1 探測器位置Fig.1 Detector position
經驗模態分解是一種自適應信號時頻處理方法,被廣泛應用于非線性非平穩的復雜信號.該方法可以自適應地將原始信號分解成一系列固有模態函數(intrinsic mode function,IMF),所分解出來的各IMF分量包含了原信號的不同時間尺度的局部特征,滿足下式:

其中:X(t)表示原始信號;m(t)表示原始信號上包絡線與下包絡線的均值信號;Res表示停止分解時的殘余分量.將測試集中7天的車道占用率序列使用EMD方法進行分解,得到IMF1~IMF10和Res信號,如圖2所示.EMD方法可將復雜的車道占用率信號分解成多個平穩的分量信號,但是由于不同特征尺度的信號在一個IMF分量中出現,或者同一個特征尺度的信號被分散到不同的IMF分量中,會出現模態混疊現象.

圖2 EMD分解結果Fig.2 Results of EMD decomposition
集成經驗模態分解作為EMD方法的一種改進形式,解決了EMD方法中出現的模態混疊現象,即通過在分解的過程中多次引入均勻分布的白噪聲抑制信號本身的噪聲,從而得到更加精準的上下包絡線,同時對分解結果進行平均處理,平均處理次數越多,噪聲給分解帶來的影響就越小[16].EEMD的分解流程和分解結果分別如圖3和圖4所示.

圖3 EEMD流程圖Fig.3 Flowchart of EEMD

圖4 EEMD分解結果Fig.4 Decomposition results of EEMD
原始信號經分解降噪和集合平均后得到的信號ai如下:

由于道路路況不斷復雜化,交通流數據量不斷增加,傳統的遞歸模型的精度難以滿足數據預測分析的要求.近年來,越來越多的學者開始使用長短期記憶網絡進行交通流預測,LSTM網絡相比傳統的循環神經網絡加入了運算門的設計,克服了短時記憶的影響,并且緩解了權重消失和梯度爆炸的問題[17].單個LSTM神經元的結構如圖5所示,其輸入門、遺忘門、輸出門、長期記憶、短期記憶和候選狀態的運算過程見式(5)~(10).

圖5 單個LSTM單元的內部結構Fig.5 Internal structure of single LSTM unit

BiLSTM在LSTM的基礎上對網絡結構進行改 進,使用兩個LSTM網絡分別從正向和反向讀取輸入信號,然后將各自的輸入、輸出結果拼接起來作為BiLSTM的輸出,其結構如圖6所示.

圖6 BiLSTM網絡結構Fig.6 Structure of BiLSTM
文獻[18]提出了一種注意力機制,以提高遞歸神經網絡模型的特征提取能力.AM為不同的特征分配不同的注意權重,以便數據驅動模型能夠更加關注訓練過程中的重要部分.
AM的結構圖如圖7所示,將輸入值(X1,X2,…,Xn)輸入Encoder網絡進行運算后輸出結果(a1,a2,…,an),而此時,每一個Encoder網絡的輸出值會在AM網絡中乘一個權重因子α并進行疊加,疊加后的值作為Decoder網絡的輸入值進行訓練,最終得到網絡的輸出值(Y1,Y2,…,Yn).其中:ak表示Encoder網絡中第k個單元經激活函數Tanh激活后的函數值;Sk表示Decoder網絡中第k個單元經激活函數Tanh激活后的函數值;α(i,j)為第一層LSTM網絡的第i個單元輸出至Decoder網絡第j個單元所對應的權重因子,滿足表達式(11)~(12),且由式(13)確定.

圖7 AM結構圖Fig.7 Structure of AM

其中:e(i,j)值可以由訓練一個簡單的神經網絡來確定,網絡輸入為Encoder網絡的激活值aj和Decoder網絡上一時刻的激活值Si-1,輸出則為e(i,j).
本文所提出的EEMD-BiLSTM-AM模型結構如圖8所示,將車道占用率信號經過數據預處理后作為輸入信號,首先經EEMD將輸入序列由多特征影響的高度非平穩序列分解為IMF1~IMF12和Res這些由單一特征影響的平穩子序列;每一個子序列的采樣值按照Encoder-Decoder框架輸入BiLSTM網絡,來預測下一時刻的車道占用率;隨后又將預測出的輸出采樣值和其上一時刻的采樣值作為新的輸入特征,繼續來預測下一時刻的車道占用率;最終,預測出一個時間段內的車道占用率.本文中的BiLSTM網絡中的正向和反向LSTM網絡分別由400個LSTM單元構成,每200個單元后增設一個舍棄率為30%的隨機舍棄層來提高運算效率;隨后在輸出端增加注意力機制,提升模型訓練過程中關鍵神經元的影響權重;最后將各模態所建立的子模型進行疊加重構.

圖8 EEMD-BiLSTM-AM結構Fig.8 Structure of EEMD-BiLSTM-AM
本次研究在訓練過程中使用Adam算法用于網絡訓練的反向傳播過程中的參數優化.Adam算法是一種常用的優化算法,相比傳統的梯度下降算法,Adam算法結合了Momentum算法和RMSprop算法的優勢,即計算梯度的指數加權平均數,用該梯度來更新權值w和偏置b,減小了優化過程中的縱向波動,增加了優化速度,提高了訓練效率[19].
本研究將已知的數據集劃分為訓練數據集和測試數據集,將訓練數據集進行EEMD分解,對分解得到的每一個子模態進行訓練建模,通過迭代預測的方式得到下一時間段的交通流分量信號,將各模型輸出的分量信號疊加,所得到的預測值與測試數據集進行對比,對模型性能進行評估.
在實際預測中,對當前時間前的交通流信號進行分解,獲得信號序列,然后采用相應模態下的模型,根據當前時間前的交流通信息,迭代預測出相應模態下的交通流信息,然后再進行疊加即可獲得未來時刻的交通流預測值.
為了充分驗證EEMD-BiLSTM-AM的性能,本文設計了LSTM,BiLSTM,BiLSTM-AM,EMD-BiLSTM,EMD-BiLSTM-AM,EEMD-BiLSTM等神經網絡模型,并將這些模型作為競爭模型,與EEMD-BiLSTM-AM進行對比研究.選取均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)和決定系數R2對模型進行評價,其表達式如(14)~(17)所示.


其中:N為數據量大小為預測值;yi為真實值.
為了更好地比較各個模型的性能,各競爭模型所用訓練數據集與測試數據集和EEMD-BiLSTMAM模型一致,各競爭模型中,BiLSTM網絡使用400個神經元,每200個單元后增設一個舍棄率為30%的隨機舍棄層抑制過擬合,預測時間步長為5,訓練時每批送入模型的樣本數設置為64個,激活函數使用ReLU函數,損失函數選取MSE,優化算法為Adam,迭代次數為200次.
各模型經計算得到的評價結果見表1.由表1可知:BiLSTM模型的各項誤差均低于LSTM模型,且其R2值為0.879 9,高于LSTM模型的0.878 1,說明BiLSTM模型性能優于LSTM模型.BiLSTM不僅可以將神經元中遺忘門保留的上一時刻更有用的信息傳送到下一時刻的神經元中[20],濾除冗雜信號,而且可以從正向和反向兩個方向讀取序列信息,更好地捕捉不同采樣點間的依賴關系.

表1 各模型的評價結果Tab.1 Evaluation result of each model
使用模態分解后,模型的預測精度大幅提升,EEMD和EMD可以有效地將交通流中具有代表性的特征模態分離開,根據不同特征的信息建立相應的模型,更加有效地預測各特征信號;同時,使用EEMD的模型在進行訓練時,抑制了訓練數據中各模態的混疊現象,降低了訓練誤差,進而提升了模型的預測能力.各模型在加入AM層后,預測誤差降低,預測精度提高,表明AM使模型捕捉到了序列中影響交通流趨勢走向的關鍵時間點,使模型更加有針對性地進行預測,進而提高了模型的計算精度.
相比于競爭模型,本文所提出的EEMD-BiLSTMAM模型的RMSE,MAE和MAPE達到最低值0.006 9,0.003 5和1.231 8%,而R2為最高的0.941 0,其預測能力明顯優于其他競爭模型.
以2008年3月19日和2008年3月20日為例,以熱力圖的形式表示在兩日內AM層的權重分配,如圖9(a)和圖9(b)所示.由圖9可知:對于3月19日,AM層把更高的權重分配在5∶00-8∶00和16∶00-18∶00的時間段,這兩個時間段分別對應了該日交通流信號在早晚期間的上升和下降過程;對于3月20日,AM層把更高的權重分配在6∶30,8∶30,20∶00和22∶00時刻,這4個時刻分別對應了該日交通流信號在早晚期間上升、下降過程的起止時刻.這種注意力權重分配規律,有助于模型捕獲對于信號變化影響力更強的關鍵時間段.

圖9 3月19日和3月20日AM層權重分配Fig.9 AM layer weight distribution of March 19 and March 20
將各算法所預測的車道占用率預測值與真實值進行比較,對比結果如圖10所示.各模型的訓練時間如圖11所示.由圖10可知:LSTM,BiLSTM和BiLSTM-AM模型對于模型的跟蹤能力較弱,而EEMD-BiLSTM和EMD-BiLSTM-AM模型雖然整體預測精度較高,但在局部區域的預測偏差比較明顯;本文所提出的EEMD-BiLSTM-AM模型不僅可以精確穩定地跟蹤真實值的變化趨勢,并且在預測局部時間段信號的能力也明顯優于其他競爭模型.

圖10 3月19日和3月20日各算法預測結果對比Fig.10 Prediction results comparison of the algorithms on March 19th and March 20th

圖11 各模型訓練時間對比Fig.11 Comparison of training time of the models
本實驗硬件配置為Corei7-6820CPU@2.70 GHz,16 GByte內存.使用Python3.8進行編程,并使用Tensorflow2.1框架構建算法模型.在學習速度方面,LSTM,BiLSTM,BiLSTM-AM,EMD-BiLSTM-AM,EMD-BiLSTM,EEMD-BiLSTM,EEMD-BiLSTM-AM分別需要訓練525,552,545,597,584,557,541 s,EEMDBiLSTM-AM雖然增加了模型復雜度,但訓練時間并未大幅增加,且其預測精確度和穩定性都顯著優于其他競爭模型.在預測時間方面,每一個子模態模型平均需要0.104 s的預測時間,總時間為1.248 s,基本可以滿足實時性的需求.
針對高速公路短期交通占有率預測問題,本文
提出了一種EEMD-BiLSTM-AM融合神經網絡模型,EEMD解決了EMD方法中出現的模態混疊問題,將交通流輸入序列由多特征影響的高度非平穩序列分解為由單一特征影響的平穩子序列;每一個子序列的采樣值按照Encoder-Decoder框架輸入BiLSTM網絡,來預測下一時刻的車道占用率;同時,AM為不同的交通流特征分配不同的注意力權重,使得融合神經網絡更加關注訓練過程中的信息流的關鍵部分,充分挖掘交通流的時空特征.本文結合舊金山灣區高速公路某路段的車道占用率實測數據對模型進行驗證.預測結果表明:所提出的融合神經網絡模型預測精確性及穩定性顯著優于LSTM,BiLSTM,BiLSTM-AM,EMD-BiLSTM,EMD-BiLSTM-AM,EEMDBiLSTM等6種競爭模型;相比于EMD,EEMD在抑制噪聲對信號模態分解的負面影響中表現更優,且AM能夠幫助神經網絡模型重點關注交通流信號的關鍵時空信息,在不顯著增加訓練時間的前提下,提升了融合神經網絡的預測性能.下一步的研究重點是考慮其他因素,如車輛行駛速度、車流量、天氣、路段空間位置等對交通流預測的影響,進一步挖掘這些因素與交通流的時空相關性.