朱永強,王小凡
(青島理工大學機械與汽車工程學院,青島 266520)
隨著中國汽車制造技術成熟以及道路網建設規劃逐步完善,汽車保有率迅速上升,也增加了對城市交通進行控制與規劃的需求,而精準的交通流預測是相關研究的重要基礎,如何準確地預測交通流量也引起了越來越多學者的關注,提出包括指數平滑模型[1]、數據序列模型[2]、回歸分析法[3]等方法。但傳統預測方法大多應用線性模型,而目前的交通流由于自身的復雜性以及非線性等特征并不適用,因此近年來開始提出用混合模型來增加預測可靠性。余林等[4]對交通信號序列采用經驗模態分解,將分解后得到的分量經過分類后重新構造時間序列進行預測,結果表明組合模型優于傳統的時間序列;曹成濤等[5]提出用粒子群算法來優化支持向量機中的相關參數提高預測精度;張朝元等[6]實驗證明了支持向量機模型優于傳統神經網絡的預測效果。李松等[7]對傳統的神經網絡模型的參數進行優化,研究表明神經網絡中的參數經過優化后能取得更好的預測效果。
上述研究中組合預測模型能夠結合多種模型的優點,提高了模型預測精度,但研究多以算法優化支持向量機模型較多,而最小二乘支持向量機能夠降低支持向量機的計算復雜程度,更適用于非線性問題求解;同時由于交通流量本身的非線性和復雜性,模型在表現數據的非平穩性存在局限,選取的訓練樣本也不能夠完全反映數據特征,而經驗模態分解雖然能夠分解信號得到模態函數,但方法本身存在分解不穩定,容易產生模態混疊現象影響預測效果;另外組合模型大多以單一算法優化模型為主,直接用于不穩定的交通流數據預測波動較大。
針對目前預測模型存在的問題,結合當前中外研究趨勢,提出一種基于互補型集成經驗模態分解和遺傳算法優化最小二乘支持向量機的組合預測模型,并運用于實際道路流量預測中,驗證其是否具有比其他預測模型更優的預測效果和精度。
經驗模態分解(empirical mode decomposition,EMD)是由 Huang等[8]提出的,它適用于非線性、非平穩的信號處理。根據原始信號的局部特征,EMD將不同尺度的信號分解,并得到具有特征尺度的本征模態函數(intrinsic mode function,IMF)[9],因此將原始序列分解為本征模態函數和殘余分量,即

(1)
式(1)中:m為IMFS的個數;ci(t)為第i個IMF;rm(t)為第m個殘余分量。
雖然EMD能夠處理非線性問題,但在分解過程仍存在模態混疊,隨后劉瑩等[10]提出互補型集成經驗模態分解(complete ensemble empirical mode decomposition,CEEMD),在初始信號中加入正負成對形式的白噪聲信號,不僅克服了EMD中的模態混疊現象,也能夠消除重構信號中的殘余輔助噪聲,提高模型計算效率,具體步驟如下。
(1) 將n組白噪聲加入原始信號中。

(2)
式(2)中:M1、M2表示為加入輔助白噪聲之后的信號;S表示原始信號;N表示加入的輔助白噪聲。
(2)EMD分解后每個信號得到一組IMF分量。
(3)多組分量取均值得到分解結果。

(3)
式(3)中:cj表示分解后最終得到的第j個IMF分量。
傳統的支持向量機(support vector machine,SVM)在處理小樣本數據問題時具有優良的統計能力,Suykens等[11]進一步提出改進版支持向量機(least square support vector machine,LSSVM),使用一組線性方程組取代 SVM 的二次規劃問題來解決函數估計,且將 SVM 的不等式約束變為 LSSVM 的等式約束,采用最小二乘線性系統作為模型的損失函數[12],大大地簡化模型計算過程,提高運算速度。LSSVM將一個樣本集D={(xi,yi) |i=1,2,…,N},其中xi∈Rn,yi∈R,通過使用一個非線性變換Ф(x)從原來的低維空間映射到高維空間,即將非線性函數轉化為線性函數,構建最優回歸函數,具體過程模型表示為
y(x)=ωTΦ(x)+b
(4)
式(4)中:ωT表示為空間權向量;b表示偏置量。
根據結構最小風險化的原則,目標函數和約束條件設置如下:

(5)
式(5)中:J為優化函數;γ為懲罰系數,且γ≥0;ei表示第i個誤差變量。
定義引入朗格朗日函數

(6)
式(6)中:a為 Lagrange乘子。根據最優化理論中的KKT(karush-kuhn-tuche)條件使用Lagrange函數分別對上式中ω、b、ei、ai求偏導,結果匯總如下:

(7)
消除上式中的ω和e,可以得到如下矩陣方程:

(8)
式(8)中:s=[1,1,…,1]T;K=Ф(xi)TФ(xi);I表示單位矩陣;a= [a1,a2,…,al]T;b= [b1,b2,…,bl]T;y= [y1,y2,…,yl]T。
使用最小二乘法求出a和b得到LSSVM回歸函數最終預測模型:

(9)
式(9)中:K(x,xi)表示核函數,選擇結構簡單并適用于非線性問題的徑向基函數的作為核函數;σ>0,表示為核函數的待定寬度參數。
在LSSVM模型中,懲罰系數γ的選取將直接影響整個模型計算的復雜程度以及穩定情況,當γ設定較小,將導致模型訓練更長,誤差較大;而當γ取值過大則會導致模型訓練過擬合。核函數的寬度參數σ控制整個函數的徑向作用范圍,σ的取值變小后擬合誤差將會減少,但訓練時間會延長。因此為提高LSSVM模型的預測精度,需要對兩種參數進行優化得到最優解[13]。傳統的參數優化方法是通過交叉驗證法、窮盡搜索法等,這些方法雖能得到最優解但耗時較長且容易盲目選擇,而遺傳算法操作簡單,收斂速度快同時具有更好的全局尋優能力,因此使用遺傳算法對LSSVM模型參數進行優化后,將新得到的參數賦予訓練,達到預設誤差和迭代次數后結束網絡訓練,輸出預測結果,以提高模型的預測能力。
遺傳算法(genetic algorithm,GA)[14]主要是在計算模型中設定成生物自然地進化競爭的機制,編碼模型中問題參數成染色體,模擬自然界中生物遺傳的選擇,交叉和突變過程,并根據健康狀況保留具有良好適應值的優秀個體,在繼續迭代的同時形成一個新的組,使得該組逐漸接近最優[15]。遺傳算法具有自適應隨機優化搜索,可以做到全局尋優,在最優化領域方面更加成熟,收斂速度和效果更好。
傳統二進制編碼存在連續函數離散化的映射誤差,實數編碼更適合應用于多維數值問題,使得遺傳算法更加接近待解問題空間,對于個體較多的神經網絡,用實數對每個個體編碼,獲得初始種群。
個體適應度值是指預測輸出與實際輸出之間的誤差絕對值和,即

(10)
式(10)中:n為網絡輸出節點數;yi為網絡的第i個節點的實際值;oi為第i個節點的預測值;k為系數。
對于大量數據個體,確定隨機選擇個體的概率與其適應度函數值成正比,遺傳算法選擇輪盤賭法選擇概率如下:

(11)
式(11)中:Fi為第i個個體的適應度值;k為系數;N為種群個體數。
將上代中優秀的基因組合傳遞至下一代,隨機選取一個基因位置作為交叉位置,組成新的個體,產生新的尋優空間:

(12)
式(12)中:akj指第k個染色體上位于j位置時的基因;alj表示第l個染色體上位于j位置時的基因;b是[0,1]間的隨機數。
選取第i個個體的第j個基因aij進行變異:

(13)

(14)
式中:r2為隨機數;g為網絡已迭代次數;Gmax為網絡最多進化次數;amax、amin分別為基因aij的上界和下界;r為[0,1]間的隨機數。
針對交通流的非穩定性和非線性的特點,首先使用CEEMD對交通流進行分解,提高數據穩定性的同時還能減小分解的模態混疊現象,得到分量和殘余分量,采用GA優化參數后的LSSVM模型對各個分量進行預測,最后疊加各分量預測值,模型流程如圖1所示,具體實施步驟如下。

圖1 模型預測流程圖Fig.1 Flow chart of model prediction
(1) 使用C EEMD降低數據非平穩性,分解原始數據后得到若干分量。
(2) 對各分量使用GA-LSSVM模型分別進行預測。
(3) 將各分量預測結果疊加得到預測值。
(4) 分析預測結果誤差。
選取美國加利福利亞州某道路2018年3月交通量數據為研究對象,選取每天早上8點至10點,采樣周期5 min,共750組樣本數據,將前650組數據作為訓練數據,后100組作為測速數據,設置添加白噪聲的標準偏差為0.4,原始數據分解后根據不同的頻率得到9個本征模態函數IMFs分量,和1個殘余分量,如圖2所示。

圖2 原始數據分解Fig.2 Decomposition of the original data
為了驗證本文提出的互補型集成經驗模態分解后基于遺傳算法優化最小二乘支持向量機模型(CEEMD-GA-LSSVM)預測的準確性,另選取最小二乘支持向量機(LSSVM)、經驗模態分解后最小二乘支持向量機(EMD-LSSVM)、互補型集成經驗模態分解后最小二乘支持向量機(CEEMD-LSSVM)和經驗模態分解后基于遺傳算法優化最小二乘支持向量機(EMD-GA-LSVVM)共5種模型進行對比分析,從圖3可以看出LSSVM、EMD-LSSVM兩種模型預測值與實際值曲線偏離過多且波動較大。圖4所示為CEEMD-LSSVM、EMD-GA-LSSVM與CEEMD-GA-LSSVM 3種模型預測值與實際值對比,可以看出,CEEMD-GA-LSSVM模型預測曲線更貼近實際值,具有較高的擬合度,預測效果明顯高于另4種模型。

圖3 EMD-LSSVM與LSSVM模型預測結果Fig.3 Predictions of EMD-LSSVM and LSSVM models

圖4 CEEMD-GA-LSSVM、EMD-GA-LSSVM、CEEMD-LSSVM模型預測結果Fig.4 Predictions of CEEMD-GA-LSSVM、EMD-GA-LSSVM and CEEMD-LSSVM models
引入平均相對誤差(mean absolute percentage error,MAPE)和均方根誤差(root mean square error,RMSE)兩種評價指標來更直觀地反映出模型預測精度。

(15)

(16)
式中:n為樣本數;yi為實際值;yi′為模型預測值。
表1中列出各模型的MAPE和RMSE,由表1可知單一的LSSVM模型預測誤差最差,組合模型能夠提高預測精度;CEEMD-LSSVM與EMD-LSSVM相比,前者的 MAPE和RMSE分別減小了4.23%和4.25%,說明CEEMD能夠克服EMD的模態混疊現象,得到更有規律的分量,提高了預測精度;CEEMD-GA-LSSVM預測模型MAPE值為6.51%,RMSE值為8.29%,在所有模型中最優,且高于CEEMD-LSSVM,表明提出的模型能夠汲取GA的尋優能力,更適用于預測。

表1 預測模型誤差對比Table 1 Errors of different prediction models
(1) CEEMD-GA-LSSVM模型預測誤差均優于其余5種預測模型,MAPE為6.51%,RMSE為8.29%,CEEMD-GA-LSSVM模型預測值在所有對比模型中最接近實際值。
(2) 單一模型LSSVM預測MAPE為18.32%,在所有模型中預測效果最差,表明組合模型預測效果優于單一模型。
(3) CEEMD-LSSVM的預測誤差10.04%優于EMD-LSSVM模型的14.27%,同樣地也體現在CEEMD-GA-LSSVM和EMD-GA-LSSVM中,證明CEEMD能夠克服EMD后出現模態混疊的現象,提高了預測精度,表明CEEMD比傳統EMD更適用于預測模型。
(4) 通過對比CEEMD-LSSVM和CEEMD-GA-LSSVM,可以看出后者平均相對誤差6.51%明顯低于前者的10.04%,經過GA優化后的模型預測曲線比其他模型更加平穩,數據預測波動較少,該模型能夠為交通流預測提供一定參考。