摘 要:交通流預測是智能交通系統的熱門研究課題,如何構建合適的預測模型并選擇合適的預測變量是交通流預測的關鍵。利用相關分析法來確定交通流預測變量,將選擇的預測變量輸入到非線性回歸支持向量機,通過樣本訓練進行交通流預測,最后通過交通實例分析來驗證該方法的有效性。
關鍵詞:相關分析;支持向量機;交通流預測;智能交通
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2008)09-2676-03
Research on short time traffic flow forecasting method
GUO Mu,SUN Zhanquan,PAN Jingshan,XU Mei
(Shandong Computer Science Center, Jinan 250014, China)
Abstract:Traffic flow forecasting is a popular research topic of intelligent transportation systems. How to build suitable forecasting model and select suitable forecasting variable is a key problem.This paper took use of correlation analysis to select the close relate forecasting variables and input the variables to nonlinear regression SVM. The SVM was used to forecast traffic flow through training with history traffic flow data.Illustrated the method’s efficiency through analyzing the practical traffic data.
Key words:correlation analysis; support vector machine; traffic flow forecasting; intelligent transportation systems
0 引言
交通流預測在智能交通系統中一直是一個熱門的研究領域。由于正確的交通流預測是智能交通系統的實時交通信號控制、交通分配、路徑誘導、自動導航、事故檢測等的前提[1],對交通流預測方法的研究具有非常重要的意義。交通控制和交通誘導系統都需要在作出控制(誘導)變量決策的時刻t對下一決策時刻t+1乃至以后若干時刻的交通流量作出短期實時預測。一般認為t到t+1之間的預測時間跨度不超過15 min(甚至小于5 min)的預測是短時交通預測[2]。目前,智能交通采集數據的檢測器通常利用的是線圈檢測器,采集的交通流參數主要有流量、時間占有率和速度。很多的智能交通服務都是基于這三個交通流參數,因此對這三個參數的估計是交通流預測的主要內容。
幾十年來,許多的專家和學者們致力于短時交通流預測的研究,已經建立了一些交通流預測模型。常用的預測方法有平均值法、ARMA、線性回歸、非參數回歸、神經網絡等[3,4],但這些模型的預測精度都不能達到令人們滿意的程度。支持向量機是20世紀90年代Vapnik等人提出的一種新的網絡模型[5,6],它建立在統計學習的VC維理論和結構風險最小原理基礎上,較好地解決了小樣本、非線性、高維數和局部極小點等實際問題,由于支持向量機的優越特性而在各個領域得到廣泛的應用。道路交通系統是一個有人參與的、時變的、復雜的非線性系統,因此用非線性回歸支持向量機進行交通流預測將是非常合適的。由于交通流預測需要實時處理,如果用于交通流預測的變量太多,不但會影響預測模型的實時性,而且會引入噪音,從而影響預測精度。如何確定用于交通流預測的變量顯得非常重要。以前的預測通常根據主觀來確定輸入變量的個數,缺泛客觀依據,本文利用相關分析來確定預測的輸入變量,將選擇的變量輸入到非線性回歸支持向量機進行相應交通流參數的預測。
1 相關系數法
相關系數是一個測量兩個(或更多)隨機變量間統計相關的指標。在兩個隨機變量X和Y式中的分子是X和Y的協方差,這是經常出現在統計學中的一個公式。ρXY系數只能表達變量之間的線性相關,應用受到很大限制。
2 回歸支持向量機
對于非線性回歸支持向量機,其基本思想是通過一個非線性映射Φ將數據x映射到高維特征空間(Hilbert空間),并在這個空間進行線性回歸。這樣,在高維特征空間的線性回歸就對應于低維輸入空間的非線性回歸。
其中:w和b定義在特征空間的線性分類器;ξi(i=1,2,…,n)為松弛變量;Φ(·)為映射函數。支持向量機盡量保證正樣本的輸出值大于+1,負樣本的輸出值小于-1,不滿足這個條件的樣本需加一個非零松弛變量ξi,這樣將給目標函數增加一個懲罰項。問題優化是為了保證解有最大邊緣,通過引入拉格朗日乘子,優化問題可轉換成它的對偶形式:
在支持向量機的模型中,核函數的選取非常重要,核函數必須滿足Mercer條件。目前,已經提出了很多的核函數形式,常用的有多項式函數k(xi,x)=[(x×xi)+1]q、徑向基(RBF)函數k(xi,x)=exp{-|x-xi|2/2σ2}、Sigmoid函數k(xi,x)=tanh(v(x×xi)+c)等。本文的所有支持向量機都采用RBF函數作為核函數。
3 預測誤差指標
對應預測結果的預測誤差評價目前有很多的評價指標,常用的評價指標有以下三種:
a)平均絕對百分比誤差MAPE=ni=1|(i-yi)/yi|/n。
b)平均絕對誤差MAE=ni=1|i-yi|/n。
c)平均平方誤差MAE=ni=1(i-yi)2/n。
其中:n為測試樣本數;為樣本預測值;yi為樣本測量值。本文以這三種預測誤差指標作為評價指標。
4 實例分析
以采集的2007年6月1日到2007年7月1日從13點到18點濟南市經十路與山師東路交叉口交通流數據為研究對象,道路的分布情況如圖1所示。數據采集設備為線圈檢測器,采集的交通流參數主要為流量、車速、時間占用率三個參數,數據采集的時間間隔是5 min。
以看出,每個交叉口都有四個位置安裝了線圈檢測器,分別用1、2、3、4標出。這里分別對經十路與山師東路交叉口的第二個位置所在車道的流量、速度和時間占有率參數進行預測。用變量Y表示當前時刻的預測參數,Xi表示當前時刻前i個采樣周期的參數變量,Hi表示前i天當前時刻的歷史參數值。
4.1 相關分析
首先對采集的數據樣本進行預處理,將缺少的交通流數據剔出。利用相關分析方法來確定進行交通流預測的相關變量,本文不但考慮以采樣周期作為時間間隔的時間序列,而且考慮以天為周期的時間間隔的時間序列,用來確定進行交通流預測所需的采樣間隔的周期數和天數。由于當采樣間隔時間或歷史天數太長在實際應用中無太大意義,取當前時刻前12個采樣周期和前12天當前時間點歷史數據作為研究對象,通過計算與當前時刻預測參數的相關系數選擇相關性最大的五個采樣時間間隔和五天的歷史數據作為預測變量。經過計算,流量
4.2 采用支持向量機進行預測
將當前時刻前12個采樣周期和前12天當前時間點歷史數據作為非線性支持向量機的輸入,將所有樣本數據的80%用來對支持向量機進行訓練,余下的20%對預測模型進行測試。支持向量機的參數設置為c=10,σ=0.01,分別對交通流參數流量、速度和時間占有率進行預測,預測誤差指標MAE、MAPE和MSE如表1~3所示。預測值與測量值如圖2~4表1 不同方法進行交通流流量參數預測的預測誤差
誤差指標
支持向量機相關系數選擇不選擇
平均值法多元線性回歸用
MAE16.191 717.241 527.103 317.488 7
MAPE0.075 30.078 40.1060.080 2
MSE422.703 3498.275 41 070.8558.385 3
表2 不同方法進行交通流速度參數預測的預測誤差
誤差指標
支持向量機相關系數選擇不選擇
平均值法多元線性回歸用
MAE2.886 83.054 53.657 83.098 2
MAPE0.078 10.084 10.101 20.085 1
MSE13.670 814.470 421.644 515.082 8
表3 不同方法進行交通流時間占有率預測的預測誤差
誤差指標
支持向量機相關系數選擇不選擇
平均值法多元線性回歸用
MAE5.215 35.306 96.298 65.167 0
MAPE0.129 20.129 50.156 10.131 0
MSE42.711 642.880 561.172 942.629 3
4.3 平均值法
根據當前位置的時間序列數據的平均值進行交通流預測,這里采用當前時間點前12個時間點進行預測,即Y=(X1+…X12)/12。
根據平均值法對交通流參數流量、速度和時間占有率分別進行預測,預測誤差指標的MAE、MAPE和MSE分別如表1~3所示用平均值法;測試樣本的預測值與測量值分別如圖5所示。
4.4 用多元線性回歸分析
4.5 結果分析
從表1~3中利用相關分析選擇預測變量和不用相關分析選擇相關變量的支持向量機預測結果看,通過相關分析選擇預測變量不但可以減少支持向量機網絡的輸入變量個數,提高網絡的訓練和回歸速度,而且通過選擇可以剔出噪音,使預測精度有所提高。三個交通流參數的預測分析都呈現相同的結論。
通過支持向量機預測結果與目前常用的平均值法和多元線性回歸方法預測結果比較可以發現,由于平均值法沒有利用太多的歷史數據信息,用平均值法進行預測的精度最低;用多元線性回歸方法預測結果明顯好于平均值法,由于它利用歷史數據來確定回歸系數,利用了歷史信息,預測精度有所提高。本文提出的用相關分析選擇、用支持向量機回歸的預測結果比多元線性回歸的預測精度要高。因為多元線性回歸只能體現預測變量之間的線性關系,而支持向量機是一種非線性的回歸模型,因此具有更強的回歸建模能力。本文提出的方法進行交通流預測是可行的。
5 結束語
于交通流數據具有高度的復雜性和非線性特性,如何提高交通流預測的精度一直是智能交通系統研究的重要課題。本文提出了用相關分析選擇預測變量,用支持向量機進行交通流預測的方法,通過對濟南市實際交通數據的分析可以看出,用本文提出的預測方法預測的三個交通流參數比目前常用的一些交通流預測方法的預測精度有明顯提高。
參考文獻:
[1] 楊兆生.基礎交通信息融合技術及其應用[M].北京:中國鐵道出版社,2005.
[2]賀國光,李宇,馬壽峰.基于數學模型的短時交通流預測方法探討[J].系統工程理論與實踐,2000,20(12):51-56.
[3]LIU Binsheng,LI Yijun,YANG Haitao,et al.Research on forecasting model in short term traffic flow based on data mining technology[C]//Proc of the 6th International Conference on Intelligent Systems Design and Applications.Washington DC:IEEE Computer Society,2006:707712.
[4]劉靜,關偉.交通流預測方法綜述[J].公路交通科技,2004,21(3):82-85.
[5]CORTES C,VAPNIK V.Support vector networks[J].Machine Learning,1995,20(3):273-297.[6]鄧乃揚,田英杰.數據挖掘中的新方法——支持向量機[M].北京:科學技術出版社,2004.