王 偉
(河北交通投資集團公司,河北 石家莊 050091)
高速公路作為我國重要的交通樞紐,對經濟的發展起到了促進的作用。截止到2015年,中國高速公路通車總里程達12萬km,管理和監控難度又上了一個新的臺階。隨著我國高速公路不斷發展,高速公路收費系統逐步實現現代化建設,高速公路的收費效率得到明顯的提高。同時,各個系統也產生了大量的數據。想要在高速公路交通安全應急、出行服務、市場監督、決策支持等方面進行重點建設,就需要對高速公路中的大數據進行深入的分析,以便服務于決策者,提升高速公路的運營效率和管理水平。
高速公路大數據有4個主要特點,即規模大、變化多樣、價值密度低和高速性[1]。
a)數據規模 以河北省高速公路為例,車輛經過收費站的時候,監控系統都要拍照,每張圖片大小在500 k左右,每年就會產生上百T的數據,加上各應用系統、收費系統和視頻監控累計的數據達到了PB級以上,并仍然持續增長中。
b)數據多樣 高速公路的數據種類繁多。有各應用系統產生的結構化數據,收費站出入口抓拍的非結構化數據等。此外,還有地質災害、服務區數量等各類數據。
c)數據價值密度 數據量大,但是有用信息較少。監控系統24 h監控會產生大量的數據,但是有用的數據只有很少的一段時間,通過對異常數據的監測可以分析出路網的異常狀況。
d)高速性 收費站產生的數據要快速并及時到達結算中心。發生道路突發事件的時候,系統要可以及時獲取信息并快速進行有效分析。
隨著大數據時代的到來,數據分析的應用已經在高速公路數據的分析中占據了舉足輕重的地位,例如在運營管理系統、聯網收費分析業務、識別偷逃通行費和冒充綠通行為等方面。
通過分析收費數據,對經常計重逃費、綠通車輛違規加大檢查力度;也通過車牌抓拍系統,對出入口車牌不一致、經常性超時車輛,查找換卡車輛信息,實現增收。同時也可以通過分析周邊區域的經濟形勢、人口狀況、產業結構,年均車流量變化進行流量預測與收入分析[2]。
隨著我國高速公路的快速發展,聯網收費系統存儲了海量的收費數據,使用數據挖掘這一新興技術,能夠有效地從大量的歷史或在線數據中挖掘出隱含的內在關聯、模式或趨勢。
現有數據挖掘技術的主要研究單位是和交通行業關系比較緊密的高校和研究所,而現有的研究成果主要是趨向于對整體架構和一些整體方法的設計。很少有研究人員和單位能夠做到充分利用交通行業的特點,對收費數據中多個主題進行深入廣泛研究,同時又可以挖掘出隱含在高速公路收費數據中有對決策支持的有價值數據??偟膩碚f,雖然高速公路收費系統在不斷完善,并且已經積累了大量的信息數據,但是將這些資源充分利用的能力還是有待提高。
高速公路通行費的收入預測是高速公路路網建設的重要部分,對項目的可行性研究等方面甚至對國家的交通運輸都有著重要的意義。
80年代以后,隨著計算機技術的快速發展,新增了許多新方法和軟件進行交通規劃,其中較普遍的有遺傳算法、數據挖掘、支持向量機、神經網絡、灰色理論等技術[3]。
我國高速公路起步較晚,發展速度相對緩慢。交通量的預測主要依據《公路建設項目交通量預測試行辦法》。提出了兩類預測方法,一類是包含類比法、平均增長率法、指數曲線等預測模型的定性預測方法;另一類是包含一元回歸曲線、多元回歸曲線、時間序列預測法、回歸分析預測法、趨勢曲線法、灰色模型法等預測型的定性預測方法。
隨著高速公路事業的飛速發展,高速公路的收費面臨許多問題,特別是計重收費實施后,司機逃費方式層出不窮,通行費存在流失。在新的收費環境下,有效地預測未來收費金額及金額走向,有助于管理人員更好地對高速公路車流量與收費進行分析[4]。
我們以某一條高速公路的收費站為例,分析客車、貨車、綠通車車流的走向以及收費金額的變化。下面以客車為例進行分析。

圖1 客車月平均車流折線圖
由圖1可以看出,客車一型的流量遠高于其他幾種車型,雖然車型各不相同,車流量也各不相同,但是每種車型的客車月平均車流量均不斷上下波動,很難直觀地找到變化規律。

圖2 客車月平均收費額
將所有車型的收費收據進行統計做出客車收費合計折線圖如圖2,由數據走向我們可以知道不同月份客車的收費金額存在較大差異,如何根據各類型車流量的變化去分析總收費金額的變化是本文接下來的研究重點。
回歸分析方法在預測中又稱為因素分析法[5],它是找出一個變量與某些視為變化原因的變量之間的數量關系,即建立模型。然后通過某種方法給出未來一段時間的外生變量的數值,代入模型,計算出變量的未來數值即預測值。
對于多元回歸預測模型還需要進行R檢驗,F檢驗和t檢驗。
R說明一組變量X1~Xn與Y的相關程度,R值越接近1,說明回歸效果越好。復相關系數R的計算公式為:

F檢驗和t檢驗,分別給定顯著水平α,判斷是否存在顯著影響,存在顯性影響才能進行下一步預測。
根據該高速公路收費站點的2014年6月份到2016年2月份的數據,使用差分法對不同類型的客車流進行數據處理,直到數據成為平穩序列,以客車一型數據為例,進行差分處理等一系列建模步驟,最終確定參數。以ARIMA(7,7)模型進行時間序列預測,得到收費站在2016年3月份的客車一型車流量數據,并與真實數據進行對比,做出相對誤差曲線圖如圖3。

圖3 客車一型預測及殘差分析
由圖3可以看出,選取的時間序列模型基本達到了預測效果,圖中有個別原始數據變化趨勢異常,導致個別數據預測存在一定誤差。
使用相同方法,對其他幾種類型的客車流量數據進行差分處理得到合適的預測模型參數,進行預測得到2016年3月份的客車類型的流量數據。
我們使用已有客車車流以及客車合計收費金額的歷史數據進行多元回歸分析,得到了回歸方程,代入預測得到的數據進行計算得到預測的客車合計收費金額,得到了與實際數據的相對誤差圖,見圖4。

圖4 相對誤差圖
最終,我們計算得到了2016年3月份的客車合計收費金額,并使用相同的方法計算貨車合計收費金額以及綠通合計減免金額,與實際數據進行對比,得到表1。

表1 合計金額對比
在高速公路收費站的收費數據預測中,由于車輛流的不確定性和高度非線性,使用單一的預測方法,隨機干擾過大,不能得到很好的預測效果。本文使用ARIMA模型和多元回歸分析模型組合進行預測,減少了隨機干擾帶來的誤差,對未來的收費金額進行了較為準確的預測,為高速公路管理單位的分析和管理提供了數據支持。如何選擇更加合適的模型和組合,解決隨機干擾,使得預測更加準確,是值得進一步研究的課題。