鮑東玉+王軍


摘 要:車輛檢測器檢測數據作為一種基礎數據在交通領域具有重要的作用,其數據質量極大地影響著以其作為參考基礎數據的交通規劃、交通控制、交通行為分析等應用領域研究分析結論的準確性和合理性。文章首先分析了車輛檢測器異常數據的表現形式及產生原因,根據交通流理論及客觀限制條件研究,提出了基礎篩選、閾值篩選和基于交通流理論的篩選方法,并在此基礎上,根據交通運行狀態的統計相似性進行了研究和對比,選擇了IQR法作為數據修復的方法。從而在一定程度上解決了車輛檢測器數據質量的問題。
關鍵詞:車輛檢測器數據;數據篩選;數據修復;四分位距IQR法
中圖分類號:TP274 文獻標識碼:A 文章編號:2095-1302(2015)10-00-02
0 引 言
車輛檢測器是檢測道路交通流運行參數的設備,是智能交通系統中的一個重要組成設備。然而,在實際運用中,由于車輛檢測器存在諸多應用選型不當、設備老化、惡劣環境影響、維護檢修不到位等原因,其檢測數據往往存在很多質量問題。
車輛檢測器數據常被用于交通流狀態描述及事件檢測,交通流參數的統計分析在交通規劃領域、交通控制領域、交通行為分析領域有著極其重要的基礎數據支持作用。因此,車輛檢測器數據的質量與其在各應用領域的作用效果存在極大地影響。如何篩選并修復車輛檢測器數據中的異常數據,是車輛檢測器數據應用的基礎。
1 異常數據清洗方法研究
1.1 主要篩選目標
異常數據篩選的主要目標即發現車輛檢測器數據記錄中因設備性能、運行狀態、檢測環境異常所導致的異常數據,根據異常數據的表現形式,可將篩選目標分為四類。
(1)錯誤數據[1,2]。數據記錄出現不在最大值的上限范圍內或字段之間不滿足機理關系的現象,這是車輛檢測器異常數據中出現頻率最高的一種異常數據。
(2)冗余數據[3,4]。冗余數據是指在檢測時間段內存在相似或重復的數據記錄,使實際記錄數多于理論上應有的記錄總數的數據。
(3)丟失數據[5]。由于車輛檢測器、數據傳輸設備或存儲設備等出現故障等原因造成的不能記錄在數據庫中的檢測數據。
(4)時間點漂移[6]。由于車輛檢測器或網絡設備不穩定而造成的數據記錄中的時間點間隔存在誤差,導致實際時間點體系與標準時間點體系無法匹配,為數據的分析帶來干擾。
1.2 交通流異常數據篩選方法
通常要以占有率、總交通量與速度之間的聯系為依據,判斷檢測數據是否存在異常。在總交通量無異常的情況下,有時會出現分車型交通之和明顯大于或小于總交通量的現象。即總交通量的正確性并不能反映分車型流量的正誤,因此需要在判斷占有率、總交通量與速度數據是否異常之后,判斷分車型流量是否異常,若兩者中有一個判斷為異常,則為異常記錄。
1.2.1 總交通量的篩選方法
總交通量的篩選方法采用交通流理論相結合的方法與閾值法,主要分為三步,第一步:利用交通流三參數的機理關系做基礎篩選,去除明顯不符合邏輯的數據記錄;第二步:將車輛檢測器檢測數據三參數的范圍設定在一個合理的理論值區間內,除掉不符合情況的閾值溢出值;第三步:再根據交通流三參數之間的嚴格計算關系來進一步推斷并去除不符合規律的數據記錄。交通量的篩選共有三種篩選方法,分別為基礎篩選、閾值法篩選、基于交通流參數間關系的數據篩選。
(1)基礎篩選
表1展示了車輛檢測器檢測數據的參數表現形式以及各表現形式下數據篩選的規則。
a.表 1中情況(8,9),可通過最大閾值法排除檢測總交通量數值超過道路通行能力的情況。
b.表 1中情況(5),可通過前5分鐘和后5分鐘的數據判斷是否出現停車或擁堵狀況判斷異常數據。
c.表 1中情況(1),可以對不同天同一時段的交通流量的數據進行比較判斷異常數據。
(2)閾值法篩選
(3)基于交通流參數間關系的數據篩選
在對車輛檢測器檢測數據進行粗略篩選后,在研究中我們發現,還有一種較為隱蔽的數據異常情況(主要發生于表1中8、9的參數形式下):同一記錄的三個交通流檢測參數無不符合邏輯的異常值,且各檢測值均在各檢測參數閾值范圍內,但三個參數之間的關系不嚴格滿足高速公路的三參數之間的計算關系,即其中兩個測量值的計算推測值與另外一個真實測量值之間存在較大差異,因此也要判斷其錯誤。
本研究所采用的具體篩選步驟如下:
①將時間占有率換算為車流密度形式表示。
(1)
其中:occ為時間占有率([0,1]);
l為有效車長(m)(可取車輛長度的平均值)。
②根據交通流三參數關系,根據測量車流密度計算出的流量與測量出的流量差值比例篩選,篩選公式如下:
|q測-k測v測| ≤θ%
q測 (2)
其中:q測為車輛檢測器總流量檢測值;
k測為車輛檢測器交通密度檢測值,通過式(1)檢測的占有率轉化得來;
v測為車輛檢測器速度檢測值。
由于車輛檢測器檢測數據本身為計算值,且檢測精度并沒達到100%,故檢測數據的參數不可能嚴格滿足q測=k測v測,因此,可設定一個可接受誤差范圍,《高速公路監控技術要求》中規定:車輛檢測器交通量、車輛速度、占有率準確度大于或等于85%。根據此標準以及公式,當流量取準確度范圍內上限值,密度和速度取準確度范圍下限值時取最大值:
1.2.2 分車型流量數據的篩選方法
將總流量的異常數據過濾掉后,需要判斷分車型流量數據是否有錯誤。當總流量為真值時,分車型流量的和與總流量相比相差不應過大,因此,分車型流量的篩選通過以下公式判斷:
(3)
其中:qi為分車型流量的值(i=1,2,3分別表示大、中、小型車的檢測流量值);
q為總交通量;
δ%為設定誤差,通常根據車輛檢測器的精度參數進行標定。
2 交通流量檢測數據修復方法
2.1 修復條件
數據清洗后,數據的完整率降低,影響后續對數據的分析應用,因此,數據清洗后需要進行數據修復工作[7,8]。
當車輛檢測器某月的檢測數據異常數據較多時,數據進行修復后,真實性和可靠性就大大降低,后續分析和處理的意義也會降低。因此,數據修復的對象應主要針對篩選后有效數據完整性較高的月份。因此修復條件需滿足公式(4)。
有效數據條數
理論總數據條數 ≥D (4)
其中:D為日有效數據完整率的眾數。
2.2 修復算法研究
2.2.1 修復基礎
由于出行者出行需求的規律及相對普遍的出行習慣影響,使得交通流在同一斷面相同性質(工作日、雙休日)的統計日內在同一時間會出現相似的交通流特征,這是車輛檢測器數據修復的基礎。
2.2.2 修復算法
當數據分布符合正態分布時,IQR不如標準偏差有效;但如果數據中存在噪聲和孤立點,則在估計數據的離差時,它比標準偏差更具代表性。本研究基于大量的歷史檢測數據驗證表明,檢測周期的流量值不服從正態分布,因此采用IQR方法修復。
首先,判斷異常數據的統計日是雙休日還是工作日,然后將數據庫中一年內與待修復數據具有相同統計時段、相同統計日性質的數據進行匯總排序,分別取數據的上、下四分位點作為修復數據的上限和下限。將剩下50%的數據保留下來求均值作為修復值。
2.3 效果驗證
本文選取三種方法對比驗證效果:①采用相鄰時段數據的平均值修復;②采用前一天的歷史趨勢數據修復;③本文修復方法。各修復數據分別與原有檢測值進行對比。
結果表明:本文提出的四分位間距(IQR)修復算法比傳統的修復算法的修復結果誤差更低,更貼近車輛檢測器的檢測值。原因是由于修復的數據源樣本多,且都較貼近實際情況。
圖1 數據修復算法對比效果圖
3 結 語
車輛檢測器數據作為交通狀態的基礎數據,其清洗與修復方法深刻影響著其置信程度、應用范圍。因此,本文對車輛檢測器異常數據的清洗與修復方法研究,在一定程度上合理地解決了車輛檢測器異常數據所帶來的部分應用問題,從而使車輛檢測器數據能夠更加準確、完整的被應用于交通規劃、交通控制、交通行為分析等交通應用領域。
參考文獻
[1] 蔣銳,王均.道路交通流數據檢驗與修復方法[J].交通與計算機,2006,24(6):65-67.
[2] 耿彥斌,于雷,趙慧.ITS數據質量控制技術及應用研究[J].中國安全科學學報,2005,15(1):82-87.
[3] 劉偉,曹先彬.對基于MPN的相似重復記錄識別算法的改進[J].微計算機信息(管控一體化),2005,21(8):147-149.
[4]伍建國,王峰.城市道路交通數據采集系統檢測器優化布點研究[J].公路交通科技,2004,21(2):88-91,95.
[5]周永華,陸化普.交通流數據處理系統的設計與開發[J].交通與計算機,2006,22(5):37-39.
[6]耿彥斌.城市道路交通流數據質量控制理論與模型[D].北京:北京交通大學,2006.
[7]姜桂艷,江龍暉,張曉東,等.動態交通數據故障識別與修復方法[J].交通運輸工程學報,2004,4(1):121-125.
[8]姜桂艷.道路交通狀態判別技術與應用[M].北京:人民交通出版社,2004.
[9] Gerlaugh D L, Huber M J.Traffic Flow Theory[M].Beijing:China Communications Press, 1983.
[10]王曉華,蘇宏業,渠瑜,等.面向電信欠費挖掘的數據質量評估策略研究[J].計算機工程與應用,2011,47(12):220-224.