公安部交通管理科學研究所 江蘇 無錫 214151
車輛特征刻畫包括靜態特征和動態特征的結構化,靜態特征即常見的車牌、車型、品牌、車款、車身顏色等。而動態特征則更為豐富,包括車輛的行駛特征、軌跡特征、伴隨特征等各個方面。
車輛靜態特征是確定的,通過機動車登記、圖像識別等方法可以精確掌握。而動態特征則是隨著時間可能發生不確定的變化的,但通過大數據分析技術對一定時間范圍內的車輛行為進行統計分析,還是足以刻畫出該時間段的動態特征。
本文探討如何基于機動車軌跡用行車地理范圍、行車時間范圍等維度刻畫車輛,將一段時間內的車輛動態特征抽象出來,從而為大規模的車輛動態監管提供依據。同時,針對數據采集、假套牌等各種干擾因素,提出糾偏方法。
機動車軌跡信息實質是時間軸上的一系列位置信息,主要包括兩個信息一是位置信息、二是時間信息,結合軌跡的采集來源如卡口、行車記錄儀、停車場、高速收費站、高速服務區等還可以得到一些額外的行車狀態信息。
分析內容和方法如下:
1.1 行車地理范圍
1.1.1 日常活動范圍 將車輛一段時間內的軌跡(如3個月內)疊加分析,重復出現4次以上的點位組成的地理范圍就是該車輛的日常活動范圍。要求重復4次,主要是為了去除偶爾的出差、旅游等長距離活動(接送各1次),為了更精確一點也可以更多。
1.1.2 居住地、工作地 居住地在軌跡中明顯的特征是行車軌跡最早點位和最晚點位中重復次數最多的一個。而工作地的軌跡特征也很明顯,工作日上午軌跡終點和下午軌跡起點重復次數最多的一個。當然,自由職業等非固定場所工作人員,其工作地將不明顯。不過,這恰恰成為刻畫用車人職業特征的的方法。
1.1.3 親密活動范圍 軌跡起點、終點重復出現次數僅次于居住地、工作地的是親密活動范圍,可能是親友居住地,也可能是常去的商業、教育、醫療等場所。
1.1.4 異地活動范圍 跨地活動中軌跡起點、終點重復次數較多的構成異地活動范圍,去除明顯的旅游行為(軌跡終點為景點且次數極少),異地活動范圍往往代表用車人異地的社會關系。
同一用車人或者家庭的行車地理范圍在一定時間范圍內具有穩定性,通過對其準確刻畫,可以為治安防控等應用提供線索。比如用車人家庭有涉毒人員,如果新的親密活動范圍特別是異地活動范圍中出現了以前不曾出現地點,而且該地點大量出現于其他涉毒人員的活動范圍,那么極有可能意味著是一個新的毒品交易的地點。
1.2 行車時間范圍
1.2.1 用車時間段 每日車輛軌跡的時間范圍反映用車人的很多特征。比如職業特征:一般上班族在工作日有固定時間和固定路線;小商戶用車時間零散而頻繁;自由職業者用車時間不固定。
1.2.2 行車時長 通過連續軌跡起點、終點時間間隔可以判斷車輛的行駛時間。刻畫車輛行駛時長有多種用途,比如疲勞駕駛高危車輛的篩選。疲勞駕駛嚴重危害交通安全,依據軌跡計算出來的超時駕駛雖然難以確定是否真的疲勞駕駛(可以更換駕駛員繼續行駛),但通過針對性警示、檢查等手段可以有效降低疲勞駕駛造成交通事故的概率。
1.2.3 特殊時間段用車 有些特殊時間段的頻繁用車,往往代表著用車人的一些特征與傾向。比如夜間頻繁用車,可能意味著用車人有夜生活的習慣或者商務接待的需要,當然也可能是營運車輛或者黑車司機,通過關聯車輛和駕駛人信息,可以更準確地刻畫車輛駕駛人。
1.2.4 用車頻率 根據軌跡刻畫車輛用車頻率也有重要意義。用車頻率太低的車輛,可能意味著駕駛人駕駛水平較低,有的甚至是有證的初學者,在上高速行駛、遭遇惡劣氣象等情況下可以針對性警示或檢查,從而降低事故發生概率。而用車頻率太高的車輛可能車況堪憂,也需要進行檢查。
基于機動車軌跡的車輛刻畫也會產生偏差,最主要的原因就是軌跡數據的偏差,主要因素:
2.1 軌跡數據缺失 即采集機動車軌跡信息時,由于采集設備、傳輸、采集平臺等因素,大量軌跡數據丟失。根據不完整的軌跡信息刻畫車輛,很容易產生偏差。
2.2 重復軌跡數據 由于傳輸過程的問題,同一份軌跡數據可能被多次上傳,從而產生重復數據。
2.3 車牌識別錯誤 雖然目前的車牌識別算法準確率高達99%,但在實際場景中準確率并沒有測試場景中那么高,從而產生了大量錯誤的軌跡信息。
2.4 假牌套牌車輛 客觀存在的假牌、套牌、無牌、遮牌違法行為,特別是套牌也產生了大量錯誤的軌跡信息。
2.5 軌跡定位偏差 機動車軌跡通常由卡口、行車記錄儀等終端采集,軌跡定位即各終端的定位,其中卡口定位為人工標注,極易出錯,而行車記錄儀一般由獨立的定位模塊采集定位信息,由于模塊損壞、遮擋等原因也可能出現定位偏差。
2.6 軌跡時間偏差 機動車軌跡通常由卡口、行車記錄儀等終端采集,各終端有獨立的時鐘,由于配置原因,可能未與標準時鐘實時校準,從而導致軌跡時間偏差。
軌跡數據的偏差是客觀存在的,如果完全依據存在偏差的數據進行分析,對車輛的刻畫就很容易出現偏差,甚至與事實相反的謬誤。
偏差糾正最重要的是從源頭也就是軌跡數據開始糾偏,也就是數據清洗的過程。
大數據在采集和導入過程中容易引入不滿足數據質量要求的數據即噪聲數據。異常數據、不一致數據、重復數據、缺失數據等都屬于噪聲數據。將不同程度地影響到數據的質量和預測分析的結果[1]。具體到機動車軌跡數據,有如下清洗方法:
3.1 重復數據清洗 批量刪除定位及時間信息相同的軌跡數據。
3.2 缺失數據補全 根據歷史數據形成的軌跡函數,補全因采集、傳輸而丟失的局部軌跡信息。比如通過居住地、工作地分析得到了車輛的上下班線路函數,就可以用來補全因為途徑卡口設備故障丟失的局部軌跡信息。
3.3 修正錯誤數據 根據數據線索,找到錯誤數據與正確數據的關聯性,從而糾正錯誤數據。比如因卡口校時錯誤導致的軌跡偏差,可以用相關車輛行車記錄儀時間、數據上傳時間、周邊正常卡口時間、歷史軌跡時間進行對比修復,盡可能地接近正確時間。
3.4 修復異常數據 異常軌跡數據可能是偶發系統錯誤,也可能是識別錯誤或者假套牌,通過數據分析可以發現和排除異常數據。比如遠離日常活動范圍的孤立點,很可能是異常數據;同一時間不可能同時出現的兩處軌跡則可能涉及套牌或識別錯誤。通過各種輔助分析手段,去偽存真,從而修復異常數據。
數據清洗之外,還可以對刻畫結果進行分析實現偏差糾正:
3.1 合理性分析 由于無法清除的數據偏差,分析結果的偏差不可避免。但如此刻畫的特征可能是明顯不合理的。比如由于校時錯誤,導致上下班的軌跡時間過早或過晚,如果這種刻畫不合理與特定設備具有關聯性,就可以確定相關設備的校時存在問題。
3.2 歷史刻畫對比 對于特定車輛的數據偏差不會一直存在,通過不同時間段歷史刻畫的對比,可以找出偏離常態的異常刻畫。
本文描述的方法在公安交通集成指揮平臺部級平臺的進行了一些應用,但因為部級平臺與終端之間鏈路過長,問題數據超過了合理范圍,通過本文的方法難以完全修復,應用效果一般。下一步計劃,將該方法直接應用到各省、市系統中,在提高數據準確度的前提下,再應用本文的方法進行車輛動態特征刻畫及糾偏。目前已在多個交警支隊進行試用,取得了一定的效果。