周軍 廣東省廣州市公安局
道路卡口通行數據挖掘研究
周軍 廣東省廣州市公安局
主要針對廣州市道路卡口系統通行數據進行分析研究,通過歸納總結涉車犯罪規律,結合公安機關辦案經驗,建立一系列指標模型,實現異常軌跡車輛的自動分析研判,從而提高公安機關打擊有組織盜、搶機動車團伙的效率。
道路卡口 機動車 數據挖掘 模型
道路卡口系統通過分布在道路上架設的高清攝像機,采用光電技術、圖像處理技術及模式識別等技術對過往車輛進行抓拍,實現對車輛的過車信息、流量分布等情況不間斷自動記錄,是公安機關交通管理、涉車犯罪打擊工作的重要基礎技術支撐系統,在甄別假套牌、肇事逃逸軌跡及車輛出行特點規律分析中發揮了重要作用。隨著珠三角地區經濟、社會的發展以及城市化進程的加快,道路卡口系統布局逐漸形成省、市、區(縣)際出入口全覆蓋,有些發達市區甚至實現了網格化布局,因此道路卡口系統在打擊跨區、跨市甚至跨省流動作案方面的作用日益突顯。
廣州全市已建成道路卡口系統632套,基本覆蓋市際、環城、中心城區的道路卡口系統網絡,系統日過車數近1500萬輛,隨著道路卡口系統的不斷擴建,車輛流量不斷增大,預計短時間內系統過車數將超過2000萬輛。按照過車數據及圖片保存六個月計算,系統產生的數據總量達到900T。如此龐大的數據量,而且包含了結構化的過車數據和非結構化的過車圖片,傳統治安卡口的功能已經無法滿足公安機關社會管理工作的要求。如何通過對卡口通行數據的研判實現主動發現破案線索,打擊有組織的盜、搶機動車團伙,從另一個方面挖掘系統效能,實現信息利用的最大化,已經成為一個亟需解決的技術難題。為了研究車輛軌跡及通行規律,筆者所在的廣州市公安局抽調專門力量,以廣州市市際卡口為研究對象,開展了道路卡口數據挖掘的研究工作。
研究的主要目的就是要從長期涉車犯罪破案經驗中總結出一批定量分析規則,通過不同規則組合,實現數學模型的構建;通過對卡口后臺數據庫的綜合分析,對車輛異常行為和軌跡特征進行研判,建立一系列數據分析模型;通過模型自動篩選一批可疑車輛,實現精確打擊,指導涉車犯罪案件的偵破工作。同時,還能對不同類型車輛的出行軌跡和規律進行分析,為限行、限牌等交通管制措施提供宏觀數據支撐,有利于交通管理工作的智能化。
此次納入研究的卡口系統總共90套,該批卡口主要分布在廣州市主要出入口以及重點區(縣)際出入口,日過車量約350萬輛。過車圖片存儲時間為90天,過車數據存儲時間為180天,系統數據庫及存儲陣列總共存儲31500萬張圖片及63000萬條過車數據,總數據大小約150T。
研究主要經歷了數據采集、數據清洗、數據倉庫建立、建模及主題分析等過程,如圖1所示。

1. 數據倉庫
是一個面向主題、集成、相對穩定、反映歷史變化的數據集合,用于支持管理決策。數據倉庫表按內容性質分為維度表和事實表兩種。
2. 維度表
記錄基礎數據,作為分析的維度,如車主信息、車輛信息、卡口位置信息等。
3. 事實表
記錄實際發生的數據,具體體現為卡口車輛往來記錄、車輛犯罪記錄。
4. 指標模型
由一系列用于衡量、評估事件的指標組成,是破案經驗的數字化模型。
5. 分析主題
數據倉庫是面向主題的,其數據按照一定的主題域進行組織。所謂主題,就是指數據歸類的標準,每個主題對應一個客觀分析領域。面向主題,就是指數據倉庫內的信息按照主題進行組織,其組織方式是在較高層次上進行數據抽象,對犯罪模型指標體系進行重組(注入變量),以便靈活、側重分析情況。
考慮到涉車違法及犯罪活動的復雜性,我們決定選取假牌車、套牌車及異常軌跡車輛作為研究對象,從車輛速度、運行軌跡等方面尋找規律。
1. 假牌車分析
假牌車是指懸掛自編自造車牌的車輛。在日常巡查過程中,路面警力基本很難用肉眼判斷其號牌的真實性,基于數據庫比對技術,通過道路卡口系統識別的車輛號牌與車輛庫進行比對,不存在的號牌即可確定為假牌車。
2. 套牌車分析
(1)一定時間段內同一輛車出現在兩個不可能出現的地點。例如相隔3分鐘之內的時間段,同一輛車出現在相隔10公里及以上的兩個地點。
(2)同一時間同一輛車出現在兩個地點。
(3)同一車牌在同一地點或不同地點以不同車型或類別出現。
3. 可疑車輛分析
可疑車輛是指車輛的通行時間及頻率與案、事件發生地高度關聯的車輛。由于涉及偵查手段,這里不再贅述。
處理大數據量的系統,性能往往是最大的瓶頸,反應在用戶層面,則是用戶體驗的一個重要指標。響應時間必須滿足用戶的合理要求,性能體現在兩個方面:一是數據抽取效率,二是數據檢索效率。我們采取了以下優化方向:合理分配內存;使用Raid5磁盤陣列,平衡IO負擔;抽取優化;檢索優化,為數據庫建立合理的索引,使用“全文檢索+臨時表+數據表”的方式,進行最大限度的優化。
1. 采集數據
采集外部系統數據:車輛信息、車主信息、卡口位置信息、車輛往來信息,由系統管理員設置與外部系統的接口配置。作為系統服務,自動輪詢采集,及時更新數據。
主要大、中型礦區有:五臺柏枝巖鐵礦區、繁峙大明煙大草坪礦段、原平南坡村—孫家莊礦區、代縣趙村、白峪里、山羊坪東鐵礦區、嵐縣袁家村、婁煩狐姑山、尖山東大型礦區;靈丘東長城西礦段、繁峙—靈丘平型關鐵礦、代縣八塔礦區、原平郭家莊、山碰、章腔—令狐、嵐縣寧家灣等中型礦區以及左權蒿場—連麻溝鐵和黎城小寨、黃崖洞鐵礦中型礦區。
2. 錄入指標模型
犯罪特征數字化,轉為指標,并分配各指標所占權重。為細化模型粒度和簡化指標,提供指標變量及范圍,供創建主題分析時靈活設置。
3. 確定分析主題
分析主題可以根據指標模型動態配置,而指標模型也是可以靈活配置的,因此能夠滿足以后可能的其它主題分析需求。根據涉車案件規律,初步確定假牌車、套牌車等分析主題。
4. 建模
(1)做好機動車、駕駛證等基礎資料分類。
(2)聚類方法不是指具體的特定的聚類算法,而是對目標體屬性實現“物以類聚”的思路。在不同的應用場合,有著不同的集聚規則和算法實現。本次研究使用基于模型的聚類劃分,可以理解為某個主題分析是尋找某一類車輛,這種類是動態的(用戶輸入條件參數),分析是動態追蹤目標物體(車輛)的過程。
(3)關聯與預測。關聯應用于特定的情況,如涉及此案件什么樣的車可能性比較大,系統提供這樣的輸入,但需人工關聯選擇;預測需要大量的涉案記錄,用于分析特征,根據特征權重尋找類似車輛。
(4)算法效率平衡。在允許范圍內,放寬約束以提升效率。如軌跡匹配,假設車輛1依次經過卡口ABCD,車輛2依次經過卡口ABD,車輛3依次經過卡口ABBC(B被拍攝兩次),車輛4依次經過卡口ABCDD(D被拍攝兩次),查詢與車輛1重合3次的車輛。若嚴格按卡口順序匹配,將采用滑動窗口算法(窗口寬度為3)匹配軌跡,此方法效率較低(時間耗費大),匹配出車輛(4);若按卡口順序,允許間隔出現,那么將采用點匹配算法,此方法為最高效率,匹配出車輛(1,2,4)、(1,3,4)車輛,實際也是符合的。因此,放寬約束可使用較高效的算法。
經過近半年時間的研究和代碼實現,成功研發了一套道路卡口預警和研判系統。系統每周自動更新廣州市機動車庫數據300余萬條,總共接入治安卡口54個,每日抽取、新增行車數據140余萬條,月行車數據規模達4000萬,基本滿足20天數據量的檢索需求。系統主要實現假牌識別、時速異常、超速、行車規律等分析功能。除用于數據挖掘、分析的各項模型外,系統還提供非常便捷的統計分析模塊,直觀顯示全市各區卡口流量、車流量、假牌統計和緝查報警統計圖(報)表。
主要測試情況見表1。

?
系統初步研發完成后組織涉車案件研判骨干參加了系統培訓,并下發試運行賬號進行實際測試。試用過程中,一方面收到不少面向案件對于模型應用的有效建議,另一方面也發現這批模型中除假牌識別、時速異常、行車規律用戶使用較多外,其它模型難以達到理想的分析效果。
經總結,開發團隊確立了“傻瓜化”和“顆粒化”的優化思路。傻瓜化,即簡單直白,一鍵就能點出辦案人員想要的東西,如“假牌分析”模塊。“顆粒化”即進一步細化用戶需求,貼近辦案人員使用習慣。例如調整數據抽取時間至凌晨5點,以滿足盜車案高發時段第一時間研判的需求;行車規律也細化采用了多種形式分析每天規律,如出現次數和出現天數統計、分析。最后,設計了徘徊查詢、套牌查詢、套牌分析、出現次數分析、出現天數分析、未識別車牌、工具車查詢、組合分析等既有非常強的目的性,又簡單實用的模型。根據收集回的應用成效案例,總結出了模糊查詢、假牌分析、從庫到車、車輛徘徊、組合分析等技戰法指導實戰應用。目前,該系統功能已基本完備,辦案部門普遍反映查詢效率高,應用效果好。
此次研究雖然取得了一定成果,但還存在不足之處:① 系統軟硬件性能還不適應大數據量的研判分析應用。隨著廣州市交通流量的不斷增多,道路卡口系統的數量也在不斷增加,要想實現全市所有道路卡口數據的挖掘分析工作,僅通過簡單的硬件拼湊肯定無法解決;② 數據源不完整。由于數據安全及保密規定的要求,某些數據庫只能通過請求訪問的方式實現小批量讀取,如全國車輛庫、年審圖片庫等,尚無法實現大批量的分析比對工作,影響最終分析結果;③ 分析模型準確性不高。由于數據量太大,為了得到盡量準確而且少的分析結果,辦案部門希望分析模型足夠準確。
針對上述問題,筆者提出以下幾個改進的方向:① 引入云計算技術進行網格計算,提高系統數據分析效率;②梳理整合涉車類數據庫資源。通過行政及技術手段,實現全國車輛庫、全省出租車庫、年審車輛等數據庫的共享;③分析模型優化。通過進一步調研,摸清辦案思路,將定性原則轉化為定量指標,實現分析模型優化工作。
[1] 高磊,趙炫,李鵬飛,郝久月. 面向圖像偵查的視頻分析研判系統研究. 警察技術,2013(06).
[2] 李金峰,吳菊才. 涉車視頻情報信息偵查系統應用研究. 警察技術,2013(05).
[3] 袁鴻燕. 基于數據挖掘與知識發現在決策模型中的應用研究. 電腦知識與技術,2013(36).
[4] 郭旦懷,崔偉宏. 面向實時交通信息提取的車輛軌跡數據挖掘. 武漢理工大學學報(交通科學與工程版),2010.