張健生 莫浩華 徐志輝 楊海軍
1. 廣東省東莞市公安局 2. 廣東冠網信息科技有限公司
隨著東莞市社會經濟的快速發展,機動車保有量與出行量逐年激增,城市人口數量日漸龐大,車輛交通管理現狀和需求的矛盾日漸加劇,各類交通事故及與車輛相關的刑事、治安案件逐年上升,警力嚴重不足與繁重的車輛管理任務之間的矛盾日益突出,給城市管理提出了新課題。東莞市公安局充分應用人工智能、大數據等新技術,加快對傳統偵查打擊手段的智能化改造,構建以數據為關鍵要素的數字偵查打擊模式,以機器換人力、以智能增效能,實現對各類違法犯罪活動的精準打擊。本文結合已有的建設經驗、相關技術的研究理解和實戰實證,對車輛視頻圖像信息庫進行介紹。
按照公安云計算的分層體系并結合公安信息化建設需求,東莞車輛視頻圖像信息庫的整體架構如圖1所示。

車輛信息庫基于大數據架構設計,遵循公安部和廣東省公安廳相關標準,以海量涉車數據的匯聚、融合、共享和分析挖掘能力開發為目標,支撐各警種車輛業務應用,并支持各警種基于平臺服務接口開發二次應用。在邏輯上,車輛信息庫可分為資源采集層、基礎設施層、數據服務層、平臺應用層。
外部系統以多種形式記錄各種海量且異構多源數據,如何方便快捷地從多途徑實時獲取、處理這些外部數據,并實時保存到多種數據庫中,是車輛信息庫設計的重點和難點。車輛信息庫采用統一的數據采集匯聚和解析處理,對接入數據格式統一維護和管理。資源采集層具體由級聯網關和匯聚接入網關組成,采用分布式消息總線Kafka實現結構化數據和部分半結構化數據的采集和接入,針對直接從前端各類抓拍攝像機采集圖片則采用基于C++開發的采集網關實現。所有數據采集網關和級聯網關均通過Zookeeper統一配置和管理,并周期性向Zookeeper上報自身服務狀態和業務數據狀態。其特點在于可以提供高可用、高可靠、分布式的海量數據采集、聚合和傳輸。目前,東莞市公安車輛信息庫匯聚了遍布東莞全市的5000多路治安卡口和電子警察數據、1000多個社會停車場數據、全市高速公路高清卡口等10多類車輛抓拍數據,總數據量已經超過十幾億。豐富的數據為下一步車輛大數據分析挖掘提供了必要的素材。
提供車輛視圖庫數據存儲、計算和系統運行所需的基礎資源,包括可支持異構資源的云計算資源、云存儲資源池和云網絡資源池,并通過云計算資源管理平臺實現統一的資源調度。
部署云計算服務和大數據存儲所需的支撐框架中間件,包括支撐大數據計算所需的Hadoop、HBase、MPP、Spark、ElasticSearch、HDFS、Redis等基礎支撐框架,提供海量結構化數據、半結構化數據和非結構化數據的存儲和分析、挖掘等處理能力。在支撐框架中間件上部署車輛視圖庫,包括基礎資源庫、專題資源庫和元數據庫。基礎資源庫包括視頻圖像數據、軌跡數據、特征數據、關系數據和檔案數據;專題庫包括關注車輛專題庫、案件車輛專題庫、盜搶車輛專題庫和套牌車輛專題庫等;元數據庫主要規范、統一定義平臺中所有數據表的數據項的名稱、類型、長度、遵循規范等。
是車輛視圖庫的核心能力層。車輛二次識別服務面向各警種提供車輛車牌號碼識別、品牌型號識別和個體特征識別;車輛大數據服務面向各警種提供大數據檢索、處理、分析、挖掘服務。

多源異構是大數據的特點之一,因此東莞車輛信息庫需要滿足安全、穩定地接入治安卡口、電子警察、社會停車場、隨手拍和高速公路等多源數據的要求。車輛信息庫在整體規劃階段對不同來源的數據按照元數據定義進行標準化管理,形成標準數據資源。系統在元數據管理模塊中對數據內容、使用范圍、使用方式、質量、更新方式、更新周期、數據來源、存儲位置、數據格式等內容進行統一管理,并按照配置規則對數據進行標準化處理,如數據有效性判斷、去重、垃圾過濾、格式清洗等。因此東莞公安車輛信息庫僅僅通過少量開發和配置就可以接入新的數據源,支持包括數據庫(MySQL和Oracle)、Http服務接口和Kafka消息隊列三種方式的數據接入,可接入的標準數據信息包括車輛抓拍信息、車輛告警信息、車輛結構化信息和終端GPS感知信息。
以Oracle為代表的傳統關系型數據庫在處理海量結構化數據、半結構化數據和非結構化數據時難以勝任,因此車輛信息庫需要使用分布式文件存儲系統和分布式數據庫技術。東莞市公安車輛信息庫采用基于Hadoop的HDFS分布式文件系統存儲業務類結構化數據,采用分布式數據庫HBase存儲車輛結構化信息和半結構化信息,采用圖形數據庫存儲“車-車”等關系類數據,采用關系型數據庫存儲車輛檔案和案事件信息。
數據處理主要體現為大數據實時分析挖掘服務和大數據離線分析挖掘服務。東莞市公安車輛信息庫的大數據實時分析挖掘服務使用Storm流式分布式計算框架,車輛結構化數據和業務數據進入Kafka分布式消息系統進行數據緩存,Storm逐一對每條實時數據進行分析,分析后的數據存入分布式數據庫等多種存儲容器中,同時將有價值的信息和車輛布控告警信息通過消息隊列實時推送給相關業務部分。東莞市公安車輛信息庫的大數據離線分析挖掘服務使用Spark分布式并行計算框架,系統周期性對海量存儲數據按照相關業務模型進行分析挖掘,一旦發現有價值的信息,將根據具體策略推送給相關業務部門,比如全市車流量、汽車品牌分布、外地車占比等數據分析類。
公安知識圖譜運用多源數據混合存儲、關聯算法、語義推理等技術,基于實體的屬性關系、時空聯系、語義聯系、特征聯系等關系,即可構建一張具有公安特性的多維多層的實體與實體、實體與事件的關系網絡,實現公安多年積累的實戰經驗與技術算法的相互轉換。東莞公安車輛信息庫通過匯總車輛基本信息、車主信息、租賃信息、違法記錄、事故記錄、盜搶記錄和車輛軌跡等車輛相關信息,構建“一車一檔”車輛檔案信息。系統使用預置的規則算法,通過大數據流式計算、定時離線批量計算等方式,挖掘海量車輛數據中隱藏的規律和關系,智能歸納車輛的行為習慣和相互的關聯關系,比如車輛出行規律等,形成車輛畫像,并實現智能研判結果標簽化,將公安涉車業務多年的實戰經驗系統化、智能化。
傳統的卡口設備車輛一次識別僅能識別車牌號碼和大致的車輛類型,遠遠不能滿足公安機關車輛管理的實戰化需求。隨著人工智能技術的飛速發展,基于深度學習的車輛二次識別技術將車輛管控由單純的車牌或車標擴展到整個車臉,車輛的車燈、格柵、車窗、年檢標識、裝飾品等均是車輛的重要特征。通過這些特征的引入,實現對卡口、電警視頻圖像的結構化實時智能分析,包括識別車輛品牌(如大眾)、型號(如帕薩特)、年款(如2013款)、顏色、類別(轎車、商務車、越野車、皮卡車、大型貨車、小型貨車、大型客車、小型客車、三輪車、摩托車等)、異常特征(如遮擋面部、遮擋號牌)、唯一性局部特征(如年檢標車、紙巾盒、遮陽板、天窗、貨架、掛件、危險品車、出租車)等關鍵信息。在車型識別的基礎上,即使目標車輛中途更換、篡改、遮擋、拆卸車牌,或使用假牌、套牌,系統也能夠基于車輛局部特征唯一性進行分析、識別、提取,在短時間內鎖定目標車輛,將傳統的“以牌找車”升級為“以車找車”模式,解決了使用無牌、遮擋號牌、污損號牌、假牌、套牌等現階段廣泛存在于涉車案事件的問題,為車輛深度分析、智能檢索、大數據分析研判、以圖搜車等應用提供結構化多維數據基礎。東莞車輛信息庫二次識別子系統符合GA/T 1399-2017《公安視頻圖像分析系統》要求,具備每天6000萬過車數據的二次識別分析能力。
東莞公安車輛信息庫自2018年底啟動建設以來,已經接入全市主要治安卡口、電警、社會停車場、高速公路等數據資源,日均匯聚超過3000萬條過車數據,協助破獲涉車案事件百余起,在涉車案事件偵查等方面起到了重要作用。
2019年10月21日9時許,東莞市企石分局接事主報稱被三名男子以掉錢分錢的方式詐騙了一臺手機,案發后嫌疑人駕駛一輛車牌為粵LU***3的黑色大眾朗逸轎車逃離現場。同期相似案件發生多起,經排查黑色大眾轎車為套牌車,東莞公安依托車輛信息庫的以圖搜車功能,研判出此黑色大眾轎車分別懸掛車牌粵LU***3、粵LW***5在東莞活動,均為套牌。同時通過車輛號牌查詢,一輛白色大眾寶來轎車也懸掛粵LU***3車牌在東莞活動,通過駕駛員面部信息初步判斷兩輛車為同一伙嫌疑人駕駛,將多起案件進行串并案處理。東莞公安根據大數據挖掘出的黑色大眾朗逸和白色大眾寶來轎車出行規律,提前布控,將三名犯罪嫌疑人抓獲。

近年來,東莞市公安局按照公安部和廣東省公安廳智慧新警務改革的部署,安全保障水平顯著提高。公安信息化建設是一個隨著技術進步、業務優化,不斷發展的長期的、漸進的工程,東莞市公安局將繼續全力推進科技信息化建設和應用,提升一線民警在實戰過程中的獲得感,提升公安工作效能,筑牢東莞市公共安全“科技護城墻”。