□ 文/ 吉靜 王天瑞
隨著智慧城市建設的推進及智能交通系統的發展,交通數據分析需求愈加急迫。一方面,交通數據采集的范圍、廣度和深度急劇增加,正在形成以微波、線圈、GPS、車牌等交通流檢測數據,交通監控視頻數據,以及系統數據和服務數據等為主體的海量交通數據。另一方面,在大數據環境下開展研判應用的數據分析需求急迫,研判應用將有利于整合多種類型的交通數據,深入挖掘分析各業務條線情報,洞悉交通環境演變軌跡和機理,有利于最大程度地發揮交通數據的效能,提高交通運輸系統的運行效率和服務水平,為公眾提供高效、安全、便捷、舒適的出行服務。
如何以一種有序的方式迅速有效地管理交通大數據,進而能對研判應用進行標準化建設變得越來越關鍵。本文結合上海市交通大數據建設以及研判應用建設的具體實踐經驗,研究大數據環境下的數據標準化、數據應用的標準化流程,并根據實際案例,分析車輛研判應用中的黑車問題。
數據標準化主要是對數據基本單元的標識、分類編碼、含義、表示格式等各個方面進行規范和統一。經過標準化的數據是信息系統的基石,它可以確保各項業務以完整、有效、高效的方式運行。對數據進行標準化有利于數據的查詢檢索以及與其他用戶的數據交換,可加強數據在系統間及環境間的實用性和共享性,提高數據的長期使用價值。可以說,數據標準化工作是信息化建設最基礎的工作。
數據標準化活動主要采用“確定數據需求—提取數據元—確定數據標準化要素”的方法。首先梳理各業務領域的數據需求,采用“自底向上”的方法,分類、匯總數據項,并抽象實體類,構建實體類的層次關系和數據模型。采用“自頂向下”的方法,通過對實體類定義、屬性的規范化描述,提煉出標準化的數據元素,并將其實例化為實體元數據、數據元素元數據、類屬元素元數據。
數據集成環境以數據對象層為核心,包含多種來源的數據,也包括對人、車、路的描述。數據集成環境統一建設基礎數據集、規范化數據庫、中間研判數據集,為各研判應用提供標準化、一致的基礎數據源。
數據集成環境中的數據如圖1所示,包括:路網數據、設備數據、其他數據等。路網數據主要指快速路網、地面道路網、高速公路網數據;設備數據主要指各種采集源數據,包括:線圈數據、SCATS數據、卡口數據、GPS數據等;其他數據包括天氣數據、事故數據、違法數據等。各數據之間存在著相應的關聯關系。

▲圖1:數據集成環境
路網數據以及設備點位需要在GIS圖層中進行配置,建立相應的關聯關系。上海市浦東新區的道路圖層與卡口圖層如圖2、圖3所示。

▲圖2:道路圖層

▲圖3:卡口圖層
數據組織是溝通輸入數據和輸出數據之間的橋梁,是數據標準化建設中的關鍵階段,是整個研判應用開展的基礎條件。將各自管轄范圍內的人、車和路數據按照應用方向進行組織,形成數據組織的標準化。
數據組織模型不僅關注數據的含義和表示,還關注數據中的各對象間的關聯關系、拓撲關系等,包括設備和道路對象從屬關系,道路對象層次關系和道路拓撲關系等。人、車、路的數據組織模型如圖4所示。

▲圖4:數據組織模型
由于大數據存在領域廣泛、存儲處理產品眾多,不僅大數據的定義、相關術語、分類、 架構等方面缺乏統一描述,各種大數據產品的技術要求也不盡相同, 這種現狀一定程度上阻礙了大數據產業的良性發展。對于交通領域的大數據發展,針對研判應用,需要建立相應的標準化建設流程。
研判應用根據研究對象的不同分為人、車、路三個方面。研判應用分析框架如圖5所示。
對車的研究主要是車牌快速檢索、車牌數據分析、車牌屬地分析、套牌分析、非法運營車輛分析、區域出行分析、虛假號牌分析;對人的研究主要是人群密度中宏觀分析、人群密度OD分析、軌道客流分析;對路的研究主要是道路指數分析、快速路擁堵狀態分析。

▲圖5∶研判應用分析內容
建立適用于城市交通領域的大數據分析流程和方法,能夠實現簡單的數據分析到工程化應用的過渡。無論是對人、車、路進行研究時,研判應用都需要進行標準化研究。
在對這些研判應用進行研究時的標準化流程如圖6所示。

▲圖6:研判應用標準化建設流程
數據配置
依托數據集成環境,抽取研判專題的個性化路網基礎配置、對象配置及數據表結構和地址,生成專題配置文件。
數據預處理及質量監控
研判系統保存原始數據不進行數據質量檢查,但在研判應用環節,將根據精度需求對各類數據進行預處理及質量監控和修補,對接入數據的完整性、一致性和有效性進行檢查,通過數據碰撞及數據質量算法過濾異常數據,標識并剔除異常數據。數據預處理及質量監控的流程如圖7所示。

▲圖7:數據預處理及質量監控
分類與聚合
研判應用所服務的業務條線,都存在按照主題、業務、時間、空間及對象分類的特征,在進行個性化專題分析中,數據分類是前置條件;有些數據分類過于分散的情況,需要進行歸類聚合,此功能是開展統計和挖掘的前置功能單元。
參數提取
通過原始數據“物理變化”提取基礎模型參數,如20s流量生成1min流量,單元段車速生成發布段車速等,基礎參數提取與研判應用需求相關,是算法模型及指標計算的前置功能單元。
算法模型
研判指標計算和結果輸出需要構建獨立的算法模型,如擁堵分析、路口指數等,算法單元將完成基礎數據的“化學變化”,得到特定目標參數。
統計分析
按照時間維度對參數、指標及輸出結果進行統計,如按照天、周、月和年,早高峰、晚高峰等,以及按照地域、空間、人群、類型進行分類統計,統計分析功能是所有研判應用的必備功能單元。
挖掘分析
挖掘分析為通過海量歷史數據創建規律,按照時間維度、空間維度識別規律的差異性,常規特征及異常特征,發現數據背后的現實情況,該功能是連續數據類研判應用的必備功能單元。
關聯分析
通過數據碰撞發現新問題和新特征,是研判系統的主要工作,關聯分析依托數據集成環境,對與目標分析對象的研判應用建立關聯分析,是研判應用進行業務方向轉換與主題遷移的必備功能單元。
可視化展示
所有的研判應用都將創建可視化展示,直觀反應研判應用的分析結果,便于相關部門進行執法管理。
根據以上的研判應用標準化建設流程,以車輛研判應用作為具體實例,分析數據應用情況。本節將詳細描述黑車研判應用的流程,以及可視化展示的具體功能。
以車輛出行數據為基礎,分析交通出行行為。基于已知歷史黑車軌跡行為,創建黑車識別算法模型,對卡口歷史過車數據進行疑似黑車識別與挖掘,并將黑車疑似名單交由相關部門進行緝查。黑車研判應用分析流程如圖8所示。

▲圖8:黑車研判應用分析流程
黑車研判應用可視化展示分為3個部分:疑似黑車信息、黑車活動規律、黑車過車記錄。
疑似黑車信息
以月為單位,根據已查黑車及軌跡分析確認疑似黑車清單,并按照疑似度排序。疑似黑車信息如圖9所示。

▲圖9:可疑黑車清單
黑車活動規律
黑車活動規律顯示黑車出現的小時統計表、月統計表、周統計表、黑車經過卡口次數前十排行,如圖10所示。
按小時統計規律:以小時為單位,統計黑車在一天中主要活動時間的小時分布,后續補充同類車輛的主分布時間規律,對比觀察黑車異常出行時間特征。
按天統計規律:以月為單位,分析疑似黑車的活動天數,黑車出行活動具有不規律性和偶然高發日期特性。
按周統計規律:以周為單位,分析工作日及雙休日期間,黑車出行活動規律不同常規車輛。
按抓拍次數由高到低(卡口前10)統計:以卡口斷面為對象,提取被抓拍位置,按照由高到低排序。

▲圖10:黑車分析結果
黑車過車記錄顯示該車輛最近一周的過車記錄,具體包括黑車經過地點、經過時間以及過車圖片,如圖11所示。

▲圖11:黑車識別結果
本文分析大數據環境下的研判應用標準化建設,包括數據標準化、和研判應用標準化建設流程。根據實例,對車輛研判中的黑車進行分析,分析了黑車的可疑識別清單,以及黑車的活動行為,為相關部門的管理、派警緝查等提供了有效幫助。大數據標準化是大數據行業良性發展的基礎之一,本文研究的標準化建設將為大數據的研判應用提供技術支持。