孫云 江易 李冰 陳華煒 杭州中奧科技有限公司
我國城市軌道交通的高速發展,在給城市帶來新的機遇的同時也給軌道交通安保帶來了新的挑戰。2018年3月,國務院辦公廳發布《關于保障城市軌道交通安全運行的意見》,明確指出城市軌道交通是城市公共交通系統的骨干,是城市綜合交通體系的重要組成部分,其安全運行對保障人民群眾生命財產安全、維護社會安全穩定具有重要意義。
目前,我國各大城市針對軌道交通安全已經初步建立了一些信息化系統,如視頻監控系統、人臉識別系統、指揮調度系統、安檢系統、無線通訊系統等,初步具備一定的數據匯聚存儲能力。但每個系統獨立運行,各系統之間數據共享程度較低,數據的“一次匯聚、多次共享”機制尚未形成,嚴重制約了軌道交通安保服務進一步的發展。妨礙數據匯聚共享的具體問題表現如下:
(1)各類信息系統煙囪式建設,垂直業務應用系統之間對接難度大,條塊分割問題仍未解決,難以互連互通;
(2)缺乏統一的數據標準、接口格式和共享架構,數據調取不暢、應用困難;
(3)數據來源較為單一,缺乏社會數據的融合共享,基礎庫的數據基本來自于公安,其他委辦局數據、社會數據獲取困難;
(4)存在數據不全、重復、錯誤等數據質量問題。
因此,亟需依托大數據技術,構建一套新的從數據接入到數據服務的全生命周期數據處理方法,形成軌道交通大數據平臺,為軌道交通安保提供數據及服務支撐。
數據中臺是一套可持續“讓行業的數據用起來”的機制,是一種戰略選擇和組織形式,是依據行業特有的業務模式和組織架構,形成其特有的數據組織標準,通過有形的產品和實施方法論支撐,建立的一套持續不斷把數據變成資產并服務于業務的機制。數據來自于業務并反哺業務,不斷循環迭代,實現數據可見、可用、可運營。

軌道交通系統繁多,各個數據系統數據標準不一致,數據匯聚時的難度增加,數據融合容易形成數據孤島。數據匯聚后,大量不一致的數據字段、代碼集會增加數據分析、數據融合難度,數據無法在大數據平臺中流通,因此需要通過大數據平臺的數據元、代碼集管理模塊來統一數據標準,可以對數據元、代碼集的結構內容進行編輯、新增、導入、導出等。通過數據對標模塊實現數據標準化,數據標準制定流程參見圖2。

第一步:標準梳理,結合軌道交通業務數據和已有軌道交通數據標準進行梳理,梳理完后統一維護到數據標準庫中,作為基礎的標準數據元標準庫,為后續數據對標做好準備;
第二步:在數據對標過程中,如果軌道交通的業務數據中無法完成數據元對標,此時對這些內容進行重新標準設計;
第三步:根據數據元、代碼集和限定詞生成規范設置新的數據元、代碼集、限定詞。設置好后填寫審核申請單,數據標準管理員審核通過生效使用;
第四步:數據元標準管理員對申請的內容進行審核。審核通過后,該內容信息就會納入數據標準中。
以上工作是一個完整的數據元標準建設過程。而以前數據元標準的建設和對標工作通過人工紙制的方式實現,流程比較復雜,特別是在數據標準對標的時候需要花費大量的人力去驗證。
數據融合處理是為了讓數據能夠呈現更清晰的數據結構。每一個數據分層都有其作用域,這樣用戶在使用數據表的時候能夠更方便地定位和理解,處理的過程使用數據血緣追蹤,避免煙囪式的開發,減少重復投入,形成最大程度的成果復用。通過可視化的數據處理,產出原始庫、資源庫、主題庫和專題庫。
數據資產管理是數據中臺面向行業提供數據能力的一個窗口,數據資產中心將行業的數據資產統一管理起來,實現數據資產的可見、可懂、可用和可運營。
軌道交通數據復雜多樣,數據量龐大,具備PB級別數據規模。如此海量數據,采用完整的分布式部署的數據存儲系統,避免服務器故障等情況引起數據丟失。同時針對數據融合計算的需求,采用分布式的數據存儲和計算引擎。建設統一資源調度管理系統,高效支持大規模批處理、交互式查詢計算、流式計算等多種計算引擎。使用的大數據組件有分布式數據存儲組件、分布式離線計算組件、分布式隊列組件和分布式實時計算組件等。
大數據從接入到數據計算、融合提煉數據價值之后,如何賦能業務、給業務系統提供統一的數據服務,并在安全的前提下實現數據共享是非常重要的。
大數據平臺通過可視化的方式,構建資源目錄和服務目錄,以用戶需要哪些數據提供哪些數據的思路,完成數據服務API的快速生成。并且形成統一接口規范,規范數據響應參數項和返回參數項,使數據服務更加通用,滿足不同系統建設的要求。
1.數據資源目錄
數據資源目錄參照公安部相關標準要求,結合公交業務管理部門實際情況開展。具體工作內容包括資源庫、主題庫、專題庫的數據資源注冊、編目、目錄審核、目錄接口、數據元信息標注等。
2.數據服務目錄
軌道交通警務、安保等業務數據的組織重構和深度加工處理,為上層業務提供統一的數據資源支撐。包括數據資源中心體系中存在的基礎庫數據、主題庫數據、專題庫數據、標簽數據、關系邏輯數據及其它基礎數據集、加工數據集等將以API接口的方式統一封裝,根據規則響應業務方的數據請求,為平臺下游輸出數據資源。
軌道交通大數據整體架構參見圖3。從底往上分成三大平臺,其中數據基礎平臺提供計算、存儲和各類計算環境下的公共引擎;數據治理平臺搭建了離線計算、實時計算、智能計算、數據資產管理和數據治理功能;數據服務平臺則提供智能標簽體系、智能軌跡體系、智能關系體系、數據共享服務、數據資源門戶,以及基于不同模塊的運維體系。

大數據基礎平臺負責對分布式部署的各個組件進行集中管理和使用。該平臺提供多樣的數據采集能力,能融合各種數據,例如結構化的分析型數據庫,以及Word、Excel、文本、圖片、模型、視頻文件等非結構化數據庫。該平臺具備海量數據存儲能力和多種高性能計算引擎,提供數據開放、工具開放、資源開放等開放平臺,為軌道交通內外部用戶實現數據分析應用提供了良好的生態環境。該平臺提供數據資產管理,具備數據標準管理、數據資產管理、數據質量管理等功能;提供系統運維與監控管理,實現對大數據平臺集群進行部署安裝、監控告警及日常管理。

1.數據標準
數據元管理:實現數據元的增刪改查、批量新增、導出操作。實現數據元按照標準,從基礎信息(如內部標識符、對象類似、特性詞、表示詞、中文名稱、中文全拼、狀態、值域)和管理信息(如提交機構、批準日志、分類方案、計量單位)等角度對數據元進行新增、編輯修改。
限定詞管理:實現限定詞的增刪改查、批量新增、導出操作。實現限定詞按照數據標準,從內部標識符、限定詞名稱、限定詞標識符對限定詞進行新增、編輯刪除。
代碼集管理:實現代碼集的新增管理。新增代碼集包括代碼和值域。
通過數據智能對標,數據元管理、限定詞、代碼集管理可以完成數據標準的統一建設,滿足軌道交通數據標準建設的要求。
2.數據處理
各個軌道交通業務系統數據匯聚到大數據治理平臺中,數據格式眾多、重復率高、無關聯、無法反饋出業務屬性,數據價值較低。通過數據處理,將這些繁多冗長的數據提煉形成可用好用的數據。數據處理是大數據建設過程中的核心過程,數據處理模塊通過輕便、簡單的操作幫助軌道交通應用廠商建立數據中心,滿足數據融合關聯,提煉數據價值。主要的處理手段包括數據提取、數據清洗、數據關聯、數據比對、數據標識和數據分發。
3.數據組織
數據合理的組織會產生更大的數據價值,如何根據業務合理組織,是困擾數據建設者的難點。數據組織需要結合行業專家知識,深度解析各類行業下的數據組織形式,通過可視化的操作界面,簡單完成數據組織。數據組織主要通過原始庫、資源庫、主題庫、專題庫的創建來實現。根據數據處理成果,組織數據資源組織結構。

1.數據資源門戶
數據資源門戶模塊集中數據開發服務、數據共享服務、共性支撐工具服務等信息資源,是大數據平臺對外提供數據價值成果的窗口,集中化呈現、管理、使用軌道交通信息資源,提供穩定、可靠、高效的數據供給方式,達到數據賦能業務系統的目的。

2.數據開發服務
為了統一的數據安全與數據成果保障,由大數據服務平臺統一提供線上數據開發服務,并提供開發環境、測試環境、正式環境,軌道交通的業務開發者可以使用此服務進行數據的業務功能開發、模型開發等,對數據進行定制應用開發。
數據開發服務具備數據資源目錄管理、數據開發目錄管理、數據任務調試、數據服務調度管理、數據服務日志分析等功能。
3.數據共享服務
數據共享服務通過搭建軌道交通服務總線和API網關,實現不同上層應用對已發布API的調用,實現標準化治理后數據資源的使用。各類軌道交通安保業務系統都可通過API網關獲取,API網關提供了API的全生命周期管理,輔助用戶簡單、快速、低成本、低風險地將數據、業務邏輯或功能安全可靠地開放出來,用以實現自身系統集成及與合作伙伴的業務連接。API網關負責服務請求路由、組合及協議轉換,客戶端的所有請求都首先經過API網關,由它將請求路由到合適的服務。

4.共性支撐服務
服務平臺除了為下游軌道交通業務開發商提供數據開發服務、數據共享服務外,為了更好體現大數據平臺賦能能力與體系,提供以下共性支撐服務:
(1)智能標簽
標簽是通過對用戶信息分析而得到的高度精煉的特征標識,而具象到軌道交通標簽來說,軌道交通標簽模塊是對軌交安保數據資源的分類和內容描述,便于各業務單位對數據需求的快速檢索和定位。標簽模塊的價值在于數據的語義化,將用戶難以理解的數據意義翻譯為容易理解的業務語言,建立數據分類,快速圈定業務所需要的數據。
整體標簽體系以軌道交通主題庫為基礎,中心所有的標簽生產都基于軌道交通主題庫,支持用戶進行自定義標簽,將各類關系型數據表直接通過平臺注冊到標簽平臺中進行管理,同時用戶自定義的標簽可以選擇共享,建立標簽從生產、發布到投入應用的一整套管理體系,共享后可實現軌道交通所有用戶共同使用。
(2)數據模型推演中心
數據模型推演中心基于數據治理的成果,提供基于各類數據資源與數據標準體系之上的數據推演計算,為軌道交通業務提供一步數據模型生成的便捷式開發服務。

(3)智能關系
智能關系作為數據治理完成后對數據進行應用展現的關鍵平臺和工具,通過關系模塊完成軌道交通對關系人計算模型的具體需求,并且能夠按照軌道交通業務需求,動態調整關系計算策略。關系模塊支持6層以上的關系挖掘,支持人、案、物等多種實體的關系關聯和在線關系計算。
本文設計的軌道交通安保大數據平臺已初步在某市軌交安保工程落地應用。平臺具備處理PB級別的數據能力,共接入280多張鏡像表共81億數據量的原始數據,梳理出148張標準表,提供結構化、半結構化和非結構化大數據管理與處理能力,通過數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術的應用,實現了數據對象的數據連接、相似性連接等軌道交通行業數據的融合。對原始數據質量進行自動評估,剔除出30%的重復或者錯誤數據,并通過數據接口連接市局大數據平臺、軌道指揮中心、交通運行協調指揮中心、地鐵集團、公交集團等多家軌交業務單位的相關數據資源。
通過研究交集、并集、差集、統計、去重、排序等多種算法組合、編排和流程化,構建了同站進出、同行人員、異常出行、人員軌跡、長期逗留、重點人關系等25種融合公安業務場景的模型算法,利用自動感知與人工判斷相結合,提升軌道交通安全指數。對50余種軌交警情數據關鍵要素進行自動提取和特性標注,2億條數據記錄的精確查詢返回時間不超過3秒,實現案事件聚類和智能串并。通過研究基于關鍵要素和標注信息的自動關聯和推理技術,關聯出人(乘客票卡信息、身份信息、生物特征信息、手機信息等)、地(車站、站廳、出入口等)、物(安檢物品)、事(事件)、組織(業務單位、安保單位、安保指導單位等)等情報信息和歷史警情信息,主動預警,提升要素情報的自動感知能力。
基于大數據技術,實現了軌道交通安保大數據平臺,為軌道交通警務創新數據智慧建設提供了一種思路。通過平臺的建設和應用,應對了軌道交通數據復雜、場景多樣的現實需求,依托軌道交通不同類型的數據資源,進行數據的統一融合治理與服務,將原有死寂的數據價值挖掘,將智能化數據分析的性能提高,大大提高了公安工作效率和警務效能。