潘 瑩 徐文潔 顏彥文 趙時旻
(1.萬達信息股份有限公司,201103,上海;2.上海久譽軟件系統有限公司,201103,上海;3.上海申通地鐵集團有限公司,201103,上海 ∥ 第一作者,工程師)
城市軌道交通數據是交通信息資源的重要組成,蘊含了大量有價值的信息。然而,城市軌道交通經過多年的發展,其數據內容、形式復雜多樣,數據資源的結構劃分、資源描述以及資源目錄服務缺乏統一的行業標準,極大地影響了其數據資源的價值利用。因此,建立一套有效、合理的城市軌道交通大數據資源目錄,能夠促進數據資源的有效組織和準確描述,幫助打破城市軌道交通信息系統建設中出現的信息孤島現象,促進城市交通大數據的業務融合,提升智慧交通的服務水平。
關于數據資源目錄構建,我國交通行業主管部門已頒布過一系列行業標準和指導意見。2017年交通運輸部辦公廳發布了《交通運輸政務信息資源目錄編制指南(試行)》[1](以下簡為《目錄編制指南》),對資源目錄編制進行指導;2020年交通運輸部發布行業標準JT/T 747.3—2020《 交通運輸信息資源目錄體系 第3部分:核心元數據》[2](以下簡為《核心元數據》),規定了核心元數據的描述方法、數據內容、擴展要求及值域代碼。上述標準從元數據描述、資源分類方法以及共享機制等層面為資源目錄構建提供借鑒和指導,但目前針對大數據資源以及城市軌道交通細分行業尚無詳細的標準規范。因此,需深入探討城市軌道交通大數據資源目錄構建所面臨的具體問題,研究構建方案,并提出解決思路。
城市軌道交通大數據具有數據量大、種類繁多、各業務口徑定義復雜等特征。因此,大數據資源目錄構建過程中存在以下問題和難點。
城市軌道交通大數據的內容復雜,應用場景豐富,不同資源目錄構建人員往往僅從各自應用的角度對數據進行目錄劃分和定義。表1為城市軌道交通大數據資源的分類。
表1中的數據狀態、數據來源、數據格式、數據安全、業務對象、業務領域、管理目標及數據服務等維度對于不同的構建人員有著不同的分類和定義側重。業務人員更關注于快速獲取業務領域數據,信息人員關注于數據質量安全分析數據,而管理人員則關注管理目標分析預警數據。不同的關注側重導致了數據分類內容的差異性,也造成了同一資源在不同分類中交叉覆蓋、編碼規范各異等問題。資源目錄分類難以統一,造成用戶的資源視圖不清晰,影響用戶查詢和檢索資源的效率,降低大數據資源目錄共享水平。

表1 城市軌道交通大數據資源的分類
大數據資源特征的描述是資源共享和交互的基礎。在大數據時代,借助于元數據了解數據元素含義和上下文的需求越來越強烈。當前國際通用元數據標準主要有美國國家信息標準協會(NISO)的都柏林核心元素集和W3C(萬維網聯盟)發布的DCAT(數據目錄詞匯表)正式推薦標準。《目錄編制指南》提出,核心元數據包括必選項、可選項及擴展項等3部分。其中,必選項包括信息資源分類、信息資源名稱、信息資源代碼、信息資源提供方、信息資源提供方代碼、來源系統、信息資源摘要、信息資源格式、信息項信息、共享屬性、共享方式、開放屬性、更新周期及發布日期;可選項主要包括來源數據庫、信息資源格式、信息項信息、開放屬性、關聯資源代碼及數據元編號;擴展項指根據目錄編制單位的實際情況和需要添加的元數據項。《目錄編制指南》聚焦交通運輸政務信息資源描述普適性、通用性標準,但無法詳細全面地描述城市軌道交通大數據資源及行業特征,因此,造成了城市軌道交通行業的數據資源無法實現更好地共享和交互。
城市軌道交通大數據服務范圍不僅僅包括企業用戶、行業用戶,還涉及公共服務用戶以及大數據研究者等專業用戶。服務的內容、模式主要歸納為4個層面:
1) 企業服務層。企業服務層主要面向企業內部用戶。企業內部大數據應用將依托核心業務領域開展,如運營評估與應急、客流分析及預測、資產設備狀態與監控、乘客行為分析以及線路規劃等方面。企業通過大數據分析和處理技術,挖掘和使用數據資源,精準掌握業務狀態、發展規律及趨勢,形成大數據驅動的業務創新模式,服務于安全、效率、服務等各項關鍵績效指標。
2) 行業服務層。行業服務層主要面向政府及行業主管部門、聯動單位。主管部門關注行業創新、地域規劃開發的統籌協調、民生關懷等內容。政府及行業主管單位對城市軌道交通規劃、建設、運營等大數據進行分析和研究,指導行業的健康發展。聯動單位需要及時共享天氣、客流、輿情、聯動任務等公共信息,提升城市整體協作水平,助力智慧城市建設。
3) 公共服務層。公眾服務層主要面向乘客和供應商。乘客需要在出行場景中獲取持續的大數據服務,如線路推薦、候車預測、LBS(基于位置的服務)、出行建議及安全提示等。供應商需要獲取或定制招投標信息、實時動態資訊服務。
4) 專業服務層。專業服務層主要面向專業的大數據研究機構或者人員。城市軌道交通大數據蘊含極大的價值,需要該產業鏈上下游單位及專業研究者的協作開發。大數據研究機構或人員往往關注如何獲取樣本數據、開放算法或者可共享的分析成果及案例等。
綜上所述,大數據背景下城市軌道交通大數據資源服務的范圍、內容及模式發生了巨大改變。大數據資源目錄服務體系需進一步完善和深化,從而為用戶提供更加便捷、安全和個性化的服務。
為解決城市軌道交通大數據資源目錄構建工作所面臨的一系列難點,本文在借鑒相關標準的基礎上,從資源分類及編碼定義、核心元數據定義及資源目錄服務定義等方面進行探討。
信息資源分類的方法一般采用混合分類法。如《目錄編制指南》采用混合分類法時,以信息資源涉及的行業管理及其業務范圍作為兩個基本分類依據,并在業務范圍內從管理對象、行為主題和信息類別等3個不同維度進行信息分類[1]。混合分類有利于數據資源按不同維度進行組織,從而提升大數據資源的可用性,滿足不同用戶獲得相應資源以及應用不同場景的需求。
借鑒混合分類框架,結合城市軌道交通行業大數據資源特征對數據進行分類。隨著城市軌道交通的發展,管理者對地鐵運營安全、運維效率和服務質量越來越重視[3],因此,管理決策者需對資源進行跨行業整合,以便從大數據資源中挖掘有價值的信息,賦能企業發展。城市軌道交通大數據資源,不僅匯聚融合行業及關聯數據本身,還包括支撐大數據常用工具、算法以及分析成果和知識供不同的用戶使用。該類資源無法簡單地用現有信息類別中的“統計信息”來描述。因此,大數據資源目錄分類需在《目錄編制指南》行業管理及業務范圍兩個基本分類依據上進行完善,通過增加大數據資源服務類維度來擴展原有信息分類的范圍(見圖1)。

圖1 城市軌道大數據資源分類維度
如圖1所示,行業管理維度中城市軌道交通大數據資源屬于城市交通行業中的城市軌道交通管理分類;業務管理維度中建議增加綜合監管分類,用于描述管理者關注的企業綜合運行信息;而大數據資源服務維度則是對大數據的各類成果工具、算法、成果及知識等進行標識,從而促進大數據向業務驅動轉化。基于此分類思路,本文設計的城市軌道交通大數據資源可按照類-項-目-細目進行細化(見圖2)。

圖2 城市軌道大數據資源分類模型
城市軌道交通行業資源分類編碼是數據資源共享的基礎,采用現有交通行業的資源分類標準編碼有利于提升城市軌道交通大數據資源的辨識度,從而解決跨行業高效共享的問題,因此,行業分類、管理對象、業務主題的編碼采用《目錄編制指南》中規定的標準編碼,大數據服務資源類采用自定義編碼。為了解決分類編碼不同但資源相同的問題,在元數據描述中增加“關聯資源代碼”,建立不同編碼間的關聯鏈接。
為了使大數據資源的描述更加全面準確,建議從現有的《核心元數據》標準及擴展原則出發,圍繞城市軌道交通大數據關鍵特征,以能準確而全面地描述城市軌道交通大數據資源為目標,來彌補核心元數據中大數據及城市軌道交通特征描述的不足。
在大數據特征上,城市軌道交通大數據具備典型的4V特點:①數量巨大(Volume),如客流、列車運營等動態實時類數據數量巨大;②數據復雜多樣(Variety),如數據格式多樣、結構不一、存儲分散;③對數據實時性(Velocity)要求較高,如設備異常狀態需及時反饋至指揮人員;④城市軌道交通的價值密度低但價值高(Value),決策人員需要從海量數據中獲取分析或進行預測。
隨著大數據的廣泛應用,數據的擁有者和管理者分離,其生命周期變為產生、傳輸、存儲及使用[4],因此,城市軌道交通大數據在質量、安全、隱私及服務等方面的描述需求變得日益突出。在原有核心元數據描述中的“來源系統”中定義了數據源的定義,大數據的資源有可能是多源系統匯聚后的成果,所以需要標識是否為多源數據、數據來源的標簽等。針對數據的質量,大數據資源目錄描述一般為清洗后的數據,對于數據質量本身的描述較少,資源使用人員對獲取數據的質量無從了解,影響數據使用的效果,建議增加精確性、完整性、有效性及清洗的程度等類別來描述數據的質量;針對隱私安全信息,《核心元數據》通過“共享屬性”、“共享方式”、“開放屬性”等進行描述,但是上述信息還不夠完善,建議增加隱私的條例、加密等具體描述,確保數據資源的安全性描述更加精細。在數據服務屬性方面,隨著未來大數據服務更加深入和廣泛的應用,該項服務將被不確定的用戶進行封裝和調用,數據服務的屬性需要確保唯一的標志,同時其服務內容、服務許可、服務質量等信息需進一步描述。
在行業特征上,城市軌道交通大數據具備復雜的時空屬性、動態性、周期性等特征[5]。例如,若空間參照系不同,地鐵車站、線網、列車動態運營等數據資源將無法有效疊加應用,因此,可以沿用《核心元數據》中的“時間范圍信息”并擴展“坐標系信息"等空間屬性對城市軌道交通基礎空間對象進行描述。屬性對城市軌道交通基礎空間對象進行描述。此外,城市軌道交通大數據和外部多源異構數據相關性較大,如地鐵客流預測服務需要考慮和天氣、節假日、時段、站點位置、外部重大活動等外部多源異構數據的相關性。與客流預測相關的大數據資源服務進行描述時需要描述關聯主題,以便資源使用者可以清晰地了解和預測模型的運行影響參數。因此,本文融合大數據和城市軌道交通行業數據資源特征對核心元數據進行擴展,確保用戶在利用大數據資源時,能夠清晰地了解數據資源的細節(見表2)。

表2 城市軌道大數據核心元數據擴展屬性
大數據背景下,數據服務模式已經發生了改變,原始數據查看和下載以及基礎性服務接口,已經無法滿足未來大數據的應用場景,因此,需要定義一套有效、合理的資源目錄服務以支撐大數據服務模式。對于資源目錄服務,一方面,各類用戶需要定制化、專業化及方便靈活的數據資源服務;另一方面,管理者需要應對大數據帶來的安全、隱私等問題帶來的挑戰,制定管理制度確保資源目錄體系持續、有效、規范地運行。
大數據服務是一種數據使用模式,是在對大數據統一建模的基礎上,將各類數據操作進行封裝,對外提供無所不在的、標準化的、隨需的檢索、分析或者可視化的服務交付。大數據服務不僅僅是一種新技術,也是一種新的數據資源使用模式和服務經濟模式[6]。大數據資源目錄服務建設借鑒了大數據服務理念,首先完成城市軌道交通大數據資源目錄樹的構建,然后結合業務需求,將數據資源組合封裝成個性化服務,如主數據服務、基礎報表服務、風險預警服務、關鍵績效指標服務、開放性研究樣本服務及共享算法服務等。
用戶可以依據關鍵字來檢索數據目錄資源,也可以按照不同的管理對象、業務主題、資源服務方式等維度瀏覽、查看、下載資源。大數據資源廣泛且數據結構復雜,為保證對超大量索引數據的快速搜索支持,本文設計分布式的存儲方式對元數據的目錄進行部署,采用索引文件分塊技術,并支持批量索引和復合搜索。非結構化文件的檢索設計有兩種方式,一種是進行全文快速檢索,支持用戶使用布爾邏輯運算、部分匹配、通配符、輸入內容自動補全等功能進行模糊查詢,分析文本文件內的具體內容,并且支持在查詢的結果中進一步分析篩選。另一種方式是高級搜索,即通過非結構化數據資源的屬性對非結構化文件進行搜索服務。該搜索方式包括基本搜索、文件夾和元數據搜索、混合搜索等,搜索條件豐富,同時能夠滿足主要搜索需要。
為了確保搜索的安全性,對大數據資源的安全級別與系統設置,用戶依據權限通過對大數據資源進行訪問、調閱、申請、利用等操作進行鑒權管理。在非授權的情況下,數據資源將不會被搜索到或者無法預覽細節,搜索的范圍與結果會被系統安全權限控制,保障了大數據的出口安全。
本文結合上海申通地鐵集團有限公司的大數據項目建設,分析了與大數據資源目錄構建密切相關的大數據內容、特征及應用等問題,深入探討了城市軌道交通大數據資源目錄構建中的資源分類及編碼定義、核心元數據定義、資源目錄服務模式定義等核心問題。本文提出的大數據資源目錄構建方法及思路,可為上海申通地鐵集團有限公司的大數據中心數據規劃提供基礎參照,對城市軌道交通大數據資產管理及未來經營模式具有借鑒意義。