
摘要 高速公路建設發展迅速,已經建設成一定規模的路網結構,但已有的高速公路數字化建設缺失。因此建設高速公路數據資源中心勢在必行。該文調研了信息化建設現狀,提出了高速公路數據資源中心建設內容,包括:數據匯聚、數據存儲、數據服務、數據全生命周期管控和數據安全建設。對于推動高速公路數字化建設具有重要意義。
關鍵詞 高速公路;數據資源中心;數據匯聚;數據安全
中圖分類號 U495 文獻標識碼 A 文章編號 2096-8949(2024)14-0192-03
0 引言
經過多年的發展,某省高速公路已經建成了“四縱十五橫三十三聯”公路網,該成果對于推動經濟發展、促進鄉村振興、提升交通公共服務水平、服務國家戰略實施和支撐轉型發展具有重要意義[1-3]。
但目前來看,某省高速公路信息化建設現狀如下:高速公路管理公司在整合業務數據資源方面存在一定的不足,現有的信息化應用呈現出“多、小、散”的特點,部分應用系統采用“煙囪”式架構,導致數據分散、整合效率低,數據一致性較差,存在較高的冗余度[4-5]。數據質量不高,缺乏數據匯聚和挖掘分析的能力,無法有效支持高速公路智慧化發展。部分業務板塊在數字化管理方面存在缺失,對各個業務模塊的系統現狀進行總結可以發現,目前大多數相關業務板塊都使用著業務系統,或者正在開發中但仍有部分業務尚未建立有效的管理信息系統來支持業務發展。基于上述問題,建設高速公路數據資源中心勢在必行。
1 某省份高速公路數據資源現狀
經調研,某省高速公路具體運營業務系統情況,結合目前道路資產、養護業務、收費業務、交通運行監測、服務區管理、能源業務、機電管理及運維等運營,綜合分析各運營業務板塊數據資源情況如表1所示。
2 高速公路數據處理流程
2.1 數據采集
通過連接原有業務系統的數據接口服務和人工數據填報,將收費數據、發行數據、路產基礎數據、路網基礎數據、路況數據、事件數據、處理數據、路產巡檢巡查數據、安全風險隱患數據、路域經濟投資收益數據、服務區基礎數據、機電設備數據等各行業基礎數據抽取并匯總至業務中臺。隨后,數據經過統一的鑒權、通信內容加解密及驗簽、自動化數據采集等一系列數據驗證操作后,方能傳輸至數據資源中心。
2.2 數據清洗與轉換
將所有原始數據經過規范格式化處理,包含字段映射、數據過濾、數據替換、數據計算、數據驗證、數據加解密等清洗工作,以滿足數據質量標準。確保數據進入綜合數據庫時質量良好,保證數據的完整性、一致性、有效性和及時性等特性。
2.3 數據安全
在數據采集、清理和轉換的過程中,需要采取數據加密、數據分類、權限控制和數據脫敏等措施來保障數據的安全性,以確保數據得到有效保護并合法使用。
2.4 數據存儲
通過對行業基礎數據采集及梳理,建立原始數據庫、緩沖數據庫、主題數據庫、服務數據庫等四類數據庫,并組成數據庫群,將數據清洗與轉換的結果根據數據采集的內容分析存儲至相應類型數據庫中。
2.5 數據展示
數據資源中心經過清洗和轉換的規范化數據,可推送至綜合運營管理平臺,實現數據可視化、地理信息可視化等綜合運營可視化展示,實現分類數據匯總展示、統計分項展示、指標展示等內容。
2.6 數據資源交換共享
將數據資源經過清洗和轉換的規范化數據,以數據可視化、查詢、下載和報表等多種服務接口,以HTTP、Kafka、WebService等多種傳輸手段,提供統一的數據共享交換服務,實現與交通管理部門、省交通廳、省政府相關部門的數據資源交換共享。
3 數據資源中心建設
3.1 建立企業運營數據標準
以國標和行標為依據,建立數據標準規范體系,對業務系統數據采集接入、數據存儲格式、數據內容質量、數據分類分級管理、數據共享交換等進行約束和規范。
具體內容包括數據字典規范,元數據管理規范,數據分類分級規范,數據質量標準,數據接入規范,數據共享交換標準,數據治理規范。
3.2 數據匯聚
交通數據的匯聚意味著整合各種不同來源的數據到數據資源中心。為了應對,數據的多樣性和復雜性,必須首先分析所需的各種業務應用的數據需求,明確數據來源,并根據數據接入標準規范,采集并整合包括道路資產、養護、收費、路網運行監測、公眾服務、運營安全、能源、建設、機電運維等多個業務領域的數據資源。
3.3 數據接入
(1)數據類型
根據交通數據資源內容分析,按數據類型可包括靜態數據和動態數據。根據數據數量和數據的多樣性,也可分為結構化數據和非結構化數據。結構化數據主要是以文本信息為主,非結構化數據主要包括網絡日志、音頻、視頻、圖片、地理位置信息等。
(2)數據來源
數據資源中心接入的數據來源主要包括四類:一是現有業務系統,比如道路資產管理、養護業務運營、收費系統、運行監測等應用系統產生的基礎數據和動態數據。二是新建業務應用,路網運行保障、能源業務管理等納入數據資源中心管理范圍。三是互聯網數據,通過服務購買或數據交換方式獲得的眾包數據。四是外部數據,橫向如部門如物流、旅游、氣象等數據;縱向如省廳、交通運輸部共享交換的數據。
(3)數據匯聚方式
根據接入數據來源,通過數據接口服務、Http、FTP、Socket或ETL等多種方式,從應用系統(如道路資產管理、養護業務運營、收費系統、運行監測等)等接入數據,實現行業應用系統數據的全面匯聚。利用互聯網購買服務,根據業務需求獲取互聯網公開數據、網絡輿情數據。
對于既有系統和新建業務系統可通過以下幾種數據接入方式實現數據接入:一是結構化數據接入:根據輕量級表或大批量實時數據,通過FTP、ETL工具實現文件交換、數據庫數據交換和專用接口(Socket、Http、JMS、WebService等)方式進行服務交換等。二是非結構化數據接入:非結構化數據通過FTP方式接入,并將數據抽取至數據資源中心。三是視頻流數據接入:視頻流數據按照標準接口實現流接入,雖然數據資源中心不存儲視頻數據,但是其具備監控和可視化展示能力。
3.4 數據清洗和轉換
數據資源中心建立在充分整合利用現有資源和技術手段的基礎之上,為業務數據提供統一標準的數據采集與整合服務,包括從業務系統中抽取數據,對數據進行解析、轉換,將解析和轉換后的數據裝載入數據庫中。
上述資源建設完成后,根據接入數據內容不同,連接方式各異,需要對抽取接入數據按照標準化方式進行數據清洗與轉換等操作,可以實現在數據采集的過程中,先將一部分垃圾數據過濾掉,提高數據質量。
(1)數據解析
解析來自接口單元的格式化數據(含保存在格式化文件中的數據)。
(2)數據轉換
對所有進入數據資源中心的原始數據進行格式化和規范化,并根據數據質量要求對記錄進行必要的清洗和篩選,以保證進入綜合數據庫的數據有良好的質量。保證接入數據的完整性、一致性、有效性、時效性等幾個特性。主要處理方法:
以組件化的方式實現數據轉換。常用的數據轉換組件有字段映射、數據過濾、數據清洗、數據替換、數據計算、數據驗證、數據加解密、數據合并、數據拆分等。這些組件具有可插拔、可任意組裝、各組件之間通過數據總線共享數據等特點,數據轉換在數據庫中進行數據加工完成。
(3)數據裝載
將轉換和加工后的數據裝載到目的庫中通常是ETL過程的最后步驟。把經過轉換,符合數據規范的數據記錄插入數據存儲即數據庫中。裝載數據的最佳方法取決于所執行操作的類型以及需要裝入多少數據。當目的庫是關系數據庫時,一般來說有兩種裝載方式,包括SQL語句操作、批量裝載。
3.5 數據存儲
經過前期行業數據梳理和接入,建成數據庫群,將數據清洗與轉換的結果存儲到數據庫中。
(1)數據存儲架構
根據對各類數據的分析整理成待整合的數據,按照不同數據類型、數據量、更新頻率,對數據存儲進行合理規劃,在技術上實現關系型數據庫(一般指基礎和結果數據)、分析型數據庫、非結構化數據庫(流數據、文本類,如視頻圖像等數據)分別存儲。
數據版本存儲:在數據資源中心的存儲中,基礎數據與來源的業務系統是定時更新的,大量的業務運行數據由于數據量原因,只有插入操作而沒有更新。當前并未進行歷史版本的存儲,因此當業務系統基礎數據進行更新后,數據資源中心無法追溯到上一版本。由于數據資源中心數據存儲周期長,并有數據統計分析的需要,當對歷史數據進行統計分析時,無法通過歷史數據版本關聯到正確結果。因此針對有分析需求的基礎數據,需要設計和制定版本存儲策略,對數據的更新創建新的版本,用于歷史數據統計分析和數據追溯。
數據分級存儲是根據數據類型、數據量及時效性等,對當前數據和歷史數據進行劃分,將當前業務數據存儲在調整存儲介質上,用于統計分析。充分利用大數據技術,將歷史數據遷移到大數據平臺上,保證了數據的安全性,也可利用大數據技術對較大時間跨度的數據進行分析,因此為提高數據利用效率,提高存儲設備的使用率,降低存儲成本,有必要對數據進行分級存儲,數據的分級存儲也是簡化存儲管理的需要。
(2)數據庫規劃
根據數據采集的內容分析,并按照相關技術要求,該項目將業務、歷史、元數據根據數據資源劃分為原始數據庫、緩沖數據庫、主題數據庫、服務數據庫。
原始數據庫主要作為數據整合業務系統的前置數據庫,數據的主要來源于各個業務部門和相關單位,統一存放在原始數據庫中,原始數據庫是為數據清洗、數據拆分、數據轉換做準備的。
緩沖數據庫:主要來源于原始數據庫,需要按照統一的信息資源標準及編碼標準,從原始數據庫中對數據進行格式轉換、代碼映射、多源融合、統計分析等操作,經過多級融合,建立統一標準的標準數據庫。
主題數據庫:數據內容側重于某一專門的領域,如數據發布、應急、兩客一危等。主題數據庫來源于指標數據庫和標準數據庫,采用面向主題的方式,對原始數據分析與挖掘,形成針對某一主題的綜合數據庫,為綜合應用提供數據支撐。
服務數據庫:按照業務運營需求,通過不同的計算模型和統計方法進行數據聚合,生成不同的數據指標,來指導行業運營和政策制定,滿足統計分析、領導決策的需求。
4 結語
綜上所述,建立高速公路數據資源中心是根據高速公路發展的需要,以梳理信息資源目錄為切入點,將信息資源開發利用作為核心,加速推進數據資源規劃,加強行業數據資源整合,促進跨部門、跨行業、跨地區數據資源共享和互聯互通,消除信息孤島,充分利用數據聚合、融合、數據治理、共享服務、智能分析能力,為業務協同、高速公路管理部門輔助決策等提供全面的數據支持。在遵循國家、行業和地方標準規范的基礎上,制定符合業務發展需求的行業數據及服務標準規范,全面提升了數據資產治理及服務水平。
參考文獻
[1]鄭如春,孫華明,傅哲祥.以場景為抓手夯實企業自身“數字新基建”[J].交通財會,2021(3):39-43.
[2]阮詠華.基于財務視角的數據資產化重點與難點研究[J].商業會計,2020(4):4-5.
[3]段琳,吳東洋,龍江喜.基于數據中臺概念下的財務數據治理研究和實踐[J].數字技術與應用,2020(10):219-221.
[4]王剛,鄭天嬌,葉明.集團信息化環境下的財務中臺構建路徑初探[J].財務與會計,2020(9):64-66.
[5]涂子沛.大數據:正在到來的數據革命,以及它如何改變政府、商業與我們的生活[M].桂林:廣西師范大學出版社,2015.
收稿日期:2024-04-17
作者簡介:張慧燚(1971—),男,本科,高級工程師,研究方向:公路工程。