胡方 顧曉光


摘要:數據治理系統作為大數據平臺的核心基礎支撐系統,旨在為數據倉庫、數據服務平臺、大數據基礎平臺以及實時共享交換平臺,提供統一、便捷、高質量和價值最大化的數據資源,是數據應用和實現數據跨部門聯通的基本保障。該文提出基于大數據平臺的數據治理系統建設方案,為降低后續數據治理的改造成本、實現各部門互聯互通和達到數據資源價值最大化,提供有效基礎支撐。
關鍵詞:數據治理系統;大數據平臺;數據倉庫;數據服務平臺;數據資源
中圖分類號:TP303? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)30-0044-02
開放科學(資源服務)標識碼(OSID):
Construction of Data Governance System based on Big Data Platform
HU Fang1, GU Xiao-guang1,2
(1.Henan Big Data Center, Zhengzhou 450003, China; 2.Nanjing University Business School, Nanjing 210093,China)
Abstract: As the basic support system of big data platform, data governance system aims to provide unified, convenient, high-quality and value maximized data resources for data warehouse, data service platform, big data basic platform and real-time sharing and exchange platform. It is the basic guarantee for data application and cross departmental data connectivity. In this paper, the construction scheme of data governance system based on big data platform was put forward, which provides effective basic support for reducing the transformation cost of subsequent data governance, realizing the interconnection of various departments and maximizing the value of data resources.
Key words:data governance system; big data platform; data warehouse; data service platform; data resource
1 引言
大數據時代數據是公認的一項重要資產。數據作為對真實世界的對象、事件和概念的被選擇屬性的抽象表示,由可明確定義的約定對其含義、采集與存儲進行表達和理解[1]。數據治理是將數據作為資產進行管理,建立統一標準,檢核數據質量,準確描述數據元屬性,分析數據之間關聯關系,形成數據資源目錄,實現數據快速檢索,對數據全生命周期進行管理的整套流程體系[2]。
數據治理系統作為大數據中心的核心基礎支撐系統,旨在為數據倉庫、數據服務平臺、大數據基礎平臺以及實時共享交換平臺,提供統一、便捷、高質量、價值最大化的數據資源。本研究從數據全生命周期的整體視角,通過統籌規劃數據治理系統,在系統建設伊始就實現統一的數據高質量、高標準管理,有效避免后續為數據統一治理而帶來的高昂改造成本,以實現數據資源互聯互通和價值最大化。
2 基于大數據平臺的數據治理系統設計
2.1系統目標
數據治理系統的目標是提高數據的質量(準確性和完整性),保證數據的安全性(保密性、完整性及可用性),實現數據資源在各組織機構部門的共享;推進信息資源的整合、對接和共享,提升組織的整體信息化水平,充分發揮信息化作用[3]。
2.2系統設計
數據治理系統所涉及的技術及功能主要包括數據標準管理、元數據管理、數據質量管理、血緣管理、影響分析、數據資產管理、數據目錄管理、數據生命周期管理等,具體結構可見圖1。
2.2.1數據標準管理
數據標準管理對數據進行全生命周期管控,支持數據標準的制定及審核。落地映射的標準數據進入系統,可供數據使用者對標準進行查詢,同時提供標準版本管理。數據標準管理內容包含數據標準集成、數據標準映射、標準查詢和標準版本管理。
2.2.2元數據管理
元數據是一種電子式目錄,為了達到編制目錄的目的,必須描述并收藏數據的內容或特色,進而達成協助數據檢索的目的。元數據描述了數據屬性的信息,用于支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能[4]。元數據管理主要包含元數據分析管理和采集管理,通過元數據管理可以降低了用戶理解和使用數據的難度。
2.2.3數據質量管理
數據質量管理是通過統一的數據標準來提升數據質量,為政務數據的質量管控提供技術支撐。借助數據標準和元數據工具體系,可以有效識別各類數據的質量問題;針對質量問題,通過血緣管理和影響分析,可以快速定位到責任人,具體數據質量管理流程如圖2所示。
2.2.4血緣管理
數據血緣管理以目標對象為起點、目標分析為終點,按照引用關系逐層擴展。為了能清楚地了解數據加工過程和更完善地處理數據更新機制,需要建立數據血緣分析功能,以使用戶清楚數據生成的來龍去脈,并實現在數據產生、加工融合、數據流通到最終消亡等數據處理過程中形成關聯關系集合。
2.2.5影響分析
影響分析,研究數據變更對業務邏輯、業務流程、數據標準以及平臺技術層面的影響,提供為實現業務所寫的程序代碼等改變并輸出評估報告,給數據更改方和受影響方等參考,幫助數據所有者判斷是否必要進行數據的更改,以及提出受影響方需要做出的準備。
2.2.6數據資產管理
數據資產是能夠為政府治理及社會服務產生價值的數據資源,而非所有的數據都構成數據資產。數據資產管理對數據資產進行分級分類,篩選出有效的數據資產。在資產權限管理的指導下,對內可進行共享和交換數據,對外可開放共享數據及提供API接口、供應用層訪問,同時支持資產使用情況的調用統計。
2.2.7數據目錄管理
數據目錄管理實現數據目錄從創建、發布、維護到對接的動態規范管理。通過對采集的數據源及元數據按目錄層級進行存儲,可存儲表數據、圖片和視頻等數據資源及元數據,支持數據服務平臺和上層應用展示,方便用戶快速查找數據資源,同時支持政務信息資源目錄的編制以及與各級目錄平臺的對接。
2.2.8數據生命周期管理
數據生命周期管理,是對信息系統的數據在整個生命周期內的流動進行管理(創建、初始存儲、過期刪除等)。數據生命周期管理支持將所涉及過程自動化,根據指定的策略將數據組織成各個不同的層,并基于關鍵條件自動地將數據從一個層移動到另一個層。
3 結論
本文從數據全生命周期的整體視角,設計基于大數據平臺的數據治理系統。該系統在建設之初就為實現統一的數據高質量、高標準管理而設計,預期能夠滿足組織在數據治理方面的功能需求,并有效避免系統為實現數據的統一治理而帶來的高昂改造成本,為數據資源互聯互通和價值最大化提供支撐。
參考文獻:
[1] 胡銳, 芮忠. 基于數據中臺的高校數據治理系統的設計[J]. 電子世界, 2020(12):187-188.
[2] 安倩楠. 基于大數據技術的智慧校園整體構建研究[J]. 電腦知識與技術, 2021,17(17):94-95+107.
[3] 林海.數據治理在合肥市政府大數據平臺中的應用和實踐[J].電腦知識與技術, 2019,15(10):281-283.
[4] 姚洪.基于數據中臺的數據治理系統的設計與實現[J].科學技術創新, 2020(35):74-75.
【通聯編輯:王力】