張小暉 郝潔

摘要:隨著移動互聯網時代的來臨,河北聯通大數據平臺的數據規模也呈現爆炸式增長,傳統的數據管理方式早已無法適應現代化的數據需求。本文聚焦和分析了當前河北聯通大數據平臺存在的問題,構建了一套以元數據驅動、數據質量、數據安全、數據資產等領域統一、完善的大數據治理體系,實現了數據管理標準化、規范化,生產流程標準化和數據管控可視化。
關鍵詞:數據治理;大數據;元數據;ETL
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2020)02-0027-01
1 方案的主要目標
在移動互聯網高速普及,大數據體系快速發展的背景下,數據資源極速增長。海量級數據的積累對通訊運營商提出了巨大的挑戰,如何利用大數據深挖數據價值,如何支撐企業精細化運營,如何釋放數據紅利,已經成為運營商的當務之急。在這其中,保障數據質量是前提。而傳統的數據質量管理方式存在很多問題:對于企業數據資源“看不清,管理難”;無法對數據流轉全過程進行管控;數據運維自動化、智能化程度低等等。
本著以數據質量保障、過程可視化、界面化流程監控為建設的宗旨,通過對數據質量管理現狀的調研與問題需求分析,制定合理的技術方案,主要實現以下目標:
(1)構建企業全景數據視圖,實現數據資源“看得清,易管理”。 對企業數據資源進行統一梳理和管控,通過元數據自動采集工具實現對數據資源的動態更新和維護,形成企業數據資源全景視圖,使得數據資源“看得清,易管理”。基于元數據血緣關系,掌握指標數據生成的來龍去脈,實現對數據資源的深入洞察與分析,提高對企業數據運營的支撐能力。
(2)通過界面化監控視圖,實現數據流轉過程可視化。構建數據流轉全過程可視化的監控體系,以圖形化、流程化的展現形式,直觀展示數據加工處理整體過程各環節的情況,支持從流程的任意節點入手,鉆取獲得任務的執行情況,使維護人員直觀把握系統運行環境、數據加工處理狀況,降低頻繁操作后臺對資源的消耗,實現支撐工作更準時、更穩定、更高效。
(3)通過自動化、智能化手段,提高數據運維效率。一是規范接口信息、流程調度、稽核規則、校驗規則等內容的配置標準,在前臺實現靈活配置,減輕維護人員后臺編寫代碼的工作量。二是配置流程時,僅需配置節點任務的前置條件,通過定時掃描、自動執行的方式實現整個工作流的自動化組織,簡化配置操作,優化資源利用,提高運維工作效率。三是根據數據血緣分析圖,快速定位異常數據節點位置和具體原因,提高數據支撐能力。
2 方案的具體實踐
為解決目前數據質量管理工作中存在的問題,需要構建一套規范標準、全流程、可視化的大數據治理體系。建設思路是借鑒資產管理的理論,把數據看作資產進行標準化的約束,并以元數據驅動,標準化數據質量管理、數據安全管理、數據資產管理等領域,形成統一、完善的大數據治理體系,實現數據管理規范化,生產流程標準化和數據管控可視化,不斷提升大數據平臺數據質量,達到調用便利、范圍完整、質量可靠的要求,增強對業務發展、經營決策的支撐能力。
本系統對數據從采集、存儲、加工處理到應用展現全流程進行端到端的數據管控,主要功能模塊包括:元數據管理、ETL調度管理、數據質量管理、運營監控和工單處理等。各功能模塊相互獨立,且相互關聯,在數據流轉各個環節所管理的對象及流程。
元數據是關于數據的描述,存儲關于數據的信息。元數據管理對數據資源進行識別、描述和追蹤,它是數據質量、流程監控的基礎,涉及數據治理體系的各個領域和環節,貫穿從數據采集、逐層加工與稽核、數據集市到最終應用與服務的整個流程。通過元數據管理,明晰了數據間的轉換關系,實現360°全方位無死角的數據資源管理和端到端的異構數據流全面管控。元數據屬性模板確定之后,采用自動化的元數據采集方式,通過設置掃描規則。通過既定規范,對系統中的指標進行來源分解,生成血緣關系,形成企業全景數據視圖。
ETL(Extract-Transform-Load),用來描述將數據從源端經過抽取、轉換、加載至目的端的過程,是構建數據倉庫的重要環節。圖1為ETL調度管理流程示意圖。
本方案采用全新的任務流組織方式,配置流程時僅需配置節點任務的前置條件,任務流的實際運作關系,是在流程運行期間通過對每個節點任務的前置條件進行定時掃描,動態自行組織起來的。創建流程后,通過資源管理,將數據庫與相應的流程建立關聯,支持異構數據數據集成。通過流程監控實現對ETL過程節點級的數據監控查看流程狀態。支持從流程的任意節點入手,鉆取獲得子節點的流程配置及執行情況。
數據質量管理模塊實現端到端的數據全生命周期的自動化質量監控與質量稽核,保障數據的完整性、準確性、一致性、及時性等,提高數據質量。基于元數據對象(如數據表、視圖),實現可視化的稽核規則稽核配置。
運營監控模塊實現數據加工處理全過程端到端的透明化監控,并以圖形化、界面化的形式展示,確保及時發現數據異常,并回顯到數據質量管理模塊進行跟蹤處理。運營監控模塊的主要功能如:數據的采集與監控、數據的稽核與監控、數據的加工與監控、指標監控。
3 結語
本方案采用全新的任務流組織方式,配置流程時僅需配置節點任務的前置條件,任務流的實際運作關系,是在流程運行期間通過對每個節點任務的前置條件進行定時掃描,動態自行組織起來的。新的任務流配置方式以智能化、自動化的方式實現任務流的組織,簡化了流程配置操作,優化了資源利用,提高了運維工作效率,具有一定實際的推廣價值。
Research and Application of? Intelligent and Visual big Data Governance System
ZHANG Xiao-hui,Hao Jie
(China united network communications limited Hebei Province Information Security Department, Shijiazhuang? Hebei? 050011)
Abstract:With the advent of the Mobile Internet era, the data scale of Hebei Unicom's big data platform has also shown explosive growth, the traditional data management has long been unable to adapt to modern data needs. This paper focuses on and analyzes the problems existing in the current big data platform of Hebei Unicom, and constructs a set of unified and perfect big data governance system driven by METADATA, data quality, data security, data assets, etc. , it realizes the standardization and standardization of data management, Production Process Standardization and data management visualization.
Key words:data governance; big data; metadata; ETL