


摘要:在數字化時代,數據治理可發揮出激發數據價值、提升工作效益的關鍵作用。文章探討了如何在數字化時代構建計算機重要數據治理體系,根據國際數據治理研究所(DGI)和國際數據管理協會(DAMA)框架,基于Spark數據處理引擎設計了綜合數據治理流程,旨在優化數據管理體系,提高數據透明度,統一數據標準,降低共享難度,增強信任,規避風險。計算機重要數據治理體系包括統一數據標準、元數據管理、數據建模和集成、生命周期管理、質量保障、開放、安全及應用優化等核心內容,可以為企業的數據管理和決策提供堅實支撐。
關鍵詞:數據治理;體系構建;框架模型
中圖分類號:TP392" 文獻標志碼:A
0 引言
數字化時代的發展以計算機技術及互聯網平臺為依托,目前,技術創新及其應用已經發展為數字化時代的核心。在企業日常經營與發展過程中,數據量呈現出不斷增加的趨勢,而應用云計算、大數據等相關技術,企業可實時、便捷化應用各類數據資源,但數據網絡安全問題日益凸顯,須要采取合理技術和手段深化數據治理。基于此,學術界和業界不斷加大對數據治理及其隱私保護的研究力度,文章探討計算機重要數據治理體系的構建,以期深化數字治理成效,在保障數字信息安全的同時,助力數字化時代實現更好發展。
1 典型數據治理框架
目前,學術界與業界關于數據治理的定義存在2種不同的觀點。(1)國際數據治理研究所(DGI)觀點。該觀點認為數據治理是通過一系列信息相關過程實現決策權和職責分工的系統[1],規范了企業在數據估值、創建、存儲、使用、歸檔及刪除等各環節的行為,是一種輔助企業制定決策和問責框架的工具[2]。(2)美國教育部隱私技術援助中心及國際數據管理協會(DAMA)觀點。該觀點認為數據治理是圍繞數據全生命周期的活動集合,主要職責是對數據信息進行管理,對數據的全生命周期進行監控[3]。其中,DAMA更具體地指出,數據治理須要對數據和信息進行組織和管理,確保數據資產控制的有效性和使用權的合理性。盡管2種觀點在表述上存在差異,但都強調了數據治理在規范企業數據管理、保證數據質量、實現數據價值方面的重要性。
結合DAMA與DGI兩大主流數據治理框架,本文構建了基于Spark數據處理引擎的綜合型數據治理模型,在描繪計算機關鍵數據治理整體架構的同時,深入剖析治理行為的各個層次,力求通過數據治理體系的優化提升數據價值實現過程的透明度,解決數據格式的標準統一性問題,降低數據開放共享的難度,增強科研工作者的信任感,提高數據治理過程中的風險規避能力,最終為數據治理體系的進一步完善提供堅實的理論支撐和參考。
2 數據治理體系設計
根據實際需求,本研究基于Spark數據處理引擎設計數據治理體系,明確其具體功能與工作流程[4]。在此基礎上,針對體系方案中對各項功能實現所提出的要求,本文進一步設計了數據治理系統,明確技術架構,揭示其具體的實現方案。
2.1 功能設計
數據治理系統主要有4個功能,包括元數據管理、數據采集、數據倉庫管理、實時數據處理。各功能還包括多項子功能,如圖1所示。
2.1.1 元數據管理
元數據管理具有多項關鍵功能,包括元數據信息預覽、元數據檢索以及表級和字段級血緣分析。元數據信息預覽和檢索功能能夠詳細展示元數據信息,通過特定條件進行檢索;表級和字段級血緣分析是元數據管理中用于檢查數據質量和理清數據資產的重要工具,能夠幫助快速定位數據分析中的問題。
2.1.2 數據采集
數據采集具有2個主要功能:采集配置和數據預處理。采集配置允許自定義數據源信息,統一管理離線或實時的數據采集任務,實現對多源數據的統一歸集;數據預處理在采集日志數據時,會對日志消息進行合法性校驗,在保證數據完整性的同時,根據數據類型及其特點設計不同的采集鏈路,確保各類數據能夠準確對接到存儲框架中。
2.1.3 數據倉庫管理
數據倉庫管理包含數倉數據預覽、數據倉庫配置、自定義函數和任務調度等關鍵功能。數倉數據預覽可瀏覽數據并提供字段查詢;數據倉庫配置通過Spark SQL調整結構并生成變更日志;自定義函數處理復雜計算需求;任務調度管理數據倉庫轉換任務,支持多種腳本和精確調度,是數據治理自動化的核心。
2.1.4 實時數據處理
實時數據處理包含實時任務配置和實時指標查看2項關鍵功能。實時任務配置主要用于設置Kafka數據源、任務流(包括任務名稱、描述、計算腳本和執行計劃),綁定數據源和任務流以完成配置;實時指標查看以圖表的形式在數據治理系統前端對處理后的數據進行展示,為用戶查看和使用提供便利。實時任務配置和實時指標查看2項關鍵功能共同構成了數據處理模塊的核心流程。
2.2 工作流程設計
結合前文需求分析與功能設計,本文對數據治理系統運行流程進行設計。概括而言,數據治理系統的運行主要包括數據采集管理、數據預處理、數據平臺管理、數據加載、實時數據處理、前端接口與可視化等步驟[5]。
2.2.1 數據采集管理
數據源配置模塊主要用于定義數據采集范圍和采集策略,配置數據源信息。數據采集任務定義模塊主要根據業務需求定義采集任務,包括離線采集和實時采集。采集周期和采集策略模塊主要用于設定數據采集的頻率和方式,以滿足不同數據的實時性需求。
2.2.2 數據預處理
數據清洗任務模塊主要用于定義數據清洗規則,清理數據中的異常、重復或無效值。數據清洗腳本配置模塊主要用于編寫和配置清洗腳本,自動化處理數據。
2.2.3 數據平臺管理
數據倉庫管理模塊主要用于定義和管理數據倉庫的結構和層次。元數據管理模塊主要用于管理數據的元數據信息,如字段描述、數據來源等。數據預覽與檢索模塊主要提供數據的預覽和檢索功能,方便查看和理解數據。
2.2.4 數據加載
數據倉庫抽取模塊主要根據預設的規則,從數據源中抽取數據并加載到數據倉庫中。
2.2.5 實時數據處理
實時數據管理模塊主要用于管理和維護實時數據流,確保數據的實時性和準確性。任務調度模塊主要負責任務的調度和執行,確保數據處理任務的高效運行。任務配置與展示模塊主要用于配置數據處理任務,展示任務的狀態和執行結果。計算任務配置模塊主要用于配置計算任務,包括離線計算任務和實時計算任務。任務執行狀態模塊主要用于實時展示任務的執行狀態和進度。
2.2.6 前端接口與可視化
開放前端實時數據接口模塊主要為前端提供實時數據接口,支持前端應用的實時數據需求。數據鏈路可視化模塊主要通過可視化工具展示數據的處理流程和鏈路,便于理解和分析。
通過數據處理系統,用戶可以對數據進行全面管理、高效處理和深入分析,以此將數據轉化為有價值的業務洞察,為企業戰略決策和業務發展提供支持。
2.3 技術架構設計
在對外部數據的應用中,各數據治理系統層級與組件的簡要描述(技術架構)如表1所示。本文所設計的技術架構有助于用戶更加清晰地理解整個數據處理的流程。
3 系統功能性測試
通過模擬真實數據源中的用戶手機短信、通話記錄、移動應用程序等數據信息,本文對數據治理系統各功能模塊的運行情況進行測試,以驗證系統功能的完整性、可用性以及業務邏輯的正確性,判斷其是否可以滿足用戶的實際業務需求。
3.1 元數據管理模塊功能測試
數據治理系統元數據管理功能的測試用例、其測試內容以及測試結果如表2所示。
3.2 數據源配置模塊功能測試
數據源配置模塊為大數據治理系統輸送原始數據,通過數據源配置,連通第三方系統的數據庫信息,為數據治理和數據分析工作打下基礎。本文在對數據治理系統數據源配置模塊功能進行測試之時,主要將數據源完整性和連通性作為測試指標。測試用例、測試內容與測試結果如表3所示。
4 結語
受到所處環境、數據治理目標和需求等不同因素的影響,數據治理具有特異性特征。本文對數據治理系統進行設計,分析系統功能需求,結合系統需求設計各模塊的具體功能以及各功能模塊間的工作流程,明確其整體技術架構,對于各企業進行數據治理系統構建有一定的啟示作用。
參考文獻
[1]包冬梅,范穎捷,李鳴.高校圖書館數據治理及其框架[J].圖書情報工作,2015(18):134-141.
[2]MIRJANA P B,TINE B,MAJA M,et al. Big data usage in European countries[J]. Cluster Analysis Approach,2020(1):191-198.
[3]MARTHA D B. Data governance and stewardship[J]. NASN School Nurse,2019(3):149-151.
[4]范家寧.基于Spark的多數據源大數據治理平臺研究[D].北京:中國地質大學,2020.
[5]劉謙博.基于Spark的實時數據治理系統的研究與實現[D].成都:西華大學,2023.
(編輯 王永超)
Research on construction of computer important data governance system in digital age
ZHANG" Tian, LI" Dandan, LI" Peixun
(Nanchong Vocational College of Science and Technology, Nanchong 637000, China)
Abstract: In the digital age,data governance can play a key role in stimulating the value of data and improving work efficiency. This paper discusses how to build a computer important data governance system in the digital age. Based on DGI and DAMA frameworks, a comprehensive data governance process is designed using Spark data process engine to optimize the data management system, improve data transparency, unify data standards, reduce the difficulty of sharing, enhance trust, and avoid risks. Computer important data governance system includes unified data standards, metadata management, data modeling and integration, life cycle management, quality assurance, openness, security and application optimization and other core contents, which can provide solid support for enterprise data management and decision-making.
Key words: data governance; system construction; framework model
作者簡介:張甜(1998— ),女,助教,學士;研究方向:計算機網絡與人工智能。