王逸晨
【摘? 要】近年來,隨著信息技術的不斷發(fā)展,數(shù)據(jù)應用逐漸深入,社會對于數(shù)據(jù)共享與開放的需求也逐漸增加。與此同時,早期存在的系統(tǒng)割裂、數(shù)據(jù)孤島等問題阻礙著政府數(shù)據(jù)對于社會的共享和開放。論文通過分析當前背景及現(xiàn)狀,先對數(shù)據(jù)采集方式進行了描述,對幾大數(shù)據(jù)治理體系核心要素展開了分析,最后從數(shù)據(jù)管理制度和數(shù)據(jù)治理平臺建設兩方面對數(shù)據(jù)治理體系建設進行了研究。
【Abstract】In recent years, with the continuous development of information technology, data application is gradually in-depth, and the social demand for data sharing and opening is also gradually increasing. At the same time, such as system fragmentation, data islands, and other early problems hindered the sharing and opening of government data to society. Through the analysis of the current background and status quo, this paper firstly describes the ways of data acquisition, analyzes several key elements of data governance system, and finally studies the construction of data governance system from two aspects: data management system construction and data governance platform construction.
【關鍵詞】數(shù)據(jù)治理;數(shù)據(jù)采集;數(shù)據(jù)管理制度;數(shù)據(jù)治理平臺
【Keywords】data governance; data acquisition; data management system; data governance platform
【中圖分類號】D630.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2020)06-0154-02
1 引言
2020年4月,中共中央、國務院印發(fā)《關于構建更加完善的要素市場化配置體制機制的意見》,提出“著力加快培育數(shù)據(jù)要素市場,全面提升數(shù)據(jù)要素價值”,這是數(shù)據(jù)首次被列為生產(chǎn)要素之一。隨著信息技術的不斷發(fā)展,社會對于數(shù)據(jù)開放共享的需求不斷提高,數(shù)據(jù)的價值不斷凸顯。
一方面,社會利用政府部門公開的數(shù)據(jù)發(fā)揮了極大的效能。例如,使用醫(yī)療數(shù)據(jù)形成智能健康管理、利用交通數(shù)據(jù)形成智能線路等。另一方面,部分政府部門的各個業(yè)務系統(tǒng)自成一體、各系統(tǒng)數(shù)據(jù)標準不同、系統(tǒng)間數(shù)據(jù)質(zhì)量參差不齊,數(shù)據(jù)孤島、數(shù)據(jù)壁壘等問題日益突出,不僅阻礙了政府部門內(nèi)、政府部門間的信息資源共享,也阻礙了政府與社會間的信息資源共享。
在此背景下,建設一套科學有效的數(shù)據(jù)治理體系,統(tǒng)一規(guī)劃數(shù)據(jù)資源、構建合理數(shù)據(jù)架構、打通內(nèi)外部數(shù)據(jù)具有重要的意義。通過對數(shù)據(jù)資源從采集、整合、共享到應用等全生命周期進行數(shù)據(jù)治理,形成高質(zhì)量的數(shù)據(jù)資源,不斷提升數(shù)據(jù)的服務能力,促進數(shù)據(jù)的使用。
2 數(shù)據(jù)采集
數(shù)據(jù)采集為數(shù)據(jù)治理提供基礎。通過對數(shù)據(jù)資源梳理充分識別需采集的內(nèi)外部數(shù)據(jù)資源,以多種數(shù)據(jù)接入方式將不同類型、不同源頭的數(shù)據(jù)匯總至統(tǒng)一的數(shù)據(jù)池,從而實現(xiàn)數(shù)據(jù)資源的盤點、整合。
2.1 數(shù)據(jù)資源梳理
現(xiàn)狀調(diào)研及梳理。通過問卷調(diào)研、現(xiàn)場訪談等形式,對各部門信息系統(tǒng)的使用情況和內(nèi)部數(shù)據(jù)資源的管理情況進行調(diào)研,梳理、分析并匯總現(xiàn)有系統(tǒng)、數(shù)據(jù)資源類型、數(shù)據(jù)采集頻率、數(shù)據(jù)使用情況,達到“理清家底”的目的。在調(diào)研過程中同步了解各部門對于其他部門及外部數(shù)據(jù)資源的需求,為數(shù)據(jù)開放和共享建立基礎。
數(shù)據(jù)資源類型梳理。識別內(nèi)外部數(shù)據(jù)資源的數(shù)據(jù)類型,包括傳統(tǒng)關系型數(shù)據(jù)(如Oracle、MySQL、SQLServer等)、文件型數(shù)據(jù)(CSV、Excel、Word、PDF等)、多媒體數(shù)據(jù)(視頻、音頻、圖片等)等。根據(jù)不同的數(shù)據(jù)資源類型擬定不同的數(shù)據(jù)接入方案。
2.2 數(shù)據(jù)接入
根據(jù)數(shù)據(jù)來源、數(shù)據(jù)類型的差異性,準備多種數(shù)據(jù)接入方式。制定統(tǒng)一的數(shù)據(jù)接入方案,在數(shù)據(jù)歸集時嚴格按照約定的數(shù)據(jù)格式接入,保證采集數(shù)據(jù)的質(zhì)量。
以人工導入的方式采集。當現(xiàn)有業(yè)務系統(tǒng)數(shù)據(jù)較復雜,并且本身有數(shù)據(jù)導出工具時,可以通過統(tǒng)一的標準導出文件,以人工的方式將文件資源導入統(tǒng)一數(shù)據(jù)池進行治理。
以數(shù)據(jù)抽取的方式采集。對于有成熟接口標準的系統(tǒng),可以通過API的方式抽取數(shù)據(jù)庫中的數(shù)據(jù)。抽取時可使用etl工具對數(shù)據(jù)進行一定加工和轉換,制定兩套標準的轉換規(guī)則,對數(shù)據(jù)的輸入和輸出都要進行相應的轉換[1]。
以前置機的方式采集。當遇到跨部門采集數(shù)據(jù)時,可以部署統(tǒng)一的前置機,被采集方按約定的數(shù)據(jù)結構和文件格式,將數(shù)據(jù)放置到前置機中,采集方通過采集策略將數(shù)據(jù)抽取至數(shù)據(jù)池中。
3 數(shù)據(jù)治理體系核心要素
數(shù)據(jù)治理體系的建立,是充分發(fā)揮數(shù)據(jù)價值的前提條件。建立起可管可信的數(shù)據(jù)治理體系,是解決數(shù)據(jù)“有沒有用”的關鍵路徑。按照國內(nèi)外數(shù)據(jù)治理標準,結合部門實際情況,開展數(shù)據(jù)治理。
通過對數(shù)據(jù)治理核心要素的管控,規(guī)范數(shù)據(jù)采集、編制資源目錄、建立數(shù)據(jù)標準、確保數(shù)據(jù)質(zhì)量、強化數(shù)據(jù)安全,實現(xiàn)數(shù)據(jù)共享開放,探索數(shù)據(jù)綜合利用,才能更好地發(fā)揮數(shù)據(jù)的支撐和應用作用。
3.1 元數(shù)據(jù)管理
元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),即數(shù)據(jù)及信息資源的描述性信息。元數(shù)據(jù)管理是數(shù)據(jù)治理的核心和基礎,可為信息的管理、發(fā)現(xiàn)和獲取提供一種實際而簡便的方法,從而提高數(shù)據(jù)交換效率。
3.2 數(shù)據(jù)資源目錄管理
數(shù)據(jù)資源目錄主要是面向使用者的,為使用者提供統(tǒng)一的信息資源窗口,便于數(shù)據(jù)資源共享交換的檢索與發(fā)現(xiàn)。可根據(jù)已采集的數(shù)據(jù)資源,按照統(tǒng)一的標準規(guī)范,對系統(tǒng)中的表和字段進行梳理,定義目錄名稱、字段名稱、數(shù)據(jù)類型、字段描述等信息項,形成業(yè)務可以理解的信息資源目錄,為應用場景的實際使用提供服務。數(shù)據(jù)資源目錄不僅包括已有系統(tǒng)的數(shù)據(jù)資源,還包括外部數(shù)據(jù)。
3.3 數(shù)據(jù)標準管理
數(shù)據(jù)標準是一套符合自身實際,涵蓋定義、操作、應用多層次數(shù)據(jù)的標準化體系。數(shù)據(jù)標準的制定應以最大原則,結合國家標準、各類行業(yè)標準及自身實際情況進行制定。各類數(shù)據(jù)只有遵循一個統(tǒng)一的標準,才能構成一個可流通、可共享的信息平臺。
3.4 數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量是指數(shù)據(jù)特性滿足明確的和隱含的要求的程度。數(shù)據(jù)質(zhì)量管理指對數(shù)據(jù)生命周期各個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,例如,數(shù)據(jù)空值、數(shù)據(jù)格式不正確、數(shù)據(jù)未按數(shù)據(jù)標準歸集等問題。通過數(shù)據(jù)質(zhì)量管理對已經(jīng)存在的問題進行識別、對可能發(fā)生的問題進行預警。
3.5 主數(shù)據(jù)管理
主數(shù)據(jù)就是各部門業(yè)務系統(tǒng)中最核心、最需要共享的數(shù)據(jù),具有高共享、高穩(wěn)定、高價值的特性。主數(shù)據(jù)標準化建設主要包括主數(shù)據(jù)編碼標準、主數(shù)據(jù)屬性標準及主數(shù)據(jù)集成標準三部分[2]。通過統(tǒng)一的標準,將分散在各個系統(tǒng)中的數(shù)據(jù)進行集中清洗和豐富后,可以應用于操作型應用系統(tǒng)和分析型應用系統(tǒng)。主數(shù)據(jù)管理有利于消除冗余數(shù)據(jù)、提高數(shù)據(jù)處理效率及戰(zhàn)略協(xié)同力。
3.6 數(shù)據(jù)安全管理
采用多種數(shù)據(jù)安全防護技術措施,根據(jù)數(shù)據(jù)分類分級管理的要求,對敏感數(shù)據(jù)、非敏感數(shù)據(jù)按照權限分類分級管理。在數(shù)據(jù)生命周期的各個階段,對數(shù)據(jù)進行安全防護,防止數(shù)據(jù)泄露,保障數(shù)據(jù)安全。
3.7 數(shù)據(jù)共享
規(guī)劃分層次的數(shù)據(jù)共享模式,制定數(shù)據(jù)交換標準,明確數(shù)據(jù)交換共享流程,對數(shù)據(jù)分類分級,形成部門內(nèi)數(shù)據(jù)共享與部門外數(shù)據(jù)開放的兩級數(shù)據(jù)共享體系,滿足內(nèi)部部門的數(shù)據(jù)需求、協(xié)同部門的數(shù)據(jù)需求、公眾的數(shù)據(jù)需求。
4 數(shù)據(jù)治理體系建設
4.1 數(shù)據(jù)管理制度建設
通過對數(shù)據(jù)治理各個核心要素和關鍵環(huán)節(jié)制定相應的管理辦法,明確組織架構、各部門和崗位職責,充分發(fā)揮各級部門的作用,保障數(shù)據(jù)治理的實施和持續(xù)改進,加強數(shù)據(jù)治理的統(tǒng)籌規(guī)劃,使制度起到對數(shù)據(jù)治理工作的支撐作用。數(shù)據(jù)治理制度包括數(shù)據(jù)采集管理辦法、數(shù)據(jù)資源目錄管理辦法、數(shù)據(jù)標準管理辦法、數(shù)據(jù)共享管理辦法、數(shù)據(jù)分類分級管理辦法、數(shù)據(jù)安全管理辦法等。
4.2 數(shù)據(jù)治理平臺建設
數(shù)據(jù)治理平臺建設目的是實現(xiàn)數(shù)據(jù)治理的落地實施、方法承載、技術支持和工具配套。數(shù)據(jù)治理平臺的建設要以數(shù)據(jù)的開放和共享為最終目的,通過中間件技術簡化和統(tǒng)一越來越復雜、煩瑣的信息系統(tǒng)平臺[3]。建立面向服務的體系結構,對數(shù)據(jù)池中整合后的內(nèi)外部數(shù)據(jù)通過發(fā)布、訂閱、中間庫等方式簡單地實現(xiàn)數(shù)據(jù)分發(fā),完成數(shù)據(jù)共享。
5 結語
綜上,建立數(shù)據(jù)治理體系,有助于促進數(shù)據(jù)的共享和開放,提升數(shù)據(jù)這一生產(chǎn)要素的價值。通過數(shù)據(jù)采集識別現(xiàn)有資源、通過數(shù)據(jù)治理要素的把控與數(shù)據(jù)治理的實施整合數(shù)據(jù)資源,實現(xiàn)從“有什么”到“給什么”的轉變,提高數(shù)據(jù)流通性,為數(shù)據(jù)賦能。
【參考文獻】
【1】喬玉濤.基于共享數(shù)據(jù)中心的數(shù)據(jù)治理方法研究[J].科學技術創(chuàng)新,2019(13):104-105.
【2】張印.企業(yè)的主數(shù)據(jù)管理模式[J].中國信息界,2020(02):92-93.
【3】李萌.基于SOA的主數(shù)據(jù)管理架構設計及實踐[J].兵工自動化,2015,34(08):49-51+64.