[肖勝筆]
隨著大數據技術的飛速發展,大數據已經融入到了各行各業。從國家戰略“中國制造2025”到貴陽大數據交易所成立,從IT(信息技術)到DT(數據技術)時代,都離不開一個關鍵詞——數據。數據與業務相伴相生,業務的數據化和數據的業務化,是當前各行業、各領域數據服務和應用的重點和趨勢。如何從沉淀的海量數據中發現、預警問題,并使用數據解決問題、創造價值,是當前國內外研究的熱點。
在習近平總書記提出的推動實施國家大數據戰略,加快建設數字中國背景下,2019 年11 月,黨的十九屆四中全會在《中共中央關于堅持和完善中國特色社會主義制度、推進國家治理體系和治理能力現代化若干重大問題的決定》中首次明確數據作為生產要素參與社會分配。2020年3 月發布的《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》中提出,加快培育數據要素市場,推進政府數據開放共享,提升社會數據資源價值,加強數據資源整合和安全保護。2020 年5 月發布的《中共中央國務院關于新時代加快完善社會主義市場經濟體制的意見》中提出,要加快培育發展數據要素市場,建立數據資源清單管理機制,完善數據權屬界定、開放共享、交易流通等標準和措施,發揮社會數據資源價值。推進數字政府建設,加強數據有序共享,依法保護個人信息。
發展以數據為關鍵生產要素的數字經濟,全面培育數據要素市場,不僅依賴于數據技術進步、數據產業發展、數據應用創新,更需要發揮社會多元主體作用,通過多樣化治理手段構建覆蓋社會各層面的數據治理體系,充分釋放數據價值發揮的驅動力、打破數據價值釋放壁壘[1]。
在數字經濟時代,數據成為可以變現交易的資產,即組織合法擁有和控制的,能夠獨立計量,產生效益和價值的數據資源。但數據資產不同于傳統的財務資產,數據的可拷貝、可重用以及數據的搜集、存儲、使用都有其特殊性,數據還涉及到個人隱私、運行的安全;當萬物互聯時,為便于交換,還需要數據的標準化,這些都是數據治理要解決的問題。那么,到底什么是數據治理呢?
針對數據治理的定義,國際國內有關機構都給出了具體描述。國際數據管理協會(DAMA)指出:數據治理是對數據資產管理行使權力和控制的活動集合[2]。國標《信息技術服務 治理 第5 部分:數據治理規范》指出:數據治理是數據資源及其應用過程中相關管控活動、績效和風險管理的集合[3]。
也就是說,數據治理其實是一種體系,是一個關注于信息系統執行層面的體系,這一體系的目的是整合IT 與業務部門的知識和意見,通過將流程、策略、標準和組織的有效組合,對信息化建設進行全方位的監管。數據治理需要組織領導的授權和業務部門與IT 部門的密切協作,其目標是保證數據的有效性、可訪問性、高質量、一致性、可審計和安全性。
隨著數據成為數字經濟發展的關鍵生產要素,數據要素市場得以不斷發展。在信通院發布的《數據價值化與數據要素市場發展報告(2021 年)》中,將數據要素的價值化分為數據資源化、數據資產化和數據資本化三個發展階段[4]。目前全球尚處于數據資源化的初級階段,數據采集、數據標注有望成為撬動產業規模發展的新引擎。
數據資源化就是通過數據采集、整理、聚合、分析等,使無序、混亂的原始數據形成可采、可見、標準、互通、可信的有序、有使用價值的高質量數據資源。其本質是提升數據質量、形成使用價值的過程。主要包括數據采集和數據標注兩部分。目前我國在數據采集、數據標注環節初步形成了產業體系,數據管理和數據應用能力不斷提升。
數據資產化是數據通過市場流通交易給使用者或所有者帶來經濟利益的過程。數據資產化階段,數據在市場上進行流通交易,推動數據商品變現,創造經濟利益,實現數據價值化。其本質是形成數據交換價值、初步實現數據價值的過程。主要包括數據確權、數據定價和數據交易三個部分。目前我國數據確權處于政策萌芽期,地方通過出臺相關文件、建立相關平臺來探索數據確權,但整體尚處于起步階段。
數據資本化階段,數據被打包成金融產品進入資本市場。數據資本化主要有兩種類型,數據信貸融資與數據證券化。其本質是實現數據要素的社會化配置的過程。目前,全球已有部分大型企業對數據產品的資本化進行了點狀探索,但尚未形成實踐及理論體系。
國標《信息技術服務 治理 第5 部分:數據治理規范》提出:數據治理框架包括頂層設計、數據治理環境、數據治理域和數據治理過程四大部分[1]。總體框架如圖1 所示。

圖1 數據治理總體框架
頂層設計包含數據相關的戰略規劃,組織構建和架構設計,是數據治理實施的基礎。
數據治理環境包含內外部環境及促成因素,是數據治理實施的保障。
數據治理域包含數據管理體系和數據價值體系,是數據治理實施的對象。
數據治理過程包含統籌和規劃、構建和運行、監控和評價以及改進和優化,是數據治理實施的方法。
根據數據治理域的內容,統籌考慮數據管理體系與價值體系相關活動,按數據產生、修改、組織、使用、發現、提升、歸檔的全生命周期管理進行活動劃分,設計數據治理的邏輯架構(如圖2 所示),提出通用解決方案。

圖2 數據治理邏輯架構
在組織提供的軟硬件基礎設施與網絡環境條件下,對不同來源渠道的結構化和非結構化數據進行數據治理,主要包括數據洞察、數據采集匯聚、數據管理、數據服務、數據安全管理和數據標準管理等治理環節。
如圖3,數據洞察是組織從業務視角和用戶視角,對擁有的數據及其內在規律進行探索分析,以了解數據的基本內容、結構、分布等信息,識別不同數據集的關聯,挖掘數據價值,盤點數據資產。

圖3 數據資產盤點方式
數據洞察的過程就是對組織數據資產進行盤點清查的過程。在實際操作中,通過對暗數據的發現整理,對數據進行有效分類,才能避免一刀切的控制方式,對數據進行更精細的安全管理,使數據在共享使用和安全使用之間獲得平衡。
數據采集匯聚是通過對不同來源的結構化數據和非結構化數據進行系統數據抽取和人工數據采集,經過清洗轉換、重構聚集、交換共享等,實現對數據的定時或實時匯聚整合。通過數據的采集匯聚,可實現多種數據源的數據采集,如常用的關系型數據庫、大數據平臺等,保證數據源與目標端的數據一致性,達到數據同步;通過靈活地進行數據轉換規則設計,實現不同部門的數據協同與交換;將經過清洗轉換后變為統一格式的正確數據,存儲到數據中心或者數據倉庫,用于提供數據共享、數據分析等服務。
通過對采集匯聚后的數據進行管理,包括元數據管理、主數據管理、數據建模、數據融合分析、數據質量管理和數據資產管理等,對組織的數據資源進行全面掌控,有效支撐各種數據服務。
元數據是“關于數據的數據”,元數據標注、描述或者刻畫其他數據,使檢索、解讀或使用信息更容易。對數據上下文背景、歷史和起源進行完整的記錄并管理,建立元數據標準,提升戰略信息(如數據倉庫、客戶關系管理CRM 等)的價值,幫助分析人員作出更有效的決策。組織應明確元數據管理的范圍和優先級,建立元數據管理的策略和流程,開展元數據創建、存儲、整合與控制等,并持續改進和優化,如圖4 所示。

圖4 元數據管理方法
主數據(Master Data)是描述核心業務實體的數據,如IT、業務、應用、資產等,這些數據變化相對緩慢,并且通常跨業務重復使用。主數據管理的關鍵在于“管理”,包括工作流管理、任務管理、服務管理等。主數據管理不會創建新的數據或新的數據縱向結構。相反,它提供了一種方法,使組織能夠有效地管理存儲在分布式系統中的數據。主數據管理使用現有的系統,并從這些系統中獲取最新信息,通過先進的技術和流程,自動、準確、及時地分發和分析整個組織中的數據,并對數據進行驗證和歸檔,如圖5 所示。

圖5 主數據管理體系
數據建模是指建立數據模型解決現實問題的過程,即通過對現實世界各類數據的抽象組織,確定數據庫需管轄的范圍、數據的組織形式等,直至轉化成現實的數據庫,這個過程是周期性循環的。數據治理體系下探討的數據建模主要是指建立數據倉庫模型。數據倉庫模型是數據模型中針對特定數據倉庫應用系統的一種特定數據模型。一般分為業務模型、領域模型、邏輯模型、物理模型四個層次。對應地,數據建模過程可分為如圖6 所示的四個過程。

圖6 數據建模過程劃分
數據分析與挖掘是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息,形成結論,對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。數據分析可幫助組織作出更準確的決策判斷,以便采取適當行動。
數據質量管理目標是建立數據質量管理體系及實施機制、優化數據質量并持續改進,滿足數據應用的需求。
數據資產管理是組織規劃、控制和提供數據及信息資產的一組業務職能,主要包括數據資產識別、數據權屬認定、資產價值評估和資產流通等環節。組織可依賴數據資產深入理解客戶,創新產品和服務,降低成本和控制風險,做出更有效的決策,提高運營效率。組織應識別數據資產,明確數據權屬,定義數據開放共享、交換和交易等流通方式,保證數據流通過程的合法合規、數據安全和隱私。
組織通過明確數據服務的內涵,形成數據服務目錄,不斷改進和優化數據的服務能力。數據查詢、業務專題分析和決策支持等數據服務,可為數據使用者開展數據統計分析、挖掘數據規律、輔助領導決策等提供支撐。數據交易服務能有效促進數據在全行業的流通,充分發揮數據作為生產要素的價值。數據智能應用通過對數據價值的深入挖掘,為生產生活提供更智能的便利服務。數據服務評價為數據使用及價值發揮的有效性進行評估,有效促進數據服務能力的提升及創新。
組織通過制定數據安全的管理目標、方針和策略,建立數據安全體系,實施數據安全管控,持續改進數據安全管理能力。主要可從用戶管理、訪問控制、數據保護和數據監控等方面進行管理,如圖7 所示。

圖7 數據安全管理體系
組織通過明確數據標準的內涵和范圍,建立數據標準體系及其管理機制,以支撐數據的標準化建設,保障數據在應用過程中的一致性。數據的標準管理主要分為技術標準、數據標準和管理制度三大類,如圖8 所示。
在數據治理各業務環節中,數據采集匯聚、元數據管理、主數據管理、數據分析與挖掘、數據質量管理、數據服務和數據安全管理等主要依賴于對應軟硬件產品的能力來開展工作。而數據洞察、數據建模、數據資產管理和數據標準管理的工作開展更多依賴于對組織業務數據與業務流程的深度分析與解讀,偏向數據實體關系分析與模型設計等技術服務能力的要求。因此,組織在開展數據治理活動時,應根據自身業務特點規劃數據治理各環節實施策略,有針對性地選擇對應軟硬件產品及服務開展工作。

圖8 數據標準管理體系
本文在國家推動實施大數據戰略,全面培育數據要素市場的發展背景下,基于現有數據治理體系理論的研究成果,圍繞數據洞察、數據采集匯聚、數據管理、數據服務、數據安全管理和數據標準管理六個方面提出一個通用的數據治理解決方案,旨在為政務部門或公司企業等組織開展數據治理活動提供解決思路的指導與參考。