劉運席 隆巖
(山東省人民政府辦公廳)
大數據像水、礦石、石油一樣,正成為新的要素資源,以容量大、類型多、存取速度快、應用價值高為主要特征,具有可復制、可共享、無限增長和供給的稟賦,打破了傳統要素有限供給對增長的制約,為持續增長和永續發展提供了基礎和可能[1]。大數據是繼云計算、物聯網、移動互聯網之后信息技術融合應用的新焦點,已逐步成為經濟持續增長的新引擎,并快速驅動整個實體經濟的數字化轉型升級,成為創新驅動發展和建設現代化經濟體系的新動力。2015年,《國務院關于印發促進大數據發展行動綱要的通知》從多方面闡述了大數據發展的重要性和對我國發展建設的意義[2]?!笆奈濉币巹澨岢鲆獦嫿ㄈ珖惑w化大數據中心,培育壯大大數據等新興產業,并在政務服務、市場、經濟治理、綠色發展、社會治安等多方面提到大數據的應用[3]。
大數據所涉及的資料量規模巨大到無法在一定時間內通過常規軟件工具進行捕捉、管理、處理,并整理成為幫助經營決策的數據集合或資料,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[4]。在實際中,高質量的大數據治理成果已成為政府、企業最核心的隱形財富,誰掌握了高質量的數據,誰就能獲得先機[5]。2020年9月發布的《關于加快推進國有企業數字化轉型工作的通知》中明確提到,建設基礎數字技術平臺(數據中臺),構建數據治理體系,實現數據治理、數據采集、數據交換、數據融合、數據共享,加快推進產業數字化創新,全面推進數字產業化發展[6]。在學術研究中,大數據的治理與服務已經成為普遍關注的話題[7]。縱觀近十年大數據相關的研究,學者使用最多的關鍵詞為大數據、云計算、數據挖掘等,數據管理僅排在第25位[8-9]。
隨著當前信息化深入推進,數據呈幾何式暴發增長,組織的數據治理能力不足逐步顯現出來,成為困擾組織的重大問題之一,若缺乏對大數據有效得當的治理,那么很難正確整合開發數據資源,無法發揮其蘊含的巨大價值[10]。
一是數據沼澤或數據多頭管理問題,缺少專門對數據管理進行監督和控制的組織。例如,有許多數據源,卻不知道誰擁有數據,無法聯系相應的負責人。不知道組織中已經存在哪些數據集,也很難找到有意義的、可信賴的數據,沒有適當的流程來請求他們需要的數據,沒有簡單的方法在一個地方準確識別可信數據源,也不知道數據意味著什么或者應該如何使用數據。
二是組織多系統分散建設,沒有統一、規范的數據標準和數據模型,尚未形成完整的數據治理體系,缺乏數據管理的流程和機制。各信息系統間的數據資源整合和共享能力不能滿足組織發展的要求。例如,數據標準不統一、技術類型不統一等造成數據不一致、不規范等。由于數據元和數據編碼不一致造成了代碼數據混亂等問題。
三是缺乏統一的數據質量管理流程體系。缺少對數據質量的有效管理及考核,可能會導致在跨部門、跨領域數據集成與共享時數據質量難以保證,同時,數據質量管理工作能力有所欠缺。例如,缺少數據質量檢查,存在大量的臟數據,影響了應用效果,缺少問題數據管控,發現問題數據后不能進行合理的處理等。
四是數據安全管理重視程度不夠。由于缺乏對數據架構管理統一的要求,會造成在數據共享與應用過程中安全管理欠缺,數據提供方對于數據的共享安全存在的疑慮會降低在單位內數據共享的程度。例如,缺少流程審批機制,造成數據安全管控缺失,存在數據安全風險。缺少敏感數據的管控,造成敏感數據不安全的問題。
當前,國內對大數據治理的研究大多都基于宏觀層面,實證性研究較少[11],也處在比較基礎的階段[12],理論與實踐的結合度不高,尚缺乏系統深入的著作和成果。國外特別是G8國家比較重視數據治理研究,形成了許多研究成果,對數理治理提出了許多建設性的研究思路和方向,但在大數據治理與服務體系建設方面,也是在不斷糾錯與發展之中,有關數據治理的框架體系等仍是未來研究的重點[11]。
一個成功實施的大數據治理項目能夠解決組織內或組織間的數據孤島問題[13],滿足多樣化的數據采集、交換共享需求,提供易用的數據服務實現數據匯聚、按需流動與共享。基于組織業務規范,實現與數據服務深度融合。實現數據資源的歸集,數據整合和數據治理實現數據資產化,通過面向各業務領域的深度融合實現數據的增值,通過數據交換與共享提供有價值的數據資產服務,通過數據平臺加區塊鏈技術,各環節上鏈保證數據資產增值過程可回溯、數據安全可信。
實施大數據治理項目建設需要制訂大數據治理實施方案,全面梳理組織的信息系統數據,并進行現狀分析。厘清大數據治理項目的工作范圍是做好大數據治理項目的首要工作,一般包括項目實施的數據范圍、組織用戶范圍和工作范圍。通過對大數據管理(包括數據質量管理、數據標準管理、數據安全管理、共享開放、數據架構、數據全生命周期管理、保障機制)的現狀和問題分析提出數據治理和服務的改進建議,明確下一步數據治理的發展方向。比如,建議全面建立數據管理組織機構,覆蓋組織內各部門和信息化內部支持單位等;發布組織數據管理辦法,明確數據管理目的、原則、要求,并形成各職能領域的管理規范及指南;組織建立數據權責體系,并以主題域為依托,以問題多發數據、重點指標相關數據、跨部門跨系統協同數據為重點,開展數據認責工作等。建立數據質量管理體系,實現數據質量需求、檢查、分析、提升的數據質量閉環流程,以數倉進行試點落地,進一步推動源系統開展源端治理工作,從源頭上提升數據質量,做到事前預防、事中控制,同時以數據應用為目標,從數據應用系統端同步開展數據質量的事后檢查,實現從源端到應用端數據質量的全面提升等。建議建設組織數據標準體系,發布為企業級數據標準。針對組織機構等數據應用過程中面臨的標準不統一等突出問題,推動統建系統全面落標,保證數據的一致性,為共享應用提供支撐。建立組織數據共享目錄,制定數據共享流程,促進數據共享和交換,打破數據孤島。梳理核心數據在業務部門、應用系統的分布關系,識別可信數據源。建立數據安全保護機制,制定數據訪問授權流程,保證數據安全。建立數據全生命周期的管理流程和規范要求,確保在信息化全生命周期過程中,數據能夠得到有效管理,并滿足多樣化的數據應用需求等。
通過統一有效的頂層架構設計,打通各大數據治理與服務間的數據關系,形成一體化的數據治理與服務體系(即一體化大數據平臺)非常有必要,形成基于統一運行管理運維可視化界面,解決政府和企業面臨的數據孤島、數據管理、數據治理及數據安全的相關問題,提升組織的數據應用價值,增強競爭力(一體化數據治理與服務框架如圖1所示)。

圖1 一體化數據治理與服務框架圖
一體化大數據平臺通過數據實體管理、數據標準管理、質量管理、安全管理等數據治理組件實現包含數據標準、業務規則的業務規范管理,以業務規范為基礎生成數據采集、交換、加工、融合、質量處理、脫敏、開放共享等數據服務,數據服務可以直接使用業務規范的數據標準與業務規則,促進了業務規范與數據服務的深度融合。
一體化大數據平臺以規則為核心,統一了數據資源接口、服務接口、數據處理接口、元數據接口,將數據、計算、服務等作為插件插入到大數據平臺,方便擴展和融合?;诮y一工具快速生成服務模型(含交換、傳輸、整合、數據質量、共享等服務模型),方便基于模型的賦能,實現服務和算法松耦合、可重用,方便融合,無孤島,提供數據治理和服務,方便數據資產全面管理,提升數據質量和安全管控。實現集中運維和安全管理,并能通過工具可視化管理。
一體化大數據平臺在了解數據(數據盤點)方面,提供初始化數據的模板和工具,通過豐富業務屬性、模板導入等迭代實現數據盤點,并通過平臺數據管理模塊完善數據架構、數據標準、數據質量、數據安全等相關信息。從平臺中導出數據模型、數據分布、數據流向、數據質量、數據安全等數據現狀明細及相關統計信息。以此達到降低數據盤點成本,提高了盤點效率的目的。
一體化大數據平臺在治理數據(數據治理活動)方面,基于流程進行E2E數據管理,采用以業務規范為核心的自上向下和自下向上相結合的方式抓好基礎數據的管理,從源頭提升數據質量,通過數據治理生成數據標準、業務規則等業務規范,方便基于業務規范生成數據服務。提供數據資源目錄、全景化視圖、治理評估等指導信息系統設計、優化、建設、運維各階段工作。
一體化大數據平臺在利用數據(采集、交換、加工、共享)方面,根據數據流程清冊,發現數據流轉瓶頸,提升業務流轉效率。利用數據治理的數據標準、業務規則生成數據采集、交換、加工、質量、脫敏、共享等數據服務工具,實現數據服務與業務規范的深度融合。實現了跨部門、跨區域的數據采集、交換與共享,解決數據孤島、復雜情況下堵包丟數據問題,滿足多樣化的數據采集、交換共享需求,提供易用數據服務實現數據匯聚、按需流動與共享。
一體化大數據平臺實現組織數據的資產化處理,將數據進行業務化封裝或者重構,以交換、共享、開放等方式提供面向業務的數據服務,支撐前后端業務快速創新,實現數據資產的增值,實現組織的數據集中、融合、共享及流轉,實現數據業務化、數據資產化,保證數據的安全和質量,加快業務數據流轉效率,提升數據價值。數據資產化很重要的就是要完善數據實體(人、財、物、事等),使其具有元數據、標準、模型、標簽、質量、安全等屬性,方便數據的管理和增值。數據資產服務化是數據服務基于大數據平臺實現數據的業務化封裝或者重構,以服務的方式給前后臺業務系統、接入終端等提供安全可控的數據。以多種方式實現數據服務價值化,為區塊鏈的落地提供了可能。
一體化大數據平臺內置數據架構管理、數據來源管理、數據質量管理、數據安全管理等數據管理組件,建立統一的業務規范包含數據元、取值范圍等數據標準,數據加工、質量處理、脫敏、交換共享等業務規則,以業務規范為基礎生成數據采集、交換、加工、融合、質量處理、脫敏、開放共享等服務,通過可視化配置和智能化運維極大地降低了項目的運維風險和總體成本。
一體化大數據平臺內置數據服務總線,對外開放門戶,提供統一數據服務,接口接入規范,可對各信息系統的接口進行統一管理,在此基礎上可實現各信息系統之間數據的有效整合,提供面向各信息系統的數據共享及共享流程管理,保障各信息系統與政府、企業、院所等之間數據互通、業務交互。
一體化大數據平臺內置區塊鏈引擎,通過可視化配置工具實現信息資源(部門、節點、數據庫等)、服務(服務配置、服務共享、關鍵運行日志)、關鍵業務(庫表數據、文件數據、接口數據)等的上鏈功能。主要包括數據上鏈、可信數據聯邦、可信數據服務、可信數據交換共享、可信數據管理、可信數據質量管理、可信數據安全、可信數據生態等功能,保證數據交換、集成、融合、治理、利用等過程均在可信環境下進行,全過程公開透明。
總之,大數據治理工作是一把手工程,需要組織內各方的共同參與,共同做好數據治理的頂層設計、局部落地、數據管理持續迭代工作,需要在組織內成立專門的數據管理機構,統籌協調好各方資源,共同開展數據管理活動,推動大數據治理體系建設,提升數據管理能力。將數據管理活動落到一線信息系統內并嵌入到系統全生命周期,解決好數據治理過程中存在的數據質量問題,從源頭提升數據資源質量,促使參與各方共同分享高質量數據治理成果,打造“共建、共治、共享”的數據治理新格局,構建一體化的大數據治理體系。從而提升組織的數據管理能力,實現數據資產增值,進一步挖掘和利用數據,全面推進組織的發展戰略。