程 永 新
(上海新炬網絡信息技術股份有限公司 廣東 廣州 510623)
國際數據公司IDC的研究結果表明,2008年全球產生的數據量為0.49 ZB,2011年的數據量是1.82 ZB,預計2020年產生的數據量將是44 ZB。隨著信息技術特別是物聯網的廣泛應用,網絡購物、移動支付、共享經濟、智能家居等新業態新模式的蓬勃發展,全球數據呈現爆發增長、海量聚集的特點。每年都產生比以往更大量、維度更豐富的海量數據,采取更好的數據管理方式,更好地利用數據,構建以數據為關鍵要素的數字經濟,核心就是數據資產管理。
根據中國計算機協會大數據專家委員會評估,50%以上的企業大數據應用尚處于極為初級的階段。造成這種現狀歸根到底在于傳統企業中原有粗放式的信息化建設模式以及企業數據文化的缺乏,導致數據相關的管理體系、職責、角色、流程、工具和制度等各方面都有不同程度缺失,出現大量數據資產管理亂象。具體如下:
1) 數據黑盒化。由于企業缺乏數據文化和數據管理意識,信息化過程中未形成有效的數據規劃和設計說明,IT管理和業務人員無法完全理解這些數據,形成各種各樣的數據“黑盒”。
2) 數據多頭管理。由于信息系統的建設和管理職能分散在各個部門,缺少專門對數據資產進行管理的組織,使數據資產管理的職責分散、權責不明確。
3) 數據標準不統一。各部門缺乏統一的數據規劃、可信的數據來源和數據標準,站在各自的立場生產、使用和管理數據,導致數據不規范、不一致、冗余且難于共享。
4) 數據缺乏有效治理。與數據相關的元數據、質量等數據治理流程沒有統一的流程管理,無法保障數據治理活動在整個企業范圍內保持一致,企業無法提供一個有效、完整且準確的高質量數據環境。
5) 數據生命周期運營不完整。數據的產生、使用、維護、備份到過時被銷毀的數據生命周期管理規范和流程還不完善,數據安全問題也十分突出,生命周期運營不完整導致的數據敏感數據泄漏的安全事件屢見不鮮。
6) 數據流通渠道不通暢。數據在不同的應用之間缺乏有效的平臺或者工具進行快速方便的數據交互,缺少渠道引入更多的數據以補全企業數據之不足,數據形成事實孤島。
企業進行數據資產管理的時候,往往面臨如下的三個問題:1) 應該做什么;2) 怎么落地;3) 怎樣持續落地。企業需要一個完整的數據資產管理體系,以此為基礎制定企業科學的數據資產管理規劃,指導自身數據資產管理活動實施。數據資產管理體系,不僅是定義清晰的數據資產管理工作內容和范圍,以及數據資產管理組織架構和資源,還需要建立一整套流程和制度,并在相應的平臺上去落地實施。
經過多年在大型傳統企業數據資產管理方面的實踐和摸索,本文總結了一套適用于傳統企業的數據資產管理方法論:數據資產管理五星模型。該模型由數據架構、數據治理、數據運營、數據共享和數據變現五個部分組成。它們由數據資產管理團隊實施并推動數據資產管理落地。模型如圖1所示。

圖1 數據資產管理五星模型
數據資產管理團隊首先從數據架構入手打破數據“黑盒”,建立規范化數據架構管理制度和流程,實現數據從“黑盒”向“白盒”轉化。打破數據“黑盒”,從現有數據架構梳理開始,通常分為三個層面:(1) 物理模型層面。物理模型梳理的實質在于從關系數據庫中進行數據模型梳理、合并和清理,形成一份穩定的物理模型設計。(2) 邏輯模型層面。在物理模型梳理的基礎上,透過數據實體關系分析、實體業務屬性梳理、字段業務屬性和取值分析等手段,形成完整和清晰的系統邏輯模型。(3) 業務邏輯層面。業務與數據模型關系梳理,從企業業務層面全面梳理業務流程與數據之間的數據流向與相互關聯關系,進而實現可視化展示,便于企業人員進一步理解數據。
數據架構還需要進一步的變更管理,提升數據架構設計質量以及確保數據架構與實際應用的高度一致。數據架構變更管理包括:(1) 數據架構基線管理。對各應用系統的數據架構實現基線化管理,企業數據使用者根據基線檢索當前企業中最新的數據架構,回溯任意時間點的數據架構狀態以及跟蹤不同數據實體變更的原因和內容。(2) 數據架構變更評審。對由于業務需求變化而引發的各種IT應用中涉及到數據模型和架構的變化進行必要性、合理性和質量等方面的綜合評審。(3) 數據架構稽核。定期或不定期對數據架構和實際應用進行差異性分析,找出兩者的差距,并制定有效的計劃進行整改,保持數據架構設計的權威性和準確性。
數據治理從組織架構、管理制度、操作規范、應用技術、績效考核支持等多個維度對組織的元數據、數據標準、數據質量等領域進行全面的管理和持續改進的過程。
元數據管理是企業數據相關信息的管理過程,它是企業數據資產管理中重要的一環。企業數據資產團隊建立從元數據的需求收集、獲取、加工、分析到元數據維護閉環的元數據管理流程,逐步收集并管理各個業務域數據定義與加工規則,進而追蹤系統實現過程,形成元數據管理體系,推進數據管理的落地。數據資產團隊組織制定元數據管理規范、元數據采集計劃、元數據應用方案,并對元數據規范工作執行結果進行評估和考核。業務部門和IT部門負責根據元數據管理要求提供元數據,并保障元數據更新的及時性、準確性、完整性。
數據標準是企業根據自身特點、行業規范以及國家、國際通用標準建立的一套符合自身實際,涵蓋定義、設計、應用多層次數據的標準化體系。為了實現數據標準管控目標,數據資產管理團隊針對數據庫建模中所涉及的數據庫表字段、字段屬性等信息的規范化管理,實現企業數據標準化設計和應用。
數據質量是通過企業數據采集和處理過程中,對企業數據完整性、一致性、準確性和處理時效等不同質量維度進行有效的管理,及時發現、分析以及解決數據處理過程中在的質量問題并持續改進,主要包括:(1) 建立企業數據質量評估體系,可以量化評估當前企業數據質量狀況和質量改進效果;(2) 建立數據質量管理系統,通過數據質量管理規則來集中化地發現問題并持續改進;(3) 將數據質量管理與業務稽核結合,通過業務規則的稽核來發現數據質量深層次的問題,方便業務人員準確清晰知曉數據質量問題。
數據運營管理是通過對數據的開發、維護和支持活動使企業數據資產達到最佳的利用價值。通過數據運營,企業數據使用者可以安全、高效、便捷地使用數據做出各種各樣的數據分析和應用。數據運營重點包含數據安全運營、數據生命周期管理和SQL代碼審核等方面。
數據安全運營是建立適合企業自身的數據安全管理制度、開發規范和相關管理辦法等。數據資產管理團隊根據國家、行業和企業對數據安全管控需求,對現有數據進行敏感分級分類,形成敏感數據目錄。以此為基礎,還需要針對每種數據制定相應的安全管理策略,將安全策略整合到敏感數據目錄當中。安全管理策略可以包括:敏感數據訪問權限控制、敏感數據訪問審計策略、敏感數據遷移策略、數據安全控制策略、數據安全備份策略等。數據資產管理團隊數據運營工作中,持續對敏感數據目錄及定義的策略進行必要的管理以及維護,以保證數據安全運營的持續有效。
數據生命周期管理通過合理、完整的數據生命周期管理解決方案,針對不同類型的業務數據進行貫穿其整個生命周期的管理。數據資產管理團隊按需求調研、策略制定、策略發布和技術實施四個步驟實現數據資產生命周期管理。首先,針對業務部門和IT部門對數據使用的需求進行調研和分析,同時分析企業中各類數據特點和趨勢。其次,結合各方數據需求及數據特點,制定不同數據在不同階段數據生命周期策略。再次,數據資產管理團隊按既定策略跟各業務部門、IT運維部門確認并達成一致后,形成企業中數據生命周期管理規范并發布。最后,應用數據生命周期管理工具,按既定策略實現數據的自動化加密、轉儲、歸檔和銷毀的技術實現。
SQL代碼審核采取“優化前移”的方式,即將SQL代碼的管理和優化從上線后提前到上線前的應用測試驗證階段,極大提升生產應用的數據使用感知和減少性能故障的發生。完整的SQL代碼審核管理體系,包括自動采集、問題分析、問題優化和持續跟蹤四個方面工作。自動采集從測試環境收集并提交的本版本應用程序中涉及到的新增SQL,并監控當前版本與歷史SQL基線有變化的SQL及其執行計劃。針對新增SQL代碼審查和問題分析,生成審查報告交付開發DBA。開發DBA根據分析初審報告對問題SQL進行深度優化以符合上線的性能要求。最后,持續跟蹤上線后的新增SQL性能實際狀況,開發DBA根據分析結果及時解決還潛在于應用環境中的SQL性能問題。
在企業內部建立有效的數據共享機制,打破企業內數據孤島,讓數據實現跨部門跨應用的打通,真正讓企業數據資產在企業內部流動起來,產生更多的連接和關聯,進而產生更大的價值。
企業數據共享體系自下而上應分為南向數據接入管理、數據關聯中心管理、數據倉庫管理和北向共享接口管理幾個層面。南向數據接入管理,負責管理各種企業應用系統數據的接入,包括實時性接入和定時性接入。數據關聯中心管理,負責對各種接入數據源進行數據規范化處理和數據關聯。數據倉庫管理,負責構建面向共享的共享數據模型,同時根據共享模型進行統一數據處理和存儲。北向共享接口管理,負責數據對外開放共享接口管理。外部應用系統通過北向共享接口從數據共享中心獲取數據。
通過建立統一的數據共享中心來滿足針對跨部門、跨系統的數據應用。通過企業內集中的數據共享平臺來規范共享數據源,由原來多源網狀數據整合為單源集中式數據共享,提升數據共享和活性,提升數據共享服務的應用效率。
有了數據架構管控、持續的數據治理運營和長效的數據共享,解決好數據資產管理的基礎后,企業可以對內強化能力實現資產增值,對外可以完成數據場景變現。打通了各系統各部門的數據通道,將以前各個部門、系統盲人摸象似的局部數據分析方法變成全局的大數據分析,在企業內部重構產品、重構用戶定義、重新審視主營業務的用戶是否最佳,進一步實現精準營銷和風險控制。企業在面對客戶維度不夠、產品信息不全等問題時,進行數據跨界合作,補充客戶維度信息及產品流通信息,實現數據增值,最終驅動主營業務成長。
數據變現是實現數據外部價值的一系列活動。企業通過對數據進行建模分析挖掘,把符合共享開放層級的數據作為商品,以符合國家規范安全的形式進行共享交換和開放發布,使得數據具有流通性,方便其他數據消費者使用。
在國家實施大數據戰略的今天,企業之間應建立常態化數據交換和數據交易能力。僅僅通過數據租售或者是數據分析結果的變現(包括智庫、咨詢研究報告、征信評價等)不足以產生巨大價值。通過跨界戰略合作,交換彼此應用場景需要的數據才能推動企業核心業務價值裂變。
在為眾多企業實踐數據資產管理的過程中,本文研發了相關數據資產管理工具,使數據資產管理過程更為體系化、規范化、流程化和自動化。
(1) 數據架構管理工具 從全局入手,對企業不同數據模型之間設計、管理、實施、分析和稽核全程進行有效管理,解決企業數據模型管理分散、無統一數據架構視圖、數據模型標準無法有效落地的困境,強化數據架構管控能力。
(2) 數據標準管理工具 針對數據標準管理職能構建,包含標準生成、標準映射、標準維護等數據標準管理能力,協助企業數據標準落地。
(3) 元數據管理工具 提供可視化數據資產相關信息的檢索和應用分析能力,通過元數據采集、元數據應用、元數據展示,向數據使用者全面展示企業數據地圖、數據血緣關系、影響性分析、數據鏈路分析等。
(4) 數據生命周期管理工具 對數據產生、應用、歸檔到銷毀的整個生命周期全過程進行有效的自動化管理。針對不同生命周期的數據建立半自動或自動化的多層次數據存儲體系。
(5) 數據質量管理工具 將數據質量檢查規則規范要求在工具中配置轉換為數據質量檢查規則。工具通過數據質量規則的自動化檢測和稽核,確保數據在事前、事中、事后的數據質量管控,切實有效地提高企業數據質量。
(6) 數據共享平臺 將企業多年陸續分散建設的異構應用信息系統進行整合,保證分布異構業務系統之間實現數據的互聯互通,完成異構數據的抽取、裝載、清洗和接口管理,構造統一的數據交換和共享平臺
(7) 數據安全管理工具 保證數據資產使用、交換和共享過程中的安全。數據安全管理工具包括統一認證、數據脫敏、日志審計等模塊。
數據被業界公認為是企業的最寶貴資產之一。大數據之父維克托則樂觀預測,數據列入企業資產負債表只是時間問題。數據資產管理正是為企業提供了完整數據管理體系和路線圖。通過數據資產管理,數據能更好地為企業和社會服務。例如:提供更優質的產品和用戶體驗、控制企業運營風險,以及為企業提供數據化決策支持。本文基于大數據時代背景下的數據資產管理問題,詳細闡述了數據資產管理五星模型的方法論,為眾多傳統企業數據資產管理相關實踐提供了參考。