江飛
摘 要:隨著互聯網+、物聯網、云計算、大數據、區塊鏈等信息技術的迅猛發展,催生了超越以往任何年代的巨量數據,需要配套的數據治理與管理機制,結合商業智能可視化分析,將數據作為組織的寶貴資產應用于業務、管理、戰略決策中,發揮數據資產的商業價值,為企業帶來不可替代的競爭優勢。隨著移動通訊4G網絡的快速發展,以及手持式設備的普及,BI的展示就可以擴展到移動手持設備。
關鍵詞:數據治理;商業智能;元數據管理
中圖分類號:F272 文獻標識碼:A 文章編號:1671-2064(2018)14-0054-02
1 數據治理概覽
從范圍來講,數據治理涵蓋了從前端事務處理系統、后端業務數據庫到終端的數據分析。從目的來講,數據治理就是要對數據的獲取、處理、使用進行監管,保證數據的有效性、可訪問性、高質量、一致性、可審計和安全性。從分類來講,數據治理分為應對性數據治理和主動型數據治理。
(1)應對性數據治理。應對型數據治理是指將前端應用產生的數據,通過數據移動工具批量移動到主數據管理(MDM)系統中。數據經過整理、匹配和合并,然后同步回原系統、企業的其它應用程序以及數據倉庫或商業智能/分析系統。由于主要是通過批量方式進行主數據的移動,批量操作帶來的時間延遲,可能導致業務部門繼續操作“過時的”主數據。(2)主動型數據治理。直接在MDM系統中錄入數據,通過預設的業務規則,以整理、匹配和合并數據。這樣的優勢在于:數據經過預設的規則進行選擇性填寫,可在源頭獲得高質量的主數據。保證了數據的初始質量,并且不會再有數據從其它源系統中傳入,就實現了主數據管理的主要目標——保證和保持主數據的“干凈”;通過使MDM成為錄入系統及記錄系統,能從本質上將數據維持在“零延遲”狀態,新記錄實時或準實時的方式發布到其它應用系統。
2 數據治理要點
數據治理包含數據質量管理、數據架構管理、數據開發、數據操作管理、數據安全管理、參考數據和主數據管理、數據倉庫和商務智能管理、文檔和內容管理、元數據管理。數據治理邏輯架構如圖1所示。
2.1 元數據管理
元數據管理,是指通過建立元數據工作配套的組織、制度和平臺,對元數據的采集、檢驗、發布、應用進行一系列的管理活動。
元數據指對數據內容、質量、所處語境等特征的基礎性定義或結構化描述,也被稱為關于數據的數據,是信息交換和數據共享的基礎和前提。元數據按照存放內容可分為技術元數據、業務元數據和操作元數據。
技術元數據,指用于系統設計及日常管理相關數據信息,主要包括數據模型、應用系統以及數據遷移與轉換規則等。
業務元數據,指和業務相關的數據信息,用于輔助定位、理解及訪問業務信息,主要包括業務術語、業務規則、業務指標、業務報表、概念模型、數據標準以及數據質量規則等內容。
操作元數據,指系統日常運行產生的操作信息,主要包括應用作業程序配置信息以及應用作業運行次數、運行開始時間、運行結束時間、運行結果、處理數據量、異常數據量等內容。
2.2 數據質量管理
數據質量管理(Data Quality Management),是指對數據的生命周期(計劃、獲取、存儲、共享、維護、應用、消亡)的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。
數據質量問題主要有如下幾類:
數據完備性。或稱為數完整性,主要體現在數據缺失未填,丟失關鍵數值。或數據值為NULL。
數據有效性。主要體現在數據無意義,或數據有意義但不符合業務定義,或代碼取值越界,或關聯字段不匹配。
數據唯一性。主要體現在業務關鍵屬性組合不唯一。
數據一致性。主要體現為數據的維度與度量值之間的引用關系斷開,或引用關系正常但同一數據不同表格內取值不同,或匯總數據不一致。
數據精確性。主要體現為數據精度不夠,不符合業務需求。
數據時效性。主要體現在數據時效太低,不滿足統計及需求。或使用了“過期”的數據版本。
數據真實性。主要體現為數據不是真實的業務數據。
3 數據倉庫
數據倉庫是一個面向主題的、集成的、隨時間變化的、但信息本身相對穩定的數據集合,用于對管理決策過程的支持。
數據倉庫主要有如下特點:
主題導向。不同于數據庫面向事務的特性,數據倉庫按主題進行組織,即按數據的意義將其歸類至相同的主題區。主題是指用戶使用數據倉庫進行決策時所關心的重點方面,如銷售記錄等。
集成性。數據來自企業內的各個數據庫,經過數據抽取、清理、轉換、系統加工、匯總和整理,消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。
數據隨時間變化。數據倉庫是隨時間而變化的,數據的變動,在數據倉庫中會被紀錄以及追蹤變化的,有助于反映出數據隨著時間變化的軌跡。
數據不可更新。數據一旦確認寫入數據倉庫后是不會被取代或刪除的,即便數據是錯誤的也是如此。
圖2描述了一個典型的企業信息工廠模型,數據倉庫匯總數據,并為后續分析提供數據支持。
4 商務智能
商務智能(Business Intelligence,簡稱BI),是一套用來將企業中現有的數據進行有效的整合,快速準確的提供報表并提出決策依據,幫助企業做出明智的業務經營決策的完整的解決方案。
從技術層面來看,BI由數據倉庫(或數據集市)、查詢報表、數據分析、數據挖掘等部分組成。
從技術成熟度來看,報表系統是BI的初級階段,數據分析是BI的中級階段,數據挖掘是BI的高級階段。
4.1 商務智能的實施步驟
需求分析。商務智能本身也是一個項目,所以從項目管理的角度來講,必須全面地理解用戶的各項要求,做好需求分析。包括需要分析的主題,實現這些主題需要查看的維度等等。
數據倉庫建模。通過前期的需求分析,建立企業數倉庫的邏輯模型和物理模型,按照規劃好的架構,將各類數據按照分析主題進行組織和歸類。
數據抽取。依據分析模型將數據倉庫建立起來之后,就需要將數據從源端(各個業務系統)抽取到數據倉庫。抽取規程中,還需要將數據按照既定的業務規則,進行轉換和清洗,加載到各個分析主題中。
建立可視化分析報表。可借助主流BI工具FineBI,通過拖拉的方式,進行可視化分析報表的制作。
4.2 商務智能的發展趨勢
傳統的商務智能,如SAP BO、Oracle BIEE、IBM Cognos,產品采購成本以及后續的硬件、軟件維護、咨詢、培訓成本均很高,不具有普適性。其次,傳統的商務智能實施,考慮到后期的性能和可擴展性,對于數據倉庫的設計規范要求很高,實施周期較長。再者,傳統商務智能是純粹的IT驅動,對于業務部門的服務響應周期很長,不適應業務快速發展的需要。
新一代商業分析平臺,gartner稱之為modern BI platform,以允許業務人員“自服務”為標志。由IT驅動轉變為業務驅動,IT負責基礎數據架構的整理和接口開發維護,業務人員作為分析主體和需求主體,使用基于人機交互和符合人的認知規律的分析方法,把人所具備的、機器并不擅長的認知能力融入分析過程中,進行快速的可視化分析和報表分析維護。這樣的改變的好處是顯而易見的,整個BI流程就變得更加敏捷。而且拖拽式這種簡單而友好的使用方式,使得上至高層管理人員,下至基層服務人員,都可以快速獲得所需的報表。高層可以快速準確決策,基層可以精準有效服務,整個企業的效能將會大幅提升。
同時,隨著移動通訊4G網絡的快速發展,以及手持式設備的普及,BI的展示就可以擴展到移動手持設備。管理高層可以更加便捷,隨時隨地的查看報表、做決策,大大提高辦公效率。基層人員也可以更加貼近用戶,提供高質量的服務。
參考文獻
[1]DAMA International著.馬歡,劉晨,等譯.DAMA數據管理知識體系指南.2012年7月第1版.清華大學出版社,2012:148-149.
[2]William H.Inmon著.王志海等譯.數據倉庫.機械工業出版社,2006.