葉宇航,賀仁龍,2,程曉旭
(1.中國電信股份有限公司上海研究院 上海200122;2.東華大學旭日工商管理學院 上海200051)
為應對激烈的市場競爭,運營商越來越依托于精確化的數據統計分析以實現科學管理與決策。數據質量的好壞直接關系到信息提供的準確程度,數據質量問題得不到有效的解決,數據資產將不能有效反映企業運營和市場事實,經營決策將失去可靠依據。因此,有必要圍繞企業數據生命周期,實現對關鍵數據的全過程質量監控,包括業務指標、維度、數據模型、接口文件等,加強數據稽核工作,保障數據的準確、及時、有效和可信,提升數據質量,從而提高經營分析以及決策支持的準確性,協助業務人員實現準確、迅速的市場決策以及經營分析,獲得可持續市場發展能力。
MIT-TDQM(麻省理工全面數據質量管理)數據質量改進模型提出了基于信息系統所生產的數據產品的質量管理體系。數據質量管理的方法基于TDQM的思想,應包括質量的定義、度量、分析和改進(即 DMAI)4個過程,如圖1所示。數據作為信息系統所生產的產品,也應該將其作為具有生產周期的產品進行管理,要由專門的人員按照如下4個環節管理數據產生的過程和結果。

圖1 全面數據質量管理方法論
數據質量即數據的“完好性”,反映了數據提供者、生產者和管理者對數據不同角度的質量要求,是數據滿足使用需要的合適程度。數據質量的基本要求為數據的五性:準確性、及時性、一致性、完整性、邏輯性,具體介紹見表1。
數據質量的度量是用數據的一組固有特性來衡量滿足要求的程度,是數據可用性的判斷標準,只有明確了質量標準,才可以識別出哪些數據是好數據,哪些數據是臟數據、劣質數據。根據數據及其質量定義,確定指標體系,跟蹤數據的量度,監控數據質量,見表2。
數據質量分析應從數據生命周期全過程著手,按照數據度量標準的要求,分析質量問題出現的原因,形成數據質量分析報告,見表3。
數據質量的提升與改進應當包括如下3方面。
·與計劃目標找差異:針對評估報告與數據質量度量標準,確定差異點,按應用重點和影響度圈定重點影響范圍。
·制定提升策略:根據對標差異,依據實際選擇重點提升目標,制定當期重點質量提升計劃,納入企業整個質量體系改進計劃。

表1 數據質量“五性”

表2 數據質量的度量維度

表3 數據全生命周期的數據質量分析
·審計、分析、評估:根據數據質量檢查的情況,定期或不定期地生成相關的數據質量評估報告。
在企業數據倉庫中,數據經過接口數據層、整合數據層、匯總數據層進行層層匯總,接口數據可能被上層多個數據集中使用,底層的數據問題很容易被放大,產生“誤差放大”的效應;由于數據倉庫中的數據存在這種層次間放大的特點,數據稽核必須重視最初的數據處理環節,從數據接口開始就必須進行認真核查,并且整個過程中每個環節完成之后都要進行,以避免數據錯誤被不斷擴大。數據稽核的目的是保證數據在處理過程中各個環節數據的正確、完整,因此應在數據處理的每個環節完成時對數據進行稽核,總體上包含接口數據層稽核、整合層數據稽核、匯總層數據稽核3部分。
接口數據層稽核見表4。對接口數據與源系統數據的一致性進行檢查,以保證數據的一致性;對源系統提供的數據進行邏輯性檢查,保證邏輯性的正確,具體包括文件規范性檢查、文件傳送完整性檢查、文件加載正確性檢查。
整合數據層稽核見表5。對整合的數據進行檢查,一方面檢查與源系統的一致性,另一方面從數據庫約束規則和記錄級的業務規則方面進行正確性檢查,還要比較接口層和整合層數據的邏輯性。
匯總數據層稽核見表6。通過電信匯總級的業務規則,對企業數據倉庫生成的匯總數據進行檢查,以驗證數據的正確性。
數據質量管理的整個過程可以抽象為一個閉環處理流程。數據源、元數據的變更有可能引發稽核點/稽核規則的變更,從而導致系統出現異常,產生告警,告警達到嚴重等級時,將升級為數據質量問題。告警及問題的處理經驗和方案不斷被匯總,充實數據質量監控及評估報告等。這些理論知識的積累將進一步促進系統功能的提升,完善數據質量的管控。

表4 接口數據層稽核

表5 整合數據層稽核

表6 匯總數據層稽核

圖2 數據質量管理與稽核流程
數據質量管理與稽核流程如圖2所示,包括如下幾個方面。
(1)數據稽核變更控制流程
生產系統數據源變更、企業數據倉庫元數據變更或者發現的數據質量問題(如告警閾值需調整)等引發稽核點或者稽核規則變更時,將觸發數據稽核變更控制流程。
(2)數據質量告警處理流程
數據質量管理系統在監控過程中發現異常時,自動觸發告警后的相應處理過程。此時的告警為非嚴重告警,企業數據倉庫運維人員通過分析,判定是否將告警轉置為數據質量問題,從而進入數據質量問題處理流程。
(3)數據質量問題處理流程
數據質量管理系統發現嚴重告警、企業數據倉庫運維人員或業務部門等發現數據問題時,將引發數據質量問題處理流程。數據質量管理員接收到數據質量問題后,組織協調企業數據倉庫運維、生產系統運維或者業務部門人員進行問題的分析與處理。
(4)數據質量報告管理流程
需要進行數據質量監控狀況或者數據質量評估結果匯報時,由數據質量管理人員根據需要定期生成數據質量監控報告、數據質量評估報告等,從而引發數據質量報告的生成、評估、發布及歸檔等一系列的管理流程。
結合數據質量管理與稽核流程,為保證數據質量問題能夠及時、有效地得到解決,有必要構建數據質量管理與稽核系統。在企業數據倉庫的數據處理主要階段設置數據質量稽核點,實現對數據源系統數據接口質量的監控,支持對數據質量的全程監控;并在各數據質量監測點上,實現數據質量稽核規則的靈活配置,并提供常見問題的處理方法,促進數據質量管理的標準化、自動化、日常化;進一步加強對數據源側數據質量的監控和分析,并實現企業數據倉庫數據管理與稽核流程和數據源側相關管理流程的對接,促進跨系統的數據質量管理過程的協調和互動。
通過對數據質量管理與稽核流程的分析,設計的系統功能框架如圖3所示,主要包括數據集合點管理、數據稽核任務管理、數據質量告警管理、稽核問題管理和數據質量評估5個模塊。
其中,各模塊功能見表7,數據交互關系介紹如下。
·稽核指標配置產生的指標數據會作為稽核規則配置的輸入,稽核規則配置產生的規則數據會作為稽核點配置的輸入,稽核點配置產生的稽核點數據會作為任務定義的輸入。

圖3 數據管理與稽核系統功能框架

表7 數據質量管理系統功能要求
·任務定義產生的任務規格數據以及告警規則配置產生的告警規則會被任務調度引用;任務調度產生的告警信息、數據質量信息會作為任務運行監控、告警查詢、告警處理、數據質量報表的數據來源;告警處理會作為問題生成的來源之一。
·問題監控處理產生的數據會作為稽核問題處理報表的數據來源,問題監控總結產生的知識會作為數據質量知識管理的數據來源。
·數據質量報表和稽核問題處理報表都可以作為數據質量評估報告管理的輸入。
本文在全面研究數據質量管理理論的基礎上,形成了針對電信企業數據質量的定義、度量、分析與改進的閉環管理方法,并結合對電信企業數據倉庫開展數據稽核方案的探討,完成了數據質量管理與稽核系統的構建,實現數據質量管理與稽核全過程的自動化處理,為電信業界開展數據質量管理工作提供了幫助。
1 侯延湘.數據質量管理及在數據倉庫實現探討.吉林大學碩士學位論文,2007
2 姚宇峰.電信收入保障中數據稽核平衡關系式的研究.電腦知識與技術,2009,5(20):5 348~5 350