范媛媛
[摘要]信息化時代呈現出數字化、網絡化、智能化特征,數據逐步成為新的生產要素,發揮著越來越重要的作用。如何提高數據的可靠性可用性,最大程度發揮數據資產價值,已經提升到企業的核心戰略問題。本文簡要介紹了數據質量管理定義、數據質量問題成因和評價維度,并重點從組織、制度、技術和內容四個方面對國開行的全生命周期數據質量管理實踐進行了分析。
[關鍵詞]數據質量;數據質量管理;全生命周期
一、概述
(一)數據質量管理定義
數據質量是數據的可用程度,即數據滿足業務運行、管理與決策的程度,可通過準確性、完整性、一致性等指標予以衡量。
數據質量管理是指對數據從獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。
(二)數據質量問題的成因和評價維度
數據質量問題產生于數據管理整個生命周期的各個環節,是由業務、技術和管理等多方面因素造成的。例如:業務需求階段,業務部門重業務流程輕需求分析,導致數據需求不完備不準確:系統設計階段,架構不合理功能重復建設,造成數據重復錄入內容不一致;人工采錄階段,隨意性強不按格式要求填寫;系統記錄階段,缺少校驗與預警,造成錯誤數據輸入或信息缺失;數據整合階段,存在跨系統數據不一致或數據不及時情況:數據應用階段,多頭管理造成名稱不統一口徑不一致。
結合數據質量問題成因分析及業界通用方法,數據質量問題的評價維度有五個方面。準確性描述數據是否準確、真實反映實際信息,以及是否符合數據標準的要求:完整性描述業務操作所需要的數據是否完備:一致性反映同一個業務實體的數據及其屬性是否具有一致的定義和含義,不同系統間的數據是否保持一致:時效性描述數據是否能夠及時被獲取,并反映當前業務情況:適當性描述數據是否在可控、安全的范圍內發布和使用。
(三)數據質量管理體系
數據質量管理是數據治理的核心內容之一,需從組織、制度、流程、技術等多層面構建數據質量管理框架體系。只有建立完整的數據質量管理框架,以制度規范為約束、以組織機制為保障、以技術工具為支撐,才能從設計、開發、生產等各個環節發現數據質量問題,并提煉相應的數據質量檢查規則,進行貫穿事前、事中和事后的全面治理,有效提升數據整體質量,從而提供更為精確的決策分析數據。
二、國開行基于全生命周期數據質量管理實踐
基于“數據全生命周期管理理念”,國開行從組織、制度、技術和管理內容四位一體開展工作,注重業務和技術銜接、落實與執行,初步建立了企業級數據質量管理框架體系。
(一)組織與角色
鑒于數據質量管理工作的跨部門跨領域協作特點,國開行建立了高層決策、數據管理部門統籌、全行參與的企業級數據質量管理組織機制。
決策層由信息科技委員會領導下的數據管控與應用工作組構成,負責數據質量工作的整體組織與協調:管理層由數據管理中心構成,是全行數據質量歸口管理和監督的職能部門,負責數據質量管理工作的規劃、設計、實施和考核:執行層由總行各業務部門、各分行和總行技術部門構成,業務部門是所屬業務條線數據質量推動的直接責任部門,負責從業務層面參與數據質量管理工作,各分行負責按照業務流程進行數據錄入和維護,及時發現和提交數據質量問題,參與數據質量問題分析和整改工作。技術部門負責從技術層面參與數據質量管理工作。
(二)制度與規范
通過數據質量管理制度與規范的制定,使得數據管理工作更加體系化、規范化,為實現數據管理目標打下堅實的基礎。國開行建立了從管理辦法、工作指南到細則的制度體系,《管理辦法》提供數據質量管理的高階規范,《工作指南》落地指導管理和考核工作,《細則》覆蓋了數據質量考核、數據變更、采錄認責、管控前移、通報機制等數據質量管理職能域的執行規范。
(三)技術工具支撐
分層級數據質量檢核是保障全過程數據質量問題監測的重要技術。國開行分別在業務源系統、數據平臺和數據類應用系統建立從數據產生、數據集成到數據使用的多點多級聯動數據質量檢核規則。
業務源系統錄入端是數據質量問題產生的最初來源,加強源頭控制是數據質量管理的切入點。在源系統錄入界面嵌入字段檢核規則,比如非空數據項的必輸校驗、數據格式校驗和一致性檢查、代碼類數據的菜單選擇等。
基礎數據平臺類系統集成不同源系統的數據,并按照數據模型進行整合,是企業內部數據的最主要匯聚點,也是數據質量問題暴露最多的地方,比如:系統間一致性的檢核、系統間關聯錯誤檢核。來自業務源系統的數據每天會加載到基礎數據平臺,此處可跟蹤數據質量問題的解決情況,作為數據質量問題整改的依據。
數據類應用系統是數據質量檢核的最后一道防線,根據對數據的使用目標來定義數據應當滿足的質量標準并設計對應的檢核規則。作為數據的最終使用者,此處可評估數據質量治理的成效,并設定后續數據質量治理目標。
(四)管理內容和流程
從數據產生的時點審視,數據質量管理的管理對象包括歷史數據、當前數據和未來數據,數據質量提升要做到事前防范、事中監控和事后改善。管理流程設計需包括數據質量基礎建立、數據質量監控、數據質量分析、數據質量改進和設計質量評估五個方面。
事前防范側重面向未來的數據(指未來業務運營過程中可能新增的數據),防患于未然。通過業務流程優化、源系統改造等方式保證未來數據質量。事中監控側重當前的數據(指當前數據質量檢查周期內更新的數據),根據數據質量檢核規則,對數據質量進行持續的周期性的監測。事后改善側重面向歷史的數據(指某時間點前已經生成的數據),按業務系統或者主題分批對數據進行剖析、清洗,提高既有數據的質量。
三、結束語
隨著大數據技術不斷深入,面對模態繁多的數據類型和幾何級增長的海量數據,傳統的數據質量管理面臨著新的挑戰和要求,下一步需要重點關注非結構化數據和外部數據的數據質量管理方法,以保障大數據的風險可控、安全合規和價值創造。endprint