[摘 要] 本文提出了數據質量評價模型、質量校驗與評價方法,論述了“數據質量分析評價系統”的程序實現流程、總體結構及功能,介紹了系統的關鍵技術及進一步的研究方向。
[關鍵詞] 質量模型 質量檢驗 質量評價
數據作為一種資源,是支撐信息化建設和應用的主體,根據“進去的是垃圾,出來的也是垃圾”這條原理,為了支持正確決策,就要求我們所管理的數據可靠,沒有錯誤,能夠準確地反映采油廠的實際情況。勝利采油廠數據中心存放了5千萬條的數據,還在以每天2萬條的速度加載,如何使這些海量數據在生產管理、科學研究、企業決策中發揮應有作用,使用戶能用、敢用、愿用,使數據真正為企業服務,這是幾乎所有信息化企業亟需迫切解決的問題。為解決數據質量問題,各種管理手段、技術手段和新的數據評價體系不斷被應用在數據的采集和加工過程中。
一、數據質量評價模型的提出背景
采油廠的數據資源具有:橫跨專業多,數據采集密度大、頻度高,數據處理流程復雜等特點,為了保證數據的可用性,數據管理人員在客戶端、服務器端均設置了數據質量審核規則,但是依然不可避免存在比例較高的數據質量問題,典型的有記錄不全、數據遺漏、數據錯誤、多義字段、矛盾值、違背業務規則、無法關聯等。產生數據問題的根本原因可以歸結為以下幾個方面:
1.沒有從數據資源的戰略高度對數據質量進行統一完整的定義,導致數據的分析評估沒有統一可靠的標準;
2.數據質量還停留在定性評價,不能實現精確的量化評價,只是在業務需要某個數據時,才到庫里去手動統計,無法動態記錄某個單位、某個月的真實數據質量發生情況,導致數據質量考核缺乏可信的數據依據,大大影響考核力度;
3.沒有一個能同時面對用戶、專業部門、數據管理人員的可視化的數據質量監控評價平臺,三方無法共享一個平臺,共同實行數據管控一體化,導致業務規則的變更滯后,問題數據在庫中的長期滯留;
4.也許有了N個業務模型,但是沒有把它放到時間軸上去控制流程,導致實際生產中應該發生的活動的部分生產數據遺漏;
雖然影響采油廠數據質量的原因是多方面的,但主要的原因還是集中在管理、制度和數據采集加工規范化方面。對于如何通過管理、制度、標準和流程來控制數據質量,提高數據可信度,我們提出建立采油廠統一的數據質量分析評價模型,使用管理手段和技術手段相結合的辦法,建立一套完善的數據定義、控制、評估流程,依托科學嚴謹的數據監督和質量控制體系持續地改進數據質量。
二、數據質量分析評價模型構成
構成數據質量分析評估模型的要素分別為:基礎模型、數據質量輔助模型、數據質量定義模型、數據質量控制模型、數據質量評價模型。
1.基礎模型。基礎模型部分是整個模型框架的支撐核心部分,其他質量模型的定義和控制必須以基礎模型中的計劃和標準為依據。基礎模型主要是映射、定義數據采集標準,上載分單位的采集計劃,同時納入了約束規則定義規范、控制規則定義規范、模板定義規范。
數據標準:分兩部分,一部分是直接映射應用中的標準,例如源數據庫標準;另一部分是針對新增應用庫和項目庫標準的定義規范,包括代碼定義標準、數據項定義標準(例如是取英文還是漢語拼音,取幾個字符)、值域定義標準等等新增表準的建立規范;
采集計劃:采集單位的每月上載的日度、月度、年度的采集計劃;
約束規則定義規范:主要描述質量定義模型中的語法構成;
控制規則定義規范:針對服務器負載和采集表的及時性要求建立的后臺執行過程的控制方式的使用說明;
2.數據質量定義模型。數據質量定義模型的建立實現了以基礎模型為前提對數據質量的統一規范的定義,是數據質量分析評價的依據和基礎。數據質量定義模型可以使用質量特性描述。數據質量特性歸納為數據的一致性、數據的準確性、數據的完整性、數據的及時性4個關鍵特性。
(1)數據的一致性。數據一致性,包括源系統之間同一數據是否一致,源數據與抽取的數據是否一致,數據中心內部各處理環節數據是否一致等。例如:單井基礎信息、油井日數據中的單元代碼應該和本年度的單元代碼表保持一致;05應用庫中抽取的數據項要與源頭庫保持一致等等。
一致性的量化評價指標:字段一致率、表間字段一致率、表間記錄一致率。
(2)數據的準確性。數據準確性,包括數據源是否準確、數據值域是否符合業務規則和客觀事實、編碼映射關系是否準確、處理邏輯是否準確等。例如:作業日記的數據應該來源于作業隊而不是采油隊;一天的生產時間最大不可能超過24小時;水井干線壓力要介于0~40兆帕之間。
準確性的量化評價指標:準確率、差錯率、問題字段個數、問題記錄覆蓋率
(3)數據的及時性。數據及時性,包括數據處理(獲取、整理、加載等)的及時性,數據異常檢測的及時性,數據處理更新的及時性等,例如:一口井油轉水了,采集單位沒有及時更改數據,不僅會影響隊到礦,礦到廠的產量,更會影響廠到局的產量和油水井數,而且取自于該源數據的所有應用系統今天的診斷決策都會發生偏差。數據滯后的更新將嚴重影響生產的正常化。
及時性的量化評價指標:采集項目及時率;單位入庫及時率
(4)數據的完整性。數據的完整性,包括數據源是否完整、數據取值是否完整、實體類型、屬性特征、維度取值是否完整等。例如:要完成井筒的計算機屏幕再現,它所包含的數據包括鉆井數據、固井數據、套管數據、井徑測井數據、井斜數據等等,這里邊存在多個數據源情況,如果數據源不完整,或者套管數據中缺失數據項下深或者壁厚,井筒就不可能完整成像。
完整性的量化評價指標:字段缺失數、缺失記錄覆蓋率、計劃完成率。
3.數據質量控制模型。數據質量控制模型以數據質量定義模型為基礎,按照定義的檢查范圍和時間以自動或手工方式完成對數據質量的檢查工作。在質量控制過程中違反了數據質量定義的,視為數據質量問題,數據質量問題直接通過數據質量的關鍵特性和指標反映出來。數據質量控制模型的控制內容表現在:對數據檢查對象、數據檢查頻度、數據檢查時間、數據檢查方式等方面進行控制。
(1)數據檢查對象:是指根據采集計劃設定需要檢查的用戶、專業數據表、數據庫實體。
(2)數據檢查頻度;是指根據數據表的采集計劃和實際發生的頻度,設定存儲過程的檢查執行頻率。
(3)數據檢查時間:是指根據每日生產應用的密集時間以及數據發生到采集入庫的密集時間,綜合設定一個檢查開始執行的時刻。
(4)數據檢查方式:是指執行檢查過程的方式可以由后臺過程自動控制,每間隔2小時自動檢查一次;也可以由人工干預手動檢查,任意時刻都可以執行檢查(當然盡量選擇數據庫流量比較低的時候)。
4.數據質量評價模型
數據質量評價模型,是以數據質量定義模型為依據,由數據質量控制模型操控執行,根據反饋的質量檢查結果表,評議出數據質量的關鍵指標,實現對數據質量的量化診斷和評價。
數據質量分析評價模型功能核心是,通過對基礎模型中的采集計劃和質量定義模型中的約束規則的處理,由控制模型調用可以實現檢查分析的后臺存儲過程在實體庫中執行檢查,形成查詢結果,再由分析程序進行分析、計算、分類、匯總,生成反映采集計劃完成情況和數據質量量化指標的結果,存儲到分析結果表中,從前臺調用這個分析結果表,就可以生成一份詳盡的反映數據質量問題各類量化指標的數據質量分析評估報告,展現所評估實體庫的數據入庫的及時率、數據上報的完整性、數據采集的一致性、數據入庫的準確率。
5.數據質量輔助管理模型
數據質量輔助管理包括報告模版管理、權限管理、數據庫資源占用情況等等。
三、數據質量評價模型的在《數據質量評價系統》中的實現
1.系統模塊構成圖
數據庫采用三層框架結構,數據層用于存儲各種質量標準數據、檢查與評價過程數據及結果數據,邏輯層用于質量檢查的各種邏輯處理,表現層是通過用戶界面將檢驗與評價結果以用戶易懂的可視化方式表達出來。
2.程序實現流程圖
四、結論及建議
在分析數據質量模型及質量檢驗工作流程的基礎上,“數據質量分析評價系統” 實現了在同一平臺下從分析方案制定、質量檢查、質量評價、評估報告生成、錯誤信息反饋整個工作流程,從而提高了數據質量分析與評價的自動化水平,滿足大批量數據質量控制需要,實現了對數據采集的完整性、及時性、準確性、一致性等關鍵指標進行量化分析和評價。
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”