999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據質量稽核的監控實施方法

2021-12-16 01:31:18曹麗娟程新洲徐樂西中國聯通研究院北京100048
郵電設計技術 2021年11期
關鍵詞:規則質量模型

張 恒,曹麗娟,程新洲,徐樂西(中國聯通研究院,北京 100048)

1 概述

大數據平臺可用性是一項重要的平臺運行指標,一個優秀的大數據平臺,首先能夠讓操作者快速發現和理解數據,最終實現數據的高效應用。因此在整個過程中,平臺中數據獲取后的質量管控非常重要,只有對采集的數據進行嚴格的分析治理和質量管控,發現并完善數據的質量問題,才能解決用戶對數據可用性的疑慮,保證后期業務的準確性和有效性。

數據質量管理主要依靠管理制度和事后稽核。在平臺建設過程中,設計者通過改變模型管理和數據開發的模式,將后向管理變更為前向管理,從數據源頭保障數據質量。

數據質量稽核從流程上可以分為以下3個層級。

a)元數據管理:最基礎性的管理機制,可以識別、評價、追蹤資源,達到有效管理。

b)數據的標準化管理:建立標準化體系,保證數據的統一運營和維護。

c)數據質量稽核:實現數據的深度質量檢查,打造優質數據資產。

2 元數據檢查

元數據管理應具備對元數據本身質量進行檢查的功能,保證元數據自身的數據質量。元數據質量檢查包含但不限于以下內容:元數據一致性、元數據關系的健全性、元數據屬性的填充率、元數據名稱重復性和元數據關鍵屬性值的唯一性。大數據平臺一般會提供專門的界面進行元數據質量管控和呈現檢查結果。

a)平臺將提供在開發階段定義好對象的元數據質量規則,并要求開發者在開發過程中按照規則錄入元數據信息,并由系統進行統一檢查。

b)平臺提供元數據質量檢查機制,及時發現、報告和處理元數據的數據質量問題。檢查包括自動檢查和人工檢查2種方式。

c)平臺提供可視化元數據血緣分析圖,可進行影響分析、血緣分析,同時可以在血緣分析圖中修改元數據信息,增加質量規則。

d)對于一些必須手工維護的元數據可通過開發維護人員進行手工維護、審批、發布。同時檢查所提供的元數據與生產環境上元數據的一致性,形成元數據質量報告,產生手工維護的任務單,以確保元數據質量和可用性。

3 數據的標準化管理

數據標準是大數據平臺數據治理的基礎性工作,是數據治理建設中的首要環節,為大數據平臺提供統一的數據標準定義和平臺邏輯模型,是大數據平臺進行數據治理的依據和根本,同時也是衡量大數據平臺數據資產運營和管理的評估依據,最終能實現對大數據平臺全網數據的統一運營管理。

平臺通過建立統一的數據標準,結合制度約束、系統控制等手段,實現大數據平臺中數據的完整性、有效性、一致性、規范性、開放性和共享性管理,提高大數據平臺的數據治理水平。

數據資產標準化主要包括以下內容。

a)標準化的命名規則:數據的名稱、編碼、層級、層的屬性名稱等協調一致,統一管理,改變各源系統不規范的命名方式,避免同名不同意,同意不同名的現象。

b)統一數據擴展規則:對指標代碼、元數據、子類等擴展要素的擴展規則進行統一限定,保證后續數據的持續規范管理。

c)標準化規范執行:平臺通過對數據資產產生過程的監控(包括命名規范、信息完整性、合理性、基礎信息完整性等以及存儲周期、數據安全敏感信息和加密信息、權限賦權)以確保數據滿足整體規劃要求。

4 數據質量稽核規則體系

數據質量體系需要通過實踐和規劃的相互促進,不斷完善改進,為此,需要確保數據架構合理,條理清晰,過程可控,知識積累傳承,并通過監控和審計不斷促進質量水平的持續提升。

數據質量管理是對采集入庫的數據進行全面質量管理。開發者制定相應的技術手段和組織、流程、評價考核規則,通過平臺操作,及時發現并解決數據質量問題,提升數據的完整性、及時性、準確性及一致性,提升業務價值。

數據質量規則配置如下。

a)提供便捷的IDE 界面,可通過圖形化或者標準SQL的方式,實現對數據質量規則的配置,允許對校驗規則進行維護、優化等處理。

b)根據預先定義的質量規則,在應用運行時進行自動化監控。

c)提供元數據質量檢查機制,及時發現、報告和處理元數據的數據質量問題。

d)提供問題定位分析,對問題的節點進行回溯,定位問題可能原因,分析其處理路徑上可能存在的問題;提供問題影響分析,能對問題的嚴重性、影響面做出判斷,并對重要問題提前進行預警。

數據質量監控功能設計如下。

a)提供數據映射分析,以拓撲圖的形式對各類數據實體、數據處理過程元數據進行分層次的圖形化展現,滿足開發、運維或者業務上不同應用場景的圖形查詢和輔助分析需要。

b)根據預先定義的質量規則,在應用運行時進行自動化監控。

c)對數據采集層數據質量進行監控,主要包括文件接口、數據庫接口、采集接口監控。

d)對數據處理過程進行監控,主要包括數據處理任務執行的情況,包括是否按時調度,是否成功等狀態消息。

e)定期提供數據質量監控報告,根據系統健康狀態按模板生成文本、圖形等結果信息。

5 數據質量稽核的整體過程

數據質量體系需要通過實踐和規劃的相互促進,不斷完善改進,為此,需要確保數據架構合理,條理清晰,過程可控,知識積累傳承,并通過監控和審計不斷促進質量水平的持續提升。

設定稽核規則:通過不同的內置規則,可以對數據進行一定的計算處理,如空值、去重、最大、最小等,從而對數據有個直觀的認識,發現數據缺陷,具體操作如圖1所示。

圖1 規則設置

創建稽核模型:通過流程化的操作,操作者首先確定數據來源,根據不同數據源和目標,進行分區配置,從而建立對應的數據稽核模型,具體如圖2所示。

圖2 數據配置

稽核任務的創建:平臺在使用過程中,操作者首先選擇要進行稽核的數據時間、范圍等要素,再加載對應的數據稽核模型,從而完成任務創建。

5.1 數據精度

數據精度決定后期業務分析的準確性,在平臺使用分析中,操作者一般通過對比目標值與來源的真實情況來進行分析評估,流程如下。

a)選擇用于比較的源數據和目標數據的集合和字段。

b)將目標字段與源字段進行關系映射。

c)將源數據集和目標數據集進行分區配置。

d)對分析模型進行配置,包括名稱、參數、閾值等。

5.2 數據剖析

數據剖析是檢查現有數據集中可用數據,同時收集相關數據的統計信息的過程,主要包括以下內容,具體如圖3所示。

圖3 數據結果詳情

a)選擇需要進行剖析的目標數據集和字段。

b)定義將應用于所選字段的語法檢查邏輯。

c)將目標數據集進行分區配置。

d)對分析模型進行配置,包括名稱、參數、閾值等。

5.3 數據模型

在所有分析中,數據模型的建立是最重要的一環,不同的數據模型可以分析不同的數據質量。數據模型可以根據分析需求和數據類型,從5 個維度進行設計,首先建立相應的模型,其次定義模型詳細的源、目標、以及映射關系等的屬性,最終在任務中可調用該模型進行數據任務的設定。本文以平臺中的“數據準確性校驗模型1”為例進行說明。

5.3.1 模型信息

模型信息是對模型的基本情況的展示,包括類型、源、源分區、源條件、目標、目標分區、目標條件和責任人等信息,能夠清晰地呈現該模型的屬性,以方便使用,具體如圖4所示。

圖4 模型信息說明

5.3.2 模型精確度計算映射信息

該映射代表了源數據各字段與目標字段的一致性對比結果,其中source 和target 代表了不同的數據源,id、age、desc代表要對比的具體字段。

精度計算公式如下:

該公式分子代表了2 個數據源(demo_tgt 和demo_src)的匹配結果為一致的數量,分母代表了demo_tgt 中的匹配的數據數量,demo_tgt 和demo_src代表了2個對比數據源。該計算公式可以計算出稽查數據的準確率。

通過建立任務可以將模型應用到不同數據的稽核中,給出數據準確性的結果,圖5 是針對2021 年10月28 號到10 月29 號入庫的2 批不同數據的稽核結果,橫坐標是以小時為單位,可以看出不同時間對應數據的稽核結果,以方便使用人員針對問題進行后期處理。

圖5 準確度檢驗結果

圖5 為2 類數據準確性校驗模型的處理結果,從圖5 可以看出隨著數據的不斷采集和入庫,數據稽核任務以小時為周期持續性進行,因此,數據使用者可以實時查看數據準確性,以方便及時發現處理數據問題。

5.4 數據質量評分

評分是以分值來展示數據的質量,從而形成直觀的數據質量感受,評估一般包括以下3個層面。

a)質量評分=參與評分的各質量維度評分總和/參與評估維度項。

b)某個維度質量評分=參與該維度評估的任務的評分總和/參與該維度評估的任務的總數。

c)任務某個維度評分=該維度下參與評估各項規則得分之和。

5級維度數據質量說明如下。

a)準確性:度量數據是否與指定的目標值匹配,如金額的校驗,校驗成功的記錄與總記錄數的比值。

b)完整性:度量數據是否缺失,包括記錄數缺失、字段缺失,屬性缺失。

c)差異性:度量數據記錄是否重復,屬性是否重復;常見度量為hive表主鍵值是否重復。

d)及時性:度量數據達到指定目標的時效性。

e)有效性:度量數據是否符合約定的類型、格式和數據范圍等規則。

6 結束語

大數據是未來數字化的重要能力。數據質量是保證業務順利執行的重要要素,因此數據質量稽核非常重要。數據稽核包括普通的數據完整度、完善性等核查,同時根據不同數據的來源及業務特點,可以建立不同的特征模型進行針對性的稽核,這樣可以保證數據業務特征的準確性。因此未來數據稽核更關鍵的是針對性的稽核,尤其是針對不同業務特點的定制化數據稽核,它是保證數據質量的關鍵方法。

猜你喜歡
規則質量模型
一半模型
撐竿跳規則的制定
“質量”知識鞏固
數獨的規則和演變
質量守恒定律考什么
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做夢導致睡眠質量差嗎
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 日韩精品亚洲一区中文字幕| 色哟哟国产精品| 成人一级黄色毛片| 亚洲香蕉久久| 日本道综合一本久久久88| 欧美日韩国产高清一区二区三区| 欧美在线中文字幕| 一级全黄毛片| 大香网伊人久久综合网2020| 国产成人精品免费av| 亚洲中文精品人人永久免费| 永久成人无码激情视频免费| 日韩在线第三页| 亚洲一区毛片| 国产精品吹潮在线观看中文| 久久九九热视频| 国产精品亚洲αv天堂无码| 国产免费网址| 亚洲精品国产综合99久久夜夜嗨| 亚洲欧美不卡视频| 国产网友愉拍精品视频| a级毛片一区二区免费视频| 亚洲成网777777国产精品| 久久免费视频播放| 欧美日韩另类在线| 久久久久中文字幕精品视频| 国产一二三区在线| 久久美女精品国产精品亚洲| 精品视频在线一区| 久久精品国产精品一区二区| m男亚洲一区中文字幕| 免费国产福利| 欧美激情视频在线观看一区| 欧美日韩国产在线观看一区二区三区| 久久综合结合久久狠狠狠97色 | 54pao国产成人免费视频| 2021最新国产精品网站| 亚洲精选高清无码| 中文字幕 91| 91精品福利自产拍在线观看| 亚洲免费黄色网| 国产午夜人做人免费视频中文| 看国产一级毛片| 免费人成又黄又爽的视频网站| 国产在线八区| 91毛片网| 97精品国产高清久久久久蜜芽| 国产精品区网红主播在线观看| 91网址在线播放| 九九热精品在线视频| 再看日本中文字幕在线观看| 啪啪免费视频一区二区| 欧美成人影院亚洲综合图| 日韩欧美国产三级| 美女毛片在线| 久久人妻系列无码一区| 19国产精品麻豆免费观看| 鲁鲁鲁爽爽爽在线视频观看| 日韩国产高清无码| 欧美日韩在线观看一区二区三区| 99re热精品视频国产免费| 成人在线综合| 激情无码视频在线看| 热思思久久免费视频| 亚洲欧洲综合| 999国内精品久久免费视频| 91色在线观看| 99人妻碰碰碰久久久久禁片| 欧美不卡视频一区发布| 国产黄在线观看| 国产在线一区视频| 色爽网免费视频| 国产另类视频| 久久久久久久97| 天堂网亚洲系列亚洲系列| 无码国产偷倩在线播放老年人| 久久伊人色| 欧美亚洲国产精品第一页| 色首页AV在线| 中文字幕亚洲无线码一区女同| 538国产视频| 欧美日韩国产高清一区二区三区|