999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

元數(shù)據(jù)驅(qū)動的數(shù)據(jù)質(zhì)量監(jiān)控實踐

2019-05-22 10:27:32郭紹斌
電腦知識與技術(shù) 2019年6期
關(guān)鍵詞:數(shù)據(jù)質(zhì)量大數(shù)據(jù)

郭紹斌

摘要:數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)企業(yè)非常依賴的新型重要資產(chǎn)。數(shù)據(jù)質(zhì)量的好壞直接關(guān)系到信息的精準(zhǔn)度,也影響到企業(yè)的生存和競爭力。如何保證數(shù)據(jù)的準(zhǔn)確性、完整性、合理性,成為衡量一個大數(shù)據(jù)平臺下的質(zhì)量監(jiān)控的重要指標(biāo)[1]。針對這一問題提出了一種元數(shù)據(jù)驅(qū)動的數(shù)據(jù)質(zhì)量監(jiān)控解決方案,使用大數(shù)據(jù)分布式計算技術(shù)MR、Spark;Metabase報表平臺;Zabbix監(jiān)控報警平臺。保證數(shù)據(jù)的完整和準(zhǔn)確,并提供監(jiān)控和報警機制,解決下層數(shù)據(jù)出現(xiàn)錯誤,上層數(shù)據(jù)應(yīng)用產(chǎn)生錯誤的現(xiàn)象,減少企業(yè)損失。

關(guān)鍵詞:數(shù)據(jù)質(zhì)量;大數(shù)據(jù);元數(shù)據(jù);監(jiān)控

中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2019)06-0003-03

進入21世紀以來,隨著物聯(lián)網(wǎng)、電子商務(wù)、社會化網(wǎng)絡(luò)的快速發(fā)展,數(shù)據(jù)體量迎來了爆炸式地増長,大數(shù)據(jù)正在成為世界上最重要的土壤和基礎(chǔ)。根據(jù)DC(互聯(lián)網(wǎng)數(shù)據(jù)中心)預(yù)測,2020年的數(shù)據(jù)増長量將是2010年的44倍,達到35ZB。世界經(jīng)濟論壇報告稱,“大數(shù)據(jù)為新財富,價值堪比石油”。隨著計算機及其存儲設(shè)備、互聯(lián)網(wǎng)、云計算等技術(shù)的發(fā)展,大數(shù)據(jù)應(yīng)用領(lǐng)域不斷豐富。大數(shù)據(jù)產(chǎn)業(yè)成為引領(lǐng)信息技術(shù)產(chǎn)業(yè)發(fā)展的核心引、推動社會進步的重要力量。

數(shù)據(jù)質(zhì)量的好壞直接關(guān)系到信息的精準(zhǔn)度,也影響到企業(yè)的生存和競爭力。Michael Hammer(《Reengineering the Corporation》[2]一書的作者)曾說過,看起來不起眼的數(shù)據(jù)質(zhì)量問題,實際上是拆散業(yè)務(wù)流程的重要標(biāo)志。數(shù)據(jù)質(zhì)量管理是測度、提高和驗證質(zhì)量,以及整合組織數(shù)據(jù)的方法等一套處理準(zhǔn)則,而體量大、速度快和多樣性的特點,決定了大數(shù)據(jù)質(zhì)量所需的處理,有別于傳統(tǒng)信息治理計劃的質(zhì)量管理方式。

本文基于金蛋理財大數(shù)據(jù)平臺,通過對數(shù)據(jù)流轉(zhuǎn)過程中各個階段數(shù)據(jù)質(zhì)量檢測結(jié)果的采集分析、規(guī)則引擎、評估反饋和再檢測的閉環(huán)管理過程出發(fā),從需求背景、建設(shè)思路、技術(shù)方案、呈現(xiàn)效果及總結(jié)等方面,介紹金蛋理財數(shù)據(jù)中心數(shù)據(jù)質(zhì)量監(jiān)管平臺的搭建思路和建設(shè)實踐。

1 需求背景

隨著公司業(yè)務(wù)數(shù)據(jù)的增多,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法解決大量數(shù)據(jù)查詢和分析的能力。

需要把這些數(shù)據(jù)同步到Hive[3]分布式結(jié)構(gòu)化數(shù)據(jù)倉儲,或者HBase[4]實時的非結(jié)構(gòu)化數(shù)據(jù)倉儲。

背景一:數(shù)據(jù)從Mysql業(yè)務(wù)庫通過Sqoop[5]拉取到HDFS[6]上,映射,清洗合并到ods層(業(yè)務(wù)庫層原始數(shù)據(jù)),cm層(ods層數(shù)據(jù)清洗合并之后的數(shù)據(jù))。由于業(yè)務(wù)庫表字段進行變更、增加、上線要求計算利息表計算時間晚于正常時間,又或者是集群資源不穩(wěn)定,會造成數(shù)據(jù)同步合并不完整,數(shù)據(jù)無法正常使用。需要對數(shù)據(jù)的質(zhì)量進行粗、細粒度的監(jiān)控并含有報警機制。讓開發(fā)人員及時知道問題,修改問題。關(guān)閉和延緩報表推送等應(yīng)用,減少由于數(shù)據(jù)的不準(zhǔn)確性帶來上層應(yīng)用的損失。

背景二:Hive表中的數(shù)據(jù)是每天導(dǎo)入一次,滿足T+1天的查詢,但是實時性比較弱。無法滿足實時性要求高的查詢,例如:分析今天某個時間段活動的詳細數(shù)據(jù)。從而有了實時的存儲的需求HBase(HBase支持update某行數(shù)據(jù),Hive只能一次性插入)。歷史數(shù)據(jù)一次想導(dǎo)入,業(yè)務(wù)庫實時的數(shù)據(jù)(Binlog) →Cannel→Kafka→SparkStreaming→HBase。

中間過程復(fù)雜,為了保證數(shù)據(jù)的完整性和準(zhǔn)確性,必須建立數(shù)據(jù)質(zhì)量監(jiān)控平臺。

2 建設(shè)思路

以數(shù)據(jù)質(zhì)量檢核管理PDCA方法論,基于金蛋理財大數(shù)據(jù)平臺,對數(shù)據(jù)質(zhì)量需求和問題進行全質(zhì)量生命周期的管理,包括質(zhì)量問題的定義、檢核監(jiān)控、發(fā)現(xiàn)分析、跟蹤反饋及知識庫沉淀。數(shù)據(jù)質(zhì)量PDCA流程圖如圖1所示:

2.1質(zhì)量檢核標(biāo)準(zhǔn)

完整性:主要包括實體缺失、屬性缺失、記錄缺失和字段值缺失四個方面;

準(zhǔn)確性:一個數(shù)據(jù)值與設(shè)定為準(zhǔn)確的值之間的一致程度,或與可接受程度之間的差異;

合理性:主要包括格式、類型、值域和業(yè)務(wù)規(guī)則的合理有效;

一致性:業(yè)務(wù)指標(biāo)統(tǒng)一定義,數(shù)據(jù)邏輯加工結(jié)果一致性;

及時性:數(shù)據(jù)倉庫ETL、應(yīng)用展現(xiàn)的及時和快速性,Jobs運行耗時、質(zhì)量、依賴及時性。

金蛋理財數(shù)倉分為用戶、投資、轉(zhuǎn)出、計息四大主題,按數(shù)據(jù)價值量化、存儲資源優(yōu)化等指標(biāo)評估,劃分物理模型為熱、溫、冷、冰等四個標(biāo)準(zhǔn),結(jié)合應(yīng)用自定義其具體標(biāo)準(zhǔn)范圍,實現(xiàn)其靈活性配置;作業(yè)運行耗時分為:優(yōu)、良、一般、關(guān)注、耗時等,每類耗時定義的標(biāo)準(zhǔn)范圍既符合大數(shù)據(jù)的特性又可滿足具體分析需要,且作業(yè)耗時與數(shù)倉主題和邏輯分層深度整合,實現(xiàn)多角度質(zhì)量洞察評估;各項均對應(yīng)具體的實施策略。整體數(shù)據(jù)質(zhì)量的檢核對象包括離線數(shù)倉和實時數(shù)據(jù)。

2.2管理流程

流程化管理是推進數(shù)據(jù)問題從發(fā)現(xiàn)、跟蹤、解決到總結(jié)提煉的合理有效工具。質(zhì)量管理流程包括:數(shù)據(jù)質(zhì)量問題提報、數(shù)據(jù)質(zhì)量問題分析、故障跟蹤、解決驗證、數(shù)據(jù)質(zhì)量評估分析等主要環(huán)節(jié)步驟;從干系人員的角度分析包括數(shù)據(jù)質(zhì)量管理人員、數(shù)據(jù)質(zhì)量檢查人員、數(shù)據(jù)平臺開發(fā)人員、業(yè)務(wù)及BI商分人員等,從流程步驟到管理人員形成職責(zé)和角色的矩陣圖。如圖2所示:

3技術(shù)方案

3.1總體架構(gòu)如圖3所示

3.2監(jiān)控庫重要表設(shè)計

3.3程序規(guī)范

a)Hive:根據(jù)表元數(shù)據(jù)監(jiān)控報警表monitor_metabase預(yù)超時時間,同步 Hive元數(shù)據(jù)表TABLE_PARAMS中的數(shù)據(jù)到歷史元數(shù)據(jù)監(jiān)控表中。

b)設(shè)定定時任務(wù)執(zhí)行HQL,MR,Spark任務(wù)更新數(shù)據(jù)量、數(shù)據(jù)增量、數(shù)據(jù)增長率。

c)監(jiān)控指標(biāo)是否超過閾值,如果超過根據(jù) 組ID 自動報警;根據(jù)紅色報警時間確定再次報警。使用zabbix工具進行監(jiān)控,發(fā)郵件。

d)使用metabase報表平臺展示歷史、實時數(shù)據(jù)增量和數(shù)據(jù)增長率。

3.4技術(shù)細節(jié)

a)由于Hive元數(shù)據(jù)不準(zhǔn)確且有延遲性,所以要元數(shù)據(jù)重建。

b)報表展示環(huán)節(jié)由于各個表數(shù)據(jù)增量差距較大,采用增長率(當(dāng)天的增長數(shù)/最近七天的平均增長數(shù))進行監(jiān)控,從而折線圖的增長率在1.0附近。

c)實時數(shù)倉HBase的值和業(yè)務(wù)庫進行對比時,spark程序可仿照Pheonix調(diào)用HBase的API結(jié)合Schema配置,形成DataFrame,進而拼接SQL進行批量化處理。

4 呈現(xiàn)效果

5 總結(jié)

數(shù)據(jù)質(zhì)量是數(shù)據(jù)治理建設(shè)的重要一環(huán),與元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)化及數(shù)據(jù)服務(wù)管理等共同構(gòu)建了數(shù)據(jù)治理的體系框架。建設(shè)一個完整質(zhì)量監(jiān)管平臺,將從監(jiān)控、標(biāo)準(zhǔn)、流程制度等方面提升信息管理能力,優(yōu)先解決所面臨的數(shù)據(jù)質(zhì)量和數(shù)據(jù)服務(wù)問題,其效果體現(xiàn)以下幾個方面:

a)監(jiān)控數(shù)據(jù)資產(chǎn)質(zhì)量狀態(tài),為優(yōu)化數(shù)據(jù)平臺和數(shù)據(jù)倉庫性能、合理配置數(shù)據(jù)存儲資源提供決策支持;

b)持續(xù)推動數(shù)據(jù)質(zhì)量監(jiān)控優(yōu)化預(yù)警、實時監(jiān)控的機制;

c)重點優(yōu)先監(jiān)控關(guān)鍵核心數(shù)據(jù)資產(chǎn),管控優(yōu)化20%核心資源,可提升80%需求應(yīng)用性能;

d)規(guī)范了問題故障的跟蹤、Review、優(yōu)化方案。從數(shù)據(jù)中提煉價值,從方案中形成標(biāo)準(zhǔn)化的知識體系;

e)由技術(shù)檢測到業(yè)務(wù)監(jiān)督,形成閉環(huán)工作流機制,提高整體數(shù)據(jù)質(zhì)量,全面提升服務(wù)業(yè)務(wù)水平。

數(shù)據(jù)質(zhì)量是數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)應(yīng)用建設(shè)和決策支持的關(guān)鍵因素,可通過完善組織架構(gòu)和管理流程,加強部門間銜接和協(xié)調(diào),嚴格按照標(biāo)準(zhǔn)或考核指標(biāo)執(zhí)行落地,確保數(shù)據(jù)質(zhì)量方能將數(shù)據(jù)的商業(yè)價值最大化,進而提升企業(yè)的核心競爭力和保持企業(yè)的可持續(xù)發(fā)展。

參考文獻:

[1] 韓京宇,徐立臻.數(shù)據(jù)質(zhì)量研究綜述[J].計算機科學(xué),2018,35(2).

[2] Hammer, Michel Champy, James.Reengineering the Corporation[M]. NicholasBrealey, London, 1993:223.

[3] Y. Jia and Z. Shao. A Benchmark for Hive, PIG and Hadoop, 2009. https://issues.apache.org/jira/browse/HIVE,2009: 396.

[4] Nguyen AV, Wynden R, Sun Y: HBase, MapReduce, and Integrated Data Visualization for Processing Clinical Signal Data. In AAAI Spring Symposium: Computational Physiology: 2011.

[5] http://sqoop.apache.org/.

[6] The Hadoop Distributed File System: Architecture and Design, [online] Available: http://hadoop.apache.org/common/docs/r0.19.1/hdfs_design.html.

【通聯(lián)編輯:光文玲】

猜你喜歡
數(shù)據(jù)質(zhì)量大數(shù)據(jù)
電子商務(wù)平臺數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
強化統(tǒng)計執(zhí)法提高數(shù)據(jù)質(zhì)量
淺析統(tǒng)計數(shù)據(jù)質(zhì)量
中國市場(2016年40期)2016-11-28 04:58:19
金融統(tǒng)計數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實踐
時代金融(2016年27期)2016-11-25 19:02:25
淺談統(tǒng)計數(shù)據(jù)質(zhì)量控制
提高政府統(tǒng)計數(shù)據(jù)質(zhì)量,增強政府公信力
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 91免费片| 国产精品无码AV中文| 久精品色妇丰满人妻| 国产亚洲精品97AA片在线播放| 欧美人人干| 就去色综合| 2021国产乱人伦在线播放 | 久久精品国产999大香线焦| 日韩免费视频播播| 中文字幕啪啪| 国产乱视频网站| 国产一区自拍视频| av大片在线无码免费| 鲁鲁鲁爽爽爽在线视频观看| 久久国产黑丝袜视频| 成人国产小视频| 强奷白丝美女在线观看| 国产成熟女人性满足视频| 亚洲精品自拍区在线观看| 国产免费自拍视频| 国产H片无码不卡在线视频 | 国产成人精品高清不卡在线 | 国产一级二级三级毛片| 免费人成在线观看视频色| 欧美性猛交一区二区三区| 国产精品免费p区| lhav亚洲精品| 国产成人91精品| 国产偷国产偷在线高清| 久久精品一品道久久精品| 亚洲性影院| 国产一二三区视频| 一区二区自拍| 国产AV毛片| 91午夜福利在线观看精品| 精品国产91爱| 精品欧美一区二区三区在线| 99精品这里只有精品高清视频| 久久午夜夜伦鲁鲁片不卡| 欧洲成人在线观看| 久久黄色影院| 午夜欧美理论2019理论| 免费看美女自慰的网站| 国产高颜值露脸在线观看| 22sihu国产精品视频影视资讯| 伊人久久综在合线亚洲91| 99re在线视频观看| 婷婷久久综合九色综合88| 又黄又湿又爽的视频| 国产黑丝一区| 青青草91视频| 亚洲欧美日韩高清综合678| 国产精品主播| 72种姿势欧美久久久大黄蕉| 色婷婷亚洲综合五月| 精品国产成人高清在线| 日本五区在线不卡精品| 毛片免费视频| 麻豆AV网站免费进入| 亚洲综合第一区| 欧美日韩国产成人在线观看| 亚洲三级影院| 国产主播在线观看| 日韩国产亚洲一区二区在线观看 | 99视频在线看| 草逼视频国产| a免费毛片在线播放| 国产乱码精品一区二区三区中文| 99久久国产精品无码| 丁香五月婷婷激情基地| 国产免费黄| 97影院午夜在线观看视频| 久久99久久无码毛片一区二区| 人人91人人澡人人妻人人爽| 国产综合色在线视频播放线视| 呦系列视频一区二区三区| 日韩一二三区视频精品| 伊人婷婷色香五月综合缴缴情| 九九热这里只有国产精品| 欧美a在线视频| 青青操视频在线| 国产熟女一级毛片|