999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)管理系統(tǒng)

2019-07-08 03:36:55羅小洪
神州·中旬刊 2019年6期
關(guān)鍵詞:大數(shù)據(jù)

羅小洪

摘要:本文首先對(duì)元數(shù)據(jù)的基本概念和作用進(jìn)行了介紹,然后對(duì)元數(shù)據(jù)系統(tǒng)的軟件架構(gòu)進(jìn)行了設(shè)計(jì),并對(duì)用到的關(guān)鍵技術(shù)進(jìn)行了說明,用到的關(guān)鍵技術(shù)包括:“血緣關(guān)系”,元數(shù)據(jù)抽取、轉(zhuǎn)換、加載以及SQL數(shù)據(jù)的埋點(diǎn)、采集等。實(shí)現(xiàn)了將數(shù)據(jù)界面化展示,可完成數(shù)據(jù)字典查詢、表對(duì)象查詢等,使用戶可以很輕松的獲取想要的數(shù)據(jù),大大地提高了開發(fā)的效率。

關(guān)鍵詞:元數(shù)據(jù);元數(shù)據(jù)系統(tǒng);數(shù)據(jù)倉(cāng)庫(kù)hive;大數(shù)據(jù)

ABSTRACT:Abstract:This paper first introduces the basic concepts and functions of metadata, and then designs the software architecture of the metadata system, and introduces? key technologies such as“blood relationship”, metadata extraction, metadata conversion, metadata loading, as well as the burying and collecting of SQL data, the article also realizes the interface display of data, it can complete data dictionary query, table object query, etc., so that users can easily obtain the desired data, greatly improving the developments efficiency.

Keywords:metadata,Metadata System,data warehouse hive,big data

引言

元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),在數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)中,是不可忽略的一環(huán)。其作用在于對(duì)數(shù)據(jù)的治理、提高數(shù)據(jù)使用效率和數(shù)據(jù)管理效率,到達(dá)數(shù)據(jù)利用的準(zhǔn)確及高效[1]。由于數(shù)據(jù)的海量性,數(shù)據(jù)的管理需要借助一個(gè)可視化的界面供開發(fā)人員的使用,為此需要建立一個(gè)可視化的元數(shù)據(jù)原理系統(tǒng)來幫助使用者開發(fā)、維護(hù)、使用、管理元數(shù)據(jù)。

元數(shù)據(jù)打通了數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)應(yīng)用,記錄了數(shù)據(jù)從產(chǎn)生到消費(fèi)的完整鏈路。元數(shù)據(jù)包含:靜態(tài)的表、列、分區(qū)信息(也就是MetaStore);動(dòng)態(tài)的任務(wù)、表依賴映射關(guān)系;數(shù)據(jù)倉(cāng)庫(kù)的模型定義、數(shù)據(jù)生命周期;以及ETL任務(wù)調(diào)度信息、輸入輸出等

元數(shù)據(jù)是數(shù)據(jù)管理、數(shù)據(jù)內(nèi)容、數(shù)據(jù)應(yīng)用的基礎(chǔ)。例如可以利用元數(shù)據(jù):構(gòu)建任務(wù)、表、列、用戶之間的數(shù)據(jù)圖譜;構(gòu)建任務(wù)DAG依賴關(guān)系,編排任務(wù)執(zhí)行序列;構(gòu)建任務(wù)畫像,進(jìn)行任務(wù)質(zhì)量治理;數(shù)據(jù)分析時(shí),使用數(shù)據(jù)圖譜進(jìn)行字典檢索;根據(jù)表名查看表詳情,以及每張表的來源、去向,每個(gè)字段的加工邏輯;提供個(gè)人或BU的資產(chǎn)管理、計(jì)算資源消耗概覽等。

在業(yè)務(wù)量并不是很大的時(shí)候,對(duì)應(yīng)的開發(fā)者對(duì)業(yè)務(wù)較為熟悉,查看元數(shù)據(jù)信息都是通過訪問元數(shù)據(jù)庫(kù)進(jìn)行查詢,但當(dāng)并非專業(yè)人士,如數(shù)據(jù)分析師需要查看元數(shù)據(jù)信息時(shí),就困難重重,尤其是當(dāng)業(yè)務(wù)數(shù)據(jù)不斷擴(kuò)張時(shí),即便是專業(yè)的開發(fā)者想要隨時(shí)拿到想要的數(shù)據(jù)也并不容易,所以元數(shù)據(jù)系統(tǒng)應(yīng)運(yùn)而生。

1.軟件架構(gòu)設(shè)計(jì)

·DB保存任務(wù)的sql數(shù)據(jù)、任務(wù)基礎(chǔ)信息、執(zhí)行引擎上下文信息

·Extract循環(huán)抽取sql并解析成表、列級(jí)血緣Lineage

·DataSet包含Lineage關(guān)系數(shù)據(jù)+任務(wù)信息+引擎上下文

·將DataSet數(shù)據(jù)集保存到Neo4j,并提供關(guān)系查詢;保存ES,提供表、字段等信息檢索

2.關(guān)鍵技術(shù)

2.1血緣關(guān)系

“表”是元數(shù)據(jù)系統(tǒng)的后臺(tái)邏輯核心,數(shù)據(jù)倉(cāng)庫(kù)是構(gòu)建在Hive之上的,而Hive元數(shù)據(jù)來自于生產(chǎn)系統(tǒng),也可能會(huì)把計(jì)算的結(jié)果導(dǎo)出到外部存儲(chǔ)。Hive表、mysql表、hbase表、BI報(bào)表都是“表”,這些“表”間關(guān)系是一個(gè)DAG,也就是血緣關(guān)系。

2.2 SQL埋點(diǎn)、采集

sql數(shù)據(jù),以執(zhí)行中采集為主+保存前submit為輔。因?yàn)槿蝿?wù)的sql可能包含一些時(shí)間變量,比如dt、hour,以及任務(wù)可能是天調(diào)度、小時(shí)調(diào)度。執(zhí)行中采集sql實(shí)時(shí)性更高,也更容易處理EDW是任務(wù)調(diào)度系統(tǒng),類比開源的AirFlow,調(diào)度系統(tǒng)執(zhí)行任務(wù),并將任務(wù)相關(guān)的信息比如appId、jobId、owner、sql等信息存入DB。

計(jì)算引擎實(shí)現(xiàn)相關(guān)的監(jiān)聽接口,比如Hive實(shí)現(xiàn)Execute WithHookContext接口;Spark實(shí)現(xiàn)SparkListener接口;Presto實(shí)現(xiàn)EventListener接口。將計(jì)算引擎相關(guān)的上下文Context、元數(shù)據(jù)MetaData、統(tǒng)計(jì)Statistics等信息存入DB。

解析sql的方案,以hive為例。先定義詞法規(guī)則和語(yǔ)法規(guī)則文件,然后使用Antlr實(shí)現(xiàn)sql的詞法和語(yǔ)法解析,生成AST語(yǔ)法樹,遍歷AST語(yǔ)法樹完成后續(xù)操作。

但對(duì)于SELECT*、CTAS等操作,直接遍歷AST,不去獲取Schema信息來檢查表名、列名,就無法判定sql的正確性,從而導(dǎo)致數(shù)據(jù)污染。

綜上所述,本系統(tǒng)的SQL解析方案,直接參考Hive的底層源碼實(shí)現(xiàn)。經(jīng)過SemanticAnalyzerFactory類進(jìn)行語(yǔ)法分析,再根據(jù)Schema生成執(zhí)行計(jì)劃QueryPlan。關(guān)于表、列的血緣,可以從LineageInfo、LineageLogger類中獲得解決方案。

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
基于大數(shù)據(jù)的小微電商授信評(píng)估研究
大數(shù)據(jù)時(shí)代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
主站蜘蛛池模板: 美女亚洲一区| 国产99在线观看| 内射人妻无码色AV天堂| 四虎成人精品在永久免费| 亚洲三级电影在线播放| 精品一区二区三区视频免费观看| 国产成人成人一区二区| 色悠久久综合| 玖玖免费视频在线观看| 免费A∨中文乱码专区| 日韩无码视频专区| 就去色综合| 欧美va亚洲va香蕉在线| 在线观看免费黄色网址| 亚洲精品制服丝袜二区| 亚洲欧美在线综合图区| 精品久久久无码专区中文字幕| 免费又爽又刺激高潮网址| 成人午夜天| 日韩毛片基地| 一级片一区| 国产免费精彩视频| 99久久精品免费观看国产| 日韩麻豆小视频| 67194成是人免费无码| 爱色欧美亚洲综合图区| 54pao国产成人免费视频| 无码国产偷倩在线播放老年人| 91伊人国产| 国产真实乱子伦精品视手机观看 | 久久婷婷六月| 88av在线| 91探花国产综合在线精品| 国产嫩草在线观看| 国产主播喷水| 国产精品v欧美| 欧美伦理一区| 四虎在线观看视频高清无码| 日韩精品欧美国产在线| 91精品免费高清在线| 亚洲美女操| 亚洲视频色图| 日本免费一区视频| 中国黄色一级视频| 成人免费午间影院在线观看| 精品一区国产精品| 亚洲第一精品福利| 538国产在线| 欧美激情第一区| 99这里只有精品免费视频| 欧美成人精品一级在线观看| 国产综合色在线视频播放线视| 久久6免费视频| 小说 亚洲 无码 精品| 中文字幕亚洲精品2页| 亚洲欧洲一区二区三区| 在线欧美日韩| 精品在线免费播放| 91成人免费观看在线观看| 大香网伊人久久综合网2020| 中文字幕在线观看日本| 亚洲国产中文在线二区三区免| 无码免费试看| 亚洲成人网在线播放| 亚洲香蕉伊综合在人在线| 久久婷婷五月综合色一区二区| 91口爆吞精国产对白第三集 | 国产精品毛片一区视频播| 国产三区二区| 国产精品第| 欧美性猛交一区二区三区| 日韩东京热无码人妻| 久久综合婷婷| 福利片91| 色偷偷综合网| 欧美成人午夜在线全部免费| 色综合久久无码网| 久久无码av一区二区三区| 欧美亚洲欧美区| 中国国产A一级毛片| 一级成人欧美一区在线观看| 亚洲天堂精品视频|