999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BO平臺裝備綜合分析ETL架構(gòu)設(shè)計

2019-05-06 09:08:14吳進美陳小泉鄧增利唐瑋張志輝匡勝
科技創(chuàng)新導(dǎo)報 2019年36期

吳進美 陳小泉 鄧增利 唐瑋 張志輝 匡勝

摘? ?要:針對之前數(shù)據(jù)抽取任務(wù)的零散、串行、任務(wù)多而難管理。設(shè)計實現(xiàn)一種多數(shù)據(jù)流并行抽取數(shù)據(jù),對異構(gòu)平臺及各種類型的數(shù)據(jù)源進行多數(shù)據(jù)流并行抽取,擴展了ETL(Extract,Transform and Load)現(xiàn)有的系統(tǒng)架構(gòu),為今后對海量數(shù)據(jù)的處理提供了統(tǒng)一高效的數(shù)據(jù)來源。

關(guān)鍵詞:數(shù)據(jù)倉庫? ETL? 元數(shù)據(jù)? 數(shù)據(jù)清洗

1? 數(shù)據(jù)源構(gòu)成

數(shù)據(jù)獲取和整合層主要實現(xiàn)從現(xiàn)有業(yè)務(wù)系統(tǒng)及外部數(shù)據(jù)來源中檢索/接收,湛江分公司裝備服務(wù)管理分析平臺(以下簡稱“平臺”)主要使用SAP DataService作為ETL工具,將Oracle數(shù)據(jù)庫、DB2數(shù)據(jù)庫、Excel文件、XML文件、DataService本身參數(shù)等不同系統(tǒng)、不同數(shù)據(jù)格式的數(shù)據(jù)經(jīng)過查詢、合并、拆分等操作,加載到平臺的YC134數(shù)據(jù)倉庫(DW)中。并且在這個過程中進行數(shù)據(jù)質(zhì)量的清洗和主數(shù)據(jù)的管理。對于數(shù)據(jù)源和數(shù)據(jù)目標(biāo),它們支持各種主流開放關(guān)系數(shù)據(jù)環(huán)境,包括MAXIMO系統(tǒng)、SAP系統(tǒng)或者其他業(yè)務(wù)系統(tǒng)。

2? ETL抽取數(shù)據(jù)設(shè)計要點

平臺設(shè)計多工作流并行抽取任務(wù)[1]是基于一個JOB任務(wù)對應(yīng)多個工作流(Work Flow)或者多個數(shù)據(jù)流(Data Flow),其中多個工作流并行抽取是整個JOB任務(wù)的核心,它可以內(nèi)嵌多個數(shù)據(jù)流,而數(shù)據(jù)流根據(jù)元數(shù)據(jù)庫[2]中的信息進行邏輯SQL的提取,經(jīng)過查詢(Query)、合并(merge)、層級(Hierarchy_Flattening)等處理并加載到數(shù)據(jù)倉庫中。由于數(shù)據(jù)抽取過程涉及到業(yè)務(wù)邏輯和不同系統(tǒng)環(huán)境等因素,所以在多工作流及數(shù)據(jù)流并行抽取過程中需要考慮跨平臺性和智能性。跨平臺一方面多工作流及數(shù)據(jù)流并行抽取本身需具備跨平臺性;另一方面對數(shù)據(jù)源系統(tǒng)和目標(biāo)數(shù)據(jù)庫所處的異構(gòu)環(huán)境進行支持。智能性是指并行抽取任務(wù)能夠根據(jù)預(yù)先設(shè)置的定時任務(wù)定時對數(shù)據(jù)進行抽取,并對在抽取過程中出現(xiàn)的異常及故障進行監(jiān)控和保留日志以便查詢。

3? ETL構(gòu)建設(shè)計

平臺的整體架構(gòu)采用以數(shù)據(jù)倉庫(DW)[3]為中心的技術(shù)架構(gòu),集成ETL技術(shù)、OLAP(on-Line Analytic Processing)技術(shù)、語義層(Designer)技術(shù)、報表設(shè)計展現(xiàn)技術(shù)和門戶技術(shù),有效地保障了數(shù)據(jù)的時效性、易用性和準(zhǔn)確性。

一般情況下分為ODS、DW兩部分,如果后期需要進一步深入分析,可以添加DM部分。通常從業(yè)務(wù)數(shù)據(jù)系統(tǒng)中到ODS做清洗,把數(shù)據(jù)源中重復(fù)使用到的數(shù)據(jù)(比如維表數(shù)據(jù))的信息整理出來,經(jīng)過跟業(yè)務(wù)部門認真反復(fù)驗證確認后進行臟數(shù)據(jù)的過濾、不完成數(shù)據(jù)的修正等;再從ODS到DW的過程轉(zhuǎn)換,進行數(shù)據(jù)不一致、數(shù)據(jù)粒度及業(yè)務(wù)規(guī)則計算等。清楚業(yè)務(wù)系統(tǒng)數(shù)據(jù)到ODS到DW間的邏輯關(guān)系,將其轉(zhuǎn)化為一個完整可執(zhí)行的ETL過程,進行各種操作和流程對數(shù)據(jù)進行清洗和轉(zhuǎn)換,并處理在轉(zhuǎn)換中出現(xiàn)的異常。此外ETL工具為方便管理和追蹤任務(wù)執(zhí)行情況還提供ETL過程運行時詳盡的log日志功能。

3.1 數(shù)據(jù)抽取過程設(shè)計

ETL過程中無論是抽取、清理、轉(zhuǎn)換都可以認為是數(shù)據(jù)轉(zhuǎn)換過程。ETL過程的一般數(shù)據(jù)轉(zhuǎn)換流程為:(1)從數(shù)據(jù)源中獲取業(yè)務(wù)數(shù)據(jù)及基礎(chǔ)數(shù)據(jù)等;(2)使用轉(zhuǎn)換處理獲取的數(shù)據(jù)并輸出;(3)將生成的輸出結(jié)果集載入到目標(biāo)數(shù)據(jù)庫。數(shù)據(jù)轉(zhuǎn)換分成三類:數(shù)據(jù)清洗、模式轉(zhuǎn)換、層級轉(zhuǎn)換;數(shù)據(jù)清洗是過濾掉業(yè)務(wù)數(shù)據(jù)中不需要做分析統(tǒng)計的數(shù)據(jù),比如不完成、錯誤、重復(fù)、沒有分析意義的數(shù)據(jù)等;模式轉(zhuǎn)換是將抽取的數(shù)據(jù)源進行數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)粒度、業(yè)務(wù)計算等轉(zhuǎn)換過程;層級轉(zhuǎn)換一般是對基礎(chǔ)數(shù)據(jù)中有層級關(guān)系的邏輯數(shù)據(jù)進行樹結(jié)構(gòu)層級轉(zhuǎn)換。

數(shù)據(jù)抽取一般有兩種形式:增量抽取和全量抽取。由于增量數(shù)據(jù)集一般較少,增量抽取不但降低了數(shù)據(jù)的傳輸量,同時大大提高了抽取過程中的效率。數(shù)據(jù)抽取過程一般在業(yè)務(wù)系統(tǒng)訪問量最低的時間執(zhí)行,比如是夜間或者休息日,以降低業(yè)務(wù)系統(tǒng)訪問的峰值負荷。這意味著ETL過程的執(zhí)行時間粒度至少是以天為單位。采取合理的增量抽取方式,可以降低數(shù)據(jù)抽取的負荷,提高抽取任務(wù)的效率,可以增大ETL執(zhí)行頻率[4],提升數(shù)據(jù)的時效性。此外數(shù)據(jù)倉庫中要求保存歷史數(shù)據(jù),如果每次進行重載,這些保存的歷史數(shù)據(jù)將會丟失,這也要求ETL工具具備增量抽取數(shù)據(jù)能力。

增量抽取數(shù)據(jù)方法目前有基于日志的抽取、基于觸發(fā)器的抽取、基于應(yīng)用程序的抽取、基于時間戳的抽取、基于增量快照的抽取等幾種方法。平臺主要使用基于時間戳的增量抽取方法,基于時間戳的方法必須依賴業(yè)務(wù)系統(tǒng)的支出。

3.2 數(shù)據(jù)驗證過程設(shè)計

在項目的業(yè)務(wù)數(shù)據(jù)分析階段,業(yè)務(wù)歸屬人員和技術(shù)人員將合作校對ETL過程抽取數(shù)據(jù)的準(zhǔn)確性及有效性。包括對模糊的數(shù)據(jù)轉(zhuǎn)換、丟失的數(shù)據(jù)恢復(fù)、業(yè)務(wù)相關(guān)的數(shù)據(jù)問題如數(shù)據(jù)源增強。

3.3 數(shù)據(jù)裝載過程設(shè)計

數(shù)據(jù)裝載主要將加工處理后的業(yè)務(wù)數(shù)據(jù)加載到數(shù)據(jù)倉庫中的目標(biāo)表,是ETL過程的最后步驟。系統(tǒng)通過JDBC連接數(shù)據(jù)庫進行直連數(shù)據(jù)庫方式進行數(shù)據(jù)裝載,充分體現(xiàn)高效性。可以隨時調(diào)整數(shù)據(jù)抽取方式,靈活的集成裝載到其他數(shù)據(jù)倉庫中。

3.4 作業(yè)運行

ETL過程可以通過處理鏈或JOB管理工具進行調(diào)用,處理鏈或JOB管理工具可以預(yù)先定義調(diào)用的時間(如每天凌晨幾點)、周期,并且所有調(diào)用過程都將執(zhí)行詳情記錄到日志。

4? 結(jié)語

通過DataService建立一個集成、共享、統(tǒng)一的數(shù)據(jù)管理平臺,整合不同來源的數(shù)據(jù)、發(fā)揮數(shù)據(jù)的價值、提高數(shù)據(jù)的分析能力及準(zhǔn)確性,為各層人員提高多維數(shù)據(jù)查詢統(tǒng)計、信息分析及報表生成;通過面向主題的數(shù)據(jù)分析,發(fā)現(xiàn)問題、找出規(guī)律、追溯源頭,為管理層決策管理提出信息、知識支持。后期在現(xiàn)有報表體系的基礎(chǔ)上,提高報表數(shù)據(jù)可靠性,為決策層提供更加可靠的報表數(shù)據(jù),并為作業(yè)區(qū)層次的一線工作人員規(guī)范性流程工作提供數(shù)據(jù)依據(jù)。

參考文獻

[1] 韓京宇,徐立臻,董逸生.ETL執(zhí)行的流水線優(yōu)化[J].小型微型計算機系統(tǒng),2005,26(6):1013-1017.

[2] 杜永友.構(gòu)建基于工作流引擎和元數(shù)據(jù)驅(qū)動的數(shù)據(jù)倉庫ETL工具[D].四川大學(xué),2004.

[3] 柳鶯.數(shù)據(jù)倉庫技術(shù)研究和應(yīng)用探討[J].計算機應(yīng)用,2001(2):69-70.

[4] 吳遠紅.ETL執(zhí)行過程的優(yōu)化研究[J].計算機科學(xué),2007,34(1):81-83.

主站蜘蛛池模板: 99精品国产高清一区二区| 国产区在线观看视频| 深爱婷婷激情网| 久久久久久久久18禁秘| 欧美成人a∨视频免费观看 | 国产va视频| 成人一区专区在线观看| 丁香婷婷激情网| 国产高清在线观看| 精品久久久无码专区中文字幕| 久久性视频| 国产麻豆永久视频| 国产综合亚洲欧洲区精品无码| 青青草国产免费国产| 九九免费观看全部免费视频| 国产综合另类小说色区色噜噜| 国产91丝袜在线播放动漫 | 成人国产精品2021| 中文纯内无码H| 中文字幕av无码不卡免费| 少妇精品网站| 熟女成人国产精品视频| 热99re99首页精品亚洲五月天| 国产专区综合另类日韩一区| 国产午夜无码专区喷水| 一本大道无码日韩精品影视| 久久久四虎成人永久免费网站| 久久精品国产精品国产一区| 无码一区18禁| 欧美日本一区二区三区免费| 99re免费视频| 无遮挡一级毛片呦女视频| a级毛片在线免费观看| 91免费在线看| 77777亚洲午夜久久多人| 精品无码国产一区二区三区AV| 亚洲 欧美 日韩综合一区| 国产精品999在线| 99久久无色码中文字幕| 成年看免费观看视频拍拍| 伊人久综合| 國產尤物AV尤物在線觀看| 国产高清不卡| 毛片网站在线播放| 亚洲自偷自拍另类小说| 日韩无码黄色| 国产一区二区三区精品久久呦| 国产AV无码专区亚洲A∨毛片| 国产熟睡乱子伦视频网站| 欧美a级在线| 日韩a在线观看免费观看| 成人福利一区二区视频在线| 天天综合天天综合| 在线播放91| 尤物精品视频一区二区三区 | 丁香六月激情婷婷| 一边摸一边做爽的视频17国产| 午夜视频免费试看| WWW丫丫国产成人精品| 国产激爽大片在线播放| 欧美第二区| 亚洲欧美天堂网| 人人爽人人爽人人片| 99偷拍视频精品一区二区| 青青青亚洲精品国产| 欧洲熟妇精品视频| 午夜电影在线观看国产1区| 日韩视频免费| 男人天堂亚洲天堂| 国产成人一区在线播放| 国产爽歪歪免费视频在线观看| 特级精品毛片免费观看| 精品一区二区三区视频免费观看| 亚洲视屏在线观看| 亚洲精品人成网线在线| 99视频在线免费观看| 久久先锋资源| 欧美中文字幕第一页线路一| 国产精品极品美女自在线网站| 18禁色诱爆乳网站| 亚洲动漫h| 欧美成人亚洲综合精品欧美激情|