999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非結(jié)構(gòu)化數(shù)據(jù)的ETL設計方法探討

2014-04-29 08:27:15劉大滏趙盛
科技創(chuàng)新與應用 2014年14期

劉大滏 趙盛

摘 要:現(xiàn)代信息技術(shù)在行業(yè)中的應用日益深入,而各系統(tǒng)在開發(fā)過程中因其自身的獨立性,在處理相關業(yè)務或?qū)崿F(xiàn)數(shù)據(jù)管理時,多需要從異構(gòu)環(huán)境下來進行整合。文章結(jié)合當前流行的公共倉庫元模型以及ETL技術(shù)特點,針對非結(jié)構(gòu)化數(shù)據(jù)的差異性,探討屬性提取和數(shù)據(jù)打包的有效方法,為實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的ETL設計奠定基礎。

關鍵詞:非結(jié)構(gòu)化數(shù)據(jù);CWM元模型;ETL設計

計算機技術(shù)、網(wǎng)絡通信技術(shù)在行業(yè)應用的不斷深入,諸如各類ERP系統(tǒng)、CRM系統(tǒng)、SCM系統(tǒng)及其他商業(yè)應用系統(tǒng)的開發(fā),由于各系統(tǒng)在開發(fā)過程中因其獨立性特點,在優(yōu)化系統(tǒng)應用、改善業(yè)務流程等過程中,不得不考慮在異構(gòu)環(huán)境下的數(shù)據(jù)資源共享問題。異構(gòu)環(huán)境下的數(shù)據(jù)格式及定義是不一致的,而對于相對封閉的應用系統(tǒng)數(shù)據(jù)資源來說,如何更有效的提升數(shù)據(jù)資源的應用效力,提高數(shù)據(jù)資源的共享水平,結(jié)合行業(yè)應用差異和不同部門對數(shù)據(jù)的實際需求,從數(shù)據(jù)的整合需求上,建立起不同系統(tǒng)下數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換技術(shù)即ETL技術(shù),就顯得尤為迫切。

1 ETL技術(shù)概述

ETL(Extract-Transform-Load )技術(shù)是數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程。從其技術(shù)概述來看,Extract是對數(shù)據(jù)的抽取過程,其作用是從原始數(shù)據(jù)系統(tǒng)中讀取所需要的數(shù)據(jù),是實現(xiàn)數(shù)據(jù)轉(zhuǎn)換工作的前提;Transform是按照預先設計規(guī)則進行相應轉(zhuǎn)換的過程,其作用是基于異構(gòu)的數(shù)據(jù)資源實現(xiàn)對數(shù)據(jù)格式及定義的統(tǒng)一;Load是對數(shù)據(jù)倉庫進行裝載的過程,其作用是對轉(zhuǎn)換后的數(shù)據(jù)重新導入到數(shù)據(jù)倉庫中,以實現(xiàn)對數(shù)據(jù)資源的有效整合。從國內(nèi)外ETL技術(shù)的發(fā)展與應用來看,主要有IBM Data Stag、Informatics Power Center、Oracle 2 ODI,以及國內(nèi)開發(fā)的Bee Load等產(chǎn)品。在中高端應用上以Data Stage和Power Center居多。ETL技術(shù)能夠?qū)崿F(xiàn)對異構(gòu)數(shù)據(jù)庫中相關數(shù)據(jù)的挖掘和統(tǒng)計,并結(jié)合數(shù)學模型來實現(xiàn)對未來發(fā)展進行可靠的預測分析,為行業(yè)決策支持系統(tǒng)提供有效的數(shù)據(jù)服務功能。

2 ETL技術(shù)模型分析

從主流的ETL技術(shù)應用來看,多以元數(shù)據(jù)為基礎,也就是說滿足CWM元數(shù)據(jù)標準的數(shù)據(jù)模式。CWM是Common Warehouse Meta-model的簡稱,由國際對象管理組織OMG制定的元數(shù)據(jù)模型標準,其作用主要是為了能夠?qū)Ξ悩?gòu)環(huán)境下各數(shù)據(jù)倉庫中的元數(shù)據(jù)進行交換和共享。其邏輯結(jié)構(gòu)圖如下所示:

圖1 ETL技術(shù)邏輯示意圖

在ETL系統(tǒng)中,借助于元數(shù)據(jù)采集工具來實現(xiàn)對源數(shù)據(jù)庫、主題數(shù)據(jù)庫,及相關數(shù)據(jù)抽取、轉(zhuǎn)換、裝載等操作,并依據(jù)CWM元模型標準,存儲于元數(shù)據(jù)庫。其執(zhí)行過程是通過系統(tǒng)調(diào)度模塊來實現(xiàn)對相應元數(shù)據(jù)的抽取與整合,其元數(shù)據(jù)主要包括三類:一是技術(shù)元數(shù)據(jù),如ETL技術(shù)對各類源數(shù)據(jù)庫中的數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)序列名等進行描述,并準確獲得源數(shù)據(jù)庫與主題數(shù)庫之間的變化信息;二是操作元數(shù)據(jù),主要包括對業(yè)務用戶和數(shù)據(jù)操作有價值的元數(shù)據(jù),如數(shù)據(jù)質(zhì)量、更新計劃、訪問模式等;三是業(yè)務元數(shù)據(jù),主要包括對各業(yè)務用戶有用的信息,如數(shù)據(jù)的所有權(quán)及各類業(yè)務規(guī)則,數(shù)據(jù)裝載計劃等,其作用能夠為用戶與數(shù)據(jù)倉庫提供訪問的橋梁。

3 ETL數(shù)據(jù)分析及設計

從CWM元數(shù)據(jù)模型對ETL系統(tǒng)的邏輯關系來看,這些元數(shù)據(jù)具有明確的格式特點、屬性及數(shù)據(jù)關系,可以通過使用二維表來進行邏輯表達。而對于異構(gòu)環(huán)境下無法用二維邏輯表進行表達的非結(jié)構(gòu)化數(shù)據(jù)來說,其相對零散的數(shù)據(jù)堆積,不僅存在大量數(shù)據(jù)冗余和無效信息,還難以用簡單的結(jié)構(gòu)化描述語言進行準確表達。也就是說,對于非結(jié)構(gòu)化數(shù)據(jù),如視頻數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)等信息進行管理和提取時,迫切需要從ETL技術(shù)設計上來進行優(yōu)化。在對CWM元數(shù)據(jù)結(jié)構(gòu)進行分析后,ETL系統(tǒng)設計主要是對存儲在源數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)進行抽取、轉(zhuǎn)換和加載,而對于非結(jié)構(gòu)化數(shù)據(jù)來說,其元數(shù)據(jù)屬于技術(shù)元數(shù)據(jù),只要處理好技術(shù)元數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換,使其便于使用CWM元數(shù)據(jù)驅(qū)動ETL系統(tǒng)即可。因此,對于非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)中的操作元數(shù)據(jù)和業(yè)務元數(shù)據(jù),依據(jù)常規(guī)的數(shù)據(jù)控制轉(zhuǎn)換模塊即可完成對源數(shù)據(jù)庫到主題數(shù)據(jù)庫的裝載。

對于結(jié)構(gòu)化數(shù)據(jù)可以根據(jù)數(shù)據(jù)的屬性來建立元數(shù)據(jù),而對于非結(jié)構(gòu)化數(shù)據(jù),則需要從各種數(shù)據(jù)的隱藏屬性進行分析,并使其能夠顯現(xiàn)出來。我們從非結(jié)構(gòu)化數(shù)據(jù)的自有屬性進行觀察,主要有時間屬性、空間屬性、內(nèi)容屬性、格式屬性、來源屬性、獲取手段屬性及使用屬性等,通過對原有非結(jié)構(gòu)化數(shù)據(jù)文件進行重新命名分類,如結(jié)合某應用需要來建立新的文件名,即單位_科室_總類_分類_具體類型_日期.pdf,就可以很清晰的反映出某數(shù)據(jù)文件的來源、分類及時間等信息。Adobe公司的PDF數(shù)據(jù)壓縮包能夠?qū)崿F(xiàn)對數(shù)據(jù)壓縮和轉(zhuǎn)換的功能,既可以節(jié)省存儲空間,還能夠?qū)崿F(xiàn)對數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換。其組織結(jié)構(gòu)如下圖2所示:

圖2 Adobe PDF 數(shù)據(jù)包組織結(jié)構(gòu)

利用Adobe PDF數(shù)據(jù)包來實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)庫的轉(zhuǎn)換,可以依照樹形結(jié)構(gòu)來進行顯示,也可以對不同類型的數(shù)據(jù)文件進行設計,使其滿足對某一非結(jié)構(gòu)化數(shù)據(jù)進行單獨壓縮,也可以對多個非結(jié)構(gòu)化數(shù)據(jù)進行全面壓縮,其摘要信息可以存放在info.xml文件。利用非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換方法,可以從其相關屬性中來判定數(shù)據(jù)的摘要及內(nèi)容,還可以利用工具軟件編制數(shù)據(jù)索引,便于日后對相關數(shù)據(jù)的快速檢索,從而實現(xiàn)了對非結(jié)構(gòu)化數(shù)據(jù)的CWM的ETL處理,滿足了非結(jié)構(gòu)化數(shù)據(jù)的整合和管理目標。

4 結(jié)束語

文章通過對非結(jié)構(gòu)化數(shù)據(jù)源的PDF轉(zhuǎn)換壓縮的分析,為更好的挖掘非結(jié)構(gòu)化數(shù)據(jù)的隱藏屬性,提高對非結(jié)構(gòu)化數(shù)據(jù)源的準確定位,并實現(xiàn)了對非結(jié)構(gòu)化數(shù)據(jù)的整合和管理,為滿足行業(yè)應用提供了有效的解決方案。

參考文獻

[1]萬里鵬.非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的研究與實現(xiàn)[D].西南交通大學,2013.

[2]周茂偉,鄧蘇,黃宏斌.基于元數(shù)據(jù)的ETL工具設計與實現(xiàn)[J].科學技術(shù)與工程,2006(21).

[3]馬曉東.地理信息元數(shù)據(jù)的管理探討[J].測繪技術(shù)裝備,2009(02).

[4]梁大鵬,李紅.基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)研究設計[J].商場現(xiàn)代化,2011(04).

作者簡介:劉大滏(1976,12-),男,重慶,高級工程師。

趙盛(1978,5-),男,陜西工程師。

主站蜘蛛池模板: 亚洲丝袜第一页| 国产在线日本| 97久久超碰极品视觉盛宴| 婷婷色婷婷| 国产亚洲欧美在线人成aaaa| 中日韩欧亚无码视频| 日韩a级片视频| 久久国产精品国产自线拍| 91精品国产一区自在线拍| 国产麻豆精品手机在线观看| 国产精品男人的天堂| 一区二区欧美日韩高清免费| 91年精品国产福利线观看久久| 一本色道久久88综合日韩精品| 99久久精品国产麻豆婷婷| 亚洲第一综合天堂另类专| 再看日本中文字幕在线观看| 69av在线| 91久久青青草原精品国产| 91探花国产综合在线精品| 无码内射在线| 亚洲一区二区成人| 欧美一级专区免费大片| 国产极品美女在线观看| 日本黄色a视频| 日韩精品欧美国产在线| 99精品视频在线观看免费播放| 国产区在线看| 免费xxxxx在线观看网站| 亚洲精品成人福利在线电影| 亚洲精品波多野结衣| 亚洲男人的天堂视频| 亚洲天堂网站在线| 亚洲精品免费网站| 麻豆精品在线视频| 91麻豆国产在线| 99热在线只有精品| 狂欢视频在线观看不卡| 丝袜久久剧情精品国产| 本亚洲精品网站| 国产噜噜在线视频观看| 美女啪啪无遮挡| 精品国产免费观看一区| 亚洲精品成人片在线播放| 啪啪免费视频一区二区| 欧美成人午夜视频免看| аⅴ资源中文在线天堂| 毛片免费在线视频| 高清不卡一区二区三区香蕉| 久久这里只有精品免费| 大陆精大陆国产国语精品1024| 久草视频福利在线观看| 一本大道香蕉久中文在线播放| 欧美精品啪啪| 日韩免费毛片视频| 国产无人区一区二区三区| 色综合天天视频在线观看| 国产97色在线| 精品国产黑色丝袜高跟鞋| 亚洲AⅤ无码国产精品| 亚洲男人天堂久久| 久久免费看片| 欧美成人h精品网站| 免费人成网站在线观看欧美| 性做久久久久久久免费看| 久久夜色精品| 国产精品视频猛进猛出| 中文字幕久久精品波多野结| 中文字幕伦视频| 亚洲第一区精品日韩在线播放| 日韩少妇激情一区二区| 欧美日韩国产在线播放| 欧美a在线看| 天堂成人在线| 91精品国产综合久久香蕉922| 日韩欧美国产中文| 22sihu国产精品视频影视资讯| 2022精品国偷自产免费观看| 亚洲国内精品自在自线官| vvvv98国产成人综合青青| 国产一区二区三区在线观看免费| 国产99视频在线|