999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談數據集成相關技術

2015-07-02 18:55:21陳飛楊秋紅
科技資訊 2015年8期

陳飛+楊秋紅

(1.中國電子科技集團公司第四十一研究所 安徽蚌埠 233006;2.裝甲兵學院 安徽蚌埠 233000)

摘 要:隨著信息化的普及、推廣及建設,更多的信息系統投入使用,一方面提高了工作效率、帶來了經濟社會效益,但另一方面因為信息系統獨立、數據源分布異構等原因形成了越來越多的“信息孤島”現象,為了解決“信息孤島”問題,數據集成成為一種重要的解決方法。數據集成技術目前已成為社會研究和討論的熱點領域,數據集成的好與壞直接影響信息化建設速度。該文首先闡述了數據集成的產生及作用,其次介紹了一種通用的數據集成模型框架,基于此模型框架從數據質量的角度對ETL(Extraction數據抽取、Transformation數據轉換、Loading數據加載)及數據清洗等關鍵技術進行了研究和介紹,對數據集成的普及和推廣有指導意義。

關鍵詞:數據集成 數據倉庫 ETL 數據清洗

中圖分類號:C931 文獻標識碼:A 文章編號:1672-3791(2015)03(b)-0030-01

隨著信息化技術的飛速發展,從一開始的手工流程電子化到人工流程自動化,再到現在的企業管理信息化,越來越多的獨立信息系統造成了“信息孤島”現象。“信息孤島”束縛了企業的發展,制約了企業信息化需求,因此數據集成技術應運而生。

數據集成技術是解決“信息孤島”問題的重要方法。數據集成就是將多個分布的異構數據源,按照一定的規則邏輯或物理地集成到統一的數據集合中,對應用系統提供查詢接口,用戶可以直接查詢利用所需的分布異構數據,而不必去關心底層異構數據的差異。數據集成的好與壞就是看用戶能否以最小的代價,高效地利用這些分布異構數據,滿足企業需求。

1 數據集成模型

該文以一種通用的數據集成模型為基礎進行闡述,該模型展示了從分布異構數據源中抽取、轉換、清洗、加載數據和建立數據倉庫提供數據支撐整個數據集成過程,如圖1所示。

該模型框架中主要包括三個部分:數據源、數據集成、數據利用。

(1)數據源:數據源可以是分布的、異構的數據庫,如Access、XML、SQL Server、Oracle等,它們提供各種信息數據資源供集成利用,是數據集成模型的基礎。

(2)數據集成:該部分是數據集成模型的核心,通過ETL進行數據集成,通過數據清洗保證數據質量,進而建立數據倉庫,為各種應用系統提供數據支撐。

(3)數據利用:數據的價值就是為用戶提供利用,該部分就是通過應用系統實現數據集成過程產生的數據的價值。

2 關鍵技術

如圖1所示,數據集成部分是數據集成模型是否可以發揮作用的關鍵,也是對數據集成質量的重要保證,它包含了數據抽取、數據轉換、數據清洗和數據加載等關鍵技術。下面對這些技術展開重點闡述。

(1)數據抽取。

數據抽取就是將數據倉庫所需的數據從分布的異構數據源中抽取出來。由于各個數據源內的數據的結構、標識、及時性、準確性和可靠性等都可能不同,因此針對每個數據源都需要建立數據抽取流程。抽取流程一般包含抽取分析和抽取規則兩部分。抽取分析需明確抽取數據內容、數據信息、數據格式等;抽取規則需確定抽取數據的順序、方式和時間等。

(2)數據轉換。

數據轉換是ETL中最關鍵的環節,較為復雜。同一類型業務數據會以不同的存儲格式、存儲內容在不同的“信息孤島”中存在,直接抽取的數據在大多數情況下是不能夠滿足數據倉庫的要求,必須對抽取的數據進行數據轉換。數據轉換的依據是數據集成模型定義的數據源和數據倉庫的映射關系,目前采用語義分析和本體領域等技術使得這些映射關系具有智能化和很強的適應性,根據這些映射關系對抽取數據進行合并、拆分及計算等轉換,使抽取數據能夠滿足數據倉庫要求。

(3)數據清洗。

數據清洗的目標就是提高集成數據質量,主要是通過檢測和消除錯誤數據和不一致數據兩個方面來實現,高質量的數據才能提供優質可信的數據支撐,可見數據清洗是非常必要和必須的。數據清洗的對象是數據實例,目前數據清洗的方法主要有設計數據清洗框架和模型、重復記錄的檢測消除算法以及利用專家系統、數據挖掘、本體等相關領域技術等。

3 結語

當前信息化建設已經從數據采集發展到數據管理利用的階段,社會對“信息孤島”進行數據集成、建立數據倉庫提供決策支撐的需求越來越強烈,數據集成已經成為信息化發展的一個必然選擇。該文根據當前信息化的發展現狀和趨勢,介紹了數據集成的必然性和重要性,在數據集成模型的基礎上重點闡述了數據集成中ETL和數據清洗等關鍵技術,對數據集成的普遍應用和推廣存在指導意義。

參考文獻

[1] 陳玉東,姚青.基于商務智能的流程評估系統中ETL的研究[J].計算機工程與設計,2014,35(8):2752-2756.

[2] 郭志愗,周傲英.數據質量和數據清洗研究綜述[J].軟件學報,2002,13(11):2076-2082.

[3] 周濤,陸惠玲.數據挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100-111.

[4] Jiawei Han,Micheline Kamber,Jian Pei.Data Mining Concepts and Techniques[M].北京:機械工業出版社,2012.

主站蜘蛛池模板: 无码高清专区| 爱做久久久久久| 免费又爽又刺激高潮网址| 中文字幕乱码二三区免费| 欧美成一级| 欧美午夜久久| 欧美成人一级| 亚洲综合第一区| 五月婷婷精品| 亚洲美女一区| 久久青草免费91线频观看不卡| 中文字幕在线一区二区在线| 激情爆乳一区二区| 亚洲欧美成人在线视频| 国产在线精彩视频论坛| 伊人国产无码高清视频| 国产欧美视频综合二区| 精品国产网站| 国产另类视频| 欧美成人第一页| 538国产视频| 色综合天天操| 免费一级毛片不卡在线播放| 欧美特黄一级大黄录像| 在线五月婷婷| 免费播放毛片| 成人免费黄色小视频| 国产在线观看91精品亚瑟| 精品福利视频网| 黄色网站在线观看无码| 欧美成人a∨视频免费观看| 91丝袜乱伦| 精品无码一区二区三区在线视频| 亚洲精品不卡午夜精品| 就去色综合| 亚洲综合九九| 国产精品13页| 99久久这里只精品麻豆| 日韩精品亚洲人旧成在线| 久久久久亚洲AV成人网站软件| 蜜桃视频一区二区| 色一情一乱一伦一区二区三区小说| 欧美精品另类| 国产欧美日韩在线一区| 国产剧情无码视频在线观看| 久久精品国产一区二区小说| 亚洲美女高潮久久久久久久| 超碰精品无码一区二区| 九月婷婷亚洲综合在线| 免费女人18毛片a级毛片视频| 夜精品a一区二区三区| 日韩a级片视频| 亚洲成人精品在线| 午夜精品一区二区蜜桃| 四虎影视无码永久免费观看| 热这里只有精品国产热门精品| 午夜精品区| 亚洲国产精品不卡在线| 日本免费a视频| 粗大猛烈进出高潮视频无码| 99热国产在线精品99| 欧美日韩精品综合在线一区| 亚洲人成网站在线播放2019| av无码一区二区三区在线| 国产女人喷水视频| 亚洲一欧洲中文字幕在线| 免费一级无码在线网站| 5555国产在线观看| 黄网站欧美内射| 国产福利在线观看精品| 免费a级毛片18以上观看精品| 国产在线自乱拍播放| 国产杨幂丝袜av在线播放| 久草网视频在线| 又污又黄又无遮挡网站| 国内a级毛片| 国产福利在线免费观看| 国产精品午夜福利麻豆| 久久性视频| 国产网站在线看| 久久国产乱子伦视频无卡顿| 一级一级特黄女人精品毛片|