摘 要:ETL 工具從異構(gòu)數(shù)據(jù)源抽取數(shù)據(jù),并將數(shù)據(jù)清洗,規(guī)范化后裝載到數(shù)據(jù)倉(cāng)庫(kù)。文章從前期的數(shù)據(jù)理解階段入手,分別討論了數(shù)據(jù)的抽取、清洗轉(zhuǎn)換、裝載等不同階段需要考慮的設(shè)計(jì)問(wèn)題及相應(yīng)的解決方案。提出了以數(shù)據(jù)理解為根基,以清洗轉(zhuǎn)換為中心的設(shè)計(jì)思想,并給出成績(jī)管理模塊的具體實(shí)施步驟。
關(guān)鍵詞:ETL數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)加載
中圖分類(lèi)號(hào):TP311.13文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1674-098X(2011)06(a)-0017-02
1 ETL的具體實(shí)現(xiàn)
ETL具有以下兩個(gè)主要特點(diǎn):①數(shù)據(jù)同步;②數(shù)據(jù)的成批操作。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)源于教師、學(xué)生資料、學(xué)生考試成績(jī)等等,其中一些數(shù)據(jù)存儲(chǔ)在SQLServer、Foxpro等數(shù)據(jù)庫(kù)中,還有一些以文本、word和excel方式存儲(chǔ)于文件中,這些數(shù)據(jù)是異構(gòu)數(shù)據(jù),需要進(jìn)一步處理后,才能加載到數(shù)據(jù)倉(cāng)庫(kù)中。本系統(tǒng)運(yùn)用SQL Server2000提供的DTS(數(shù)據(jù)轉(zhuǎn)換服務(wù))工具,實(shí)現(xiàn)從不同的數(shù)據(jù)源中轉(zhuǎn)換數(shù)據(jù)以創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)。
1.1 數(shù)據(jù)抽取
源數(shù)據(jù)庫(kù)的所有細(xì)節(jié)數(shù)據(jù)對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的主題域并不是都有用的,必須根據(jù)已確定主題的需要,從原有操作型數(shù)據(jù)庫(kù)中抽取相關(guān)數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)。一般在設(shè)計(jì)數(shù)據(jù)抽取時(shí)要考慮以下幾個(gè)方面:源數(shù)據(jù)庫(kù)和目標(biāo)數(shù)據(jù)庫(kù)各自的數(shù)據(jù)庫(kù)格式是否一致?從源數(shù)據(jù)庫(kù)中要訪問(wèn)哪些文件和表?從源數(shù)據(jù)庫(kù)中可以提取哪些字段,抽取記錄的條件是什么?目標(biāo)數(shù)據(jù)庫(kù)中的表結(jié)構(gòu)是什么?應(yīng)當(dāng)按照什么時(shí)間間隔來(lái)重復(fù)抽取表,定期更新數(shù)據(jù)倉(cāng)庫(kù)等?大型數(shù)據(jù)抽取工作可有專(zhuān)門(mén)的數(shù)據(jù)處理工具來(lái)完成。……