摘要:數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一個(gè)新的發(fā)展方向,是當(dāng)前熱門的一個(gè)研究領(lǐng)域。介紹了數(shù)據(jù)倉庫的概念、體系結(jié)構(gòu)特點(diǎn),對數(shù)據(jù)倉庫的創(chuàng)建過程進(jìn)行了分析,對數(shù)據(jù)倉庫在國民經(jīng)濟(jì)領(lǐng)域中的應(yīng)用及其發(fā)展前景進(jìn)行了描述。
關(guān)鍵詞:數(shù)據(jù)倉庫;體系結(jié)構(gòu);維度
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)15-20998-02
The Summary of the Data Warehouse Technology
WANG Min1,2, ZHOU Cong-jun2,DU Cheng-Long2
(1. Hubei University of Technology,Wuhan,430068;2.Hubei Professional College of Land Resource,Jingzhou,434003)
Abstract: Data warehouse is a new progressing direction of database technology,and is also a popular research fields currently.This paper introduces the data warehouse definition,architecture and characters.The article also analyzes the procedure of building Data Warehouse .In the end,it describes the application of data warehouse to the national economy fields and the prospect of the data warehouse in the future.
Key words: data warehouse;architecture of the warehouse;dimension
1 引言
在過去的幾十年中,人們?yōu)榱四軌蚴占⒋鎯?chǔ)和處理大量的業(yè)務(wù)數(shù)據(jù)而開發(fā)了數(shù)據(jù)庫管理系統(tǒng)(DBMS)。由于數(shù)據(jù)庫系統(tǒng)的開發(fā)和使用,為企業(yè)記錄和處理業(yè)務(wù)提供了極大的方便,使得這種技術(shù)得以迅速的發(fā)展和應(yīng)用。但隨著數(shù)據(jù)庫系統(tǒng)記錄和處理的數(shù)據(jù)越來越多,人們不再滿足僅僅使用數(shù)據(jù)庫系統(tǒng)來記錄企業(yè)的業(yè)務(wù)活動(dòng)數(shù)據(jù)和對數(shù)據(jù)進(jìn)行簡單處理,人們需要對企業(yè)業(yè)務(wù)活動(dòng)的數(shù)據(jù)進(jìn)行各種分析,以便找出影響企業(yè)成功的要素和企業(yè)未來的發(fā)展趨勢。而如何將這些大量的數(shù)據(jù)轉(zhuǎn)化為對企業(yè)管理者有用的,可供輔助決策的信息,也逐漸成為研究的熱點(diǎn)。
2 數(shù)據(jù)倉庫技術(shù)
2.1 數(shù)據(jù)倉庫的定義
數(shù)據(jù)倉庫的概念是由W.H.Inmon博士在1992年出版的《建立數(shù)據(jù)倉庫》(Building the Data Warehouse)一書中提出的。他在書中對數(shù)據(jù)倉庫是這樣說明的:“數(shù)據(jù)倉庫(data warehouse)是一個(gè)面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合,它用于支持經(jīng)營管理中的決策制定過程。”[1]實(shí)際上可以理解為數(shù)據(jù)倉庫就是從多個(gè)數(shù)據(jù)源收集數(shù)據(jù),存儲(chǔ)于一個(gè)統(tǒng)一的數(shù)據(jù)模式下的數(shù)據(jù)體。從本質(zhì)上講,數(shù)據(jù)倉庫就是一種信息集成技術(shù)。數(shù)據(jù)倉庫從多個(gè)信息源中獲取原始數(shù)據(jù),經(jīng)整理加工后,存儲(chǔ)在數(shù)據(jù)倉庫的內(nèi)部數(shù)據(jù)庫中,通過向用戶提供訪問工具,向數(shù)據(jù)倉庫用戶提供統(tǒng)一、協(xié)調(diào)和集成的信息環(huán)境,從企業(yè)的角度來支持用戶的決策和幫助企業(yè)的管理進(jìn)行深入綜合分析。[2]
2.2 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別
數(shù)據(jù)倉庫是在數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的,因此數(shù)據(jù)倉庫與數(shù)據(jù)庫有著本質(zhì)的區(qū)別,主要體現(xiàn)在以下幾個(gè)方面:
(1)數(shù)據(jù)庫中存儲(chǔ)的都是當(dāng)前使用的值,而數(shù)據(jù)倉庫的建立是一個(gè)企業(yè)日積月累的建立過程因而其存儲(chǔ)的數(shù)據(jù)都是一些歷史的、存檔的數(shù)據(jù),另外由于要提供分析決策,還需要存儲(chǔ)一些歸納的、計(jì)算的數(shù)據(jù);
(2)數(shù)據(jù)庫的數(shù)據(jù)主要是面向業(yè)務(wù)操作程序的,可以重復(fù)處理,主要是用來進(jìn)行事務(wù)處理的。而數(shù)據(jù)倉庫卻是面向主題,主要是用來分析與應(yīng)用的;
(3)數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)是高度結(jié)構(gòu)化的,比較復(fù)雜,適合于操作計(jì)算。而數(shù)據(jù)倉庫的數(shù)據(jù)卻比較簡單,適合于分析處理;
(4)數(shù)據(jù)庫中的數(shù)據(jù)的使用頻率是很高的。數(shù)據(jù)倉庫中的數(shù)據(jù)的使用則不是很高;
(5)通常對數(shù)據(jù)庫中的事務(wù)的訪問,只需要訪問少量的記錄數(shù)據(jù)。而對數(shù)據(jù)倉庫的事務(wù)的訪問就可能需要訪問大量的記錄;
(6)對數(shù)據(jù)庫的響應(yīng)時(shí)間一般要求比較高,通常是以秒為單位。而對數(shù)據(jù)倉庫的響應(yīng)時(shí)間要求則較低,通常比較長。
2.3 數(shù)據(jù)倉庫的主要特點(diǎn)
從數(shù)據(jù)倉庫的定義我們可以看出,它的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:
(1)數(shù)據(jù)倉庫是面向主題的。也就是說數(shù)據(jù)是按其自然屬性來進(jìn)行組織的。主題通常是在一個(gè)較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對應(yīng)一個(gè)宏觀分析領(lǐng)域。比如,在學(xué)生的學(xué)籍管理成績系統(tǒng)中,數(shù)據(jù)常被組織成“學(xué)生”、“課程”、“學(xué)生成績”等關(guān)系模式,描述了各個(gè)學(xué)生、各門課程以及學(xué)生學(xué)習(xí)各門課程的詳細(xì)信息。而在數(shù)據(jù)倉庫中,我們則要對學(xué)生、課程、學(xué)生成績進(jìn)行綜合分析,以便進(jìn)行決策,因而應(yīng)重新組織數(shù)據(jù),完成業(yè)務(wù)數(shù)據(jù)向主題數(shù)據(jù)的轉(zhuǎn)換。主題的抽取則應(yīng)根據(jù)分析的要求進(jìn)行確定。[3]如針對學(xué)生成績分析數(shù)據(jù)倉庫就可以設(shè)置以下主體:學(xué)生、課程、教師等。
(2)數(shù)據(jù)倉庫是集成的。數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成。對不同來源的數(shù)據(jù)進(jìn)行數(shù)據(jù)結(jié)構(gòu)統(tǒng)一編碼。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,單位不統(tǒng)一,字長不一致等情況。即將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用到面向主題的大轉(zhuǎn)變。[4]
要將決策分析建立在數(shù)據(jù)倉庫之上,數(shù)據(jù)系統(tǒng)就需要定期從各院系、各部門抽取適宜于進(jìn)行決策分析的細(xì)節(jié)數(shù)據(jù),然后按照不同的粒度要求匯總到各級(jí)數(shù)據(jù)集市或數(shù)據(jù)倉庫中。以“教師”主題為例,關(guān)于教師的完整信息是分散在各個(gè)院系、各部門的,每個(gè)部門都沒有關(guān)于“教師”的完整信息,而且這些數(shù)據(jù)可能是不一致的。比如:“教師”主題中的教師編號(hào)在“圖書管理系統(tǒng)”和“科研信息系統(tǒng)”中可能不同;性別在各部門中的表示方法也可能不同,在“科研信息系統(tǒng)”中用“M”、“F”來表示,而在“教師基本信息系統(tǒng)”中用“0”和“1”來表示。在經(jīng)過了面向主題的數(shù)據(jù)組織后,消除同名異義、異名同義、單位不統(tǒng)一、字長不統(tǒng)一等數(shù)據(jù)不一致之處,按照元數(shù)據(jù)的定義形成關(guān)于教師的完整、一致的信息集合。[3]
2.4 數(shù)據(jù)倉庫的體系結(jié)構(gòu)
數(shù)據(jù)倉庫系統(tǒng)通常由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具三部分組成,其結(jié)構(gòu)形式如下圖所示。

(1)源數(shù)據(jù):數(shù)據(jù)倉庫的數(shù)據(jù)來源多個(gè)不同的數(shù)據(jù)源,它可以是通常的數(shù)據(jù)庫系統(tǒng),也可以是非傳統(tǒng)的數(shù)據(jù),如文件、HTML文件、知識(shí)庫等。
(2)倉庫數(shù)據(jù)管理系統(tǒng)(DWMS):倉庫的管理主要包括對數(shù)據(jù)的案例、歸檔、備份、維護(hù)以及恢復(fù)等工作,這些工作需通過數(shù)據(jù)倉庫管理系統(tǒng)來完成。
(3)分析工具:數(shù)據(jù)倉庫的查詢不是指對記錄級(jí)數(shù)據(jù)的查詢,而是指對分析要求的查詢。一般包含兩種工具。一種是查詢工具,用來對分析要求的查詢。一種是挖掘工具,用于在大量數(shù)據(jù)中進(jìn)行挖掘有規(guī)律性的知識(shí)。
2.5 數(shù)據(jù)倉庫的實(shí)施
數(shù)據(jù)倉庫的開發(fā)要以數(shù)據(jù)為中心,可大體分為以下幾個(gè)步驟:
(1)明確目標(biāo),制訂計(jì)劃
根據(jù)需求確定相應(yīng)的數(shù)據(jù)倉庫的設(shè)計(jì)目標(biāo),并制定實(shí)施計(jì)劃,用發(fā)展的眼光創(chuàng)立架構(gòu)方案。
(2)建立技術(shù)環(huán)境
建立支撐平臺(tái)建立技術(shù)環(huán)境,選擇實(shí)現(xiàn)數(shù)據(jù)倉庫的軟硬件資源,包括開發(fā)平臺(tái)、DBMS、網(wǎng)絡(luò)通信、開發(fā)工具、終端訪問工具等等。
(3)確定主題
通過對用戶、管理層的需求進(jìn)行深入的了解與分析,然后對這些需求中比較迫切、重要程度初步確定幾個(gè)主題。
(4)概念模型設(shè)計(jì)
概念模型設(shè)計(jì)是主觀與客觀之間的橋梁,通過概念模型,可以用適合計(jì)算機(jī)世界的模型和語言對客觀世界中的問題進(jìn)行具體的描述。主要包括事實(shí)的定義、維度的定義和級(jí)別的定義。所謂事實(shí),即指決策者分析的目標(biāo)數(shù)據(jù),可以幫助決策者了解全局,作出相應(yīng)決策。也稱為度量值。而維度,即指事實(shí)的屬性信息。也稱為考察事實(shí)的角度。
(5)邏輯模型設(shè)計(jì)
邏輯模型的設(shè)計(jì)是指根據(jù)事實(shí)、維度和級(jí)別之間的關(guān)系確定所采用的架構(gòu)。通常采用星型構(gòu)架進(jìn)行設(shè)計(jì),也就是以事實(shí)表為中心,四周與每個(gè)維度相關(guān)聯(lián),不存在維度與維度相關(guān)聯(lián)的情況。
(6)物理模型設(shè)計(jì)
物理設(shè)計(jì)主要完成開發(fā)決策工具的選擇、數(shù)據(jù)表的創(chuàng)建與索引的創(chuàng)建。數(shù)據(jù)表主要包括事實(shí)表與維度表的創(chuàng)建。一般對維度都創(chuàng)建了主鍵索引,對事實(shí)表則設(shè)置了組合主鍵索引。
(7)數(shù)據(jù)轉(zhuǎn)換程序
實(shí)現(xiàn)從數(shù)據(jù)源中抽取、清理、聚集、轉(zhuǎn)換數(shù)據(jù)并加載數(shù)據(jù)等過程的設(shè)計(jì)。
(8)定義元數(shù)據(jù)
即定義數(shù)據(jù)的意義及系統(tǒng)各組成部件的關(guān)系。
(9)運(yùn)行與維護(hù)
管理數(shù)據(jù)倉庫環(huán)境,定期進(jìn)行數(shù)據(jù)的更新,使數(shù)據(jù)倉庫正常運(yùn)行。
3 數(shù)據(jù)倉庫技術(shù)的應(yīng)用
目前,國內(nèi)數(shù)據(jù)倉庫的需求主要表現(xiàn)在如下方面:
(1)由于銀行商業(yè)化的步伐正在加大,各大、中型銀行開始重新考慮自身的業(yè)務(wù),特別是加強(qiáng)對自身的信貸風(fēng)險(xiǎn)的管理,因而對有關(guān)信貸風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)規(guī)避的決策支持系統(tǒng)的需求逐漸多了起來。
(2)由于電子商務(wù)的迅速發(fā)展,不少網(wǎng)站開始考慮如何提高對顧客的忠誠度,為客戶提供更進(jìn)一步的“貼身”服務(wù)。
(3)各大型企業(yè)如移動(dòng)通信局等開始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉庫規(guī)則。
4 結(jié)束語
雖然目前國內(nèi)的數(shù)據(jù)倉庫市場經(jīng)過了多年的發(fā)展,但是比起國外大企業(yè)所建的巨型企業(yè)級(jí)數(shù)據(jù)倉庫來講,還只能算是剛剛起步,還存在很多的不足之處,主要表現(xiàn)在計(jì)算機(jī)應(yīng)用水平較低,無法提出決策支持需求,所以很多企業(yè)無法馬上實(shí)施數(shù)據(jù)倉庫。
但相信隨著相關(guān)計(jì)算機(jī)技術(shù)的進(jìn)步,數(shù)據(jù)倉庫技術(shù)也一定能得到不斷的發(fā)展,為企業(yè)在商業(yè)競爭中提供更好的幫助。
參考文獻(xiàn):
[1] w.H.Inmon.?dāng)?shù)據(jù)倉庫管理[M].北京:機(jī)械工業(yè)出版社,1999,8-9.
[2] 鐘愛軍,宋麒.基于數(shù)據(jù)倉庫的醫(yī)院決策支持系統(tǒng)的構(gòu)建.數(shù)理醫(yī)藥學(xué)雜志,2007,13-19.
[3] 孟躍紅,黃智.數(shù)據(jù)倉庫技術(shù)在高校教育管理中的應(yīng)用.徐州師范大學(xué)學(xué)報(bào),2003,18-21,33-40.
[4] 陳文偉,黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.北京:人民郵電出版社,2006,2.