賴小平
摘要:數(shù)據(jù)倉庫技術(shù)是網(wǎng)絡(luò)時代的數(shù)據(jù)特征,也是數(shù)據(jù)庫系統(tǒng)應(yīng)用到一定階段的產(chǎn)物。本文闡述了數(shù)據(jù)倉庫的起源、結(jié)構(gòu)、特性,以及數(shù)據(jù)倉庫技術(shù)的發(fā)展趨勢。數(shù)據(jù)倉庫技術(shù)在不斷發(fā)展,并在實際應(yīng)用中發(fā)揮了巨大作用,給企業(yè)帶來巨大的變革。
關(guān)鍵詞:數(shù)據(jù)倉庫;面向主題;數(shù)據(jù)庫
中圖法分類號:TP311.11
文獻標(biāo)識碼:A
數(shù)據(jù)倉庫(Data Warehousing,DW)是近年來興起的一種新的數(shù)據(jù)庫應(yīng)用。隨著各種計算機技術(shù),如數(shù)據(jù)模型、數(shù)據(jù)庫技術(shù)和應(yīng)用開發(fā)技術(shù)的不斷進步,數(shù)據(jù)倉庫技術(shù)也在不斷發(fā)展,并在實際應(yīng)用中發(fā)揮了巨大的作用。
1數(shù)據(jù)倉庫的起源
如今是網(wǎng)絡(luò)的時代,數(shù)據(jù)倉庫的出現(xiàn)和發(fā)展是網(wǎng)絡(luò)時代的數(shù)據(jù)特征,也是數(shù)據(jù)庫系統(tǒng)應(yīng)用到一定階段的必然產(chǎn)物。最初的數(shù)據(jù)管理形式主要是文件系統(tǒng),數(shù)據(jù)的存取方式是固定的、死板的。1969年,E.F Codd博士提出了關(guān)系數(shù)據(jù)模型。此后,關(guān)系數(shù)據(jù)庫的出現(xiàn)開創(chuàng)了數(shù)據(jù)管理的一個新時代。
近幾十年來,像C/S系統(tǒng)結(jié)構(gòu)、存儲過程等新技術(shù)、新思路的出現(xiàn),SQL在數(shù)據(jù)庫中的應(yīng)用,使得關(guān)系數(shù)據(jù)庫成為聯(lián)機事務(wù)處理系統(tǒng)的主宰。然而,應(yīng)用是不斷進步的,當(dāng)聯(lián)機事務(wù)處理系統(tǒng)應(yīng)用到一定階段后。用戶發(fā)現(xiàn)這不足以獲得市場競爭的優(yōu)勢,他們需要對大量的業(yè)務(wù)數(shù)據(jù)進行分析,從而作出有利的決策。這種基于業(yè)務(wù)數(shù)據(jù)的決策分析,稱之為聯(lián)機分析處理,比以往任何時候都顯得重要。人們在實際應(yīng)用中發(fā)現(xiàn)要查詢的數(shù)據(jù)越來越多,所以人們就設(shè)想專門為業(yè)務(wù)的統(tǒng)計分析建立一個數(shù)據(jù)中心,這個中心就叫數(shù)據(jù)倉庫。
業(yè)界公認(rèn)的數(shù)據(jù)倉庫概念創(chuàng)始人W.H Inmon在《數(shù)據(jù)倉庫》一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合。從辨證的眼光來看,數(shù)據(jù)倉庫的興起實際是數(shù)據(jù)管理的一種回歸,是螺旋式的上升。
如今,各大數(shù)據(jù)庫廠商紛紛宣布產(chǎn)品支持?jǐn)?shù)據(jù)倉庫并提出一整套用以建立和使用數(shù)據(jù)倉庫的產(chǎn)品,比如:Informix公司的數(shù)據(jù)倉庫解決方案Oracle公司的數(shù)據(jù)倉庫解決方案;Sybase公司的交互式數(shù)據(jù)倉庫解決方案等等。這些發(fā)展引起了學(xué)術(shù)界的極大興趣,出現(xiàn)了專門研究數(shù)據(jù)倉庫(DW)、聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘(DM)的論文。
數(shù)據(jù)倉庫雖然起源于20世紀(jì)90年代,但其發(fā)展非常迅速,特別是網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,為數(shù)據(jù)倉庫的發(fā)展提供了更寬闊的數(shù)據(jù)跑道。當(dāng)今數(shù)據(jù)倉庫已經(jīng)不再是純粹的理論。而是一個活生生的事實。
2數(shù)據(jù)倉庫的結(jié)構(gòu)
(1)基本體系結(jié)構(gòu)(結(jié)構(gòu)1)
它由以下5個基本組成部分:
數(shù)據(jù)源(DB),為數(shù)據(jù)倉庫提供最底層數(shù)據(jù)的運作數(shù)據(jù)庫系統(tǒng)及外部數(shù)據(jù);
監(jiān)視器,負(fù)責(zé)感知數(shù)據(jù)源發(fā)生的變化,并按數(shù)據(jù)倉庫的需求提取數(shù)據(jù);
集成器,將從運作數(shù)據(jù)庫中提取的數(shù)據(jù)經(jīng)過轉(zhuǎn)換、計算、綜合等操作,并集成到數(shù)據(jù)倉庫中;
數(shù)據(jù)倉庫(DW),存儲已經(jīng)按企業(yè)級視圖轉(zhuǎn)換的數(shù)據(jù),供分析處理用;
客戶應(yīng)用,供用戶對數(shù)據(jù)倉庫中的數(shù)據(jù)進行訪問查詢,并以直觀的方式表示分析結(jié)果的工具。
(2)數(shù)據(jù)組織結(jié)構(gòu)(如圖2)
3數(shù)據(jù)倉庫的特性
傳統(tǒng)的數(shù)據(jù)庫技術(shù)是以單一的數(shù)據(jù)資源,即數(shù)據(jù)庫為中心,進行事務(wù)處理、批處理、決策分析等各種數(shù)據(jù)處理工作,由于企業(yè)的日常事務(wù)處理工作,而難于實現(xiàn)對數(shù)據(jù)分析處理要求,已無法滿足數(shù)據(jù)處理多樣化的要求。近年來,隨著數(shù)據(jù)庫技術(shù)的應(yīng)用和發(fā)展。人們嘗試對DB中的數(shù)據(jù)進行再加工,形成一個綜合的、面向分析的環(huán)境,以更好支持決策分析,從而形成了數(shù)據(jù)倉庫技術(shù)。
數(shù)據(jù)倉庫是面向主題的。這與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用相對應(yīng)。主題是一個在較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn)。每一個主題對應(yīng)一個宏觀的分析領(lǐng)域。例如:對一個保險公司來說,應(yīng)用問題可能是汽車保險、人壽保險與意外傷亡保險,公司的主題域卻可能是顧客、保險單、保險費和索賠。不同類型的公司其主題域是不同的,這樣管理人員就可根據(jù)不同的主題進行分析,作出切實可行的決策。
數(shù)據(jù)倉庫是集成的。在數(shù)據(jù)倉庫的所有特性中,這是最重要的。數(shù)據(jù)倉庫中的數(shù)據(jù)是從多個不同的數(shù)據(jù)源傳來的。當(dāng)這些數(shù)據(jù)進入數(shù)據(jù)倉庫時,必須經(jīng)過數(shù)據(jù)加工和集成,進行轉(zhuǎn)換,重新格式化,重新排列以及匯總等操作,這是建立數(shù)據(jù)倉庫的關(guān)鍵步驟。這樣得到的結(jié)果就是只要是存在于數(shù)據(jù)倉庫中的數(shù)據(jù)就是具有企業(yè)的單一物理映像。
數(shù)據(jù)倉庫是非易失的。即穩(wěn)定性。操作型環(huán)境中的數(shù)據(jù)一般必然是要更新的,但數(shù)據(jù)倉庫中的數(shù)據(jù)呈現(xiàn)出一組非常不同的特性。數(shù)據(jù)倉庫中的數(shù)據(jù)通常是以批量方式載入與訪問的,對其數(shù)據(jù)并不進行一般意義上的數(shù)據(jù)更新。這樣數(shù)據(jù)倉庫就保存了所有的歷史數(shù)據(jù),而不是日常事務(wù)處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)過加工和集成進入數(shù)據(jù)倉庫是極少或根本不能修改的。
數(shù)據(jù)倉庫是隨時間變化的,它是不同時間的數(shù)據(jù)集合。時變性是指數(shù)據(jù)倉庫中的每個數(shù)據(jù)單元都只是在某一時刻是準(zhǔn)確的。在任何情況下記錄都包含某種形式的時間標(biāo)志用以說明數(shù)據(jù)在哪一時間是準(zhǔn)確的。不同環(huán)境中有不同的時間范圍,操作型環(huán)境的時間范圍一般是60~90年,而數(shù)據(jù)倉庫中的數(shù)據(jù)的時間范圍通常是5~10年。由于這種時間范圍上的差異,數(shù)據(jù)倉庫含有比任何其他環(huán)境中都多的歷史數(shù)據(jù)。
4數(shù)據(jù)倉庫的技術(shù)趨勢
數(shù)據(jù)倉庫沒有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它更偏向干工程。由于這種工程性,數(shù)據(jù)倉庫技術(shù)的發(fā)展主要包括以下3個方面:
4.1數(shù)據(jù)的抽取
數(shù)據(jù)的抽取是數(shù)據(jù)進入數(shù)據(jù)倉庫的入口,它通過抽取過程將數(shù)據(jù)從聯(lián)機事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入到數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、轉(zhuǎn)換、增量、調(diào)度和監(jiān)控等幾個方面。
在技術(shù)發(fā)展上,數(shù)據(jù)抽取所涉及的單個技術(shù)環(huán)節(jié)都已經(jīng)相對成熟,但整體的集成度還很不夠。目前市場上所提供的大多是數(shù)據(jù)抽取工具,這些工具只能成為輔助的角色。未來的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面,它將互連、復(fù)制、轉(zhuǎn)換、增量、調(diào)度和監(jiān)控等納入標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化,使系統(tǒng)更加便于管理和維護。
4.2數(shù)據(jù)的存儲和管理
數(shù)據(jù)的存儲和管理是數(shù)據(jù)倉庫真正的關(guān)鍵技術(shù)。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,同時也決定了其對外部數(shù)據(jù)表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫,主要從以下幾個問題著手分析:
(1)對大量數(shù)據(jù)的存儲和管理;
(2)并行處理;
(3)針對決策支持查詢的優(yōu)化;
(4)支持多維分析的查詢模式。
在數(shù)據(jù)倉庫的數(shù)據(jù)存儲管理領(lǐng)域。未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎,并作為服務(wù)器產(chǎn)品與數(shù)據(jù)庫服務(wù)器并駕
齊驅(qū),面向決策支持?jǐn)U充的并行關(guān)系數(shù)據(jù)庫將是數(shù)據(jù)倉庫的核心。最具發(fā)展?jié)摿Α?/p>
4.3數(shù)據(jù)的表現(xiàn)
數(shù)據(jù)的表現(xiàn)是數(shù)據(jù)倉庫的門面。主要集中在多維分析、數(shù)理統(tǒng)計和數(shù)據(jù)挖掘方面。
多維分析是數(shù)據(jù)倉庫的重要表現(xiàn)形式,近幾年來,多維分析領(lǐng)域的工具和產(chǎn)品注重提供基于Web的前端聯(lián)機分析界面,而不僅僅是網(wǎng)上數(shù)據(jù)的發(fā)布。
數(shù)理統(tǒng)計原本與數(shù)據(jù)倉庫沒有直接的聯(lián)系,但在實際應(yīng)用中需要通過對數(shù)據(jù)的統(tǒng)計來驗證假設(shè),以進行決策。數(shù)理統(tǒng)計的算法和功能將普遍集成到聯(lián)機分析產(chǎn)品中,同時與因特網(wǎng)/網(wǎng)絡(luò)技術(shù)緊密結(jié)合,推出適用于內(nèi)聯(lián)網(wǎng),終端免維護的數(shù)據(jù)倉庫訪問前端。
數(shù)據(jù)挖掘與數(shù)理統(tǒng)計相似,數(shù)據(jù)挖掘與數(shù)據(jù)倉庫也沒有直接的聯(lián)系。目前許多數(shù)據(jù)挖掘工具其實不過是數(shù)理統(tǒng)計的應(yīng)用,它們并不能真正尋找出數(shù)據(jù)的規(guī)律。而是驗證盡可能多的假設(shè),最后由人來判斷其合理性。未來的發(fā)展將使數(shù)據(jù)挖掘不僅僅是驗證人們對數(shù)據(jù)特性的假設(shè),而且更要主動地尋找并發(fā)現(xiàn)蘊藏在數(shù)據(jù)之中的規(guī)律。
隨著各種計算機技術(shù),如數(shù)據(jù)模型、數(shù)據(jù)庫技術(shù)和應(yīng)用開發(fā)技術(shù)的不斷進步,數(shù)據(jù)倉庫技術(shù)也在不斷發(fā)展,并在實際應(yīng)用中發(fā)揮了巨大的作用。目前使用數(shù)據(jù)倉庫所產(chǎn)生的巨大效益刺激了對數(shù)據(jù)倉庫技術(shù)的需求,數(shù)據(jù)倉庫市場正以迅猛勢頭向前發(fā)展:一方面。數(shù)據(jù)倉庫市場需求量越來越大。每年約以400%的速度擴張:另一方面。數(shù)據(jù)倉庫產(chǎn)品越來越成熟,生產(chǎn)數(shù)據(jù)倉庫工具的廠家越來越多。數(shù)據(jù)倉庫技術(shù)及市場將向以下方向發(fā)展:
(1)并行化和可擴展性。在硬件層次上。采用多處理器并行結(jié)構(gòu);在數(shù)據(jù)庫層次上,數(shù)據(jù)庫廠商推出了并行產(chǎn)品,以適應(yīng)數(shù)據(jù)倉庫市場的需要。
(2)集中化。隨著數(shù)據(jù)倉庫項目越來越大,就要求對信息進行集中管理,此外,數(shù)據(jù)的一致性也要求數(shù)據(jù)集中管理。
(3)數(shù)據(jù)倉庫與因特網(wǎng)/內(nèi)聯(lián)網(wǎng)的集成。即前臺是網(wǎng)絡(luò)服務(wù)器,后臺是數(shù)據(jù)倉庫系統(tǒng)。數(shù)據(jù)倉庫的信息及統(tǒng)計分析結(jié)果以網(wǎng)絡(luò)的形式表現(xiàn)。
(4)數(shù)據(jù)挖掘工具和人工智能管理的成熟與廣泛使用。這將是今后推動決策支持演變過程的主要力量,相信會有越來越多的專家系統(tǒng)問世。為企業(yè)的決策提供支持。
(5)通用數(shù)據(jù)庫。數(shù)據(jù)倉庫將支持多媒體、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。即向通用數(shù)據(jù)庫發(fā)展,具有面向?qū)ο蟮哪芰Α?/p>
(6)專用數(shù)據(jù)倉庫。即數(shù)據(jù)倉庫的打包。它是指數(shù)據(jù)倉庫將集成一些工具和應(yīng)用,打包推向用戶。
5結(jié)束語
數(shù)據(jù)倉庫技術(shù)是基于信息系統(tǒng)業(yè)務(wù)發(fā)展的需要,基于數(shù)據(jù)庫系統(tǒng)技術(shù)發(fā)展而來,并逐步獨立的一系列新的應(yīng)用技術(shù)。隨著數(shù)據(jù)倉庫技術(shù)應(yīng)用的不斷深入,近幾年數(shù)據(jù)倉庫技術(shù)得到長足的發(fā)展。也隨著數(shù)據(jù)倉庫系統(tǒng)帶來的良好效果。各行各業(yè)的單位。已經(jīng)能很好地接受“整合數(shù)據(jù)。從數(shù)據(jù)中找知識,運用數(shù)據(jù)知識、用數(shù)據(jù)說話”等新的關(guān)系到改良生產(chǎn)活動各環(huán)節(jié)、提高生產(chǎn)效率、發(fā)展生產(chǎn)力的理念。