賴小平
摘要:數據倉庫技術是網絡時代的數據特征,也是數據庫系統應用到一定階段的產物。本文闡述了數據倉庫的起源、結構、特性,以及數據倉庫技術的發展趨勢。數據倉庫技術在不斷發展,并在實際應用中發揮了巨大作用,給企業帶來巨大的變革。
關鍵詞:數據倉庫;面向主題;數據庫
中圖法分類號:TP311.11
文獻標識碼:A
數據倉庫(Data Warehousing,DW)是近年來興起的一種新的數據庫應用。隨著各種計算機技術,如數據模型、數據庫技術和應用開發技術的不斷進步,數據倉庫技術也在不斷發展,并在實際應用中發揮了巨大的作用。
1數據倉庫的起源
如今是網絡的時代,數據倉庫的出現和發展是網絡時代的數據特征,也是數據庫系統應用到一定階段的必然產物。最初的數據管理形式主要是文件系統,數據的存取方式是固定的、死板的。1969年,E.F Codd博士提出了關系數據模型。此后,關系數據庫的出現開創了數據管理的一個新時代。
近幾十年來,像C/S系統結構、存儲過程等新技術、新思路的出現,SQL在數據庫中的應用,使得關系數據庫成為聯機事務處理系統的主宰。然而,應用是不斷進步的,當聯機事務處理系統應用到一定階段后。用戶發現這不足以獲得市場競爭的優勢,他們需要對大量的業務數據進行分析,從而作出有利的決策。這種基于業務數據的決策分析,稱之為聯機分析處理,比以往任何時候都顯得重要。人們在實際應用中發現要查詢的數據越來越多,所以人們就設想專門為業務的統計分析建立一個數據中心,這個中心就叫數據倉庫。
業界公認的數據倉庫概念創始人W.H Inmon在《數據倉庫》一書中對數據倉庫的定義是:數據倉庫就是面向主題的、集成的、不可更新的、隨時間不斷變化的數據集合。從辨證的眼光來看,數據倉庫的興起實際是數據管理的一種回歸,是螺旋式的上升。
如今,各大數據庫廠商紛紛宣布產品支持數據倉庫并提出一整套用以建立和使用數據倉庫的產品,比如:Informix公司的數據倉庫解決方案Oracle公司的數據倉庫解決方案;Sybase公司的交互式數據倉庫解決方案等等。這些發展引起了學術界的極大興趣,出現了專門研究數據倉庫(DW)、聯機分析處理(OLAP)、數據挖掘(DM)的論文。
數據倉庫雖然起源于20世紀90年代,但其發展非常迅速,特別是網絡技術的飛速發展,為數據倉庫的發展提供了更寬闊的數據跑道。當今數據倉庫已經不再是純粹的理論。而是一個活生生的事實。
2數據倉庫的結構
(1)基本體系結構(結構1)
它由以下5個基本組成部分:
數據源(DB),為數據倉庫提供最底層數據的運作數據庫系統及外部數據;
監視器,負責感知數據源發生的變化,并按數據倉庫的需求提取數據;
集成器,將從運作數據庫中提取的數據經過轉換、計算、綜合等操作,并集成到數據倉庫中;
數據倉庫(DW),存儲已經按企業級視圖轉換的數據,供分析處理用;
客戶應用,供用戶對數據倉庫中的數據進行訪問查詢,并以直觀的方式表示分析結果的工具。
(2)數據組織結構(如圖2)
3數據倉庫的特性
傳統的數據庫技術是以單一的數據資源,即數據庫為中心,進行事務處理、批處理、決策分析等各種數據處理工作,由于企業的日常事務處理工作,而難于實現對數據分析處理要求,已無法滿足數據處理多樣化的要求。近年來,隨著數據庫技術的應用和發展。人們嘗試對DB中的數據進行再加工,形成一個綜合的、面向分析的環境,以更好支持決策分析,從而形成了數據倉庫技術。
數據倉庫是面向主題的。這與傳統數據庫面向應用相對應。主題是一個在較高層次上將數據歸類的標準。每一個主題對應一個宏觀的分析領域。例如:對一個保險公司來說,應用問題可能是汽車保險、人壽保險與意外傷亡保險,公司的主題域卻可能是顧客、保險單、保險費和索賠。不同類型的公司其主題域是不同的,這樣管理人員就可根據不同的主題進行分析,作出切實可行的決策。
數據倉庫是集成的。在數據倉庫的所有特性中,這是最重要的。數據倉庫中的數據是從多個不同的數據源傳來的。當這些數據進入數據倉庫時,必須經過數據加工和集成,進行轉換,重新格式化,重新排列以及匯總等操作,這是建立數據倉庫的關鍵步驟。這樣得到的結果就是只要是存在于數據倉庫中的數據就是具有企業的單一物理映像。
數據倉庫是非易失的。即穩定性。操作型環境中的數據一般必然是要更新的,但數據倉庫中的數據呈現出一組非常不同的特性。數據倉庫中的數據通常是以批量方式載入與訪問的,對其數據并不進行一般意義上的數據更新。這樣數據倉庫就保存了所有的歷史數據,而不是日常事務處理產生的數據,數據經過加工和集成進入數據倉庫是極少或根本不能修改的。
數據倉庫是隨時間變化的,它是不同時間的數據集合。時變性是指數據倉庫中的每個數據單元都只是在某一時刻是準確的。在任何情況下記錄都包含某種形式的時間標志用以說明數據在哪一時間是準確的。不同環境中有不同的時間范圍,操作型環境的時間范圍一般是60~90年,而數據倉庫中的數據的時間范圍通常是5~10年。由于這種時間范圍上的差異,數據倉庫含有比任何其他環境中都多的歷史數據。
4數據倉庫的技術趨勢
數據倉庫沒有嚴格的數學理論基礎,它更偏向干工程。由于這種工程性,數據倉庫技術的發展主要包括以下3個方面:
4.1數據的抽取
數據的抽取是數據進入數據倉庫的入口,它通過抽取過程將數據從聯機事務處理系統、外部數據源、脫機的數據存儲介質中導入到數據倉庫。數據抽取在技術上主要涉及互連、復制、轉換、增量、調度和監控等幾個方面。
在技術發展上,數據抽取所涉及的單個技術環節都已經相對成熟,但整體的集成度還很不夠。目前市場上所提供的大多是數據抽取工具,這些工具只能成為輔助的角色。未來的技術發展將集中在系統集成化方面,它將互連、復制、轉換、增量、調度和監控等納入標準化的統一管理,以適應數據倉庫本身或數據源的變化,使系統更加便于管理和維護。
4.2數據的存儲和管理
數據的存儲和管理是數據倉庫真正的關鍵技術。數據倉庫的組織管理方式決定了它有別于傳統數據庫的特性,同時也決定了其對外部數據表現形式。要決定采用什么產品和技術來建立數據倉庫,主要從以下幾個問題著手分析:
(1)對大量數據的存儲和管理;
(2)并行處理;
(3)針對決策支持查詢的優化;
(4)支持多維分析的查詢模式。
在數據倉庫的數據存儲管理領域。未來的發展將使數據庫廠商明確推出數據倉庫引擎,并作為服務器產品與數據庫服務器并駕
齊驅,面向決策支持擴充的并行關系數據庫將是數據倉庫的核心。最具發展潛力。
4.3數據的表現
數據的表現是數據倉庫的門面。主要集中在多維分析、數理統計和數據挖掘方面。
多維分析是數據倉庫的重要表現形式,近幾年來,多維分析領域的工具和產品注重提供基于Web的前端聯機分析界面,而不僅僅是網上數據的發布。
數理統計原本與數據倉庫沒有直接的聯系,但在實際應用中需要通過對數據的統計來驗證假設,以進行決策。數理統計的算法和功能將普遍集成到聯機分析產品中,同時與因特網/網絡技術緊密結合,推出適用于內聯網,終端免維護的數據倉庫訪問前端。
數據挖掘與數理統計相似,數據挖掘與數據倉庫也沒有直接的聯系。目前許多數據挖掘工具其實不過是數理統計的應用,它們并不能真正尋找出數據的規律。而是驗證盡可能多的假設,最后由人來判斷其合理性。未來的發展將使數據挖掘不僅僅是驗證人們對數據特性的假設,而且更要主動地尋找并發現蘊藏在數據之中的規律。
隨著各種計算機技術,如數據模型、數據庫技術和應用開發技術的不斷進步,數據倉庫技術也在不斷發展,并在實際應用中發揮了巨大的作用。目前使用數據倉庫所產生的巨大效益刺激了對數據倉庫技術的需求,數據倉庫市場正以迅猛勢頭向前發展:一方面。數據倉庫市場需求量越來越大。每年約以400%的速度擴張:另一方面。數據倉庫產品越來越成熟,生產數據倉庫工具的廠家越來越多。數據倉庫技術及市場將向以下方向發展:
(1)并行化和可擴展性。在硬件層次上。采用多處理器并行結構;在數據庫層次上,數據庫廠商推出了并行產品,以適應數據倉庫市場的需要。
(2)集中化。隨著數據倉庫項目越來越大,就要求對信息進行集中管理,此外,數據的一致性也要求數據集中管理。
(3)數據倉庫與因特網/內聯網的集成。即前臺是網絡服務器,后臺是數據倉庫系統。數據倉庫的信息及統計分析結果以網絡的形式表現。
(4)數據挖掘工具和人工智能管理的成熟與廣泛使用。這將是今后推動決策支持演變過程的主要力量,相信會有越來越多的專家系統問世。為企業的決策提供支持。
(5)通用數據庫。數據倉庫將支持多媒體、結構化和非結構化數據。即向通用數據庫發展,具有面向對象的能力。
(6)專用數據倉庫。即數據倉庫的打包。它是指數據倉庫將集成一些工具和應用,打包推向用戶。
5結束語
數據倉庫技術是基于信息系統業務發展的需要,基于數據庫系統技術發展而來,并逐步獨立的一系列新的應用技術。隨著數據倉庫技術應用的不斷深入,近幾年數據倉庫技術得到長足的發展。也隨著數據倉庫系統帶來的良好效果。各行各業的單位。已經能很好地接受“整合數據。從數據中找知識,運用數據知識、用數據說話”等新的關系到改良生產活動各環節、提高生產效率、發展生產力的理念。