張文武 陳新躍
數(shù)據(jù)倉庫的基本理論
著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。
對于數(shù)據(jù)倉庫的概念可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,是對各類數(shù)據(jù)的組合分析和再加工,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫5其次,數(shù)據(jù)倉庫是對多個異構(gòu)數(shù)據(jù)源的有效集成,集成后按照主題進(jìn)行重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。
數(shù)據(jù)倉庫的特點(diǎn)
根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下四個特點(diǎn):
(1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各系統(tǒng)之間相對分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題進(jìn)行組織。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點(diǎn)方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。
(2)數(shù)據(jù)集成。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。
(3)相對穩(wěn)定。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。……