隨著信息技術的發展,企業為了應對來自市場和同行的挑戰,紛紛上馬了各種形式管理信息系統(MIS),以求實現企業的信息化。管理信息系統可以規范企業的信息流程,進而影響企業的業務流程,使之朝著更加科學、規范的方向發展,從而大幅提高企業的效率和競爭力。管理信息系統還為企業的決策者和執行者積累了大量的業務數據供其參考。但是隨著信息系統的使用,系統所積累的數據也會逐步增加,并超出人們能夠根據數據直接進行運用的階段。數據倉庫技術的出現使得人們可以從海量數據中提取有用信息用以支持決策。本文將就如何在企業信息化過程中利用數據倉庫技術進行探討。
一、數據倉庫技術
數據倉庫最早是由W.H.Inmon在《建立數據倉庫》一書中提出的。他對數據倉庫的定義是:數據倉庫是面向主體的、集成的、穩定的(非易失性的)、隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程。
數據倉庫的數據是面向主題的,與傳統的數據庫面向應用相對應。主題是一個在較高層次上將數據歸類的標準,每個主題對應一個宏觀的分析領域。數據倉庫的集成特性是指在數據進入數據倉庫之前,必須經過數據加工和集成,這是建立數據倉庫的關鍵步驟。數據倉庫最根本的特定是物理地存放數據,而且這些數據并不是最新的、專有的,而是來源于其他數據庫的。數據倉庫并不是要取代數據庫,它是建立在一個較全面和完善的信息應用的基礎上,用于支持高層決策分析,它是數據庫技術的一種應用。
二、數據倉庫的應用
1、在數據倉庫實施之前應該確定數據倉庫的設計目標和需求。根據數據倉庫的定義和企業對數據倉庫的需要,數據倉庫應該具有集成性、適應性、可靠性和開放性的特點。
2、明確數據倉庫的主題。主題是一個在較高層次將數據歸類的標準,具體說就是確定決策說涉及的范圍和所要解決的問題。
3、關系型數據庫的設計模型。建模工具的發展為關系型數據庫的建模提供了很大的便利。現在比較流行的數據建模工具主要有Rational Rose、ERWIN、Power Designer、Oracle Designer等。這幾種建模工具各有自IO627kT9GPS3z6LzWUWEkQCJUGyEn6VkX7dgV/WicRY=己的特點,在數據建模方法的選用上,筆者傾向于選擇IDEF1X方法。它是IDEF系列方法中IDEF1的擴展,在實體聯系方法的基礎上增加了一些規則,使語義更為豐富。
4、數據倉庫的實現技術過程。(1)根據數據倉庫的主題確定數據倉庫的結構。在設計的過程中要注意保證數據倉庫的規范化和體現各元素之間的必要聯系。包括以下步驟:首先,定義該主題所需各種數據源的詳細情況,包括所在計算機平臺、擁有者、數據結構、倉庫更新計劃等。其次,定義數據抽取規則,以便從每個數據源中抽取所需數據。最后,將一個主題細分為多個業務主題,形成主題表,據此從數據倉庫中選出多個數據子集,即數據集市(DataMart)。(2)設計數據抽取、轉換于集成模塊的設計。該模塊的設計主要是完成根據元數據庫中的主題定義表、數據源定義、數據抽取規則定義對異地異構數據源進行清理、轉換,然后對數據進行重組和集成,裝載到數據倉庫中目標庫的任務。(3)設計數據管理維護模塊。該模塊可分為數據存儲管理和元數據的維護兩方面。數據存儲管理是根據元數據庫所定義的更新頻率、更新數據項等更新計劃任務來刷新數據倉庫,以反映數據源的變化,且對時間相關性進行處理。更新操作有兩種情況,即在倉庫的原有數據表中進行某些數據的更新和產生一個新的時間區間的數據,因為匯總數據與數據倉庫中的許多信息元素是相關的,必須完整地匯總,這樣才能保證全體信息的一致性。
5、確定數據倉庫的開發和運行環境。根據數據倉庫的規模和企業規模數據倉庫的運行環境也會有所不同。一般情況下適當的軟硬件配置為:服務器級微機一臺,最低內存512M,大容量硬盤(配有外置存儲設備),安裝WINDOWS 2000 SERVER操作系統,SYABSE Adaptive Server Enterprise 12.0數據庫系統(服務器端和客戶端同時具備),對外接入業務系統和其他操作系統傳過來的數據,對內接入各服務器。
三、數據倉庫的深層應用
數據倉庫的應用是與聯機分析處理以及數據挖掘密切結合的。只有將三者密切的結合在一起才能發揮數據倉庫在數據存儲和應用上的優勢。使用數據倉庫數據的工具一般可分為三類:普通的報表查詢工具、驗證型工具和發掘型工具。而聯機分析處理和數據挖掘分別是驗證型工具和發掘型工具的代表。因此,在比較成熟的系統中,數據倉庫、聯機分析處理和數據挖掘往往融為一個以數據倉庫為基礎、聯機分析處理和數據挖掘相輔相成分析數據的模式。其中,數據倉庫負責把所需的數據面向主題按有助于聯機分析處理和數據挖掘分析的格式進行存儲,并對原始數據進行預處理。聯機分析處理和數據挖掘則負責從不同的角度和層次對經過初步預處理的數據進行分析,發掘出人們所關心的模式。由于三者都旨在輔助決策,所以人們在此基礎上加入模型庫、知識庫和方法庫,從而構建了基于數據倉庫+聯機分析處理+數據挖掘的決策支持系統。這種模式的決策支持系統成為決策支持系統發展的新模式,因其強大的輔助決策功能而得到了廣泛的應用。
本文對在企業信息化建設中數據倉庫的應用進行了研究。討論了數據倉庫設計時的需求分析與方案選型。分析了數據倉庫設計需求和數據倉庫的設計思想,給出了針對大多數企業情況的數據倉庫的設計步驟,最后給出了數據倉庫開發所需的開發和運行環境。
(作者單位:河南平頂山田莊選煤廠計劃科)