馬麗君
(白城師范學院計算機科學學院,吉林 白城 137000)
淺析關系數據庫、數據倉庫與數據挖掘的關系
馬麗君
(白城師范學院計算機科學學院,吉林 白城 137000)
關系數據庫、數據倉庫和數據挖掘是作為三種獨立的信息技術出現的,是數據庫研究、開發和應用最活躍的分支之一,通過對三種技術的內在聯系性和互補性分析,從而更好的使用數據庫技術處理各種信息需求,建立更加完善的數據庫應用系統或新的決策系統。
關系數據庫;數據倉庫;數據挖掘;關系
關系數據庫是20世紀70年代初提出來,經過數據庫專家幾十年的努力,理論和實踐都取得了顯著成果,標志著數據庫技術的日益成熟。但它仍然難以實現對關系數據庫中數據的分析,不能很好地支持決策,因此在80年代,產生了數據倉庫的思想,90年代,數據倉庫的基本原理、架構形式和使用原則都已確定。主要技術包括對數據庫中數據訪問、網絡、C/S結構和圖形界面,一些大公司已經開始構建數據倉庫。針對數據倉庫中迅速增長的海量數據的收集、存放,用人力已經不能解決,那么數據倉庫中有用的知識的提取就需要數據挖掘來實現。數據挖掘與統計學子領域“試探性數據分析”及人工智能子領域“知識發現”和機器學有關,是一門綜合性的技術學科。了解關系數據庫、數據倉庫與數據挖掘三者之間的區別與聯系,使之更好的使用這3種技術,處理各種信息需求是非常必要和重要的。
關系數據庫是面向事務的設計,數據倉庫是一個面向主題的設計;關系數據庫存儲在線事務數據,數據倉庫通常存儲歷史數據,關系數據庫的設計將盡量避免冗余,但數據倉庫是傾向于引入冗余;關系數據庫設計用于捕獲數據,數據倉庫設計用于分析數據。傳統的關系數據庫面向以事務處理為主的系統應用,所以它無法滿足決策支持系統的分析要求。事務處理和分析處理有非常不同的性質,他們有不同的需求數據。
數據挖掘是基于數據倉庫和多維數據庫中的數據,找到數據的潛在模式進行預測,它可以對數據進行復雜處理。大多數情況下,數據挖掘是讓數據從數據倉庫到數據挖掘數據庫中。從數據倉庫中直接得到進行數據挖掘的數據有許多優點,因為數據倉庫中數據的清理和數據挖掘中幾乎是相同的,如果數據在數據倉庫中已被清除,數據挖掘中不再被清除,并且數據不一致也得到了解決。數據倉庫是數據挖掘的先期步驟,通過數據倉庫的構建,提高了數據挖掘的效率和能力,保證了數據挖掘中的數據的寬廣性和完整性。
數據挖掘的數據源不一定是數據倉庫。也可以是一個關系數據庫中的數據,但要事先進行數據預處理,才能用于數據挖掘。數據預處理是數據挖掘的關鍵步驟,并且是數據挖掘過程中的主要工作部分。因此,數據倉庫和數據挖掘沒有必然的聯系,有些人簡單地認為,數據倉庫是數據挖掘的準備,這種理解是不全面的,也可以使用關系數據庫中的數據作為數據挖掘的數據源。
2.1.1 關系數據庫
關系數據庫的主要價值體現在事務處理。關系數據庫已經滲透到各行各業的日常事務,該事務管理離不開關系數據庫的應用系統,這是對傳統事務管理的一個重大突破,是社會甚至家庭不可或缺的工具,它對社會的應用價值是100%。
2.1.2 數據倉庫
數據倉庫的主要價值體現在為決策分析提供數據源。一方面,在一個事務中,用戶要求高效的訪問系統和數據庫,操作時間應該短。在一個決策分析中,決策問題的一些請求可能會導致系統的操作,解決這一問題的決策分析需要遍歷大多數數據庫中的數據,這對一般日常事務處理系統是困難的,所以操作數據和決策分析數據應該分開。另一方面,決策數據需求問題。在決策分析時,由于不同的應用系統中,實體、字段存在數據類型、名稱和格式的不符,需要在集成時進行轉換,這個轉換必須在決策之前完成;一些決策數據需要動態更新,需要經常進行匯總和總結,這些需求用事務處理系統解決比較繁瑣。三是數據的操作模式問題。決策分析人員要以專業用戶身份,使用各種工具以各種形式來操作數據,對數據操作的結果以商業智能的方式表達出來。事務處理系統不能滿足這一要求,只有數據倉庫系統能夠滿足數據挖掘技術對數據環境的要求,所以使用數據倉庫中的數據省去了對數據預處理的步驟。
2.1.3 數據挖掘
面對日益激烈的市場競爭,客戶對迅速應答各種業務問題的能力要求越來越高,對過量數據的及時處理要求越來越高,帶來的挑戰一方面大規模、復雜數據系統讓用戶感覺漫無頭緒,無法開始;另一方面,這些大量數據背后隱藏很多有意義的有價值的決策信息。如計算機界都熟知的“啤酒與尿布”的故事,就是零售業巨頭“沃爾瑪”從大量銷售數據中分析出來的規律:美國的男士在下班要去超市買嬰兒尿布,同時他們還會買啤酒。“沃爾瑪”就把這兩種“毫不相干”的商品擺放在靠近的貨架上,并且還擺放一些下灑小菜,使這些商品銷量大增。所以應用數據挖掘從大量數據中發現規律,具有具體的指導意義。
2.2.1 關系數據庫
關系數據庫應用領域非常廣泛,如:證券行業、醫院、銀行、銷售部門、公司或企業,以及政府、國防工業,科學和技術發展領域等等,這些領域都需要使用數據庫來存儲數據。例如:人事管理系統、工資管理系統,xxx部門信息管理系統,手機話費管理系統等,都需要關系數據庫作為后臺提供數據源。
2.2.2 數據倉庫
數據倉庫應用領域主要有兩個方面:一是全局應用。因為數據倉庫獲得來自多方面的數據,所以在把數據向數據倉庫輸入時,要進行轉換、計算和綜合等集成處理。通過處理把來自不同地方的數據源轉換成統一的格式,以促進全局應用。二是復雜系統。信息處理的要求越來越復雜,除了數據處理操作,如添加、刪除、修改、和統計匯總,高級管理層也希望對歷史的和現在的數據進行各種復雜性分析,以支持決策。數據倉庫中就是存儲了舊的歷史數據,方便復雜分析、應用,為高層決策服務。
2.2.3 數據挖掘
數據挖掘的應用領域主要表現在特定應用問題和應用背景。數據挖掘技術已經應用于各行各業,如電信,保險,交通,學校、銀行、超級市場等。例如:數據挖掘技術應用在大學。高校擴招,學生增加到幾萬人,但是學生的學習積極性不高,成績不好,因此引入數據挖掘技術找出影響學生學習積極性和學習成績的原因,制定措施,提高教育和教學質量。分析的數據源是考試成績和成績之外的影響因素,分析的方法是采用關聯規則、模型庫、去“噪”處理、粗糙集等進行數據挖掘,得出的結論是:傳統的學習方法不能完全滿足需要,改進教學方法和教學模式,從而調動學生學習的積極性,提高教學質量。
日常事務處理需要關系數據庫,構建分析處理環境需要數據倉庫,幫助決策者尋找數據之間的潛在的關聯需要數據挖掘。他們之間是相互聯系又有區別的,不能互相取代的,又需要相互融合。數據倉庫中的數據并不是最新的,專有的,而是來源于其他關系數據庫,它是建立在一個更全面和完善的信息應用的基礎上,用于支持高層決策分析的數據基地。數據倉庫是數據庫新技術,到目前為止,數據倉庫仍用關系數據庫管理系統管理數據。數據挖掘是從大量存儲在數據庫、數據倉庫或其他信息庫中發現有趣知識的過程。只有這三個數據庫技術互相融合,取長補短,各盡其責,才能更好的為廣大用戶所使用,為社會各個領域所應用。
[1]華冠萍.數據倉庫、數據挖掘及OLAP之兩兩關系[J].福建電腦,2007,8.
[2]牛承珍.馬季蘭.淺談數據挖掘應用[J].山西科,2008.5.20.
[3]李軍紅,胡或.淺析數據倉庫、聯機分析處理和數據挖掘[J].科技信息,2007.
馬麗君(1962—),女,白城師范學院計算機科學學院,副教授,研究方向為數據庫及應用。
曹明明]