基于數字校園數據平臺的數據倉庫

2008-04-12 00:00:00王亞妮

陜西教育·高教版 2008年9期

[摘要]隨著社會的進步，信息技術的發展，高校也在不斷地采用新的管理理念、信息手段來代替傳統方式，整合資源、提高效率。數字化校園的建設成果更是把信息技術融合到學校的管理教學當中，并且對現有體制、組織、方式、資源進行有效合理地重組和改革。在此過程中積累了大量的信息數據，如何合理有效地利用現有的教學、管理信息，更好的為學校的科研、教學、決策提供有力的支持，如何克服“數據爆炸、知識貧乏”的窘迫局面？傳統的面向數據操作的數據庫已經不能滿足發展的需要，數據倉庫工程應運而生，它是體系結構化環境的核心，是決策支持系統 ( DSS)處理的基礎。完整的數據倉庫主要包括數據倉庫技術、聯機分析處理技術 ( Online Analytical Processing，簡稱 OLAP)和數據挖掘技術(Data Mining)。

[關鍵詞]數字校園數據平臺數據倉庫工程

數字化校園建設中數據倉庫的架構

數字化校園的構成可以用圖1表示，計算機網絡是數字化校園的基礎設施；網絡基本服務是數字信息流動的基礎，包括電子郵件、文件傳輸、域名服務、身份認證、目錄服務等；在此基礎上要建立各類基于網絡的數據倉庫，包括職能信息庫、課程資源庫、數字化圖書資源等；應用支撐系統包括辦公自動化系統、各類管理信息系統、網絡教學系統以及數字圖書館管理系統等等；在此之上的信息服務系統是校內用戶的主要使用界面，為師生提供各種服務，如信息交流、信息查詢、決策支持、電子商務等。五個區域分別表示數字化學習環境的功能領域：組織管理、教學活動、學術研究、公共服務和學校社區服務等，各個功能領域之間是密切相關、相互促進的。

圖1

以選課系統為例解析數據倉庫的構建與應用

數據挖掘，又稱為數據庫中的知識發現（Knowledge Discovery in Database，簡稱KDD），是指從大型數據庫中提取人們感興趣的信息，提取的知識表示為概念（Concepts）、規則（Rules）、規律（Regularities）、模式（Pattems）等形式。數據挖掘可以應用于各個領域，包括商務管理、生產控制、市場分析、工程設計和科學探索等。利用數據挖掘技術，挖掘選課系統中積累的有用信息，可以使學校的相關部門有彈性地調節所開的課程，調整熱門課程和冷門課程的人數，調節相關課程的學分，通過選課率及相關信息做出正確決策，鼓勵和引導學生選擇互補的課程，這有利于學生整體素質的提高，也有利于教師、教室等資源的合理分配。

1.確定數據倉庫和OLAP模型

OLAP（Online Analytical Mining或OLAP Mining）是基于數據倉庫的信息分析處理過程，其基本特點是能夠從多種角度對從原始數據中轉化出來的信息進行快速、一致、交互地處理，從中獲得對數據更深入地了解。OLAM將二者結合起來，發展一種建立在OLAP和數據倉庫基礎上的新的挖掘技術，它兼有OLAP多維分析的在線性、靈活性和數據挖掘對數據處理的深入性，是數據庫應用工具未來發展的方向之一。

通常要先分析原有業務數據庫，確定待建的數據倉庫主題。再根據用戶的需求來確定各個級別數據倉庫的存儲主題。這里選取學生選課管理這一典型業務為主題。為了保證數據的正確性和一致性，還要確保這些數據是按同樣的方法記錄的同一件事情，需要對選課的原始數據進行預處理，轉換成適合數據挖掘的數據。數據預處理（Data preprocessing）包括三個步驟：數據清理（Data cleaning）、數據集成（Data integration）和數據變換（Data transformation）。完成數據的預處理之后，便可確定待建的數據倉庫模型，實現OLAP建模，生成多維數據集（CUBE）。可以建立以ROLAP方式存儲的選課數目分析多維數據集（以時間維、學號維、院系專業維為維度，選課數目為度量值）、選課學分分析多維數據集（以課程類別維、課程開課部門維、學號學歷維為維度，學分為度量值）等許多個不同的多維數據立方體。

2.數據挖掘關聯算法的實現

關于關聯規則的挖掘算法主要有循環式掃描算法、增量式更新算法、并行挖掘算法、元模式制導、基于約束挖掘等等。目前大多數研究集中在頻繁數據項的挖掘方法上。其中比較典型的關聯規則挖掘算法有Apriori算法和FP-growth算法。

Apriori算法可以產生相對較小的候選項目集，掃描數據庫的次數由最大頻繁項目集的項目數決定。因此，該算法適合于最大頻繁項目集相對較小的數據集中的關聯規則挖掘問題。針對Apriori算法框架的缺陷，Han.JW（韓家煒）等人提出了FP-tree結構和相應的P-growth算法。FP-growth算法采用的是分而治之的策略，即在經過了第一次掃描之后，把數據庫中的頻繁集壓縮進一棵頻繁模式樹（FP-tree），同時依然保留其中的關聯信息。隨后再將FP-tree分化成一些條件庫，每個庫和一個長度為1的頻集相關；然后再對這些條件庫分別進行挖掘。當原始數據量很大時，也可以結合劃分的方法，使得一個FP-tree可以放入主存中。實驗表明，FP-growth對不同長度的規則都有很好的適應性，同時在效率上較之Apriori算法有巨大的提高。由于高校多年來存儲的選課數據量較大，故選用FP-growth方法實現高校選課系統的關聯規則挖掘較合適。

作者單位：陜西科技大學網絡管理中心

陜西教育·高教版2008年9期

陜西教育·高教版的其它文章: 淺談大學生英語學習動機; 大學生心理健康的價值因素探析; 大學生網絡成癮的原因與對策研究; 淺論文本鑒賞之于翻譯教學的作用及重要性; 淺談新形勢下室內設計透視制圖的教學體驗; 苛守德義與書生之見