摘要:高等學校教學質量管理需要數據挖掘系統來支持。介紹了數據挖掘技術以及常用的數據挖掘方法,對如何設計基于SQL Server的高校教學質量數據挖掘系統進行了探討。以決策樹方法為基礎、SQL Server為挖掘平臺,設計了教學質量數據挖掘模塊,實現了教學質量數據挖掘系統。
關鍵詞:SQL Server;教學質量;數據挖掘
中圖分類號:TP181文獻標識碼:A文章編號:1009-3044(2009)35-9907-02
SQL Server-based Data Mining University's Teaching Quality
WANG Zhen-xi
(Department of Information Engineering, Hunan Urban Construction College, XiangTan 411100, China)
Abstract: Teaching Quality management needs to support data mining system. Introduced the data mining technology and commonly used data mining methods, how to design a SQL Server-based data mining system, the quality of college teaching were discussed. With decision tree method is based, SQL Server as a mining platform designed for the quality of teaching data mining module to achieve the quality of teaching data mining system.
Key words: SQL Server; teaching quality; data mining
隨著教育事業的飛速發展,特別是高等教育的快速發展,教育管理信息化、現代化水平有了長足的進步。信息系統的成功實施為各高校的日常管理工作帶來了很大的便利,提高了管理效率和水平,在日常的工作中也積累了越來越多的數據。隨著網上評教、學生成績管理、教學過程管理等系統的實施,教學過程中的數據不斷增加,為進行高校教學質量信息的數據挖掘提供了基礎信息。
數據挖掘研究如何從大量的數據中智能地、自動地提取出有價值的知識和信息,是當前相當活躍的研究領域。近年來,隨著我國高等教育事業的飛速發展及教育信息化建設的快速發展,知識的自動獲取己經成為制約高校進一步發展的“瓶頸”。因此,研究應用數據挖掘技術,開發高校管理教學質量數據挖掘系統,對提高教學管理水平和教學質量具有理論意義和重要的實用價值。
介紹了數據挖掘的相關概念,探討了數據挖掘技術及其在SQL Server中的實現,研究了決策樹方法在教學質量數據挖掘中的應用。探討了教學質量評估數據挖掘系統的實現方法,將原始數據經過清理后導入SQL Server 2000,構建相應的數據倉庫,然后調用SQL Server分析服務模塊所提供的數據挖掘算法來構建數據挖掘模型。給出了教學質量評估數據挖掘系統的軟件框架,并使用相關數據進行了關聯規則算法的實驗,對結果進行了初步分析。
1 數據挖掘技術
數據挖掘最早于1989出現,由于是一門新興的來自各種不同領域的交叉性學科,數據挖掘(Data Mining, DM) 數據挖掘,就是從大型數據庫的數據中提取人們感興趣的知識。[1]這些知識是隱含的、事先未知的潛在有用信息,提取的知識表示為概念(Concepts)、規則(Rules)、規律(Regularities)、模式(Patterns)等形式。數據挖掘確切地講是一種決策支持過程,它主要基于人工智能、機器學習、統計學等技術,高度自動化地分析企業原有的數據,作出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,作出正確的決策。[2]
1.1 數據挖掘過程
數據挖掘過程一般由三個主要的階段組成:數據準備、挖掘操作、結果表達和解釋,如圖1所示。
整個挖掘過程是一個不斷反復的過程。比如,用戶在挖掘途中發現選擇的數據不太好,或使用的挖掘技術產生不了期望的結果。這時,用戶需要重復先前的過程,甚至從頭重新開始。
1.2 常用的數據挖掘方法
在選定了數據挖掘過程模型后,另一個需要著重考慮的是挖掘算法的選擇。數據挖掘是從人工智能領域的一個分支一機器學習發展而來的,因此機器學習、模式識別、人工智能領域的常規技術,如聚類(Clustering)、決策樹(Decision Tree)、統計等方法經過改進,大都可以應用于數據挖掘。人工神經網絡方法、粗糙集理論方法、關聯規則方法、遺傳算法方法、決策樹方法及統計分析方法是數據挖掘的常用方法。[3]
1.3 SQL Server中的數據挖掘技術
數據挖掘是SQL Server的一整套數據管理工具中的新增品種。數據挖掘和OLAP都是微軟分析服務的組成部分,都是決策支持工具,但他們是為不同的用處而設計的。在數據挖掘模型上微軟采用了特殊數據結構來存儲數據挖掘模型,要瀏覽它需要使用微軟Analysis Manager、采用OLE DB for Data Mining Servises的應用程序,或者諸如決策支持對象(DSO)的COM接口。所有這些工具允許創建、復制、改變和刪除新的數據模型。通過OLE DB可以與各種數據源建立直接的數據連接。[4]
服務器端的Analysis Services體系結構提供可以建立和操縱OLAP立方體、數據挖掘模型的核心程序。除了本地安全訪問外,服務器還要管理對原始數據源地連接。處理立方體和模型時,服務器要管理數據存儲的機制。他要維護微軟SQL Server 2000 Meta Data Services存儲和使用的元數據存儲區。Analysis Manager中提供的用戶界面包含了Data TransformationServices(DTS),這是SQL server 2000的一項服務,它在數據源之間傳輸和清理數據。Analysis Manager是Analysis Services的主要接口,它還有其他的一些編程接口允許用戶前端應用程序與控制服務器借口的 COM對象模型相互作用。
2 決策樹方法在教學質量數據挖掘中的應用
決策樹一是一個類似于流程圖的樹結構,其中每個節點表示在一個屬性上的測試,每個分枝代表一個測試輸出,每個樹葉節點代表類或類分布。建立決策樹的目標是通過訓練樣本建立目標類變量關于各輸入變量的分類預測模型,全面實現輸入變量和目標變量在不同取值下的數據分組,進而用于新數據對象的分類和預測。
建立決策樹的經典算法是ID3算法,它可以被描述成一個遞歸的過程:首先,選擇訓練樣本的一個屬性作為節點,對該屬性的每種可能的取值創建一個分枝,并據此將訓練樣本劃分為凡個子集。然后,對每個分枝采取相同的方法,訓練樣木是其父節點劃分的若干子集中的對應于該分枝取值的那個樣本子集。
3 數據挖掘在教學質量評估中的應用
3.1 基于純SQL Server的數據挖掘系統實現方法
隨著OLE DB For DM規范的發布,使得數據挖掘和關系數據庫以及數據倉庫的集成成為可能,因此微軟公司在其數據庫產品SQL Server中包含了數據挖掘特性,由SQL Server的分析服務(Analysis Services)模塊提供數據挖掘服務。分析服務是一整套的決策支持引擎和工具,分析服務的訪問是通過圖形用戶界面土具,并且通過微軟管理控制臺接口運行。它可以訪問兩種形式的決策支持機制:數據挖掘和聯機分析處理。在對教學質量評估數據進行數據挖掘時一,可以直接使用分析服務提供的數據挖掘功能。[5]
首先,將教學質量評估中的數據導入SQL Server,對數據進行相關處理,創建星型結構的數據倉庫,為數據挖掘模型準備好數據源。然后,啟動Microsoft SQL Server 2000 Analysis Services,利用系統提供的“挖掘模型向導”,構建數據挖掘模型,直接選擇其中的數據挖掘算法(如微軟決策樹方法Microsoft Decision Tree)對數據源進行數據挖掘。
3.2 SQL Server與外部模塊結合的數據挖掘系統實現方法
雖然基于SQL Server分析服務本身的數據挖掘算法可以構造數據挖掘解決方案,但是SQL Server分析服務提供的算法有限。將數據挖掘模塊外掛于SQL Server進行數據挖掘,在算法的選擇上具有足夠的靈活性,同時該算法也可以與SQL Server分析服務結合使用。這種方式下SQL Server不僅可以提供完善的數據管理服務,同時通過使用SQLServer提供的DTS等工具對數據進行預處理,構建數據倉庫,將整個數據挖掘解決方案構建在數據倉庫之上,這在一定程度上提高了數據挖掘的質量和效率。[6]
在基于SQL Server構建數據挖掘模塊時,整個系統采用C/S結構,將數據挖掘數據源組織存儲在服務器端數據庫,而數據挖掘模塊運行在客戶端應用程序。實現數據挖掘算法外掛于SQL Server來構建數據挖掘解決方案的關鍵,是解決數據挖掘算法與數據庫的數據交互問題。
首先,將源數據(學生評教數據、教師相關數據)經過抽取、轉換加載存儲到服務器端SQL Server數據庫,SQL Server的DTS工具可以完成大部分數據的轉換和清理工作,這樣不同源數據就可以統一有序的存儲在服務器端的SQL Server數據庫中,為數據挖掘做好數據準備。其次,利用某種高級語言實現數據挖掘算法,編制相應的外掛數據挖掘模塊。最后,與服務器上的數據庫進行數據交互。在這種利用外掛模塊實現數據挖掘的方案中,不同的數據庫的訪問技術有所不同,微軟公司的主要的數據訪問方法是ADO,它是一個簡單的對象模型,在應用程序中使用該模型可以方便的與SQL Server數據庫進行數據交互。
3.3 數據挖掘模塊的實現過程
教學質量評估數據挖掘模塊包括數據清洗、生成事務庫、生成頻繁項集、生成關聯規則庫共四個子模塊。它們的主要功能分別為:對學生評教數據進行清冼并從教師檔案庫以及清洗后的學生評教數據庫中提取數據挖掘對象、對數據挖掘對象進行編碼并將關系表轉換為事務庫、根據給定的最小支持度在事務庫的基礎上生成頻繁項集、根據給定的最小置信度由頻繁項集生成關聯規則并顯示。數據挖掘模塊的實現過程如圖2所示。
4 總結
本文介紹了數據挖掘的基本概念,探討了常用的數據挖掘技術及其挖掘算法,結合實例研究分析了決策樹方法中ID3算法的實現過程。本文探討了教學質量評估數據挖掘系統的實現方法,給出了基于SQL Server的兩種數據挖掘的解決方案。當前,對數據挖掘技術的研究與應用正方興未艾,隨著技術的不斷成熟,未來的應用領域會更加廣泛,在教育領域內的應用也會更加深入。
參考文獻:
[1] 黃解軍,潘和平,萬幼川.數據挖掘技術的應用研究[J].計算機工程與應用,2003,(2):45-47.
[2] Seidm C.SQL Server 2000數據挖掘技術指南[M].北京:機械工業出版社,2001.
[3] 黃容,黨齊民,歐建雄.基于連鎖超市的數據倉庫開發模型[J].計算機與現代化,2003,90(2):21-24.
[4] 彭木根,數據倉庫技術與實現[M].北京:電子工業出版社,2002.
[5] 丁元明.基于數據挖掘技術的高校輔助決策支持系統研究[D].上海:華東師范大學,2005.
[6] 陳善柳.數據挖掘技術在高校教學質量評估中的應用研究[D].長沙:中南大學,2004.