文/林瑤 李洪磊
數據挖掘“預言”學生行為
文/林瑤 李洪磊
采集和分析學生的基本信息,可預測學生可能出現的行為,從而有目標、有針對性地實施干預措施
學生群體龐大、多樣性明顯,給學生管理工作帶來很大的困難。不過,目前學生自然人數據、學習成績、操行檔案等在各高校均已不同程度地實現計算機化管理。如此龐大、詳細的數據,為我們利用數據挖掘技術,實現學生群體劃分與行為模式識別奠定了基礎。
由此,我們可以建立較全面的學生群體行為模式知識庫,通過采集學生的基本信息,可預測學生可能出現的行為,從而有目標、有針對性地實施干預措施,幫助提高高校安全穩定的預警水平,確保正常教學秩序的正常進行。
我們選擇Clementine軟件作為主要研究工具。Clementine是一個數據挖掘工具平臺,通過此平臺可以采用商業技術快速建立預測性模型,并將其應用于管理活動中,從而改進決策過程。Clementine參照行業標準CRISP-DM模型設計而成,可支持從數據到更優成果的整個數據挖掘過程。
Clementine的常用模塊包括:
1.分類和回歸樹(C&RT)節點生成可用于預測和分類未來觀測值的決策樹。該法在每個步驟最大限度地降低不純潔度,使用遞歸分區來將訓練記錄分割為組。
2.CHAID節點使用卡方統計量來生成決策樹,以確定最佳的分割,可生成非二元樹,故有些分割將有多于兩個的分支。
3.K-Means節點將數據集聚類到不同分組(或聚類)。此法將定義固定的聚類數量,將記錄迭代分配給聚類,調整聚類中心,直到進一步優化模型。作為一種非監督學習機制,K-Means節點并不試圖預測結果,而是揭示隱含在輸入字段集中的模式。
4.廣義規則歸納法(GRI)節點可以發現數據關聯規則。
5.主成份分析/因子節點提供了功能強大的數據縮減技術,以此來降低數據的復雜性。
6.線性回歸是一種通過擬合直線或平面以實現匯總數據和預測的普通統計方法,它可使預測值和實際輸出值之間的差異最小化。

表1 學生信息數據統計
本文主要探討學生信息數據中潛藏的知識和規律,這里主要討論的是挖掘學生信息數據,從中得出有效結論。學生信息數據統計表如表1所示。
數據挖掘系統模塊設計
學生管理信息數據挖掘系統是在學生信息數據倉庫系統的基礎上建立的,系統將數據從數據集市中取出來,再放入工作站,而后對這些數據進行預處理,對于處理后的數據進行分析、決策,以各種圖和表的形式顯示數據,最后應用適當的模型對數據建模,最終挖掘出知識,并對得到的知識進行解釋。
數據挖掘系統總共分為5個模塊:
1.數據倉庫模塊
該模塊分兩部分:
一部分是事實表的生成。該部分設計了一個簡單的目標數據倉庫(ETL)工具,僅對數據進行抽取和裝載,這里需要指定抽取的源IP地址和裝載的目標IP地址。為了進行學生畢業情況的聚類分析,我們單獨設計了一個自動生成各專業畢業狀況的工具,這個工具將根據選定的專業自動生成該專業己畢業學生的畢業狀況事實表;
另一部分是維表和元數據的生成與管理。生成各維表的層次關系表(LevelRelation表)生成各專業畢業狀況的工具。
2.項目存儲模塊
每一個主題挖掘都有一個項目,因此,系統要能夠新建項目(分類項目和聚類項目),保存當前項目的狀態(包括各種參數、各個數據集,事實表字段),并打開一個已存在的項目。項目的名字、所登錄的服務器的IP地址和登錄的用戶名與密碼均保存在文本文件中,為了防止非法登錄,我們用加密算法對用戶名和密碼加密。
3.數據預處理模塊
Clementine數據挖掘的過程是:Clementine讀入數據;通過一系列操作運行數據,把數據送到目的地,操作順序被稱為數據流,每次操作時,數據流都會隨著相關操作發生變化;最后,目標數據輸出一個模型或者可視化的結果。
現實世界中的數據不完整、不明確(模糊),含有很多“雜質”,而數據預處理技術可以改進數據質量。本系統的數據預處理包含如下內容:數據清洗、數據離散化、樣本抽樣、概念分層、數據數值化。圖1為對2007工商管理2班學生的數據按照各個字段對輸出字段的重要性的計算后的排序,從而使42個字段降解到28個字段。
4.C4.5算法
C4.5是在ID3基礎上發展起來的決策樹生成算法。C4.5算法不僅能處理離散型的描述性屬性,還能夠處理描述性屬性是連續型的情況,此算法利用比較各個描述性屬性的信息增益值(Information Gain)的大小,來選擇Gain值最大的屬性進行分類,能夠完成對連續屬性的離散化處理,能夠對于不完整數據進行處理,并最終形成產生式規則。算法的結果是一棵判定樹,它是由樣本屬性作為節點構成的一棵外向樹,其中非葉節點由判定對象屬性組成,葉節點由分類屬性構成。判定樹自根開始按層構造,每次選取一個屬性作為當前測試節點,節點選擇通過信息論中的信息增益的熵值作度量,選擇熵最大的屬性作為當前的節點。
5.建模過程及結果分析模塊
該模塊是數據挖掘系統的核心,分類算法和聚類算法在這個模塊中實現,使用C4.5算法對數據進行挖掘,通過修改算法中的參數,可以得到不同的挖掘結果,并在該模塊中對結果進行分析。系統在實現數據挖掘的過程中,循環調用以上模塊,直至獲取滿意的決策信息為止。
我們運用Clementine軟件建立數據流后執行以上流程,并且以表格的形式輸出結果,如圖2所示。

圖1 Clementine中的字段選擇數據流

圖2 Clementine中的不規則測試數據流

圖3 決策樹
運行結果分析
我們通過調查表采集的原始數據包括:學生學號、性別、專業、年級、成績、處分狀況、是否獨生子女、父母職業、家庭狀況、經濟狀況、戀愛情況、考勤情況、健康狀況進行了問卷調查,一共四個年級5000多個數據的統計。我們選用四個字段:將學生性別Sex男(女)轉化成數字01(02),是(否)獨生子女Only轉化成數字11(12),經濟條件Economy良好(困難)轉化成數字21(22),家庭Family和諧(不和諧)轉化成數字31(32),用Clementine中的C4.5算法模塊進行挖掘,最終生成的決策樹如圖3所示。
我們通過對派生字段運用Clementine軟件進行數據挖掘后,由最終的生成報告得出有心理狀況的規則為:11→01→31→22;11→01→32;11→02→32;12→01→32→22;12→02→32。由此可知,關系緊張的家庭及單親家庭對學生心理影響最為明顯,大學生需要更多的關心和愛護,其次是經濟困難或經濟條件過好也對大學生形成心理問題起著不可忽視的影響,需要高校加大對學生的理想信念的培養力度。這些結論對我們指導學生工作起到重要的作用,但我們僅選取了其中四個字段進行了分類的挖掘研究,當然,還可以選取更多字段進行進一步的聚類、關聯分析算法的探討。
學生信息系統中含有大量有待挖掘的有用信息,這些信息對校方更好地制定學生培養計劃無疑具有重要的指導意義。本文通過在學生信息管理系統中的具體實踐和運用,實現了一個實用的學生信息數據挖掘系統,有效提高了學生管理工作的效率和質量,但在學生行為預測方面涉及的面還不夠廣,這對我們進一步深入的研究提出了要求和挑戰。
(作者單位為遼寧師范大學管理學院)