郭慧
(山西華澳商貿職業學院,山西 太原 030031)
數據挖掘技術在學生成績管理系統中的應用
郭慧
(山西華澳商貿職業學院,山西 太原 030031)
將數據挖掘技術引入到學生成績管理系統中,能夠對教育決策和教學評價提供強大的理論支持,提高教師“教”和學生“學”的質量。論文以學生成績分析表為數據集建立挖掘模型,使用決策樹ID3算法完成構建模型,并對模型的準確性進行了必要的評估。通過分析,得到相關屬性與學生成績之間的關系,并從中挖掘出學生成績的好壞與哪些因素有關、它們之間存在怎樣的關系等。
成績管理;數據挖掘;決策樹;ID3
作為決策支持過程的最新技術,數據挖掘能夠深層次地對數據進行挖掘和分析,其無疑會對教學決策和教學評價提供強大的理論支持。在學生成績管理系統中,數據挖掘技術的應用可以深入分析學生成績與各因素之間潛在的關聯。譬如,經過對學生成績的相關分析,數據挖掘技術可以解決諸如“學生成績的好壞與哪些因素有關”、“它們之間又是怎樣的關系”的問題,其評價結果對于教與學的改進及提高意義重大。
在傳統的教學過程中,習慣采用數據庫查詢的方法實現對數據信息的處理。筆者將采用數據挖掘技術中的ID3算法實現對數據的處理,并形成分類規則,從而更深入地分析此數據。
(1)明確挖掘對象及目標:定義好要解決的問題。此處以山西華澳商貿職業學院計算機2009級軟件班學生,共有60名學生、12門課程、三個學期為例,希望根據學生的考試成績,分析出學生成績的好壞與哪些因素有關,并以此所得結果來指導并促進教師“教”和學生“學”。
(2)數據準備:從學生成績管理系統的數據庫中提取相應的數據,并進行預處理,如去除噪聲、對丟失數據進行填補及刪除無效數據等。
(3)數據挖掘:數據經過預處理后,根據數據功能的類型和特點選擇相應的算法對其進行數據挖掘。
(4)結果分析:對挖掘的結果要進行必要的解釋和評價,使其轉換為易于用戶理解的知識。
(5)知識運用:教師可以將分析所得知識運用到教學環節中,如進行教學決策,從而達到教學指導的目的。
基于本數據挖掘的目標是分析學生成績的好壞與哪些因互素有關,而學生成績管理系統數據庫的數據必然存在大量的冗余問題,此處必須對庫的信息進行提取以便形成相關數據表。之后,還必須對數據進行相關性操作。
(1)數據集成
數據集成決不是簡單的數據合成,而是在原始數據的基礎上經過轉換、提煉,形成規范化的、統一的、可挖掘的數據。此處針對數據庫技術,將收集到的相關數據庫文件進行利用SQL語句實現表的連接操作,從而生成“成績分析”表,其數據結構為:學號、姓名、性別、作業、參加活動、平均成績等。由于針對的是專業能力基本信息收集,一些無關屬性應被剔除,如學生的出生日期、家庭住址等。集成后的數據如下:

表1 學生成績集成后數據表
(2)數據清理
由于數據倉庫中的數據是面向某一主題的,數據可能從幾個表中抽取出來,數據庫中的數據類型不同,必然出現一些數據不完整、數據錯誤、數據重復等各種問題。
在該課題中,學生成績數據庫中的數據都非常重要,且是經過多次復查才得到的,所以錯誤數據和不一不致性一般不會存在。但是,可能會出現另外的情況。比如,有的學生有些課程缺考或休學,需要對數據進行置“0”的處理。且這些數據對成績的分析是無意義的,故可以剔除,以免影響分析結果。
(3)數據歸約
數據歸約,其目的是縮小數據規模。經過數據預處理后,根據聚類評價模型,把每個學生劃分到相應的簇中,對學生形成定性的評價,再根據數據轉化規則,得到如表2的數據:
分析如下:
①學生記錄共60個;
②性別字段為男或女;
③對“作業”提交情況進行離散化處理,結果為:0表示經常不交作業;1表示偶爾不交;2表示全交;
④對“參加活動”情況進行離散化處理,結果為:0表示不參加活動;1表示偶爾參加;2表示經常參加活動。

表2 學生成績歸約后數據表
為了尋找學生學習成績的好壞和哪些因素有關、它們之間又存在怎樣的關系,論文基于決策樹算法建立數據模型,首先對學生成績數據庫中的數據進行處理,然后應用決策樹算法建立相應的決策樹,并通過分析,得到相關屬性與學生成績之間的關系。
論文以學生成績分析表為數據集建立挖掘模型,使用決策樹算法中經典的ID3算法完成構建模型,具體過程如下:
首先,對成績分析表中的各屬性計算其信息熵;其次,把計算得到的信息增益最大的屬性作為決策樹根結點,再進行數據子集劃分;
最后,劃分得到的每個子集遞歸進行,直到所有屬性都劃分完為止。
根據上述步驟,詳細過程如下:
(1)根據定義的信息熵,計算分類屬性的信息量
以上的訓練集中,共有60個樣本。經過聚類后,得到的簇是“優”的樣本有12個,“良”的有16個,“中”的有17個,“差”的有15個。為計算每個屬性的信息增益,首先給定樣本分類所需的信息熵:
根據信息熵計算公式得到:I(s1,s2,s3,s4)=I(12,16, 17,15)=1.988394308
(2)依次計算每個屬性的信息熵
例如:計算“性別”屬性,該屬性有兩個值,需要對每個值所劃分的子集計算信息量。
對于“性別”=“男”和“性別”=“女”而言,樣本分布如表:

表3 “性別”=“男”的樣本分布表
根據公式得每個屬性的信息熵計算得到:
E(性別)=48/60×I(24,13,11)+12/60×I(7,2,3)=1.474880232

表4 “性別”=“女”的樣本分布表
E(作業情況)=31/60×I(12,12,6,1)+15/60×I(0,3,9,3) +14/60×I(0,1,2,11)=1.39741438
E(參加活動)=19/60×I(5,5,2,7)+21/60×I(5,6,8,2) +20/60×I(2,5,7,6)=1.87711283
根據公式Gain(A)=Info(D)-InfoA(D),計算得到:
Gain(性別)=I(s1,s2,s3,s4)-E(性別)=1.39741438
Gain(作業情況)=I(s1,s2,s3,s4)-E(作業情況) =0.590979928
Gain(參加活動)=I(s1,s2,s3,s4)-E(參加活動) =0.111281478
根據以上各屬性的信息增益,選擇信息增益最大的屬性作為根結點,即將“作業”屬性的信息增益最大,故以作業決策樹的根結點,并且根據該屬性的三個值分為三支,如下:

圖1 初生成的決策樹
遞歸上述過程,計算出性別、參加活動屬性的信息增益,經過計算,“參加活動”的信息增益最大,將它作為“作業”的子節點,引出三個分支,再遞歸。
經過剪枝等處理后,最終生成的決策樹為:

圖2 最終生成的決策樹
根據以上決策樹,通過分析,得到如下結論:
①經常不交作業的學生成績往往不好。
②性別不能決定學習成績的好壞。
③學生的學習成績和參加活動是可以相互促進的,如果學生能很好地調控二者的時間,完全可以相互促進。
通過研究與測試數據分析,確定以上模型的準確率閾值為85%。將預測集數據利用決策樹模型驗證結果與實際學生學習成績的情況相比較,并與相關的教師進行論證,確認本模型的準確率為90%,超過預定的準確率閾值,能夠反映學生成績與影響因素的關系。
其結論為:學生成績的好壞與學生作業的完成情況及學生是否能合理分配參加活動時間有關。因此,教師在教學中要合理引導學生安排活動與學習時間,并及時督促學生及時完成作業,學生也應學會自我調控,提高學習效率。
[1]韓家煒.數據挖掘概念與技術[M].北京:機械工業出版社,2007.
[2]漢德.數據挖掘原理[M].北京:機械工業出版社,2003,1-2.4.
TN
A
1673-0046(2012)5-0180-02