楊陽,李明東(西華師范大學計算機應用研究所,四川南充637002)
數據挖掘在提高學生成績中的應用
楊陽,李明東
(西華師范大學計算機應用研究所,四川南充637002)
該文針對部分大學生對低年級課程不夠重視這一現象,采用數據挖掘中的關聯規則算法找出大學課程之間的內在聯系,而后建立成績預警模型,對相關的學生提出警告并指明努力的方向,從而能盡早使學生對相關的課程引起足夠的重視.
數據挖掘;關聯規則;課程成績;解決方法
大多數學生經過高中三年的學習,進入大學之后不能很快適應大學的學習環境,對自己的學習采取放任的態度,認為高中階段太辛苦,應輕松了,即使不用那么刻苦也能考出好成績,這種想法是完全錯誤的.隨著大學課程難度的不斷加大,有些學生因為前驅課程沒有學好,從而加大了學好后繼課程的難度.不管是教學管理部門還是學生自己都應該明確的知道大學課程中哪些課程之間是有聯系,聯系的緊密程度如何.從而對學生提出警告,使之加強基礎課程與主業課程的學習.
2.1 數據挖掘的基本理論
近年來,隨著科學技術的發展,社會與經濟都取得了很大的進步,信息技術在各行各業都得到了廣泛的應用,同時,各個領域也產生了大量的數據.如何從這些數據中得到有用的信息,成為分析人員的密切關注的問題.因此,數據挖掘技術得到了廣泛的應用.
數據挖掘(Data Mining,簡稱DM),就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含的在數據中、人們事先不知道卻是潛在的有用信息和知識的過程,是數據庫中的知識發現的核心[1].圖1是一個挖掘系統的原型[2].
2.2 關聯規則的基本理論
支持度(Support)用于度量一個項集的出現頻率.項集{A,B}的支持度由同時包含A和B的事務總個數組成.計算支持度的公式為[1]:Support({A,B})=Number of Transactions(A,B).
置信度(Probability)是關聯規則的屬性.規則A =>B的概率就是使用{A}的支持度除項集{A,B}的支持度來計算.計算置信度的公式為:Probability (A=>B)=Support(A,B)/Support(A).

圖1 挖掘系統的原型
2.3 Apriori算法
關聯規則算法就是相關性計數引擎.在關聯算法中有兩個步驟,首先挖掘頻繁項集,再基于頻繁項集來生成關聯規則[3].
挖掘頻繁項集是使用關聯規則算法的核心部分.首先必須使用最小支持度來指定頻率閾值.該算法在第一次迭代中挖掘所有大小為1的頻繁項集,其支持度大于最小支持度.第二次迭代挖掘大小為2的頻繁項集,在進行第二次迭代之前該算法會基于第一次迭代的結果來生成一組大小為2的候選項集,同樣的,這些項集的支持度不得小于最小支持度.該算法重復相同的過程來挖掘大小分別為3、4、5……的頻繁項集,直到再沒有項集滿足最小支持度為止.以下是用來生成頻繁項集重要過程的形式代碼[3]:
F:result set of all frequent itemsets

近年來,由于高等教育的不斷普及與發展,各個高校擴招,學生也不斷增加,這就給高校的管理工作帶來了很大的困難.教師需要科學的分析包括學生成績在內的各個教學環節中的大量數據信息,才能很好的指導教學.并且能夠使學生在了解課程聯系的前提下,很好的學習這些課程.
3.1 模型的描述與建立
這個模型的作用是通過對現有的課程成績的分析,找出課程間的關聯規則以及聯系的緊密程度.當輸入某個學生的成績時,能根據這些關聯規則判斷該生應該注意哪些后續課程的學習,并指明學習的方向[4].
模型的建立過程如下: A:課程A的成績.B:課程B的成績.Support(A,B)=包含A,B的項集個數/項集總個數.
若Support(A,B)>最小支持度,則項集(A,B)為頻繁項集.
反之則不是頻繁項集.
若項集(A,B)為頻繁項集,則挖掘項集(A,B)的關聯規則.
Probability(A=>B)=Support(A,B)/Support(A).
若Probability(A=>B)>最小置信度,則A,B之間存在聯系.
C:某人課程C的成績.
輸入C,可預測此人與C相關的課程的成績,從而提醒此人應該注意哪些后續課程的學習,以及可能會導致的后果.
圖2為學生課程成績關聯規則模型圖:

圖2 學生課程成績關聯規則模型圖
3.2 模型的求解
(1)數據的預處理.隨機抽取本校計算機學院某個班一學期的成績,首先對這些數據進行預處理,然后把數據經過數據庫的導入及選擇連接,將數據轉化為規格化的形式,將其轉化為事務數據庫的存儲形式,最后將成績進行轉化并將其離散化.[5]課程成績按照成績區間設置如下:60分以下的設置為“1”,60到70分的設置為“2”,70到80分的設置為“3”,80分以上的設置為“4”.
(2)挖掘關聯規則.本文主要是想通過分析成績從而得到課程之間的內在聯系.通過數據挖掘找出各個課程之間的關系從而發現有聯系課程.本文將利用關聯規則中的Apriori算法來解決該問題.設置最小支持度為0.3,最小置信度為0.3.開始對數據進行分析.現選取部分實驗結果進行解釋說明.[4].

表1 學生的成績示意圖

表2 預處理1后的成績圖

表3 預處理2后的成績表

表4 生成頻繁項集

表5 生成關聯則
上述分析可知,B、D課程與K課程之間有著非常緊密的聯系,如果B、D課程沒有學好,將會導致后續K課程難以學好.課程G與課程H,課程F、C與課程E之間也存在聯系.
通過上面的數據分析可以知道:大學中的絕大多數課程之間是存在聯系的,特別是前驅課程與后繼課程之間的聯系是非常緊密的,一旦前驅課程沒有學好將會直接影響到后繼課程的學習.既然我們已經知道了課程之間的聯系就應該很好地利用起來.對于有相關問題的學生,老師應及時與學生進行交流,鼓勵學生重拾學習的信心,把沒有學好的前驅課程重新學習一遍,為后繼課程的學習打下堅實的基礎,同時老師從旁給予一定的幫助,以此達到提高學生成績的目的.
本文針對當今的部分大學生對大學中的低年級課程不夠重視這一現象,簡要地闡述了關聯規則的Apriori算法,并用這一算法建立了成績預警模型.這個模型通過分析數據庫中大部分學生的成績,得出課程之間的關聯規則,然后輸入某學生的當前成績,可知他目前的學習狀況,由此提醒該生應該注意哪些后續課程的學習.并在此基礎上提出解決學生相關問題的方法,以達到提高學生成績的目的.
[1]ZhaoHui Tang,Jame Maclennan.數據挖掘原理與應用[M].北京:清華大學出版社,2007.
[2]李雄飛,李軍.數據挖掘與知識發現[M].北京:高等教育出版社,2003.
[3]胡吉明,鮮學豐.挖掘關聯規則中Apriori算法的研究與改進[J].計算機技術與發展,2006(4).
[4]李軍.數據挖掘系統實現的一般模型[J].大慶石油學院學報,2003(3).
[5]李瑞欣,張水平.數據倉庫建設中的數據預處理[J].計算機系統應用,2002(5).
(責任編輯:王前)
Abstract:Some students not pay enough attention to the low-grade curriculum,in view to this phenomenon,the paper used association rules algorithm in datamining to find the inner relation between university courses,and then established achievements early warningmodel to warn the relevant students and indicate the direction,thus early enabled the students cause enough attention to the related curriculum.
Key words:datamining;association rule;course grade;solution
Applied Research of Data M ining in Im proving Students'Grades
YANG Yang,LIMing-dong
(Institute of Computer Application,China West Normal University,Nanchong,Sichuan 637002,China)
TP391
A
1008-7974(2011)04-0022-03
2010-10-20
楊陽(1986-),女,四川遂寧人,西華師范大學計算機應用研究所在讀碩士研究生.李明東(1958-),男,四川廣安人,教授,碩士研究生導師.