陳甲華



摘 要
大學(xué)教學(xué)信息系統(tǒng)數(shù)據(jù)中隱藏著大量有潛在價(jià)值的信息。利用數(shù)據(jù)挖掘技術(shù)對(duì)大學(xué)教務(wù)系統(tǒng)的海量數(shù)據(jù)進(jìn)行分析,發(fā)掘出對(duì)教學(xué)有利的規(guī)律和因素,對(duì)大學(xué)的教學(xué)改革和教學(xué)研究有著重要的意義。本文提出一種改進(jìn)的Apriori關(guān)聯(lián)規(guī)則分析算法來提高大學(xué)成績(jī)分析的效率和規(guī)則的可信性;并通過數(shù)據(jù)挖掘工具IBM SPSS Modeler建立了大學(xué)成績(jī)關(guān)聯(lián)規(guī)則分析模型;最后,以某大學(xué)信管專業(yè)2008-2012級(jí)全部學(xué)生的課程成績(jī)數(shù)據(jù)進(jìn)行實(shí)證研究。
【關(guān)鍵詞】數(shù)據(jù)挖掘 大學(xué)成績(jī)關(guān)聯(lián)規(guī)則Apriori算法
隨著高校信息化建設(shè)的推進(jìn),高校的教學(xué)信息系統(tǒng)數(shù)據(jù)存儲(chǔ)量日益增大。用戶通常只是在信息系統(tǒng)上進(jìn)行錄入、匯總、查詢等一些簡(jiǎn)單的業(yè)務(wù)處理,大多沒有意識(shí)到海量數(shù)據(jù)背后的價(jià)值,也沒有充分發(fā)掘海量教務(wù)數(shù)據(jù)中蘊(yùn)含的大量潛在的有用規(guī)律為教學(xué)決策提供依據(jù)。本文運(yùn)用數(shù)據(jù)挖掘技術(shù),對(duì)大學(xué)成績(jī)數(shù)據(jù)進(jìn)行挖掘,分析大學(xué)成績(jī)之間的關(guān)聯(lián)規(guī)則,對(duì)教學(xué)決策和教學(xué)安排提供有效的理論支持。
1 基于改進(jìn)Apriori算法的大學(xué)成績(jī)分析模型
1.1 Apriori算法在大學(xué)成績(jī)分析中的局限性
Apriori算法是一種經(jīng)典的布爾型關(guān)聯(lián)規(guī)則算法。該算法通過多次逐層搜索數(shù)據(jù)庫中數(shù)據(jù)集,利用頻繁項(xiàng)集的先驗(yàn)知識(shí)對(duì)候選集進(jìn)行剪枝,并對(duì)產(chǎn)生頻繁項(xiàng)集進(jìn)行多次迭代,直到數(shù)據(jù)集中沒有頻繁集的方法。Apriori算法比較復(fù)雜且有一定局限性,主要體現(xiàn)在以下幾個(gè)方面:
(1)降低支持度閾值通常將會(huì)導(dǎo)致更多的項(xiàng)集是頻繁的,這給算法的計(jì)算復(fù)雜度帶來很不利影響。因?yàn)楸仨毊a(chǎn)生更多候選項(xiàng)集并對(duì)其計(jì)數(shù),同時(shí)頻繁項(xiàng)集最大長度增加,算法需要掃描次數(shù)也將增多。
(2)Apriori算法計(jì)算項(xiàng)集的支持度需要反復(fù)掃描數(shù)據(jù)集,所以隨著事務(wù)數(shù)增加,它的運(yùn)行時(shí)間增加。
(3)隨著項(xiàng)數(shù)的增加,需要更多的空間來存儲(chǔ)項(xiàng)的支持度計(jì)數(shù)。如果頻繁集的數(shù)目更多,產(chǎn)生候選集更多,增加計(jì)算量和I/O開銷。
(4)候選剪枝方法增加計(jì)算量。
(5)在現(xiàn)實(shí)中數(shù)據(jù)挖掘中,置信度并不一定能體現(xiàn)規(guī)則的可信度,即置信度的高低不代表規(guī)則的可信賴的高低,因?yàn)樗雎粤艘?guī)則后件中項(xiàng)集的支持度。
1.2 改進(jìn)的Apriori算法
基于Apriori算法的局限性,結(jié)合大學(xué)成績(jī)分析的要求本文做了兩個(gè)改進(jìn):
1.2.1 新的剪枝方法
采用一種新的方法改進(jìn)候選產(chǎn)生與剪枝,減少計(jì)算量和重復(fù)掃描數(shù)據(jù)庫的次數(shù)。在apriori_gen函數(shù)中候選項(xiàng)集的產(chǎn)生過程中合并一對(duì)頻繁(k-1)-項(xiàng)集(僅當(dāng)它們的前k-2個(gè)項(xiàng)相同)。在候選項(xiàng)集的剪枝時(shí)運(yùn)用頻繁集的先驗(yàn)原理,確保它的子集都是頻繁集,否則立即剪枝。
1.2.2 以提升率代替置信度
基于上述置信度的局限性,本文中運(yùn)用用提升率來代替置信度以確保規(guī)則的可信度。提升率是規(guī)則的置信度和規(guī)則后件中項(xiàng)集的支持度之間的比率,計(jì)算公式如下:
當(dāng)Lift(X→Y)>1時(shí),表示X對(duì)Y有誘導(dǎo)作用,即X與Y正相關(guān),提升率越高正相關(guān)程度就越大;
當(dāng)Lift(X→Y)=1時(shí),表示X與Y相互獨(dú)立,沒有相關(guān)性;
當(dāng)Lift(X→Y)<1時(shí),表示X對(duì)Y有抑制作用,即X與Y負(fù)相關(guān),提升率越高負(fù)相關(guān)程度就越大。
1.3 基于改進(jìn)Apriori算法的大學(xué)成績(jī)分析模型的構(gòu)建
采用改進(jìn)后的Apriori算法,在 Modeler中建立大學(xué)成績(jī)關(guān)聯(lián)規(guī)則分析模型。模型的建立流程如圖1所示。
“數(shù)據(jù)”節(jié)點(diǎn):基于數(shù)據(jù)導(dǎo)出的格式,本文選用.xls。
“類型”節(jié)點(diǎn):讀取數(shù)據(jù)的類型,設(shè)置數(shù)據(jù)的輸入和輸出方向。
“填充”節(jié)點(diǎn):對(duì)于數(shù)據(jù)的缺失值,根據(jù)數(shù)據(jù)的格式,進(jìn)行數(shù)據(jù)填充,可以是0或NULL。
“過濾”節(jié)點(diǎn):過濾與分析對(duì)象不一致的字段。
“Apriori”節(jié)點(diǎn):是分析算法模型,可以直接設(shè)置最小支持度和最小置信度。
2 實(shí)證研究
2.1 數(shù)據(jù)的來源
本文大學(xué)生成績(jī)數(shù)據(jù)來源于某大學(xué)教務(wù)信息系統(tǒng)。通過SQL連接查詢,得到“學(xué)期”、“班級(jí)名稱”、“學(xué)號(hào)”、“課程名稱”、“課程性質(zhì)”、“課程平臺(tái)名稱”、“考試方式”、“總評(píng)成績(jī)”10個(gè)字段的2008-2012級(jí)信管專業(yè)所有學(xué)生的15684條記錄,導(dǎo)出到Excel。
2.2 數(shù)據(jù)預(yù)處理
2.2.1 數(shù)據(jù)清洗
首先,運(yùn)用Excel自動(dòng)篩選,將“課程性質(zhì)”為“素質(zhì)課”的記錄全部刪除;然后,對(duì)全部記錄進(jìn)行排序:主要關(guān)鍵字“學(xué)號(hào)”,第二關(guān)鍵字“課程名稱”,第三關(guān)鍵字“總評(píng)成績(jī)”;再后,根據(jù)“學(xué)期”,“總評(píng)成績(jī)”保留首考成績(jī)。
2.2.2 數(shù)據(jù)離散化
初步清洗過的數(shù)據(jù)是考試課100制數(shù)值型、CET考試710分制數(shù)值型、考查課{“優(yōu)秀”,“良好”,“中等”,“及格”,“不及格”}離散型。運(yùn)用下述規(guī)則將數(shù)據(jù)進(jìn)行離散化:
(1)課程性質(zhì):“必修課”→1、“選修課”→2;
(2)考試方式:“考試”→1、“考查”→2;
(3)考試課成績(jī):[90,100]→5、[80,90)→4、[70,80)→3、[60,70)→2、[0,60)→1;
(4)考查課成績(jī):“優(yōu)秀”→5、“良好”→4、“中等”→3、“及格”→2、“不及格”→1;
(5)CET成績(jī):[0,425)→1、[425,500)→2、[500,750]→3.
經(jīng)過處理后得到離散化的學(xué)生成績(jī)信息表,如表1所示。
2.2.3 數(shù)據(jù)布爾化
在Modeler中建立布爾化操作流,運(yùn)行操作流,將學(xué)生成績(jī)信息布爾化數(shù)據(jù)導(dǎo)出為.xls文件。
2.3 建立挖掘模型
根據(jù)上述流程,根據(jù)具體的大學(xué)成績(jī)分析要求,在Modeler中建立數(shù)據(jù)分析流模型,如圖2所示。
設(shè)置相關(guān)參數(shù),運(yùn)行模型,即得出分析結(jié)果。如對(duì)專業(yè)課程成績(jī)之間的關(guān)聯(lián)分析,設(shè)置參數(shù)最小支持度為0.38,最小置信度為0.5,提升度為1,規(guī)則數(shù)為30。運(yùn)行模型,就會(huì)得到各門專業(yè)課程間的關(guān)聯(lián)的分析數(shù)據(jù),如表3所示。
4 結(jié)論分析
本文針對(duì)某大學(xué)信管專業(yè)學(xué)生成績(jī)作了6組關(guān)聯(lián)規(guī)則度的分析,即考核方式與課程成績(jī)的關(guān)聯(lián)分析、課程性質(zhì)方式與課程成績(jī)的關(guān)聯(lián)分析、全部課程分析關(guān)聯(lián)、公共基礎(chǔ)課程的關(guān)聯(lián)分析、基礎(chǔ)專業(yè)課程的關(guān)聯(lián)分析、專業(yè)課程的關(guān)聯(lián)分析。通過上述方法建立并運(yùn)行分析模型得到以下分析結(jié)論:
(1)考核方式、課程性質(zhì)對(duì)成績(jī)沒有顯著影響;
(2)課程之間關(guān)聯(lián)規(guī)則
①毛澤東思想→馬克思主義哲學(xué)原理;
②統(tǒng)計(jì)學(xué)→宏觀經(jīng)濟(jì)學(xué);
③大學(xué)計(jì)算機(jī)→軟件工程→畢業(yè)實(shí)習(xí);
④大學(xué)計(jì)算機(jī)→軟件工程→信息系統(tǒng)開發(fā)環(huán)境與工具→Web程序開發(fā)→管理信息系統(tǒng)→電子商務(wù)專業(yè)英語→畢業(yè)實(shí)習(xí)→畢業(yè)論文;
⑤管理學(xué)基礎(chǔ)→市場(chǎng)營銷學(xué)→電子商務(wù);
⑥大學(xué)英語均值→CET-4;
⑦大學(xué)英語均值→電子商務(wù)專業(yè)英語;
⑧向?qū)ο蟪绦蛟O(shè)計(jì)→ASP程序設(shè)計(jì);
⑨操作系統(tǒng)→操作系統(tǒng)課程設(shè)計(jì)→軟件工程;
⑩面向?qū)ο蟮某绦蛟O(shè)計(jì)→軟件工程。
4 結(jié)束語
本文改進(jìn)了Apriori分析模型來提升大學(xué)成績(jī)分析的運(yùn)算效率和過濾高置信度卻虛假的規(guī)則,并運(yùn)用數(shù)據(jù)挖掘工具IBM SPSS Modeler 建立了大學(xué)成績(jī)關(guān)聯(lián)規(guī)則分析模型。本研究對(duì)大學(xué)的教學(xué)部門深度挖掘大學(xué)成績(jī)背后隱含的信息,對(duì)于教學(xué)安排、教學(xué)決策和教學(xué)改革具有較強(qiáng)的指導(dǎo)意義。
參考文獻(xiàn)
[1]樊同科,孫姜燕.基于數(shù)據(jù)挖掘的高校學(xué)生學(xué)習(xí)成績(jī)分析應(yīng)用研究[J].計(jì)算機(jī)與現(xiàn)代化,2013(03):82-84.
[2]Chin-Ag Wu,Wen-Yang Lin,Chang-Long Gangli-a et al.Toward intelligent data warehouse min-ing:An ontology-integrated approach for culti-dimensional association mining[J].Expert Systems with Application,2011,38(09):11011-11023.
[3]Med hat H A Awadalla1,A.S.G.E.,Aggregate Func-tion Based Enhanced Apriori Algorithm for Mining Association Rules.IJCSI,2012,9(03).
[4]馬占欣,王新社,黃維通,等.對(duì)最小置信度門限的置疑[J].計(jì)算機(jī)科學(xué),2007(06):216-218.
[5]劉以安,羊斌.關(guān)聯(lián)規(guī)則挖掘中對(duì)Apriori算法的一種改進(jìn)研究[J].計(jì)算機(jī)應(yīng)用,2007(02):418-420.
[6]劉華婷,郭仁祥,姜浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2009(01):146-149.