基于改進(jìn)Apriori算法的大學(xué)成績(jī)關(guān)聯(lián)規(guī)則

2017-05-10 16:21:26陳甲華

電子技術(shù)與軟件工程 2017年8期

陳甲華

摘要

大學(xué)教學(xué)信息系統(tǒng)數(shù)據(jù)中隱藏著大量有潛在價(jià)值的信息。利用數(shù)據(jù)挖掘技術(shù)對(duì)大學(xué)教務(wù)系統(tǒng)的海量數(shù)據(jù)進(jìn)行分析，發(fā)掘出對(duì)教學(xué)有利的規(guī)律和因素，對(duì)大學(xué)的教學(xué)改革和教學(xué)研究有著重要的意義。本文提出一種改進(jìn)的Apriori關(guān)聯(lián)規(guī)則分析算法來提高大學(xué)成績(jī)分析的效率和規(guī)則的可信性；并通過數(shù)據(jù)挖掘工具IBM SPSS Modeler建立了大學(xué)成績(jī)關(guān)聯(lián)規(guī)則分析模型；最后，以某大學(xué)信管專業(yè)2008-2012級(jí)全部學(xué)生的課程成績(jī)數(shù)據(jù)進(jìn)行實(shí)證研究。

【關(guān)鍵詞】數(shù)據(jù)挖掘大學(xué)成績(jī)關(guān)聯(lián)規(guī)則Apriori算法

隨著高校信息化建設(shè)的推進(jìn)，高校的教學(xué)信息系統(tǒng)數(shù)據(jù)存儲(chǔ)量日益增大。用戶通常只是在信息系統(tǒng)上進(jìn)行錄入、匯總、查詢等一些簡(jiǎn)單的業(yè)務(wù)處理，大多沒有意識(shí)到海量數(shù)據(jù)背后的價(jià)值，也沒有充分發(fā)掘海量教務(wù)數(shù)據(jù)中蘊(yùn)含的大量潛在的有用規(guī)律為教學(xué)決策提供依據(jù)。本文運(yùn)用數(shù)據(jù)挖掘技術(shù)，對(duì)大學(xué)成績(jī)數(shù)據(jù)進(jìn)行挖掘，分析大學(xué)成績(jī)之間的關(guān)聯(lián)規(guī)則，對(duì)教學(xué)決策和教學(xué)安排提供有效的理論支持。

1 基于改進(jìn)Apriori算法的大學(xué)成績(jī)分析模型

1.1 Apriori算法在大學(xué)成績(jī)分析中的局限性

Apriori算法是一種經(jīng)典的布爾型關(guān)聯(lián)規(guī)則算法。該算法通過多次逐層搜索數(shù)據(jù)庫中數(shù)據(jù)集，利用頻繁項(xiàng)集的先驗(yàn)知識(shí)對(duì)候選集進(jìn)行剪枝，并對(duì)產(chǎn)生頻繁項(xiàng)集進(jìn)行多次迭代，直到數(shù)據(jù)集中沒有頻繁集的方法。Apriori算法比較復(fù)雜且有一定局限性，主要體現(xiàn)在以下幾個(gè)方面：

（1）降低支持度閾值通常將會(huì)導(dǎo)致更多的項(xiàng)集是頻繁的，這給算法的計(jì)算復(fù)雜度帶來很不利影響。因?yàn)楸仨毊a(chǎn)生更多候選項(xiàng)集并對(duì)其計(jì)數(shù)，同時(shí)頻繁項(xiàng)集最大長度增加，算法需要掃描次數(shù)也將增多。

（2）Apriori算法計(jì)算項(xiàng)集的支持度需要反復(fù)掃描數(shù)據(jù)集，所以隨著事務(wù)數(shù)增加，它的運(yùn)行時(shí)間增加。

（3）隨著項(xiàng)數(shù)的增加，需要更多的空間來存儲(chǔ)項(xiàng)的支持度計(jì)數(shù)。如果頻繁集的數(shù)目更多，產(chǎn)生候選集更多，增加計(jì)算量和I/O開銷。

（4）候選剪枝方法增加計(jì)算量。

（5）在現(xiàn)實(shí)中數(shù)據(jù)挖掘中，置信度并不一定能體現(xiàn)規(guī)則的可信度，即置信度的高低不代表規(guī)則的可信賴的高低，因?yàn)樗雎粤艘?guī)則后件中項(xiàng)集的支持度。

1.2 改進(jìn)的Apriori算法

基于Apriori算法的局限性，結(jié)合大學(xué)成績(jī)分析的要求本文做了兩個(gè)改進(jìn)：

1.2.1 新的剪枝方法

采用一種新的方法改進(jìn)候選產(chǎn)生與剪枝，減少計(jì)算量和重復(fù)掃描數(shù)據(jù)庫的次數(shù)。在apriori_gen函數(shù)中候選項(xiàng)集的產(chǎn)生過程中合并一對(duì)頻繁（k-1）-項(xiàng)集（僅當(dāng)它們的前k-2個(gè)項(xiàng)相同）。在候選項(xiàng)集的剪枝時(shí)運(yùn)用頻繁集的先驗(yàn)原理，確保它的子集都是頻繁集，否則立即剪枝。

1.2.2 以提升率代替置信度

基于上述置信度的局限性，本文中運(yùn)用用提升率來代替置信度以確保規(guī)則的可信度。提升率是規(guī)則的置信度和規(guī)則后件中項(xiàng)集的支持度之間的比率，計(jì)算公式如下：

當(dāng)Lift（X→Y）>1時(shí)，表示X對(duì)Y有誘導(dǎo)作用，即X與Y正相關(guān)，提升率越高正相關(guān)程度就越大；

當(dāng)Lift（X→Y）=1時(shí)，表示X與Y相互獨(dú)立，沒有相關(guān)性；

當(dāng)Lift（X→Y）<1時(shí)，表示X對(duì)Y有抑制作用，即X與Y負(fù)相關(guān)，提升率越高負(fù)相關(guān)程度就越大。

1.3 基于改進(jìn)Apriori算法的大學(xué)成績(jī)分析模型的構(gòu)建

采用改進(jìn)后的Apriori算法，在 Modeler中建立大學(xué)成績(jī)關(guān)聯(lián)規(guī)則分析模型。模型的建立流程如圖1所示。

“數(shù)據(jù)”節(jié)點(diǎn)：基于數(shù)據(jù)導(dǎo)出的格式，本文選用.xls。

“類型”節(jié)點(diǎn)：讀取數(shù)據(jù)的類型，設(shè)置數(shù)據(jù)的輸入和輸出方向。

“填充”節(jié)點(diǎn)：對(duì)于數(shù)據(jù)的缺失值，根據(jù)數(shù)據(jù)的格式，進(jìn)行數(shù)據(jù)填充，可以是0或NULL。

“過濾”節(jié)點(diǎn)：過濾與分析對(duì)象不一致的字段。

“Apriori”節(jié)點(diǎn)：是分析算法模型，可以直接設(shè)置最小支持度和最小置信度。

2 實(shí)證研究

2.1 數(shù)據(jù)的來源

本文大學(xué)生成績(jī)數(shù)據(jù)來源于某大學(xué)教務(wù)信息系統(tǒng)。通過SQL連接查詢，得到“學(xué)期”、“班級(jí)名稱”、“學(xué)號(hào)”、“課程名稱”、“課程性質(zhì)”、“課程平臺(tái)名稱”、“考試方式”、“總評(píng)成績(jī)”10個(gè)字段的2008-2012級(jí)信管專業(yè)所有學(xué)生的15684條記錄，導(dǎo)出到Excel。

2.2 數(shù)據(jù)預(yù)處理

2.2.1 數(shù)據(jù)清洗

首先，運(yùn)用Excel自動(dòng)篩選，將“課程性質(zhì)”為“素質(zhì)課”的記錄全部刪除；然后，對(duì)全部記錄進(jìn)行排序：主要關(guān)鍵字“學(xué)號(hào)”，第二關(guān)鍵字“課程名稱”，第三關(guān)鍵字“總評(píng)成績(jī)”；再后，根據(jù)“學(xué)期”，“總評(píng)成績(jī)”保留首考成績(jī)。

2.2.2 數(shù)據(jù)離散化

初步清洗過的數(shù)據(jù)是考試課100制數(shù)值型、CET考試710分制數(shù)值型、考查課{“優(yōu)秀”，“良好”，“中等”，“及格”，“不及格”}離散型。運(yùn)用下述規(guī)則將數(shù)據(jù)進(jìn)行離散化：

（1）課程性質(zhì)：“必修課”→1、“選修課”→2；

（2）考試方式：“考試”→1、“考查”→2；

（3）考試課成績(jī)：[90，100]→5、[80，90）→4、[70，80）→3、[60，70）→2、[0，60）→1；

（4）考查課成績(jī)：“優(yōu)秀”→5、“良好”→4、“中等”→3、“及格”→2、“不及格”→1；

（5）CET成績(jī)：[0，425）→1、[425，500）→2、[500，750]→3.

經(jīng)過處理后得到離散化的學(xué)生成績(jī)信息表，如表1所示。

2.2.3 數(shù)據(jù)布爾化

在Modeler中建立布爾化操作流，運(yùn)行操作流，將學(xué)生成績(jī)信息布爾化數(shù)據(jù)導(dǎo)出為.xls文件。

2.3 建立挖掘模型

根據(jù)上述流程，根據(jù)具體的大學(xué)成績(jī)分析要求，在Modeler中建立數(shù)據(jù)分析流模型，如圖2所示。

設(shè)置相關(guān)參數(shù)，運(yùn)行模型，即得出分析結(jié)果。如對(duì)專業(yè)課程成績(jī)之間的關(guān)聯(lián)分析，設(shè)置參數(shù)最小支持度為0.38，最小置信度為0.5，提升度為1，規(guī)則數(shù)為30。運(yùn)行模型，就會(huì)得到各門專業(yè)課程間的關(guān)聯(lián)的分析數(shù)據(jù)，如表3所示。

4 結(jié)論分析

本文針對(duì)某大學(xué)信管專業(yè)學(xué)生成績(jī)作了6組關(guān)聯(lián)規(guī)則度的分析，即考核方式與課程成績(jī)的關(guān)聯(lián)分析、課程性質(zhì)方式與課程成績(jī)的關(guān)聯(lián)分析、全部課程分析關(guān)聯(lián)、公共基礎(chǔ)課程的關(guān)聯(lián)分析、基礎(chǔ)專業(yè)課程的關(guān)聯(lián)分析、專業(yè)課程的關(guān)聯(lián)分析。通過上述方法建立并運(yùn)行分析模型得到以下分析結(jié)論：

（1）考核方式、課程性質(zhì)對(duì)成績(jī)沒有顯著影響；

（2）課程之間關(guān)聯(lián)規(guī)則

①毛澤東思想→馬克思主義哲學(xué)原理；

②統(tǒng)計(jì)學(xué)→宏觀經(jīng)濟(jì)學(xué)；

③大學(xué)計(jì)算機(jī)→軟件工程→畢業(yè)實(shí)習(xí)；

④大學(xué)計(jì)算機(jī)→軟件工程→信息系統(tǒng)開發(fā)環(huán)境與工具→Web程序開發(fā)→管理信息系統(tǒng)→電子商務(wù)專業(yè)英語→畢業(yè)實(shí)習(xí)→畢業(yè)論文；

⑤管理學(xué)基礎(chǔ)→市場(chǎng)營銷學(xué)→電子商務(wù)；

⑥大學(xué)英語均值→CET-4；

⑦大學(xué)英語均值→電子商務(wù)專業(yè)英語；

⑧向?qū)ο蟪绦蛟O(shè)計(jì)→ASP程序設(shè)計(jì)；

⑨操作系統(tǒng)→操作系統(tǒng)課程設(shè)計(jì)→軟件工程；

⑩面向?qū)ο蟮某绦蛟O(shè)計(jì)→軟件工程。

4 結(jié)束語

本文改進(jìn)了Apriori分析模型來提升大學(xué)成績(jī)分析的運(yùn)算效率和過濾高置信度卻虛假的規(guī)則，并運(yùn)用數(shù)據(jù)挖掘工具IBM SPSS Modeler 建立了大學(xué)成績(jī)關(guān)聯(lián)規(guī)則分析模型。本研究對(duì)大學(xué)的教學(xué)部門深度挖掘大學(xué)成績(jī)背后隱含的信息，對(duì)于教學(xué)安排、教學(xué)決策和教學(xué)改革具有較強(qiáng)的指導(dǎo)意義。

參考文獻(xiàn)

[1]樊同科，孫姜燕.基于數(shù)據(jù)挖掘的高校學(xué)生學(xué)習(xí)成績(jī)分析應(yīng)用研究[J].計(jì)算機(jī)與現(xiàn)代化，2013（03）：82-84.

[2]Chin-Ag Wu，Wen-Yang Lin，Chang-Long Gangli-a et al.Toward intelligent data warehouse min-ing：An ontology-integrated approach for culti-dimensional association mining[J].Expert Systems with Application，2011，38（09）：11011-11023.

[3]Med hat H A Awadalla1，A.S.G.E.，Aggregate Func-tion Based Enhanced Apriori Algorithm for Mining Association Rules.IJCSI，2012，9（03）.

[4]馬占欣，王新社，黃維通，等.對(duì)最小置信度門限的置疑[J].計(jì)算機(jī)科學(xué)，2007（06）：216-218.

[5]劉以安，羊斌.關(guān)聯(lián)規(guī)則挖掘中對(duì)Apriori算法的一種改進(jìn)研究[J].計(jì)算機(jī)應(yīng)用，2007（02）：418-420.

[6]劉華婷，郭仁祥，姜浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件，2009（01）：146-149.