改進的關聯規則算法在學生CET4成績中的應用

2013-07-17 01:54:26陳偉

赤峰學院學報·自然科學版 2013年18期

關鍵詞：關聯規則學生

陳偉

（淮南聯合大學計算機系，安徽淮南232038）

改進的關聯規則算法在學生CET4成績中的應用

陳偉

（淮南聯合大學計算機系，安徽淮南232038）

英語四級成績（CET-4）是衡量大學英語教學水平和大學生英語水平的一把尺子，對大學英語四級成績及其影響因素進行分析將有利于解決學生英語學習中存在的問題，提高英語教學質量及大學生的綜合素質.文章利用關聯規則挖掘算法——Apriori算法并進行改進對學生CET4成績數據中的各個部分進行了分析，為指導教學和深層次的理論研究提供了客觀、有效的決策依據.

關聯規則；Apriori算法；頻繁項集；CET4

1 關聯規則的簡單描述

關聯規則的概念由Agrawal,Imielinski,Swami提出，是數據中很實用的規則，它是數據挖掘的主要技術之一.關聯規則的挖掘一般分為以下兩個過程：

（1）尋找所有的頻繁項集，依據定義，每一個出現的項集的頻繁性要與預定義的最小支持計數min_sup一樣.

（2）由頻繁項集產生強關聯規則:根據定義，這些規則必須滿足最小支持度和最小置信度.

在以上兩個步驟中，由于第二步的開銷遠遠低于第一步，所以挖掘關聯規則的總體性能由第一步決定[1].

2 改進的Apriori算法

關聯規則挖掘最著名、最有影響的算法是Apriori算法，它是使用候選項集產生發現頻繁項集.算法中主要進行這樣兩個操作：為找LK，通過將LK-1與自身連接產生候選K項集的集合，即連接步；根據Apriori性質，任何非頻繁的K-1項集都不是頻繁K項集的子集.因此，如果候選K項集的K-1項子集不在LK-1中，則該候選項集也不可能是頻繁的，即剪枝步.假定事務數據庫中各記錄的項目均已按字典排序.可以利用項集之間有序的特點，從減少算法中這兩個操作的執行次數的角度來達到優化算法的目的.

2.1 減少連接步驟的執行次數的算法：

2.2 減少剪枝步驟的執行次數算法：

3 改進算法的應用

以下以某高校教務系統中的學生CET4成績為研究數據.

3.1 首先將學生CET4.XLS文件導入到VFP中，建立相應的學生成績數據庫文件；

3.2 對現有數據的情況進行數據預處理.數據預處理包括數據清理、數據集成、數據變換、數據歸約、數據離散化.這里主要進行以下處理：

3.2.1 數據清理：填寫空缺的值，平滑有噪聲的數據，識別、刪除孤立點.數據預處理1后的圖為成績視圖1.總計7646條記錄.

圖1 成績視圖1

3.2.2 數據變換：主要對數據進行規格化操作.對CET4的各個組成部分的分值進行處理，其分值分配為：總分710，聽力分數249，閱讀分數249，寫作分數142，綜合測試分70，首先把分數轉換算為百分制，見成績視圖2.

圖2 成績視圖2

3.2.3 數據歸約：通過數據規約可以得到數據集的簡化表示，它小得多，但能夠產生同樣的（或幾乎同樣的）分析結果.規定分值分布情況如下：60分以下為“1”，60-70之間為“2”，70-80之間的為“3”，80-85之間的為“4”，大于85的為“5”；為了分析方便，總分用“Z”代表，聽力分數用“T”代表，閱讀分數用“Y”代表，寫作分數用“X”代表，綜合測試分數用“ZH”代表.預處理后的圖為成績視圖3.由于改進算法的需要，把成績表進行重新排序，見成績視圖4.

3.3 設計算法

圖3 成績視圖3

圖4 成績視圖4

3.3.1 求解頻繁項集

3.3.1.1 我們要研究的事務數據庫是圖4的成績表3.DBF.

3.3.1.2 建立一個項目數據表ITEM.DBF，見圖5.

3.3.1.3 建立六個空數據表，分別用來存放1、2、3、4、5頻繁項集和它們的支持度計數.

3.3.1.4 產生一個輔助數據表，該表中只有一個字段，數據類型為字符型，記錄數與成績表3相同,數據為z+t+y+x+zh的值.

圖5

在該程序中我們運用了改進后的Apriori算法，大大減少了循環次數，提高了效率[5,6].

如果希望研究的規則中能夠有中等的同學，那么最小支持度就要設定得很小，這樣產生的頻繁項集很多，同樣關聯規則也很多.基于以上情況我們設定最小支持度為0.06，支持度計數為459，產生了81個頻繁項集.下面為部分實驗結果：

3.3.2 提取關聯規則

假設最小置信度為70%，由程序得出242個關聯規則.部分實驗結果如下：

4 算法應用結果

4.1 CET4成績四個部分中聽力和閱讀是影響總分最大的兩個因素.綜合測試與其他三項的關系相對較低.

4.2 在四個組成部分中，從與總分的關系來看，聽力是最突出的.

4.3 還有一點通過索引排序觀察就能得到的結論是女生與男生的成績存在差異，從我們日常生活中很容易發現，男生與女生對英語的重視和喜愛程度是不一樣的，普遍情況是女生優于男生.

5 總結

總之，影響英語四級考試成績的因素是多方面的.通過實驗得出的分析結果能夠對該門課程的教學提供一定的理論依據.

〔1〕陳文偉，黃金才，等.數據倉庫與數據挖掘[M].北京：人民郵電出版社，2004.

〔2〕陳偉.數據挖掘技術在學生成績管理中的應用[D].安徽大學，2008.

〔3〕陳偉.Apriori算法的優化方法[J].計算機技術與發展,2009，19(6)：82-83.

〔4〕R.Agrawal,T.Im ielinski.and A.Swam i.M ining association rules between sets of items in large databases.Proceedings of the ACM SIGMOD Conference on Management of data(ACM SIGMOD’93)[C].Washington.USA，1993:207一216.

〔5〕羅可.一種用Visual Foxpro求頻繁項目集的方法[J].計算機工程，2001，27(5)：36-37.

〔6〕朱玉全，孫志揮.一種有效的關聯規則增量式更新算法[J].計算機工程與應用，2001（23）：28-30.

TP311

1673-260X（2013）09-0031-03

2011年安徽省淮南聯合大學校級科研項目（LYB1112）