999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進的關聯規則算法在學生CET4成績中的應用

2013-07-17 01:54:26陳偉
赤峰學院學報·自然科學版 2013年18期
關鍵詞:關聯規則學生

陳偉

(淮南聯合大學計算機系,安徽淮南232038)

改進的關聯規則算法在學生CET4成績中的應用

陳偉

(淮南聯合大學計算機系,安徽淮南232038)

英語四級成績(CET-4)是衡量大學英語教學水平和大學生英語水平的一把尺子,對大學英語四級成績及其影響因素進行分析將有利于解決學生英語學習中存在的問題,提高英語教學質量及大學生的綜合素質.文章利用關聯規則挖掘算法——Apriori算法并進行改進對學生CET4成績數據中的各個部分進行了分析,為指導教學和深層次的理論研究提供了客觀、有效的決策依據.

關聯規則;Apriori算法;頻繁項集;CET4

1 關聯規則的簡單描述

關聯規則的概念由Agrawal,Imielinski,Swami提出,是數據中很實用的規則,它是數據挖掘的主要技術之一.關聯規則的挖掘一般分為以下兩個過程:

(1)尋找所有的頻繁項集,依據定義,每一個出現的項集的頻繁性要與預定義的最小支持計數min_sup一樣.

(2)由頻繁項集產生強關聯規則:根據定義,這些規則必須滿足最小支持度和最小置信度.

在以上兩個步驟中,由于第二步的開銷遠遠低于第一步,所以挖掘關聯規則的總體性能由第一步決定[1].

2 改進的Apriori算法

關聯規則挖掘最著名、最有影響的算法是Apriori算法,它是使用候選項集產生發現頻繁項集.算法中主要進行這樣兩個操作:為找LK,通過將LK-1與自身連接產生候選K項集的集合,即連接步;根據Apriori性質,任何非頻繁的K-1項集都不是頻繁K項集的子集.因此,如果候選K項集的K-1項子集不在LK-1中,則該候選項集也不可能是頻繁的,即剪枝步.假定事務數據庫中各記錄的項目均已按字典排序.可以利用項集之間有序的特點,從減少算法中這兩個操作的執行次數的角度來達到優化算法的目的.

2.1 減少連接步驟的執行次數的算法:

2.2 減少剪枝步驟的執行次數算法:

3 改進算法的應用

以下以某高校教務系統中的學生CET4成績為研究數據.

3.1 首先將學生CET4.XLS文件導入到VFP中,建立相應的學生成績數據庫文件;

3.2 對現有數據的情況進行數據預處理.數據預處理包括數據清理、數據集成、數據變換、數據歸約、數據離散化.這里主要進行以下處理:

3.2.1 數據清理:填寫空缺的值,平滑有噪聲的數據,識別、刪除孤立點.數據預處理1后的圖為成績視圖1.總計7646條記錄.

圖1 成績視圖1

3.2.2 數據變換:主要對數據進行規格化操作.對CET4的各個組成部分的分值進行處理,其分值分配為:總分710,聽力分數249,閱讀分數249,寫作分數142,綜合測試分70,首先把分數轉換算為百分制,見成績視圖2.

圖2 成績視圖2

3.2.3 數據歸約:通過數據規約可以得到數據集的簡化表示,它小得多,但能夠產生同樣的(或幾乎同樣的)分析結果.規定分值分布情況如下:60分以下為“1”,60-70之間為“2”,70-80之間的為“3”,80-85之間的為“4”,大于85的為“5”;為了分析方便,總分用“Z”代表,聽力分數用“T”代表,閱讀分數用“Y”代表,寫作分數用“X”代表,綜合測試分數用“ZH”代表.預處理后的圖為成績視圖3.由于改進算法的需要,把成績表進行重新排序,見成績視圖4.

3.3 設計算法

圖3 成績視圖3

圖4 成績視圖4

3.3.1 求解頻繁項集

3.3.1.1 我們要研究的事務數據庫是圖4的成績表3.DBF.

3.3.1.2 建立一個項目數據表ITEM.DBF,見圖5.

3.3.1.3 建立六個空數據表,分別用來存放1、2、3、4、5頻繁項集和它們的支持度計數.

3.3.1.4 產生一個輔助數據表,該表中只有一個字段,數據類型為字符型,記錄數與成績表3相同,數據為z+t+y+x+zh的值.

圖5

在該程序中我們運用了改進后的Apriori算法,大大減少了循環次數,提高了效率[5,6].

如果希望研究的規則中能夠有中等的同學,那么最小支持度就要設定得很小,這樣產生的頻繁項集很多,同樣關聯規則也很多.基于以上情況我們設定最小支持度為0.06,支持度計數為459,產生了81個頻繁項集.下面為部分實驗結果:

3.3.2 提取關聯規則

假設最小置信度為70%,由程序得出242個關聯規則.部分實驗結果如下:

4 算法應用結果

4.1 CET4成績四個部分中聽力和閱讀是影響總分最大的兩個因素.綜合測試與其他三項的關系相對較低.

4.2 在四個組成部分中,從與總分的關系來看,聽力是最突出的.

4.3 還有一點通過索引排序觀察就能得到的結論是女生與男生的成績存在差異,從我們日常生活中很容易發現,男生與女生對英語的重視和喜愛程度是不一樣的,普遍情況是女生優于男生.

5 總結

總之,影響英語四級考試成績的因素是多方面的.通過實驗得出的分析結果能夠對該門課程的教學提供一定的理論依據.

〔1〕陳文偉,黃金才,等.數據倉庫與數據挖掘[M].北京:人民郵電出版社,2004.

〔2〕陳偉.數據挖掘技術在學生成績管理中的應用[D].安徽大學,2008.

〔3〕陳偉.Apriori算法的優化方法[J].計算機技術與發展,2009,19(6):82-83.

〔4〕R.Agrawal,T.Im ielinski.and A.Swam i.M ining association rules between sets of items in large databases.Proceedings of the ACM SIGMOD Conference on Management of data(ACM SIGMOD’93)[C].Washington.USA,1993:207一216.

〔5〕羅可.一種用Visual Foxpro求頻繁項目集的方法[J].計算機工程,2001,27(5):36-37.

〔6〕朱玉全,孫志揮.一種有效的關聯規則增量式更新算法[J].計算機工程與應用,2001(23):28-30.

TP311

A

1673-260X(2013)09-0031-03

2011年安徽省淮南聯合大學校級科研項目(LYB1112)

猜你喜歡
關聯規則學生
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
趕不走的學生
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
學生寫話
學生寫的話
主站蜘蛛池模板: 蜜臀AV在线播放| 国产丝袜91| 欧美三级自拍| 亚洲欧美不卡| 国产三级毛片| 天天色天天综合| 波多野结衣中文字幕一区| 国产成人高清精品免费5388| 在线色国产| 国产日韩av在线播放| 精品伊人久久大香线蕉网站| 亚洲色图欧美| 亚洲AV一二三区无码AV蜜桃| 久精品色妇丰满人妻| 国产黄色爱视频| 一区二区在线视频免费观看| 久久精品丝袜高跟鞋| 欧美在线观看不卡| 91娇喘视频| 老熟妇喷水一区二区三区| 国产精品观看视频免费完整版| 国产毛片一区| 亚洲va在线观看| 国产18页| 国产日韩丝袜一二三区| 国产精品福利导航| 午夜视频免费试看| 免费国产小视频在线观看| 国产99视频精品免费视频7 | 成人精品视频一区二区在线| 婷婷色一区二区三区| 亚洲综合色婷婷中文字幕| 亚洲欧美一区在线| 青青草国产精品久久久久| 日韩 欧美 小说 综合网 另类| 无码aaa视频| 黄色免费在线网址| 日韩欧美中文字幕在线精品| 8090成人午夜精品| 成人免费视频一区| 国产在线无码一区二区三区| 91青青视频| 99热精品久久| 精品无码国产一区二区三区AV| 人妻少妇久久久久久97人妻| 亚洲国产综合精品一区| 日本人妻丰满熟妇区| 国产无码精品在线播放| 无遮挡国产高潮视频免费观看| 中文字幕va| 中文字幕无码制服中字| 四虎在线观看视频高清无码| 国产成人无码综合亚洲日韩不卡| 亚洲高清在线天堂精品| 欧美精品1区2区| 国产精品成人第一区| 国产日韩丝袜一二三区| 色婷婷亚洲综合五月| 91娇喘视频| 国产精品蜜臀| 一边摸一边做爽的视频17国产| 久久男人资源站| 欧美在线三级| 毛片免费视频| 亚洲高清无码久久久| 欧美色图久久| 亚洲AV无码一区二区三区牲色| 亚洲h视频在线| 亚洲欧美日韩视频一区| 中文字幕2区| 久久精品亚洲热综合一区二区| 亚洲 欧美 偷自乱 图片| 亚洲全网成人资源在线观看| 2019国产在线| 亚洲欧美国产五月天综合| 国产超碰在线观看| 欧美亚洲欧美区| 久草视频精品| 亚洲国产天堂久久九九九| 国产三级毛片| 亚洲一区二区日韩欧美gif| 性69交片免费看|