999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯規則挖掘技術的學生數據分析系統的設計與實現

2017-05-13 02:34:30宋麗萍韋建國
長沙大學學報 2017年2期
關鍵詞:數據挖掘關聯規則

宋麗萍,韋建國

(阜陽職業技術學院工程科技學院,安徽 阜陽 236000)

基于關聯規則挖掘技術的學生數據分析系統的設計與實現

宋麗萍,韋建國

(阜陽職業技術學院工程科技學院,安徽 阜陽 236000)

數據挖掘技術的發展,使高校積累的大規模的數據得到了很好的利用.數據挖掘有很多研究方向,關聯規則挖掘就是其中之一.對關聯規則挖掘算法Apriori算法進行了分析和優化,對比了優化Apriori算法與原算法的性能,結果表明,優化后算法效率顯著提高.基于Web技術和SQL Server2005,并采用優化的Apriori算法,設計并實現了一個學生數據分析系統;系統具有數據導入、數據預處理、數據挖掘等功能.

數據挖掘;關聯規則;Apriori算法;系統

近年來隨著高等學校擴招規模的進一步加大,國內各高校在校生人數不斷上升,這無疑給高校的教學和管理工作帶來新的挑戰,如同其他領域一樣,高校的教學和管理積累了大量的數據資源,比如教學、圖書檔案、招生就業、教學科研等.若能從這些累積的數據中挖掘出一些具有參考意義的信息,將有助于高校的教學和管理.本文以我校積累的大量學生數據為研究對象,對關聯規則算法Apriori算法進行優化,并利用優化的算法設計并實現了一個關聯規則挖掘系統.

1 關聯規則挖掘

數據挖掘是對有用的信息內容進行深層次的分析與挖掘,而關聯規則挖掘是非常重要的挖掘技術之一.關聯規則反映的是一個事物與其他事物之間的相互關聯性,如果事物之間存在有關聯規則,那么通過其他事物就能夠預測到其中一個事物[1].

2 關聯規則挖掘步驟

(1)設定最小支持度,在數據庫D中求出出現頻率高的頻繁項集;

(2)設定最小置信度,頻繁項集產生強關聯規則,產生的規則要滿足最小支持度和最小置信度[2].

3 Apriori算法

關聯規則挖掘的第一步是求頻繁項集,也是關鍵的一步,要提高挖掘算法的總體性能,就要從提高頻繁項集的效率入手.Apriori算法是眾多關聯規則挖掘算法中最經典且最具影響力的算法,該算法使用寬度優先的查找策略,基于候選項集來產生頻繁項集,由頻繁項集產生關聯規則[3].

① 設初始候選集C1,k=1;

②在Lk中計算出每一個項集的支持度,并篩選出支持度大于Smin的項集,形成頻繁項集Lk;

③ 如果Ck=θ,置L1={L1,L2,…,Lk}后終止,否則,對Lk的頻繁項集進行自然連接運算Lk??Lk,得項為k+l的候選集Ck+l;

④ 置k=k+1,轉步②.

而在其中有兩個重要步驟是最關鍵的,即為連接步和剪枝步.設k-1次掃描數據庫D產生大小為k-1的頻繁項集為Lk-1,從頻繁項集Lk-l產生所有項為k的候選項集.

連接步:通過Lk-l與自身連接得到一個項為k的候選項集集合Ck.連接的規則為:如果

{il1,il2,…,ilk-2,is}∈Lk-1,

{il1,il2,…,ilk-2,it}∈Lk-1,

{il1,il2,…ilk-2,is}??{il1,il2,…ilk-2,it}=

{il1,il2,…ilk-2,is,it}∈Lk,

項為k的候選集就是Ck=Lk-1??Lk-1.

剪枝步.剪枝步是從連接得到的候選集中剪去不會產生頻繁項集的候選項,形成新的候選集.設c∈Ck是k項集,若c的k-1個元素組成子集Ck-1,Ck-1不屬于Lk-1,則從Ck中將c剪除.

在Apriori算法中,執行過程是基于多次掃描事務數據庫來實現的,根據Apriori性質我們知道,頻繁項集的所有子集必須都是頻繁的.一旦從事務數據庫D中求出頻繁項集,由此產生的強關聯規則是直截了當的,對于置信度計算如下:其中條件概率用項集支持度計數表示:

Confidence(A→B)=P(A|B)=support-count(A∪B)/support-count(A)

其中:項集A∪B的事務數用support-count(A∪B)表示,項集A的事務數用support-count(A)表示.

4 Apriori算法的優化思想

Apriori算法雖然操作簡單但還存在一些缺點,因為每次產生候選項集都要掃描一遍事務數據庫D,因此數據量比較大時,產生的候選項集是比較龐大的,對于計算機的運行時間和空間是一種大的挑戰,另外每次尋找k頻繁項集,都需要掃描一遍數據庫,會產生很大的I/O負載.

在從候選項集產生頻繁項集的過程中,有這樣一個性質:一個項集如果是頻繁項集當且僅當它的所有的子集都是頻繁的.如果Ck中某個候選項集中有一個(k-1)-子集不屬于Lk-1,那么這個項集可以被修剪掉而不再被考慮,利用這種修剪策略來減小候選項集Ck的大小,可以顯著地改進生成所有頻繁項集算法的性能[4].

5 算法性能比較

為了比較算法優化前與優化后的性能,進行了數值實驗,首先給出一個進行實驗評估的數據庫:測試所用的數據來源于UCI數據集中的ThyroidDisease(甲狀腺疾病)數據庫,該數據庫有7200條記錄.實驗使用MATLAB7.0軟件,在CPU為2.4GMHz,內存為2G的計算機上完成的.

首先比較在最小支持度相同的情況下,規模不同的數據集挖掘的時間性能.此處將最小支持度設為10%,數據選取數據集中的前500條、1500條、4500條、7000條記錄,利用這些數據比較Apriori算法在優化前與優化后生成所有頻繁項集所用的時間.其比較結果如圖1所示:

圖1 相同最小支持度下的運算時間圖

從圖1可以看出,在不同規模的事務數據集下,優化后的Apriori算法所使用的運算時間均低于優化前的算法,這說明提高了運行效率,同時對于數據量比較小的數據庫,優化前與優化后的算法運算時間差距不是很明顯;但隨著數據量的增加,兩種算法的運算時間的差距越來越明顯.

再次比較在不同的最小支持度下生成頻繁項集的時間性能.數據采用數據集中全部的7200條記錄,設定最小支持度分別為1%,5%,10%,15%,20%.其比較結果如圖2所示.

圖2 不同最小支持度下的運算時間圖

圖2說明了在相同的數據規模和不同的最小支持度下優化的Apriori算法的執行時間都比原算法的時間短,優化的Apriori算法運行效率高于原Apriori算法.當最小支持度比較大時,優化前與優化后沒有明顯的區別,但當最小支持度較小時,優化的Apriori算法效率有明顯提高[5].

6 系統設計與實現

(1)系統的設計

本系統的設計目的主要有以下兩點:一是為高職學校的學生管理工作提供幫助,二是為高職學校學生的就業提供參考.本系統的設計是為了適應當前高職教育的發展以及就業發展而設計的分析系統模型[6].

在進行數據挖掘之前,我們需要建立一個行之有效的數據挖掘過程模型,而數據挖掘過程模型主要有兩種,一是Fayyad數據挖掘過程模型,二是CRISP-DM數據挖掘過程模型[7].本系統采用的是Fayyad數據挖掘過程模型,如圖3所示:

圖3 Fayyad數據挖掘過程

(2)系統的實現

系統挖掘所利用的學生數據信息來自多個部門,本系統主要是由DTS(DataTransformationServices)抽取出同構的或異構的學生數據信息,對于采集到的這些數據信息,利用DTS完成數據選擇,刪除無用的數據[8].

根據高職院校學生的特點,使用優化的Apriori算法,通過對最小支持度和最小置信度進行選擇后得到關聯規則結果.

系統基于Web技術和SQLServer2005開發完成的可視化的交互式程序界面,較容易集成,確保用戶在操作方面的簡單方便.

圖4 系統首頁

圖5 登錄系統后截圖

以下是本系統設計的主要功能模塊的功能介紹:

系統管理模塊.利用本模塊,用戶可以對設計的系統進行必要的管理操作.

學生信息管理模塊.利用此模塊,用戶能夠對學生的基本信息、學習成績、就業信息等進行查詢,還能進行添加、刪除、修改等必要的數據管理操作.

數據預處理模塊.本模塊可按照用戶設定的條件來選擇合適的數據預處理的方法,將大量的學生信息進行數據預處理的操作.比如數據信息的離散化、數據泛化等各項處理.

數據挖掘模塊.此功能模塊是本系統中最重要的一個模塊,利用本模塊可以進行關聯規則挖掘,挖掘出與相關專業學生就業聯系緊密的因素.

報表打印模塊.在實現信息查詢結束后,使用“打印報表”模塊,用戶可以對系統挖掘產生的各項學生信息進行直接打印.

(3)關聯規則挖掘實例

系統針對阜陽職業技術學院2010級護理專業學生數據進行處理和分析,數據表包括學生基本信息情況表、學生成績表、技能鑒定成績表、學生就業情況表,存儲了采集到的學生所有的信息數據,表中已經將缺考、休學學生的數據記錄已經去掉,形成了760條護理專業學生的有效記錄.進入學生信息分析系統后,單擊“數據預處理”這個按鈕,系統會自動進行數據的處理,包括對數據信息的離散化、數據泛化、缺失數據的填充、刪除冗余數據和成績的綜合處理等.在對數據進行預處理之后,就可以進行關聯規則挖掘了.挖掘需要設定最小支持度和最小置信度,設定的最小支持度值越高,挖掘出的相關的規則就越少,挖掘過程也就越快.點擊“關聯規則挖掘”按鈕, 進入“關聯規則挖掘”界面,在頁面中輸入最小支持度為20%、最小置信度為55%,經過挖掘后,得到的結果如圖6.

圖6 護理專業關聯規則挖掘結果

(4)關聯規則挖掘結果的驗證及預測

上面對護理專業的學生的就業數據進行了關聯規則挖掘,現在利用其中的部分關聯規則對我校2013年護理專業的畢業生的就業情況進行對比分析,并測驗我們得出的關聯規則用于預測的準確性.

①綜合測評分數高的學生的就業情況

圖7 綜合測評高的就業情況示意圖

圖8 獲獎學生的就業情況示意圖

在2013年畢業的760名護理專業的畢業生中,綜合測評成績高的有310名,其中有271名學生就業或升學,所占比例為87.42%,見圖7.這一數據比較符合以上采用的學生數據挖掘出來的規則:綜合測評 優良=> 就業、升學 64% 85%中的數據值85%,這一方面說明了我們挖掘出來的關聯規則的準確性,另一方面也說明了綜合測評成績好的學生更容易就業或升學.為了提高學生畢業以后就業的競爭力,學校就業部門應該針對性地多開一些與就業相關的活動或講座,如職業生涯規劃、面試技巧、就業指導課程等,也應對其進行相關技能的培養,以提高他們的綜合素質.

②獲獎學生的就業情況

在2013年的護理專業的畢業生中,人工統計出來的獲獎的有165名,其中有152名學生就業或升學,所占比例為92.12%,見圖8.這一數據也接近于以上采用的學生數據挖掘出來的結果:獲 獎 => 就業、升學 30% 91%中的數據值91%,這說明了獲獎的同學更受用人單位的歡迎,因此輔導員可以鼓勵更多的學生多參加一些校級、省級或國家級的信息技術大賽,多參加一些活動,讓更多的學生獲得獎項,以增強他們的就業能力,當然這些需要他們努力學習,掌握相應的技能才行.

通過以上的預測結果來看,雖然這個準確率并不能使人完全滿意,但是綜觀我國高職院校的研究現狀,這個準確率相對來說還是比較可靠的,這說明預測效果具有一定的可信度,可以作為高職院校教學和就業管理工作改革的參考.

7 小結

本文分析了數據挖掘之中經典的關聯規則挖掘算法Apriori算法的優缺點,并對其進行了優化,利用實驗驗證了該算法優化前與優化后在效率上的提高,并依此建立了適用于高職院校學生就業的數據挖掘模型.利用優化的Apriori算法實現了高職院校學生信息分析系統,同時選用我校護理專業的畢業生信息進行了關聯規則挖掘,并利用實際就業情況進行了預測驗證,說明了預測效果具有一定的可信度.這些證明了學生信息可以被挖掘并進行應用,但在選擇關聯規則挖掘算法和應用數據庫的規模方面還有待于進一步的改善.

[1]況莉莉.關聯規則在高校圖書館讀者數據處理中的應用研究[D].合肥:合肥工業大學碩士學位論文,2010.

[2]張婭妮.數據挖掘技術在就業指導中的應用研究[J].淮海工學院學報:自然科學版,2013,(2):32-34.

[3]宋麗萍.關聯規則挖掘在圖書館生態化建設中的應用[J].阜陽職業技術學院學報,2014,(2):26-27.

[4]王偉.關聯規則中的Aprioir算法的研究與改進[D].青島:中國海洋大學碩士學位論文,2012.

[5]麥丞程.基于Apriori算法的關聯規則挖掘系統設計與實現「J].電腦編程技巧與應用,2015,(11):33-35.

[6]齊金鵬.數據挖掘模型可視化研究與其應用實例[D].吉林:吉林大學碩士學位論文,2004.

[7]劉木林,朱慶華.基于Hadoop的關聯規則挖掘算法研究——以Apriori算法為例[J].計算機技術與發展,2016,(7):2-5.

[8]陳海宇,郭曉偉.數據挖掘在高職院校就業指導中的應用研究[J].湖南工程學院學報:自然科學版,2011,(2):56-59.

(責任編校:晴川)

Design and Realization of Student Data Analysis System Based on Association Rule Mining Technology

SONG Liping, WEI Jianguo

(College of Engineering Science and Technology, Fuyang Vocational and Technical College,Fuyang Anhui 236000, China)

The development of data mining technology makes good use of large-scale data accumulated in colleges and universities. There are many research directions in the field of data mining, one of which is association rule mining. This paper analyzes and optimizes the Apriori algorithm, an algorithm of association rule mining, and compares the performances of the optimized Apriori algorithm with the orginal algorithm, which proves the efficiency of optimized Apriori algorithm. Based on the web technology and SQL Server 2005, the paper designs and realizes a system of association rule mining, which adopts the optimized Apriori algorithm and can achieve the functions of data import,data pre-processing, data mining and so on.

data mining; association rule; Apriori algorithm; system

2016-12-19

安徽省高校自然科學研究重點項目“關聯規則在高職學生就業數據處理中的應用研究”(批準號:KJ2016A561);安徽省高校自然科學研究重點項目“校園網絡安全過濾關鍵算法研究”(批準號:KJ2016A563);安徽省高校人文社會科學重點研究項目(批準號:SK2016A0688)階段性成果.

宋麗萍(1984— ),女,安徽阜陽人,阜陽職業技術學院工程科技學院講師,碩士.研究方向:數據挖掘.

TP391

A

1008-4681(2017)02-0058-04

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 婷婷色婷婷| 亚洲国产清纯| 亚洲黄色高清| 亚洲成aⅴ人在线观看| 成人在线观看不卡| 2021国产精品自产拍在线| 精品国产成人a在线观看| 久久夜夜视频| 久久精品国产国语对白| 色婷婷成人网| 日韩成人午夜| 欧美a在线| 一个色综合久久| 国产呦视频免费视频在线观看| 欧美影院久久| 国产精品林美惠子在线观看| 日本福利视频网站| 5555国产在线观看| 亚洲av成人无码网站在线观看| 亚洲日韩在线满18点击进入| 无码福利日韩神码福利片| 高清无码手机在线观看| 热久久国产| 黄色福利在线| 欧美三级日韩三级| 成人欧美在线观看| 88av在线| 麻豆国产精品| 免费人成在线观看成人片| 色窝窝免费一区二区三区| 国产亚洲精品无码专| 91九色视频网| 亚洲91精品视频| 9啪在线视频| 99热最新网址| 99资源在线| 67194亚洲无码| 久久伊人操| 99无码中文字幕视频| 久久五月天国产自| 国产喷水视频| 亚洲人成人无码www| 一级毛片免费不卡在线 | 久久综合AV免费观看| 久久久久免费精品国产| 四虎亚洲精品| 第一区免费在线观看| 这里只有精品在线| 四虎国产在线观看| 欧美亚洲一区二区三区在线| 色婷婷天天综合在线| 久久免费精品琪琪| 国产又粗又猛又爽视频| 国产精品黄色片| 国产永久免费视频m3u8| 亚欧美国产综合| 五月激情婷婷综合| 精品91视频| 5388国产亚洲欧美在线观看| 亚洲成人黄色网址| 欧美不卡视频在线| 久久国产精品麻豆系列| 日韩性网站| 四虎影视库国产精品一区| 婷五月综合| 波多野结衣无码AV在线| 国产白浆在线观看| 亚洲Av综合日韩精品久久久| 高清乱码精品福利在线视频| 天堂在线视频精品| 国产91视频观看| 直接黄91麻豆网站| 精品国产福利在线| 在线无码av一区二区三区| 成人福利在线免费观看| 女同国产精品一区二区| 人人艹人人爽| 欧美www在线观看| 性激烈欧美三级在线播放| 香蕉久久国产超碰青草| a免费毛片在线播放| 亚洲国语自产一区第二页|