◆何 萌 唐堅勝 張晶晶 鄧珍榮
?
關(guān)聯(lián)規(guī)則在中職學校招生管理系統(tǒng)中的應用
◆何 萌1唐堅勝2張晶晶1鄧珍榮1
(1.桂林電子科技大學計算機與信息安全學院 廣西 541004;2.桂林林業(yè)學校 廣西 541004)
針對中等職業(yè)學校招生規(guī)模的不斷擴大的現(xiàn)象,提高中職生源質(zhì)量已經(jīng)成為各培養(yǎng)單位的重點工作。傳統(tǒng)的生源質(zhì)量分析主要是計算考生成績的均值、方差、區(qū)分度等,僅對單個獨立的數(shù)據(jù)進行分析,無法獲取數(shù)據(jù)間的有價值信息。本文將數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則應用于分析中職學校學生入學成績、在校生學習成績、就業(yè)狀況和生源質(zhì)量之間的內(nèi)在關(guān)系,找出對影響招生質(zhì)量有價值的信息,為招生政策的制定提供參考。
數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;生源質(zhì)量
當今大數(shù)據(jù)時代,數(shù)據(jù)處理量越來越大,僅僅依靠傳統(tǒng)的數(shù)據(jù)處理方式已經(jīng)遠遠不能滿足人們現(xiàn)實生活中的需求,數(shù)據(jù)挖掘技術(shù)的發(fā)展引起了各行各業(yè)的高度關(guān)注。近年來,中等職業(yè)教育得到國家政策大力扶持,職業(yè)學校規(guī)模逐漸擴大、自主招生程度不斷提高,生源數(shù)量已經(jīng)成為政府和社會評價中等職業(yè)學校辦學實力的一個重要指標。如何從學校豐富的數(shù)據(jù)信息中提取出有價值的數(shù)據(jù)資料,已經(jīng)成為教學管理中值得探索的問題之一。數(shù)據(jù)挖掘技術(shù)可以為學校科學決策助一臂之力。將數(shù)據(jù)挖掘技術(shù)應用于中等職業(yè)學校招生信息系統(tǒng),搜集各種數(shù)據(jù)表征的內(nèi)容及其相互關(guān)系,根據(jù)學生入學前的信息與在校就讀期間的學習成績等特點,分析中職學校生源質(zhì)量,可為中職學校制定招生計劃、提高生源質(zhì)量提供有效的參考信息。有助于及時發(fā)現(xiàn)教學與管理中的問題,促進教育教學改革,提高教學管理工作的質(zhì)量和效率。
1.1 數(shù)據(jù)挖掘技術(shù)概述
從具有隨機干擾、噪聲、錯誤、缺失和不完整的大量數(shù)據(jù)中,將對人們有用的、隱含的、潛在的、未知的信息提取出來的操作,稱為數(shù)據(jù)挖掘。數(shù)據(jù)挖掘技術(shù)在當前形勢下應運而生。數(shù)據(jù)挖掘是一種深層次的數(shù)據(jù)信息分析方法,是從數(shù)據(jù)庫中知識發(fā)現(xiàn)和決策支持的過程,主要基于人工智能、機器學習、統(tǒng)計學等技術(shù),高度自動化地分析原有數(shù)據(jù),做出歸納性的推理,從數(shù)據(jù)中挖掘出潛在的模式,預測分析對象的行為趨勢,從而幫助決策或調(diào)整策略。數(shù)據(jù)挖掘的任務有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等,其中最常用的是聚類分析和關(guān)聯(lián)規(guī)則分析。數(shù)據(jù)挖掘技術(shù)已成功地應用在許多企業(yè)中,對提高企業(yè)經(jīng)濟效益和管理效率有顯著的影響。
在中等職業(yè)教育領(lǐng)域,有很多可以挖掘的信息,如學生入學成績管理、學生在校成績管理、學生家庭狀況、入學率情況和畢業(yè)就業(yè)質(zhì)量等。將數(shù)據(jù)挖掘技術(shù)應用于對中職學校學生成績的分析,分析生源質(zhì)量與各種因素之間隱藏的內(nèi)在聯(lián)系,這對整個中職院校擴大規(guī)模、提高辦學質(zhì)量具有重要的實踐意義。
1.2 關(guān)聯(lián)規(guī)則概述
數(shù)據(jù)挖掘中有一類問題,叫做關(guān)聯(lián)規(guī)則挖掘或頻繁項集挖掘。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘應用最廣的一種方法。關(guān)聯(lián)規(guī)則挖掘是在海量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)各項之間的關(guān)系關(guān)聯(lián)規(guī)則的支持度和置信度。它們分別反映了所發(fā)現(xiàn)規(guī)則的有用性和確定性。通過設定最小支持度閾值和最小置信度閾值,選取有趣的關(guān)聯(lián)規(guī)則。當挖掘出的關(guān)聯(lián)規(guī)則的支持度和置信度都滿足這兩個閡值時就認為這個規(guī)則是有效的,否則就是無效的,這些閾值一般可由領(lǐng)域?qū)<以O定。挖掘關(guān)聯(lián)規(guī)則的整個過程主要包括兩個方面,一個是發(fā)現(xiàn)頻繁項集:找出支持度大于等于用戶設置的最小支持度的項集;另一方面是生成關(guān)聯(lián)規(guī)則:由步驟一發(fā)現(xiàn)的頻繁項集生成關(guān)聯(lián)規(guī)則,并且這些關(guān)聯(lián)規(guī)則的置信度不小于用戶給定的最小置信度挖掘關(guān)聯(lián)規(guī)則的整個過程如圖1所示。

圖1挖掘關(guān)聯(lián)規(guī)則的過程
數(shù)據(jù)發(fā)掘技術(shù)中的關(guān)聯(lián)規(guī)則挖掘,是利用計算機自動從大量的數(shù)據(jù)中去分析和發(fā)現(xiàn)有關(guān)聯(lián)的規(guī)則。計算機本身需要了解所有發(fā)生的情況,并依次整理,把相關(guān)的事件合并整理在一起,然后對每件事進行掃描分析,以總結(jié)出事物的關(guān)聯(lián)性規(guī)律。數(shù)據(jù)挖掘技術(shù)對于中職的學生信息管理工作來說,是一種可以化繁瑣為簡單的技術(shù),對于工作效率的提高以及工作準確度的保證都有很重要的意義,因此在很多中職學校中,數(shù)據(jù)挖掘技術(shù)都被作為了其學生信息管理的研究工作的重點。
Apriori算法是經(jīng)典的關(guān)聯(lián)規(guī)則的挖掘算法,被廣泛應用于各種領(lǐng)域。Apriori算法主要用于發(fā)現(xiàn)事務數(shù)據(jù)庫中的布爾型關(guān)聯(lián)規(guī)則,是一種尋找頻繁項集的基本算法,其基本原理是使用一種稱作逐層搜索的迭代方法,即用k項集去探索(k +1)項集針對大量的事務數(shù)據(jù)。從單個項開始逐個遍歷所有事務,并與預設的最小支持度閾值相比較,如果支持度小于預設的閾值,則這一項將被刪除,進而擴充到所有事務,頻繁項集就是最終保留下來的項的集合。關(guān)聯(lián)規(guī)則通過子集產(chǎn)生法來生成,與用于預設的最小置信度閾值相比,如果置信度低于這一閾值,則將這一關(guān)聯(lián)規(guī)則刪除,最終保留下來的關(guān)聯(lián)規(guī)則符合用戶需要。Apriori 算法可以描述如下:
(1)產(chǎn)生頻繁一項集;
(2)產(chǎn)生頻繁k(2→end)項集;
(3)產(chǎn)生頻繁候選k項集;
①由頻繁k-1項集連接成為k項集;
②檢測k項集的所有的k-1子集是否為頻繁項集,若是該k 項集就成為了頻繁候選項集;
(4)掃描事務數(shù)據(jù)庫D對每個候選k項集計數(shù)。
(5)達到最少支持度的頻繁候選k項成為頻繁k項集。
3.1 數(shù)據(jù)分析過程
實驗使用的數(shù)據(jù)為桂林市衛(wèi)生學校2013、2014、2015級學生的數(shù)據(jù),數(shù)據(jù)分析過程如下圖2,從原始數(shù)據(jù)到發(fā)現(xiàn)規(guī)則的過程大致要經(jīng)過數(shù)據(jù)的準備、預處理、數(shù)據(jù)挖掘與結(jié)果分析四個步驟。

圖2數(shù)據(jù)分析過程
3.2 關(guān)聯(lián)規(guī)則挖掘算法在中職招生中應用
在桂林市衛(wèi)生學校學生數(shù)據(jù)集合中,既存在布爾型的數(shù)據(jù)(如學生的性別、家庭住址),又存在數(shù)值型的數(shù)據(jù)(如學生的成績)。根據(jù)數(shù)據(jù)的特征,選用Apriori作為數(shù)據(jù)挖掘算法,發(fā)現(xiàn)數(shù)據(jù)集合之間的關(guān)聯(lián)關(guān)系。將桂林市衛(wèi)生學校學生的入學成績與畢業(yè)信息進行數(shù)據(jù)關(guān)聯(lián)分析,得出有利于選拔優(yōu)質(zhì)生源的有用信息。對2010-2012年學生的入學成績信息、在校成績信息和畢業(yè)信息進行分析,設定支持度=10%,置信度=30%,挖掘出如表 1 所示的參考規(guī)則。
表1參考規(guī)則

序號參考規(guī)則 1初高中學校=重點學校→畢業(yè)生質(zhì)量=優(yōu) 2初高中學校=重點學校→畢業(yè)生質(zhì)量=良 3入學成績(平均分)=A或B→畢業(yè)生質(zhì)量=優(yōu) 4入學成績(平均分)=A或B→畢業(yè)生質(zhì)量=良 5入學成績(語文)=A或B→畢業(yè)生質(zhì)量=差 6入學成績(語文)=C或D→畢業(yè)生質(zhì)量=差 7在校成績(平均分)=A或B→畢業(yè)生質(zhì)量=優(yōu) 8在校成績(政治)=A或B→畢業(yè)生質(zhì)量=差 9在校成績(政治)=C或D→畢業(yè)生質(zhì)量=優(yōu) ……
數(shù)據(jù)挖掘的結(jié)果在實際中不一定存在必然的聯(lián)系,要結(jié)合實際情況對得到的關(guān)聯(lián)規(guī)則加以分析,通過設置不同的支持度閥值和置信度閥值,可以得到不同的關(guān)聯(lián)規(guī)則。將規(guī)則庫加以調(diào)整,為招生工作提供輔助支持。例如:表1挖掘的規(guī)則是學生的生源入學成績與畢業(yè)生是否優(yōu)秀之間的關(guān)聯(lián)規(guī)則,先判斷產(chǎn)生的子集是否屬于生源特征資料維的,滿足這個條件才能挖出規(guī)則來。這樣可以有效地濾除有意義的關(guān)聯(lián)規(guī)則,減少數(shù)據(jù)的冗余。
參考規(guī)則中的規(guī)則5和6入學成績(語文)=A或D→畢業(yè)生質(zhì)量=良,無論學生入學考試語文成績是高或是低,學生畢業(yè)的質(zhì)量都不是優(yōu),此條規(guī)則在挑選生源時沒有任何實際意義。而規(guī)則3和4入學成績(平均分)=A或D,學生畢業(yè)的質(zhì)量則是可以直觀看出,可見可以通過平均分來判斷生源質(zhì)量是否優(yōu)秀,此信息可以提供給學校作為是否錄取該生的條件。
通過將關(guān)聯(lián)規(guī)則應用到中職學校招生管理系統(tǒng),可對生源的質(zhì)量優(yōu)劣進行初步的分析和評價。關(guān)聯(lián)規(guī)則挖掘提供了一個進行合理挖掘的模式和挖掘方向,加快了挖掘速度、減少了數(shù)據(jù)的冗余度,為該中職專院校招生管理提供了一個方向。
招生階段是整個學生培養(yǎng)周期的最初階段,高質(zhì)量的生源是學生培養(yǎng)質(zhì)量的有力保證。數(shù)據(jù)挖掘技術(shù)作為中職專院校管理學生信息工作的有力工具,不但可以提高信息管理工作的效率,還對招生工作及相關(guān)政策的制定有一定的指導和幫助。數(shù)據(jù)挖掘技術(shù)在中職學生信息分析中可以發(fā)揮重要的作用,為制定科學的教育策略提供依據(jù)。只要選擇合適的分析對象、進行合理的算法選擇,數(shù)據(jù)挖掘技術(shù)將在教育領(lǐng)域的其它方面獲得更多應用。
[1]王毅鵬.高職院校招生與就業(yè)管理信息系統(tǒng)的研究與實現(xiàn)[D].西安電子科技大學,2012.
[2]王暉,王琪,何瓊.數(shù)據(jù)挖掘理論與實例[M].北京:經(jīng)濟科學出版社,2012.
[3]郭濤,張代遠.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘Apriori算法的研究與應用[J].計算機技術(shù)與發(fā)展,2011.
[4]馮璐妹,趙建寧.基于Apriori的高效關(guān)聯(lián)規(guī)則挖掘算法在教育考試系統(tǒng)中的應用研究[J].軟件,2013.
[5]Huang Hong-zhi,Cai Yan-rong.Web-based design of the management information system for the chemical laboratory in the university. International Conference on Computer Design and Applications(ICCDA),2010.
桂林市科學研究與技術(shù)開發(fā)計劃項目(2016010406-4)。