桑冬青
(淮南職業(yè)技術(shù)學(xué)院,安徽 淮南 232001)
關(guān)聯(lián)規(guī)則在煤炭類(lèi)高校招生工作中的應(yīng)用
桑冬青
(淮南職業(yè)技術(shù)學(xué)院,安徽 淮南 232001)
本文結(jié)合煤炭類(lèi)院校的具體情況,介紹了關(guān)聯(lián)規(guī)則技術(shù)的定義及關(guān)聯(lián)規(guī)矩的典型算法,探討了把基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)應(yīng)用到煤炭類(lèi)特色的院校的招生工作中,對(duì)煤炭主體專(zhuān)業(yè)的相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理,提取挖掘出有效的關(guān)聯(lián)規(guī)則進(jìn)行分析,用于指導(dǎo)院校在合理專(zhuān)業(yè)設(shè)置、有效開(kāi)展宣傳、服務(wù)社會(huì)等各方面的工作的正確決策.
數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;招生;煤炭類(lèi)高校
近幾年,參加高考的考生數(shù)量逐年減少,高職院校之間的招生競(jìng)爭(zhēng)日趨嚴(yán)重,保證招生已成為各高職院校生存與發(fā)展的關(guān)鍵.因此各院校如何有針對(duì)性的編制招生計(jì)劃,對(duì)保障院校在專(zhuān)業(yè)建設(shè)的合理性、專(zhuān)業(yè)發(fā)展、有目的專(zhuān)業(yè)重點(diǎn)宣傳方面,同時(shí)對(duì)提高新生報(bào)到率方面,變得尤為重要.
筆者所在的學(xué)校,作為企業(yè)辦學(xué)特色院校,許多專(zhuān)業(yè)的設(shè)置具有明顯的行業(yè)相關(guān)性,隨著近幾年煤炭行業(yè)的起伏變化,對(duì)本校的行業(yè)特色專(zhuān)業(yè)的招生也造成了明顯的影響.
以往招生工作的傳統(tǒng)的直覺(jué)經(jīng)驗(yàn)式的招生計(jì)劃投放方式,在當(dāng)前的嚴(yán)峻形勢(shì)下已不能滿(mǎn)足要求.本文試圖采用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則針對(duì)招生數(shù)據(jù)進(jìn)行挖掘分析,發(fā)現(xiàn)更準(zhǔn)確的有價(jià)值信息,為招生相關(guān)工作的決策提供支持.
關(guān)聯(lián)規(guī)則表示不同數(shù)據(jù)項(xiàng)目在同一事件中出現(xiàn)的相關(guān)性,就是從大量數(shù)據(jù)中挖掘出關(guān)聯(lián)規(guī)則.關(guān)聯(lián)規(guī)則分析用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系.在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu).
關(guān)聯(lián)規(guī)則算法是數(shù)據(jù)挖掘技術(shù)中重要的一類(lèi)算法.1993年,R.Agrawal等人首次提出了挖掘顧客交易數(shù)據(jù)中項(xiàng)目集間的關(guān)聯(lián)規(guī)則問(wèn)題,其核心是基于兩階段頻繁集思想的遞推算法.該關(guān)聯(lián)規(guī)則在分類(lèi)上屬于單維、單層及布爾關(guān)聯(lián)規(guī)則,其中的代表算法是Apriori算法.Apriori算法將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過(guò)程分為兩個(gè)步驟:第一步通過(guò)迭代,檢索出事務(wù)數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集,即支持度不低于用戶(hù)設(shè)定的閾值的項(xiàng)集;第二步利用頻繁項(xiàng)集構(gòu)造出滿(mǎn)足用戶(hù)最小信任度的規(guī)則.其中,挖掘或識(shí)別出所有頻繁項(xiàng)集是該算法的核心,占整個(gè)計(jì)算量的大部分.
本文用來(lái)挖掘的數(shù)據(jù)為某院校的實(shí)際招生數(shù)據(jù),其中包括了近五年的全部錄取數(shù)據(jù)和新生報(bào)到數(shù)據(jù).數(shù)據(jù)包括的字段:考生號(hào)、姓名、錄取專(zhuān)業(yè)、性別、畢業(yè)中學(xué)、投檔成績(jī)、考生類(lèi)別、科類(lèi)等,其中錄取專(zhuān)業(yè)歷年計(jì)劃有所不同.
從已有的數(shù)據(jù)源來(lái)看,可以有各種不同的挖掘思路,生成多種挖掘結(jié)果.本文結(jié)合數(shù)據(jù)來(lái)源院校的特色,只挖掘與院校特色相關(guān)方面的數(shù)據(jù),從中分析行業(yè)變化對(duì)招生工作的影響.
本文挖掘的煤炭相關(guān)院校,通常情況下在確定每年的招生計(jì)劃都會(huì)參考往年的招生數(shù)據(jù),重點(diǎn)調(diào)整煤炭主體專(zhuān)業(yè)和煤炭相關(guān)專(zhuān)業(yè)計(jì)劃.當(dāng)然由于需要參照的變量很多,不可能一一涉及,本文主要從煤炭相關(guān)的數(shù)據(jù)進(jìn)行挖掘分析,然后有針對(duì)性的投放煤炭主體專(zhuān)業(yè)和煤炭相關(guān)專(zhuān)業(yè)的招生計(jì)劃.其中考生的生源地分析后,可以考慮煤炭高度相關(guān)的地區(qū),重點(diǎn)進(jìn)行招生宣傳.當(dāng)然,不可否認(rèn)由于行業(yè)的高度相關(guān),煤炭行業(yè)的變化對(duì)煤炭主體專(zhuān)業(yè)和煤炭相關(guān)專(zhuān)業(yè)的報(bào)考也是相當(dāng)敏感.通過(guò)相關(guān)的挖掘,及時(shí)對(duì)煤炭主體專(zhuān)業(yè)和煤炭相關(guān)專(zhuān)業(yè)的計(jì)劃調(diào)整將至關(guān)重要,避免招生計(jì)劃的白白流失,促進(jìn)學(xué)院的健康發(fā)展.
對(duì)于已有數(shù)據(jù)字段值過(guò)于離散,對(duì)問(wèn)題分析不具有代表性,必須把離散的字段數(shù)據(jù)進(jìn)行高層次的抽象和概括,把數(shù)據(jù)進(jìn)行規(guī)約,更有利于挖掘出有效的、有價(jià)值的信息.
結(jié)合以上提出的問(wèn)題,對(duì)待挖掘數(shù)據(jù)進(jìn)行分析,本文主要處理“錄取年份”、“考生號(hào)”、“錄取專(zhuān)業(yè)”、“畢業(yè)中學(xué)”、“考生類(lèi)別”這幾個(gè)字段的數(shù)據(jù),如表1所示.為了滿(mǎn)足關(guān)聯(lián)規(guī)則算法的要求,必須對(duì)數(shù)據(jù)進(jìn)行泛化處理.通過(guò)結(jié)合煤炭相關(guān)概念,把“錄取專(zhuān)業(yè)”、“畢業(yè)中學(xué)”進(jìn)行煤炭特色化處理,挖掘煤炭行業(yè)變化對(duì)招生的影響.

表1 招生數(shù)據(jù)表
需要進(jìn)行泛化的數(shù)據(jù)如下:
3.2.1 錄取專(zhuān)業(yè)
錄取專(zhuān)業(yè)本身屬于離散型數(shù)據(jù),同時(shí)它是直接影響考生報(bào)考的數(shù)據(jù),并且錄取專(zhuān)業(yè)也是高度的行業(yè)相關(guān).結(jié)合數(shù)據(jù)源院校的煤炭行業(yè)相關(guān),錄取專(zhuān)業(yè)的泛化主要考慮煤炭因素對(duì)考生的報(bào)考、招生專(zhuān)業(yè)設(shè)置的影響.煤炭專(zhuān)業(yè)和煤炭相關(guān)專(zhuān)業(yè)占學(xué)院的生源構(gòu)成比重大,也是學(xué)院的辦學(xué)特色.通過(guò)數(shù)據(jù)挖掘可以清楚,哪些地區(qū)的考生是招生的重點(diǎn).同時(shí)通過(guò)數(shù)據(jù)挖掘判斷行業(yè)的變化對(duì)招生的影響到底有多大.考慮到院校所在地的特殊性,把錄取專(zhuān)業(yè)泛化為如下幾種情況:煤炭主體專(zhuān)業(yè)、煤炭相關(guān)專(zhuān)業(yè)、社會(huì)專(zhuān)業(yè).
3.2.2 畢業(yè)學(xué)校
畢業(yè)學(xué)校作為離散型的數(shù)據(jù),考慮到煤炭行業(yè)所在地的學(xué)校報(bào)考煤礦主體專(zhuān)業(yè)和煤炭相關(guān)專(zhuān)業(yè)的幾率較高,可以把畢業(yè)學(xué)校泛化成本地煤礦學(xué)校、外地煤礦學(xué)校、本地社會(huì)學(xué)校和外地社會(huì)學(xué)校.通過(guò)以上畢業(yè)學(xué)校的泛化,進(jìn)行數(shù)據(jù)挖掘,希望發(fā)現(xiàn)那些地區(qū)的中學(xué)是煤炭主體專(zhuān)業(yè)和煤炭相關(guān)專(zhuān)業(yè)的報(bào)考生源地.把挖掘結(jié)果分析作為招生工作的決策依據(jù),有重點(diǎn)、有針對(duì)性的進(jìn)行招生政策實(shí)施.
3.2.3 考生類(lèi)別
考生類(lèi)別包括農(nóng)村應(yīng)屆、城市應(yīng)屆、農(nóng)村往屆、城市往屆四種情況,不需要進(jìn)行泛化,引入考生類(lèi)別進(jìn)行數(shù)據(jù)挖掘,可以更有針對(duì)性的對(duì)生源進(jìn)行有效的招生宣傳工作.
3.2.4 錄取年份
對(duì)錄取年份的數(shù)據(jù)挖掘,主要是考慮可以縱向?qū)Ρ让磕甑恼猩兓闆r,指導(dǎo)學(xué)院有效的調(diào)整招生計(jì)劃,合理的設(shè)置今后的招生專(zhuān)業(yè).
根據(jù)以上描述方法,首先將近五年的招生數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,對(duì)待挖掘數(shù)據(jù)進(jìn)行泛化處理后的數(shù)據(jù)如圖1所示:

圖1 泛化后的數(shù)據(jù)
基于關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法比較多,本文采用比較成熟的Apriori算法進(jìn)行挖掘.挖掘軟件采用業(yè)界久負(fù)盛譽(yù)SPSS Clementine 12,Clementine結(jié)合業(yè)務(wù)需求可以快速建立預(yù)測(cè)性模型,進(jìn)而應(yīng)用到各種數(shù)據(jù)挖掘研究工作中,幫助人們改進(jìn)決策過(guò)程.
考慮到近五年每年的專(zhuān)業(yè)招生人數(shù)的變化,有的年份部分專(zhuān)業(yè)招生人數(shù)占總?cè)藬?shù)相對(duì)少的情況,為了加大挖掘結(jié)果的分析力度,支持度不應(yīng)設(shè)置高,故而Min Support設(shè)置為4%較為合理.
對(duì)于最小置信度的選擇,結(jié)合本文的挖掘需求,為了通過(guò)關(guān)聯(lián)規(guī)則的挖掘,更好的分生源的某種變化,配合傳統(tǒng)分析對(duì)招生工作進(jìn)行指導(dǎo),并不是一定為了找到某種強(qiáng)關(guān)聯(lián)規(guī)則.因此本文把Min Confindence設(shè)置為20%較為合理,這樣可以挖掘出足夠多的關(guān)聯(lián)規(guī)則用于對(duì)比分析.
根據(jù)以上分析,設(shè)置好最小支持度和最小置信度,進(jìn)行數(shù)據(jù)挖掘,最終生成如圖2所示的關(guān)聯(lián)規(guī)則集.由圖2所示,挖掘后生產(chǎn)了多達(dá)131條的關(guān)聯(lián)規(guī)則,結(jié)合前面提出的挖掘問(wèn)題,接下來(lái)從幾方面對(duì)挖掘出的關(guān)聯(lián)規(guī)則進(jìn)行分類(lèi)分析,找出有價(jià)值的信息.

圖2 挖掘后的關(guān)聯(lián)規(guī)則
4.2.1 提取有效規(guī)則
分析挖掘出的大量關(guān)聯(lián)規(guī)則,把煤礦主體專(zhuān)業(yè)對(duì)應(yīng)的關(guān)聯(lián)規(guī)則單獨(dú)挑出來(lái),如表2所示.其中支持度表示生成規(guī)則的最小支持度,置信度表示生成規(guī)則的最小置信度.

表2 煤炭相關(guān)關(guān)聯(lián)規(guī)則表
4.2.2 結(jié)果分析與應(yīng)用
根據(jù)以上提取的關(guān)聯(lián)規(guī)則,橫向分析煤炭主體專(zhuān)業(yè)的報(bào)考熱度是本地煤礦學(xué)校>本地社會(huì)學(xué)校>外地社會(huì)學(xué)校,這就是說(shuō)學(xué)校對(duì)于煤礦主體專(zhuān)業(yè)的宣傳重點(diǎn)應(yīng)該放到本地來(lái)開(kāi)展,尤其是本地的煤礦所在地區(qū)的學(xué)校是重中之重,更要特別重視.對(duì)于煤礦相關(guān)專(zhuān)業(yè)來(lái)看,外地學(xué)校考生的報(bào)考熱度要明顯大于本地考生.
縱向分析煤炭主體專(zhuān)業(yè)的報(bào)考熱度來(lái)看,在2013年達(dá)到最高峰,從規(guī)則來(lái)看2013年以后煤炭主體專(zhuān)業(yè)的報(bào)考熱度急劇下滑,這應(yīng)該是受到煤炭行業(yè)的不景氣的影響,使得報(bào)考考生不在愿意報(bào)考煤礦專(zhuān)業(yè).所以從2015年開(kāi)始,院校在進(jìn)行專(zhuān)業(yè)計(jì)劃申報(bào)時(shí)就應(yīng)該相應(yīng)的減少煤礦主體專(zhuān)業(yè)的計(jì)劃數(shù),以免浪費(fèi)招生計(jì)劃,影響學(xué)校的招生.同時(shí)學(xué)校也要及時(shí)的調(diào)整專(zhuān)業(yè)建設(shè)思路,合理性的進(jìn)行專(zhuān)業(yè)建設(shè),促進(jìn)院校的專(zhuān)業(yè)有序發(fā)展.
當(dāng)然,挖掘出的大量關(guān)聯(lián)規(guī)則,還可以從其他角度來(lái)提取有效規(guī)則來(lái)分析,從多個(gè)角度來(lái)指導(dǎo)院校的招生宣傳工作,由于文本有限就不在進(jìn)行一一展開(kāi)了.
把基于關(guān)聯(lián)規(guī)則的挖掘技術(shù)應(yīng)用于院校的大量的招生數(shù)據(jù)挖掘,從中提取出各種對(duì)招生工作有價(jià)值的規(guī)則信息,對(duì)當(dāng)前嚴(yán)峻的院校招生工作的價(jià)值是不可估量的.有了正確的信息,院校在合理專(zhuān)業(yè)設(shè)置、有效開(kāi)展宣傳、服務(wù)社會(huì)等各方面的工作才能正確決策,從而保證提高新生報(bào)到率和提高生源的質(zhì)量.尤其對(duì)當(dāng)前各院校都在積極建設(shè)地方技能型高水平大學(xué)更是具有指導(dǎo)意義.
〔1〕侍穎輝.?dāng)?shù)據(jù)挖掘技術(shù)在職校招生決策系統(tǒng)中的應(yīng)用[J].職業(yè),2008(26):26-27.
〔2〕李霞.數(shù)據(jù)挖掘在高校教學(xué)和管理中的應(yīng)用研究[J].廣東外語(yǔ)外貿(mào)大學(xué)學(xué)報(bào),2012(04):97-100.
〔3〕朱麗麗.數(shù)據(jù)挖掘在高校招生中的應(yīng)用研究[J].計(jì)算機(jī)與現(xiàn)代化,2012(8):190-194.
〔4〕王志浩.關(guān)聯(lián)規(guī)則算法在中職招生宣傳中的應(yīng)用[J].中國(guó)西部科技,2010,9(22):53—53.
〔5〕李虞軍,暫天奇.一釋改進(jìn)的加梗關(guān)聯(lián)提一挖曩方法[J].計(jì)算機(jī)工程,2010,35(7)t5s-57.
〔6〕DIlnhm M H.?dāng)?shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版牡,2005.
〔7〕[美]Olivia Parr Rud.?dāng)?shù)據(jù)挖掘?qū)嵺`[M].北京:機(jī)械工業(yè)出版社,2003.
〔8〕成平廣.ID3算法在高校招生決策中的應(yīng)用研究[J].重慶教育學(xué)院學(xué)報(bào),2008,21(3):4446.
〔9〕趙文文.?dāng)?shù)據(jù)挖掘技術(shù)在生源分析中的研究實(shí)現(xiàn)[D].綿陽(yáng):西南科技大學(xué),2006.
〔10〕姜燕生,李凡.?dāng)?shù)據(jù)挖掘中的數(shù)據(jù)準(zhǔn)備工作[J].湖北工學(xué)院學(xué)報(bào),2003,18(6):35-38+42.
〔11〕侍穎輝.?dāng)?shù)據(jù)挖掘技術(shù)在職校招生決策系統(tǒng)中的應(yīng)用[J].職業(yè),2008(26):26-27.
〔12〕徐健.數(shù)據(jù)挖掘技術(shù)在高校招生信息處理中的應(yīng)用[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2013(11):133-137.
〔13〕何小明,張自力.基于OLAP與數(shù)據(jù)挖掘的高考招生數(shù)據(jù)分析[J].計(jì)算機(jī)科學(xué),2012(06):175-187.
G642
A
1673-260X(2017)09-0150-03
2017-06-29
2016安徽省高校自然科學(xué)研究項(xiàng)目(KJ2016A676)
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2017年17期