999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進的Aprioir算法在獨立學院招生中的應用研究

2019-05-23 10:44:40孫潔黃承寧
電腦知識與技術(shù) 2019年5期
關(guān)鍵詞:數(shù)據(jù)挖掘

孫潔 黃承寧

摘要:數(shù)據(jù)挖掘是指通過算法從大量數(shù)據(jù)中挖掘隱藏值和信息的過程。Aprioir算法是數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中的經(jīng)典算法。它已廣泛應用于網(wǎng)絡安全、商業(yè)、教育等領(lǐng)域。該文研究并改進了Aprioir算法,并將改進后的算法應用于招生信息的數(shù)據(jù)挖掘。通過對高校招生數(shù)據(jù)的深入和詳細的分析和挖掘,發(fā)現(xiàn)高校招生數(shù)據(jù)間的關(guān)聯(lián)性,這對招生工作起到指導作用。

關(guān)鍵詞:數(shù)據(jù)挖掘;Apriori算法;招生數(shù)據(jù)

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)05-0084-02

隨著高等院校招生規(guī)模的增加、高考生源數(shù)量的逐年減少以及二本和三本變?yōu)橥慌握猩@些都給獨立學院招生帶來了巨大的壓力。

因為招生決策數(shù)據(jù)量大、涉及面廣,采用基于經(jīng)驗的招生方法,無法保證招生工作的高效性。因此,數(shù)據(jù)挖掘技術(shù)可以用來挖掘和分析過去積累的大量招生數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)間關(guān)聯(lián)關(guān)系,獲取有價值的信息,降低招生宣傳的經(jīng)濟成本,提高招生質(zhì)量,提高了獨立學院的新生入學率。

1 Aprioir算法及算法改進

1.1 Aprioir算法

Apriori算法是基于兩階段頻集思想的遞推算法,是最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法之一。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則[1]。

1.2 Apriori算法的改進

經(jīng)過使用和分析,Apriori算法存在以下問題:

1)在每一步產(chǎn)生候選項目集時,迭代產(chǎn)生的組合過多,不應該參與組合的元素沒有被排除,而迭代過程的候選頻繁項集是在計算機內(nèi)存中產(chǎn)生、存儲和處理的,這使得算法適應能力較差[2]。

2)每次計算項目集的支持度時,都會掃描和比較數(shù)據(jù)庫中的所有行。當數(shù)據(jù)量較大時,這種掃描會大大增加計算機系統(tǒng)的輸入\輸出開銷。而這種開銷是隨著數(shù)據(jù)庫的行的増加呈現(xiàn)出幾何級數(shù)的増加。

基于Apriori算法存在的問題,下節(jié)將對該算法的改進行闡述。

1.2.1 Apriori改進算法---數(shù)據(jù)規(guī)模劃分

改進算法的主要思想是將數(shù)據(jù)挖掘的數(shù)據(jù)分為N個規(guī)模大致相同的部分,對每個子部分分別進行數(shù)據(jù)挖掘,最后進行合并。

該算法按照以下步驟完成:

第一步:將數(shù)據(jù)庫劃分為N個部分,每個部門數(shù)據(jù)大致相同;

第二步:毎個子部分將分別產(chǎn)生一組潛在頻繁項目集;

第三步:將這些頻繁項目集合并成一個候選頻繁項目集;

第四步:計算每個候選頻繁項目的支持度,以確定最終頻繁項集[3]。

1.2.2 Apriori改進算法---增加屬性列

將數(shù)據(jù)庫劃分為N個規(guī)模大致相同的子部分后,對每個子部分進行數(shù)據(jù)挖掘。在前一節(jié)中改進算法的第二步中,為每個事務添加一個指定事務包含的項個數(shù)的屬性列。

進一步改進的Apriori算法,其算法思想如下:

第一步:將數(shù)據(jù)庫劃分為N個部分,每個部門數(shù)據(jù)大致相同;

第二步:毎個子部分將分別產(chǎn)生一組潛在頻繁項目集:

1)為事務添加一個指定事務包含的項個數(shù)的屬性列。

2)如果事務包含的項個數(shù)大于或等于N,則計算頻繁N項集;否則將其刪除。

第三步:對單個項目集進行整理和合并,可以得到全部候選頻繁項集。

第四步:計算每個候選頻繁項目的支持度,以確定最終頻繁項集[3]。

在生成頻繁N項集時,Apriori算法需要全部事務來驗證候選N項集,而事務長度大于或等于N的事務才屬于頻繁N項集,反之則不屬于[4]。改進的Apriori算法只保留事務長度大于或等于N的事務,并在這些事務中搜索頻繁N項集[5]。

2 數(shù)據(jù)準備

2.1 數(shù)據(jù)分析

改進算法后,基于院校的需求,對招生數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)挖掘,下面對部分數(shù)據(jù)做簡要描述:

1)考生基本情況表:主要包括考生號、姓名、性別、出生年月、考生類別、考生戶口所在地區(qū)、考試類別等內(nèi)容。

2)成績與志愿信息表:主要包括高考成績、投檔成績、填報專業(yè)、退檔原因、錄取專業(yè)等內(nèi)容。

3)專業(yè)計劃庫代碼對照表:主要包括批次、科類代碼、投檔單位、專業(yè)代號、專業(yè)名稱、專業(yè)種類、計劃人數(shù)、計劃執(zhí)行數(shù)等內(nèi)容。

4)考生類別代碼對照表:主要類別包括:農(nóng)村應屆、農(nóng)村往屆、城鎮(zhèn)應屆和城鎮(zhèn)往屆。

5)考生報到情況表:主要包括考生號、姓名、報到情況代碼、報到情況等內(nèi)容。

2.2 數(shù)據(jù)清洗

針對招生信息,主要從以下幾個方面對數(shù)據(jù)進行清洗:

1)有效性檢驗。檢驗數(shù)據(jù)是否在合理的有效范圍。例如性別只能為“男”或者“女”等。

2)刪除字段。例如視力、健康狀況等字段雖說很重要,但如果作為數(shù)據(jù)挖掘的數(shù)據(jù)源,卻不合適,而且還要浪費資源,對于這樣的數(shù)據(jù)應該刪除。

3)轉(zhuǎn)換字段。比如各省的高考成績組成不同,使用成績來表示高或者低是不合理的,可對其分區(qū)間,例如在不同范圍內(nèi)認為是成績差,成績中,成績良和成績優(yōu)。再比如考生生源地,可采用編號來代替字符描述,例如01表示云南省,02表示四川省等等。

4)統(tǒng)一數(shù)據(jù)。因為不同地區(qū)的考生數(shù)據(jù)有不一致的情況,需要將類似的字段進行統(tǒng)一。

3 招生信息數(shù)據(jù)挖掘

3.1 數(shù)據(jù)挖掘步驟

改進后的Apriori算法應用到招生信息數(shù)據(jù)挖掘中分四個步驟:

1)將原始數(shù)據(jù)進行清洗。

2)將清洗好的數(shù)據(jù)輸入數(shù)據(jù)挖掘系統(tǒng),設(shè)定最小支持度。

3)使用改進的Apriori算法對清洗好的招生信息進行挖掘,保存計算得到的頻繁項集。

4)分析數(shù)據(jù)挖掘的結(jié)果。

3.2 數(shù)據(jù)挖掘結(jié)果分析

1)高考成績與報到率的聯(lián)系

分析結(jié)果顯示:2018年該學院錄取的考生中以某省為例,報到率較高分數(shù)集中在最低檔(將高考成績按照分數(shù)分為四檔,分別是最低檔、中等檔、良好檔和優(yōu)秀檔)。

2)專業(yè)與報到率的聯(lián)系

分析結(jié)果顯示:2018年該學院錄取的43個專業(yè)中,計算機科學與技術(shù)、財務管理、軟件工程、機械工程、土木工程等專業(yè)報到率較高,均達到96%以上。

3)考生生源與報到率的聯(lián)系

分析結(jié)果顯示,2018年該學院共在23個省投放置招生計劃,其中省份編號為19、20、21、22、23的考生報到率較高,均在97%以上。

綜上所述,通過以上的數(shù)據(jù)挖掘結(jié)果,對獨立院校招生錄取工作提出幾點建議:

1)高考分數(shù)偏低的生源報到率反而較高,針對這一現(xiàn)象,學院應該采取一些鼓勵高分學生的措施,例如,高分可保證第一志愿錄取等,以降低優(yōu)質(zhì)生源的流失率,從而提高在校學生的整體素質(zhì)。與此同時學校在錄取時,在給分數(shù)偏低的學生退檔時要慎重選擇,否則會影響學校的報到率。

2)生源地不同,報到率也不同,報到率偏低的幾個省份大多都是生源大省,每年高考高分的學生也較多,學校應該加強對這些省份的招生宣傳力度,讓更多的考生了解學校的特色和優(yōu)勢,愿意報考學校,減少優(yōu)質(zhì)生源的流失。

3)學校錄取專業(yè)中經(jīng)濟學和管理學等專業(yè)的報到率稍偏低,工學的學生報到率較高,學校應依據(jù)市場需求和考生需求對專業(yè)設(shè)置和招生人數(shù)做動態(tài)調(diào)整,從而降低學生的流失率。

4)學校要關(guān)注高考低分段但被錄取為工學專業(yè)或報到率高的生源地學生,要穩(wěn)定這部分報到率較高的生源,防止其流失。

參考文獻:

[1] 姜鑫.數(shù)據(jù)挖掘技術(shù)在水電廠主設(shè)備狀態(tài)檢修中的應用研究[J].水電廠自動化,2014(4).

[2] 陳立寧. 一種用于預估MOCVD工藝結(jié)果的改進方法[J]. 電子工業(yè)專用設(shè)備,2015(8):10-14.

[3] 李橋.數(shù)據(jù)挖掘在教學質(zhì)量評價中的應用研究[D]. 長沙:中南大學,2010.

【通聯(lián)編輯:光文玲】

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
數(shù)據(jù)挖掘在高校圖書館中的應用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 免费看黄片一区二区三区| 91在线日韩在线播放| 在线视频亚洲色图| 久久青草视频| 国产毛片片精品天天看视频| 亚洲国产精品日韩av专区| 欧美一区二区人人喊爽| 免费国产黄线在线观看| 亚洲国产成人无码AV在线影院L| 国产主播在线一区| 国产自在线拍| 玩两个丰满老熟女久久网| 国产麻豆福利av在线播放| 久久www视频| 国产91色在线| 青青草原国产免费av观看| 日韩午夜片| 激情国产精品一区| 色婷婷丁香| 91精品伊人久久大香线蕉| 亚洲国产成人精品一二区| 国产成人做受免费视频| 免费在线成人网| 一区二区三区高清视频国产女人| 欧美成人看片一区二区三区| 欧美劲爆第一页| 日本在线欧美在线| 久久青草视频| 色综合日本| 午夜精品一区二区蜜桃| 国产精品亚洲一区二区三区z| 男人天堂亚洲天堂| 国产日本视频91| a免费毛片在线播放| 91精品国产一区| aaa国产一级毛片| 久久99精品国产麻豆宅宅| 久久综合九色综合97网| 就去色综合| 成人无码区免费视频网站蜜臀| 亚洲精品第五页| 亚洲精品天堂自在久久77| 成年人视频一区二区| 色妞www精品视频一级下载| 一区二区三区成人| 亚洲第一区在线| 亚洲最大综合网| 国产精品xxx| 亚洲欧美一区二区三区图片 | 久久久久久尹人网香蕉| 亚洲毛片在线看| 青青青国产在线播放| 国产成人夜色91| 成人免费一区二区三区| 色综合久久无码网| 国产自视频| 午夜精品久久久久久久无码软件 | 四虎永久在线| 亚洲精品爱草草视频在线| 综合久久久久久久综合网 | 亚洲免费黄色网| 亚洲一级色| 国产91色在线| 久久免费精品琪琪| 亚洲日产2021三区在线| 欧美中文字幕无线码视频| 国产欧美中文字幕| 国产精品永久久久久| 精品欧美日韩国产日漫一区不卡| 亚洲一道AV无码午夜福利| 免费看久久精品99| 国产精品欧美在线观看| 99热这里只有精品国产99| 国产精品自在拍首页视频8| 久久综合伊人77777| 久久成人免费| 久久久久无码精品| 日本欧美一二三区色视频| 亚洲国产欧美中日韩成人综合视频| 国产一区二区三区免费| 精品国产网站| 中文字幕首页系列人妻|