999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)算法在學(xué)生考研成功影響因素分析中的應(yīng)用

2017-05-31 06:29:58錢輝煌朱國華吳芬
軟件導(dǎo)刊 2017年5期
關(guān)鍵詞:數(shù)據(jù)挖掘

錢輝煌 朱國華 吳芬

摘要摘要:數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中,通過算法搜索隱藏于其中的信息的過程,通過將數(shù)據(jù)轉(zhuǎn)化為信息,實現(xiàn)數(shù)據(jù)的價值。以江漢大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院學(xué)生為研究對象,通過數(shù)據(jù)挖掘分類預(yù)測分析數(shù)據(jù)信息,以Rapidminer軟件作為分析工具,采用關(guān)聯(lián)分析和神經(jīng)網(wǎng)絡(luò)算法,對成功考研學(xué)生的群體特征進(jìn)行分析,研究學(xué)習(xí)成績、身體素質(zhì)、性別、專業(yè)差別對考研結(jié)果的影響。

關(guān)鍵詞關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;神經(jīng)網(wǎng)絡(luò)算法

DOIDOI:10.11907/rjdk.162876

中圖分類號:TP391

文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2017)005014303

0引言

“考研熱”已經(jīng)成為一種社會現(xiàn)象,并持續(xù)升溫。為進(jìn)一步了解當(dāng)代大學(xué)生的考研現(xiàn)狀和成功考取研究生的因素,展開此次實驗研究,研究對象為江漢大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院(簡稱數(shù)計學(xué)院)的學(xué)生,通過數(shù)據(jù)挖掘分析,得出哪些因素會影響大學(xué)生成功考取研究生。因收集數(shù)據(jù)量較少,本文將從收集到的數(shù)計學(xué)院2012級學(xué)生的學(xué)習(xí)成績、身體素質(zhì)測試成績、考研錄取情況和基本信息等這些數(shù)據(jù)中,選取大學(xué)四年加權(quán)平均成績、身體素質(zhì)測試成績、性別和專業(yè)差別這幾方面展開分析。

數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)有趣模式的過程。作為知識發(fā)現(xiàn)過程,它通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評估和知識表示這6個方面[1]。其中前4個是數(shù)據(jù)預(yù)處理的不同形式,是為挖掘準(zhǔn)備數(shù)據(jù),本文將依次介紹本次數(shù)據(jù)挖掘?qū)嶒灥木唧w分析過程。

本次實驗基于Rapidminer 軟件的數(shù)據(jù)分析平臺,將收集的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理(數(shù)據(jù)清理、數(shù)據(jù)規(guī)約、數(shù)據(jù)集成和數(shù)據(jù)導(dǎo)入)[2],研究各數(shù)據(jù)項與成功考取研究生的關(guān)系。實驗研究發(fā)現(xiàn),考研成功除去與學(xué)習(xí)成績相關(guān)外,還與身體素質(zhì)、性別和專業(yè)差別相關(guān)。此次實驗研究結(jié)果可為學(xué)校指導(dǎo)學(xué)生考研提供參考。

1相關(guān)算法

本次數(shù)據(jù)挖掘運(yùn)用了目前常用數(shù)據(jù)挖掘算法中的兩個算法:關(guān)聯(lián)分析和神經(jīng)網(wǎng)絡(luò)算法。

(1)關(guān)聯(lián)分析(Association Analysis)。現(xiàn)有的關(guān)聯(lián)分析算法有基于概率相似度的關(guān)聯(lián)方法、基于機(jī)器學(xué)習(xí)的關(guān)聯(lián)方法、基于Bayesian分類器的關(guān)聯(lián)方法及基于先決條件的關(guān)聯(lián)方法等。基于機(jī)器學(xué)習(xí)的關(guān)聯(lián)方法只能對存在于線程中的數(shù)據(jù)進(jìn)行關(guān)聯(lián),無法對未知數(shù)據(jù)進(jìn)行關(guān)聯(lián),導(dǎo)致最后的分析結(jié)果存在較大誤差。而基于Bayesian分類器的關(guān)聯(lián)方法雖然時效性很好,但關(guān)聯(lián)需要的知識依賴于知識庫,無法獲得計算所需的先驗概率和條件概率[3]。

(2)神經(jīng)網(wǎng)絡(luò)(Neural Network)。人工神經(jīng)網(wǎng)絡(luò)是一種通過模仿生物神經(jīng)網(wǎng)路的工作特征進(jìn)行分布式信息處理的算法數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)是目前具有非常強(qiáng)大的預(yù)測功能的一種算法模型。一個完整的神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成,而每一層都由多個神經(jīng)元組成[4]。

2數(shù)據(jù)預(yù)處理

噪聲是數(shù)據(jù)結(jié)果出現(xiàn)偏差的原因之一,由于采集的數(shù)據(jù)中有噪聲影響因素,因此要對采集到的數(shù)據(jù)進(jìn)行去噪處理,有效的數(shù)據(jù)預(yù)處理可以提高數(shù)據(jù)挖掘?qū)嶒灥臏?zhǔn)確率,經(jīng)過系統(tǒng)導(dǎo)出來的原始數(shù)據(jù)存在不一致、不完整和噪聲,根據(jù)實驗需要,排除其它不良可忽視因素,結(jié)合教學(xué)實踐對學(xué)生數(shù)據(jù)空缺、不一致數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理操作。

本次實驗數(shù)據(jù)源是江漢大學(xué)數(shù)計學(xué)院2012級學(xué)生在校四年加權(quán)平均成績、身體素質(zhì)測試各項成績、考研錄取情況和基本信息。基本信息中包含3個專業(yè):數(shù)學(xué)與應(yīng)用數(shù)學(xué)、計算機(jī)科學(xué)與技術(shù)、網(wǎng)絡(luò)工程。身體素質(zhì)測試項目有:身高、體重、肺活量、50米跑、立定跳遠(yuǎn)、1000/800米跑、坐體前屈、仰臥起坐/引體向上。數(shù)據(jù)庫極易受噪聲、缺失值和不一致的侵?jǐn)_,數(shù)據(jù)庫龐大并且大多數(shù)是來自多個異種數(shù)據(jù)源。低質(zhì)量的數(shù)據(jù)會將導(dǎo)致低質(zhì)量的挖掘結(jié)果,引起數(shù)據(jù)的具體真實性偏差[5]。因此,本次實驗進(jìn)行數(shù)據(jù)預(yù)處理主要為3個方面:一是缺失數(shù)據(jù)(數(shù)據(jù)屬性中部分記錄顯示為空),二是噪聲數(shù)據(jù),三是重復(fù)數(shù)據(jù)(數(shù)據(jù)屬性相同的記錄)[6]。

本次實驗數(shù)據(jù)預(yù)處理因數(shù)據(jù)量小,故采用Excel進(jìn)行初步簡單處理。首先針對考研錄取情況、身體素質(zhì)測試各項成績、學(xué)習(xí)成績、基本信息4個表將學(xué)號作為關(guān)鍵字整合到1個表中,數(shù)據(jù)收集過程中會有部分?jǐn)?shù)據(jù)不完整,因此需將信息殘缺的元組和與此次實驗無關(guān)的屬性都剔除;其次數(shù)據(jù)要符合算法要求,部分文字表達(dá)的數(shù)據(jù)是不符合的,故將其用數(shù)字來代替,如男、女分別用0、1表示,3個專業(yè)數(shù)學(xué)與應(yīng)用數(shù)學(xué)、計算機(jī)科學(xué)與技術(shù)和網(wǎng)絡(luò)工程則分別用0、1、2表示,考研錄取情況用0、1分別表示未錄取和錄取;最后需構(gòu)建一個預(yù)測模型進(jìn)行預(yù)測,需訓(xùn)練數(shù)據(jù)集和預(yù)測數(shù)據(jù)集,故從整合后新生成的數(shù)據(jù)表中隨機(jī)抽取10個元組作為預(yù)測數(shù)據(jù)集,其余作為訓(xùn)練數(shù)據(jù)集。這是簡單的數(shù)據(jù)預(yù)處理,后面將會運(yùn)用關(guān)聯(lián)分析進(jìn)一步對數(shù)據(jù)進(jìn)行處理。

3數(shù)據(jù)挖掘平臺Rapidminer

RapidMiner(前身是Rapid-I,YALE)是一個十分流行的開源數(shù)據(jù)挖掘軟件,近年來變得非常受歡迎,并得到了一個大型社區(qū)的支持。其視覺吸引力、用戶友好的GUI(圖形用戶界面)和基于WiKi的上下文幫助,允許輕松使用和快速學(xué)習(xí)曲線。它有多個擴(kuò)展提供數(shù)據(jù)和適合于特定的預(yù)定義過程應(yīng)用領(lǐng)域(例如營銷、金融等)和社區(qū),在RapidMiner“市場”上分享流程非常活躍。

RapidMiner的一個重要優(yōu)勢是其在過程設(shè)計中的靈活性,通過“過程/子過程”結(jié)構(gòu)和“宏”表示環(huán)境的全局變量,這使得復(fù)雜過程的可視設(shè)計和高水平自動化得以實現(xiàn)。RapidMiner還提供大量的機(jī)器學(xué)習(xí)算法,用于預(yù)處理和可視化的工具包括大多數(shù)Weka算子和用于合并定制的R和Python腳本的簡單工具。并且,對深度學(xué)習(xí)方法和一些更先進(jìn)的特定機(jī)器學(xué)習(xí)算法(例如,極端隨機(jī)樹)的支持目前受到限制,但是可以通過并入R和Python腳本加以解決[7]。

4數(shù)據(jù)建模

4.1數(shù)據(jù)導(dǎo)入

經(jīng)過數(shù)據(jù)預(yù)處理的訓(xùn)練數(shù)據(jù)集導(dǎo)入Rapidminer平臺,在屬性類型設(shè)置時將考研錄取情況屬性類型設(shè)置為Binominal類型,作為實驗預(yù)測對象,如圖1所示。

4.2關(guān)聯(lián)分析

通過關(guān)聯(lián)分析算法對數(shù)據(jù)進(jìn)行建模,調(diào)用Set Role和Correlation Matrix算子得到所需要的關(guān)聯(lián)系數(shù)矩陣,進(jìn)一步對數(shù)據(jù)進(jìn)行處理。本次實驗采集數(shù)據(jù)量較少,故相關(guān)系數(shù)普遍偏小,經(jīng)過多次實驗嘗試,發(fā)現(xiàn)剔除相關(guān)系數(shù)小于0.05的屬性,得到新的數(shù)據(jù)集再通過神經(jīng)網(wǎng)絡(luò)算法建立的預(yù)測模型最為準(zhǔn)確,如圖2所示。

4.3神經(jīng)網(wǎng)絡(luò)模型建立

通過上述關(guān)聯(lián)分析得到相關(guān)系數(shù),可以在接下來建模時通過調(diào)用Select Attributes算子來選擇合適的屬性(將相關(guān)系數(shù)小于0.05的屬性,如肺活量和坐體前屈屬性剔除)形成新的數(shù)據(jù)集。姓名屬于不相關(guān)屬性但可用來識別元組,因此調(diào)用Set Role算子將其設(shè)置為id屬性用來識別,考研錄取情況屬性為要預(yù)測屬性故將其設(shè)置為Label屬性,最后調(diào)用Neural Net算子建立神經(jīng)網(wǎng)絡(luò)模型,如圖3所示。

4.4模型驗證及預(yù)測

將預(yù)測數(shù)據(jù)集導(dǎo)入Rapidminer平臺中,將其屬性進(jìn)行篩選和設(shè)置,調(diào)用Apply Model算子應(yīng)用神經(jīng)網(wǎng)絡(luò)模型,將其連接全部,如圖4所示。

運(yùn)行程序得出預(yù)測結(jié)果,對得到的預(yù)測模型進(jìn)行驗證和判斷,預(yù)測數(shù)據(jù)集的學(xué)生考研錄取情況,如圖5所示。

5實驗結(jié)果分析

如圖5所示,從得出的預(yù)測結(jié)果可以看出,預(yù)測結(jié)果的置信度較高,且預(yù)測值與實際值一致,說明該預(yù)測模型較為成功。在作關(guān)聯(lián)分析得出相關(guān)系數(shù)矩陣時,選取多大相關(guān)系數(shù)為合適屬性時不能按常規(guī)方法,因為本次實驗的數(shù)據(jù)量較小,而且數(shù)據(jù)項較少,得出的相關(guān)系數(shù)也較小,所以只能逐個剔除當(dāng)前最小相關(guān)系數(shù)屬性進(jìn)行建模,將結(jié)果一一對比,最后得出保留大于0.05相關(guān)系數(shù)的屬性最為合理。

由圖2可知,四年加權(quán)平均成績的相關(guān)系數(shù)最高且為0.260,呈正相關(guān),表明學(xué)習(xí)成績對于考研是重中之重。考研不僅是最后一年的沖刺復(fù)習(xí),同樣要注重大學(xué)四年平時的學(xué)習(xí)和知識積累。

其次身體素質(zhì)成績中的健康成績、立定跳遠(yuǎn)成績、1000米/800米成績相關(guān)系數(shù)都在0.100左右,其中1000米/800米成績相關(guān)系數(shù)是-0.128。驗證那句俗語“身體是革命的本錢”,在備戰(zhàn)考研的同時,不能以犧牲身體為代價,要加強(qiáng)鍛煉,以提高身體的各項基本素質(zhì),特別是長跑,其相關(guān)系數(shù)在這些身體素質(zhì)測試項目中略高一籌,在考研備戰(zhàn)期間制定一個合理的運(yùn)動計劃也尤為關(guān)鍵。

再是專業(yè),其相關(guān)系數(shù)為-0.125,數(shù)據(jù)顯示網(wǎng)絡(luò)工程專業(yè)選擇繼續(xù)攻讀碩士研究生人數(shù)最少,根據(jù)進(jìn)一步調(diào)查了解,更多這個專業(yè)的學(xué)生選擇畢業(yè)后直接找工作,因就業(yè)前景好,而數(shù)學(xué)專業(yè)選擇考研的人數(shù)最多,說明專業(yè)差別和就業(yè)情況也決定是否選擇考研及最后能否成功考取。

最后是性別,從采集的數(shù)據(jù)得知,考研成功的學(xué)生中女生占很大比例,并且其相關(guān)系數(shù)為0.144,說明性別也是成功考取研究生的一個因素,并且在漫長的備戰(zhàn)考研中女生更容易堅持下來并取得成功。

6結(jié)語

本次研究針對采集到的江漢大學(xué)數(shù)計學(xué)院2012級學(xué)生的數(shù)據(jù),利用關(guān)聯(lián)分析算法對預(yù)處的數(shù)據(jù)作進(jìn)一步處理產(chǎn)生新的數(shù)據(jù)集,提高預(yù)測模型的準(zhǔn)確率,最后運(yùn)用神經(jīng)網(wǎng)絡(luò)算法得出預(yù)測模型,并用預(yù)測數(shù)據(jù)集進(jìn)行驗證。實驗結(jié)果表明,影響學(xué)生成功考取研究生的因素不僅包括學(xué)習(xí)成績,還與性別、專業(yè)、身體素質(zhì)相關(guān)。最后的預(yù)測模型和驗證也證明,本次實驗結(jié)果具有可參考的準(zhǔn)確性,實驗結(jié)果能夠?qū)W(xué)校輔導(dǎo)員指導(dǎo)學(xué)生考研提供部分依據(jù)和建議。但本次實驗也存在數(shù)據(jù)量偏小、數(shù)據(jù)偏少等方面的不足,以后可收集更多數(shù)據(jù),進(jìn)一步深入探究,得出更為實質(zhì)性的結(jié)果,提高模型準(zhǔn)確率。

參考文獻(xiàn)參考文獻(xiàn):

[1]HAN JIAWEI,MICHELINE KAMBER.數(shù)據(jù)挖掘:概念與技術(shù)[M].第3版.北京:機(jī)械工業(yè)出版社,2012.

[2]黃炎,王紫玉,黃方亮.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用與研究[J].蘭州文理學(xué)院學(xué)報:自然科學(xué)版,2016,30(3):6468.

[3]李燕,曹寶香,馬兆豐,等.關(guān)聯(lián)分析算法在安全管理平臺中的研究與應(yīng)用[J].計算機(jī)技術(shù)與發(fā)展,2013,23(10):107110.

[4]徐京薇,謝人超,黃濤,等.基于神經(jīng)網(wǎng)絡(luò)算法的ICN網(wǎng)絡(luò)傳輸控制研究[J].重慶郵電大學(xué)學(xué)報:自然科學(xué)版,2016,28(4):539544.

[5]HAN JIAWEI,MICHELINE KAMBER.數(shù)據(jù)挖掘:概念與技術(shù)[M].第3版.北京:機(jī)械工業(yè)出版社,2012.

[6]徐俊,夏驕雄,周時強(qiáng).數(shù)據(jù)斷層分析在廣播電視臺數(shù)據(jù)處理中的應(yīng)用[J].計算機(jī)應(yīng)用與軟件,2016,33(9):40.

[7]SVEN VAN POUCKE,ZHONGHENG ZHANG,MARTIN SCHMITZ,et al.Scalable predictive analysis in critically Ill patients using a visual open data analysis platform[J].Plos ONE,2016,11(1):421.

責(zé)任編輯(責(zé)任編輯:孫娟)

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 亚洲色图另类| a色毛片免费视频| 99r在线精品视频在线播放| 日韩成人高清无码| 波多野结衣无码中文字幕在线观看一区二区 | 亚洲熟妇AV日韩熟妇在线| 国产成人一区二区| 亚洲高清国产拍精品26u| 亚洲浓毛av| 国产在线观看第二页| 好紧太爽了视频免费无码| 久久香蕉国产线看观| 亚洲av无码人妻| 欧美精品成人| 色悠久久久久久久综合网伊人| 中日无码在线观看| 久久久成年黄色视频| 免费看的一级毛片| 亚洲国产成人综合精品2020| 精品夜恋影院亚洲欧洲| 97国产一区二区精品久久呦| 国内精品自在自线视频香蕉| 欧美a级在线| 一级毛片免费高清视频| 亚洲天堂在线免费| 国产区人妖精品人妖精品视频| 精品福利网| 亚洲黄网在线| 欧美亚洲中文精品三区| 成人免费网站久久久| 一级一毛片a级毛片| 综合久久五月天| 三上悠亚一区二区| 中国丰满人妻无码束缚啪啪| 福利一区三区| 久久久精品无码一区二区三区| 99久久精品国产精品亚洲| 中文字幕久久波多野结衣 | 亚洲码一区二区三区| a毛片免费看| 色婷婷啪啪| www.狠狠| 亚瑟天堂久久一区二区影院| 欧美激情,国产精品| 57pao国产成视频免费播放| 日韩免费毛片| 日韩在线观看网站| 日本黄网在线观看| 她的性爱视频| 国产在线高清一级毛片| 国产精品自在在线午夜区app| 巨熟乳波霸若妻中文观看免费| 91美女视频在线| 成人亚洲天堂| 国产午夜在线观看视频| 在线日韩日本国产亚洲| 高清久久精品亚洲日韩Av| 日韩欧美国产中文| 在线看免费无码av天堂的| 国产在线观看高清不卡| 亚洲欧美自拍一区| 日本不卡在线| 国产福利一区视频| 日韩av手机在线| 国产哺乳奶水91在线播放| 亚洲永久色| 亚洲中文字幕在线观看| 亚洲a级在线观看| 福利国产微拍广场一区视频在线| 青青国产视频| 丁香婷婷在线视频| 99精品在线看| 国产视频你懂得| 中文成人无码国产亚洲| 亚洲不卡影院| 国产区成人精品视频| 国产欧美精品一区二区 | 国产另类视频| 久热99这里只有精品视频6| 国产 在线视频无码| 99re免费视频| 婷婷综合色|