999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost算法的研究生入學預測

2020-10-26 06:58:45何葉子
卷宗 2020年19期

何葉子

摘 要:面對碩士研究生招生日益激烈的現狀,構建一個高效的預測模型來預測學生被目標院校錄取的概率,為學生選擇院校提供幫助。根據國外研究生的錄取條件,確定7個申請國外研究生時相對重要的評價指標?;趪庋芯可猩雽W的樣本數據,采用XGBoost來建立研究生錄取的預測模型,將其預測結果與Logistic回歸、隨機森林的結果進行比較分析。XGBoost模型正確率達到了87.43%,比Logistic回歸和隨機森林分別提高了6.9%、1.7%。

關鍵詞:預測;XGBoost算法;研究生入學

隨著大數據、人工智能新一代信息技術的深化研發與應用,為解決當前碩士研究生招生日益激烈的情況[1],本文將機器學習的知識應用到研究生入學領域中,通過構建模型來預測學生被所目標院校錄取的概率,為其擇校提供幫助。

鑒于國內沒有公開統一的數據庫來管理大學生申請研究生的評價指標和具體數據,為了科學地幫助學生結合個人情況,對獲取目標大學研究生指標有公平認識,本文針對國外研究生入學的樣本數據,構建了一個基于XGBoost算法的研究生錄取預測模型。實驗結果表明,該模型具有準確率高、運行時間短的優點。

1 預測模型

1.1 Logistic回歸

Logistic回歸一種是線性回歸,其核心思想是Sigmod函數,該函數能將任意實數值映射成[0,1]的概率值。在對特征和權重進行線性回歸的基礎上,將其結果代入到,得到概率值。

1.2 隨機森林

隨機森林是一種基于Bootstraping的集成算法,首先在訓練樣本數據集N中有放回地重復隨機抽取n個樣本,生成足以代表原始樣本分布的新樣本集合[2]。再從數據集的K個特征中隨機選取k個特征,根據Gini系數選擇出最佳分割特征,作為CART決策樹的結點。進而重復上述步驟m次,得到m棵決策樹所組成的隨機森林。根據多顆決策樹共同執行決策的預測結果,來代表最終預測的結果。

1.3 XGBoost

XGBoost是通過不斷增加分類樹,采用集成的思想,通過多個弱分類器的預測結果的組合,使整體預測效果提升。但隨著不斷加入決策樹,模型葉子結點過多,易出現過擬合的風險[3]。因此,引入樹的正則化懲罰項,對每棵樹的預測結果賦予一定權重,來防止模型過擬合。最終目標函數為每個樣本預測效果偏差值與每棵樹正則懲罰項之和。

2 實驗過程

2.1 數據來源與描述

本文首先確定7個申請國外研究生時被認為重要的評價指標,分別為GRE成績、托福成績、大學評級、目的陳述、推薦信、成績平均累積學分績點、研究經歷,上述選取的指標參考了加州大學洛杉磯分校的研究生招生指標(https://bioinformatics.ucla.edu/),具體各指標描述信息見表1?;谏鲜鲋笜?,采用來源于Mohan S Acharya所提供的400個樣本數據。[4](https://www.kaggle.com/mohansacharya/graduate-admissions)。

2.2 數據探索與處理

通過計算相關系數并比較其值的大小,來觀察指標之間的和各指標與最終錄取機會之間的關聯程度,并通過可視化工具作圖進行查看。結合圖1中兩圖,可以看到,CGPA、GRE成績、托福成績、大學評級與進入大學的機會相關性較高。其它參數如SOP、LOR、Research對入學機會的影響較小。

參考近幾年國外高校的研究生錄取率,得出每年高校研究生招生的平均錄取率為6%,對錄取機會列的數據進行篩選,將其中數據值大于且等于0.7的學生視為錄取,錄取結果的值標記為1;反之標記為0。為了防止構建預測模型時出現過擬合的現象,將樣本數據分為訓練集和測試集,分別占總樣本數據集的65%和35%。

2.3 實驗結果

本次實驗使用Python語言采用了Logistic回歸、隨機森林和XGBoost三種算法模型,對相同的樣本數據進行實驗,將預測結果與實際數據進行對比,分析三者的性能。各個模型的預測準確率數值如表2所示。從表可以得出XGBoost相較于Logictic回歸和隨機森林,準確率較高,運行時間較短。

3 結論

本文采用Mohan S Acharya提供的Admission_Predict數據集,基于XGBoost模型來預測樣本數據中學生的錄取機會概率值并根據實際設置錄取概率閾值,將錄取概率值進行二分類,得出預測錄取結果。進而將預測結果與Logistic回歸、隨機森林模型的預測結果進行比較分析,得出XGBoost具有預測準確率高、運行時間短的優點。根據實驗分析結果,可以為學生進行院校決策提供一定幫助。

參考文獻

[1]鄭麗萍,鄧淼磊.美國計算機專業研究生教育特點與啟示[J].軟件導刊,2019,18(06):204-206+210.

[2]何清,李寧,羅文娟,史忠植.大數據下的機器學習算法綜述[J].模式識別與人工智能,2014,27(04) :327-336..

[3]孫逸菲,袁德成,王建龍,白楊.基于XGBoost方法的葡萄酒品質預測[J].沈陽化工大學學報,2018,32(04) :372-377.

[4]Mohan S A, Asfia A, Aneeta S A. A Comparison of Regression Models for Prediction of Graduate Admissions[Z].IEEE International Conference on Computational Intelligence in Data Science, 2019.

主站蜘蛛池模板: 国产精品久久久久久久久久98| 91精品国产自产91精品资源| 乱码国产乱码精品精在线播放| 69视频国产| 精品视频第一页| 熟女日韩精品2区| 热这里只有精品国产热门精品| 波多野结衣久久高清免费| 蜜桃视频一区| 思思99思思久久最新精品| 亚洲综合色区在线播放2019| 午夜激情婷婷| 亚洲天堂网站在线| 欧美亚洲日韩不卡在线在线观看| 亚洲日韩国产精品综合在线观看| 国产女人18毛片水真多1| 毛片大全免费观看| 国产精品丝袜视频| 国产精品理论片| 国产欧美日韩另类精彩视频| 国产香蕉国产精品偷在线观看 | 天天躁夜夜躁狠狠躁图片| 久久久成年黄色视频| 亚洲黄色激情网站| 波多野吉衣一区二区三区av| av一区二区无码在线| 91精品伊人久久大香线蕉| 人妻一区二区三区无码精品一区 | 国产精欧美一区二区三区| 欧美成人影院亚洲综合图| 99精品国产自在现线观看| 色妺妺在线视频喷水| 高清色本在线www| 日本在线欧美在线| 成人福利免费在线观看| 一级一毛片a级毛片| 亚洲综合狠狠| 国产成人综合亚洲欧美在| 国产在线一区视频| 蝌蚪国产精品视频第一页| 亚洲无码高清视频在线观看 | 日本AⅤ精品一区二区三区日| 亚洲不卡影院| 国产微拍精品| 亚洲视频四区| 亚洲欧美精品日韩欧美| 99在线国产| 午夜爽爽视频| a级毛片视频免费观看| 欧美色视频在线| 亚瑟天堂久久一区二区影院| 玩两个丰满老熟女久久网| www.av男人.com| 国产视频入口| 亚洲第一视频网站| 大香网伊人久久综合网2020| 一级福利视频| 国产美女无遮挡免费视频网站| 美女被躁出白浆视频播放| 久久亚洲国产一区二区| 99ri精品视频在线观看播放| 亚洲成a人在线观看| 欧美啪啪视频免码| 国内黄色精品| 亚洲第一色视频| 精品成人一区二区| 国产产在线精品亚洲aavv| 亚洲欧美人成人让影院| 亚洲欧美日本国产综合在线 | 人妻丰满熟妇啪啪| 99re热精品视频中文字幕不卡| 一区二区三区高清视频国产女人| 91视频精品| 精品久久人人爽人人玩人人妻| 国产黄网永久免费| 亚洲一级毛片在线观播放| 亚洲综合精品香蕉久久网| 亚卅精品无码久久毛片乌克兰 | 国产91无毒不卡在线观看| 欧美日韩国产一级| 国产激爽爽爽大片在线观看| 亚洲一区二区三区国产精华液|