999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM的高校就業(yè)預測模型

2020-11-18 09:14:22羅丹劉旋
電腦與電信 2020年8期
關(guān)鍵詞:分類特征模型

羅丹 劉旋

(信陽農(nóng)林學院信息工程學院,河南 信陽 464000)

1 引言

隨著大數(shù)據(jù)時代的到來,教育領(lǐng)域積累了海量的格式化學生信息,利用數(shù)據(jù)挖掘來發(fā)現(xiàn)信息背后的知識,改進高校畢業(yè)生就業(yè)管理的工作模式,進而提高就業(yè)率和就業(yè)工作滿意度,是高校教育信息化發(fā)展的必由之路。

目前,多數(shù)研究都是針對畢業(yè)生的學習成績、日常活動和創(chuàng)新實踐等信息進行挖掘分析,以此預測學生今后的就業(yè)去向,然后進行就業(yè)指導和決策。例如,Patuelli 等人采用神經(jīng)網(wǎng)絡(luò)動態(tài)調(diào)整參數(shù),成功預測了德國部分區(qū)域的就業(yè)方向[1]。王亞如等人采用基本的決策樹算法,根據(jù)大學生行為數(shù)據(jù)構(gòu)建就業(yè)預測模型[2]。陳為景利用最新的調(diào)查數(shù)據(jù),采用統(tǒng)計分析得到云南少數(shù)民族畢業(yè)生的就業(yè)決策及影響因素[3]。上述方法大多忽略了學生數(shù)據(jù)樣本增加的速度、就業(yè)去向的多樣化(多類別),因此難以處理大規(guī)模的復雜數(shù)據(jù)。其次,以往數(shù)據(jù)挖掘方法往往忽略了未就業(yè)的學生樣本,只注重預測的整體準確率,雖然這些未就業(yè)數(shù)據(jù)樣本所占比例很小,但卻是高校就業(yè)研究的重點。

綜上,本文提出了一種基于LightGBM 的不平衡數(shù)據(jù)多分類模型,根據(jù)某高校畢業(yè)生的各項信息,通過結(jié)合抽樣算法,平衡樣本數(shù)據(jù)量,更好地提升少數(shù)類的預測精度,然后根據(jù)該模型的特征重要度分析,得到各個特征對就業(yè)影響的重要度,從而量化就業(yè)因子,針對性地解決高校就業(yè)問題。

2 相關(guān)方法

2.1 LightGBM原理

LightGBM(Light Gradient Boosting Machine)[4]是一種基于梯度提升決策樹(GBDT)[5]算法的開源框架,因其高效、快速和并行的優(yōu)點被廣泛用于處理分類、回歸等問題,能夠保證較好的分類和預測結(jié)果。

由于GBDT 采用預排序方法(Pre-sorted)進行迭代,所以需要遍歷整個數(shù)據(jù)集多次,導致其空間和時間復雜度較大,而LightGBM的提出解決了GBDT無法處理大規(guī)模數(shù)據(jù)的問題,主要改進包括:(1)采用基于Histogram 的決策樹算法把連續(xù)特征離散化,通過構(gòu)造直方圖來遍歷數(shù)據(jù)并進行統(tǒng)計,以此尋找最優(yōu)的分割點,大幅降低內(nèi)存和計算消耗;(2)使用基于深度限制的Leaf-wise葉子生長策略[6],每次迭代從當前所有葉子節(jié)點中,找到分裂增益最大的葉子節(jié)點進行分裂,降低了誤差;(3)多線程效率優(yōu)化。LightGBM構(gòu)建樹的過程如下:

假設(shè)數(shù)據(jù)集為S={(xi,yi),i=1,2,…,n},xi=[xi1,xi2,…,xim],其中m為特征數(shù)目,yi為類別特征。首先對S中的特征進行歸一化,并計算初始梯度值:

然后構(gòu)建樹:(1)計算直方圖

(2)基于直方圖計算分裂收益,并選取最佳分裂特征G,得到分裂閾值I:

(3)建立根節(jié)點:

重復上述步驟1 到3,直到達到葉子數(shù)目限制或者所有葉子節(jié)點不能繼續(xù)分割為止,最后更新樹的梯度值,完成所有樹的構(gòu)建,并對待分類樣本進行處理。

2.2 ADASYN過采樣

ADASYN[6]是一種過采樣方法,根據(jù)原數(shù)據(jù)中少數(shù)類樣本的分布自動生成新的少數(shù)類樣本,以此降低數(shù)據(jù)集的不平衡度,具體過程為:

(1)計算數(shù)據(jù)集S的不平衡度和待合成樣本數(shù)量:假設(shè)少數(shù)類樣本為Sm,多數(shù)類為Sn,則不平衡度d=Sm/Sn,差異數(shù)量G=(Sn-Sm)×k,k∈[0,1]。

(2)采用歐式距離計算各個少數(shù)類樣本的k個鄰居,△為k個鄰居中屬于多數(shù)類的樣本數(shù)目,占比r=/k,r∈[0,1]。

(3)根據(jù)少數(shù)類樣本的ri,計算每個少數(shù)類樣本周圍多數(shù)類的情況

3 基于LightGBM的就業(yè)預測模型

本文提出一種基于LightGBM 算法的預測模型,通過引入ADASYN過采樣方法,降低訓練數(shù)據(jù)集中的不平衡性,然后結(jié)合貝葉斯參數(shù)優(yōu)化訓練得到最優(yōu)模型參數(shù),并對測試數(shù)據(jù)進行預測,最后根據(jù)預測結(jié)果計算各個特征的重要度。

3.1 不平衡處理

ADASYN 算法生成的少數(shù)類樣本是通過線性插值得到,雖然擴張了少數(shù)類的樣本空間,但原本屬于多數(shù)類的樣本空間被新生成的少數(shù)類干擾,使得少數(shù)類的預測結(jié)果過擬合。本文結(jié)合TomekLinks 算法,剔除ADASYN 生成的噪聲點和邊界點,對新擴充的少數(shù)類樣本進行清洗,使得對少數(shù)類的預測結(jié)果更準確。其方法如下:

假設(shè)樣本點x與y屬于不同類別,如果不存在另一個樣本點z,使得d(x,z)

3.2 LightGBM預測模型

LightGBM 與Xgboost[7]算法類似,能夠很好地支持標簽特征,但算法的初始參數(shù)較多,且取值直接影響預測結(jié)果的優(yōu)劣。本文采用貝葉斯優(yōu)化(Bayesian Optimization)[8]進行參數(shù)尋優(yōu),Bayesian Optimization 能夠根據(jù)已有的采樣點預估模型最優(yōu)值,然后通過交叉驗證確定最佳效果參數(shù)。假設(shè)一組超參數(shù)組合是X=x1,x2,…,xn(xn表示某一個超參數(shù)的值):

其中μ(x)和σ(x)分別為下一次采樣x的均值與方差,而β為權(quán)重參數(shù),通過循環(huán)選參數(shù)t次高效地調(diào)節(jié)超參數(shù),使LightGBM預測的準確率最優(yōu)。

3.3 特征重要度計算

根據(jù)預測結(jié)果,計算全體特征對預測結(jié)果的重要度,并度量影響就業(yè)預測的因素。LightGBM通過計算所有非葉子節(jié)點在分裂時加權(quán)不純度的變化,以此選擇減少最多、收益最大的特征進行分裂,通過計算各個特征的收益率,得到其對分類結(jié)果產(chǎn)生影響的重要程度,進而量化分類預測的影響因素。特征j的全局重要度計算如下:

其中,M是樹的數(shù)量,L是樹的非葉子節(jié)點數(shù)量是節(jié)點t分裂之后平方損失減少值。

3.4 高校就業(yè)預測模型流程

輸入:測試數(shù)據(jù)集Test、訓練數(shù)據(jù)集Train和LightGBM初始參數(shù)X

輸出:Test的預測結(jié)果和特征重要度排序

步驟 1:先采用 ADASYN 和 Tomeklinks 算法對Train中的少數(shù)類進行過采樣,生成新的少數(shù)類樣本集Train1。Train和Train1形成新訓練集Train2。

步驟2:設(shè)置LightGBM 的初始參數(shù)X,采用LightGBM算法對Train2進行首次訓練。

步驟3:根據(jù)Train2的初始預測結(jié)果,利用貝葉斯優(yōu)化對LightGBM 的參數(shù)尋優(yōu),直到滿足指定次數(shù),選取LightGBM的最優(yōu)超參數(shù)X1,并計算Test的最終預測結(jié)果。

步驟4:根據(jù)LightGBM 的樹結(jié)構(gòu),通過公式(6)計算所有特征的重要度并排序,度量影響分類結(jié)果的特征因子。

4 實驗結(jié)果與分析

4.1 評價指標

針對不平衡就業(yè)數(shù)據(jù)集,本文采用查全率(Recall)、查準率(Precision)和F-measure作為評價方法。假設(shè)TP和FP分別表示少數(shù)類(正類)分類的正確數(shù)和誤分數(shù),TN和FN分別表示多數(shù)類(負類)分類的正確數(shù)和誤分數(shù),F(xiàn)-measure是一種衡量少數(shù)類分類性能的評價指標,只有當Recall和Precision值都較高時,才能得到較好的預測結(jié)果,其定義如下:

4.2 就業(yè)數(shù)據(jù)集

本文以某高校2015至2018屆畢業(yè)生相關(guān)就業(yè)信息作為數(shù)據(jù)集,數(shù)據(jù)集存在嚴重的非平衡。數(shù)據(jù)集預處理過程:(1)首先采集教務(wù)處、招生就業(yè)處的學生信息,例如姓名、專業(yè)、學習成績和就業(yè)單位等。(2)清洗掉數(shù)據(jù)中的敏感、私密特征(身份證號、家庭住址等)。(3)對標簽特征進行獨熱編碼(One-Hot Encoding),對連續(xù)性特征進行歸一化處理,并刪除重復缺失數(shù)據(jù),最終得到11542 條、13 個特征、4 類的有效數(shù)據(jù)。數(shù)據(jù)集描述如表2和表3所示:

表1 數(shù)據(jù)樣本分布

表2 數(shù)據(jù)特征描述

Class4為正類(少數(shù)類),Class1、2、3為負類(多數(shù)類),本文隨機抽取20%的樣本作為測試集,剩余作為訓練集。

4.3 實驗結(jié)果分析

本文實驗環(huán)境為:python3.6、win10系統(tǒng)、內(nèi)存16G、處理器i7-7400。針對該校的就業(yè)統(tǒng)計數(shù)據(jù),為了使實驗結(jié)果更具客觀性,采用10折交叉驗證進行分類,與GBDT、BalanceCascade[10]、SMOTE-SVM[11]、EasyEnsemble[12]等不平衡分類方法進行實驗對比。這里,本文方法通過貝葉斯優(yōu)化后的最優(yōu)參數(shù):num_leaves=15(每棵數(shù)的葉子數(shù)量),learning_rate=0.3(學習率),max_depth=11(最大學習深度),min_data=55(最小葉子數(shù)),bagging_fraction=0.85(采樣比例),min_gain_to_split=0.2(切分的最小收益)。

表3 對比實驗結(jié)果

從表3實驗結(jié)果可知,由于數(shù)據(jù)的不平衡性和復雜性,導致上述對比算法對正類(少數(shù)類)的預測精度低于本文算法,雖然本文算法的整體準確率略低于BalanceCascad 算法,但對少數(shù)類的預測準確率較高,所以Recall和F-measure高于其他對比算法,說明了本文方法能有效識預測畢業(yè)生的就業(yè)去向,且對未就業(yè)學(少數(shù)類)的預測精度顯著提高。由于本文算法加入了貝葉斯參數(shù)優(yōu)化,所以耗時相對較高,仍須進一步降低其時間復雜度。

為進一步驗證算法的魯棒性,繪制出五種算法的ROC曲線,如圖1 所示。在各指標中,本文算法的ROC 曲線最靠近左上角,預測的準確性最高,且AUC面積值也高于其他算法。由此可知,本文模型提升了少數(shù)類的預測精度,且造成較少的假負錯誤,證明了本文模型能夠有效處理不平衡數(shù)據(jù)分類。

此外,通過表3 的特征權(quán)重排序(前五)可知,Academy(所在學院)、Average(成績)特征對就業(yè)去向影響較大,主要原因在于未就業(yè)學生集中于個別學院,且綜合成績相對較低,其次Creative(創(chuàng)新學分)、Unqualified(掛科數(shù))也對預測結(jié)果有一定影響。將權(quán)值較高的特征作為就業(yè)因子,以此加大對待就業(yè)學生的相關(guān)指導與幫助,針對就業(yè)因子的改善就業(yè)工作的重點,進一步提升整體就業(yè)滿意度。

表4 特征權(quán)重

5 結(jié)語

智能化的高校就業(yè)分析一直是一個難題,本文通過對LightGBM 模型進行改進,提出了一種處理不平衡數(shù)據(jù)的高校就業(yè)去向預測模型,有效預測并分析了學生的就業(yè)去向,并得出影響就業(yè)的主要因素、特征。隨著學生數(shù)目和特征的不斷擴大,如何增量式地構(gòu)建預測模型,動態(tài)分析學生就業(yè)數(shù)據(jù),是本文今后的研究重點。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 日韩视频免费| av午夜福利一片免费看| 国产精品林美惠子在线观看| 55夜色66夜色国产精品视频| 亚洲精品第一页不卡| 亚洲第一成年网| 性欧美在线| 国产高清不卡| 黑人巨大精品欧美一区二区区| 色婷婷色丁香| 天天色天天操综合网| 亚洲免费播放| 青青草91视频| 国产高清色视频免费看的网址| 免费啪啪网址| 亚洲中文字幕在线一区播放| 日本亚洲欧美在线| 视频在线观看一区二区| 浮力影院国产第一页| 精品国产乱码久久久久久一区二区| 国产福利免费在线观看| 91色在线观看| 国产激情无码一区二区免费| 国产欧美日韩一区二区视频在线| 国产精品30p| 四虎影视无码永久免费观看| 无码精油按摩潮喷在线播放| 91偷拍一区| 久久人体视频| 91在线国内在线播放老师| 国产成人亚洲精品色欲AV| 园内精品自拍视频在线播放| 日韩成人在线一区二区| 欧美人人干| 99热这里只有成人精品国产| 国产精品大白天新婚身材| 国产欧美日韩视频一区二区三区| 日本一区高清| 久久天天躁狠狠躁夜夜2020一| 5555国产在线观看| 亚洲无码熟妇人妻AV在线| 亚洲天堂精品视频| 欧美日本在线| 久久亚洲国产视频| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 在线观看免费黄色网址| av一区二区无码在线| 一区二区三区在线不卡免费| 国产免费网址| 无码丝袜人妻| 久久精品娱乐亚洲领先| 国产综合亚洲欧洲区精品无码| 精品国产自| 亚洲精品无码抽插日韩| 日韩国产精品无码一区二区三区| 超碰精品无码一区二区| 夜夜拍夜夜爽| 欧美日韩在线国产| 亚洲不卡影院| 成人午夜精品一级毛片| 国产午夜福利片在线观看| 91久久偷偷做嫩草影院| 91麻豆国产视频| 国产91麻豆视频| 亚洲国产成人无码AV在线影院L| av色爱 天堂网| 亚洲男人天堂久久| 久久99国产乱子伦精品免| 久久99久久无码毛片一区二区 | 免费一级无码在线网站| 狠狠亚洲五月天| 欧美国产在线看| 伊人久久福利中文字幕| 亚洲无码37.| 国产真实乱人视频| 日韩成人免费网站| 免费A∨中文乱码专区| 色视频国产| 一级看片免费视频| 亚洲开心婷婷中文字幕| 香蕉eeww99国产精选播放| 欧美国产综合色视频|