999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙重擾動與核ELM融合的大學(xué)生貧困認(rèn)定模型研究

2021-06-10 07:29:56鄭建華劉雙印賀超波
關(guān)鍵詞:特征大學(xué)生學(xué)生

鄭建華,朱 蓉,劉雙印,賀超波

(1.仲愷農(nóng)業(yè)工程學(xué)院 信息科學(xué)與技術(shù)學(xué)院,廣州 510225;2.廣東省高校智慧農(nóng)業(yè)工程技術(shù)研究中心,廣州 510225)

高等教育肩負(fù)國家人才培養(yǎng)重任。我國各類高等教育2018年在學(xué)總規(guī)模達(dá)到3 833萬人[1],其中貧困生約占20%,保證每個大學(xué)生不因貧困而輟學(xué)是實現(xiàn)人才興國的重要前提。習(xí)近平總書記在“五個一批”的脫貧攻堅計劃中特別強調(diào)“做好高校貧困大學(xué)生生活困難補助”[2],但作為開展資助工作前提的貧困認(rèn)定卻始終不盡如人意。大學(xué)生貧困認(rèn)定需要經(jīng)過個人申請、班級審批、院校認(rèn)定等步驟,整個過程需要學(xué)生提交相關(guān)證明材料。目前的貧困認(rèn)定過程存在以下問題:①部分真正貧困的學(xué)生因為自卑不愿意把自家隱私暴露,導(dǎo)致真貧困學(xué)生無法享受資助;②地方基層配合學(xué)生提供造假材料,導(dǎo)致偽貧困學(xué)生享受資助。由于以上現(xiàn)象的存在,廣大學(xué)生對于貧困認(rèn)定結(jié)果認(rèn)可度不高[3]。2013年,習(xí)總書記進(jìn)一步提出“精準(zhǔn)扶貧”要求[4]:確保扶貧資源真正用在扶貧對象身上、真正用在貧困地區(qū)。因此,在精準(zhǔn)扶貧視閾下,精準(zhǔn)識別貧困大學(xué)生是幫扶大學(xué)生的首要關(guān)鍵。

判斷貧困生涉及很多因素,目前大部分貧困認(rèn)定研究主要圍繞政策、理論、制度、實施方案等展開,在精準(zhǔn)量化貧困認(rèn)定方面的研究成果不多。大部分研究者綜合學(xué)生的消費數(shù)據(jù)、學(xué)生家庭經(jīng)濟收入、學(xué)生家庭情況、學(xué)生助學(xué)貸款等多方面信息,運用決策樹、模糊層次分析法、HMM進(jìn)行分析[5-7]。以上方法雖取得了一定效果,但往往很難收集學(xué)生家庭收入、家庭人均居住面積、學(xué)生高檔消費品等精確數(shù)據(jù),而學(xué)生家庭是否屬于低保、家庭成員病殘健康情況又涉及隱私。同樣,在分析方法上,貧困認(rèn)定涉及因素眾多,目前仍未有一種方法能較好地對貧困學(xué)生實現(xiàn)精準(zhǔn)識別。

極限學(xué)習(xí)機(extreme learning machine,ELM)是Huang等[8]提出的一種高效單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)學(xué)習(xí)算法,具有訓(xùn)練速度快、泛化能力強的特點,目前已廣泛應(yīng)用于社交網(wǎng)絡(luò)用戶行為預(yù)測[9]、醫(yī) 療 診 斷[10]、電 力 預(yù) 測[11-12]、故 障 診斷[13]、室內(nèi)定位[14]等領(lǐng)域。為此,在不攝取學(xué)生隱私信息和保障數(shù)據(jù)客觀性的前提下,以學(xué)生一卡通消費數(shù)據(jù)、學(xué)生家庭住址、家庭學(xué)生數(shù)量這些客觀數(shù)據(jù)為基礎(chǔ),采用特征分桶、交叉算法構(gòu)建貧困認(rèn)定模型特征,并針對貧困生數(shù)據(jù)集不平衡的特點,構(gòu)建融合輸入屬性、數(shù)據(jù)樣本雙重擾動和核ELM的DP_KELM高校大學(xué)貧困認(rèn)定模型,以期為校園精準(zhǔn)扶貧提供輔助決策依據(jù)。

1 大學(xué)生貧困認(rèn)定模型特征構(gòu)建

1.1 貧困認(rèn)定模型特征篩選

數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,選擇合適的特征是構(gòu)建高校大學(xué)生貧困認(rèn)定模型的關(guān)鍵。美國貧困大學(xué)生資助系統(tǒng)計算公式為:資助需求=入學(xué)成本-預(yù)期家庭貢獻(xiàn)(需要考慮家庭年收入)。胡苗苗等[15]評價方法中考慮了家庭經(jīng)濟收入、家庭人員組成以及學(xué)生在校學(xué)習(xí)生活平均消費情況。雖然年家庭收入可以真實反映家庭貧困情況,但在我國尚未建立完善的收入管理系統(tǒng)時,這是一個動態(tài)且主觀的數(shù)據(jù),學(xué)生可以任意虛構(gòu)。針對這種情況,田志磊等[16]考慮了非收入變量,如居住地與公共服務(wù)的可得性、住房條件等屬性特征。宋美喆[7]則基于學(xué)生是否單親、家庭致災(zāi)情況、家庭成員健康狀況、家庭成員工作狀況等信息,采用模糊綜合評價方法對貧困大學(xué)生進(jìn)行認(rèn)定。顯然,以上信息是影響家庭貧困與否判斷的重要因素,但非收入數(shù)據(jù)很難量化。對此,廣東省教育廳印發(fā)的《廣東省家庭經(jīng)濟困難學(xué)生認(rèn)定工作指標(biāo)解釋》明確了各種情況的量化分?jǐn)?shù),但實際上這樣的信息涉及隱私,且自卑的學(xué)生通常不愿意提供真實數(shù)據(jù)。綜上,篩選出能夠反映學(xué)生家庭情況的客觀、可量化特征是實現(xiàn)高校大學(xué)生貧困識別的關(guān)鍵。

近些年,隨著高校一卡通系統(tǒng)的建立,通過一卡通可以采集到學(xué)生在學(xué)校就餐的次數(shù)、消費均值、消費總次數(shù)等數(shù)據(jù)。這些反映學(xué)生消費能力的信息可以成為反映學(xué)生家庭收入情況的指標(biāo)。鄭州大學(xué)、中國科學(xué)技術(shù)大學(xué)、電子科技大學(xué)、南京理工大學(xué)等高校基于學(xué)生消費數(shù)據(jù)自動生成貧困家庭學(xué)生建議名單,并進(jìn)行資助[17]。本文中以一卡通數(shù)據(jù)為基礎(chǔ),采用統(tǒng)計方法,篩選了6個消費特征:總消費次數(shù)(TotalTimes)、消費總量(TotalAmount)、次消費均值(TranMean)、次消費均值中位數(shù)(TranMeanMedian)、月消費均值(TranMonth-Mean)、次最大消費金額(MaxAmoun)。

然而,僅僅依靠一卡通數(shù)據(jù)并不能精準(zhǔn)識別貧困生。王澤原等[5]利用隨機森林算法對一卡通消費數(shù)據(jù)進(jìn)行處理,識別平均準(zhǔn)確率為79%。實際上,一個學(xué)生的消費情況不僅與貧困情況有關(guān),還與性別有關(guān),比如女生次消費均值可能低于男生。另外,學(xué)生貧困情況還可能與學(xué)生生源地有關(guān)。為此,篩選了學(xué)生性別(Sex)、學(xué)生居住地(Address)2個特征,并采用家庭學(xué)生數(shù)量(Stu-Num)反映一個家庭支出壓力,同時構(gòu)建一個表示學(xué)生的消費能力的特征PerStu=TranMean/Stu-Num。顯然,這4個特征可以反映學(xué)生的個體特征和家庭背景,且這4個特征是客觀、穩(wěn)定特征,數(shù)據(jù)容易獲取,且不會涉及學(xué)生隱私。至此,共篩選出10個貧困認(rèn)定模型的特征。

1.2 貧困認(rèn)定模型特征預(yù)處理、分箱與交叉

1.2.1 特征預(yù)處理

在篩選出的貧困認(rèn)定模型的10個特征中,Address是一個離散變量,本文中采用One-Hot編碼對Address進(jìn)行特征預(yù)處理,使得每個城市成為1個特征。例如,目前廣東省有21個地級市、20個縣級市,將Address數(shù)據(jù)預(yù)處理后形成了City_1,City_2,…,City_41共41個特征,不過現(xiàn)實中將根據(jù)實際數(shù)據(jù)集的情況決定有多少個City特征。

1.2.2 特征分箱與特征交叉

在選定的10個特征中,涉及消費信息的特征都是連續(xù)變量特征,有時特征數(shù)值稍有變動就會對模型的結(jié)果造成很大波動。為提高模型的穩(wěn)定性、避免異常值的干擾,對TotalTimes、TranMean進(jìn)行分箱處理,將每個特征分成6個均衡的區(qū)間。

機器學(xué)習(xí)算法對非線性規(guī)律的擬合能力往往決定了算法能達(dá)到的精度。為提高算法對特征非線性規(guī)律的擬合能力,采用特征交叉算法,將2個或多個輸入特征相組合來表達(dá)特征的非線性特征規(guī)律。比如,同樣每次平均消費8.5元,對于判斷男生和女生是否為貧困生的結(jié)果可能是不一樣的,因此可以構(gòu)建“男生-8.5”,“女生-8.5”兩個不同特征。本文中主要將Sex與分箱后的Tran-Mean,Sex與分箱后的TotalTimes分別進(jìn)行特征交叉,最終形成24個新特征,具體特征交叉算法描述如表1所示。

表1 特征交叉算法

最后,刪除總消費次數(shù)(TotalTimes)、消費均值(TranMean)、家庭住址(Address)3個已經(jīng)處理后的特征。

2 DP_KELM貧困認(rèn)定模型設(shè)計

2.1 KELM數(shù)學(xué)模型

極限學(xué)習(xí)機(extreme learning machine ELM)是一種高效的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,其學(xué)習(xí)過程無需對網(wǎng)絡(luò)權(quán)重和偏置進(jìn)行迭代調(diào)整。該算法具有訓(xùn)練速度快、泛化能力強的特點,同時具有SLFN的插值能力、通用逼近能力和分類能力。

給定有N個樣本的訓(xùn)練數(shù)據(jù)集{xi,yi|xi∈RD,yi∈Rm,i=1,2,3,…,N},其中xi表示第i個含有D個特征的數(shù)據(jù),具體表示為xi=[xi1,xi1,…,xiD]T。yi表示第i個數(shù)據(jù)對應(yīng)的標(biāo)記,具體表示為yi=[yi1,yi1,…,yim]T,式中m表示對應(yīng)m個輸出變量。則對于具有L個隱層節(jié)點、激活函數(shù)為g的極限學(xué)習(xí)機ELM模型可以描述為:

式中:wj=[wj1,wj2,…,wjD]表示第j個隱層節(jié)點與輸入節(jié)點間的權(quán)值;bj表示第j個隱層神經(jīng)元的偏置補償;βj=[βj1,βj2,…,βjm]是第j個隱層單元的輸出權(quán)值。

若設(shè)隱層輸出用矩陣H表示:

則極限學(xué)習(xí)機可以表示為:

其中

根據(jù)文獻(xiàn)證明[8],當(dāng)激活函數(shù)g無限可微時,對于任意賦值wi∈Rn和bi∈R的情況,一定存在1個含有K(K≤D)個隱層神經(jīng)元的SLFN使得。因此,隱層與輸出層的權(quán)值β可以通過求解以下最優(yōu)化問題得到:

當(dāng)wi∈Rn和bi∈R已知,則H可以確定,H+T,故ELM分類器的輸出函數(shù)可以表示為:

但在實際應(yīng)用中,常會出現(xiàn)數(shù)據(jù)在原始空間是非線性可分的情況,因此將核方法引入ELM模型,通過核函數(shù)將輸入空間低維的數(shù)據(jù)映射到高維,使得原空間非線性可分問題轉(zhuǎn)為高維線性可分問題。故在ELM中引入核函數(shù)K(xi,xj),并構(gòu)建核矩陣[18]ΩELM:

顯然,ΩELM僅與輸入數(shù)據(jù)有關(guān),而通過核函數(shù)K(xi,xj)實現(xiàn)了高維空間的內(nèi)積h(xi)·h(xj)操作。

這樣,KELM(kernel ELM)模型的輸出可以表示為:

2.2 雙重擾動不平衡數(shù)據(jù)處理策略

大學(xué)生中貧困生的占比約為20%,這是典型的不平衡數(shù)據(jù)。由于傳統(tǒng)的分類算法傾向多數(shù)類,導(dǎo)致這類算法并不適用不平衡數(shù)據(jù)場景。常見的2種處理不平衡數(shù)據(jù)的策略基于數(shù)據(jù)預(yù)處理和基于算法改進(jìn)[19]。數(shù)據(jù)預(yù)處理又包括重采樣和特征處理技術(shù),基于算法改進(jìn)主要包括代價敏感方法和集成學(xué)習(xí)方法。重采樣技術(shù)包括上采樣算法如SMOTE、ADASYN等,下采樣算法則有隨機下采樣算法(RUS)。重采樣技術(shù)雖然簡單實用,但下采樣會丟失多數(shù)類樣本特征信息,而上采樣又容易引入誤差,使用受到限制。集成學(xué)習(xí)通過構(gòu)建并結(jié)合多個基學(xué)習(xí)器完成學(xué)習(xí)任務(wù),通常可以獲得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能[20]。Easy Ensemble Classifier算法[21]是一種有效的不平衡數(shù)據(jù)分類方法,該算法融合了重采樣技術(shù)與集成學(xué)習(xí)的優(yōu)點,將多數(shù)類樣本隨機分成多個子集,每個子集分別與少數(shù)類合并,得到多個新的訓(xùn)練子集,并利用每個訓(xùn)練子集訓(xùn)練1個AdaBoost基分類器,最后集成所有基分類器,得到最終的集成分類器。

在集成學(xué)習(xí)中,提升各基分類器的獨立性或多樣性有利于提升最終學(xué)習(xí)效果。提升基分類器多樣性的方式主要有對數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進(jìn)行擾動。數(shù)據(jù)樣本擾動指為每個基分類器選擇不同的訓(xùn)練樣本,顯然Easy Ensemble Classifier是利用數(shù)據(jù)樣本擾動方式提升基分類器的多樣性,使得最終的分類效果較好。訓(xùn)練樣本中X一般由一組屬性特征描述。輸入屬性擾動指為不同基分類器選擇若干屬性子集,然后基于每個屬性子集訓(xùn)練基分類器。輸入屬性擾動不僅能生成多樣性大的個體,還會因為屬性數(shù)的減少而節(jié)省訓(xùn)練時間開銷。

針對大學(xué)生貧困認(rèn)定不平衡數(shù)據(jù)集,綜合使用重采樣技術(shù)和集成學(xué)習(xí)來處理平衡數(shù)據(jù)集,在過程中同時使用數(shù)據(jù)樣本擾動和輸入屬性擾動兩種擾動方式,旨在提升基分類器的多樣性,從而提升分類效果。具體措施為:對每個基分類器,從多數(shù)類(非貧困生)樣本中隨機選擇與少數(shù)類樣本(貧困生)數(shù)量一致的樣本,將這些多數(shù)類樣本與全部少數(shù)類樣本構(gòu)成1個平衡訓(xùn)練子集;然后,在該訓(xùn)練子集中隨機刪除n個特征屬性,從而構(gòu)建每個基分類器的最終訓(xùn)練數(shù)據(jù)集。

2.3 DP_KELM算法模型

基于以上分析,將KELM作為集成學(xué)習(xí)的基分類器,采用數(shù)據(jù)樣本和輸入屬性雙重擾動方式構(gòu)建每個基分類器的訓(xùn)練數(shù)據(jù)集,然后訓(xùn)練不同KELM基分類器。在測試階段則采用投票方式獲得最終的分類結(jié)果。由此構(gòu)建DP_KELM算法模型,如圖1所示。

圖1 DP_KELM算法模型示意圖

DP_KELM訓(xùn)練過程算法偽代碼如表2所示。

表2 DP_KELM 算法訓(xùn)練過程偽代碼

對測試樣本x,輸出結(jié)果為

3 實驗設(shè)計與結(jié)果分析

3.1 實驗數(shù)據(jù)集

以筆者所在院校的信息科學(xué)與技術(shù)學(xué)院全體學(xué)生2018年一卡通消費數(shù)據(jù)以及學(xué)生的基礎(chǔ)信息數(shù)據(jù)為基礎(chǔ),以廣東省教育廳的貧困生認(rèn)定結(jié)果數(shù)據(jù)為標(biāo)簽數(shù)據(jù)。通過數(shù)據(jù)清洗和特征工程,共得到2 104名學(xué)生樣本,其中非貧困1 708人,認(rèn)定貧困396人,貧困與非貧困比例為1∶4.3。在特征方面,共取得City特征35個(部分城市無該學(xué)院學(xué)生),Sex與TransMean交叉特征12個,Sex與TotalTimes交叉特征12個,以及包括消費總量(TotalAmount)、次消費均值中位數(shù)(TranMeanMedian)、月消費均值(TranMonthMean)、次最大消費金額(MaxAmoun)、學(xué)生家庭學(xué)生數(shù)量(StuNum、PerStu)、性別Sex這7個特征,合計66個特征。

3.2 實驗結(jié)果評價指標(biāo)

貧困認(rèn)定是典型的二分類問題,用混淆矩陣表示識別結(jié)果,如表3所示。分類問題一般常用查準(zhǔn)率(Accuracy、Precision),召回率(Recall)、F1等指標(biāo)衡量分類性能。其中用于衡量分類準(zhǔn)確性的指標(biāo)Accuracy定義為:

但在不平衡問題中Accuracy并不能真正反映用戶需求。若有1 000個學(xué)生,10個貧困生,假如分類器A將10個貧困生都誤分為非貧困生,此時A的Accuracy為0.99,但實際上1個貧困生也沒有被發(fā)掘出來,即對貧困生的召回率為0。假如分類器B將30個人都判定為貧困生,但將10個真正的貧困生識別出來,此時B的Accuracy為0.97,其對貧困生的召回率為1,顯然學(xué)校更愿意接受分類器B。因此,針對貧困認(rèn)定問題,在保證Accuracy的基礎(chǔ)上,提高貧困生的識別率非常關(guān)鍵。

表3 混淆矩陣中的行與列

G-mean是Kubat[22]提出的一種魯棒性較好的不平衡數(shù)據(jù)分類方法的評價指標(biāo)。該指標(biāo)主要關(guān)注少數(shù)類和多數(shù)類的召回率情況。用該指標(biāo)可以較好地綜合評價貧困生和非貧困生的召回率。其定義如下:

但G-mean僅關(guān)注了召回率情況,而關(guān)注貧困和非貧困分類錯誤同樣重要[23]。為了衡量召回率和準(zhǔn)確率的綜合情況,本文中采用對不平衡數(shù)據(jù)不敏感的AUC值,該值是受試者工作特征曲線ROC與坐標(biāo)軸圍成的區(qū)域面積,AUC越接近1,則表示分類器性能越好。

3.3 實驗環(huán)境與方式

為了驗證DP_KELM性能,將DP_KELM和對比算法應(yīng)用于上述數(shù)據(jù)集,然后比較Accuracy、G-mean和AUC值。實驗的操作系統(tǒng)為Windows7,CPU主頻為3.6 GHz,內(nèi)存為32G,編程語言為Python3.6,涉及包有Pandas、Numpy、Sklearn、Imblearn。

實驗過程中,為取得公平的結(jié)果,對于所有數(shù)據(jù)集采用4折交叉驗證方法;然后,執(zhí)行5遍以上過程,取5遍執(zhí)行結(jié)果的平均值作為該算法的結(jié)果值。

3.4 實驗結(jié)果與分析

3.4.1 刪除的特征數(shù)量對KP_KELM性能的影響

影響KP_KELM算法性能的參數(shù)主要有輸入屬性擾動過程中刪除的特征數(shù)量n、KELM的隱層節(jié)點數(shù)量nh、KELM的核函數(shù)和激活函數(shù)。

實驗中,統(tǒng)一采用高斯核函數(shù)作為KP_KELM的核函數(shù),使用Mish函數(shù)[24]作為激活函數(shù)。相對于Sigmoid、ReLU這類激活函數(shù),Mish是一個自正則非單調(diào)激活函數(shù),函數(shù)公式為Mish=x*tanh(ln(1+ex))。該函數(shù)曲線上所有點幾乎都是平滑的,無上界避免了由于封頂導(dǎo)致的飽和,也不似ReLU有硬零邊界。文獻(xiàn)[24]在75項測試中,與ReLU、SWish激活函數(shù)相比,Mish表現(xiàn)出更好的性能。

為了分析刪除特征數(shù)量n對KP_KELM性能的影響,首先設(shè)定nh=110,實驗結(jié)果如圖2所示。圖2中橫坐標(biāo)表示輸入屬性擾動刪除的特征數(shù)量n。由圖2可知:當(dāng)nh一定時,隨著刪除特征的數(shù)量n在0~8變化時,G-mean值隨n值增加而增加;當(dāng)n在[9,25]區(qū)間時,G-mean值隨n值增加呈現(xiàn)下降趨勢,但下降速率非常小;當(dāng)n>25時,G-mean隨n值增加而快速下降。本文中主要是通過數(shù)據(jù)樣本和輸入屬性雙重擾動提高基分類器的多樣性,從而提升整體分類性能。當(dāng)n較小時,隨著n從0至8增加,基分類器的多樣性逐步增加,并因為刪掉的特征較少,基分類器還能學(xué)習(xí)到足夠的特征信息使得模型整個分類性能增加。當(dāng)n從9增加到25過程中,雖然基分類器的多樣性增加了,但由于刪除的特征過程,使得每個基分類器學(xué)習(xí)到數(shù)據(jù)集的特征信息反而減少,導(dǎo)致基分類器出現(xiàn)誤判可能增加,故整體性能反而下降。由于本文中數(shù)據(jù)集特征共66個,因此當(dāng)n在[9,25]區(qū)間時,這種損失不是很大,故G-mean下降慢,甚至?xí)霈F(xiàn)一些G-mean上升隨機波動現(xiàn)象(此時選擇的都是最有代表性的特征),比如在n=14時,G-mean值也較高。但是當(dāng)n大于25且逐步增加時,由于每個基分類器學(xué)習(xí)到的特征信息越來越少,使得分類器出現(xiàn)誤判可能性急劇增加,導(dǎo)致整體G-mean下降迅速。

圖2 刪除特征數(shù)量對性能影響

3.4.2 KP_KELM算法中隱層節(jié)點變化對性能影響

統(tǒng)一采用高斯核函數(shù),Mish激活函數(shù),設(shè)定輸入屬性擾動刪除特征數(shù)量為8,實驗結(jié)果如圖3所示。由圖3可知:當(dāng)隱層節(jié)點nh取值為100左右時,G-mean取得最高值;nh從0到100增加時,Gmean呈線性關(guān)系上升;nh=105時,G-mean值為0.778 6,而AUC值為0.783 6,以上兩值均取得最高值。而當(dāng)nh大于115時,G-mean隨nh的增加而呈線性下降趨勢。圖3中的AUC指標(biāo)也呈現(xiàn)出與G-mean類似的變化趨勢。出現(xiàn)這種現(xiàn)象的原因是:當(dāng)nh小于100時,隱層神經(jīng)元節(jié)點過少,模型出現(xiàn)欠擬合情況,使得G-mean隨神經(jīng)元增加而增加;當(dāng)nh大于115時,由于隱層神經(jīng)元節(jié)點數(shù)目過多,造成模型的過擬合,在測試集上的結(jié)果反而變差。

圖3 隱層節(jié)點數(shù)對性能影響

3.4.3 DP_KELM算法性能比較

設(shè)定nh=105,每次刪除特征數(shù)量為n=8。

首先驗證所提出的大學(xué)生貧困認(rèn)定特征是否合理。為此,將DP_KELM與隨機森林、支持向量機、ELM、KELM算法進(jìn)行比較,結(jié)果如圖4所示。結(jié)果表明:隨機森林、支持向量機與KELM的Accuracy均高于0.82,KELM獲得的最高值為0.823 2,該結(jié)果優(yōu)于文獻(xiàn)[5]中僅使用一卡通消費數(shù)據(jù)獲得的0.79。這說明選定的特征具有更好的貧困生識別能力。圖4同時表明KELM要優(yōu)于ELM。

圖4 不同算法性能值的直方圖

另外,圖4顯示DP_KELM算法的Accuracy雖然沒有超過0.8,但其G-mean值遠(yuǎn)高于其余算法,較次好算法ELM的G-mean提升了45.61%,而Accuracy則較最好算法KELM僅降低11.26%。G-mean反映了算法對貧困生和非貧困生的召回率,由于貧困認(rèn)定樣本集是一個非平衡數(shù)據(jù)集,傳統(tǒng)算法傾向于將貧困認(rèn)定為非貧困,雖然Accuracy較好,但實際上對貧困生的發(fā)掘不利,表現(xiàn)為Gmean非常低。而在綜合性能AUC比較上,DP_KELM要顯著優(yōu)于其他4種算法。

為對比DP_KELM對不平衡數(shù)據(jù)集的處理能力,選擇典型的上采樣算法RUS,下采樣算法SMOTE,以及近年提出的基于聚類上采樣的算法Kmeans SMOTE[25],將其與KELM結(jié)合,構(gòu)建完整的貧困認(rèn)定算法。Easy Ensemble Classifier[21]算法與本文中框架有一定類似之處,故將其納入比較,簡稱為Easy Ensemble。同時,本文中將雙重擾動應(yīng)用于隨機森林算法,構(gòu)建了DP_RF算法,最終實驗結(jié)果如表4所示。

表4 不同算法性能值的實驗結(jié)果

表4表明:采用雙重擾動構(gòu)建的DP_RF和DP_KELM在G-mean和AUC方面均優(yōu)于其他算法,說明雙重擾動有利于提高基分類器多樣性,從而提高模型分類性能。與上采樣、下采樣算法,以及DP_RF相比,所提出的DP_KELM算法在Gmean值和AUC值方面均取得了最好成績,說明所提出的算法在召回率和準(zhǔn)確率方面均為最優(yōu)結(jié)果,有利于精準(zhǔn)確定貧困和非貧困大學(xué)生。

4 結(jié)論

當(dāng)前高校大學(xué)生貧困認(rèn)定存在需要材料多、材料涉及隱私等情況,容易出現(xiàn)“假貧困得到資助,真貧困不敢去申請資助”這種不公平的現(xiàn)狀。針對以上問題,提出一種將雙重擾動和核極限學(xué)習(xí)機KELM相融合的算法,稱為DP_KELM。該算法以學(xué)生一卡通和簡單客觀的個人信息數(shù)據(jù)為基礎(chǔ),實現(xiàn)了貧困大學(xué)生智能識別。

1)設(shè)計了大學(xué)生貧困認(rèn)定特征。以學(xué)生在校一卡通消費數(shù)據(jù)、學(xué)生性別、住址這些易于獲得、客觀、不涉及隱私的數(shù)據(jù)為基礎(chǔ),采用特征預(yù)處理、特征分箱、特征交叉的算法,設(shè)計了一套用于大學(xué)生貧困認(rèn)定的特征參數(shù)。

2)設(shè)計了雙重擾動和核極限學(xué)習(xí)機KELM相融合的貧困認(rèn)定算法。該算法以核極限學(xué)習(xí)機為基分類器,同時針對大學(xué)生中貧困率為20%的特點,采用數(shù)據(jù)樣本和輸入屬性雙重擾動提升基分類器多樣性,從而提高DP_KELM分類性能。

3)采用具體院校學(xué)生樣本集,完成了DP_KELM實驗驗證。結(jié)果表明:與對比的9種算法相比,DP_KELM在G-mean和AUC方面均取得最好效果。

家庭收入是貧困大學(xué)生的重要評判標(biāo)準(zhǔn),但如何通過一種易于獲得、客觀、不涉及隱私的數(shù)據(jù)反映出家庭收入,從而進(jìn)一步提高算法性能是下一步研究內(nèi)容。此外,在算法中不同激活函數(shù)、隱層節(jié)點數(shù)、每次刪減的特征數(shù)量都會影響算法最終結(jié)果,因此未來考慮采用啟發(fā)式演化算法實現(xiàn)對以上參數(shù)的智能搜索,進(jìn)一步提高算法對貧困大學(xué)生的識別準(zhǔn)確性。

猜你喜歡
特征大學(xué)生學(xué)生
如何表達(dá)“特征”
不忠誠的四個特征
帶父求學(xué)的大學(xué)生
趕不走的學(xué)生
抓住特征巧觀察
大學(xué)生之歌
黃河之聲(2017年14期)2017-10-11 09:03:59
學(xué)生寫話
學(xué)生寫的話
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
讓大學(xué)生夢想成真
中國火炬(2013年7期)2013-07-24 14:19:23
主站蜘蛛池模板: a毛片免费观看| www.精品视频| 99精品在线看| 华人在线亚洲欧美精品| 免费jizz在线播放| 国产伦片中文免费观看| 91成人在线免费观看| 国产呦精品一区二区三区下载 | 人人91人人澡人人妻人人爽| 国产精品林美惠子在线观看| 波多野结衣久久精品| 国产视频久久久久| 国产91色在线| 丁香婷婷久久| 日本一区二区不卡视频| 呦视频在线一区二区三区| 性欧美在线| 第一页亚洲| 毛片网站在线播放| 国产乱人伦AV在线A| 日本免费新一区视频| 亚洲欧美人成电影在线观看| 狠狠亚洲婷婷综合色香| 午夜限制老子影院888| 精品国产中文一级毛片在线看| 国产精品美女在线| 国产午夜看片| 国产鲁鲁视频在线观看| 中国一级特黄视频| 亚洲综合极品香蕉久久网| 久久99蜜桃精品久久久久小说| 亚洲一级毛片在线观播放| 日本手机在线视频| 视频一区视频二区中文精品| 自拍偷拍欧美| 亚洲精品视频在线观看视频| 欧洲免费精品视频在线| 亚洲综合精品香蕉久久网| 日本在线免费网站| 国产69囗曝护士吞精在线视频| 国产在线精彩视频二区| 欧类av怡春院| 亚洲精选高清无码| 网久久综合| 内射人妻无码色AV天堂| 国产一区二区三区在线观看视频| 亚洲成人手机在线| 亚洲天天更新| 丝袜久久剧情精品国产| 日韩国产黄色网站| 国产欧美日本在线观看| a级毛片免费播放| 欧美特黄一级大黄录像| 国产在线小视频| 午夜小视频在线| 亚洲人妖在线| 亚洲人成网站色7799在线播放| 国产午夜在线观看视频| 国产一区二区三区夜色 | 欧美激情成人网| 19国产精品麻豆免费观看| 鲁鲁鲁爽爽爽在线视频观看| 中文精品久久久久国产网址| 重口调教一区二区视频| 亚洲最大看欧美片网站地址| 国产成熟女人性满足视频| 伦精品一区二区三区视频| 国产理论精品| 99免费视频观看| av在线人妻熟妇| 亚洲AV无码乱码在线观看裸奔| 国产欧美日韩精品综合在线| 伊人丁香五月天久久综合 | 99在线视频免费| 国产一在线观看| 亚洲V日韩V无码一区二区| 亚洲欧美精品日韩欧美| 精品伊人久久久香线蕉| 国产内射一区亚洲| 免费一级毛片在线观看| 无码国产伊人| 欧美激情综合|