999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Lasso-logistic回歸和隨機森林模型的院校評價結果影響因素研究

2022-03-16 03:04:16趙國瑞崔慶岳
長春師范大學學報 2022年2期
關鍵詞:高職評價模型

何 雙,趙國瑞,崔慶岳

(1.陽江職業技術學院數學系,廣東 陽江 529566;2.廣東海洋大學陽江校區,廣東 陽江 529566)

0 引言

我國大力推動本科“雙一流”高校與學科、高職“雙高”院校與專業建設,分別在2017年、2019年評出第一批“雙一流”、“雙高”院校.如何厘定各因素指標對評價結果的影響程度,厘清其內部的作用機制,目前是教育技術學、教育評價學等領域,尤其是教育數據挖掘領域(Education Data Mining,EDM)研究的熱點問題,其研究價值在于對高校精準施策、實現內涵式建設與發展具有參考意義.

就該領域研究對象與方法來看,崔育寶等[1]就我國在世界一流大學建設評價標準與體系的構建等問題進行了深入的分析;孔曉明等[2]對“雙一流”建設評價的原則及方法進行了分析;余波等[3]對“雙一流”高校數據跟蹤評估平臺的構建進行了研究;林春樹[4]對“雙高”院校績效評價指標體系的設計進行了系統的分析;陳保榮等[5]對各高職院校排行評價指標體系進行了分析.縱觀現有研究文獻,從研究對象上來說,“雙一流”研究較多,也較為深入,“雙高”研究較少;從研究方法上來說,定性研究多,定量研究少,并且從我們前期文獻搜索來看,基于機器學習算法研究院校評價結果影響因素厘定方法與路徑的文獻偏少.

Lasso(least absolute shrinkage and selection operator)作為機器學習近些年發展起來的模型被廣泛應用到生物信息學、醫學與經濟學等領域,較為典型且具有拓展性的文獻有:方匡南等[6]將Lasso引入銀行個人信用風險評估領域;張興祥等[7]將Lasso引入國民幸福感指標體系構建領域;孫怡帆等[8]將Lasso引入大學生畢業去向預測領域.但將Lasso應用到教育領域,尤其是EDM領域的文獻不多.

本文研究的貢獻主要體現在三個方面:第一,在入選“雙高”評價指標體系構建上,追本溯源,整理了所有申報的230所院校的申報書,結合已有文獻,全面梳理了盡可能納入模型的客觀、可量化指標;第二,已有Lasso應用于實踐的文獻多數采用單個模型算法篩選與回歸,僅有篩選的結果,過程往往忽略,本文將Lasso與隨機森林模型結合,共同篩選解釋變量,全面展現分析過程,佐證模型選擇的合理性;第三,在Lasso變量篩選的基礎上,對入選“雙高”院校具有顯著影響的因素進行了分析,并提供了相關的政策建議.

1 Lasso-logistic模型機理

Lasso作為一種兼具變量選擇與參數估計的算法最早由TIBSHIRANI[9]在1996年提出,其機理梗概如下:

給定數據集D=(Xj,yj),j=1,2,…,n,其中,Xj=(xj1,…,xjm)和yj分別表示為解釋變量與被解釋變量,

(1)

當樣本較少而變量很多時,模型容易產生過擬合,為緩解過擬合的問題,可引入L1范數正則化.

再次,能夠多角度的呈現事物。信息技術能輕松實現事物的伸縮、定格、整體和局部等,利于幼兒觀察,幼兒觀察的越廣泛、深刻,在大腦中留下的表象就越豐富、清晰,豐富的表象有助于幼兒想象力的發揮,從而提高幼兒的創造力。

(2)

(2)式中第二項表示對系數的懲罰,λ是控制各變量的壓縮程度的調節系數,通過λ的變化調節變量的選擇,使不重要的變量系數壓縮為0.λ越小,懲罰力度越小,保留下的變量越多;而λ越大,懲罰力度越大,保留下的變量越少.在模型求解方面,2004年EFRON等[10]引入了最小角回歸算法,使Lasso模型得以更高效地求解.

對于λ的求解,采用R語言中的lars程序包,結合MallowsCp準則與廣義交叉驗證得到.從p個自變量中選取s個做回歸,

(3)

對Lasso壓縮剩余的變量做Logistic回歸,假設壓縮后的變量個數為m,解釋變量yj為二元0-1變量,設

(4)

2 數據描述

本研究數據來源于教育部、財政部2019年中國特色高水平高職學校和專業建設計劃(簡稱“雙高計劃”)申報材料.共收集230個院校樣本,其中,深圳職業技術學院等56所院校被列入高水平高職學校建設單位,北京農業職業學院等141所院校被列入高水平專業群建設單位,33所院校未入選.

考慮到若以是否入選高水平學校和專業群建設單位為研究對象,就會造成樣本數據存在過大的非對稱性分布問題,即入選數量遠遠大于未入選數量,因此以是否入選高水平高職建設單位計為被解釋變量,0表示“否”,1表示“是”.另外,依據各院校申報書構建二級指標體系,其中,解釋變量包括2個一級指標、50個二級指標,具體分級指標體系見表1.為驗證模型預測效果,將樣本數據集按照8∶2的比例隨機切分為訓練集和測試集.

表1 解釋變量分級指標體系

續表

3 實證分析

3.1 變量選擇與模型估計

采用Lasso-logistic模型分析被解釋變量是否入選雙高計劃(Y)的影響因素,利用R語言中的lars程序包,通過交叉驗證法(cross validation,CV)選取調和參數λ,λ在CV下估計值對應趨勢見圖1,其中使均方誤差最小的飽和度在0和0.2之間.由于CV是隨機分組,每次分組的不同導致λ結果的不同.而λ的取值不同,Lasso模型壓縮程度也將有變化,每次模型選出的變量數目也將受到影響.Tibshirani認為,在模型均方誤差較小時,一般選取使模型相對簡潔的λ.因此,為保證模型的穩定性,本文重復設定不同隨機數,進行10次CV取參數λ的均值,得到λ的均值約為0.101.

圖1 調和參數λ對應趨勢圖

圖2顯示了系數隨著調和參數λ的選入的路徑,對于λ的最小值,只有x37被選入,隨著λ的增加,x41、x35等依此被選入模型,當λ接近1時,50個解釋變量全都被選入模型.基于CV得到的理想取值λ=0.101,共有x21、x35、x37、x38、x41、x42、x43、x46、x47被選入模型.

圖2 Lasso系數的路徑

表2 Lasso-logistic模型參數估計

由于數據集本身質量,尤其是解釋變量眾多,導致Logistic回歸及逐步Logistic回歸模型復雜度過高,算法不收斂或過擬合情況,因此僅展示Lasso-logistic模型的參數估計結果(表2),據此可得到回歸方程(3),其中,P為入選雙高院校的概率.

1.440x38+1.293x41+0.271x42+0.074x43+1.471x46+2.142x47.

(5)

3.2 各模型準確率的比較

為比較各模型的訓練精度,引入支持向量機、決策樹、隨機森林等模型,分別在訓練集和測試集上對入選雙高院校和未入選雙高院校預測準確率進行對比分析,具體見表3.

表3 各模型預測準確率比較 單位:%

模型預測的準確率直接關系到模型的合理性,各模型在訓練集上的總體準確率均超過90%,但對于入選雙高院校而言,Lasso-logistic模型準確率遠高于支持向量機和決策樹,僅次于隨機森林;但在測試集上Lasso-logistic模型總體準確率最高,達到79%,尤其在入選雙高院校的準確率上遠高于支持向量機和隨機森林,僅次于決策樹,說明其具有良好的外推性.另外,Lasso-logistic模型壓縮了絕大多數變量,較之其它模型復雜度較低,其次,Lasso-logistic模型可解釋性更強,可用于是否入選雙高院校的影響因素的厘定.

3.3 解釋變量重要性的挖掘

為進一步驗證各個解釋變量相對于被解釋變量Y的重要性,引入集成算法中的隨機森林模型,采用平均精度下降值(mean decrease accuracy,MDA),本文記為M,評估各特征對結果準確率的影響,具體計算如下:

任取一個特征或解釋變量定義為X,第一,對于隨機森林中的所有決策樹,采用袋外數據OOB估計袋外數據誤差,計作B1;第二,對袋外數據OOB所有樣本的特征X隨機加噪聲干擾,例如改變特征X處的值,再計算其袋外數據誤差,計作B2;第三,假定隨機森林中有N棵決策樹,將特征X的重要性記作M(X),則

(6)

上述MDA的原理可大致看作:對某一特征隨機加入噪聲后,若袋外準確率大幅度降低,說明該特征對樣本分類結果的影響很大,進而說明其重要程度較高.

根據(6)式可求得50個特征的M值,限于篇幅,僅展示重要性排名前十的特征,見表4.對比表2中Lasso-logistic篩選出的變量,除x38(排名17)、x46(排名16)、x47(排名12)以外,均在隨機森林模型變量重要性中排名前十,再次驗證了Lasso-logistic篩選變量的高效性與一致性.

表4 各變量平均精度下降值

3.4 結果分析

雙高院校評價結果受到了諸多主、客觀因素的影響,呈現出多因性,而且維度較高,仍有很多解釋變量未納入指標體系.結合Lasso-logistic和隨機森林模型結果(表2),得到如下結果:

第一,在院校基本狀態與基本條件組別共34個解釋變量,Lasso僅篩選了教學、科研儀器設備總值x21,且在10%的顯著性水平下顯著,其對于入選“雙高”具有重要作用且統計上顯著影響,而該變量表征的是學校辦學實力的一個重要體現.

結合隨機森林對于變量排序結果,學校固定資產總值x4與在校生數x13對入選“雙高”也有重要影響,x4與x21表征的內涵基本一致,這說明學校加大教學、科研設備及固定資產投資是入選“雙高”的前置因素;在校生數x13雖未被Lasso選出,但仍對入選“雙高”有重要影響,這說明規模效應仍是高職院校發展的主流.入選“雙高”對于在校生人數仍有相當的門檻限制,這是有別于本科院校的地方.

在基本狀態與基本條件組別,其它解釋變量未產生實質性影響.例如,建校時間x1未被選出,原因或許是各高職院校大多是經過轉置、合并而來;校內專任教師人數x23、生師比x30未被選出,說明不要單純追求數量的堆積,更應該加強成果、內涵建設.

第二,在標志性成果組別共16個解釋變量,Lasso篩選了國家級教學資源庫數量x35、國家級重點專業數量x37、全國就業創業典型數量x38、國家級教學成果獎勵數量x41、全國職業院校教學能力比賽獲獎數量x42、學生國家級及以上競賽獎勵數量x43、承擔國家級教育教學改革試點數量x46、國家示范、骨干高職學校重點專業數量x47等8個變量,其中,x35、x41、x42、x43、x47在5%的顯著性水平顯著,這意味著它們對入選“雙高”具有重要作用,說明國家級專業、教師競賽、學生競賽等教學成果是入選“雙高”院校的關鍵影響因素.

4 結論

本文將Lasso-logistic模型引入教育數據挖掘領域的院校評價結果影響因素研究中來,挖掘隱藏在評價結果背后的因素與作用機理,主要研究結論有:第一,從研究問題來看,高職院校不應過分追求學生與教師規模等,國家級別的專業教師競賽、學生競賽是入選“雙高”院校的核心因素,各學校應夯實基礎,做好此類標志性成果的建設與積累;第二,從研究方法來看,Lasso更有效地壓縮、篩選關鍵變量,降低了模型的復雜度,而且總體精度優于其它算法,并且其結果與隨機森林模型驗證的結果基本一致,因此,采用Lasso厘定院校評價結果的影響因素是較為合理與科學的.第三,從研究局限來看,教育評價影響因素的厘定作為教育數據挖掘領域的一類問題,其背景交叉了教育技術學等學科,諸多因素很難甚至不可能量化到解釋變量中來,這也影響了數據集的質量.總之,將機器學習的模型算法,尤其是Lasso等稀疏化算法引入到教育數據挖掘領域,仍不失為有益的嘗試.

猜你喜歡
高職評價模型
一半模型
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
高職應用文寫作教學改革與創新
活力(2019年21期)2019-04-01 12:18:24
3D打印中的模型分割與打包
基于Moodle的學習評價
高職人才培養模式創新探討
海峽影藝(2012年1期)2012-11-30 08:15:44
保加利亞轉軌20年評價
主站蜘蛛池模板: 999国内精品久久免费视频| 国产一级二级在线观看| 久久香蕉国产线| 日本成人不卡视频| 欧美日韩一区二区在线播放| 91色老久久精品偷偷蜜臀| 亚洲中文字幕手机在线第一页| 精品伊人久久久香线蕉 | 久久综合亚洲色一区二区三区| 97在线观看视频免费| 亚洲系列无码专区偷窥无码| 日韩福利在线视频| 日本福利视频网站| 日本人又色又爽的视频| 亚洲欧洲日韩综合色天使| 熟妇丰满人妻av无码区| 亚洲成av人无码综合在线观看| 久久精品嫩草研究院| 亚洲开心婷婷中文字幕| 成年人视频一区二区| 欧美啪啪视频免码| 国产亚洲精品自在久久不卡| 国产福利在线免费观看| 国产精品亚洲天堂| 欧美日韩va| 天堂va亚洲va欧美va国产| 亚洲欧美自拍一区| 在线看国产精品| 欧美一区精品| 日韩在线1| 在线免费a视频| 日本亚洲最大的色成网站www| 91成人试看福利体验区| 精品少妇三级亚洲| 伊人国产无码高清视频| 中文字幕在线播放不卡| 成人精品视频一区二区在线| 久久精品亚洲热综合一区二区| 久久精品一品道久久精品| 国产成人亚洲无码淙合青草| 久久6免费视频| 亚洲国产精品成人久久综合影院| 久久天天躁狠狠躁夜夜2020一| 四虎国产成人免费观看| 99久久精品久久久久久婷婷| 国产成人精品一区二区三区| 第一页亚洲| 日韩无码真实干出血视频| A级全黄试看30分钟小视频| 日韩欧美一区在线观看| 午夜免费视频网站| 精品无码日韩国产不卡av| 国产午夜不卡| 99国产精品国产| a毛片免费在线观看| 999国内精品久久免费视频| 99久久精品视香蕉蕉| 日韩精品欧美国产在线| 91原创视频在线| 国内精品小视频在线| 国产美女无遮挡免费视频| 夜夜拍夜夜爽| 亚洲色欲色欲www在线观看| 亚洲美女一区| 国产喷水视频| 性色一区| 午夜精品久久久久久久无码软件| 一本一道波多野结衣一区二区| 色综合国产| 欧美一区二区丝袜高跟鞋| 伊人精品视频免费在线| 一本大道无码日韩精品影视| 欲色天天综合网| av手机版在线播放| 日韩一区二区在线电影| 亚洲一区国色天香| 欧美一区二区人人喊爽| 国产综合色在线视频播放线视| 欧美午夜小视频| 美女免费黄网站| 日韩人妻无码制服丝袜视频| 黄色污网站在线观看|