基于Lasso-logistic回歸和隨機森林模型的院校評價結果影響因素研究

2022-03-16 03:04:16趙國瑞崔慶岳

長春師范大學學報 2022年2期

何雙，趙國瑞，崔慶岳

(1.陽江職業(yè)技術學院數(shù)學系，廣東陽江 529566；2.廣東海洋大學陽江校區(qū)，廣東陽江 529566)

0 引言

我國大力推動本科“雙一流”高校與學科、高職“雙高”院校與專業(yè)建設，分別在2017年、2019年評出第一批“雙一流”、“雙高”院校.如何厘定各因素指標對評價結果的影響程度，厘清其內部的作用機制，目前是教育技術學、教育評價學等領域，尤其是教育數(shù)據(jù)挖掘領域(Education Data Mining，EDM)研究的熱點問題，其研究價值在于對高校精準施策、實現(xiàn)內涵式建設與發(fā)展具有參考意義.

就該領域研究對象與方法來看，崔育寶等[1]就我國在世界一流大學建設評價標準與體系的構建等問題進行了深入的分析；孔曉明等[2]對“雙一流”建設評價的原則及方法進行了分析；余波等[3]對“雙一流”高校數(shù)據(jù)跟蹤評估平臺的構建進行了研究；林春樹[4]對“雙高”院校績效評價指標體系的設計進行了系統(tǒng)的分析；陳保榮等[5]對各高職院校排行評價指標體系進行了分析.縱觀現(xiàn)有研究文獻，從研究對象上來說，“雙一流”研究較多，也較為深入，“雙高”研究較少；從研究方法上來說，定性研究多，定量研究少，并且從我們前期文獻搜索來看，基于機器學習算法研究院校評價結果影響因素厘定方法與路徑的文獻偏少.

Lasso(least absolute shrinkage and selection operator)作為機器學習近些年發(fā)展起來的模型被廣泛應用到生物信息學、醫(yī)學與經(jīng)濟學等領域，較為典型且具有拓展性的文獻有：方匡南等[6]將Lasso引入銀行個人信用風險評估領域；張興祥等[7]將Lasso引入國民幸福感指標體系構建領域；孫怡帆等[8]將Lasso引入大學生畢業(yè)去向預測領域.但將Lasso應用到教育領域，尤其是EDM領域的文獻不多.

本文研究的貢獻主要體現(xiàn)在三個方面：第一，在入選“雙高”評價指標體系構建上，追本溯源，整理了所有申報的230所院校的申報書，結合已有文獻，全面梳理了盡可能納入模型的客觀、可量化指標；第二，已有Lasso應用于實踐的文獻多數(shù)采用單個模型算法篩選與回歸，僅有篩選的結果，過程往往忽略，本文將Lasso與隨機森林模型結合，共同篩選解釋變量，全面展現(xiàn)分析過程，佐證模型選擇的合理性；第三，在Lasso變量篩選的基礎上，對入選“雙高”院校具有顯著影響的因素進行了分析，并提供了相關的政策建議.

1 Lasso-logistic模型機理

Lasso作為一種兼具變量選擇與參數(shù)估計的算法最早由TIBSHIRANI[9]在1996年提出，其機理梗概如下：

給定數(shù)據(jù)集D=(Xj,yj)，j=1,2,…,n,其中，Xj=(xj1,…,xjm)和yj分別表示為解釋變量與被解釋變量，

(1)

當樣本較少而變量很多時，模型容易產(chǎn)生過擬合，為緩解過擬合的問題，可引入L1范數(shù)正則化.

再次，能夠多角度的呈現(xiàn)事物。信息技術能輕松實現(xiàn)事物的伸縮、定格、整體和局部等，利于幼兒觀察，幼兒觀察的越廣泛、深刻，在大腦中留下的表象就越豐富、清晰，豐富的表象有助于幼兒想象力的發(fā)揮，從而提高幼兒的創(chuàng)造力。

(2)

(2)式中第二項表示對系數(shù)的懲罰，λ是控制各變量的壓縮程度的調節(jié)系數(shù)，通過λ的變化調節(jié)變量的選擇，使不重要的變量系數(shù)壓縮為0.λ越小，懲罰力度越小，保留下的變量越多；而λ越大，懲罰力度越大，保留下的變量越少.在模型求解方面，2004年EFRON等[10]引入了最小角回歸算法，使Lasso模型得以更高效地求解.

對于λ的求解，采用R語言中的lars程序包，結合MallowsCp準則與廣義交叉驗證得到.從p個自變量中選取s個做回歸，

(3)

對Lasso壓縮剩余的變量做Logistic回歸，假設壓縮后的變量個數(shù)為m，解釋變量yj為二元0-1變量，設

(4)

2 數(shù)據(jù)描述

本研究數(shù)據(jù)來源于教育部、財政部2019年中國特色高水平高職學校和專業(yè)建設計劃(簡稱“雙高計劃”)申報材料.共收集230個院校樣本，其中，深圳職業(yè)技術學院等56所院校被列入高水平高職學校建設單位，北京農業(yè)職業(yè)學院等141所院校被列入高水平專業(yè)群建設單位，33所院校未入選.

考慮到若以是否入選高水平學校和專業(yè)群建設單位為研究對象，就會造成樣本數(shù)據(jù)存在過大的非對稱性分布問題，即入選數(shù)量遠遠大于未入選數(shù)量，因此以是否入選高水平高職建設單位計為被解釋變量，0表示“否”，1表示“是”.另外，依據(jù)各院校申報書構建二級指標體系，其中，解釋變量包括2個一級指標、50個二級指標，具體分級指標體系見表1.為驗證模型預測效果，將樣本數(shù)據(jù)集按照8∶2的比例隨機切分為訓練集和測試集.

表1 解釋變量分級指標體系

續(xù)表

3 實證分析

3.1 變量選擇與模型估計

采用Lasso-logistic模型分析被解釋變量是否入選雙高計劃(Y)的影響因素，利用R語言中的lars程序包，通過交叉驗證法(cross validation，CV)選取調和參數(shù)λ，λ在CV下估計值對應趨勢見圖1，其中使均方誤差最小的飽和度在0和0.2之間.由于CV是隨機分組，每次分組的不同導致λ結果的不同.而λ的取值不同，Lasso模型壓縮程度也將有變化，每次模型選出的變量數(shù)目也將受到影響.Tibshirani認為，在模型均方誤差較小時，一般選取使模型相對簡潔的λ.因此，為保證模型的穩(wěn)定性，本文重復設定不同隨機數(shù)，進行10次CV取參數(shù)λ的均值，得到λ的均值約為0.101.

圖1 調和參數(shù)λ對應趨勢圖

圖2顯示了系數(shù)隨著調和參數(shù)λ的選入的路徑，對于λ的最小值，只有x37被選入，隨著λ的增加，x41、x35等依此被選入模型，當λ接近1時，50個解釋變量全都被選入模型.基于CV得到的理想取值λ=0.101，共有x21、x35、x37、x38、x41、x42、x43、x46、x47被選入模型.

圖2 Lasso系數(shù)的路徑

表2 Lasso-logistic模型參數(shù)估計

由于數(shù)據(jù)集本身質量，尤其是解釋變量眾多，導致Logistic回歸及逐步Logistic回歸模型復雜度過高，算法不收斂或過擬合情況，因此僅展示Lasso-logistic模型的參數(shù)估計結果(表2)，據(jù)此可得到回歸方程(3)，其中，P為入選雙高院校的概率.

1.440x38+1.293x41+0.271x42+0.074x43+1.471x46+2.142x47.

(5)

3.2 各模型準確率的比較

為比較各模型的訓練精度，引入支持向量機、決策樹、隨機森林等模型，分別在訓練集和測試集上對入選雙高院校和未入選雙高院校預測準確率進行對比分析，具體見表3.

表3 各模型預測準確率比較單位：%

模型預測的準確率直接關系到模型的合理性，各模型在訓練集上的總體準確率均超過90%，但對于入選雙高院校而言，Lasso-logistic模型準確率遠高于支持向量機和決策樹，僅次于隨機森林；但在測試集上Lasso-logistic模型總體準確率最高，達到79%，尤其在入選雙高院校的準確率上遠高于支持向量機和隨機森林，僅次于決策樹，說明其具有良好的外推性.另外，Lasso-logistic模型壓縮了絕大多數(shù)變量，較之其它模型復雜度較低，其次，Lasso-logistic模型可解釋性更強，可用于是否入選雙高院校的影響因素的厘定.

3.3 解釋變量重要性的挖掘

為進一步驗證各個解釋變量相對于被解釋變量Y的重要性，引入集成算法中的隨機森林模型，采用平均精度下降值(mean decrease accuracy，MDA)，本文記為M，評估各特征對結果準確率的影響，具體計算如下：

任取一個特征或解釋變量定義為X，第一，對于隨機森林中的所有決策樹，采用袋外數(shù)據(jù)OOB估計袋外數(shù)據(jù)誤差，計作B1；第二，對袋外數(shù)據(jù)OOB所有樣本的特征X隨機加噪聲干擾，例如改變特征X處的值，再計算其袋外數(shù)據(jù)誤差，計作B2；第三，假定隨機森林中有N棵決策樹，將特征X的重要性記作M(X)，則

(6)

上述MDA的原理可大致看作：對某一特征隨機加入噪聲后，若袋外準確率大幅度降低，說明該特征對樣本分類結果的影響很大，進而說明其重要程度較高.

根據(jù)(6)式可求得50個特征的M值，限于篇幅，僅展示重要性排名前十的特征，見表4.對比表2中Lasso-logistic篩選出的變量，除x38(排名17)、x46(排名16)、x47(排名12)以外,均在隨機森林模型變量重要性中排名前十，再次驗證了Lasso-logistic篩選變量的高效性與一致性.

表4 各變量平均精度下降值

3.4 結果分析

雙高院校評價結果受到了諸多主、客觀因素的影響，呈現(xiàn)出多因性，而且維度較高，仍有很多解釋變量未納入指標體系.結合Lasso-logistic和隨機森林模型結果(表2)，得到如下結果：

第一，在院校基本狀態(tài)與基本條件組別共34個解釋變量，Lasso僅篩選了教學、科研儀器設備總值x21，且在10%的顯著性水平下顯著，其對于入選“雙高”具有重要作用且統(tǒng)計上顯著影響，而該變量表征的是學校辦學實力的一個重要體現(xiàn).

結合隨機森林對于變量排序結果，學校固定資產(chǎn)總值x4與在校生數(shù)x13對入選“雙高”也有重要影響，x4與x21表征的內涵基本一致，這說明學校加大教學、科研設備及固定資產(chǎn)投資是入選“雙高”的前置因素；在校生數(shù)x13雖未被Lasso選出，但仍對入選“雙高”有重要影響，這說明規(guī)模效應仍是高職院校發(fā)展的主流.入選“雙高”對于在校生人數(shù)仍有相當?shù)拈T檻限制，這是有別于本科院校的地方.

在基本狀態(tài)與基本條件組別，其它解釋變量未產(chǎn)生實質性影響.例如，建校時間x1未被選出，原因或許是各高職院校大多是經(jīng)過轉置、合并而來；校內專任教師人數(shù)x23、生師比x30未被選出，說明不要單純追求數(shù)量的堆積，更應該加強成果、內涵建設.

第二，在標志性成果組別共16個解釋變量，Lasso篩選了國家級教學資源庫數(shù)量x35、國家級重點專業(yè)數(shù)量x37、全國就業(yè)創(chuàng)業(yè)典型數(shù)量x38、國家級教學成果獎勵數(shù)量x41、全國職業(yè)院校教學能力比賽獲獎數(shù)量x42、學生國家級及以上競賽獎勵數(shù)量x43、承擔國家級教育教學改革試點數(shù)量x46、國家示范、骨干高職學校重點專業(yè)數(shù)量x47等8個變量，其中，x35、x41、x42、x43、x47在5%的顯著性水平顯著，這意味著它們對入選“雙高”具有重要作用，說明國家級專業(yè)、教師競賽、學生競賽等教學成果是入選“雙高”院校的關鍵影響因素.

4 結論

本文將Lasso-logistic模型引入教育數(shù)據(jù)挖掘領域的院校評價結果影響因素研究中來，挖掘隱藏在評價結果背后的因素與作用機理，主要研究結論有：第一，從研究問題來看，高職院校不應過分追求學生與教師規(guī)模等，國家級別的專業(yè)教師競賽、學生競賽是入選“雙高”院校的核心因素，各學校應夯實基礎，做好此類標志性成果的建設與積累；第二，從研究方法來看，Lasso更有效地壓縮、篩選關鍵變量，降低了模型的復雜度，而且總體精度優(yōu)于其它算法，并且其結果與隨機森林模型驗證的結果基本一致，因此，采用Lasso厘定院校評價結果的影響因素是較為合理與科學的.第三，從研究局限來看，教育評價影響因素的厘定作為教育數(shù)據(jù)挖掘領域的一類問題，其背景交叉了教育技術學等學科，諸多因素很難甚至不可能量化到解釋變量中來，這也影響了數(shù)據(jù)集的質量.總之，將機器學習的模型算法，尤其是Lasso等稀疏化算法引入到教育數(shù)據(jù)挖掘領域，仍不失為有益的嘗試.