◆李步青
基于組合logistic回歸模型的高校貧困生認定研究
◆李步青
(浙江農林大學信息工程學院 浙江 311300)
當前高校貧困生認定工作基本上以人工為主要審核方式,存在著認定不準確、不公平等問題,為此本文提出了一種利用因子分析降維的組合logistic回歸算法貧困生預測模型。首先,通過高校中心數據庫獲取學生在校消費的數據,通過數據預處理提取需要的特征數據。然后,對提取的特征數據采用主成分的因子分析實現數據降維,得到相互獨立的因子。最后,基于logistic回歸算法進行判別與分類。實驗結果表明,該算法模型具有一定的準確性,相比較其他模型預測準確率更高,為高校精準扶貧工作提供了重要依據,在一定程度上保證了扶貧工作的公平性。
高校貧困生;大數據;精準扶貧;因子分析;logistic回歸
近年來,隨著高校逐年擴招,貧困生人數也在不斷增長,貧困認定工作也越來越重要。現階段,高校扶貧存在于表面,深入實際不足,貧困認定來自學生自主申請、班級評議、院系審核、公示、復核等環節,認定結果往往存在缺乏客觀性、困難等級劃分不細致等問題。還有部分貧困生由于某些原因沒有提交補助申請,整個過程存在著認定不準確、不公平等問題,且無法很好掌握貧困生的變化,使得扶貧的效果不顯著,無法達到扶貧的目的。
目前高校已有研究人員采用學校學生消費情況進行貧困生認定與分析。陳曉等[1]提出了一種基于加權約束的決策樹方法實現貧困生的認定,基于加權約束的決策樹方法建立貧困生認定決策樹,從而提高了貧困生認定效率。王文娟[2]通過對一卡通數據中心的后臺數據庫數據采用統計學中描述性統計和非參數檢驗的方法,分析學生在校園內經濟行為的特點及不同自然特征學生的消費差異性。劉亮等[3]利用K-Means聚類算法構建聚類指標,從而確定高校困難學生貧困等級,為高校貧困生認定工作提供了研究指導。王澤原等[4]利用隨機森林和決策樹的算法進行貧困生的判別,為貧困生的認定提供了數據支撐。陸桂明等[5]通過機器學習的方法對貧困生進行預測研究,為貧困生的分類提供了研究方法。這些算法都在一定程度上對貧困生的認定工作起到了引導與促進作用,但在分類與準確性上存在著不平衡的問題。
本文針對高校貧困生認定上存在的分類與準確性上存在不平衡問題,提出了一種組合logistic回歸預測模型,實現對高校貧困生的認定與監測。該預測模型利用高校大學生校園一卡通數據,對提取的多維數據采用因子分析算法實現降維,最后通過logistic回歸算法對降維的數據進行數據挖掘,實現高校貧困生的認定工作。
本文所依據的數據是來自于某高校的一卡通數據。校園一卡通數據真實展現著學生在校消費情況,數據包括學生消費時間、消費金額、消費類型、卡內余額等數據。通過選取了2017級與2018級共6288名學生在2019年下半學期3月到7月的一卡通消費數據,共有2029499條數據。從學工部獲得2017級和2018級學生在2019年獲得的助學金數據,共有1098名學生獲得資助。
學生校園消費數據如表1所示。選取的數據包括學生的學號、交易時間、交易地點、交易類型以及交易金額等,這些數據可以充分展示學生在校消費情況,對這些數據進行一定數據處理,得到實驗所需要的信息。

表1 學生消費數據
學生一卡通數據來源于不同的數據庫,且數據庫信息量較大,并且存在多種數據類型。這就導致實驗數據存在不完整、不一致以及數據異常等問題,這些低質量的數據將會導致低質量的挖掘結果。為了解決存在低質量數據的問題,需要將原始數據進行轉換,得到可以理解的數據格式或者符合實驗挖掘的數據格式。
這就需要對原始數據進行預處理[6],數據預處理的目的是為了提高數據的質量,沒有高質量的數據,就沒有高質量的挖掘結果,就不能更好地展示數據的價值。根據實際情況,對選取的高校學生一卡通消費數據進行以下三種方式處理。
(1)數據提取
首先是在數據里提取所需要用到的數據。
在數據庫里提取關于學生一卡通消費的信息,按照選取學生的年級以及在校消費的時間,提取學生學號、交易時間、交易類型、交易地點、交易金額等數據。
(2)數據清洗
其次對已經提取的數據進行清洗。
第一步,先找到數據缺失的值,按照缺失比例和字段重要性,以及業務處理經驗,通過不同的指標推測或計算缺失值,并進行填寫補上;第二步,識別并檢測一些離群數據以及無效和重復數據,進行刪除處理;第三步,根據實際情況查找不合理以及相互矛盾的數據,把這些數據進行去除或者修正處理;第四步,對內容與字段屬性不符,即不一致的數據進行格式歸化。
對數據進行清洗時,要盡量保證數據信息損失的最小化,得到符合要求的高質量數據。
(3)特征計算
最后對清洗的數據進行整合計算,得到新的特征變量。
將清洗后的數據根據實際情況進行計算處理,發現在校學生消費類型有36種,其中食堂消費占比最大,其次是超市,這兩種消費類型消費的金額占消費總金額的90%以上,故把學生在校消費進行整合分類為食堂消費、超市消費和其他消費三種類型,消費金額分為學期總金額、月均消費金額、次均消費金額等。
高校貧困生認定采用組合logistic回歸模型進行預測,該模型通過因子分析與logistic回歸算法相結合,利用學生消費數據實現貧困生的認定。
對統計的數據進行比較發現,數據維度較多,且部分維度之間存在一定的關系,在保證數據重要信息的前提下降低數據維度,采取主成分的因子分析算法[7]對相關性很強的數據維度進行一定的線性組合,實現數據的降維,有利于簡化和解釋問題,抓住問題的實質。因子分析算法根據相關性大小把原始變量進行分組,在信息損失很少的前提下使得同組內的變量之間相關性較高,而不同組的變量間的相關性則較低,即將維的特征向量重建為維的特征向量(<)。

利用最大方差法對該方程的系數進行估算,從而獲得每個個案的因子分。
計算出來各個成分的得分,即因子得分函數的系數,根據方差貢獻率確定因子的個數,然后構建關于因子得分的回歸函數,以此來確定新的變量。
本文使用的是logistic回歸算法[8]建立預測模型,對高校貧困生的分類與預測提供了實際依據。logistic是一種廣義線性回歸算法,在數據的處理上類似于多重線性回歸,與多重線性回歸不同的是,logistic的因變量可以是非連續的,即其因變量可以是二分類的,也可以是多分類的。
Logistic模型中,因變量與自變量的一種非線性關系可表達為:

在公式(2)中,當為負無窮時,為0;當為正無窮時,為1。
將用一個函數()代替,假設



對(4)式取對數得到(5)式logistic回歸線性方程

在logistic回歸模型中,我們需要的是事件發生與不發生的概率的比例,即odds,odds能更好衡量數據模型指標的好壞。
得到事件發生與不發生的概率之比為


則

則似然函數為

兩邊取對數得


求得的回歸參數采用似然比方法進行檢驗估計參數的靈敏度,采用Hosmer-Lemeshow算法檢驗模型的擬合優度,置信區間默認為95%,判斷顯著性,最終確定參數值。
最終選取6288名學生的在校消費數據,采用主成分的因子分析得到4個相互獨立的特征值,這4個相互獨立的特征值分別為食堂消費總金額、超市消費金額、恩格爾系數,以及一個結果值,是否為貧困生。然后把這些特征數據進行logistic回歸訓練,對輸出結果進行判斷。整個計算流程如圖1所示。

圖1 組合logistic回歸模型流程
首先從數據庫里獲得原始數據,然后選取本文需要的數據組,對選定的數據組進行數據預處理,得到計算之后的特征值,最后把得到的數據變量使用組合logistic回歸算法進行識別與預測,最后通過對輸出進行判斷,若輸出值>0.5時,說明根據該學生最近一段時間內的表現,被預測為貧困生;<=0.5時,說明該學生被預測為非貧困生,該算法模型可實現對高校貧困生的識別與預測,并帶有監測功能。
本文從貧困生查準率,貧困生查全率以及和的增加調和平均數三個方面對實驗結果進行評估。

式(11)中,是指將貧困生判定為貧困生的學生數量,是指將非貧困生判定為貧困生的學生數量;

式(12)中,是指將非貧困生判定為非貧困生的學生數量;
和的調和平均數為

用查準率來驗證模型的負面準確性,值越大,模型對貧困生的辨識能力就越準確;用查全率來驗證模型的正面準確性,值越大,模型真正預測中貧困生占的比例就越高;用和的調和平均數來驗證模型的穩定性,值越大,說明該模型越有效。
把處理的數據代入組合logistic回歸預測模型中,最終得到的結果預測如圖2所示。

圖2 組合logistic回歸模型結果
由下述表格可以看出,采用組合logistic回歸算法,預測某高校貧困生的準確率達到89.1%,非貧困生的查準率97.9%,總的準確率達到96.3%。
采用值、值和值三個評估標準來綜合評價模型2組合logistic回歸模型評估方法和模型1 K-means聚類評估算法。

表2 兩種模型對比結果
在表2中,可以看出,模型1中值、值以及F分別為70.1%、30.5%和42.5%,模型2中值、值以及值分別為89.1%、90%和89.5%。實驗結果表明模型2對貧困生的辨識能力比模型1 更為準確,真正預測的貧困生比例遠遠大于模型1,并且模型2的穩定性更高。
綜合以上三個評價標準,可以說明模型2在貧困生的識別預測方面更為理想,能夠在很大程度上識別貧困生。
針對目前高校貧困生認定過程中存在的問題,采用組合logistic回歸算法進行貧困生認定,實現了高校貧困生預測。收集某高校關于學生某段時間內的消費數據,在數據預處理的時候,首先進行清洗、提取,然后采用因子分析對數據進行降維處理,減少數據的特征,有效降低了數據噪音以及過擬合問題。對降維后的特征值采用logistic回歸算法進行訓練,并且取得了更好的識別預測結果,在一定程度上為高校貧困生認定提供了積極的意義。該模型利用學生消費實現貧困生的預測,識別分類的準確率很高,預測結果分為貧困生與非貧困生兩種,有待進一步的優化,對貧困生進行多層分類,選擇更好的模型,研究預測的穩定性。
[1]陳曉,王樹寶,李建晶,等.基于加權約束的決策樹方法在貧困生認定中的應用研究[J].計算機應用與軟件,2014(12):142-145.
[2]王文娟.基于一卡通數據的大學生消費分析的技術路線研究與實例分析[D].大連:大連醫科大學,2013.
[3]劉亮,許靈,劉斯文.基于K-Means聚類的高校困難學生貧困等級劃分研究——以蚌埠學院為例[J].白城師范學院學報,2017(08):38-41+64.
[4]王澤原,趙麗,胡俊.大數據環境下利用隨機森林算法和決策樹的貧困生認定方法[J].湘潭大學自然科學學報, 2018,040(006):115-120.
[5]陸桂明,張源,周志敏.基于機器學習的貧困生分類預測研究[J].計算機應用與軟件,2019,36(01):322-325.
[6]丁小歐,王宏志,于晟健.工業時序大數據質量管理[J].大數據,2019,5(06):1-11.
[7]秦磊,郁靜,孫強.混頻時間序列的潛在因子分析及其應用[J].統計研究,2019,36(09):104-114.
[8]陳宮燕,普布桑姆,次仁旺姆,次仁,德慶央宗,李彥軍.基于Logistic回歸方法的林芝市山洪地質災害預警研究[J].中國農學通報,2019,35(23):124-130.