





摘要:高校資助育人的關(guān)鍵在于精準(zhǔn)識(shí)別目標(biāo)群體。該文運(yùn)用大數(shù)據(jù)與AI技術(shù),通過神經(jīng)網(wǎng)絡(luò)算法構(gòu)建貧困生等級(jí)預(yù)測模型,經(jīng)訓(xùn)練與測試驗(yàn)證其準(zhǔn)確性,相較于逐步線性模型,該模型提供更客觀支撐,對(duì)高校實(shí)現(xiàn)精準(zhǔn)資助及管理具有重要意義。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)算法;精準(zhǔn)資助;育人模型;逐步線性模型
doi:10.3969/J.ISSN.1672-7274.2024.11.003
中圖分類號(hào):TP 18" " " " " " " " "文獻(xiàn)標(biāo)志碼:A" " " " " " 文章編碼:1672-7274(2024)11-000-03
Construction of a Precise Financial Aid and Educational Model
Based on Neural Network Algorithms
ZHANG Li
(Jiangsu Vocational College of Electronics and Information, Huaian 223003, China)
Abstract: The key to financial aid and educational support in colleges and universities lies in the precise identification of target groups. This paper utilizes big data and AI technology to construct a poverty level prediction model for students through neural network algorithms. The accuracy of the model is verified through training and testing. Compared with the stepwise linear model, this model provides more objective support and is of great significance for colleges and universities to achieve precise financial aid and management.
Keywords: neural network algorithms; precise financial aid; educational model; stepwise linear model
0" "引言
隨著高校資助工作的深入,資助育人理念日益深化,對(duì)精準(zhǔn)資助提出了更高要求,其核心在于細(xì)化、公平化資助目標(biāo)群體,以實(shí)現(xiàn)精準(zhǔn)化、科學(xué)化的資助育人。當(dāng)前,多數(shù)學(xué)校依賴學(xué)生申請(qǐng)、家訪、班級(jí)評(píng)定及村委會(huì)證明來認(rèn)定貧困生,但此過程易受主觀影響。研究表明,貧困生等級(jí)與個(gè)人、家庭、社會(huì)等多方面因素相關(guān),呈現(xiàn)復(fù)雜的非線性關(guān)系。因此,構(gòu)建具有強(qiáng)泛化能力的預(yù)測模型,準(zhǔn)確識(shí)別關(guān)鍵屬性特征,成為亟待解決的問題。學(xué)者們紛紛探索數(shù)據(jù)挖掘方法改進(jìn)認(rèn)定工作,如王雪飛分析校園卡數(shù)據(jù)[1],戴海輝在Hadoop架構(gòu)上挖掘數(shù)據(jù)[2],馬偉杰利用C4.5算法分類[3]。李妍則基于DNN算法構(gòu)建精準(zhǔn)資助模型[4],提供現(xiàn)代化資助模式。可佳欣采用聚類分析算法對(duì)貧困生信息進(jìn)行特征分類[5],以實(shí)現(xiàn)精準(zhǔn)幫扶。
本文以江蘇電子信息職業(yè)學(xué)院為例,在R語言環(huán)境中,運(yùn)用神經(jīng)網(wǎng)絡(luò)算法構(gòu)建學(xué)生個(gè)人屬性與貧困生等級(jí)的非線性映射,實(shí)現(xiàn)精準(zhǔn)認(rèn)定,并與逐步線性回歸模型對(duì)比,驗(yàn)證其適用性。
1" "模型原理
1.1 BP神經(jīng)網(wǎng)絡(luò)模型
BP(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)是模擬生物神經(jīng)網(wǎng)絡(luò)進(jìn)行信息處理的一種數(shù)學(xué)模型。它以對(duì)大腦的生理研究成果為基礎(chǔ),其目的在于模擬大腦的某些機(jī)理與機(jī)制,實(shí)現(xiàn)一些特定的功能。這是一種前饋型神經(jīng)網(wǎng)絡(luò),又稱誤差反向傳播網(wǎng)絡(luò),學(xué)習(xí)過程由信號(hào)的正向傳播和誤差的反向傳播兩個(gè)過程組成,是結(jié)構(gòu)相對(duì)簡單且比較常見的神經(jīng)網(wǎng)絡(luò)。
BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱藏層和輸出層三部分構(gòu)成,工作過程由兩階段組成:一個(gè)是工作階段,信號(hào)正向傳播,把樣本的特征從輸入層進(jìn)行輸入,信號(hào)經(jīng)過各個(gè)隱藏層的處理后,最后從輸出層傳出;另一個(gè)是學(xué)習(xí)階段,也稱為誤差反向傳播,在此階段,期望輸出向量不變,對(duì)于網(wǎng)絡(luò)的實(shí)際的輸出與期望輸出之間的誤差,把誤差信號(hào)從最后一層逐層反傳,從而獲得各個(gè)層的誤差學(xué)習(xí)信號(hào),然后再根據(jù)誤差學(xué)習(xí)信號(hào)來修正各層神經(jīng)元的權(quán)值,直到達(dá)到滿足的所需精度。
1.2 逐步線性回歸模型
多元線性回歸(MLR)是統(tǒng)計(jì)學(xué)常用的數(shù)據(jù)回歸方法,主要研究一個(gè)因變量與多個(gè)自變量之間的線性回歸關(guān)系,由多個(gè)自變量的最佳組合來預(yù)測因變量,但由于自變量之間可能存在多重共線性,因此,本研究采用逐步線性回歸法,逐步線性回歸是一種特征選擇方法,可以幫助我們確定哪些變量對(duì)于預(yù)測目標(biāo)變量最具有影響力,通過考察引入自變量是否具有統(tǒng)計(jì)意義,檢驗(yàn)自變量是否有保留在方程式中的價(jià)值,以此確定方程式中自變量的種類,從而實(shí)現(xiàn)模型最優(yōu)化。雖然逐步線性回歸模型可以幫助我們更好地理解因變量和自變量之間的關(guān)系,并構(gòu)建更準(zhǔn)確的預(yù)測模型,然而逐步線性回歸并不是萬能的,它也有一些局限性,比如無法處理復(fù)雜的非線性關(guān)系。
2" "數(shù)據(jù)整理
本文將通過R語言搭建貧困生等級(jí)預(yù)測回歸模型,R語言是一種強(qiáng)大的統(tǒng)計(jì)分析工具,其中包括各種線性回歸包、隨機(jī)森林包,支持向量機(jī)包、神經(jīng)網(wǎng)絡(luò)包等,為學(xué)者們構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型提供了便利,本文將采用的函數(shù)為逐步線性回歸模型包中的lm函數(shù)、step函數(shù)和神經(jīng)網(wǎng)絡(luò)包中的neuralnet函數(shù)。在進(jìn)行數(shù)據(jù)回歸分析之前,首先需要準(zhǔn)備好數(shù)據(jù)集,數(shù)據(jù)集應(yīng)包含因變量和多個(gè)自變量,在R語言中,可以通過read.csv()、read.table()來導(dǎo)入數(shù)據(jù)集。另外,還需要對(duì)數(shù)據(jù)進(jìn)行清洗和預(yù)處理,如處理缺失值、異常值,數(shù)據(jù)標(biāo)準(zhǔn)化等。
2.1 數(shù)據(jù)預(yù)處理
本文以江蘇電子信息職業(yè)學(xué)院為例,從高校學(xué)生管理系統(tǒng)中隨機(jī)抽取1 500名貧困生個(gè)體作為樣本。根據(jù)任俊等人[6]采用多粒度粗糙集理論挖掘影響貧困生精準(zhǔn)認(rèn)定的關(guān)鍵性因素,從中篩選出家庭人口數(shù)(A)、父親職業(yè)(B)、母親職業(yè)(C)、家庭月收入(D)、學(xué)生家庭住房情況(E)、學(xué)生年生活費(fèi)總額(F)、學(xué)生每天餐費(fèi)支出(G)、上學(xué)費(fèi)用占家庭收入比例(H)、兄弟姐妹受教育情況(I)、家庭成員健康狀況(J)這10個(gè)指標(biāo)作為模型輸入層因子,由于因子均為文本格式,考慮到構(gòu)建模型的需求,首先需要對(duì)輸入因子進(jìn)行量化,具體如表1所示。
將貧困生等級(jí)則作為輸出變量,困難等級(jí)設(shè)為三類,特別困難為一等,比較困難為二等,一般困難為三等。在輸入因子和輸出結(jié)果數(shù)值化、規(guī)范化的基礎(chǔ)上,得到指標(biāo)量化數(shù)據(jù),如表2所示。最后將表中數(shù)據(jù)進(jìn)行歸一化處理,以此弱化數(shù)值的大小帶來的負(fù)面影響。
2.2 模型評(píng)價(jià)
對(duì)模型效能的評(píng)估是建模的重要環(huán)節(jié),本文以均方根誤差(Root Mean Squared Error,RMSE)作為評(píng)價(jià)指標(biāo),以此驗(yàn)證神經(jīng)網(wǎng)絡(luò)模型的效能,均方根誤差的表達(dá)式為
(1)
式中,為樣本真實(shí)值;為模型預(yù)測值;m為樣本總數(shù)。均方根誤差RMSE是衡量數(shù)據(jù)精度的常用指標(biāo),描述了預(yù)測數(shù)據(jù)與真實(shí)數(shù)據(jù)的離散程度。
3" "逐步線性回歸模型構(gòu)建
3.1 逐步線性模型構(gòu)建方法
逐步回歸分析是一種逐步選擇自變量的過程,它通過逐漸添加或刪除自變量來構(gòu)建模型。這種方法通常用于處理高維數(shù)據(jù)集,以避免過擬合和提高模型的解釋性能。本文首先通過R語言中的lm()函數(shù)創(chuàng)建一個(gè)初始的所有變量均參與的多元線性回歸方程,多元線性回歸模型表達(dá)式為
貧困等級(jí)~A+B+C+D+E+F+G+H+I+J" " " "(2)
構(gòu)建的線性回歸模型為全變量的模型,后期使用step()函數(shù)來執(zhí)行逐步回歸分析,其中direction參數(shù)用于指定逐步回歸的方向,可以選擇“forward”“backward”“both”,分別表示向前引入法、向后剔除法、逐步篩選法。在本文中,選擇了“both”,表示逐步回歸同時(shí)進(jìn)行前向和后向選擇。從而在去除對(duì)模型貢獻(xiàn)程度較小的變量后,得到一個(gè)擬合效果更好的線性回歸模型。
3.2 逐步線性回歸模型預(yù)測
在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的基礎(chǔ)上,以7︰3的比例劃分訓(xùn)練樣本和測試樣本,在訓(xùn)練過程中,母親職業(yè)對(duì)預(yù)測結(jié)果的影響較小,因此最終參與逐步線性回歸模型的因子有:家庭人口數(shù)(A),父親職業(yè)(B),家庭月收入(D),學(xué)生家庭住房情況(E),學(xué)生年生活費(fèi)總額(F),學(xué)生每天餐費(fèi)支出(G),上學(xué)費(fèi)用占家庭收入比例(H),兄弟姐妹受教育情況(I),家庭成員健康狀況(J)。
將測試樣本導(dǎo)入模型,共450條數(shù)據(jù),預(yù)測困難等級(jí)與實(shí)際困難等級(jí)有343條一致,表明神經(jīng)網(wǎng)絡(luò)模型困難等級(jí)預(yù)測準(zhǔn)確度為76.2%。
4" "神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
4.1 技術(shù)路線
構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型的技術(shù)路線如圖1所示,首先對(duì)收集的數(shù)據(jù)進(jìn)行預(yù)處理,形成有效的建模因子,在確保樣本充足條件下,以70%和30%的比例將樣本劃分為訓(xùn)練樣本和測試樣本,將70%的訓(xùn)練樣本導(dǎo)入模型,調(diào)整參數(shù),使其擬合度達(dá)到最佳值,在最優(yōu)模型的基礎(chǔ)上,用30%的測試樣本對(duì)其進(jìn)行驗(yàn)證。
4.2 模型訓(xùn)練與驗(yàn)證
在模型參數(shù)方面,隱藏層采用最常用的對(duì)數(shù)S型激活函數(shù);多個(gè)隱藏層會(huì)提高網(wǎng)絡(luò)精度,但也會(huì)使網(wǎng)絡(luò)變得復(fù)雜,增加了訓(xùn)練時(shí)長且易出現(xiàn)過擬合現(xiàn)象,因此本文采用一個(gè)隱藏層;隱藏層的節(jié)點(diǎn)數(shù)能直接影響模型性能,且與輸入輸出層的節(jié)點(diǎn)數(shù)密切相關(guān),因此隱藏層節(jié)點(diǎn)個(gè)數(shù)的確定可根據(jù)經(jīng)驗(yàn)公式(3)確定。
(3)
式中,m為隱藏層節(jié)點(diǎn)個(gè)數(shù);n為輸入層節(jié)點(diǎn)個(gè)數(shù);l為輸出層節(jié)點(diǎn)個(gè)數(shù);α為1~10之間的常數(shù)。本文隱含層節(jié)點(diǎn)取值范圍為[4,13]。經(jīng)過逐一測試,當(dāng)隱藏層節(jié)點(diǎn)為6時(shí),模型的準(zhǔn)確率更高。模型構(gòu)建示意圖如圖2所示。
模型完成訓(xùn)練后,將450條測試樣本導(dǎo)入神經(jīng)網(wǎng)絡(luò)模型進(jìn)行驗(yàn)證,預(yù)測困難等級(jí)與實(shí)際困難等級(jí)有371條一致,表明神經(jīng)網(wǎng)絡(luò)模型困難等級(jí)預(yù)測準(zhǔn)確度為82.4%,預(yù)測準(zhǔn)確度較高,為新時(shí)代的高校精準(zhǔn)資助提供了客觀依據(jù)。
4.3 BP神經(jīng)網(wǎng)絡(luò)回歸模型與逐步線性回歸模型比較
BP神經(jīng)網(wǎng)絡(luò)回歸預(yù)測模型與逐步線性回歸預(yù)測模型對(duì)于貧困生等級(jí)的預(yù)測均具有一定的效果,前者預(yù)測準(zhǔn)確度為82.4%,后者比前者準(zhǔn)確度減少了6.2%,為76.2%。顯然,在高校貧困生等級(jí)預(yù)測方面,BP神經(jīng)網(wǎng)絡(luò)模型更具有優(yōu)勢(shì),為實(shí)現(xiàn)精準(zhǔn)識(shí)別貧困生提供了更客觀的依據(jù),為解決貧困資助評(píng)定標(biāo)準(zhǔn)單一化、不一致以及諸多人為因素帶來的問題提供了新的解決方向。
5" "結(jié)束語
人工智能技術(shù)為高校精準(zhǔn)資助學(xué)生開辟了新路徑,本研究構(gòu)建了逐步線性回歸與BP神經(jīng)網(wǎng)絡(luò)回歸兩大預(yù)測模型,旨在深入挖掘貧困學(xué)生數(shù)據(jù),實(shí)現(xiàn)貧困生等級(jí)的精確預(yù)測。
參考文獻(xiàn)
[1] 王雪飛.?dāng)?shù)據(jù)挖掘在高校貧困生校園卡流水?dāng)?shù)據(jù)中的應(yīng)用研究[D].長春:東北師范大學(xué),2014.
[2] 戴海輝.基于Hadoop的校園卡數(shù)據(jù)挖掘的研究與實(shí)現(xiàn)[D].南昌:南昌航空大學(xué),2017.
[3] 馬偉杰.C4.5決策樹法在高校貧困生認(rèn)定中的應(yīng)用[J].河南教育學(xué)院學(xué)報(bào)(自然科學(xué)版),2012,21(03):27-30.
[4] 李妍.大數(shù)據(jù)背景下基于學(xué)生“行為畫像”的高校精準(zhǔn)資助模型研究[J].南昌師范學(xué)院學(xué)報(bào),2023,44(03):86-89+104.
[5] 可佳欣,李瑞欣.?dāng)?shù)字化技術(shù)在高校發(fā)展型資助育人工作中的應(yīng)用[J].山西電子技術(shù),2023,(04):61-63.
[6] 任俊,唐綺雯,徐怡,等.大學(xué)生貧困資助評(píng)定的多粒度粗糙集研究[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(07):82-86.