






摘要:在高校認定家庭經濟困難學生的工作中,提高認定的科學性和合理性是難點。該文基于校園卡消費數據建立了一套評價學生經濟困難程度的指標體系,計算出每個學生的經濟困難指數。實驗結果表明,疑似經濟困難學生表現出日均食堂三餐金額偏低、食堂就餐率偏高的低消費水平特征,部分經濟困難認定學生表現出日均食堂三餐金額偏高、食堂就餐率偏低的高消費水平特征。該指數較真實地反映了學生的生活消費水平,可作為經濟困難學生認定的重要參考依據。
關鍵詞:校園卡消費數據;綜合評價;經濟困難指數;相對熵
中圖分類號:TP399" " " " 文獻標識碼:A
文章編號:1009-3044(2022)33-0100-04
做好家庭經濟困難學生的認定工作是高等教育改革和發展的焦點問題。經濟困難學生認定的主要依據是來自于學生填報的家庭經濟狀況信息以及相關貧困證明[1-2]。由于信息采集較單一,并且信息的真實性較難核實,傳統的認定過程缺乏科學性、合理性?;谛@卡消費數據的挖掘分析,對于建立科學合理的精準資助管理體系具有重要作用[3]。
當前已經有較多的研究分析校園卡消費數據,建立算法模型評估學生的經濟水平[4]。王澤原等人提出利用隨機森林算法對經濟困難學生進行判別和分類[5]。陳桂明等人采用XGBoost(Extreme Gradient Boosting)模型建立經濟困難學生的分類預測方法[6]。歐陽鐵磊等人通過卡方自動交互診斷器算法找到最佳分組變量和最佳分組點,設計判別經濟困難學生的模型[7]。李斌等人通過鄰域分量分析和貝葉斯優化調參改進經濟困難學生分類模型[8]。莫媛媛等人結合譜聚類算法與支持向量機對學生校園卡消費數據進行聚類分析,區分出學生的經濟困難程度[9]。上述研究對經濟困難學生進行定性判斷,存在缺少定量分析、可解釋性較差的弊端。
本文運用綜合評價法對學生的經濟困難程度進行評價,最后對評價結果進行了經濟困難層級分析、疑似經濟困難分析和消費異常分析。
1 實驗設計
實驗流程如圖 1所示。首先,基于預處理后的校園卡消費數據建立評價經濟困難程度的指標體系;然后,對評價指標作歸一化處理并確定相應權重,將各指標的加權和作為量化學生經濟困難程度的評價結果,并將該評價結果定義為“經濟困難指數”,最后對評價結果進行統計分析。
1.1 數據預處理
將學生劃分為經濟困難學生和非經濟困難學生兩類。選取學生樣本S,將該樣本中的經濟困難認定學生名單作為經濟困難學生的樣本S0,其他學生作為非經濟困難學生的樣本S1,則S= S0 + S1。
采集學生樣本S的校園卡消費數據,使用校園卡賬戶字典、商戶字典關聯上學號、消費地點、消費場所,選取學號、消費時間、消費地點、消費場所、消費金額等字段形成消費數據集。
1.2 建立評價指標體系
評價學生經濟困難程度的指標體系如表 1所示。
三餐的消費時間依次為6點到10點、10點到16點、16點到23點,各指標的計算公式如表 2所示。
將餐均金額指標除以對應性別的學生樣本均值得到餐均水平指標。
1.3 歸一化評價指標
歸一化評價指標是指將評價指標x經歸一化函數處理后映射到0和1之間。歸一化函數的詳細設計如表 3所示。
1.4 確定指標的權重
指標權重的確定參考各指標在經濟困難學生與非經濟困難學生之間頻率分布的相對熵,相對熵越大,則權重越大。相對熵,又被稱為KL散度,是兩個概率分布P和Q之間差異的非對稱性度量。在信息論中,KL(P||Q)表示當用概率分布P來擬合Q時產生的信息損耗,其中P表示真實分布,Q表示P的擬合分布[10]。在離散隨機變量的情形下,相對熵的計算公式如下:
[KL(P||Q)=PxlnPxQx]
設經濟困難認定學生名單S0的人數為m,將區間[0,1]劃分為[log2m+1]個子區間,式中[]表示四舍五入取整。計算出經濟困難學生的指標xi在子區間上的頻率分布Pi,非經濟困難學生的指標xi在子區間上的頻率分布Qi,將指標xi在各子區間上的頻率近似為概率,根據式(1)計算出指標xi的頻率分布Pi和Qi的相對熵KLi,定義指標xi的權重wi的計算公式如下:
[wi= KLii=1nKLi]
1.5 計算經濟困難指數
將評價結果定義經濟困難指數F,取值在0到1之間,數值越大表示經濟越困難。設指標xi的歸一化函數為fi(xi) ,權重為wi,則該指數的計算公式如下:
[F=i=1nfixiwi]
1.6 評價結果分析
將學生樣本S按經濟困難指數降序排序,將該指數排名作為學生的經濟困難排名,計算經濟困難排名百分比,對評價結果進行分析。
(1)經濟困難層級分析,是指按照經濟困難排名百分比從高到低排序,以10%為間隔劃分學生樣本S。將經濟困難排名百分比按區間[90%,100%], [80%,90%),…, [0%,10%)依次劃分為層級1,層級2,…,層級10;然后,分析不同層級的學生在校園卡消費和受資助方面的特征趨勢。
(2)疑似經濟困難分析和消費異常分析,是指篩查疑似經濟困難的學生和消費異常的經濟困難認定學生,分析篩查結果的學生在校園卡消費和受資助方面的特征。篩查方法:將經濟困難排名前25%的學生記為P,經濟困難排名后20%的學生記為R,則疑似經濟困難學生名單等于P∩S1,消費異常的經濟困難認定學生名單等于R∩S0。
2 實例研究
選取某高校2015級、2016級共14255名本科生為學生樣本S,該樣本在2017-2018學年的經濟困難學生認定名單共3726人。同時選取學生樣本S在2016年10-12月份、2017年3-5月份共6個月的校園卡消費數據。
按照上述實驗流程計算出食堂消費占比、食堂就餐率、早餐餐均水平、午餐餐均水平、晚餐餐均水平的指標權重依次為9.59%,21.03%,15.93%,28.01%,25.43%。同時,計算出每個學生樣本的經濟困難指數。
2.1 評價結果分析
2.1.1 經濟困難層級分析
統計不同經濟困難層級的學生在校園卡消費和受資助方面的情況。將月均電瓶車充電次數≥1的消費行為視為擁有電瓶車;日均食堂三餐金額等于早中晚餐均金額之和。統計結果如圖2、圖3所示。
分析圖 2、圖3可知,隨著經濟困難層級的遞增,學生群體的經濟困難指數整體上遞增,表現出日均食堂三餐金額的均值遞減、超市次均消費金額的均值遞減、擁有電瓶車的人數比例遞減、經濟困難認定學生的比例遞增、勤工助學人數比例遞增、助學貸款人數比例遞增的趨勢。與第1層級相比,第10層級的日均食堂三餐金額的均值大約是該層級1/2,擁有電瓶車人數比例大約是該層級的1/8,表明經濟困難層級在首尾兩端的消費水平差距較大。
2.1.2 疑似經濟困難分析和消費異常分析
經過經濟困難指數的篩查,在非經濟困難學生名單10529人中,發現疑似經濟困難學生1946人,占比18%;在經濟困難學生認定名單3726人中,發現消費異常的學生270人,占比7%。
統計經濟困難認定學生、疑似經濟困難學生、消費異常的經濟困難認定學生等三類學生(在下圖中分別用認定、疑似、異常表示)在日均食堂三餐金額、食堂就餐率等指標上的分布情況,以及在擁有電瓶車、勤工助學、助學貸款等方面的人數比例,統計結果如圖 4、圖 5所示。
分析圖 4、圖 5可知:(1)疑似經濟困難學生,主要表現為日均食堂三餐金額偏低(均值18.7,中位數19.3)、食堂就餐率偏高(均值74.9%,中位數75.8%)、擁有電瓶車人數比例低于經濟困難認定學生,表明物質生活較差,勤工助學和助學貸款的人數比例也偏低,可能與申請資助的積極性偏低有關。(2)消費異常的經濟困難認定學生,主要異常表現為日均食堂三餐金額偏高(均值29.5,中位數29.0)、食堂就餐率偏低(均值36.8%,中位數37.9%)、擁有電瓶車人數比例明顯高于經濟困難認定學生,表明物質生活較好。
3 結束語
本文基于校園卡消費數據建立了一套綜合評價學生經濟困難程度的指標體系,提出了計算學生的經濟困難指數的方法。實驗結果表明,通過該指數篩查出的疑似經濟困難學生表現出日均食堂三餐金額偏低、食堂就餐率偏高為主的低消費水平特征,部分經濟困難認定學生表現出日均食堂三餐金額偏高、食堂就餐率偏低的高消費水平特征。同時該指數具備良好的可解釋性。
該經濟困難指數較真實地反映了學生的生活消費水平,可作為經濟困難學生認定的重要參考依據,提高了經濟困難學生認定的科學性和合理性,讓資助更加精準。
參考文獻:
[1] 杜志欣,付靖嵋,李悅寧.高校貧困生資助工作的困境及策略——以肇慶學院為例[J].高教探索,2019(2):116-121.
[2] 宋美喆.基于模糊綜合評價方法的高校貧困生認定研究[J].黑龍江高教研究,2016,34(7):16-20.
[3] 邵天勤,朱自猛.基于一卡通數據挖掘下的高校精準資助工作研究[J].價值工程,2018,37(16):232-233.
[4] 何秀全.校園一卡通數據分析及應用相關研究述評[J].華中師范大學學報(自然科學版),2017,51(S1):63-65.
[5] 王澤原,趙麗,胡俊.大數據環境下利用隨機森林算法和決策樹的貧困生認定方法[J].湘潭大學自然科學學報,2018,40(6):115-120.
[6] 陸桂明,張源,周志敏.基于機器學習的貧困生分類預測研究[J].計算機應用與軟件,2019,36(1):316-319.
[7] 歐陽鐵磊,葉玲肖.基于大數據分析的高校貧困生精準資助策略研究[J].計算機應用與軟件,2020,37(8):45-47,129.
[8] 李斌,王衛星.NCA降維和貝葉斯優化調參對分類模型的改進[J].計算機應用與軟件,2019,36(8):281-287,299.
[9] 莫媛媛,顧明言,張輝宜.基于譜聚類與支持向量機的高校經濟困難學生認定方法研究[J].中國教育信息化,2017(15):48-51.
[10] 李建國,趙海濤,孫韶媛.基于KL散度的策略優化[J].計算機科學,2019,46(6):212-217.
【通聯編輯:王力】