周靜 龍小宏



摘要:目前,我國高職院校基本都已經建立了較為全面的貧困大學生資助體系,但是由于學生的貧困生申請信息偏于主觀、貧困指標難以量化等因素,使得貧困生認定工作仍然是高職院校資助決策中的難點問題。一般高職院校貧困生評定流程,一是讓學生在家庭所在地開貧困證明,二是學生在學校填寫貧困生申請表,三是由學生所在院系組織評議小組對申請人進行評議。但是,學生向學校提交的家庭貧困證明,往往會出現虛假信息的情況,這就給高職院校資助工作帶來了難題。因此,如何在高職院校缺乏學生的真實家庭情況以及助學金的金額有限的背景下,將助學金發放到最需要幫助的學生手上成為亟待解決的問題。本文利用大數據技術,對學生在學校使用一卡通產生的消費、進出圖書館、進出教室寢室等數據進行挖掘與分析,判斷高職院校目前采用的貧困生評判規則是否合理,并找出其中“偽貧困生”和真正需要幫助的學生,為高職院校學工部在貧困生資助管理工作中提供參考意見。
關鍵詞:貧困生;SVM;異常行為
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2020)07-0103-03
1 高職院校貧困學生認定的現狀
高職院校認定貧困學生的方法,大部分采用的是證明、消費和評議三個關卡,班級、院系、學校三級評審[1]。
貧困證明,學生提供在當地政府、街道出具的家庭經濟困難證明或者殘疾證明。
消費水平,一個消費比較低的學生不一定是貧困生,但消費高的學生一定不是貧困生,因此,消費水平作為認定貧困生的一個重要參考依據。
評議,需要認定貧困的學生,在輔導員監督下,貧困申請學生所在班級的同學根據該學生提交的材料及貧困生本人的綜合情況,對其進行評議,投票決定是否上報上一級進行公示。
以上認定方法,流程雖然清楚,但是有一些參數或指標不能夠定量,人為因素較大,容易出現偏差,不符合貧困生工作公平公正的原則。
2 模型的選取及應用
2.1 支持向量機理論
支持向量機(Support Vector Machine,SVM)是Cortes和Vapnik于1995年首先提出的,是一種從線性可分數據的“最優分類面”求解方法發展而來,基于結構風險最小化原理(Structure Risk Minimization,SRM)的機器學習方法。該理論在解決小樣本、非線性及高維模式識別中,具有許多特有的優勢,能夠推廣應用到函數擬合等其他機器學習問題中。
SVM算法在非線性映射時,將低維樣本特征映射到高維特征空間,讓非線性可分的問題性質轉化成線性可分,但是在無形中增加了計算的難度,還有可能出現維數災難,SVM解決此類難題的方法是利用核函數方法。
2.2 計算過程及結果
2.2.1 數據預處理
高職院校學生入學報到時,學工部提供了迎新系統中學生的基本信息,輔導員讓學生填寫學生基本信息表,教務處提供教務管理系統中學生成績,輔導員負責管理學生并與學生進行深度溝通交流,做好相關記錄,學生到校后,在校園內所有消費均使用一卡通交易,為本次實驗奠定了良好的基礎。
本次實驗選取了瀘州職業技術學院2017級500多名學生,2018年9月到2019年9月的原始記錄,包括406名訓練樣本和104名實驗數據,再獲得2018級602名學生2018年9月到2019年9月的原始數據作為實驗數據,并認真整理分析了此類信息。
2.2.2 提取相關數據
實驗前向學工部有經驗的學生管理人員了解情況,深入分析以往已形成的理論與案例,大致了解高職院校貧困學生異常行為[2]有關的因素,如學生家庭情況(家庭成員是否有殘疾、是否為單親)、家庭經濟情況(是否有貧困證明)、與同學的關系(是否與學生存在過節)、是否有心理疾病、是否當過班委、是否有男(女)朋友、是否參加了學校的社團、是否做過兼職、是否獲得過獎學金等。在進行實驗時,提取貧困學生以上九個維度的相關數據。本次的訓練樣本一共包含406個學生對象,其中重點關注學生是否為重點分類標簽。基于分類標簽構建訓練數據矩陣406×9及一個分類結果406×1,使用支持向量機算法。首先提取學生的數據特征,訓練樣本并獲得分類模型,這是測試階段進行判斷的基礎條件。訓練過程中重點關注學生作為負樣本,即說明學生可能存在學業方面的問題,在學業方面存在異常行為。非學業重點關注的學生,即正樣本,這部分學生在學業方面并不存在較大的問題。
2.2.3 求最優化問題
采集的數據可能存在缺失或者不夠具體,無法準確的表達學生的詳細信息,如學生由于種種原因,并不會坦白自己是否失戀過,因此線性分類器無法準確以此為依據進行分類。本次引入基于最小二乘的支持向量機法進行分類,以期實現精確的分類,此種方法在構造最優決策函數[3]方面引入了間隔的概念,不使用高維特征空間復雜運算,而是使用原空間核函數進行計算,不僅能夠達到優化目標的目的,而且同時選取損失函數,有助于規避錯誤數據。基于此種情況下的優化問題,應符合如式(1)和式(2)。
2.2.4 訓練和測試結果
利用SVM分類獲得最終結果,測試時在經過訓練的分類器中,輸入測試貧困學生數據,并結合訓練結果來判定學生是否存在異常行為。整個實驗過程較為簡單,僅需要預先將統計好的學生數據輸入系統即可完成異常行為判斷。其測試結果如圖1所示。
在圖1中,用藍色、紅色表示分別表示2017級、2018級的學生。橫坐標分別表示非學業重點、實際學業重點、預測非學業重點、預測學業重點關注對象。我們提前與學工部學生管理人員進行深入的溝通,了解學生的情況,并對比分析實際所調查的情況,以驗證該方法的正確率。如表1所示,其正確率可達到:
3 結語
精準扶貧是高職貧困認定需解決的一個重要問題,因而對貧困生異常行為的研究是高職院校精準扶貧重點關注的話題。針對高職院校的精準扶貧,本文選取了SVM算法進行對貧困生異常行為研究,采用對某高職院校貧困生總計1106條數據進行實證分析。實驗結果表明,支持向量機模型可以較好地根據有學生家庭情況、家庭經濟情況、與同學的關系、是否有心理疾病、是否當過班委、是否有男(女)朋友、是否參加了學校的社團、是否做過兼職、是否獲得過獎學金等參數評估真正貧困生的概率,為大數據背景下高職院校精準扶貧提供了新的思路和方法。
參考文獻
[1] 朱虹,覃向梅,陸蕾.高校精準扶貧工作的落實與路徑分析[J].職業,2019(13):114-115.
[2] 鄧晗.基于機器學習和大數據技術的高校學生行為分析[D].北京:北京郵電大學,2017.
[3] 戴海輝.基于Hadoop的校園卡數據挖掘的研究與實現[D].南昌:南昌航空大學,2017.