周 皞,萬里亞
高校貧困生資助是關系到教育公平的重要問題,而貧困生判別則是高校貧困生資助的前提和難點所在。貧困生判別問題的產生有其特定的社會背景,在某種意義上,它是資助資源稀缺的產物。面對資源有限和需求膨脹的矛盾,有效識別貧困生并將有限資源提供給最貧困者是教育資助的宗旨。筆者分析某高校1175位學生從2008年到2010年在校三年的校園一卡通消費數據,旨在如何利用校園卡消費數據來輔助評判學生(家庭)經濟狀況,為高校更有效的開展貧困生判別工作提供方法及實踐參考。
貧困生又稱家庭經濟困難學生,是指學生本人及其家庭所能籌集到的資金,難以支付其在校學習期間的學習和生活基本費用的學生(教財[2007]8號文)。貧困生判別是指依據一定的理論和方法,對貧困學生家庭經濟困難程度所做的評價。從操作層面上而言,貧困生判別是指通過一定的方法把貧困生從學生總集合中選出來。
國內外關于貧困生判別方法有所不同。西方發達國家基于完善的稅收機制,可以比較準確地掌握學生家庭的經濟收支,多常用“公式法”(又稱“模型法”)測算貧困生家庭經濟狀況由此來判別貧困生。
在我國各高校貧困生判別方法沒有統一的標準,通常采用定性與定量結合的方法判別貧困生。[1]其具體實施步驟為三個方面:(1)各高校需了解學生經濟情況。依靠學生入學時填寫的《高等學校學生及家庭情況調查表》或者貧困證明,即高校對學生經濟困難程度的判別,僅限于學生入學時提供的調查表或縣鄉村三級證明、相關困難證件(如《特困證》、《最低生活保障證》、《社會扶助證》等)證明;(2)依靠評價學生的經濟消費,如飯卡監督、低保標準和月生活費監督等;(3)根據班主任、輔導員對學生了解情況等鑒別。
由此判別方法建立起來的評判指標體系雖可較全面反映學生(家庭)經濟狀況,但由于其所涉及的數據收集量過大,數據質量往往得不到保障,加上一些指標不易量化,且不同地區的情況可比性差等原因,致使實際工作中困難重重,可操作性較差,其效果并不理想。
隨著教育信息化建設在高校的不斷深入,許多高校已逐漸建立起了一系列功能日臻完善的校園一卡通系統。校園一卡通系統是學校重要的綜合性信息管理系統,在學校信息化建設中占據著重要地位。目前,高校所建的校園一卡通系統一般提供消費繳費、身份識別以及信息管理三大功能,其中消費繳費功能較全面地反映持卡人在學校生活期間的總體消費額度和結構情況。[2]考慮到高校學生的生活消費基本上集中在校園內部,故可以基于校園卡的消費數據分析來輔助推測、評判學生(家庭)的經濟狀況。
高校在建設校園一卡通系統時所覆蓋的校內消費繳費項目可能各有不同。一般來說,覆蓋的消費繳費項目越多,其消費繳費數據反映學生(家庭)經濟狀況越準確。在眾多消費繳費項目中,雖然有些的額度屬于政策規定且相對固定的,有些消費的發生屬于意外或隨機的,但更多的則與學生的個人情況密切相關,所以通過合理分析和數據挖掘,可以測度出消費數據與學生經濟狀況的關聯規則。
在校園一卡通系統中,消費數據具有明確的消費項目標識,原始數據是以流水記錄形式存于數據庫的。在使用消費數據進行數據分析前,需要對原始數據進行必要的整理,一般應按學生的卡號、班級、年級、院系、專業、性別與消費發生時間、額度、消費項目等重新組織流水記錄,最好是另建數據倉庫,以適應數據運算需要。數據處理工作主要由數據類型轉換、缺失值處理和刪除孤立點三部分組成,將“校園一卡通”消費原始數據進行初步的分類、合并、篩選以及整理,并將其保存在數據倉庫中。實證研究中,筆者匯總了某高校1175位學生在校三年的一卡通消費情況,建立了數據倉庫,數據倉庫由Micro soft SQLS erver 2005 Analys is Services提供。
實證研究主要采用基于關聯規則的分類算法:(1)將數據倉庫中的數據分為訓練樣本和測試樣本兩大類;(2)通過關聯規則挖掘算法在訓練樣本中找出與學生的經濟情況有較強相關性的特征規則;(3)利用這些特征規則對測試樣本進行預測分類,輸出分類結果。簡而言之,研究所要解決的問題是:給定一個學生的校園卡消費數據,將其分類為貧困生和非貧困生兩類。也就是說,要解決的核心問題是如何定義一個學生基于消費數據的特征向量,然后找到特征向量與是否為貧困生之間的關聯規則,并用這些規則去預測新學生是否為貧困生。
給定一個數據類型為
算法的目標是在給定一個支持度閾值α和置信度閾值β的情況下,算法通過結合規則挖掘算法找到一系列滿足這兩個閾值的屬性值與類別的對應規則,并通過這些規則判斷未知類別的測試數據。其中,支持度是指屬性值和某個類別之間的對應規則在整個訓練集的出現概率,而置信度是指給定屬性值的對應數據集合,屬性值和某一類別之間的對應規則在這個集合中出現的概率。此類規則挖掘算法常用的有Apriori算法和F P-growth算法等。
基于已有的貧困生和非貧困生數據,可以分析建立相關特征向量,然后計算出特征向量與貧困生之間的關聯規則?;陉P聯規則和新的學生的消費數據,再來輔助判斷新學生是否是貧困生。假設挖掘出一條規則“{三個學年的總消費金額<5000;三個學年平均每次消費金額<5}==>貧困生”,那么滿足這條規則的學生,可以判斷其為貧困生,然后將此規則判斷結果提交給學校相關部門作為輔助決策。
經過分析,研究建立的特征向量如下表所示,其中的特征代碼和數值級在實驗結果中解釋。特征向量可以根據實際的情況不斷調整(增加、修改或者刪除),從而使得算法不斷優化。
訓練數據中,學生數量為1175個,其中非貧困生數量為743,貧困生數量為432。因此,非貧困生規則選擇的置信度至少是743/1175=0.63以上,貧困生規則選擇的置信度至少是432/1175=0.37以上。根據實際情況可以提高置信度閾值進一步篩選,目前在支持度閾值為0.1和底限置信度閾值的基礎上得到關聯規則若干條,舉例如下。

表1 消費數據的特征向量

該規則的解釋如下,“1-avg”是特征代碼,對應表中的“第一學年平均每次消費金額”特征向量,數量級為0.5,1-avg=6表示消費金額在6*0.5到7*0.5之間;“lunch-avg”對應表中的“三個學年平均午餐消費金額”特征向量,數量級為0.5,lunch-avg=8表示消費金額在8*0.5到9*0.5之間。滿足此條件的學生個數為162個,其中非貧困生128個,置信度為0.79。

該規則的解釋如下,all-avg在5*0.5到6*0.5之間,滿足此條件的學生個數為297個,其中非貧困生129個,置信度為0.43。
類似關聯規則可以通過調整特征向量和支持度和置信度閾值來不斷優化,再利用這些關聯規則對測試樣本進行預測分類,用于貧困生判別輔助決策。
綜上所述,以高校學生校園一卡通消費數據為基礎,提出了將數據挖掘技術應用于高校貧困生輔助判別的一種新思路。筆者設計了基于數據挖掘技術中的分類預測和關聯規則的數據挖掘模型,并利用該模型對實際數據進行挖掘計算,并以期挖掘貧困生判別的關聯規則,作為貧困生評定工作提供輔助依據。數據挖掘模型的使用效率,可以通過調整特征向量和支持度和置信度閾值來提高,這也將是課題組今后研究工作需要進一步關注的重要內容之一。
[1]畢鶴霞.中國高校貧困生判別方法及其認同度的實證研究[J].高教探索,2011(4):118-123.
[2]宋德昌.基于校園卡的學生經濟狀況評價方法研究[J].中山大學學報(自然科學版),2009(S 1):9-11.