肖永欽
(福建師范大學 網絡與數據中心,福建 福州 350117)
近年來,國家高度重視貧困生資助問題,并做出決不讓一個學生因家庭經濟困難而失學的偉大承諾[1]。相信在國家的大力扶持下,學生因貧困而退學的情況將徹底成為歷史。同時,另一個問題也浮出水面—如何科學且合適的將這些資金準確的分發給各位貧困生?目前貧困生的界定[2]主要是通過民政局證明、學生老師推薦、平時觀察等方式,主觀性因素大,不精準且不利于維護學生們的自尊心[3]。而高校信息化的快速發展,積累了學生的大量過程數據,還有相當一部分的實時數據,為解決貧困生的問題提供了可能。通過大數據[4]分析挖掘的手段,可以實現貧困生的識別更加精準、貧困級別智能評定、學生在校消費水平和生活困難指數,客觀呈現公正全面、洞悉真實貧困狀況,找出真正的貧困學生,使得貧困關懷、國家獎學金、助學獎學金等頒發更加公平、客觀[5]。同時可以幫助他們減輕他們在接受補助時的心里壓力,維護他們的自尊心,做到合理的分配[6]。
謝桂陽等[7]介紹提出的FM(factorization machines)模型,通過業務系統原始數據收集、有效數據抽取、數據探索與預處理、建模和應用、結果與反饋五個步驟科學建立了可反饋的模型,可實現實時更新,能夠更加準確的鎖定貧困生范圍,科學調用歷史數據,全面分析所有學生,在大數據的整體分析下大大增加了預選貧困生的貧困真實性,為評出貧困團體提供重要參考數據。然而該模型需要依賴學校有貧困生標準樣本的數據,再利用FM模型進行訓練,進而模型預測。但目前大部分學校是沒有貧困生標準樣本的數據。提出基于RFM和K-Means模型建立的方法來分析校園貧困生,可以擺脫這種困境,輔助老師進行貧困生識別。
RFM模型[8-9]是衡量客戶價值和客戶創利能力的重要工具和手段,該模型通過一個客戶的近期購買行為、購買的總體頻率以及消費總額3項指標來描述該客戶的價值狀況。
R(recency):最近一次消費間隔。R值越大,表示用戶最近一次消費的時間距離現在越久。R指標反應了用戶對品牌的熟悉度和回購頻率。
F(frequency):消費頻率。用戶在規定時段內的消費次數。F值越大,表示客戶在最近一段時間交易次數越多。F指標反應了用戶對品牌的忠誠度及購買習慣是否養成。
M(monetary):消費金額。用戶在一段時間內的消費金額。M值越大,表示客戶消費能力越大。M指標反應了用戶價值和產品認可度。

圖1 RFM模型示意圖Fig.1 RFM model diagram
在該模型下,如果分析學校貧困生,實際上是需要識別出里面價值最低的用戶,同時需要進行一些調整。
(1)在模型中,消費金額表示在一段時間內,客戶消費金額的總和。因學生有的可能在外面進行勤工儉學不在學校就餐,最近消費時間間隔以及消費頻率與貧困生的識別關聯性不強。
(2)傳統模型分析是利用屬性分箱方法進行分析,但是此方法細分的客戶群太多,需要一一識別客戶特征和行為。我們采用月平均消費總額(M)和平均每餐就餐金額(A)兩個指標進行分析。
(1)借助學生一卡通消費數據,提取月度消費總額和月度每餐平均消費額,對學生進行分類;
(2)采用聚類的方法對學生進行類別劃分;
(3)對不同的學生類別進行特征分析,比較不同類學生的貧困程度;
(4)對不同貧困類別的學生提供個性化的服務,制定相應的扶貧策略。
原始數據中存在有的學生沒有在學校就餐的情況,這有可能是學生在外就餐、通過網絡平臺叫外賣、在外勤工儉學、家住附近等原因造成的;對于當月就餐次數未達到60%的,從當月的數據分析窗口中剔除。
(1)數據清洗
從業務以及建模的相關需要方面考慮,篩選出需要的數據。
丟棄當月就餐次數未達到70%的數據。
計算月度消費總額和月度每餐平均消費金額。
(2)屬性規約
原始數據中屬性太多,根據MA模型,選擇與其相關的屬性,刪除不相干、弱相關或冗余的屬性。
(3)數據變換
進行屬性構造和數據標準化工作。
屬性構造:因原始數據中并沒有直接給出M、A這2個指標,需要構造這2個指標:
a)M:月度平均消費總額=消費總金額/跨越的月數量。
b)A:每餐平均消費金額=消費總金額/就餐的次數。
數據標準化:在建模過程中,數據標準化狹義上指把數據歸一化到0到1之間,歸一化的方法有0均值標準化、min-max標準化等。廣義上指把數據變換到一個較小的范圍內,數據變換的方法也有很多,如取平方根,除以固定值等。因為M指標和A指標的取值范圍差異較大,對于后續建模會有影響,為了消除數量級數據帶來的影響,需要對數據進行標準化處理。通過實驗對比,本模型中選用0均值標準化算法:
x=(x-μ)/σ
式中μ為所有樣本數據的均值,σ為所有樣本數據的標準差。
(1)學生K-Means聚類[10-12]分析
K-means算法是一種用于機器學習的迭代求解算法,算法實現步驟如下:
第一步,為了達到聚類分簇的目的,k個聚類是由n個數據對象劃分而成,通過使每個聚類中的數據與該聚類中心距離的平方和最小。
第二步,首先選擇初始聚類中心,接著計算各樣本數據到每個聚類中心的距離,同時根據距離大小重新分配所屬的簇。
第三步,為了更新聚類中心,通過式(1)計算新簇的樣本均值。
第四步,如果迭代次數達到設定的閾值或者準則函數式(2)收斂,則說明K-means聚類完成。
第五步,經過以上步驟后,在這一類別中樣本對象之間相似性最高,不同類別的樣本對象差異最明顯,否則不斷重復上述過程,直至滿足條件而結束。

將學生聚成4類:學生群1、學生群2、學生群3、學生群4(可以結合業務的理解與分析來確定客戶的類別數量[3]),其中ZM表示月度平均消費總額,ZA為每餐平均消費金額(見表1)。

表1 K-Means聚類分析Tab.1 K-Means cluster analysis
(2)貧困生認定分析
對聚類結果進行特征分析。學生群體1的M、A屬性都較高,即月平均消費總額和每餐平均消費金額都是較高的,說明這部分學生家庭較富裕。
學生群體2的M屬性高,A屬性低,即月平均消費金額較高但每餐平均金額較低,說明這部分學生經常來食堂吃飯,但每次吃飯花費的金額較小,因此這部分學生有較大可能是貧困生。
群體3的學生M屬性低、A屬性高,即月平均消費金額少但每餐平均金額高的這部分學生,可能是當地“土著”,可能大多數時候在家就餐,偶爾在學校就餐,吃的比較好。
學生群體4在M、A屬性最小,即月平均消費總額和每餐平均消費金額都是較低的,這部分中,有一部分學生有可能是勤工儉學的學生,因為學校食堂有包飯,所以月平均消費總額和每餐平均消費金額都比較低;而另一部分則可能是不經常在食堂吃飯,比如經常叫外賣或者在校外吃飯的學生。
(3)編程實現
抽取清洗數據:讀入數據,采用K-MEANS算法對數據進行聚類,得到聚類標號和聚類中心點。根據聚類標號統計計算得到每個類別的學生數,同時可以根據聚類中心點向量畫出學生聚類中心向量圖。
(4)模型機器學習和模型驗證
對學生數據清洗后打亂,抽取其中90%的數據進行機器學習,剩下的10%的數據進行模型驗證和模型參數調整模型優化。
數據來源于福建省某高校,2015級學生數據進行機器學習,2016級學生數據進行模型驗證,具體數據如下:
a)用于訓練的是2015級學生,總人數為7190人,有1795人被評為經濟困難學生。
b)用于預測的是2016級學生,總人數為7324人,有1876人被評為經濟困難學生。
c)預測經濟困難學生1876人,實際有890人與學校提供的經濟困難學生一致,還有986人不在學校的名單中,但查看實際三餐消費等數據,基本上都還是較貧困的。從另一方面看,即預測不是貧困生的有7324-1876=5448人,其中有980人與學校的不是貧困生的名單不重合(見圖3)。

圖3 預測與實際情況對比圖Figure 3 Comparison of forecast and actual situation
d)預測異常經濟困難學生1876人,其中有193人實際被評為預測經濟困難學生,查看這些學生的消費數據,發現要么就餐率很低,要么三餐消費很高,消費數據較異常。
由于實際上學校也不確認哪些是真正的貧困生,故以上數據的實際準確率無法得出具體數據。只能在假設學校的貧困生名單是正確的情況下進行大致評估。
采用經濟困難學生的正確率(Accuracy)來評價機器學習模型的效果,正確率的表達式為

其中,TP表示預測為貧困生且確實為貧困生的數量,上表中的結果為TP=890;TN表示預測為非貧困生且確實為非貧困生的數量,上表中TN=5448-980=4468,分母表示全體學生的數量,即7324人。因此正確率為(890+4468)/7324=73.16%。
在科學的分析出疑似貧困學生后,一定的主觀判斷也是不可缺失的,這樣可以有利于綜合學生平時的表現,能更加科學合理的分配助學金。
權限管理方案[13]分為3個級別:校級領導;院級領導、部門領導;輔導員。
其中校級領導可以查看全部模塊的內容,院級領導和部門領導只能查看自己學院和各部門的情況,輔導員只能看到自己班級學生詳細列表。
貧困人群主要是通過點擊下轉的方式逐漸呈現以下幾個表:
(1)疑似貧困人群散點圖,從每月平均消費和每餐平均消費兩個維度來呈現。(全校角度)
(2)貸款占比:0~4999,5000~9999,10000以上三個檔位貸款占比情況。(全校角度)
(3)各個學院貸款占比扇形圖。(全校角度)
(4)各個學院具體貸款學生詳細列表。(學院角度和輔導員角度)
所有的表都是一起呈現出來不隱藏。隱藏的功能由權限管理方案來定,如果登錄進大數據應用系統的是校級領導則不隱藏,如果是學院領導則隱藏全校情況。具體設計方法如圖4。

圖4 權限設計示意圖Fig.4 Schematic diagram of permission design
如果按照圖3中邏輯來呈現的話,就能比較好的契合權限管理方案的設置邏輯,并且也可以比較完整的呈現全校各學院和各個學院不同專業的總體與詳細情況。
采用RFM模型對高校貧困生評定相關源數據(如一卡通消費記錄等)進行分析處理,提取數據特征,并用利用K-Means聚類分析算法對處理后的特征進行聚類分析,從而得到高校學生的分類類別。通過對每一類的學生群體進行分析,獲得貧困學生的學生群體分布范圍,有效地解決了當前貧困生評定中不夠客觀的問題,從而實現補助的精準發放。對不同層級的管理者對貧困生管理的可視化內容進行了權限方案的設計,不僅有效地提高了管理者的貧困生評定效率,同時還提高了助學金發放的準確性。