文/朱迪鋒 朱智謀
隨著高校數字化和信息化的深入發展,校園一卡通系統得到了高度重視和廣泛應用,是高校信息化程度的重要標志之一[1]。高校管理是以學生為主體的一種客戶關系管理,而校園一卡通系統存儲著海量的學生各類消費記錄數據,以消費行為數據進行合理分析來關注學生動態成為一種科學管理的新模式。通過研發應用一卡通智能數據分析系統,提取一卡通的數據庫中一段時間內學生消費數據進行用戶行為分析,以同等消費行為特征為相似點,從中挖掘學生異常消費及客觀貧困程度等潛在有用的信息。這些學生消費行為信息為高校學工一線老師管理工作提供客觀依據和決策支持。
國外對學生一卡通數據分析起步較早,且進展迅速。例如,加拿大湖首大學的學生行為分析系統,可以根據學生最近發生的行為定期向學生發送一份郵件來指導學生下一步計劃,該系統已經可以高效的對學生行為進行分析并及時報告輔導員進行處理[2]。
而就國內來說,隨著互聯網+、大數據等技術的發展,數據分析工作已經被越來越多的人群所認可和重視。已經有學者利用數據挖掘技術對用戶消費及上網等行為進行分析,以及CBR方法和基于K-means算法對高校就業預測的分析等[3]。但目前在高校內部所用的一卡通系統大部分沒有針對學生數據進行集成和分析,同時很多高校的各類應用系統和一卡通消費系統是完全孤立的,純粹是一個“信息孤島”,沒有真正合理利用起各個應用系統里面的價值數據,一定程度上造成了大量的數據堆積,失去了其中的潛在數據價值[4]。而針對本文研究的高校學生行為分析沒有有利挖掘,相應的方案也甚少。
分析算法描述
輸入:聚類數目k(實際情況而定),n 個數據樣本(x1, x2 ,…,xn)輸出:k 個聚類
(1) 選定初始聚類中心值,從n 個數據中隨機選出有代表性的 k 個數據樣本,即 k 個中心值 (μ1,μ2,…, μk);


系統具體設計
1.設計思路
編鐘屬于“八音”中的金類樂器,金指金屬。編鐘由青銅鑄成,古人把大小不同的鐘按照音調高低的次序排列,懸掛在一個巨大的鐘架上。每口銅鐘能發出不同的樂音,按照音譜敲打,可以演奏出一套美妙的音樂。
提取某高校一段時間內一卡通數據庫中百萬條消費記錄,利用數據挖掘技術中的K-means算法應用,對學生數據中的用卡次數、食堂消費均值和其他消費均值等信息進行聚類分析,得出消費正常和異常等幾大類學生用戶人群。
首先,通過這些學生消費行為信息,學工一線老師可以及時了解和關注學生生活狀況。比如,在消費異常情況下用卡次數少的學生說明在校吃飯少,則平時經常外出及回寢等情況需要及時關注;用卡次數多且消費均值大的學生,說明家庭經濟條件較好;用卡次數多且消費均值小的學生,說明家庭經濟條件一般及以下,在生活上是否應該多加以關心和補助。
另外從貧困生管理工作角度,學生的消費情況可以作為貧困生認定因素之一[7]。申請貧困生的學生如果一卡通消費均值大,一定程度上說明經濟條件尚可,與實際貧困條件不相符。這為學生管理部門做好貧困生認定和助學貸款等工作提供了客觀的數據支撐。
2.應用流程
從高校學生管理工作角度出發,采用K-means聚類算法對高校一段時間內一卡通系統所有學生消費記錄數據進行分析,并對學生消費習慣進行劃分[8]。
根據學生消費記錄數據中用卡次數、食堂消費均值和其他消費均值等信息進行規格化得出相應屬性值,利用K-means算法思想,在應用系統中對2種情況(消費正常、消費異常)設置初始中心值并進行聚類,各消費數據屬性值以歐氏距離度量,歸類到最靠近相應中心值的對象。通過迭代的方法,逐次更新各聚類中心的值,直至各中心值與原聚類中心值保持不變,得出所有消費記錄的聚類結果[9]。具體流程如圖1所示。
數據預處理

圖1 K-means算法流程
在開發系統中導入的有用數據包括學號、消費金額、消費時間和消費地點等。主要對這些有用數據進行修復、填補并規范,點擊“預處理”按鈕,可以對導入后的數據做一個簡要的數據清洗,如圖2所示。
系統實現

圖2 數據預處理結果

圖3 有用數據處理結果
在系統主界面下,點擊“K-means分析”按鈕,即可進入K-means算法分析模塊。K-means算法分析系統平臺主要對一卡通有用的數據進行聚類分析,把具有不同消費均值的學生以學號為標識進行聚類,保持數據區分度比較直觀。
點擊“顯示”按鈕,即可顯示K-means算法有用的數據,主要包括學號、消費次數、總消費均值、食堂消費均值、商貿消費均值和生活消費均值等。為聚類分析打好前期處理基礎,處理結果如圖3所示。
根據圖3中的學號(作為關鍵字)、食堂消費均值、商貿消費均值和生活消費均值等屬性數據值進行聚類分析,同時設置聚類數目為2,系統內點擊“學生類別查詢”按鈕,即可顯示K-means算法聚類后的一卡通消費的有用價值數據。輔導員老師通過輸入具體學生的學號來查詢學生的消費類別,如分別輸入學號2015102279和2015102273,顯示的聚類結果如圖4、圖5所示:
結果分析
從上述圖4和圖5中分析,設置聚類數目K=2,最終的聚類中心值由學生的食堂消費均值、商貿消費均值和生活消費均值等數據根據3.1算法反復迭代得出。
圖4為學號2015102279的學生消費聚類結果,與第一類的聚類中心值(0.46 0.11 0.05)匹配;同時與聚類總體情況對照,是屬于普遍的消費情況。

圖4 學生消費聚類結果圖(第1類)

圖5 學生消費聚類結果圖(第2類)
圖5為學號2015102273的學生消費聚類結果,與第二類的聚類中心值(0.09 0.1 0.76)匹配;同時與聚類總體情況對照,是屬于特殊的消費情況,存在一定的消費異常現象,值得引起關注。
同時第二類的聚類中心值(0.09 0.1 0.76)與第一類的聚類中心值(0.46 0.11 0.05)相比,第二類的聚類中心值第一項較低,而第三項較高。說明第二類消費情況為食堂消費較少,而生活消費較多,與學生正常消費不符,一定程度上證實第二類消費情況為異常現象。
通過研發一卡通智能數據分析系統,結合數據挖掘技術中的K-means算法思想,把學生一段時間內的消費數據進行預處理并有效分析,從未知、隱含和異構的數據中提取出不同的學生消費類別和具體數據信息[10]。特別是通過算法中的聚類中心值比較,從中發現學生的消費異常情況,這將輔助高校學工一線老師更深層次了解及關注學生動態信息,對學生管理工作具有較大的參考價值。