姜 楠 許維勝
(同濟大學電子與信息工程學院,上海 201804)
基于數據挖掘技術的學生校園消費行為分析
姜 楠 許維勝
(同濟大學電子與信息工程學院,上海 201804)
校園一卡通系統通過對各種信息、資源的有效集成、整合和優化,能夠實現學校對信息的有效配置和充分利用。文章采用數據挖掘技術針對學生校園消費活動的管理分析方面進行深入研究,首先通過數據預處理技術提取相關消費特征,并采用一種優化的K-means聚類算法,將學生分為幾類,分析行為特征,以便高校學生工作人員分門別類的進行學生管理,最后將聚類結果輸入決策樹分類模型進行評估,以評價聚類結果。
數據挖掘;k-means算法;一卡通消費數據;行為特征;決策樹
隨著學校數字化和信息化的深入發展,校園一卡通系統得到了廣泛應用和高度重視,是高校信息化程度的重要標志。高校管理是以學生為主體的一種客戶關系管理,通過提取一卡通數據庫中相關學生數據進行用戶行為分析,來挖掘其中潛在有用的信息和知識,極大地推動了學生管理工作的高效運行,且實現了校園各種信息和資源的高度集中和融合。數據挖掘作為一種從海量數據中挖掘潛在知識的技術,已經在科學研究、商業等很多領域得到廣泛應用。將數據挖掘技術應用于高校人力資源管理,能充分發揮現有數據的作用為決策服務。國外對學生一卡通數據分析起步較早,且進展迅速。例如加拿大湖首大學的學生行為分析系統,可以根據學生最近發生的行為定期向學生發送一封郵件來指導學生下一步的學習計劃和生活計劃,該系統已經可以高效的對學生行為進行分析并及時報告輔導員進行處理。而就國內來說,已經有學者將數據挖掘技術運用于商業,如梁穎等人基于數據挖掘技術對消費者進行行為的分析[1],廖珣提出基于K-means算法和CBR方法對高校就業預測的分析[2],葉煉對電信客戶進行基于數據倉庫的行為分析[3],曾智等人對YOUCITY網站用戶行為進行分析,通過模式識別方法對固定的模型去分析用戶,得到最接近用戶的模型就是用戶的類別[4]。廣大高校內部所用的學生管理系統大部分沒有針對學生數據進行集成,而針對高校學生行為分析的方案也較少。
K-means聚類算法作為一種經典的數據挖掘算法,也存在其固有缺陷,比如K值的確定和初始聚類中心的確定。目前,已有Kanfman L等通過輪廓系數來測量不同類的分離度。楊善林運用距離代價函數作為空間聚類有效性檢驗函數,即當距離代價函數達到最小值時,空間聚類結果為最優[5]。Huang提出一種基于K-means的變量自動加權聚類算法,使得聚類問題中的變量選擇得到改進。Dhillon等人則通過調整迭代過程中重新計算聚類中心的方法使其性能得到提高[6]。
某大學校園一卡通系統的數據庫采用的是分布式處理和“客戶端/服務器”架構,大量數據經由不同客戶端上傳到服務器的數據庫中,包含消費數據、門禁數據、成績數據等不同的子數 庫。本文針對消費數據庫中的數據采用數據挖掘的技術進行消費習慣分析,數據處理流程如圖1所示。

圖1 數據處理流程
原始消費數據儲存于oracle數據庫中,從概念上分析包含:商戶和管理帳戶數據字典,全局設置數據字典,系統管理和運行環境設置數據字典,流水帳戶數據字典,報表部分數據字典五大項。因此需要對數據進行預處理,包括數據清理、數據集成、數據轉換和數據歸約,將所得結果構成一個小型數據倉庫,便于后續聚類分析。
本篇針對消費數據庫中的消費相關數據采用K-means聚類方法對學生消費習慣劃分類別,通過相關屬性分析,采用圖2中屬性作為K-means算法的輸入屬性。
K-means算法有兩個初始參數:初始聚類中心和聚類數目K,其中初始聚類中心的選擇直接影響聚類結果的好壞。

圖2 K-means輸入屬性
本文采用了一種解決初始聚類中心選擇的優化方法,這種方法是通過改變初始聚類中心來尋求一個類內密集程度最高的情況作為分析結果,類內密集程度越高,說明類內點越密集,聚類結果越好。
將類內點的密度程度作為目標函數,計算公式如下:

p是所有數據的平方誤差總和,從而使同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。
最終經過優化的K-means算法的主要流程如下:
(1)選擇數據質量較好的訓練樣本空間數據集;
(2)輸入K值和選取初始聚類中心參數;
(3)執行傳統的K-means算法模型;
(4)依據模型驗證計算ip;
(5)改變初始聚類中心參數,重復步3、4 直到p值最小,輸出與最小p值相對應的結果,即類內密集程度。
3.1 輸入數據
本篇通過上文所述數據預處理技術將原始消費數據進行了一系列的轉換與篩選,最終得到可供K-means算法輸入的待測數據,男生數據393組,女生數據111組。

圖3 原始數據不同屬性分布情況
由圖3可以看出,男生用卡次數、食堂消費均值均高于女生,但女生超市消費額比男生高,且男生、女生就餐地點也不同,因此本文將男、女生分開進行分析是必要且可行的。此外,額外飲品消費情況略少,不足以作為特征,因此刪掉該屬性更利于聚類結果。本文采用一種優化的K-means聚類算法,離散化的輸入數據更有利于產生較優的結果。根據直方圖均衡化的無指導離散法將屬性按值域劃分出五個區間,即很高(2)、高(1)、中(0)、低(-1)、很低(-2)五種水平,轉換為離散值,作為輸入數據,便于分析。由圖4可以看出,待輸入數據分布情況均符合高斯分布。

圖4 待測女生數據不同屬性分布情況
3.2 結果分析
經實驗,K=4,聚類結果最好,輸入K,改變初始聚類中心循環直到p值最小結束。在本文中改變隨機初始聚類中心的參數可以改變隨機初始中心,最終對應p最小的結果(類內密集程度最大)即為最優的聚類結果, p即所有數據樣本的平方誤差總和。

表1 尋求最優聚類結果(男)

表2 尋求最優聚類結果(女)
從表1得出,男生數據第一組結果最佳,迭代次數為6,所有樣本數據的總方差p為最小值,因此最終采用第一組聚類結果。從表2得出,女生數據第四組結果最好,迭代次數為6,方差之和p為最小值,因此最終采用第四組聚類結果。所得聚類中心點如表3和表4所示,聚類中心點特征代表該類別人群特征的均值水平。男生數據394組,女生數據111組。

表3 聚類中心(男)
男生聚類結果分析:
第I類:該類人群常去就餐地點為食堂代碼24,即學苑食堂,用卡次數處于正常水平偏上水平,即食堂就餐次數較多,但食堂消費額水平最低,超市、水果店等消費水平在四種類群中屬于正常水平。
第II類:該類人群常去就餐地點也為學苑食堂,用卡次數最少,食堂消費額屬于正常水平,但超市消費額屬于四類人群中最高水平。
第III類:該類人群常去就餐地點也為學苑食堂,用卡次數屬于四類人群中最高水平,食堂消費額也位于最高水平,應屬于常在食堂消費的人群,相反,超市消費額最少。
第IV類:該類人群常去就餐地點為食堂代碼20,即西區食堂,不同于其他三類人群,用卡次數處于四類人群中正常偏下水平,食堂消費額正常,超市消費額略多。

表4 聚類中心(女)
女生聚類結果分析:
第I類:該類人群常去就餐地點偏向食堂代碼24,即學苑食堂,用卡次數最多,且食堂消費額與超市消費額都處于最低水平。
第II類:該類人群常去就餐地點平均值處于20與24中間,即一四食堂和學苑食堂,不同與其他人群,用卡次數最少,但食堂消費額和超市消費額均屬于四類人群中最高水平。
第III類:該類人群常去就餐地點為學苑食堂,用卡次數屬于四類人群中最低水平,食堂消費額處于正常水平,超市消費額處于最少水平。
第IV類:該類人群常去就餐地點為學苑食堂,不同于其他三類人群,用卡次數處于正常水平,食堂消費額正常,但超市消費額略多,僅次于第二類人群。
將男生聚類后數據,即含有類標的數據輸入到決策樹模型中,并采用十折交叉驗證法得出正確分類率為99.4924%,輸入女生數據得到正確分類率為99.0991%,由決策樹模型驗證得知,所得聚類結果較好。
4.2 解決方法
(1)針對上述PC硬件性能問題,經測試,我們加強筆記本PC配置:8G DDR3內存+Intel i5 CPU,再升級加裝千元以下的SSD固態硬盤。將虛擬機文件置于SSD固態硬盤中,VMWARE虛擬機開啟(平均分配512MB內存)4臺左右,同時Dynamips虛擬網絡設備開啟10臺(平均分配128MB內存)左右,對真實PC及虛擬機的性能影響在可承受范圍內。
另外,利用軟件橋接特性,直接橋接物理網絡,便可將虛擬機分布在多臺真實PC上,減少單臺真實PC的硬件資源負擔。
(2)針對網絡設備虛擬軟件的版本問題,本文使用的軟件其實能夠滿足絕大部分網絡原理的實驗需求。有理由相信,隨著部分虛擬化軟件開源化,軟件研發人員會推陳出新、將軟件拓展得更強大。
虛擬化技術存在于企業級高端應用中,也可以存在于眾人工作學習的PC上。虛擬化技術,依托的是虛擬化軟件來實現功能。利用現有資源PC,在主機虛擬化軟件虛擬實現的windows/linux/unix等guest os上部署各種“真實”應用,依托網絡設備虛擬化軟件虛擬創建路由器、交換機、安全設備等,按照實際需求,并基于現實、仿照現實對主機/網絡設備完成各種參數調試,把各種虛擬網絡整合起來,得到一套精簡的、功能完善的、與現實相似的虛擬網絡系統集成環境、虛擬實驗室。利用單臺真實PC,可在搭建的虛擬實驗室中進行技能學習、知識培訓、技術原理實驗、方案演練、對整個IT系統環境模擬仿真、為進軍企業級高端虛擬化技術夯實基礎。PC虛擬化具有眾多優勢,對IT入門者來說,無疑是個低投資高回饋的選擇方案。
[1] 馬博峰.VMware.Citrix和Microsoft虛擬化技術詳解與應用實踐[M].北京:機械工業出版社,2012.
[2] (美)呂斯特.虛擬化技術指南[M].北京:機械工業出版社, 2011.
[3] 梁廣民,王隆杰.思科網絡實驗室CCNA(路由技術)實驗指南[M].北京:電子工業出版社, 2009.
[4] 蔡延榮.網絡協議分析[M].北京:機械工業出版社,2009.
Students consumption behavior analysis based on the data mining technologies
With effective integration and optimization to variety of resources, the campus card system (CCS) makes efficient allocation and full use of campus information. management analysis of students’ consumption activities is studied through data mining. We use date preprocessing techniques to extract relevant consumer characteristics and an optimized k-means clustering algorithm to divide students into several categories. At last we use the decision tree algorithm to judge the clustering results. The analysis of the behavior characteristics can lead to a better management of students for college staffs.
Data mining; k-means; e-card consumer data; behavior characteristics; decision tree
TP311.13
A
1008-1151(2015)01-0026-03
2014-12-15
姜楠(1989-),女,同濟大學電子與信息工程學院控制工程專業2012級碩士,意大利博洛尼亞大學工程學院自動化專業2012級碩士,研究方向為數據分析與數據挖掘;許維勝(1966-),男,同濟大學電子與信息工程學院博士生導師,研究方向為智能自動化理論及應用。