

摘 要:基于SAS軟件,文章針對校園一卡通消費數據進行了數據挖掘。文章首先對于此問題的總體目標及設計方案進行了統籌規劃;對于原始數據進行了初步處理;采用k均值算法對消費數據進行聚類分析,對學生消費情況進行分類,從而掌握學生消費情況,了解學生的消費趨勢。
關鍵詞:數據挖掘;SAS;k均值算法;校園一卡通;消費分析
數據挖掘使用一定的算法從實際應用數據中挖掘出未知、有價值的模式或規律等知識,整個過程由數據準備、數據挖掘、模式評估、結果分析和運用知識等步驟組成[1]。隨著信息化技術發展,校園一卡通系統中使用過程中產生了大量數據,但系統缺少相應的分析工具,無法從海量數據中獲取有用的知識。因此,使用數據挖掘技術對數據進行分析,可以了解學生消費情況和消費行為,了解學生之間消費的差異性,為學校制定各種獎勵政策提供依據。
1 目標與設計方案
1.1 設計目標
文章以山東某高校2014年4月校園一卡通消費數據為基礎,利用SAS軟件,采用聚類分析,對學生消費情況進行分析。
文章目標為通過對消費數據的聚類分析,學習學生的月消費金額、消費次數,掌握學生消費規律,了解學生之間消費的共性和差異性,總結學生的高、中、低消費情況,為學校制定各類政策提供依據。
1.2 k均值算法
根據給定的n個對象或者元組的數據集,構建k個劃分聚類的方法。每個劃分即為一個聚簇。該方法將數據劃分為k個組,每個組至少包括一個對象,每個對象必須屬于且只屬于一個組[2]。
k均值算法[2]如下:
(1)將所有對象隨機分配到 k個非空的簇中。
(2)計算每個簇的平均值,并用該平均值代表相應的值。
(3)根據每個對象與各個簇中心的距離,分配給最近的簇。
(4)轉到2,重新計算每個簇的平均值。
這個過程不斷重復直到滿足某個準則函數或者終止條件。終止條件可以是以下任何一個:沒有(或者最小數目)數據點被重新分配給不同的聚類;沒有(或者最小數目)聚類中心再發生變化;誤差平方和(SSE)局部最小。
1.3 方案設計
文章設計方案分為數據處理、數據挖掘、結果分析三部分。其中數據處理包括數據獲取、數據探索、數據填缺。
2 數據處理
數據獲取:
原始數據來自于校園一卡通2014年4月份數據。定義10:30之前為早餐時間,10:30-14:30為午餐時間,14:30以后為晚餐時間,在以上時間段內的消費行為視為1次消費,文章共獲取35196條數據。數據屬性包括:姓名、性別、學生所在院系、月消費總額、月消費次數、月消費平均額度、早餐消費總額、早餐消費次數、早餐平均消費額、午餐消費總額、午餐消費次數、午餐平均消費額、晚餐消費總額、晚餐消費次數、晚餐平均消費額,如表1所示。
3 數據探索
文章中用于聚類分析的消費屬性包括:月消費總額、月消費次數、月消費平均額度、早餐消費總額、早餐消費次數、早餐平均消費額、午餐消費總額、午餐消費次數、午餐平均消費額、晚餐消費總額、晚餐消費次數、晚餐平均消費額,以上屬性均屬于連續變量。數據探索包括變量壓縮、數據標準化。變量壓縮是通過主成分分析法解決變量的共線性問題,數據標準化將花費等屬性進行標準化,從而保證聚類過程的準確性。
3.1 變量壓縮
變量壓縮是通過主成分分析法解決變量的共線性問題,變量壓縮結果如圖1所示。
經過分析后,系統最終將變量分為5類,在每組中,我們使用1-R?鄢?鄢2Ration屬性最小的值所對應的變量,所以最終決定使用午餐消費次數、午餐平均消費額、晚餐消費總額、早餐平均消費額、午餐平均消費額變量作為聚類屬性。
3.2 數據標準化
數據標準化是解決變量之間不同單位、不同變異程度的問題,在文章中午餐消費次數單位為次數,午餐平均消費額、晚餐消費總額、早餐平均消費額、午餐平均消費額單位為元,所以在SAS軟件中采用極差方法對午餐消費次數、午餐平均消費額、晚餐消費總額、早餐平均消費額、午餐平均消費額進行標準化。
4 聚類
采用SAS中兩步聚類過程,首先采用快速聚類將數據聚類成50類,然后對50類進行聚類分析。根據業務分析,最終確定取聚類個數為5類。
5 結果分析
聚類結果后共將分為5類,圖2為聚類后的各項數據指標,包括各個聚類的人數、均值花費、最大花費、最小花費等。從聚類中分析,人員主要集中在兩類中,可以看到以下結論:
第一類聚類包括18650人,早餐、午餐、晚餐平均消費16、22、22次,平均消費5-6元。此聚類中人數占總人數的53%,消費情況適中,此類人員多在校內就餐,因此食堂在日常運營中保持目前的操作情況即可,另外可以推出5-6元套餐用來提高銷售額;
第二類聚類包括512人,早餐、午餐、晚餐平均消費19、15、11次,平均消費7-8元。由于此類人員午餐晚餐消費次數較低,但平均消費額度較高,因此可以判斷此類人員多數在校外就餐,因此食堂在日常運營中可以推出7-8元的套餐,提高食物質量,以吸引這部分學生;
第三類聚類包括16029人,早餐、午餐、晚餐平均消費7、10、7次,平均消費6-7元。此聚類中人員占45.5%,由于此類人員午餐晚餐消費次數較低,但平均消費額度較高,因此可以判斷此類人員多數在校外就餐,因此食堂在日常運營中可以推出6-7元的套餐,提高食物質量,以吸引這部分學生;
第二、三類人員多在校外就餐,但第三類人數占有率較高,因此應針對這部分學生制定相關策略,提高校園內就餐率。
通過聚類發現學生的平均消費額度在5-7元之間,消費低于此額度的學生可視為低消費人員,學校可以針對此情況制定補助政策。
6 結束語
通過對學生的月消費信息進行聚類分析,我們可以了解學生的消費習慣、消費行為以及學生之間的消費差異,商戶可以針對學生的消費額度制定相應的消費策略,為學校制定各種政策提供相應依據。
參考文獻
[1]張佳.數據挖掘技術在校園一卡通系統中的應用研究[D].蘇州大學,2013.
[2]黃雯.數據挖掘算法及其應用研究[D].南京郵電大學,2013.
[3]歐陽烽.基于SAS的Web使用日志用戶聚類分析[J].電腦知識與技術,2013.
[4]王哲.數據挖掘技術在高校圖書館個性化服務中的應用研究[D].重慶大學,2012.
[5]烏文波.應用Apriori關聯規則算法的數據挖掘技術挖掘電子商務潛在客戶[D].浙江工業大學,2012.
作者簡介:仲曉芳(1984-),女,山東省濟南市,山東女子學院,助教,碩士研究生,數據挖掘研究與應用。
張義(1983-),女,山東省淄博市,山東理工大學,在校研究生,數據管理與數據安全。
龐勝楠(1987-),女,山東省濟南市,山東女子學院,助教,碩士研究生,電視媒體與社交媒體互動研究。
韓士元(1985-),男,山東省濟南市,濟南大學,講師,博士研究生,智能計算理論與應用。
王棟(1983-),男,山東省濟南市,濟南大學,講師,博士研究生,智能計算理論與應用。