

摘 要:基于SAS軟件,文章針對校園一卡通消費數據進行了數據挖掘。文章首先對于此問題的總體目標及設計方案進行了統籌規劃;對于原始數據進行了初步處理;采用k均值算法對消費數據進行聚類分析,對學生消費情況進行分類,從而掌握學生消費情況,了解學生的消費趨勢。
關鍵詞:數據挖掘;SAS;k均值算法;校園一卡通;消費分析
數據挖掘使用一定的算法從實際應用數據中挖掘出未知、有價值的模式或規律等知識,整個過程由數據準備、數據挖掘、模式評估、結果分析和運用知識等步驟組成[1]。隨著信息化技術發展,校園一卡通系統中使用過程中產生了大量數據,但系統缺少相應的分析工具,無法從海量數據中獲取有用的知識。因此,使用數據挖掘技術對數據進行分析,可以了解學生消費情況和消費行為,了解學生之間消費的差異性,為學校制定各種獎勵政策提供依據。
1 目標與設計方案
1.1 設計目標
文章以山東某高校2014年4月校園一卡通消費數據為基礎,利用SAS軟件,采用聚類分析,對學生消費情況進行分析。
文章目標為通過對消費數據的聚類分析,學習學生的月消費金額、消費次數,掌握學生消費規律,了解學生之間消費的共性和差異性,總結學生的高、中、低消費情況,為學校制定各類政策提供依據。
1.2 k均值算法
根據給定的n個對象或者元組的數據集,構建k個劃分聚類的方法。每個劃分即為一個聚簇。該方法將數據劃分為k個組,每個組至少包括一個對象,每個對象必須屬于且只屬于一個組[2]。……