999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SAS的校園一卡通數據分析

2016-12-31 00:00:00仲曉芳張義龐勝楠韓士元王棟
科技創新與應用 2016年20期

摘 要:基于SAS軟件,文章針對校園一卡通消費數據進行了數據挖掘。文章首先對于此問題的總體目標及設計方案進行了統籌規劃;對于原始數據進行了初步處理;采用k均值算法對消費數據進行聚類分析,對學生消費情況進行分類,從而掌握學生消費情況,了解學生的消費趨勢。

關鍵詞:數據挖掘;SAS;k均值算法;校園一卡通;消費分析

數據挖掘使用一定的算法從實際應用數據中挖掘出未知、有價值的模式或規律等知識,整個過程由數據準備、數據挖掘、模式評估、結果分析和運用知識等步驟組成[1]。隨著信息化技術發展,校園一卡通系統中使用過程中產生了大量數據,但系統缺少相應的分析工具,無法從海量數據中獲取有用的知識。因此,使用數據挖掘技術對數據進行分析,可以了解學生消費情況和消費行為,了解學生之間消費的差異性,為學校制定各種獎勵政策提供依據。

1 目標與設計方案

1.1 設計目標

文章以山東某高校2014年4月校園一卡通消費數據為基礎,利用SAS軟件,采用聚類分析,對學生消費情況進行分析。

文章目標為通過對消費數據的聚類分析,學習學生的月消費金額、消費次數,掌握學生消費規律,了解學生之間消費的共性和差異性,總結學生的高、中、低消費情況,為學校制定各類政策提供依據。

1.2 k均值算法

根據給定的n個對象或者元組的數據集,構建k個劃分聚類的方法。每個劃分即為一個聚簇。該方法將數據劃分為k個組,每個組至少包括一個對象,每個對象必須屬于且只屬于一個組[2]。

k均值算法[2]如下:

(1)將所有對象隨機分配到 k個非空的簇中。

(2)計算每個簇的平均值,并用該平均值代表相應的值。

(3)根據每個對象與各個簇中心的距離,分配給最近的簇。

(4)轉到2,重新計算每個簇的平均值。

這個過程不斷重復直到滿足某個準則函數或者終止條件。終止條件可以是以下任何一個:沒有(或者最小數目)數據點被重新分配給不同的聚類;沒有(或者最小數目)聚類中心再發生變化;誤差平方和(SSE)局部最小。

1.3 方案設計

文章設計方案分為數據處理、數據挖掘、結果分析三部分。其中數據處理包括數據獲取、數據探索、數據填缺。

2 數據處理

數據獲取:

原始數據來自于校園一卡通2014年4月份數據。定義10:30之前為早餐時間,10:30-14:30為午餐時間,14:30以后為晚餐時間,在以上時間段內的消費行為視為1次消費,文章共獲取35196條數據。數據屬性包括:姓名、性別、學生所在院系、月消費總額、月消費次數、月消費平均額度、早餐消費總額、早餐消費次數、早餐平均消費額、午餐消費總額、午餐消費次數、午餐平均消費額、晚餐消費總額、晚餐消費次數、晚餐平均消費額,如表1所示。

3 數據探索

文章中用于聚類分析的消費屬性包括:月消費總額、月消費次數、月消費平均額度、早餐消費總額、早餐消費次數、早餐平均消費額、午餐消費總額、午餐消費次數、午餐平均消費額、晚餐消費總額、晚餐消費次數、晚餐平均消費額,以上屬性均屬于連續變量。數據探索包括變量壓縮、數據標準化。變量壓縮是通過主成分分析法解決變量的共線性問題,數據標準化將花費等屬性進行標準化,從而保證聚類過程的準確性。

3.1 變量壓縮

變量壓縮是通過主成分分析法解決變量的共線性問題,變量壓縮結果如圖1所示。

經過分析后,系統最終將變量分為5類,在每組中,我們使用1-R?鄢?鄢2Ration屬性最小的值所對應的變量,所以最終決定使用午餐消費次數、午餐平均消費額、晚餐消費總額、早餐平均消費額、午餐平均消費額變量作為聚類屬性。

3.2 數據標準化

數據標準化是解決變量之間不同單位、不同變異程度的問題,在文章中午餐消費次數單位為次數,午餐平均消費額、晚餐消費總額、早餐平均消費額、午餐平均消費額單位為元,所以在SAS軟件中采用極差方法對午餐消費次數、午餐平均消費額、晚餐消費總額、早餐平均消費額、午餐平均消費額進行標準化。

4 聚類

采用SAS中兩步聚類過程,首先采用快速聚類將數據聚類成50類,然后對50類進行聚類分析。根據業務分析,最終確定取聚類個數為5類。

5 結果分析

聚類結果后共將分為5類,圖2為聚類后的各項數據指標,包括各個聚類的人數、均值花費、最大花費、最小花費等。從聚類中分析,人員主要集中在兩類中,可以看到以下結論:

第一類聚類包括18650人,早餐、午餐、晚餐平均消費16、22、22次,平均消費5-6元。此聚類中人數占總人數的53%,消費情況適中,此類人員多在校內就餐,因此食堂在日常運營中保持目前的操作情況即可,另外可以推出5-6元套餐用來提高銷售額;

第二類聚類包括512人,早餐、午餐、晚餐平均消費19、15、11次,平均消費7-8元。由于此類人員午餐晚餐消費次數較低,但平均消費額度較高,因此可以判斷此類人員多數在校外就餐,因此食堂在日常運營中可以推出7-8元的套餐,提高食物質量,以吸引這部分學生;

第三類聚類包括16029人,早餐、午餐、晚餐平均消費7、10、7次,平均消費6-7元。此聚類中人員占45.5%,由于此類人員午餐晚餐消費次數較低,但平均消費額度較高,因此可以判斷此類人員多數在校外就餐,因此食堂在日常運營中可以推出6-7元的套餐,提高食物質量,以吸引這部分學生;

第二、三類人員多在校外就餐,但第三類人數占有率較高,因此應針對這部分學生制定相關策略,提高校園內就餐率。

通過聚類發現學生的平均消費額度在5-7元之間,消費低于此額度的學生可視為低消費人員,學校可以針對此情況制定補助政策。

6 結束語

通過對學生的月消費信息進行聚類分析,我們可以了解學生的消費習慣、消費行為以及學生之間的消費差異,商戶可以針對學生的消費額度制定相應的消費策略,為學校制定各種政策提供相應依據。

參考文獻

[1]張佳.數據挖掘技術在校園一卡通系統中的應用研究[D].蘇州大學,2013.

[2]黃雯.數據挖掘算法及其應用研究[D].南京郵電大學,2013.

[3]歐陽烽.基于SAS的Web使用日志用戶聚類分析[J].電腦知識與技術,2013.

[4]王哲.數據挖掘技術在高校圖書館個性化服務中的應用研究[D].重慶大學,2012.

[5]烏文波.應用Apriori關聯規則算法的數據挖掘技術挖掘電子商務潛在客戶[D].浙江工業大學,2012.

作者簡介:仲曉芳(1984-),女,山東省濟南市,山東女子學院,助教,碩士研究生,數據挖掘研究與應用。

張義(1983-),女,山東省淄博市,山東理工大學,在校研究生,數據管理與數據安全。

龐勝楠(1987-),女,山東省濟南市,山東女子學院,助教,碩士研究生,電視媒體與社交媒體互動研究。

韓士元(1985-),男,山東省濟南市,濟南大學,講師,博士研究生,智能計算理論與應用。

王棟(1983-),男,山東省濟南市,濟南大學,講師,博士研究生,智能計算理論與應用。

主站蜘蛛池模板: 精品视频在线观看你懂的一区| 色综合久久久久8天国| 婷婷伊人五月| 91精品国产麻豆国产自产在线| 99在线观看视频免费| 日韩无码黄色网站| 最新国产在线| 无码国产偷倩在线播放老年人| 成人精品区| 国产原创自拍不卡第一页| 成AV人片一区二区三区久久| 欧美亚洲日韩不卡在线在线观看| 2019年国产精品自拍不卡| 国产色网站| 午夜日b视频| 香港一级毛片免费看| 天天摸夜夜操| 玖玖精品在线| 亚洲日本www| A级毛片高清免费视频就| 久久免费精品琪琪| 91蝌蚪视频在线观看| 日本91视频| 亚洲自偷自拍另类小说| 色AV色 综合网站| 免费国产无遮挡又黄又爽| 成人一区专区在线观看| 福利视频久久| 欧美激情第一欧美在线| 丝袜美女被出水视频一区| 美女视频黄频a免费高清不卡| 日韩av无码精品专区| 日日拍夜夜操| 国产精品分类视频分类一区| 67194亚洲无码| 综合色婷婷| 在线免费a视频| 欧美精品啪啪| 毛片免费试看| 日本欧美中文字幕精品亚洲| 91久久性奴调教国产免费| 国产喷水视频| 亚洲无码视频一区二区三区| 成人精品区| 国产伦精品一区二区三区视频优播| 自拍偷拍欧美| hezyo加勒比一区二区三区| 伊人精品视频免费在线| 福利小视频在线播放| 四虎成人精品在永久免费| 毛片网站免费在线观看| 国产青榴视频| 国产经典免费播放视频| 手机精品视频在线观看免费| 日韩人妻无码制服丝袜视频| 日韩av高清无码一区二区三区| 国产黑人在线| 日本成人一区| Jizz国产色系免费| 亚洲愉拍一区二区精品| 99成人在线观看| 亚洲成a人片77777在线播放| 热久久国产| 国产视频一区二区在线观看| 久久久久久午夜精品| 少妇精品在线| 网友自拍视频精品区| 无码一区二区波多野结衣播放搜索| 香蕉国产精品视频| 国产真实乱人视频| 国产免费一级精品视频| 亚洲色欲色欲www网| 久久永久免费人妻精品| 亚洲色精品国产一区二区三区| 夜夜爽免费视频| 日韩精品成人在线| 久久久波多野结衣av一区二区| 国产91成人| 欧美有码在线观看| 99中文字幕亚洲一区二区| 尤物精品国产福利网站| 日韩精品欧美国产在线|