999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘技術的學生校園消費行為分析

2015-08-07 13:39:36許維勝
大眾科技 2015年1期
關鍵詞:數據挖掘分析

姜 楠 許維勝

(同濟大學電子與信息工程學院,上海 201804)

基于數據挖掘技術的學生校園消費行為分析

姜 楠 許維勝

(同濟大學電子與信息工程學院,上海 201804)

校園一卡通系統通過對各種信息、資源的有效集成、整合和優化,能夠實現學校對信息的有效配置和充分利用。文章采用數據挖掘技術針對學生校園消費活動的管理分析方面進行深入研究,首先通過數據預處理技術提取相關消費特征,并采用一種優化的K-means聚類算法,將學生分為幾類,分析行為特征,以便高校學生工作人員分門別類的進行學生管理,最后將聚類結果輸入決策樹分類模型進行評估,以評價聚類結果。

數據挖掘;k-means算法;一卡通消費數據;行為特征;決策樹

1 引言

隨著學校數字化和信息化的深入發展,校園一卡通系統得到了廣泛應用和高度重視,是高校信息化程度的重要標志。高校管理是以學生為主體的一種客戶關系管理,通過提取一卡通數據庫中相關學生數據進行用戶行為分析,來挖掘其中潛在有用的信息和知識,極大地推動了學生管理工作的高效運行,且實現了校園各種信息和資源的高度集中和融合。數據挖掘作為一種從海量數據中挖掘潛在知識的技術,已經在科學研究、商業等很多領域得到廣泛應用。將數據挖掘技術應用于高校人力資源管理,能充分發揮現有數據的作用為決策服務。國外對學生一卡通數據分析起步較早,且進展迅速。例如加拿大湖首大學的學生行為分析系統,可以根據學生最近發生的行為定期向學生發送一封郵件來指導學生下一步的學習計劃和生活計劃,該系統已經可以高效的對學生行為進行分析并及時報告輔導員進行處理。而就國內來說,已經有學者將數據挖掘技術運用于商業,如梁穎等人基于數據挖掘技術對消費者進行行為的分析[1],廖珣提出基于K-means算法和CBR方法對高校就業預測的分析[2],葉煉對電信客戶進行基于數據倉庫的行為分析[3],曾智等人對YOUCITY網站用戶行為進行分析,通過模式識別方法對固定的模型去分析用戶,得到最接近用戶的模型就是用戶的類別[4]。廣大高校內部所用的學生管理系統大部分沒有針對學生數據進行集成,而針對高校學生行為分析的方案也較少。

K-means聚類算法作為一種經典的數據挖掘算法,也存在其固有缺陷,比如K值的確定和初始聚類中心的確定。目前,已有Kanfman L等通過輪廓系數來測量不同類的分離度。楊善林運用距離代價函數作為空間聚類有效性檢驗函數,即當距離代價函數達到最小值時,空間聚類結果為最優[5]。Huang提出一種基于K-means的變量自動加權聚類算法,使得聚類問題中的變量選擇得到改進。Dhillon等人則通過調整迭代過程中重新計算聚類中心的方法使其性能得到提高[6]。

2 學生校園消費行為分析

某大學校園一卡通系統的數據庫采用的是分布式處理和“客戶端/服務器”架構,大量數據經由不同客戶端上傳到服務器的數據庫中,包含消費數據、門禁數據、成績數據等不同的子數 庫。本文針對消費數據庫中的數據采用數據挖掘的技術進行消費習慣分析,數據處理流程如圖1所示。

圖1 數據處理流程

原始消費數據儲存于oracle數據庫中,從概念上分析包含:商戶和管理帳戶數據字典,全局設置數據字典,系統管理和運行環境設置數據字典,流水帳戶數據字典,報表部分數據字典五大項。因此需要對數據進行預處理,包括數據清理、數據集成、數據轉換和數據歸約,將所得結果構成一個小型數據倉庫,便于后續聚類分析。

本篇針對消費數據庫中的消費相關數據采用K-means聚類方法對學生消費習慣劃分類別,通過相關屬性分析,采用圖2中屬性作為K-means算法的輸入屬性。

K-means算法有兩個初始參數:初始聚類中心和聚類數目K,其中初始聚類中心的選擇直接影響聚類結果的好壞。

圖2 K-means輸入屬性

本文采用了一種解決初始聚類中心選擇的優化方法,這種方法是通過改變初始聚類中心來尋求一個類內密集程度最高的情況作為分析結果,類內密集程度越高,說明類內點越密集,聚類結果越好。

將類內點的密度程度作為目標函數,計算公式如下:

p是所有數據的平方誤差總和,從而使同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。

最終經過優化的K-means算法的主要流程如下:

(1)選擇數據質量較好的訓練樣本空間數據集;

(2)輸入K值和選取初始聚類中心參數;

(3)執行傳統的K-means算法模型;

(4)依據模型驗證計算ip;

(5)改變初始聚類中心參數,重復步3、4 直到p值最小,輸出與最小p值相對應的結果,即類內密集程度。

3 實驗分析

3.1 輸入數據

本篇通過上文所述數據預處理技術將原始消費數據進行了一系列的轉換與篩選,最終得到可供K-means算法輸入的待測數據,男生數據393組,女生數據111組。

圖3 原始數據不同屬性分布情況

由圖3可以看出,男生用卡次數、食堂消費均值均高于女生,但女生超市消費額比男生高,且男生、女生就餐地點也不同,因此本文將男、女生分開進行分析是必要且可行的。此外,額外飲品消費情況略少,不足以作為特征,因此刪掉該屬性更利于聚類結果。本文采用一種優化的K-means聚類算法,離散化的輸入數據更有利于產生較優的結果。根據直方圖均衡化的無指導離散法將屬性按值域劃分出五個區間,即很高(2)、高(1)、中(0)、低(-1)、很低(-2)五種水平,轉換為離散值,作為輸入數據,便于分析。由圖4可以看出,待輸入數據分布情況均符合高斯分布。

圖4 待測女生數據不同屬性分布情況

3.2 結果分析

經實驗,K=4,聚類結果最好,輸入K,改變初始聚類中心循環直到p值最小結束。在本文中改變隨機初始聚類中心的參數可以改變隨機初始中心,最終對應p最小的結果(類內密集程度最大)即為最優的聚類結果, p即所有數據樣本的平方誤差總和。

表1 尋求最優聚類結果(男)

表2 尋求最優聚類結果(女)

從表1得出,男生數據第一組結果最佳,迭代次數為6,所有樣本數據的總方差p為最小值,因此最終采用第一組聚類結果。從表2得出,女生數據第四組結果最好,迭代次數為6,方差之和p為最小值,因此最終采用第四組聚類結果。所得聚類中心點如表3和表4所示,聚類中心點特征代表該類別人群特征的均值水平。男生數據394組,女生數據111組。

表3 聚類中心(男)

男生聚類結果分析:

第I類:該類人群常去就餐地點為食堂代碼24,即學苑食堂,用卡次數處于正常水平偏上水平,即食堂就餐次數較多,但食堂消費額水平最低,超市、水果店等消費水平在四種類群中屬于正常水平。

第II類:該類人群常去就餐地點也為學苑食堂,用卡次數最少,食堂消費額屬于正常水平,但超市消費額屬于四類人群中最高水平。

第III類:該類人群常去就餐地點也為學苑食堂,用卡次數屬于四類人群中最高水平,食堂消費額也位于最高水平,應屬于常在食堂消費的人群,相反,超市消費額最少。

第IV類:該類人群常去就餐地點為食堂代碼20,即西區食堂,不同于其他三類人群,用卡次數處于四類人群中正常偏下水平,食堂消費額正常,超市消費額略多。

表4 聚類中心(女)

女生聚類結果分析:

第I類:該類人群常去就餐地點偏向食堂代碼24,即學苑食堂,用卡次數最多,且食堂消費額與超市消費額都處于最低水平。

第II類:該類人群常去就餐地點平均值處于20與24中間,即一四食堂和學苑食堂,不同與其他人群,用卡次數最少,但食堂消費額和超市消費額均屬于四類人群中最高水平。

第III類:該類人群常去就餐地點為學苑食堂,用卡次數屬于四類人群中最低水平,食堂消費額處于正常水平,超市消費額處于最少水平。

第IV類:該類人群常去就餐地點為學苑食堂,不同于其他三類人群,用卡次數處于正常水平,食堂消費額正常,但超市消費額略多,僅次于第二類人群。

將男生聚類后數據,即含有類標的數據輸入到決策樹模型中,并采用十折交叉驗證法得出正確分類率為99.4924%,輸入女生數據得到正確分類率為99.0991%,由決策樹模型驗證得知,所得聚類結果較好。

4.2 解決方法

(1)針對上述PC硬件性能問題,經測試,我們加強筆記本PC配置:8G DDR3內存+Intel i5 CPU,再升級加裝千元以下的SSD固態硬盤。將虛擬機文件置于SSD固態硬盤中,VMWARE虛擬機開啟(平均分配512MB內存)4臺左右,同時Dynamips虛擬網絡設備開啟10臺(平均分配128MB內存)左右,對真實PC及虛擬機的性能影響在可承受范圍內。

另外,利用軟件橋接特性,直接橋接物理網絡,便可將虛擬機分布在多臺真實PC上,減少單臺真實PC的硬件資源負擔。

(2)針對網絡設備虛擬軟件的版本問題,本文使用的軟件其實能夠滿足絕大部分網絡原理的實驗需求。有理由相信,隨著部分虛擬化軟件開源化,軟件研發人員會推陳出新、將軟件拓展得更強大。

5 總結

虛擬化技術存在于企業級高端應用中,也可以存在于眾人工作學習的PC上。虛擬化技術,依托的是虛擬化軟件來實現功能。利用現有資源PC,在主機虛擬化軟件虛擬實現的windows/linux/unix等guest os上部署各種“真實”應用,依托網絡設備虛擬化軟件虛擬創建路由器、交換機、安全設備等,按照實際需求,并基于現實、仿照現實對主機/網絡設備完成各種參數調試,把各種虛擬網絡整合起來,得到一套精簡的、功能完善的、與現實相似的虛擬網絡系統集成環境、虛擬實驗室。利用單臺真實PC,可在搭建的虛擬實驗室中進行技能學習、知識培訓、技術原理實驗、方案演練、對整個IT系統環境模擬仿真、為進軍企業級高端虛擬化技術夯實基礎。PC虛擬化具有眾多優勢,對IT入門者來說,無疑是個低投資高回饋的選擇方案。

[1] 馬博峰.VMware.Citrix和Microsoft虛擬化技術詳解與應用實踐[M].北京:機械工業出版社,2012.

[2] (美)呂斯特.虛擬化技術指南[M].北京:機械工業出版社, 2011.

[3] 梁廣民,王隆杰.思科網絡實驗室CCNA(路由技術)實驗指南[M].北京:電子工業出版社, 2009.

[4] 蔡延榮.網絡協議分析[M].北京:機械工業出版社,2009.

Students consumption behavior analysis based on the data mining technologies

With effective integration and optimization to variety of resources, the campus card system (CCS) makes efficient allocation and full use of campus information. management analysis of students’ consumption activities is studied through data mining. We use date preprocessing techniques to extract relevant consumer characteristics and an optimized k-means clustering algorithm to divide students into several categories. At last we use the decision tree algorithm to judge the clustering results. The analysis of the behavior characteristics can lead to a better management of students for college staffs.

Data mining; k-means; e-card consumer data; behavior characteristics; decision tree

TP311.13

A

1008-1151(2015)01-0026-03

2014-12-15

姜楠(1989-),女,同濟大學電子與信息工程學院控制工程專業2012級碩士,意大利博洛尼亞大學工程學院自動化專業2012級碩士,研究方向為數據分析與數據挖掘;許維勝(1966-),男,同濟大學電子與信息工程學院博士生導師,研究方向為智能自動化理論及應用。

猜你喜歡
數據挖掘分析
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
電力系統及其自動化發展趨勢分析
一種基于Hadoop的大數據挖掘云服務及應用
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 伊人久综合| 亚洲国产欧美目韩成人综合| 九色综合视频网| 国产在线观看人成激情视频| 免费国产高清精品一区在线| 久久亚洲国产最新网站| 日韩精品成人网页视频在线| 日韩在线视频网| 狼友视频国产精品首页| 影音先锋亚洲无码| 欧美激情网址| 久久综合五月婷婷| 亚洲国产一成久久精品国产成人综合| 欧美激情一区二区三区成人| 亚洲欧美精品日韩欧美| 特级毛片8级毛片免费观看| 国产成人一区在线播放| 成年片色大黄全免费网站久久| 最新亚洲av女人的天堂| 热re99久久精品国99热| 夜夜高潮夜夜爽国产伦精品| 大学生久久香蕉国产线观看| 黄色一级视频欧美| 一级黄色网站在线免费看| 欧美激情视频一区| 黄色不卡视频| 国产99热| 亚洲人成色在线观看| 欧美亚洲国产日韩电影在线| 91免费国产高清观看| 国产99免费视频| 国内视频精品| 久久久久亚洲Av片无码观看| 欧美一级夜夜爽www| 久久夜色撩人精品国产| 久久久久九九精品影院| 亚洲欧美日韩视频一区| 福利视频99| 无码在线激情片| 色偷偷男人的天堂亚洲av| 人妻夜夜爽天天爽| 国产精品99一区不卡| 亚洲综合专区| 无码专区国产精品第一页| 国产精品男人的天堂| 伊人婷婷色香五月综合缴缴情| 91九色国产在线| 亚洲精品视频网| 亚洲视频一区在线| 成人免费视频一区二区三区 | 日韩欧美视频第一区在线观看| 美女视频黄又黄又免费高清| 国产日本欧美亚洲精品视| 啪啪国产视频| 国产精品刺激对白在线| 久操线在视频在线观看| 天堂在线视频精品| 青草娱乐极品免费视频| 啊嗯不日本网站| 国内精品久久久久鸭| 国产精品欧美日本韩免费一区二区三区不卡 | 亚洲日韩日本中文在线| 亚洲黄网视频| 毛片一级在线| 欧美成人精品一级在线观看| 色婷婷视频在线| 波多野结衣一区二区三区四区视频 | 国产一区二区三区夜色| 亚亚洲乱码一二三四区| 亚洲区视频在线观看| 天堂亚洲网| 91精品啪在线观看国产| аⅴ资源中文在线天堂| 永久免费无码日韩视频| 综1合AV在线播放| 动漫精品啪啪一区二区三区| 国模视频一区二区| AV不卡国产在线观看| 2024av在线无码中文最新| 国产亚洲第一页| www.亚洲色图.com| 一级不卡毛片|