999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的校園一卡通數據分析

2016-09-25 05:37:43付影平
無線互聯(lián)科技 2016年15期
關鍵詞:校園學生

付影平,馬 晶,杜 程

(西安郵電大學 信息中心,陜西 西安 710061)

基于Hadoop的校園一卡通數據分析

付影平,馬晶*,杜程

(西安郵電大學 信息中心,陜西西安710061)

文章通過對校園一卡通消費數據特征進行分析,發(fā)現(xiàn)學生消費行為背后隱藏的規(guī)律。文章采用數據挖掘統(tǒng)計分析的方法對前期獲取的原始數據進行篩選,從不同年級、不同就餐地點兩個方面考慮,研究不同群體的消費習慣。數據處理是在Hadoop(分布式系統(tǒng)基礎架構)框架下采用MapReduce(一種編程模型,映射和化簡)方法,通過對關鍵字過濾之后得到統(tǒng)計結果并將其可視化。

校園一卡通;消費數據;Hadoop;MapReduce

當下,眾多高校都在積極建設數字化校園。校園一卡通系統(tǒng)作為數字化校園的重要組成部分,是校園信息化建設的基礎工程之一,主要具有綜合消費、身份識別、金融服務、公共信息服務等功能。校園一卡通卡片取代了以前各種證件(包括學生證、工作證、借書證、出入證等)的全部或部分功能,最終實現(xiàn)“一卡在手,走遍校園”。以校園卡為紐帶促進數字校園的建設,擴展校園卡和業(yè)務系統(tǒng)的結合應用,會產生大量學生消費和日常活動數據。通過對這些數據進行分析,可發(fā)現(xiàn)其潛在價值,促進學校管理效率和水平的提升。

1 相關技術介紹

1.1Hadoop介紹

Hadoop是由Apache Lucene的創(chuàng)始人Doug Cutting創(chuàng)建的,起源于開源網絡搜索引擎Apache Nutch,它本身也是Lucene項目的一部分。Hadoop框架中最核心的設計是分布式文件系統(tǒng)( Hadoop Distributed File System,HDFS)和MapReduce。HDFS提供了海量數據的存儲,MapReduce提供了對海量數據的計算[1]。HDFS在集群上實現(xiàn)分布式文件系統(tǒng),MapReduce在集群上實現(xiàn)了分布式計算和任務處理[2]。HDFS在MapReduce任務處理過程中提供了文件操作和存儲等支持,MapReduce在HDFS的基礎上實現(xiàn)了任務的分發(fā)、跟蹤、執(zhí)行等工作,并收集結果,二者相互作用,完成了Hadoop分布式集群的主要任務[3]。

1.2MapReduce介紹

MapReduce是一種可用于數據處理的編程模型。Hadoop可以運行各種語言版本的MapReduce程序。MapReduce本質上是并行運行的,因此可以將大規(guī)模的數據分析任務分發(fā)給任何一個擁有足夠多機器的數據中心。MapReduce的優(yōu)勢在于處理大規(guī)模數據集。MapReduce實現(xiàn)了存儲的均衡,但未實現(xiàn)計算的均衡。MapReduce模型主要有Mapper和Reducer兩個抽象類。Mapper端主要負責對數據的分析處理,最終轉化為Hadoop的數據結構;Reducer 端主要是獲取Mapper出來的結果,對結果進行統(tǒng)計[4]。

為了充分利用Hadoop架構下MapReduce的并行處理優(yōu)勢,需要將查詢表示成MapReduce作業(yè)。MapReduce任務過程分為兩個處理階段:Map階段和Reduce階段。每個階段都以鍵值對作為輸入和輸出,其類型由程序自己選擇。只需要程序員自己寫入Map函數和Reduce函數。本文使用MapReduce的邏輯數據流,如圖1所示。

圖1 邏輯數據流

2 消費數據分析方法設計

2.1消費數據結構

一卡通數據單日產生量大、來源廣泛、產生人群類型復雜。消費日志數據包括證件號碼、卡號、第二證件號碼、流水號、商戶名稱、交易金額、交易時間等18項信息。而此次需要獲取的關鍵數據主要是證件號碼、第二證件號碼(身份證)、商戶名稱、交易金額和交易時間等。

2.2消費數據分析設計

2.2.1基于年級的消費數據分析方法設計

在近兩萬名學生中,不同年級因為教學計劃安排差異以及高年級學生考研、找工作等因素影響,會在消費地點、消費時間等方面有差別。從這些方面分析學生消費行為,可以更好地幫助學校引導學生進行實際需求的消費。

按照上述思路,通過從原始數據“學生證件號”“消費商鋪”以及“消費金額”等字段進行數據提取,將年級和消費地點等條件相結合,計算不同年級在不同地點的平均消費額,以此來發(fā)現(xiàn)不同年級選擇消費地點的傾向性;通過從原始數據“學生證件號”和“消費商鋪”以及“消費時間”等字段進行數據提取,以年級、消費地點及時間段為關鍵字,計算出不同消費地點在各個時間段內發(fā)生的消費次數,用于判斷相同時間段內,哪些地點是消費發(fā)生的熱點地區(qū)。

2.2.2基于位置的消費數據分析方法設計

學校有兩個食堂,但在兩個食堂建成之后,并沒有數據表明其設置是否合理、師生是否滿意,是否因環(huán)境問題而選擇不同的就餐地點。通過對數據的分析,可以提示學校對消費人次較少的地方加強建設,增強服務提供能力,提升學生消費體驗。

按照上述思路,將原始數據中的消費時間和消費地點提取出來,將月份和兩個食堂作為關鍵字,依據不同時間對消費人次和每月單次平均消費額進行計算。

3 消費數據分析方法實現(xiàn)及分析

采用Hadoop框架,實現(xiàn)是在Ubuntu和Windows操作系統(tǒng)中完成的,數據采集時間為2015年3月1日至2016年3月20日,主要采用MapReduce和HDFS技術完成數據分析工作。

3.1數據分析平臺搭建

本次環(huán)境的搭建如圖2所示,主要分為兩個部分。一端是Hadoop集群,在集群中分為Master和Slave兩個角色,其中Master是Hadoop的主節(jié)點,主要是管理文件系統(tǒng)的命名空間和客戶端對文件系統(tǒng)的訪問,Slave 則作為管理和存儲數據。MapReduce框架是由一個單獨運行在Master節(jié)點上的JobTracker和運行在每個集群Slave節(jié)點的TaskTracker共同組成的[5]。Master節(jié)點負責調度構成一個作業(yè)的所有任務,這些任務分布在不同的從節(jié)點上。主節(jié)點監(jiān)控它們的執(zhí)行情況,并且重新執(zhí)行之前的失敗任務;Slave節(jié)點僅負責由Master節(jié)點指派的任務。當一個Job被提交時,JobTracker接收到提交作業(yè)和配置信息之后,就會將配置信息等分發(fā)給Slave節(jié)點,同時調度任務并監(jiān)控TaskTracker的執(zhí)行。

圖2 環(huán)境搭建示意

另一部分是在Windows7上安裝Eclipse開發(fā)軟件,配置Hadoop開發(fā)環(huán)境,通過以太網連接Hadoop集群Master,利用Eclipse的開發(fā)環(huán)境來控制HDFS和調用MapReduce。

Hadoop操作環(huán)境為Ubuntu14.4系統(tǒng),Hadoop軟件版本為2.6.4,集群架構為偽分布式。Eclipse安裝在Windows7操作系統(tǒng)中,軟件版本為4.5.0,HadoopEclipse插件版本為hadoop-eclipse-plugin-2.6.4。Hadoop是一個強大的并行框架,它允許任務在其分布式集群上并行處理[6]。

3.2消費數據預處理

本文獲取的原始數據是以Excle格式存儲的,需要先將其以UTF-8編碼形式轉換為txt格式,以便MapReduce識別、處理。在對原始數據分析過程中發(fā)現(xiàn)有些數據是不完整的,或者有很多數據如果不進行剔除,會影響最后結果的準確性。那么在Mapper函數進行處理之前,要對這些數據進行一次清洗,將無效數據進行剔除,避免不必要的誤差。

3.3基于年級的消費行為分析

根據上述數據分析方法,基于年級的消費數據設計,是利用Hadoop的MapReduce方法進行一個關鍵字段的過濾以及一個群體共同特征的統(tǒng)計,得出這個特征群體的平均值并進行對比。代碼流程如圖3所示。

圖3 基于年級消費數據分析流程

在前期各個年級的消費數據代碼運行之后,各個年級在不同消費地點段平均消費金額對比如圖4所示。

圖4 各個年級在相同地點消費對比

其中2011級學生的數據截止到2015年6月前,2015級學生數據從9月開始,從圖4中可以看出,2011級學生在旭日苑消費比其他低年級要高。大四畢業(yè)生因為課業(yè)量少,如果沒有參加實驗室或其他社團,那么每天主要的消費活動范圍就在宿舍樓附近,而旭日苑是離宿舍最近的食堂;從勤工助學商店消費平均額可以看出,大一、大二學生略高一些。

3.4基于位置的消費行為分析

基于上述關于食堂的消費數據分析方法的設計,因此在關于食堂的流程圖設計上,主要依據季節(jié)以及各個月份每個食堂的單次平均消費額來對比,代碼流程如圖5所示。

圖5 基于位置的消費數據流分析

基于位置的數據可視化,如圖6所示,可以更加直觀地對比不同季節(jié)對于食堂的選擇差異。

圖6 消費次數對比

由圖6可以看出,學生更傾向于旭日苑而不是美食廣場,季節(jié)對于學生選擇食堂并沒有太大的影響,基本在所有季節(jié),旭日苑的消費次數都是美食廣場的2倍左右。

4 結語

本次工作因為需要進行大量數據的處理,在平臺搭建上選擇了Hadoop框架。針對新校區(qū)的本科生,從不同年級、不同就餐地點兩個方面進行消費行為的統(tǒng)計。發(fā)現(xiàn),低年級和高年級在消費時間段和消費地點都會有一定差異,低年級的消費地點更分散,消費時間段高峰期在下課后;高年級恰恰相反,消費點多數集中在宿舍樓附近,消費時間段剛好會避開低年級消費高峰期;對兩個食堂消費進行統(tǒng)計發(fā)現(xiàn),旭日苑消費次數一直都是美食廣場的兩倍。

[1](美)懷特.Hadoop權威指南[M].曾大聃,周傲英,譯.北京:清華大學出版社,2010.

[2]黃懋.基于集群的HDFS高可用性研究和實現(xiàn)[D].上海:復旦大學,2012.

[3]蔡睿誠.基于HDFS的小文件處理與相關MapReduce計算模型性能的優(yōu)化與改進[D].吉林:吉林大學,2012.

[4](美)拉姆.Hadoop實戰(zhàn)[M].韓冀中,譯.北京:人民郵電出版社,2011 .

[5]張永坤.基于進程剩余運行時間的集群負載平衡系統(tǒng)[D].武漢:華中科技大學,2004.

[6]賈玉生.基于Hadoop的分布式文本分類研究[D].北京:北京工業(yè)大學,2013.

Analysis on data of the Campus IC Card based on Hadoop

Fu Yingping, Ma Jing, Du Cheng
(Xi'an University of Posts and Telecommunications, Xi'an 710061, China)

This article found the hidden rules of students' consumption behavior through the analysis on characteristics of the Campus IC Card consumption data. In this paper, the methods of data mining and statistical analysis are used to screen the raw data,in terms of two sides including different grades and different restaurants to considerate and study the consumption habits of different groups. Data processing means to adopt the MapReduce method under the Hadoop framework to get statistical results and visualize them after fltering the keywords.

Campus IC Card; consumption data; Hadoop; MapReduce

付影平(1973— ),男,陜西西安,助理工程師;研究方向:計算機網絡安全。*

馬晶(1991— ),女,陜西渭南,碩士研究生;研究方向:云計算理論與應用。

猜你喜歡
校園學生
快把我哥帶走
《李學生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
Q爆校園
趕不走的學生
再見,我的校園
南方周末(2018-06-28)2018-06-28 08:11:04
校園的早晨
琴童(2017年3期)2017-04-05 14:49:04
春滿校園
學生寫話
學生寫的話
開心校園
主站蜘蛛池模板: 激情综合网激情综合| 青青国产视频| 国产精品私拍在线爆乳| 日韩在线视频网站| 欧洲成人免费视频| 欧美成人第一页| 国产导航在线| 秋霞一区二区三区| 日韩东京热无码人妻| 扒开粉嫩的小缝隙喷白浆视频| 国产精品免费p区| lhav亚洲精品| 日本在线国产| 91人人妻人人做人人爽男同| 日韩午夜伦| 国产尤物在线播放| 欧美午夜小视频| 国产精品视频免费网站| 精品国产欧美精品v| www精品久久| 欧美日韩国产系列在线观看| 亚洲乱亚洲乱妇24p| 亚洲AV色香蕉一区二区| 欧美日在线观看| 亚洲国产综合精品一区| 国产又爽又黄无遮挡免费观看| 国产成人亚洲无吗淙合青草| 91口爆吞精国产对白第三集| 久久国产乱子伦视频无卡顿| 欧美一级专区免费大片| 国产网友愉拍精品视频| 国产午夜精品一区二区三| 国产精品va免费视频| 亚洲第一极品精品无码| 超碰免费91| 久久国产av麻豆| 女人18毛片久久| 成人福利免费在线观看| 丁香婷婷在线视频| 亚洲欧美日韩视频一区| 国产激爽爽爽大片在线观看| 色综合久久久久8天国| 亚洲欧美精品一中文字幕| 亚洲品质国产精品无码| 亚洲高清中文字幕在线看不卡| 午夜精品区| 91伊人国产| 日韩美一区二区| 国产成人亚洲无码淙合青草| 最新痴汉在线无码AV| 成人午夜在线播放| 国产三级国产精品国产普男人| 天堂亚洲网| 9丨情侣偷在线精品国产| 免费看av在线网站网址| 亚洲A∨无码精品午夜在线观看| 國產尤物AV尤物在線觀看| P尤物久久99国产综合精品| 美女免费黄网站| AV色爱天堂网| 国产特级毛片aaaaaaa高清| 精品无码国产一区二区三区AV| 久草青青在线视频| 亚洲日韩国产精品无码专区| 国产精品极品美女自在线网站| 欧美人与牲动交a欧美精品 | 久久这里只有精品免费| 亚洲中文字幕在线一区播放| 亚洲精品无码av中文字幕| 亚洲高清在线播放| 日韩精品亚洲人旧成在线| 2021国产精品自产拍在线观看 | 国产欧美日韩一区二区视频在线| 麻豆国产原创视频在线播放| 999福利激情视频| 91蜜芽尤物福利在线观看| 99r在线精品视频在线播放| 无码精油按摩潮喷在线播放| 青草免费在线观看| 亚洲av日韩综合一区尤物| 国产成人永久免费视频| 国产美女免费网站|