張四海 李珊珊



[摘要]以南開大學校園一卡通交易流水數據為研究對象,通過對原始數據的清洗、整合與統計分析,實現數據可視化,滿足學校直觀管理的需要。從一卡通原始數據庫中提取3 719? 570條歷史交易數據,數據清洗、分類、一致性檢驗和統計分析采用Matlab、SPSS和Origin。首先,對南開大學一卡通總體消費狀況進行分析;然后,通過對時間離散化處理,對師生在食堂的就餐規律進行分析。深入研究一卡通流水數據,有助于全面掌握師生的行為規律,為學校優化資源配置和科學決策提供數據依據。
[關鍵詞]一卡通;交易流水;數據挖掘;消費行為分析
[中圖分類號]TP 31113[文獻標志碼]A[文章編號]10050310(2019)0100
6405
Consuming Behavior Data Analysis and Research Based on
Campus ECard System
——Taking Nankai University as an Example
Zhang Sihai, Li Shanshan
(Office of Informatization Construction and Management, Nankai University, Tianjin 300071,China)
Abstract: In this paper, the consuming transaction data in Ecard system is studied. Data visualization is realized by cleaning, integration and statistical analysis of the original data. Visualized managerial demand for university is satisfied by this way. 3 719 570 of historical transaction data were extracted from Ecard original database. First, the basic consuming condition for Nankai University Ecard system was analyzed. Then the dining pattern of faculty and students was studied by using the method of time discretization. The deep research for the Ecard transaction data can help us to understand the behavior pattern of faculty and students. And it is also significant to optimize allocation of resources and for the related administrative departments to make scientific decisions.
Keywords: Ecard; Consuming transaction data; Data mining; Consuming behavior analysis
0引言
圖1一卡通交易流水數據分類
Fig.1Classification for Ecard consuming transaction data
作為校園生活數字化、智慧化的載體,一卡通系統扮演著極其重要的角色[19]。校園一卡通系統是信息技術與通信技術的完美結合,是ICT技術在校園場景中的成功應用。一卡通不僅極大地方便了廣大師生的學習和生活,而且也有效提升了學校的管理水平[1011]。隨著時間的推移,校園一卡通系統累積了大量的消費和行為數據,一卡通數據具有數據量大、交易流水詳盡、真實可靠的特點。基于數據挖掘理論,從大量繁雜、無序的原始數據中提取有價值的信息,通過分析和建模來實現知識發現,將有助于學校全面掌握師生的行為規律,對學校優化資源配置和科學決策具有重要意義[1215]。
本文以南開大學校園一卡通交易流水數據為研究對象,通過對原始數據的清洗、整合、分類與統計分析,實現數據的可視化,滿足學校的直觀管理需要。首先,對一卡通原始數據進行系統地分類;對校園卡兩種不同充值方式的占比、消費類型占比,以及不同身份群體在食堂消費的占比和金額進行了統計分析。其次,對南開大學校區搬遷前的食堂歷史消費數據進行詳細分析,得出交易次數隨日期變化的就餐規律曲線。最后,對食堂每天的營業時間進行離散化,得出工作日和節假日每天不同時段的就餐規律。根據上述分析結果,對學校膳食中心資源優化配置提出建議。
1校園一卡通交易流水數據的分類
南開大學一卡通系統始建于2007年,是一個基于C/S架構的多應用集成系統。目前,它能夠為全校師生提供食堂餐飲、超市、洗浴、圖書借閱、門禁、學籍注冊、自助文印及體測等多種服務。經過10余年的發展和不斷完善,南開大學一卡通系統已形成了以專用網絡為基礎,以一卡通平臺為核心,具有較高安全性、健壯性和擴展性的應用系統。
經過多年的建設和運營,一卡通系統中沉淀了大量的交易流水數據。原始數據雜亂無章,各種交易流水數據和行為數據無規律地混雜在一起。因此,首先我們需要對原始數據進行清洗、整合與分類。如圖1所示,一卡通原始數據包括交易類數據和其他行為類數據兩大類,其中交易類數據主要包括食堂、超市、洗浴、圖書超期、網費、自助文印等消費數據,其他行為數據主要包括宿舍、圖書館和學院的門禁,報到注冊以及體育場館使用等數據。經過數據的清洗與分類,我們可以作進一步的深入分析,得出師生的消費與行為規律,對異常行為進行預警,對資源優化提出建議,以及對師生行為進行預測,等等。
食堂消費是校園一卡通最重要的應用,因此本文的研究重點是食堂消費的交易流水數據。從一卡通原始數據中提取出食堂消費數據,進行深入分析,能夠挖掘師生的就餐規律,從而為學校相關部門科學決策提出合理建議。
2數據挖掘結果及分析
21總體消費情況分析
北京聯合大學學報2019年1月
第33卷第1期張四海等:校園一卡通消費行為數據分析與研究
南開大學擁有在校師生近4萬人,每天產生的交易流水數據為7萬條左右,每年產生的數據量為數千萬條。我們采用抽樣的方法對一卡通歷史消費數據進行分析,提取了2015年4月和5月的3? 719? 570條交易流水數據。選取這兩個月的數據,主要有兩個原因:一是從行為規律一致性的角度來考慮的,3月份剛剛開學,學生要選課,然后逐步適應校園生活;6月份是考試月,學生要復習備考;而4~5月
師生的教學活動和生活都比較有規律,因此消費行為具有更好的一致性。第二個原因是因為南開大學從2015年9月開始部分搬遷到新校區,因此我們計劃對搬遷前的總體消費狀況進行詳細分析。
由師生操作的交易流水數據主要包括充值和消費兩大類,其中充值包括銀行卡轉帳和現金兩種方式,消費類操作包括食堂和超市的小額消費、網絡繳費、洗浴及自助文印等。
圖2給出了不同充值方式所占的比例。銀行卡轉帳包括3種方式:圈存機自助轉賬、網上轉賬和手機APP轉賬。由圖2可知,銀行卡轉帳已經成為南開大學一卡通主流的充值方式,占到總數的8754%;而現金充值方式比例為1246%,使用這種方式充值的主要是退休教職工以及部分無法正常綁定銀行卡的師生。隨著時間的推移,銀行卡轉帳方式所占的比例會越來越高。
圖2一卡通兩種充值方式占比
Fig.2Proportion of two prepaid ways in
Ecard system
圖3給出了各類交易流水數據的占比。如圖所示,食堂消費流水數據的比例最高,達5291%,對這部分數據將在后面進行詳細分析;其次是洗浴數據,占3127%,這部分數據占比大的原因,是因為南開大學為節約能源,采用計水量收費,學生一次洗澡可能會多次刷卡;超市消費數據占1454%;占比最少的是網絡繳費數據,僅占129%,這主要是南開大學每個月贈送5 GB免費流量,且校內流量免費,因此網費流水數據占比較少。
圖3一卡通消費類型占比
Fig.3Proportion of different Ecard
consumption types
圖4給出了不同身份群體食堂消費所占的比例。由圖可知,本科生的食堂消費比例最高,達6655%;碩士和博士研究生消費比例接近,分別為1481%和1227%;而教職工的食堂消費比例最低,僅為636%。
圖4不同身份群體食堂消費占比
Fig.3Proportion of
canteen consumption for
different groups
表1給出了不同身份人群三餐的平均消費和標準差。早餐的平均消費最低,在160~203元之間。午餐和晚餐的平均消費在618~724元之間。教職工一日三餐的消費最高。
22食堂就餐規律分析
為分析師生在食堂的就餐規律,我們統計了2015年4~5月
,師生每日在食堂的刷卡消費次數,從而得出就餐規律曲線,如圖5所示,就餐規律曲線波動非常有規律。在工作日,食堂周一至周四就餐人數較多,周五人數有些減少。休息日(周六、日)的就餐人數明顯減少,約為工作日的一半。就餐曲線的兩個最低點分別出現在清明和“五一”小長假,就餐人數僅為工作日的1/3。該結果能夠為學校膳食中心優化資源配置提供一定的參考,依據用餐消費數據,食堂在工作日、休息日及節假日可以分別按需準備適量食材,或增減部分窗口,以提高資源利用率。
為研究師生每天的消費習慣和規律,我們對時
表1不同身份人群三餐的平均消費和標準差
Table 1Average consumption and standard deviation of three meals for different groups
餐
別
本科生
碩士研究生
博士研究生
教職工
平均消費
/元標準差平均消費
/元標準差平均消費
/元標準差平均消費
/元標準差
晚餐709528618528690575724596
午餐708490661444672474719674
早餐203169180134160124191195
圖5師生食堂就餐規律曲線
Fig.5Consuming frequency distribution graph in canteen for faculty and students
間進行離散化處理,每半小時為1個時段,一天共
分為48個時段。食堂的營業時間是從早6:00至晚9:00,因此
僅對這期間的30個時段進行分析。為研究方便,我們用字母編號代表每個時段,表2表示將食堂營業時間離散化后,字母編號和時段的對應關系。
表2食堂營業時間離散化——字母編號和
各對應時段的關系
Table 2Discretization for canteen open time—the
relationship between letter code and period
編號時段編號時段
A16:00—6:30H213:30—14:00
A26:30—7:00I114:00—14:30
B17:00—7:30I214:30—15:00
B27:30—8:00J115:00—15:30
C18:00—8:30J215:30—16:00
C28:30—9:00K116:00—16:30
D19:00—9:30K216:30—17:00
D29:30—10:00L117:00—17:30
E110:00—10:30L217:30—18:00
E210:30—11:00M118:00—18:30
F111:00—11:30M218:30—19:00
F211:30—12:00N119:00—19:30
G112:00—12:30N219:30—20:00
G212:30—13:00O120:00—20:30
H113:00—13:30O220:30—21:00
統計每個時段刷卡交易次數,就可以對師生每日在食堂的就餐規律進行詳細分析。由圖5可知,師生在工作日和節假日的刷卡消費次數有較大差異,因此我們需要對工作日和節假日的就餐規律分別進行分析。圖6給出了在工作日和節假日的師生就餐規律曲線。可以看出,兩條曲線具有相同的趨勢,在早、中、晚都同樣出現了3個用餐高峰,但兩條曲線在每日高峰時段具有較大差異,節假日的總體就餐人數遠少于工作日。節假日早餐的就餐高峰右移,從7:00—7:30后移至7:30—8:00,這說明師生在節假日用早餐的時間要晚于平時,因此膳食中心可以考慮在節假日適當延長早餐供應時間。
圖6工作日、節假日的師生就餐規律曲線
Fig.6Consuming frequency distribution graph in workdays and holidays for faculty and students
工作日早餐高峰時段(7:00—7:30)平均刷卡次數為2 322次,節假日早餐高峰時段(7:30—8:00)平均刷卡次數為755次,僅約為工作日的1/3。工作日午餐刷卡次數最多的時段為11:00—11:30,平均刷卡次數為3 415次;節假日午餐刷卡次數最多的時段為11:30—12:00,平均刷卡次數為1 383次,不到工作日的一半。晚上刷卡次數最多的時段為17:00—17:30,其中工作日平均刷卡次數為2 135次;節假日平均刷卡次數為1 078次,約為工作日的一半。
3結束語
本文以南開大學校園一卡通交易流水數據為研究對象,通過數據的清洗、整合與統計分析,實現數據的可視化。對食堂消費數據進行了詳細分析,
給出師生的就餐規律曲線,滿足了學校直觀管理的需要,并對膳食中心優化資源配置提出了建議。
隨著大數據時代的到來,對校園歷史沉淀數據進行挖掘、分析與建模具有極其重要的意義。對校
園卡數據進行消費與行為分析屬于一卡通系統的二次開發,深入分析師生的一卡通數據,有助于學校掌握師生的行為規律,優化資源配置,對高校管理部門科學決策具有重要意義。
[參考文獻]
[1]許鑫.南京大學數字化校園建設架構[J].教育信息化,2002(8):44-45.
[2]徐為民,徐兵,朱顯靈,等.校園一卡通和數字化校園[J].教育信息化,2002(S1):50-51.
[3]蘇文勝,馬千軍.基于數字化校園的校園一卡通構建[J].武漢理工大學學報(信息與管理工程版),2005,27(1):99-101.
[4]顧金娣,席琳琳.校園一卡通系統的應用與思考[J].上海第二工業大學學報,2005,22(3):71-76.
[5]張升平.數字化校園之校園一卡通的建設[J].重慶工商大學學報(自然科學版),2008,25(1):56-59.
[6]孟昆鵬.數字校園如何向智慧校園轉型的探討——以開封技師學院為例[J].中國培訓,2016(11):52-54.
[7]樊鐵成,高路,管晶,等.智慧校園一卡通未來發展研究[J].鄭州大學學報(工學版),2017,38(S1):25-28.
[8]田麗.智慧校園環境下的校園一卡通建設[J].華東師范大學學報(自然科學版),2015(S1):530-535.
[9]許鑫,蘇新寧,姚瑤.數字化校園一卡通平臺研究[J].現代圖書情報技術,2005(7):54-59.
[10]李淑娟,周偉強,宓詠.如何實現校園一卡通高效的運行管理探索[J].實驗技術與管理,2011,28(6):7-10.
[11]張九娟.校園“一卡通”在學校管理中的應用研究[J].高校后勤研究,2014(2):63-65.
[12]李珊娜.基于校園一卡通平臺的數據挖掘應用研究[J].鐵路計算機應用,2010,19(6):55-58.
[13]張兵兵,王建,張建威,等.數據挖掘在校園一卡通系統中的應用初探[J].數理醫藥學雜志,2009,22(5):572-575.
[14]陳鋒.基于校園一卡通系統的高校用戶就餐消費行為分析與數據挖掘[J].中國教育信息化,2014(9):47-49.
[15]薛黎明,欒維新,李志淮,等. 數據挖掘在校園一卡通消費數據分析中的應用[C]//中國高等教育學會教育信息化分會.中國高等教育學會教育信息化分會第十二次學術年會論文集.北京:中國高等教育學會教育信息化分會,2014:8.