茆靈鋮 謝桂芳 邵周偉 時海茹 蔣秀蓮



摘? 要:當(dāng)前,信息化正面臨著一個全新的階段,即以數(shù)據(jù)的深度挖掘和整合應(yīng)用為核心的智慧化階段,智慧校園已成為時下高校信息化建設(shè)的重要內(nèi)容。分析高校信息化建設(shè)現(xiàn)狀和Hadoop、Spark等大數(shù)據(jù)技術(shù)框架,并重點從數(shù)據(jù)存儲層、核心業(yè)務(wù)層和信息展示層對智慧校園學(xué)生綜合測評系統(tǒng)進(jìn)行分析與設(shè)計,為大數(shù)據(jù)技術(shù)與智慧校園的深度融合提供方案。
關(guān)鍵詞:智慧校園;數(shù)據(jù)挖掘;Hadoop和Spark
中圖分類號:TP274? ? ?文獻(xiàn)標(biāo)識碼:A
Abstract: At present, informatization is entering a new stage, that is, the intelligent stage with data deep mining and integrated application as the core. Smart campus has become an important part of university information construction. This paper analyzes the current situation of university informatization construction and big data technology framework such as Hadoop and Spark, analyzes and designs the student comprehensive evaluation system of smart campus from data storage layer, core business layer and information display layer, so as to provide a scheme for the deep integration of big data technology and smart campus.
Keywords: smart campus; data mining; Hadoop and Spark
1? ?引言(Introduction)
“智慧校園”源于IBM公司在2008年提出的“智慧”地球理念,其核心是感知、聯(lián)通、智能。它是數(shù)字校園發(fā)展的高端形態(tài),以物聯(lián)網(wǎng)為基礎(chǔ),通過寬帶移動、云計算、大數(shù)據(jù)等技術(shù)整合數(shù)字校園階段規(guī)模巨大的多源異構(gòu)數(shù)據(jù)[1],以綜合信息服務(wù)平臺為載體,提供校園學(xué)習(xí)、工作、生活一體化的智能環(huán)境[2]。目前,各高校大都具有完備的信息系統(tǒng)和大量的學(xué)生個人數(shù)據(jù),然而在信息化水平和應(yīng)用上仍處于數(shù)字校園的階段,沒有充分探測全校師生認(rèn)知行為和校園環(huán)境動態(tài)變化的信息支撐平臺。
數(shù)據(jù)挖掘技術(shù)在企業(yè)運營中得到廣泛應(yīng)用,但高校數(shù)據(jù)挖掘意識不強(qiáng)。隨著智慧校園的推進(jìn),研究者逐漸重視對有關(guān)學(xué)生教育大數(shù)據(jù)的分析與挖掘,因此針對學(xué)生信息測評方面的研究不是很多,且高校學(xué)生系統(tǒng)大都由不同部門運營和維護(hù),學(xué)生測評方式單一,缺少統(tǒng)一支持海量數(shù)據(jù)處理的平臺支撐智慧校園的建設(shè)。因此利用大數(shù)據(jù)技術(shù)建立分析挖掘?qū)W生信息的數(shù)據(jù)處理與應(yīng)用平臺,具有重要實際意義。
2? 基于大數(shù)據(jù)技術(shù)的學(xué)生綜合測評系統(tǒng)架構(gòu)(Architecture of student comprehensive evaluation system based on big data technology)
大數(shù)據(jù)技術(shù)是指用一系列工具來對大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集、存儲,從而得到分析和預(yù)測結(jié)果的技術(shù)[3]。大數(shù)據(jù)萌芽于20世紀(jì)90年代,這一時期數(shù)據(jù)挖掘理論與數(shù)據(jù)庫技術(shù)逐步成熟。21世紀(jì)以來,隨著Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,大數(shù)據(jù)技術(shù)快速突破,形成了并行計算和分布式系統(tǒng)兩大核心技術(shù),Hadoop和Spark分布式計算框架也應(yīng)運而生。
(1)Hadoop分布式計算框架
Hadoop由Java開發(fā),是目前大數(shù)據(jù)技術(shù)的主流軟件架構(gòu),具有良好的容錯性和穩(wěn)定性,以及強(qiáng)大的IDE支持。Hadoop生態(tài)圈以HDFS和MapReduce為核心,HDFS是分布式文件處理系統(tǒng),它將大型文件拆分處理成多個小型文件單位,便于底層龐大數(shù)據(jù)的存儲,而分布式并行編程模型MapReduce可對這些文件中的數(shù)據(jù)集進(jìn)行并行運算。同時Hadoop生態(tài)圈還有Flume、Hive、HBase、Zookeeper、Sqoop、Mahout、Ambari、Pig等功能組件。
(2)Spark分布式計算框架
Spark由基于靜態(tài)編譯的Scala語言開發(fā)[4],速度快,在執(zhí)行過程中注重函數(shù)本身而非數(shù)據(jù)和狀態(tài)的處理,并將計算數(shù)據(jù)、中間結(jié)果都存儲于內(nèi)存中,大大減少了I/O開銷,更適合數(shù)據(jù)挖掘中的運算。而Hadoop的MapReduce計算模型表達(dá)能力有限,磁盤I/O開銷大,延遲高,難以勝任實時快速的計算需求,故可將Spark作為一種計算框架通過JVM取代MapReduce融入Hadoop生態(tài)圈中。并且Spark具有良好的API,能夠給開發(fā)人員帶來良好的用戶體驗。
(3)大數(shù)據(jù)技術(shù)與智慧校園的深度融合
通過Hadoop和Spark這兩個大數(shù)據(jù)框架對高校信息化應(yīng)用水平進(jìn)行改善,即以Hadoop的分布式文件系統(tǒng)HDFS為主,存儲數(shù)字校園階段各管理信息系統(tǒng)的數(shù)據(jù),再以Spark的計算處理功能為主,實現(xiàn)這些數(shù)據(jù)的深度挖掘。進(jìn)而通過智能分析,為用戶提供智能預(yù)測、預(yù)警并輔助決策,推動大數(shù)據(jù)技術(shù)與智慧校園的深度融合。同時結(jié)合數(shù)字校園階段學(xué)生系統(tǒng)的建設(shè)特點,可構(gòu)建一個基于大數(shù)據(jù)技術(shù)的高校智慧校園學(xué)生綜合測評系統(tǒng)。
(4)學(xué)生綜合測評系統(tǒng)總體架構(gòu)
高校智慧校園學(xué)生管理系統(tǒng)遵循高內(nèi)聚低耦合的設(shè)計原則,采用流行的Hadoop和Spark開源軟件構(gòu)建平臺[5],使系統(tǒng)可便利地實現(xiàn)平滑升級,并保證系統(tǒng)風(fēng)格統(tǒng)一、美觀、易于用戶操作。在充分共享信息資源的同時對各種訪問權(quán)限進(jìn)行嚴(yán)格限制,保持高可靠性和高安全性[6]。測評系統(tǒng)分為三層,如圖1所示。
圖1中,數(shù)據(jù)存儲層是系統(tǒng)的最底層,為上層提供數(shù)據(jù)源,如存儲學(xué)生的學(xué)業(yè)成績、消費、一卡通等校園大數(shù)據(jù)。核心業(yè)務(wù)層處于系統(tǒng)中間層,進(jìn)行數(shù)據(jù)的整合和運用數(shù)據(jù)挖掘模型分析數(shù)據(jù)信息。信息展示層位于系統(tǒng)最上層,作為用戶與系統(tǒng)之間的交互界面。
3? ?數(shù)據(jù)存儲層(Data storage layer)
由于高校的學(xué)生信息數(shù)據(jù)大都存儲在不同的管理信息系統(tǒng)中,故構(gòu)建高校智慧校園學(xué)生綜合測評系統(tǒng)的首要任務(wù)是對這些數(shù)據(jù)進(jìn)行整合,其處理流程如圖2所示。圖2中,ETL是指將數(shù)據(jù)從源端處經(jīng)過抽取、轉(zhuǎn)換、加載至目的端處的過程;Sqoop是可實現(xiàn)Hadoop系統(tǒng)與關(guān)系數(shù)據(jù)庫進(jìn)行數(shù)據(jù)遷移的專門工具;HBase是具有高性能、高可靠性、可伸縮、實時讀寫等特點的列式數(shù)據(jù)庫,一般采用HDFS作為其底層數(shù)據(jù)存儲;Hive是基于Hadoop的數(shù)據(jù)倉庫工具,可對Hadoop文件中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)整理、特殊查詢和分析存儲。數(shù)據(jù)存儲層先通過ETL數(shù)據(jù)預(yù)處理工具[7],將分布在各部門管理信息系統(tǒng)中的學(xué)生數(shù)據(jù)抽取到臨時中間層,然后進(jìn)行清洗、轉(zhuǎn)換、集成、裝載,最后結(jié)合Sqoop工具,將處理后的數(shù)據(jù)導(dǎo)入到基于Hadoop系統(tǒng)的中心數(shù)據(jù)庫中,從而利用Hadoop中的HDFS分布式文件系統(tǒng)將學(xué)生日積月累產(chǎn)生的大量數(shù)據(jù)存儲到數(shù)據(jù)倉庫中。
4? ?核心業(yè)務(wù)層(Core business layer)
在Hadoop和Spark的基礎(chǔ)上,系統(tǒng)在本層可通過FP-Growth算法、真實熵、K均值聚類、回歸分析等數(shù)據(jù)挖掘模型,對學(xué)生的個人信息、學(xué)業(yè)成績、學(xué)業(yè)狀態(tài)、一卡通消費、進(jìn)出圖書館次數(shù)等數(shù)據(jù)進(jìn)行分析,從而得到學(xué)生的測評結(jié)果[8]。
通過增加最小模式長度來優(yōu)化FP-growth算法[9],可生成描述能力更好的頻繁模式,學(xué)校食堂和超市可以根據(jù)這些模式來調(diào)整菜品供應(yīng)以及超市商品的擺放,同時還可調(diào)整物品的供應(yīng)量。K-means聚類收斂速度快、易于理解,以學(xué)生消費的次數(shù)、金額和用途等數(shù)據(jù)進(jìn)行聚類[10],可對學(xué)生的消費水平進(jìn)行分類。回歸模型能夠?qū)D書館、食堂的人員流動進(jìn)行預(yù)測,相關(guān)管理人員可據(jù)此合理安排工作人員值班。真實熵用于解決人類移動行為的可預(yù)測性問題[11],借助學(xué)生在校園各個地方的出入、消費數(shù)據(jù)可以了解學(xué)生的性格特征。將學(xué)生的日常行為數(shù)據(jù)和學(xué)業(yè)成績作為訓(xùn)練集,可得到分類規(guī)則[12],預(yù)估學(xué)生考試不及格、學(xué)業(yè)障礙等的可能性,提前預(yù)警,督促其完成學(xué)習(xí)任務(wù)。
校方通過特定的算法,以數(shù)據(jù)挖掘結(jié)果為依據(jù)和支撐,可以制定更合理的教學(xué)管理政策,如根據(jù)學(xué)生消費水平確定貧困生補(bǔ)助資格、等級,根據(jù)學(xué)業(yè)成績和行為特征進(jìn)行個性化教育、制定更加人性化的獎學(xué)金政策等。
5? ?信息展示層(Information display layer)
信息展示層是平臺與用戶交互的可視化窗口,本系統(tǒng)在核心業(yè)務(wù)層的基礎(chǔ)上,對數(shù)據(jù)挖掘得到的有價值的信息進(jìn)行整合并分模塊展示,將其分為學(xué)生基本信息統(tǒng)計、學(xué)業(yè)分析、消費分析和綜合分析等四個模塊,主要功能如表1所示。本系統(tǒng)將采用數(shù)據(jù)挖掘算法從校園大數(shù)據(jù)中得到的有價值的信息以可視化、模塊化的方式呈現(xiàn)給用戶,旨在方便快捷地為用戶提供學(xué)情分析、消費分析、綜合對比等服務(wù)[13]。
(1)基本信息統(tǒng)計模塊
本模塊整合學(xué)生的性別、民族、地區(qū)、家庭收入等基本的個人信息,由數(shù)據(jù)倉庫提供的類似于關(guān)系數(shù)據(jù)庫SQL語言的Hive QL即可對學(xué)生的個人信息進(jìn)行特征分析,通過餅圖、柱狀圖等在網(wǎng)頁進(jìn)行可視化展示。在本模塊中,每個用戶都可以查看全校學(xué)生整體統(tǒng)計分布情況,并且校園管理者用戶在自己的權(quán)限范圍內(nèi)可以查看每個學(xué)生的詳細(xì)情況,而每個學(xué)生用戶僅能夠查看自己的詳細(xì)信息。
(2)學(xué)生學(xué)業(yè)分析模塊
本模塊整合學(xué)生的學(xué)業(yè)成績、進(jìn)出圖書館次數(shù)、借閱記錄和獎懲情況等信息,經(jīng)核心業(yè)務(wù)層處理得到學(xué)生學(xué)業(yè)的統(tǒng)計數(shù)據(jù),如學(xué)生的學(xué)業(yè)情況、學(xué)習(xí)狀態(tài)、獎懲分布、閱讀偏好等。在本模塊中,每個用戶都可以查看學(xué)生總體的學(xué)業(yè)分布情況,并且學(xué)生用戶可以查看自己的學(xué)業(yè)數(shù)據(jù)和學(xué)習(xí)記錄,教師用戶可以查看自己所教授班級學(xué)生的學(xué)業(yè)數(shù)據(jù)和學(xué)習(xí)記錄。同時系統(tǒng)管理員可以根據(jù)閱讀偏好來提醒圖書館管理者優(yōu)化圖書館購書類別,根據(jù)學(xué)業(yè)情況對學(xué)生進(jìn)行掛科預(yù)警等。
(3)學(xué)生消費分析模塊
本模塊整合學(xué)生的一卡通消費數(shù)據(jù)、食堂及商店消費數(shù)據(jù)等信息,經(jīng)核心業(yè)務(wù)層處理得到學(xué)生的消費統(tǒng)計數(shù)據(jù),如學(xué)生的平均消費情況、飲食偏好、消費結(jié)構(gòu)等。在本模塊中,學(xué)生用戶可以查看學(xué)生總體的消費分布情況和自己的消費數(shù)據(jù)。同時系統(tǒng)管理員用戶可以根據(jù)學(xué)生消費的偏好和頻繁模式來提醒食堂和商店管理人員優(yōu)化商品的供應(yīng),根據(jù)學(xué)生消費情況衡量學(xué)生家庭條件,為學(xué)校精準(zhǔn)關(guān)愛貧困生提供數(shù)據(jù)支撐。
(4)學(xué)生綜合分析模塊
本模塊是信息展示層的核心模塊,基于前三個模塊的分析數(shù)據(jù),由系統(tǒng)管理員自定義設(shè)置,在核心業(yè)務(wù)層中進(jìn)行更深層次的處理,可以得到不同指標(biāo)的統(tǒng)計數(shù)據(jù)。如根據(jù)學(xué)生的消費數(shù)據(jù)加權(quán)得到經(jīng)濟(jì)富裕指數(shù),根據(jù)學(xué)生的學(xué)業(yè)數(shù)據(jù)得到成就性指數(shù),根據(jù)學(xué)生行為數(shù)據(jù)結(jié)合真實熵算法得到嚴(yán)謹(jǐn)性指數(shù)等[14]。在本模塊中,每個用戶都可以查看學(xué)生總體的指標(biāo)分布情況,并且學(xué)生用戶可以查看自己的詳細(xì)分析情況。管理員用戶可以根據(jù)這些指標(biāo)數(shù)據(jù)結(jié)合相關(guān)規(guī)定進(jìn)行獎學(xué)金評比、貧困生補(bǔ)助、教學(xué)區(qū)開放時間等活動。
6? ?結(jié)論(Conclusion)
通過對大數(shù)據(jù)技術(shù)和高校教育教學(xué)工作深度融合的研究,在數(shù)字校園的基礎(chǔ)上,引入大數(shù)據(jù)計算框架Hadoop和Spark以及經(jīng)典的數(shù)據(jù)挖掘模型,構(gòu)建以大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算等技術(shù)為核心的學(xué)生綜合測評系統(tǒng),對學(xué)生的基本信息、學(xué)業(yè)信息、消費信息、綜合信息進(jìn)行分析挖掘,從而為高校進(jìn)行精準(zhǔn)的教育教學(xué)管理提供科學(xué)合理的有效支撐。
參考文獻(xiàn)(References)
[1] Fang Dong,Xiaolin Guo,Pengcheng Zhou,et al.Task-Aware Flow Scheduling with Heterogeneous Utility Characteristics for Data Center Networks[J].Tsinghua Science and Technology,2019,24(04):400-411.
[2] Tongya ZHENG,Gang CHEN,Xinyu WANG,et al.Real-time intelligent big data processing:technology,platform,and applications[J].Science China(Information Sciences),2019,62(08):102-113.
[3] Hira Zahid,Tariq Mahmood,Ahsan Morshed,et al.Big Data Analytics in Telecommunications:Literature Review and Architecture Recommendations[J].IEEE/CAA Journal of Automatica Sinica,2020,7(01):18-38.
[4] Xiaoming Ye,Xingshu Chen,Dunhu Liu,et al.Efficient Feature Extraction Using Apache Spark for Network Behavior Anomaly Detection[J].Tsinghua Science and Technology,2018,23(05):561-573.
[5] 范振東,陳暉,王海濤,等.基于大數(shù)據(jù)的智慧校園學(xué)生綜合測評系統(tǒng)[J].電信快報,2018(11):25-27;32.
[6] 常鏡洳.基于大數(shù)據(jù)的智能工廠數(shù)據(jù)平臺架構(gòu)設(shè)計與研究[J].軟件工程,2019,22((12)):34-36.
[7] 王繼鵬,金云智,李偉.勘探開發(fā)數(shù)據(jù)整合之ETL系統(tǒng)的研究與實現(xiàn)[J].中國礦業(yè),2019,28(S2):191-194;199.
[8] 段玉婷.基于校園卡的學(xué)生消費信息數(shù)據(jù)挖掘與應(yīng)用研究[D].西南科技大學(xué),2018.
[9] 黃婕.基于Spark平臺的FP-Growth算法優(yōu)化與實現(xiàn)[J].湖南工業(yè)大學(xué)學(xué)報,2020,34(01):77-84.
[10] 許家鈺.基于k-means算法的WiFi用戶行為分析系統(tǒng)設(shè)計與實現(xiàn)[D].北京:北京郵電大學(xué),2019.
[11] 吳一帆.eduExplorer:基于校園行為數(shù)據(jù)的可視分析系統(tǒng)[D].成都:電子科技大學(xué),2018.
[12] 周慶,王衛(wèi)芳,葛亮,等.基于一卡通數(shù)據(jù)與課程分類的學(xué)生成績預(yù)測[J].電腦知識與技術(shù),2018,14(24):236-239.
[13] 申華.基于大數(shù)據(jù)的高校學(xué)生綜合測評系統(tǒng)設(shè)計與實現(xiàn)[D].北京:北京工業(yè)大學(xué),2017.
[14] 李蒙.基于校園大數(shù)據(jù)的學(xué)生行為挖掘方法應(yīng)用研究[D].西安:西安電子科技大學(xué),2019.