文/卜南翔 徐述 王玉婷 曾海洋 王吉祥
(湖南城市學院 信息與電子工程學院 湖南省益陽市 413000)
隨著智慧校園的建設,高校教學科研等各類應用中累積的大數據呈指數級規模增長,高校大數據蘊含著大量有價值的教改、科研、創新信息,必將在高校教學科學研究與實踐中發揮重要作用。
高校大數據既包括信息化建設以來,高校各部門信息系統中的結構化數據、文本,也包括與高校相關的社交媒體、網頁、移動端所產生的非結構化數據。這些數據缺少統一的數據處理平臺。在高校建立大數據收集與服務平臺,以服務為核心,通過機器學習算法分析出高校大數據中的有價值的信息為國家高等教育提供決策依據,為師生提供更智能的信息指導服務,是高校優化資源配置、增強人文氣質、提升國家高等教育核心競爭力的重要保障。
數據倉庫之父BillInnmon 最早提出了大數據的概念,《The definitive guide》將大數據真正定義為一個詞匯。維基百科對大數據的定義如下:數據集大小與復雜性無法通過現有的數據處理軟件及集成開發環境,有效地進行組織、存儲、管理和處理的數據集。一般地,大數據具有4V 特征:
(1)巨量(Volume);
(2)多樣(Variety),數據不再是單一結構化,更多的是半結構、非結構化;
(3)快變(Velocity),要求數據到達的速度快、實時響應速度快;
(4)價值(Value),這種價值往往是隱含的,需要挖掘的。
此外,最近IBM 還提出了大數據的第五個特征,即真實性(Veracity)。
高校范疇內的各類數據構成了高校大數據,其形式上可以是結構化、半結構化、非結構化等,各種結構的大數據中蘊含了豐富的社會科學及自然科學各門類教學科研信息與應用實踐信息。
高校在數字化建設過程中建立了各種信息管理或處理系統,這些各自獨立的縱向系統產生了大量的結構、非結構數據,如文本類文檔、日志等。此外,互聯網及物聯網技術支持的網絡和終端,也動態產生著大量高校數據。從數據結構角度看高校大數據大致分兩類:第一類為七八十年代數據庫技術流行以來,高校關系數據庫中累積的關系數據;第二類為高校一些非關系系統、移動終端所產生的半結構、非結構化數據。
高校大數據處理具有如下特點:
(1)數據加載速度快。向系統快速加載數據才能滿足高校大數據實時類服務快變的需求;
(2)系統集群易于水平擴展。根據需求靈活的擴展集群,既可以隨時滿足大數據系統的數據增長與處理需求,又可以控制成本;
(3)支持基于機器學習算法的多維度查詢。大數據時代下的用戶對于簡單查詢的需求并不多,更多的需求是復雜度更高的基于推薦、預測等的決策分析查詢,如專家系統;
(4)實時處理??焖賹Π钚聰祿臄祿龀龊侠淼貙崟r挖掘與更新分析是大數據存儲與處理的共同目標,也是兩者的瓶頸。
為了更好地挖掘高校大數據中蘊含的價值,基于高校大數據分散存放在高校各處獨立縱向數據處理系統,缺乏統一的存儲平臺的現狀,本文對高校大數據集成與服務平臺系統展開研究與設計。
目前,國外高校大數據的研究可以總結為五大主題:
(1)技術環境研究。
(2)數據挖掘及應用。
(3)高校應用研究。
(4)用戶研究。
(5)開放資源與個性化教學。
國內高校大數據的研究也可分為五大主題:
(1)高等教育教學改革。
(2)教學模式研究及應用。
(3)高校專業個性化學習研究。
(4)人才培養模式研究。
(5)教師發展分析與合理化推薦。
國外高校大數據分析側重應用研究,同時研究通??梢赞D化為實際應用,如美國將高校數據應用到醫療、保險、戶籍等方面。而我國對于高校大數據的研究側重于理論層面的探索以及對國外案例介紹,應用研究相對不足,處于起步階段,高校大數據生態尚未形成規模。
針對國內高校大數據分析與服務方面的不足,高校大數據研究應該從智慧校園建設入手,為數據挖掘與分析創造充分條件。將高校范疇內眾多軟件系統融入到校園云,實現高校實時數據的收集、清洗、存儲和分析,開展基于分布式存儲的大數據服務,實現教學、科研、產業的科學化、智能化管理。
同時,利用大數據技術創造大數據學習實驗環境,通過虛擬實驗室、虛擬仿真平臺、及各類仿真實訓系統,使學生增加課程學習的深度與廣度,學以致用。
高校大數據統一存儲平臺多采用分布式文件系統HDFS 搭架。HDFS 將海量數據存儲在廉價計算機集群上,節約成本的同時又能保證數據的安全可靠。
分布式集群由命名節點(NameNode)和數據節點(DataNode)組成。命名節點負責數據文件的空間名稱管理以及客戶端交互操作,數據節點負責存儲數據。命名節點將數據文件分塊分配給數據節點存儲。HDFS 默認采用3 副本形式進行存儲,分放在多個機架(Rack)上。若集群中某數據節點發生故障,系統直接將副本拷貝過來就可以恢復故障節點數據,因此系統穩定可靠?;贖DFS 的高校大數據集成與服務平臺模型如圖1 所示。
高校大數據集成與服務,研究的內容涉及(以課程體系服務為例):
(1)基于高校各類大數據,構架適合高校實際情況的大數據集群實驗平臺。常見的平臺實現方案有:Hadoop 集群;Spark集群;Hadoop 集群分布式存儲+Spark 分布式運算框架。其中Hadoop+Spark 集群存儲與運算框架適用于高校大數據成本規模,并且基于內存的并行運算比Hadoop+MapReduce 速度快數十倍。
(2)高校各類大數據特征、收集方案及其分布式存儲;實現高校現有各類結構化、半結構化與非結構化數據到大數據實驗平臺的復制以及流數據存儲功能。
(3)研究高校大數據服務(課程服務為例)的特征與需求。
(4)研究基于鄰域推薦算法、基于內容推薦、基于關聯規則等各類機器學習算法,分析比較各種推薦方法的特點研究確定推薦算法組合思路,設計適用于高校大數據服務(課程服務為例,設計并實現課程體系服務中的選修課程推薦/參考書目推薦)的混合算法,并考慮算法改進;
(5)學習研究各類大數據可視化庫,確定適用于高校大數據服務(課程服務為例)的可視化工具;
(6)對高校大數據收集與服務平臺及其分布式存儲系統開展安全性研究。
(1)數據存儲與計算解耦模式。大數據計算與存儲是解耦的,數據與計算不必在同一位置,這樣的系統更靈活、資源利用率更高、成本更低,也更適用于高校的實際經濟成本情況。
(2)高校大數據服務與大數據課程實驗結合的復合平臺。設計實現的平臺系統既可以實現高校大數據收集與服務,也可以做為大數據課程體系實驗平臺為專業學習提供服務。
(3)大數據分布式存儲的安全性研究。根據高校大數據的特點,開展適合高校具體情況的分布式存儲系統的安全性規劃與設計。
(1)Linux+Hadoop 構架分布式存儲集群。Hadoop 最主要在Linux 操作系統環境下運行,并且適用于需要成本控制(例如高校)的大數據存儲環境,使用Linux+Hadoop 可以實現穩定而易于擴展并且造價低廉的集群平臺與分布式數據存儲;
(2)Spark 分布式計算框架。Spark 是基于內存、具有彈性的分布式集群運算框架,用來分析項目中的大數據服務,速度快。
(3)Eclipse+Python+Spark 大數據服務(以課程服務為例)開發。Eclipse 是很受歡迎的跨平臺的開發框架,具體地Spark 大數據服務應用程序通過在Eclipse IDE 中加載插件支持Python Spark 應用程序開發,Python 語法簡潔、開發效率高,可以高效完成基于機器算法的課程體系服務開發任務。
系統體系結構分為終端接入層、應用服務層與底層資源架構層。
用戶使用個人微型計算機、筆記本、瘦終端、平板電腦、智能手機等接入節點接入系統。

圖1:高校大數據集成與服務平臺
資源推薦服務可以是課程資源搜索、課程資源推薦、以及用戶訪問教學資源統計等。以課程服務為例,可以向用戶進行課程選修、圖書借閱等個性化推薦并收集用戶評分,訓練改進服務算法。業務應用層中的用戶訪問的數據資源分布在分布式文件系統HDFS 上,根據高校大數據應用需求部署安裝大數據生態軟件包(如Hive、HBase、Flume、Azkaban、 Sqoop、MySQL 等);
將一臺物理服務器虛擬抽象為若干邏輯計算機,用戶面對一臺終端就像使用本地機器一樣,感受不到區別。在同一臺物理服務器上同時運行多臺邏輯計算機,每臺邏輯計算機獨立運行在不同的操作系統下,即可以有效隔離資源,又可以提高集群節點工作效率。
本文圍繞高校大數據,研究了在高校大數據收集與服務系統的特點、開發框架與系統體系結構。今后的研究可以圍繞各類高校大數據算法的效率比較,混合算法的參數設置,加權處理等方面開展。