趙亮


(錦州醫科大學 公共基礎學院,遼寧 錦州 121000)
[摘 要]隨著信息技術的不斷發展應用,高校數字校園、智慧校園工程的持續建設,高校校園環境中存儲的各類數據數量急劇增加,一個高校校園大數據環境已初步形成。建立基于Hadoop技術的高校校園大數據系統,可采集、存儲、處理校園大數據環境中的各類數據,能夠為高校教學和管理提供可靠的數據支撐。基于此,本文分析了基于Hadoop的高校校園大數據系統設計。
[關鍵詞]大數據;Hadoop;高校
doi:10.3969/j.issn.1673 - 0194.2017.10.142
[中圖分類號]TP333 [文獻標識碼]A [文章編號]1673-0194(2017)10-0-02
大數據(Big Data)又稱為海量數據(Massive Data),數據科學家維克托·邁爾·舍恩伯格和肯尼斯.庫克耶在所著《大數據時代》中,指出大數據不采用隨機分析法而應對所有數據進行分析處理。研究機構Gartner則提出大數據是一種具備多樣化、高增長率的信息資產,在新型處理技術、處理模式下能夠實現更強的流程優化效率、提供更科學的決策依據,且大數據具有大量、高速、多樣、價值和真實性的特點。高校校園中存在多類大數據,通過信息化手段的采集和數據挖掘,能夠體現出巨大價值,這在傳統的高校校園教學和管理中往往被忽視了。設計構建高校校園大數據系統,有助于當今信息時代高校校園大數據的采集、存儲、管理乃至應用,是相關教育和科研人員正在進行的研究之一。
1 高校大數據環境現狀
當下高校校園大數據環境已初步形成,各類校園數據來源廣泛、類型復雜、數據量龐大。以高校學生為例,高校學生的大數據可以分為兩大類,一是學業大數據:其包括高校生的選課數據、每門功課的出勤數據、各門功課的平時測驗和考試成績等數據;二是生活大數據:其包括門禁卡通行數據、圖書館閱覽數據、校內超市消費數據,甚至包括學生的微信、微博等數據。大規模數據集和多等級數據質量對高校校園數據的存儲、分析、研究、應用提出了挑戰。傳統的管理理念和方法漸漸無法滿足日益增長的數據處理需求,設計和構建基于Hadoop的高校校園大數據系統,以用來采集、存儲、處理高校校園中的多類數據,并通過數據挖掘和數據分析,為高校教學和管理提供數據支撐,特別是為高校學生的學業、生活提供風險識別和預警功能。
2 基于Hadoop的高校校園大數據系統設計
2.1 Hadoop
Hadoop由開源組織Apache基金會開發,是一個分布式系統基礎框架,它能夠實現在多硬件集群上運行應用程序,組成具有高性能、高可靠性、高擴展性、低成本的并行分布式系統。Hadoop由多種元素構成,其三大核心技術包括分布式文件系統(Hadoop Distributed File System,HDFS),用于存儲集群硬件中的文件;編程模型Map Reduce,用來處理多種數據集合;分布式數據庫HBase。利用Hadoop的分布式技術,設計構建高校校園大數據系統,能夠實現對高校學生的大量多類數據進行存儲、分析和高效處理,進一步推進高校智慧校園建設的進程。
2.2 高校校園大數據系統設計
2.2.1 高校校園大數據系統總體框架
基于Hadoop技術的高校校園大數據系統的總體技術框架,可將系統分為三層,其中大數據采集與存儲層應用HDFS文件系統,校園數據分析層應用Map Reduce計算模型,數據源層、大數據采集與存儲層的數據抽取,對接需要開發適合的底層適配接口模塊,用來采集高校校園大數據環境中的多類數據。基于Hadoop技術的高校校園大數據系統總體框架,如圖1所示。
基于Hadoop技術的高校校園大數據系統分為數據源層、大數據采集與存儲層和校園大數據分析層。
數據源層用來采集數據,包括學業數據和生活數據,其中學業數據包括學生自然情況數據、選課數據、出勤數據、平時測驗成績數據、考試成績數據;生活數據包括一卡通數據(門禁卡通行數據、圖書館閱覽數據、校內超市消費數據)、微博、微信等媒體數據。
大數據采集與存儲層通過數據共享接口獲取數據源層提供的各類數據,校外數據需要開發商提供開放接口才能獲取。大數據采集與存儲層對收集到的數據進行抽取、轉換和存儲。
大數據分析層在Hadoop的Map Reduce編程模型上,構建各類數據分析包,對提交的學生大數據進行分析。從學生近些年的數據信息中得出學生的學業情況,對異常數據進行判斷、分析和預警,為高校教學和管理人員及時關注學生、制定針對性教學策略、幫助學生全面、健康發展提供決策依據。
2.2.2 功能設計
基于Hadoop的高校校園大數據系統,使用Java語言編寫后臺代碼,分層設計預留多個擴展接口,方便后期添加新的校園大數據功能。前臺使用B/S模式采用ASP.NET語言開發,對分析結果進行展示。基于Hadoop的高校校園大數據系統的功能架構如圖2所示。
基于Hadoop的高校校園大數據系統具體功能架構分為以下3個部分:分析結果發布層、大數據分析層、管理功能層。分別提供公告和查詢等數據分析結果的發布功能;學生個體關注、歷史分析、實時分析的大數據分析功能;多用戶管理和數據管理的管理功能。
3 結 語
隨著信息技術在高校校園中的進一步應用,智慧校園工程的持續建設,高校校園教學和管理理念的不斷發展,高校校園大數據環境一定會愈加完善。建立基于Hadoop技術的高校校園大數據系統,能夠使原本被忽視的重要數據變廢為寶,通過科學合理的大數據管理和大數據挖掘,能為高校教學管理人員關注學生學業和生活提供數據分析依據,也能為高校制定教學管理方針提供可靠的據數據支撐。
主要參考文獻
[1]李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015(1).
[2]張蘭廷.大數據的社會價值與戰略選擇[D].北京:中共中央黨校,2014.
[3]孫丹.基于TOE-RBV理論的大數據采納影響因素的實證研究[D].青島:中國海洋大學,2015.
[4]崔杰,李陶深,蘭紅星.基于Hadoop的海量數據存儲平臺設計與開發[J].計算機研究與發展,2012(z1).
[5]王格芳.某金融系統海量數據并行處理架構優化設計與實現[D].北京:中國科學院大學,2014.