
摘要:高校業務系統數據資源的結構、內容以及數據利用價值還不夠清晰,尚未真正發揮應有作用。以筆者所在高校為例,本文介紹基于Hadoop的“智慧校園大數據平臺”的數據建設方案。文章根據學校現狀提出適合高校信息化建設的數據治理方案,主要通過Hadoop分布式系統架構為大數據存儲提供底層支撐,通過共享數據中心存儲權威數據,通過智慧校園大數據平臺實現數據流調用和共享,為大數據分析和決策提供依據。
關鍵詞:Hadoop集群;智慧校園;共享數據中心;大數據平臺
引言
高校業務系統與校園信息系統緊密結合,形成了海量數據資源,但這些數據資源的結構、內容以及數據利用價值還不夠清晰,對信息共享、處理涉及多個系統之間的協調時,需要整合多個系統的數據、資源,處理跨數據庫、跨平臺等多方面的工作,數據流程容易產生混亂,尚未真正發揮應有作用。需要形成統一的數據服務鏈,構建數據倉庫,提高數據可視化監控能力,為上層應用提供數據服務[1]。同時,在高校信息化建設的過程中,學校各業務系統所產生的數據都是以結構化數據為主,但在教學過程中產生大量的非結構化數據,如在線課程資源、學習行為軌跡數據、上網行為數據等。為探索有效解決以上問題,實現智能預測、智能輔助決策與管理的高校智慧校園,以筆者所在高校為例,本文引入高校“智慧校園大數據平臺”的概念,平臺充分兼顧各種數據源類型的集成、治理和可視化要求,提供統一集成和共享服務。
1. 高校大數據治理與建設目標
平臺架構的設計需要充分考慮其先進性并且可以落地實施,能為學校下階段的發展提供有力支撐,建立數據生產、數據治理、數據開發以及數據應用的閉環數據生態,建設高校權威數據中心,明確數據利用價值,為大數據分析提供基礎。建立數據收集、存儲、處理、分析和使用等方面的規范,包括數據訪問權限、數據質量評估、數據備份和恢復等措施。
高校數據治理與建設的一般目標如下:
(1)統一數據標準,沉淀公共數據。智慧校園大數據平臺可以將散亂的數據整合起來進行統一管理,使得數據更加全面、準確、可靠。這有助于提高數據質量和可信度,從而為大數據分析應用打下更加穩定、精準的數據基礎。
(2)實現快速數據處理。智慧校園大數據平臺可以利用分布式計算技術和并行處理技術,加快數據處理速度,這對于需要快速響應的大數據分析應用非常重要,可以大大提高數據處理效率和分析速度。
(3)保障數據安全。治理后建設的智慧校園大數據平臺可以實現對數據的安全保護,包括數據權限管理、數據備份與恢復、數據加密等功能,可以有效地防范數據泄露和數據損失風險。
(4)實現數據共享與協作。智慧校園大數據平臺可以建設共享數據中心,通過共享數據中心、角色授權、API接口等提供多用戶協同工作環境,支持不同用戶之間的數據共享和協作,這對于開展大規模跨學科、跨部門合作研究非常有益,可以加速知識創新和科學進步。
(5)探索數據挖掘與分析。可以集成各種數據挖掘和分析工具,如機器學習、數據可視化等,幫助用戶更加深入地挖掘數據的內在規律和價值,發現新的知識和洞見,從而為科學研究和教育教學服務。
2. 基于Hadoop的校園大數據平臺整體架構設計
以筆者所在高校為例,介紹本校“智慧校園大數據平臺”的核心架構。基于Hadoop 生態集群以構建底層服務支撐,以各種可視化圖形的方式呈現給各類業務人員,滿足不同角色用戶的需求,實現數據價值。
2.1 整體架構
整體架構設計需要充分考慮其先進性并且可以落地實施,能為學校未來五年的發展提供有力支撐。基于共享數據中心建設的大數據生態鏈,以現有各類業務的數據為底層支撐,將智慧校園相關數據采集到Hadoop集群中進行分布式文件存儲,具體如圖1所示。通過建設共享數據中心,構建大數據生態鏈,對資源進行整合和業務流程優化,通過分布式文件系統 Hdfs對多維數據進行關聯、分類、降維、聚類分析與可視化呈現。
2.2 數據源層
當前高校信息化建設中,各應用系統建設以業務需求為導向獨立運行,同時安防監控、在線課程資源、上網行為等非結構化數據資源在智慧校園建設中的作用已經體現。為實現智能預測、智能輔助決策與管理的高校智慧校園,建設權威的數據管理平臺須首先確定數據來源,形成有效的數據資源,為各類業務或決策系統服務。數據來源應包括現有業務系統的數據(如教務、科研、人事等)、職能部門數據、師生用戶行為軌跡數據、日志數據等。數據源層集成新的本地數據、網絡數據,開發智能填報系統采集臨時、零散數據,完善信息標準、深入數據治理、提高數據質量及數據安全、為建設校級全量數據中心打好基礎。同時在數據處理過程中須結合教育部標準,制定規范,設計校級的數據標準,對結構化數據、非結構化數據、流數據須進行標準化轉換,分類管理。
2.3 數據存儲模塊
運用云計算技術,采用 MapReduce算法和HDFS分布式文件系統,建立分布式數據庫 Hadoop集群系統,為師生提供在線的數據存儲服務,采用 hdfs、hbase 和 sqoop 對數據進行存取,其中hdfs已成為大數據磁盤存儲的事實標準,主要應用于海量日志類大文件的在線存儲。 數據存儲層借助于Hadoop的MapReduce模塊將數據批量寫入HBase分布式數據庫中,Hadoop計算機集群的架構為主/從部署架構,也就是Master/Slave部署架構[2],使用一個管理節點、多個子節點的方式,保證數據的安全性和可靠性,實現數據的冗余存儲。各業務數據經采集、清洗后存儲于共享數據中心,形成權威的數據存儲倉庫。共享數據中心采用數據分區設計,如緩沖區、核心區、主題區等。一方面,對不同類型數據進行區分,保障數據體系的劃分清晰和區域內部的靈活擴展;另一方面,根據不同的數據分區內數據特性的不同,可以設置不同的安全和訪問策略。
2.4 數據接口模塊
數據接口模塊承擔連接不同源頭和目標業務數據的任務,并將其以一種可接受的格式傳遞到目標位置。該模塊還負責數據清洗、轉換和處理等任務,確保數據的準確性和一致性。常用的數據交換技術有ETL、ELT和Data Virtualization。ETL技術將數據從源系統中提取出來,經過轉換之后再加載到目標系統中;ELT是在將數據加載到目標系統之后再進行轉換;Data Virtualization技術允許用戶在不將數據物理移動的情況下,通過虛擬視圖訪問分散的數據源,允許用戶對多個數據源進行聯合查詢,并將結果組合成一個單一的虛擬表。該模塊支持為場景化應用開發提供基于HTTP的API數據服務接口,并提供各個API開發規范文檔,便于用戶或開發商基于API接口數據場景應用,在具體的模塊功能設計中,數據接口模塊的設計還應考慮支持腳本化開發、勾選式開發、服務化開發等功能。
2.5 大數據分析模塊
大數據分析層在Hadoop的Map Reduce編程模型上,構建各類數據分析包,對提交的學生大數據進行分析。例如,筆者所在學校在大數據共享與分析的基礎上實現了基于人臉識別的晚歸預警提醒、陌生人員入侵校園提醒、可疑人員行為軌跡查詢,提前對學生的學業和狀態進行有效干預,防止意外發生[3]。基于Hadoop構建的大數據共享服務,實現了教師工作量基礎數據的采集,從人事、教務、學籍等各個業務系統中抽取、清洗獲得有效數據,進行分析、轉換,為教師工作量計算和考核提供了智能化的服務,真正意義上做到了讓數據跑起來、用起來,方便了學校的管理。
2.6 數據流向服務設計
從數據流的應用設計來看,共享數據中心主要以業務系統應用為主,供業務人員使用,而各業務系統又可以提供基礎數據、輔助數據和中間件服務,各業務系統通過數據交換中間件服務實現了與共享數據中心平臺之間的信息共享和交換。此外,各業務系統數據又可以下行至共享數據中心,與其他業務系統共享數據。業務子系統既是數據的提供者,也是共享數據的受益者。相關業務系統可以把數據提供給共享庫,如迎新工作可以提供學生信息,其他業務系統可以通過共享庫獲取數據。
3. 技術架構設計
3.1 數據訪問接口API設計
智慧校園大數據平臺通過數據訪問接口API訪問共享數據中心,為用戶和不同業務提供數據共享服務,可提供多用戶協同工作環境,支持不同用戶、不同業務之間的數據共享和協作。筆者所在高校共享數據中心設計通過API來提供數據服務,方便校內各業務快速獲取所需數據,同時也增加數據中心的曝光度和影響力。在設計API之前,可按以下步驟進行:(1)明確API的需求和范圍、涉及功能,明確目標用戶以及需要共享與保護的數據范圍;(2)根據需求和范圍設計API的調用方式、返回數據格式等;(3)設計API的架構和協議,同時考慮安全性、可擴展性、易用性等因素。例如,選擇RESTful API架構,并采用HTTPS協議進行通信,可以提高API的安全性。
3.2 Hadoop集群部署
Hadoop集群是一個分布式的計算平臺,可提供海量數據的分布式存儲、分布式計算和分布式管理功能。Hadoop集群基于 MapReduce開發框架,集群的數據存儲、數據處理、資源管理和任務調度等功能于一體,把任務劃分成多個小任務,將這些任務通過 MapReduce計算框架中的 map函數將數據分割成小塊后寫入磁盤或文件系統中,并使用 HDFS對數據進行存儲和管理。Hadoop集群可運行在多個計算機上,包括 PC機、服務器和移動終端。分布式計算能降低系統總體擁有成本,同時還能保證數據的完整性和一致性。
Hadoop集群具體來說包含兩個集群:HDFS集群和YARN集群,兩者邏輯上分離,但物理上常在一起。HDFS集群負責海量數據的存儲,集群中的角色主要有:NameNode、DataNode、SecondaryNameNode。YARN集群負責海量數據運算時的資源調度,集群中的角色主要有ResourceManager、NodeManager。
智慧校園大數據平臺采用Hadoop作為數據處理框架,HDFS作為分布式文件系統。本文大數據平臺采用Cluster mode(群集模式)-單節點模式-高可用HA模式部署,該集群模式主要用于生產環境部署[4],會使用N臺主機組成一個Hadoop集群。這種部署模式下,主節點和從節點會分開部署在不同的機器上,由多個節點構成,具體可視高校所要處理的數量大小以及及時性要求所定,1臺作為Namenode主節點,N臺作為Datanode從節點。
結語
借助大數據分析與挖掘技術實現輔助教育教學管理、輔助智能決策,優化改革創新,必須從數據治理抓起,對當前系統進行有效整合,提高數據共享,建設校情分析、跨部門數據共享查詢、狀態數據采集等數據應用,提供能自主設計、管理數據應用場景的工具,形成校級數據應用市場,完善從需求到服務的數據生態鏈,實現全生命周期管理。逐步清晰數據的利用價值,基于數據生態鏈實現信息與業務的相互融合,進一步實現大數據分析展示與智能決策需求。
以筆者所在學校為例,隨著數據治理的進行,共享數據中心逐步投入信息使用中,對學校的數字化校園建設與學校教育教學管理起到重要的作用,真正意義上做到了讓數據跑起來、用起來。利用Hadoop框架分布式文件系統Hdfs和MapReduce,將多維數據進行關聯、分類、降維等分析與可視化呈現,開創了智慧校園教育管理決策科學化、管理智能化、監督過程化的新模式,為教育改革和創新提供支持和指導。
參考文獻:
[1]萬中鈺.基于hadoop平臺下的數據治理系統的實踐及應用[J].長江信息通信, 2021,(11):163-165,169.
[2]胡榮星.高職院校共享數據庫平臺設計——以南京城市職業學院為例[J].信息與電腦(理論版),2019,(7):240-242.
[3]楊嵐.基于Hadoop平臺的交通管理數據存儲系統設計分析[J].九江學院學報(自然科學版),2022,(4):59-64.
[4]夏曼.基于云計算的農產品電子商務平臺的設計與實現[D].南寧:廣西大學,2015.
作者簡介:王冬梅,碩士,高級工程師,研究方向:大數據分析。
基金項目:南京城市職業學院2020-2023年度校級課題——高校智慧校園大數據采集與分析研究(編號:KY202016)。