任 祎
(陜西學前師范學院,710100)
“大數據時代”從2012 年以來逐漸成為信息技術領域的關鍵詞匯,目前互聯網上信息量的增加速度越來越快,數量龐大,結構復雜多變,可以稱之為海量數據。這就對整個社會如何合理高效地管理信息,利用信息提出了新的要求。在這種背景下,高校也不可避免的面臨大數據時代,因為信息系統的數據量和數據結構會產生驚人的改變,在“大數據”時代高校需要切實提高對日益增長的教育資源的處理能力,因此有機遇,有挑戰,更有壓力,我們必須理性地認識大數據。
大數據”在互聯網行業指的是這樣一種現象:互聯網在日常運營中生成、累積的用戶網絡行為數據。這些數據的規模是如此龐大,以至于不能用G 或T 來衡量,無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合。
大數據的典型特點如下:規模性(volume)、多樣性(variety)、高速性(velocity)、價值性(value)。大數據的數據體量巨大數據類型繁多。包含結構化、半結構化以及非結構化的數據,其中半結構化和非結構化數據的比重越來越大。大數據的數據處理速度快,遵循“1 秒定律”,可以從各種類型的數據中快速獲得高價值的信息。大數據的價值往往呈現出稀疏性的特點,價值密度低。以視頻為例,在不間斷的監控過程中,一小時的視頻,可能有用的數據僅僅有一兩秒。因此大數據還有一個顯著特點就是在數據處理方面更加艱巨和復雜。
高校信息化建設對于高校來說是學校事業發展不可或缺的重要部分,學校的教學、科研、管理、學習等諸多方面都離不開信息化,但是信息化建設的技術更新快、業務變更多、新技術不斷出現、應用系統不斷更新發展。在大數據背景下,高校里學生的學籍、選課、成績、借書、上網、論壇、微博還有教師的基本信息、上課課件和視頻、遠程教育課程等等也會產生大量數據,還有設備、機房和圖書等信息等等都會產生大量數據。
云計算是大數據的基礎平臺,它在數據存儲、管理和分析方面給大數據起支撐作用,目前各個高校都在建立或者籌備運用云技術的第二代數字化校園,通過云技術組建高校數據業務云中心(圖1),利用云計算技術為各業務系統提供數據服務。此服務體系中,各類計算
資源和業務資源高度集中,用戶無需了解提供服務的來源和實現的過程。當用戶有數據要求時,只需在數據云交換平臺的框架下提出數據服務請求,相關業務云將返回數據,用戶綜合所獲數據就能得到結果。所以在面臨大數據挑戰的情況下,首先的要務就是建設以云技術為核心的高校數據中心,實現教學資源的充分利用以及教學模式教學方法的推陳出新。
傳統的校園業務系統于缺乏統一規劃, 數據標準不一致,信息關聯度極差,部門之間很難實現業務協同。工作效率,工作質量都不能令人滿意。所以建立基于云技術的數據中心的優勢就在于數據整合,通過業務集成來實施信息集成,降低各系統間耦合度,增強業務系統間的協作能力,通過建立統一的數據標準,遵循數據互操作規范協議,組成數據服務云,向其他信息系統提供數據服務。通過數據遷移,數據轉換,共享等手段,把舊有數據重新整合起來,徹底消除高校信息化建設中存在的信息孤島以及信息碎片化現象,提高數據的使用率。例如,教務處需要查詢某教師的實際授課情況,就可以向數據中心提出請求,從相關系統中調出數據,如所帶班級成績,到課率,好評度,授課方式,課時完成率等等,經過自動分析,按照規范返回查詢結果。
數據整合的結果就是數據的存儲量與日俱增,在這種情況下,傳統數據存儲方法已經明顯不能適應。隨著學校的快速發展,這種問題越來越凸現出來,面對類型繁多,數量巨大的數據,必須考慮如何高效的壓縮數據。云存儲是(Cloud STorage)是在云計算(Cloud Computing)概念上延伸和發展出來的一個新的概念,它是指通過集群應用、網格技術或分布式文件系統等功能,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。它是建立新型數據中心必不可少的一個環節,具有容量大、性能高、可靠性好、協同優良的優點。
建立新型數據中心,加強數據整合和存儲將帶來大量的可以利用的數據,如何使得這些數據真正起到重要作用是高校信息化建設的另一個重要領域。在數據處理分析階段主要應用Hadoop 大數據處理平臺,其總體架構如圖2 所示
首先通過數據采集手段,將需要的數據整合起來并存儲,通過并行計算框架,優化并行分析算法如M ahout、R 語言等,同時采用大量服務器進行分析,排除臟數據,重復數據,提高效率,然后將合理的分析結果反饋回業務系統。
良好的數據分析會提高高校對于數據的實際利用能力,通過對數據的挖掘分析,得出真正有價值的數據,結合數據反饋回來的信息,我們可以在教學、科研、管理等多方面加以利用。如教學方面可以對老師的代課情況,課時的分配情況,教學資源利用情況以及各種教學方式對教學的影響加以整理分析,得出最優化的教學方法,提高教學質量;學生管理方面可以對學生在校的學習情況,畢業去向等多方面加以分析。幫助學校根據需要對學校的專業設置、專業發展做出良性改變;科研方面,可以利用大數據里海量的科研信息,加強自身的科研實力,學習先進的科研技術;管理方面可以分析各類制度的執行情況,優缺點,對于學校發展的影響等等,幫助學校制定更為合理的制度,從而全面提高學校的建設水平。
數據安全是一個長久話題,當數據量越來越大,尤其是倡導開放、靈活和共享的大數據時代,更是至關重要,數據的破壞、篡改、泄露都會給我們造成嚴重的不良影響和損失。在云數據中心建成后,數據安全防護的重點是具有高價值的數據資產,比如學生、教師的各類隱私信息,財務、資產方面的重要信息等,需要圍繞數據的產生、使用,傳輸,存儲等方面考慮數據安全體系的構建。首先是加強數據標準化建設,加快數據安全處理的效率,針對數據在業務系統中運行的不同階段設置針對性的防護措施,做到有效的保護;其次是加強和改進網絡層、傳輸層和用戶層的安全策略,如網絡傳輸加密技術,可采用IPSecVPN、SSL 等VPN 技術提高用戶數據的網絡傳輸安全性,加強網絡層數據辨識智能化和本地系統的相互監控協調,同時杜絕非常態數據的運行,保證數據的完整性和可靠性;再次是利用數據檢索識別技術(如HP Autonomy)對數據進行有效的自動化識別,提高對臟數據,垃圾數據的鑒別能力,根據數據來源和存在方式進行特征分析,建立數據分類、分級策略;最后是加強對人為因素影響的控制,加強用戶訪問的權限和范圍,加強內部管理的監控制度,制定適應新技術新環境的管理制度,應急制度等。當然這不是一步就能徹底解決的,既要考慮實際需求也要考慮高校現狀,做好安全防護體系應該遵循“循序漸進,持續改進”原則,真正實現管控并重的安全體系建設思路。
在大數據背景下的高校信息化建設給高校的發展帶來的巨大的變化,為了更好的融入到大數據時代,高校必須建立新型的以云計算為基礎的數據中心,要善于利用大數據平臺進行交流和發展,要開拓新的思路來適應新技術帶來的變革,另外要加強專業人才的培養,尤其是數據分析和挖掘,這是大數據的本質,只有這樣才能真正把數據轉換為高校的最有價值資產,從而促進高校的全面發展。

圖1 高校云數據中心

圖2 Hadoop 數據分析架構
[1] 陳婕.高校數據中心發展戰略探討[J]電腦知識與技術2013 年01 月
[2] 桑慶兵. 大數據在高校的應用與思考[J]南通紡織職業技術學院學報(綜合版)2013 年6 月
[3] 高洪.楊慶平.黃震江.基于 H adoop 平臺的大數據分析關鍵技術標準化探討.大數據與云計算標準研究專題 2013 年5 月
[4] 劉中宇.劉海良.大數據時代高校云資源應用[J]現代教育技術 2013 年第7 期