夏吉安,林曉軍,胡光永,余俠蕓,劉向東
(1.南京工業職業技術大學 計算機與軟件學院,江蘇南京 210023;2.浙江華為通信技術有限公司,浙江杭州 310051;3.深圳市商湯科技有限公司,廣東深圳 518000)
隨著數據科學和云計算等信息科學的快速發展,我國大數據學科和相關產業也得到了迅猛發展。國際數據公司(IDC)2021年8月發布的《IDC全球大數據支出指南》,預測全球大數據市場在2025年將超過3 500億美元,并且在未來5年將實現約12.8%的復合增長率。我國“十四五”規劃提出“實施國家大數據戰略”,加速推動數字產業化,推進產業數字化轉型,這為大數據產業發展提供了巨大機遇。
2016年,教育部發布了普通高等學校高等職業教育(專科)專業目錄,其中增補了大數據技術與應用??茖I[1]。2019年,教育部在深入推進新工科建設中指出高校應根據產業與經濟發展需求,加大對大數據相關人才的培養[2-3]。目前,全國共有474所高校開設了數據科學和大數據相關專業[4]。
高職院校學生的培養目標定位于技能型大數據人才。與研究型和應用型大學相比,高職院校需要結合當地產業經濟的發展和企業的實際需求進行大數據人才培養[5-6],培養具有較強實踐操作能力的專業技能型建設人才,能夠有效滿足企業一線崗位需求,能夠對大數據行業領域發展產生直接影響[7-9]。目前,大數據相關技術已在我國數字產業經濟中得到廣泛應用與發展,現在已經被應用于電力系統[10]、軌道交通[11]、油田保護[12]以及風力發電[13]等諸多相關行業。隨著我國大數據相關產業的快速發展,企業單位對大數據運維的人才需求也在持續增加。
大數據運維是大數據技術與應用專業的重要專業方向,針對目前大數據專業教學中存在的問題,結合校企合作項目,構建大數據運維綜合實訓的教學體系結構。通過分析目前大數據產業的發展趨勢,結合企業的實際需求,建立適合職業院校的大數據運維實踐實訓課程,同時在實訓課程中設計在線實驗平臺和在線開放實驗項目。最后在實踐教學中注重培養學生的團隊配合意識、交流溝通以及語言表達能力。
目前IT行業使用的主流大數據技術包括以Hadoop為主的大數據生態圈,主要包括Hadoop、Hbase、Hive、Spark、Redis等組件。大數據運維實訓課程目標是使學生熟悉大數據運維以及Linux操作系統的基本操作;掌握大數據生態圈各個組件設計思想和使用方法,使得學生通過理解大數據組件的底層架構,學會使用大數據運維工具和組件的常用命令、配置方法、參數調優以及常見問題的處理方法。同時學會使用主流大數據運維工具Prometheus、Granfa的配置與使用方法,構建完整的大數據運維架構,并通過大數據平臺框架培養學生的大數據運維實際應用能力和創新實踐能力。
大數據運維實訓的教學內容包括大數據平臺的搭建,大數據生態圈的相關知識以及大數據運維創新實訓實踐(如圖1所示)。綜合實訓課程通過虛擬機構建大數據物理平臺,使用Linux操作系統,Hadoop作為大數據平臺運行框架,通過大數據運維工具Prometheus、Grafana、HBase以及相關組件,構建一個完整的大數據監控維護系統平臺,并在此平臺上進行大數據運維的實訓實踐教學。此外,在實訓內容之外,設置擴展性實驗,通過使用Nginx和Logstash組件,進一步完善大數據平臺運維工作,擴展學生的大數據運維實際應用和創新實踐能力。

圖1 大數據運維綜合實訓思維導圖
VMWare10.0虛擬機搭建大數據平臺,在大數據平臺中設計三個計算節點。其中一個節點作為Master(主)節點,其余2個節點作為Slave節點(從)節點,如圖2所示。其中Master節點作為命名節點(NameNode),管理大數據平臺的命名空間和進行作業調度,2個Slave節點作為數據節點(DataNode),進行數據存儲和數據計算。大數據平臺的平臺操作系統采用基于Linux的CentOS7。

圖2 大數據平臺結構
通過搭建基于VMWare10.0虛擬機的大數據平臺,使學生理解大數據平臺的基礎架構,掌握Linux操作系統的基本操作,提高大數據平臺構建的基本技能。
Hadoop是目前行業主流的大數據平臺,是大數據生態圈中的核心框架,涉及大數據采集、處理、分析和存儲等多方面的內容,特別是在大數據領域的交叉學科中有廣泛應用。大數據框架實踐教學以校企合作項目作為載體,充分對接企業對大數據應用人才的實際需求,培養具有扎實基礎、高綜合實踐素養的創新型、應用型人才。
在大數據生態圈中,對分布式數據庫的理解和應用是十分重要的環節。HBase(Hadoop Database)是目前廣泛使用的分布式數據庫系統,Hive是分布式數據處理與計算框架,兩者構成了大數據生態圈數據層面的處理框架。通過大數據平臺框架,將分布式數據庫相關知識進行融合和應用,根據企業實際的生產場景,構建分布式數據庫,并在此基礎上進行大數據平臺的具體應用和創新實驗,HBase相關配置如表1所示。

表1 HBase 節點信息
通過使用Prometheus,對于搭建的大數據平臺進行監控,針對大數據平臺的數據進行采集、分析與處理,使學生掌握大數據運維基本知識與技能。在綜合實訓中,根據不同學生的學習基礎,指導教師設計不同的實訓內容與方案,根據實際的項目需求進行教學內容的設計,充分調動每名學生的學習積極性和實際項目的參與度。Prometheus的大數據平臺信息相關配置信息如圖3所示。

圖3 基于Prometheus的大數據平臺信息
通過大數據運維教學采集的大數據平臺數據,使用數據視覺技術進行數據展示,使用數據分析工具進行數據挖掘和數據分析,發現其中未知和異常的數據信息,使學生掌握大數據平臺數據可視化的基本原理與方法。同時,進一步采用自動化監控方式,并通過圖形化界面展示數據分析結果。
對于Prometheus框架獲取的大數據平臺運行狀態和基礎數據,使用Grafana進行圖形化的展示。通過使用安裝與配置Grafana進行數據顯示,使學生掌握大數據平臺數據可視化的基本原理與方法。通過將Grafana和Prometheus關聯,安裝配置Zabbix控件,提供基于WEB界面的可視化服務。在Grafana中添加數據源,采用自動化監控方式,通過3000端口接收大數據平臺監控數據,并通過圖形化界面進行展示,如圖4、圖5所示。

圖4 大數據運維平臺實時運行圖-1

圖5 大數據運維平臺實時運行圖-2
針對對于大數據運維感興趣以及學有余力的學生,設計大數據運維擴展性實驗。進一步使用Nginx、Logstash等工具對大數據平臺進行監控與維護。配置部署Nginx,構建WEB服務器,監控大數據平臺的服務請求,實現平臺網絡負載均衡。使用Logstash進行大數據平臺日志信息的獲取,并將收集的日志信息存儲到大數據平臺的HBase數據庫中。通過擴展性實驗,滿足不同學生對實踐教學的需求,進一步提高大數據專業學生的學習興趣。
大數據運維涉及大數據生態圈中各個領域的知識。在理論教學中,學生無法深入理解和了解大數據學科專業知識和目前的大數據產業發展趨勢及需求,尤其是大數據學科交叉的相關知識,需要較多的知識理解與積累。因此在實訓教學中,設計實驗實訓預習在線平臺,通過線上教學視頻、分解實驗案例、實操手冊和大數據相關參考文獻,引導學生通過線上與線下結合的方式,了解大數據行業的相關知識與發展趨勢,激發學生的學習興趣和創新意識。
對于大數據運維實訓內容平臺設計、大數據生態圈配置與數據可視化等多個方面的內容,每個部分可以采用不同的策略與方法進行設計與實現。在實訓教學中,教師對每個方面的內容,設計多種實驗方案供學生選擇,學生可以根據自己理解與興趣,選擇相應的設計方案進行改進完善。對于選擇相同設計方案的學生,指導教師通過設計團隊成員的工作任務,分配相應的實訓任務,以此發揮各個學生的特長,增強學生團隊協作能力。
在大數據平臺運維綜合實訓考核方式上,首先要反映學生對大數據運維相關理論知識與操作技能的掌握程度,同時需要培養學生語言表達能力與交流的能力,培養適應社會需求的高技術水平大數據人才[14]。在具體的實踐教學中,將學生分為若干項目小組,各小組組成項目團隊,實驗項目由整個團隊統一完成。在課程考核中,選用答辯式考核方式。團隊小組除了完成實訓內容,提交實驗報告外,項目組成員還要參加答辯,由組長負責組答辯,對實訓項目的設計、規劃、成員職責進行敘述,再由各個成員敘述各自完成的部分,同時重點考查各個成員對大數據運維實訓中存在的問題以及如何解決等方面的思考。通過這樣的方式,可以更加有效地反映出學生在實訓課程中對知識技能的掌握情況,也能更好地培養學生的交流與表達的能力。
本文面向高職院校大數據專業學生的實踐教學內容,設計了大數據平臺運維綜合實訓課程。課程內容包括大數據平臺搭建,分布式數據庫部署,大數據運維工具的相關安裝、部署、運行和調試。通過對大數據生態圈框架的使用,培養大數據專業學生的基本操作技能,使用大數據運維工具進行配置、部署、調試,加強學生對大數據平臺運維操作技能的培養。在實訓課程中,學生以小組為單位進行任務分配、團隊交流完成實訓課程內容。通過課程答辯的方式考查學生對基礎知識和操作技能的掌握情況。
此外,針對學有余力的學生設計擴展性實驗,進一步加強學生對大數據運維相關知識與技能的掌握,使學生對大數據相關知識與技術有更加深入的理解與認識。通過對大數據運維綜合實訓教學內容和授課方式的不斷改進與完善,使得實訓課程更加符合職業院校大數據技能型人才培養的目標。