江接寶 王朝暉


摘要:針對《大數據技術》課程中涉及的Hadoop組件搭建實踐教學難開展,提出基于VirtualBox服務器虛擬化技術的實踐方法。在介紹了VirtualBox虛擬化軟件、虛擬機以及Hadoop平臺,通過從關鍵技術與工具介紹、基本工作原理、實踐教學內容與效果三個方面,詳細介紹了VirtualBox服務器虛擬化技術應用于大數據技術課程教學。經過實際班級實踐教學檢驗,該方法方便學生學習Hadoop組件的實踐操作,提高了學生學習積極性。
關鍵詞:大數據;虛擬機;Hadoop;VirtualBox;Xshell;Xftp
中圖分類號: G424? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)35-0107-02
開放科學(資源服務)標識碼(OSID):
國家“十三五”規劃綱要中提出:“實施國家級大數據戰略,推動數據資源開放與共享”,各行各業新建大數據平臺與數據中心,急需大數據相關技術技能人才。各高職院校近幾年新增大數據技術與應用專業,開設大數據相關的課程,其中在各個高職院校大數據實踐教學方面處于探索階段,以前一般是在研究生階段才設置大數據技術課程。大數據技術課程在實踐教學內容設計、教學平臺選擇和教學方法方面面臨較大的挑戰。在大數據技術課程實踐教學中,缺少大數據技術教學案例,實踐學習開展難度較大,實驗環境搭建困難等問題比較普遍。本文提出《大數據技術》課程實踐教學改革,提高課程實踐教學效果。
1關鍵技術與工具介紹
VirtualBox:是一款源代碼免費向公眾開放的開源軟件,該軟件源代碼對公眾透明可見,安全隱患更容易被發現,更容易得到修正與更新。因此,與VMWare虛擬化軟件相比,該軟件更加安全且節約使用成本,可控性高。它可以在Windows、Mac、Linux等操作系統運行與使用,通用性強。它適用于32/64位Windows系統,且主機與虛擬機相互隔離,無關聯性,使用該軟件創建的虛擬機系統可安裝Linux、Unix、Windows等操作系統;在虛擬機中進行的系統安裝與使用不會對原來主機造成任何影響,不影響原主機安全性。可以方便生成與導入OCA鏡像文件,方便案例教學。
虛擬機:指通過軟件來(VirtualBox)模擬一整套計算機硬件系統,該硬件系統具備普通主機完整的功能,在系統上的所有操作均與原主機本身的硬件系統無關,是虛擬出來的一套模擬系統。可以理解為,通過虛擬機,在原主機系統上又增加了一臺主機,并且可以在該虛擬的主機上安裝Linux、Unix、Windows等操作系統,在新按照的操作系統上安裝運行獨立軟件、配置個性化設置、保存操作數據,具有獨立運行環境,在該系統進行的任何的操作,不會對原主機的真實系統產生任何影響。
Hadoop:是目前最流行的大數據教學與生產使用的平臺之一;它最先由Doug Cutting模仿谷歌公司的GFS(文件系統)與MapReduce(計算框架)而設計的一個大數據平臺,后來該項目貢獻給Apache基金會作為開源軟件。Hadoop其實是一個生態系統,包括HDFS分布式文件系統、MapReduce數據處理框架、HBase數據庫、Hive數據倉庫、Spark與Zookeeper協調器等功能模塊組件。目前Hadoop平臺已經支持搭建成幾千臺機器組成的分布式集群,穩定提供大數據計算處理服務。
Xshell:是一款功能強大的終端模擬軟件,它支持SSH1,SSH2與TELNET相關協議。在大數據平臺教學中,支持同時以多個窗口實現多個Linux主機的管理,且支持記住Linux主機的賬號密碼功能,shell命令編寫方便。
Xftp:是一個功能強大的文件傳輸軟件,在大數據平臺教學中,用于將Windows主機的文件安全方便的上傳到在Linux主機,很好地解決Windows系統與Linux系統文件傳輸不方便的問題。
2 基本工作原理
普通用戶在PC機Windows系統上安裝VirtualBox軟件,通過VirtualBox安裝Linux系統虛擬機,在Linux上面安裝hadoop、Hbase、Hive等組件,實現大數據技術實踐操作。其中,Xshell,Xftp安裝在Windows系統上面,Xshell用于連接Linux虛擬機主機、shell命令編寫;Xftp用戶與Linux和Windows PC之間傳輸文件。具體系統架構圖如圖1所示。
3 實踐教學內容與效果
通過10個實驗涵蓋了大數據技術Hadoop生態系統的多個組件的主要實踐教學內容,具體實驗如下表1所示。
《大數據技術》課程涉及相關軟件工具較多,為了讓學生更好地掌握各個工具組件的搭建與使用,可以將每一個實驗完成后,通過VirtualBox導出后綴.ova的鏡像文件。通過VirtualBox可以直接導入鏡像文件,方便學生查看安裝的配置文件或者繼續下一個實驗。在個人PC主機通過安裝VirtualBox軟件,在VirtualBox上面安裝Linux虛擬機,在虛擬機上安裝Hadoop偽分布式平臺,或者在單機上新建3個虛擬機來模擬Hadoop完全分布式高可用的平臺環境。該方法的優點是對硬件環境要求不高,一般內存8G且CPU是i5處理器,既可以滿足實驗環境的條件,適合學生自學練習使用。該方法缺點是單機性虛擬環境下搭建,在整個學習過程中數據處理與調試效率較低,很難體驗到分布式計算提供的高效率。本文中PC機的Windows系統需要在BIOS設置硬件虛擬化支持功能,有些機器默認不支持;虛擬機上面安裝的Linux系統需設置固定IP地址,方便Xshell與Xftp連接操作,不需要每次更換IP;每個實驗階段完成,導出oca鏡像文件。大數據相關技術還包含數據抽取(extract)、數據轉換(transform)、數據加載(load)等內容,在教學內容的設計中,需要根據課程目標、學情分析、學時安排和實驗條件等因素做適當的調整。
4 小結
在高職院校的大數據技術與應用專業的《大數據技術》課程教學實踐中,使用了本文的方法開展教學,對硬件環境要求不高,實踐環節上手難度不大,也適合學生自學使用。針對大數據技術課程的實踐教學改革是一個不斷豐富的過程,在今后的教學實踐過程中我們還需要根據學生的反饋與業界技術工具變更而不斷總結與提升,緊跟行業大數據技術發展方向與就業招聘崗位技能需求,不斷提升教學水平和質量。
參考文獻:
[1] 梁晶,胡新榮.Hadoop大數據開發課程實踐教學研究[J].計算機教育,2020(2):166-169.
[2] 王永坤,羅萱,金耀輝.基于私有云和物理機的混合型大數據平臺設計及實現[J].計算機工程與科學,2018,40(2):191-199.
[3] 王偉,劉偉,崔海波.基于云件服務的新一代大數據工程實訓平臺[J].計算機教育,2018(4):162-166.
[4] 潘竟峰.基于VirtualBox虛擬機技術的信息化教學平臺構建與應用[J].實訓與實踐探索,2019(8): 69-72.
[5] 王焱,吳青林.基于Docker和OpenStack的高校大數據云實驗室構建[J].實驗技術與管理,2019,36(9):254-258.
[6] 羅曉慧.虛擬機技術的應用[J].探索與觀察,2011(7):186-189.
【通聯編輯:唐一東】