秦黃,劉曉娟,李滿,劉曉莉
(廣州工商學院,廣東 廣州 518200)
近年來,大數據產業得到了大力發展,數據不再是一串冰冷的數字,越來越多的企業開始重視數據,大學也開始普及數據科學和大數據專業。Hadoop 是Apache 開源基金會開發的分布式系統,由HDFS 和YARM 組成。Hadoop 是采用Java 語言開發的分散計算平臺,適用于大數據領域的分布式存儲和計算,是當前廣泛使用的大數據計算工具。
Hadoop 在大數據領域中具有舉足輕重的地位,是研究大數據技術的基石。從某種程度上說,一個人對Hadoop 基礎知識掌握的扎實與否決定其在大數據技術道路上能走多遠。在生成環境下或者是學習大數據的過程中,經常會遇到因使用場景的不同而應用不同集群配置的情況,若采用傳統的部署方式需要進行很多煩瑣重復的工作,會加大時間成本和生產成本。隨著數據量的不斷增大,原有DataNode 節點的容量已經不能滿足數據存儲的需求,需要在原有集群基礎上動態添加新的數據節點,但是傳統的擴容方式過程煩瑣且容易出錯。
為了實現Hadoop 集群上多節點的快速搭建和便捷的擴容縮容,在本文中我們提出一種基于Docker 容器快速構建多節點Hadoop 集群的引入方案。
現有的虛擬化技術包含容器虛擬化與服務器虛擬化,二者的目標是相通的,目的都是為應用程序建立一個孤立環境,但容器虛擬化技術與服務器虛擬化相比更為輕量。
這是由于服務器虛擬化技術是從操作系統層下手,不像傳統的虛擬機技術那樣虛擬出一套硬件驅動后,在其上運行一個完整的操作系統,對用戶來說相當于使用物理性質的虛擬機。……