尤元建 黃增建

【摘要】由于信息爆炸時代的到來,信息目前呈級數級增長,因此大數據在各行業應用變得越來越普遍。Apache Hadoop作為一個大數據開源項目得到了廣泛的應用和部署。典型的一個Hadoop大數據平臺包括ZooKeeper、HDFS、Yarn、Hbase、Hive和Impala等應用。在數十臺甚至上百臺節點上部署和監控大數據相關應用是一個繁瑣的任務。本文針對大數據平臺自動化部署和圖形化管理進行了分析與研究,最終實現一個大數據平臺管理系統。
【關鍵字】Hadoop 大數據平臺 部署 配置 監控
引言
隨著時代的進步,我們目前已進入信息時代、云時代。單個企業的信息數據已經突破TB級,達到PB(1024TB)級別。通過傳統的關系數據庫分析這些結構化或者半結構化數據需要耗費較高的人力、物力和財力。
為應對這種場景大數據技術應運而生,大數據技術可以通過構建在廉價服務器上的應用對海量數據進行全面分析,以支持企業決策。
Apache Hadoop是Google大數據技術一個開源實現,具有高擴展性、高效性、高容錯性、低成本以及易于虛擬化等特性,是目前行業事實的應用標準。Hadoop大數據生態圈核心包括Zookeeper、Hbase、Hive、Impala等應用。通過手工在數十甚至上百個節點上部署這些應用是一個非常復雜的工作,需要修改操作系統內核參數、網絡配置以及Haoop本身的參數。本文通過研究、構建大數管理系統來解決這個問題。
一、典型的Hadoop管理平臺
目前典型Hadoop管理平臺主要的代表有:Apache開源項目Ambari,國際頂級大數據公司Cloudera的ClouderaManager以及國內各大數據應用推出的Hadoop管理平臺。
Ambari優勢是Apache的頂級開源項目,易于安裝,簡單易用。但是缺點同樣明顯,缺少技術支持和快速的需求響應,沒有完備的日志系統和用戶、安全管理系統。
Cloudera Manager由Cloudera公司研發支持CDH(Clouderas Distribution Including Apache Hadoop)的管理平臺。Cloudera大數據研發能力和實施經驗豐富,CM從功能、易用性等方面都是行業標桿。
國內大數據應用管理系統能夠快速響應需求,同時能夠緊密結合用戶應用進行定制開發。具有鮮明的特點和優勢。
二、Hadoop管理平臺研究
考慮到Hadoop部署管理的復雜性,一般Hadoop管理平臺需要具有以下幾個功能:自動化部署、配置功能、性能監控、告警功能、日志管理和安全管理等。
2.1自動化部署
Hadoop的自動化部署是首先要解決的問題,有了自動化部署,Hadoop才有可能在大規模節點上部署。目前公開資料顯示國內有達到4000節點
規模的Hadoop應用,手工在這種規模的節點上進行應用部署是個不可能完成的任務。
考慮到服務器為優化性能,可能不安裝GUI組件。因此自動化部署部分需要考慮支持命令行安裝功能。
2.2配置管理
配置部分也是Hadoop必須的功能之一。由于Hadoop各應都有配置文件,而且各應用之間還存在關聯關系。同時和組網、主機IP以及主機名都相關,整個配置關系相當復雜。
其中圖形化配置、自定義配置和配置回滾等功能為配置管理的關鍵功能。
2.3性能監控
性能監控部分主要提取Hadoop組件的性能數據,通過加工后,按照用戶需求進行展示。包括Hadoop應用、網絡及硬件性能。
考慮到管理系統存在和第三方系統對接的情況,性能監控需要提供北向接口。可以是SNMP或者Ftp形式。
2.4告警功能
通過告警功能用戶可以及時發現系統異常情況,進而采取措施,保障系統穩定運行。告警功能需要及時、準確。同時能夠以SNMP、郵件或者短信形式及時將告警信息轉發到相關干系人。
2.5日志/安全管理
日志管理需要提供詳細的操作、運行記錄。以便在出現問題和日常維護中發現和定位問題。良好的日志管理系統可以在運維中起到事半功倍的效果。
安全管理部分主要包括用戶、用戶組管理、在線用戶管理等。同時需要結合Hadoop應用的權限管理,比如任務提交、數據訪問以及資源配額等。
三、Hadoop管理平臺實現
Hadoop管理臺架構示意圖如圖1。
考慮到兼容和易用性,管理平臺客戶端采用B/S(Browset/Serer)結構,支持IE、Chrome和Firefox瀏覽器。
最上層為功能組件層,主要是用戶界面,提供各種管理功能。用戶通過這些功能來部署、監控和管理Hadoop組件。
中間層為抽象的配置、性能和管理功能框架層。功能框架層帶來的好處是通過簡單增加配置文件中的配置項和少許的代碼開發,即可支持新應用的安裝,新指標的監控等功能。
最下層為支撐層,本層和操作系統結合比較緊密,在不同平臺下,實現存在差異。本層提供信息轉換,框架部署以及同代理通信等功能。
代理模塊同Hadoop應用部署在一起,將Hadoop管理平臺發送的信息傳遞給應用,同時將應用的信息返回給Hadoop管理平臺。
四、結語
通過Hadoop管理平臺可以進行高效的部署并配置Hadoop集群,并且不存在規模限制。同時圖形化管理界面上的多種提示信息和正確性校驗輔助手段可以保證配置的正確性和有效性,并能提供集群性能優化參數建議。極大了提高了Hadoop的可用性和性能。
自動化巡檢、升級以及熱點分析等輔助功能需要在后續繼續研究實現。進一步提高Hadoop管理平臺的實用性。