Marc Wilczek 陳琳華

端正成為企業加快數字化活動的首選,以下是評估HaaS(Hadoop即服務)提供商時應考慮的事項。
Hadoop為一種基于開放源代碼的軟件框架,能夠跨分布式集群以高吞吐量處理海量的大數據。
幾年前主攻小眾市場的Hadoop如今正進軍主流市場。隨著數字化運動的快速發展,Hadoop提供了充足的應用案例,允許使用普通的商品硬件進行大數據處理。
Hadoop還具有很高的可擴展性,可從單一服務器擴展到多個服務器農場,同時每個集群都能夠運行自己的計算和存儲。Hadoop為應用層提供了高可用性,由于集群硬件可以是現成的,所以它們能夠實現節點輕松互換,從而提高成本收益。“云端化”發展趨勢
雖然早期使用者通常使用的是通過Apache發行版搭建的本地部署,但是目前企業開始逐步加大對云計算的使用。相比之下,自己動手DIY的方法無疑是繁瑣和耗時的。
隨著產品上市時間在數字時代的重要性逐漸突顯,越來越多的公司開始使用迅速崛起并被大量采用的Hadoop即服務(Haas)產品。
從用戶的角度來看,將云作為首選具有重大意義。規?;洕沟脝挝怀杀靖拥土髽I可以提高效率,減少資本支出,同時獲得更大的靈活性。
除了商業利益之外,云還開辟了一系列全新的數字用例,特別是在物聯網環境下和需要實時數據處理的其他場景中。亞馬遜網絡服務的Elastic Map Reduce(EMR)即為該領域的開拓性產品之一。
基本上所有的大型服務提供商都不約而同地在其產品組合中添加了基于云的Hadoop托管服務,而且Hadoop發行版廠商自己也在努力“云端化”他們的框架,其中Cloudera的Altus就是最新的例子之一。Altus允許用戶利用MapReduce上的Hive或按需的Spark運行數據處理作業。市場發展前景
在強大的云需求下,越來越多的公司選擇了Hadoop即服務。HaaS本質上是一個平臺即服務(PaaS)的子類別,它包括虛擬存儲和計算資源以及基于Hadoop的處理與分析框架。服務提供商通常運維一個多租戶HaaS環境,允許在共享基礎設施上托管多個客戶。
據市場研究機構Allied Market稱,隨著越來越多的公司接受了“云優先”思維模式,預計到2020年,HaaS市場的收入將達到161億美元;從2014年到2020年,復合年增長率(CAGR)將達到70.8%。從收入角度來看,北美地區仍然是領先的地區,其次分別是歐洲和亞太地區。
預計到2020年,Haas的爆發將讓本地部署的Hadoop的增長相形見絀。據市場研究機構IDC的研究顯示,公有云部署已占全球業務分析軟件市場的12%,預計其復合年增長率將達到25%。除了大型企業外,中小企業也在越來越多地選擇HaaS以獲得有可操作性的洞察力和創建以數據為中心的商業模式。
考慮HaaS時需要關注的事項
目前已經有了許多HaaS用例,同時也暴露出了一些缺點。將大量數據移動到云端可能會產生延遲問題并且需要額外的帶寬。雖然只需點擊幾下即可方便地部署高度標準化的HaaS環境,但設計權限完全是由服務提供商自行決定。此外,云端上的數據會出現“引力場”并導致用戶被廠商鎖定。以下是評估HaaS提供商時還需要關注的事項:
1.彈性
Hadoop支持適用于各種工作負載的彈性集群,這在考慮基于云的部署時尤為重要。有哪些可用的計算和存儲選項能夠支持不同的用例?例如,哪些額外的“計算刀片”可用于高I/O工作負載?環境的可擴展性如何,以及調用額外資源(計算和存儲)的難易程度如何?
2.HDFS的持續使用
盡管不需要將HDFS作為持久性數據存儲,但在使用它們具有明顯的好處。HDFS使用的是商用直接附加存儲(DAS)并且分擔了底層基礎設施的成本。此外,HDFS可以無縫支持YARN和MapReduce,這使得其能夠本地處理查詢并充當數據倉庫。
3.計費
服務提供商的基本價格指標是什么(按訂單還是按消費進行計費)?如果能力未得到充分使用,退訂服務的靈活性如何?最重要的是,要記住“數據湖”是在快速擴張的,那么價格水平將如何隨著時間的推移而變化?
4.高可用性
實現“零中斷”是一個微妙但卻非常重要的問題。提供商的服務級協議和故障切換理念是什么?冗余是如何實現的?例如,提供商是否能夠在不中斷整個作業的情況下隔離并重新啟動單臺機器(又稱“不間斷運行”)?
5.互操作性
用例往往會隨著時間的推移變得越來越復雜,那么將正在使用或計劃使用的服務集成在一起的難易程度如何?它們支持哪些數據流和API,以及它們的文檔文件完備程度如何?
6.人才需求
雖然與DIY相比,設置Haas環境所需的人力明顯減少,但是Hadoop并沒有完全實現“開箱即用”。雖然節點的運行只需點擊幾下鼠標,但是這只是在實際工作剛開始時如此。定制仍然需要花費時間和精力。