■王少亞 河北大學管理學院
Hadoop作為最受歡迎的一種大數據技術,是一個分布式系統的基礎架構,主要由HDFS、MapReduce組成,是一個能夠便捷的開發和運行處理大數據的軟件平臺。HDFS采用Master/Slave架構,由一個NameNode節點和一組DataNode節點組成。MapReduce在HDFS的支持下實現分布式數據處理,也是一種總從的構架。
Hadoop的應用成本低,一方面由于其開源,研發和采購成本遠遠低于商業軟件。另一方面,Hadoop為普通的硬件設備而設計,可以基于異構的廉價硬件來搭建機群,硬件投入成本低。此外,hadoop還可提高數據價值,有利于企業精益管理。例如沃爾瑪通過Hadoop分析顧客搜尋商品的行為,在Facebook、Twitter等社交網站上對商品的討論,從而競爭對手提前一步發現顧客需求,智能規劃下一季商品的促銷策略。
對海量數據深度分析并迅速發現趨勢是Hadoop的另一巨大優勢。Hadoop可以在幾分鐘內處理TB級的數據,在幾小時內可以處理完PB級的數據。Facebook利用hadoop每30分鐘分析一次105T以上的字節。另外,傳統關系型數據庫技術對于絕大多數非結構化數據無能為力。Hadoop可以對海量的結構化和非結構化數據進行批處理,充分發掘和利用數據背后的商業價值,使企業做出更好的決策。
在大數據時代,傳統分析環境規模呈指數增長,縱向擴展系統,即擴展單個節點的能力,在技術和成本上都讓人難以承受。最經濟的解決辦法是橫向擴展系統,即通過增加計算節點連接成集群,并且改寫軟件,使之在集群上并行執行。Hadoop拓展性能非常優秀,可以通過增加更多節點來按需擴展系統,雅虎的集群在2010年已經從2000個節點增加到4000個節點。
Hadoop主要針對離線的、大規模、批量的數據處理,并不是一個實時的在線系統,無法用于實時性要求很強的系統中,如銀行系統。Hadoop也不直接支持復雜的n步n分支數據處理流程操作,因此也不適用于電子商務等交易性系統。
Hadoop進入維護和開發階段,成本就會急劇上升。首先Hadoop構建平臺復雜,需要高價雇傭相關從業人員。再者,Hadoop的應用軟件相對較少,許多數據分析功能需要用戶自行開發,導致使用成本增加。培養開發和運用Hadoop的技術人才也很昂貴。淘寶在2008年建立了hadoop的“云梯”集群,歷經五年,耗費了大量人力、物力、財力。
越來越多的企業開始大規模部署Hadoop,但能夠創建和維護這些部署的IT專業人員在數量上并沒有跟上Hadoop發展的步伐,這是企業面臨的主要挑戰之一。nosqlweekly網站做了一份統計調查,它對SimplyHired.com和Indeed.com兩個招聘網站的招聘數據進行了分析得出,Hadoop的對人才的需求增長最快。JP摩根大通公司總經理玩笑聲稱,他們會提供比eBay高出10%的優厚待遇雇用合格的專業人士。
Hadoop的開發難度很大,源代碼僅僅只是困難的一小部分,還需要有非常強大的工程師團隊,有正確的發布和治理基礎架構的能力。目前幾乎沒有哪家公司能擁有所有這些必須的資源。持續開源可以降低hadoop的進入成本、增強互操作性、實現資源共享。Yahoo表示,他們已經提供了70%的源碼,剩下的30%他們希望可以從別的公司、團體、個人得到。
Hadoop涉及的領域廣泛,開發難度大,需要多方力量合作開發。國外企業在合作領域表現積極,采用收購兼并、合作開發多種方式進行建設,如Microsoft與Hortonworks以及甲骨文公司與Cloudera公司等已經達成合作協議。相比之下,國內的企業間合作就遜色很多,他們采取“各自為戰”、“平地起樓”的建設方式,從基礎層面分頭進行大數據存儲或處理的開發,阻礙了hadoop在國內的快速應用。企業間加強合作,勢在必行。
Hadoop對人才的需求迫切,企業要強化工作人員的大數據意識,培養相應的專業技能,使他們熟悉掌握Hadoop的方法和技術,成為合格的大數據人才。另外,從源頭上解決人才缺乏問題是最根本的解決辦法。高校是人才主要的輸出渠道,因此應適應大數據需求,加強大數據分析方面的教學。
[1]覃雄派,王會舉,王珊等.大數據分析--RDBMS與MapReduce的競爭與共生[J].軟件學報,2012,23(1):32-45
[2]吳金紅等.大數據:企業競爭情報的機遇挑戰及對策研究[J].情報雜志,2013,32(1):5-9
[3]王珊,王會舉等.架構大數據_挑戰_現狀與展望[J].計算機學報,2011,34(10):1742-1752
[4]辛大欣,劉飛.Hadoop集群性能優化技術研究[J].電腦知識與技術,2011,7(22):5484-5486