劉紅敏
摘 要本文著重研究了基于Hadoop平臺大數據的分析技術的發展和功能模塊的應用,對關鍵技術進行比較分析,將整體結構框架進行改良,使數據分析平臺在不受場景限制的前提下進行使用。
【關鍵詞】大數據分析技術 計算結構框架 并行分析算法 Hadoop
1 大數據分析平臺的模型結構
雖然在Hadoop中各分析平臺的接口和應用功能單一不同,但它們有著統一的結構框架,如圖1所示。
(1)數據采集不明思意就是采集數據,將數據進行采集整理,進而保存到數據庫里面。數據采集屬于系統外的一部分,但它發揮著不可替代的作用,連接了業務系統和分析系統,使得系統間能夠緊密聯系。
(2)分布式儲存是大數據分析平臺儲存數據的前提,在Hadoop平臺中將HDFS作為儲存的子系統,但并不只局限于這一種,可以作為云儲存系統的有多種。
(3)并行計算框架的利用在很大程度上提高了系統的運算效率,實現了多臺服務器同時進行數據運算,大大的提高了系統分析的效率。
(4)并行分析算法,傳統的分析算法是單一的,要想實現并行計算需要結合基于Hadoop的并行計算方法。經過分析研究,與Hadoop相匹配的算法有多種,其中作用明顯的有Mahout和R語言等算法。
(5)分析結果的工作是將系統的數據分析結果傳送給系統,一般分為統計結果和數據分析結果兩大類。
2 大數據分析Hadoop關鍵技術的比較和標準化
在大數據分析平臺的基礎上,下文對Hadoop中數據采集、并行計算框架、并行算法以及數據可視化的關鍵技術進行比較分析,并給出標準化的相關建議。
2.1 數據采集
2.1.1 比較分析
在本文中經過統計研究,選出了與系統相匹配的工具,主要有Flume和 Scribe,其中Flume已經被深度研究。兩者有很多相同之處:
(1)都是采用了PUSH的結構框架,通過業務系統節點來收集數據,并傳送到儲存系統;
(2)結構框架中都含有agent、collector、storage三個重要部分;
(3)都由相同的Thrift數據結構連接;
(4)有相同的數據收集系統采集數據。
不同點有:
(1)Flume支持多master格式,不會出現單點故障等問題;
(2)Scribe需要系統的支持才能供Thrift接口
(3)Flume提供的agent具有多樣性,并可以直接使用。
(4)Flume可以提供多樣性的數據源功能。
2.1.2 標準化建議
要保證海量數據達到標準化的程度,主要可以從系統框架和相關接口兩個方面來考慮,系統框架就是通過相關工具軟件進行輔助,將系統框架進行結構完善。接口則需要進行大量的挑選和實驗,保證可以和系統高密度的契合,通過接口將系統進行結構優化。
2.2 并行計算框架
2.2.1 比較分析
以Hadoop平臺為基礎的并行計算結構框架有MAPREDUCE和YARN。并行計算框架的功能有著不可替代和單一的特點,是API的接口編程過程中非常重要的一部分,業務系統通過API來進一步完成任務。從計算機的接口方面衡量MAPREDUCE和YARN,它們的接口相似度非常高,也可以看出系統將的各個接口相似度都非常高,這也降低了接口的自身要求。
2.2.2 標準化建議
計算結構框架可以說是數據分析過程的基礎,是進行數據計算的重要前提,由上文的分析中可以知道并行計算的結構框架都相同的,因此并行計算結構框架的標準化是否可行十分重要。
2.3 并行算法
2.3.1 比較分析
由于并行計算結構框架的出現使得數據分析計算可以同時進行,并行算法的不斷發展,已經應用到了聚類、分類、貝葉斯等數據復雜的領域。在Hadoop中比較實用的并行算法主要是Mahout和R。
Mahout作為一個收集和貯藏數據的數據庫,R作為一個編程工具和軟件,它們在起初就已經被很多人承包,但不妨礙開發者繼續在此基礎上進行分析算法開發。
2.3.2 標準化建議
要實現并行算法標準化的難度非常大,如果不從全局的角度考慮,很難找到突破口,可以像電信行業實現并行計算標準化那樣從特殊行業方面進行深一步研究。
2.4 數據可視化
2.4.1 比較分析
基于Hadoop分析平臺的大數據分析結果包括統計結果和收集結果。數據可視化以圖表的方式讓人們進行結果了解。Hadoop平臺中的計算結構框架統一相同,但是分析結果卻有兩種形式,一種是將HDFS、Key-Value、HBASE直接進行儲存;另一種是將數據分析結果直接放在數據庫里面。這種分析結果可以由各個廠商進行數據分析展示。
2.4.2 標準化建議
不同的用戶有著不同的數據要求標準,這也使廠商的數據結果實現標準各有差異,因此對這部分規定不使用統一的標準。
3 結語
隨著以大數據為基礎的數據業務逐漸增多,Hadoop平臺也受到了越來越多人的關注,正逐漸變為大數據挖掘的重要部分,隨著人們對于Hadoop平臺的技術不斷升級和改良,促進基于Hadoop平臺的大數據分析關鍵技術標準化工作需要更快地實現,以保證人們對分析技術的應用。經研究發現,Hadoop大數據分析平臺采取分布式文件系統HDFS實現海量數據的存儲和兼容以及MapReduce并行計算,適合中小企業或專家開展云計算的研發需求。
參考文獻
[1]黃斌,許舒人,蒲衛.基于MapReduce的數據挖掘平臺設計與實現[J].計算機工程與設計,2013(02).
[2]郭建偉,李瑛,杜麗萍,趙桂芬,蔣繼婭.基于hadoop平臺的分布式數據挖掘系統研究[J].中國科技信息,2013(13).
作者單位
廣州大學松田學院 廣東省廣州市 511370