999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據分析平臺Hadoo的關鍵技術

2018-03-23 11:59:34劉紅敏
電子技術與軟件工程 2018年4期

劉紅敏

摘 要本文著重研究了基于Hadoop平臺大數據的分析技術的發展和功能模塊的應用,對關鍵技術進行比較分析,將整體結構框架進行改良,使數據分析平臺在不受場景限制的前提下進行使用。

【關鍵詞】大數據分析技術 計算結構框架 并行分析算法 Hadoop

1 大數據分析平臺的模型結構

雖然在Hadoop中各分析平臺的接口和應用功能單一不同,但它們有著統一的結構框架,如圖1所示。

(1)數據采集不明思意就是采集數據,將數據進行采集整理,進而保存到數據庫里面。數據采集屬于系統外的一部分,但它發揮著不可替代的作用,連接了業務系統和分析系統,使得系統間能夠緊密聯系。

(2)分布式儲存是大數據分析平臺儲存數據的前提,在Hadoop平臺中將HDFS作為儲存的子系統,但并不只局限于這一種,可以作為云儲存系統的有多種。

(3)并行計算框架的利用在很大程度上提高了系統的運算效率,實現了多臺服務器同時進行數據運算,大大的提高了系統分析的效率。

(4)并行分析算法,傳統的分析算法是單一的,要想實現并行計算需要結合基于Hadoop的并行計算方法。經過分析研究,與Hadoop相匹配的算法有多種,其中作用明顯的有Mahout和R語言等算法。

(5)分析結果的工作是將系統的數據分析結果傳送給系統,一般分為統計結果和數據分析結果兩大類。

2 大數據分析Hadoop關鍵技術的比較和標準化

在大數據分析平臺的基礎上,下文對Hadoop中數據采集、并行計算框架、并行算法以及數據可視化的關鍵技術進行比較分析,并給出標準化的相關建議。

2.1 數據采集

2.1.1 比較分析

在本文中經過統計研究,選出了與系統相匹配的工具,主要有Flume和 Scribe,其中Flume已經被深度研究。兩者有很多相同之處:

(1)都是采用了PUSH的結構框架,通過業務系統節點來收集數據,并傳送到儲存系統;

(2)結構框架中都含有agent、collector、storage三個重要部分;

(3)都由相同的Thrift數據結構連接;

(4)有相同的數據收集系統采集數據。

不同點有:

(1)Flume支持多master格式,不會出現單點故障等問題;

(2)Scribe需要系統的支持才能供Thrift接口

(3)Flume提供的agent具有多樣性,并可以直接使用。

(4)Flume可以提供多樣性的數據源功能。

2.1.2 標準化建議

要保證海量數據達到標準化的程度,主要可以從系統框架和相關接口兩個方面來考慮,系統框架就是通過相關工具軟件進行輔助,將系統框架進行結構完善。接口則需要進行大量的挑選和實驗,保證可以和系統高密度的契合,通過接口將系統進行結構優化。

2.2 并行計算框架

2.2.1 比較分析

以Hadoop平臺為基礎的并行計算結構框架有MAPREDUCE和YARN。并行計算框架的功能有著不可替代和單一的特點,是API的接口編程過程中非常重要的一部分,業務系統通過API來進一步完成任務。從計算機的接口方面衡量MAPREDUCE和YARN,它們的接口相似度非常高,也可以看出系統將的各個接口相似度都非常高,這也降低了接口的自身要求。

2.2.2 標準化建議

計算結構框架可以說是數據分析過程的基礎,是進行數據計算的重要前提,由上文的分析中可以知道并行計算的結構框架都相同的,因此并行計算結構框架的標準化是否可行十分重要。

2.3 并行算法

2.3.1 比較分析

由于并行計算結構框架的出現使得數據分析計算可以同時進行,并行算法的不斷發展,已經應用到了聚類、分類、貝葉斯等數據復雜的領域。在Hadoop中比較實用的并行算法主要是Mahout和R。

Mahout作為一個收集和貯藏數據的數據庫,R作為一個編程工具和軟件,它們在起初就已經被很多人承包,但不妨礙開發者繼續在此基礎上進行分析算法開發。

2.3.2 標準化建議

要實現并行算法標準化的難度非常大,如果不從全局的角度考慮,很難找到突破口,可以像電信行業實現并行計算標準化那樣從特殊行業方面進行深一步研究。

2.4 數據可視化

2.4.1 比較分析

基于Hadoop分析平臺的大數據分析結果包括統計結果和收集結果。數據可視化以圖表的方式讓人們進行結果了解。Hadoop平臺中的計算結構框架統一相同,但是分析結果卻有兩種形式,一種是將HDFS、Key-Value、HBASE直接進行儲存;另一種是將數據分析結果直接放在數據庫里面。這種分析結果可以由各個廠商進行數據分析展示。

2.4.2 標準化建議

不同的用戶有著不同的數據要求標準,這也使廠商的數據結果實現標準各有差異,因此對這部分規定不使用統一的標準。

3 結語

隨著以大數據為基礎的數據業務逐漸增多,Hadoop平臺也受到了越來越多人的關注,正逐漸變為大數據挖掘的重要部分,隨著人們對于Hadoop平臺的技術不斷升級和改良,促進基于Hadoop平臺的大數據分析關鍵技術標準化工作需要更快地實現,以保證人們對分析技術的應用。經研究發現,Hadoop大數據分析平臺采取分布式文件系統HDFS實現海量數據的存儲和兼容以及MapReduce并行計算,適合中小企業或專家開展云計算的研發需求。

參考文獻

[1]黃斌,許舒人,蒲衛.基于MapReduce的數據挖掘平臺設計與實現[J].計算機工程與設計,2013(02).

[2]郭建偉,李瑛,杜麗萍,趙桂芬,蔣繼婭.基于hadoop平臺的分布式數據挖掘系統研究[J].中國科技信息,2013(13).

作者單位

廣州大學松田學院 廣東省廣州市 511370

主站蜘蛛池模板: 久久情精品国产品免费| 成人综合网址| 丝袜国产一区| 免费在线看黄网址| 男人天堂伊人网| 亚洲精品图区| 国产大全韩国亚洲一区二区三区| 999在线免费视频| 精品国产99久久| jizz亚洲高清在线观看| 无码网站免费观看| 夜夜操天天摸| 国产精品林美惠子在线观看| 高清精品美女在线播放| 国产一级毛片网站| 亚洲免费黄色网| 欧美影院久久| 国产精品色婷婷在线观看| 久久精品中文字幕免费| 亚洲福利网址| 亚洲欧洲日韩综合色天使| 国内嫩模私拍精品视频| 91福利在线观看视频| 久久无码av三级| 国产原创演绎剧情有字幕的| 成人午夜福利视频| 国产十八禁在线观看免费| 亚洲精品视频免费| 国产在线观看高清不卡| 精品夜恋影院亚洲欧洲| 国产精品视频3p| 四虎影视库国产精品一区| 亚州AV秘 一区二区三区| 国产成人AV综合久久| 欧美在线导航| 欧美日韩一区二区三| 综合久久五月天| 国产成人艳妇AA视频在线| 久久99国产精品成人欧美| 天堂网亚洲系列亚洲系列| 亚洲无码视频一区二区三区| 国产在线精彩视频论坛| 亚洲高清中文字幕在线看不卡| 99re66精品视频在线观看 | 国产成人综合日韩精品无码不卡| 国产高清无码麻豆精品| 欧美三級片黃色三級片黃色1| 亚洲精品在线观看91| 99热这里只有精品久久免费| 欧美综合成人| 在线观看91香蕉国产免费| 蜜臀av性久久久久蜜臀aⅴ麻豆| 狠狠色综合网| 久综合日韩| 午夜无码一区二区三区| 九九热这里只有国产精品| 国产欧美日韩综合在线第一| 99国产精品国产| 在线不卡免费视频| 手机在线国产精品| 狠狠亚洲婷婷综合色香| 全午夜免费一级毛片| 国产99热| 国产中文一区二区苍井空| 日本不卡视频在线| 欧美日本在线一区二区三区| 99中文字幕亚洲一区二区| 精品欧美视频| 国产在线一区视频| 高清无码一本到东京热| 欧美一级夜夜爽www| 国产成人AV综合久久| 一级毛片高清| 国产日本欧美在线观看| 久久亚洲国产最新网站| 日韩欧美国产区| 亚洲天堂777| 18禁高潮出水呻吟娇喘蜜芽| 天天操天天噜| 97在线公开视频| 成年女人18毛片毛片免费| 精品国产一区91在线|