999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

揭秘Hadoop生態(tài)圈

2016-12-17 20:34:54林琳
科技視界 2016年26期

林琳

【摘 要】Hadoop的兩大核心是HDFS和YARN。Hadoop是一個軟件框架,能夠?qū)A繑?shù)據(jù)進(jìn)行分布式處理。Hadoop的特點(diǎn)是可靠、高效、可伸縮。

【關(guān)鍵詞】Hadoop;HDFS;YARN

0 引言

從誕生至今,Hadoop已經(jīng)發(fā)展成為一個龐大的與大數(shù)據(jù)相關(guān)的軟件生態(tài)系統(tǒng)。本文收集整理了跟Hadoop相關(guān)的Apache下的開源項(xiàng)目,主要是對 Hadoop生態(tài)系統(tǒng)有個初步的認(rèn)識。那么Hadoop生態(tài)系統(tǒng)都包括哪些內(nèi)容呢?

Hadoop生態(tài)系統(tǒng)主要包括分布式文件管理系統(tǒng)HDFS,分布式計(jì)算框架MapReduce,分布式協(xié)作服務(wù)Zookeeper,實(shí)時分布式數(shù)據(jù)庫Hbase,數(shù)據(jù)倉庫Hive,數(shù)據(jù)流處理Pig,數(shù)據(jù)挖掘Mahout,日志收集工具Flume,數(shù)據(jù)庫ETL工具Sqoop,安裝、部署、配置和管理工具Ambari。

Ambari(安裝、部署、配置和管理工具)

Zookeeper (分布式協(xié)作服務(wù))

Hive(數(shù)據(jù)倉庫)

Pig(數(shù)據(jù)流處理)

Mahout(數(shù)據(jù)挖掘庫)

Flume(日志收集工具)

Hbase(實(shí)時分布式數(shù)據(jù)庫)

MapReduce(分布式計(jì)算框架)

Sqoop(數(shù)據(jù)庫ETL工具)

HDFS(分布式文件系統(tǒng))

1 HDFS(Hadoop分布式文件系統(tǒng))

HDFS全稱為Hadoop Distributed File System,這個概念源自于Google發(fā)表于2003年10月的GFS論文,HDFS是GFS克隆版,Hadoop和 HDFS 都是從GFS中派生的。

HDFS是一個高度容錯的系統(tǒng),不僅可以在低成本的通用硬件上運(yùn)行,還能檢測和應(yīng)對硬件故障,是Hadoop數(shù)據(jù)存儲管理的基礎(chǔ)。

通過流式數(shù)據(jù)訪問,HDFS提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問功能,為跨多個機(jī)器存儲大型文件提供了一種解決方案,適合帶有大型數(shù)據(jù)集的應(yīng)用程序。

NameNode:是一個Master節(jié)點(diǎn)。在Hadoop 1.0中,NameNode是HDFS 集群的一個單點(diǎn)故障。Hadoop 2.0出現(xiàn)后,HDFS利用Zookeeper解決了這個問題。NameNode的主要功能是處理客戶端請求,管理HDFS的名稱空間和數(shù)據(jù)塊映射信息以及配置副本策略。

Secondary NameNode:Secondary NameNode并非NameNode必備。它只是用來輔助NameNode,分擔(dān)其工作量的,在某些緊急情況下,可輔助恢復(fù)NameNode。

DataNode:DataNode是一個 Slave節(jié)點(diǎn),用來存儲數(shù)據(jù),匯報存儲信息給NameNode。

Client:Client的作用是切分文件和訪問HDFS。它與NameNode交互時,能夠獲取文件位置信息,與DataNode交互,能夠讀取和寫入數(shù)據(jù)。

2 Mapreduce(分布式計(jì)算框架)

MapReduce是一種是使用集群的并行、分布式算法處理大數(shù)據(jù)集的可編程計(jì)算模型,用以解決海量數(shù)據(jù)的計(jì)算問題。在大型集群中能夠起到簡化數(shù)據(jù)處理的作用。MapReduce遵循YARN的框架協(xié)議,能夠在YARN上可以運(yùn)行。

在MapReduce中,Map負(fù)責(zé)對數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定操作,形成中間結(jié)果鍵值對。Reduce負(fù)責(zé)對中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,得到最終結(jié)果。MapReduce這樣的功能劃分,非常適合在分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。

JobTracker:唯一一個Master節(jié)點(diǎn),管理所有作業(yè)和錯誤處理,將任務(wù)分解成一系列子任務(wù),并分派給TaskTracker。

TaskTracker:Slave節(jié)點(diǎn),向JobTracker匯報任務(wù)狀態(tài)。

Map Task:解析每條數(shù)據(jù)記錄,傳遞給用戶編寫的map并執(zhí)行,將輸出結(jié)果寫入本地磁盤。

Reducer Task:從Map Task的執(zhí)行結(jié)果中,遠(yuǎn)程讀取輸入數(shù)據(jù),對數(shù)據(jù)進(jìn)行排序后分組傳遞給用戶編寫的reduce函數(shù)執(zhí)行。

3 Hbase(分布式列存數(shù)據(jù)庫)

HBase是一個構(gòu)建在HDFS上的分布式列存儲系統(tǒng)。HBase利用MapReduce來處理海量數(shù)據(jù),將數(shù)據(jù)存儲和并行計(jì)算完美地結(jié)合在一起。Bigtable使用Chubby服務(wù),而HBase利用Zookeeper作為對應(yīng)。和傳統(tǒng)關(guān)系數(shù)據(jù)庫不同,HBase采用了BigTable的數(shù)據(jù)模型,增強(qiáng)的稀疏排序映射表,是一個針對結(jié)構(gòu)化數(shù)據(jù)的動態(tài)模式數(shù)據(jù)庫,具有可伸縮、高可靠、高性能、分布式和面向列的特性。從邏輯上講,HBase將數(shù)據(jù)按照表、行和列進(jìn)行存儲。與hadoop一樣,Hbase目標(biāo)主要依靠橫向擴(kuò)展,通過不斷增加服務(wù)器來增加計(jì)算和存儲能力。HBase是Hadoop生態(tài)系統(tǒng)中的重要一員,主要用于海量結(jié)構(gòu)化數(shù)據(jù)存儲。

HBase提供了對大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時讀寫訪問。

Hbase的數(shù)據(jù)模型

Schema-->Table-->Column

Family-->Column-->RowKey-->TimeStamp-->Value

RowKey:是表中每條記錄的“主鍵”,方便快速查找。

Column Family:列族,包含一個或者多個相關(guān)列。

Column:屬于某一個columnfamily,每條記錄可動態(tài)添加。

Version Number:類型為Long,默認(rèn)值是系統(tǒng)時間戳,可由用戶自定義。

Value(Cell):Byte array

4 Zookeeper(分布式協(xié)作服務(wù))

Zookeeper是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),用來解決分布式環(huán)境下的數(shù)據(jù)管理問題:如狀態(tài)同步,集群管理,配置維護(hù)、名字服務(wù)、分布式同步等。

ZooKeeper能夠配置信息維護(hù),包括封裝關(guān)鍵服務(wù),提供簡單易用的接口和功能穩(wěn)定的系統(tǒng)。在一個分布式的環(huán)境中,我們需要一個 Master 實(shí)例或存儲一些配置信息,來確保文件寫入的一致性等。Zookeeper提供了這樣一個高效可靠的協(xié)同工作系統(tǒng)。

Zookeeper的作用是,通過選舉,使集群中始終只有一個Master存在,實(shí)時監(jiān)控Region server的上線和下線信息。并實(shí)時通知給Master。

5 Hive(基于Hadoop的數(shù)據(jù)倉庫)

Hive定義了一種類似SQL的查詢語言(HQL),將SQL轉(zhuǎn)化為能在Hadoop上執(zhí)行的MapReduce任務(wù)。通常用于數(shù)據(jù)匯總,查詢和離線分析。最初用于解決日志數(shù)據(jù)統(tǒng)計(jì)問題。

6 Pig(基于Hadoop的數(shù)據(jù)流系統(tǒng))

Pig在 Hadoop 分布式文件系統(tǒng),HDFS,MapReduce中都能夠運(yùn)行,使用 MapReduce來執(zhí)行數(shù)據(jù)處理。Pig提供了一個能夠在Hadoop并行執(zhí)行數(shù)據(jù)流的引擎。Pig 用Pig Latin語言來表達(dá)數(shù)據(jù)流,包括大量的傳統(tǒng)數(shù)據(jù)操作,也可以讓用戶開發(fā)自己的函數(shù),查看,處理和編寫數(shù)據(jù)。也可以編寫一個或者多個的 MapReduce 作業(yè),然后執(zhí)行。

7 Mahout(數(shù)據(jù)挖掘算法庫)

Mahout是一種基于MapReduce的機(jī)器學(xué)習(xí)庫和數(shù)學(xué)庫。

Mahout旨在創(chuàng)建一些可擴(kuò)展的經(jīng)典算法的實(shí)現(xiàn),能夠幫助開發(fā)人員更方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout現(xiàn)在已經(jīng)包含了聚類、分類、協(xié)同過濾和頻繁集挖掘等數(shù)據(jù)挖掘方法。

Mahout起源于2008年,最初是Apache下的一個的子項(xiàng)目,在極短的時間內(nèi)飛速發(fā)展,現(xiàn)在已經(jīng)是Apache的頂級項(xiàng)目之一。

8 Sqoop(數(shù)據(jù)同步工具)

Sqoop是SQL-to-Hadoop的縮寫,主要用于在傳統(tǒng)數(shù)據(jù)庫和Hadoop之間進(jìn)行數(shù)據(jù)傳輸。Sqoop充分利用了Mapreduce的并行化和容錯性,來進(jìn)行數(shù)據(jù)的導(dǎo)入和導(dǎo)出,通常用于進(jìn)行離線分析。

9 Flume(日志收集工具)

Flume是一個可擴(kuò)展、開源的、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。它具有分布式、高可靠、高容錯、易擴(kuò)展的優(yōu)點(diǎn)。

它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過程抽象為數(shù)據(jù)流,F(xiàn)lume支持收集各種不同協(xié)議數(shù)據(jù)。同時提供對日志數(shù)據(jù)進(jìn)行簡單處理的能力,如過濾、格式轉(zhuǎn)換等。

【參考文獻(xiàn)】

[1]陸嘉恒.Hadoop實(shí)戰(zhàn)[M].機(jī)械工業(yè)出版社,2011,10.

[2]Tom White.Hadoop:The Definitive Guide[M].東南大學(xué)出版社,2011,5.

[責(zé)任編輯:田吉捷]

主站蜘蛛池模板: 国产91成人| JIZZ亚洲国产| 一级毛片高清| 日韩欧美中文在线| 在线亚洲精品自拍| 日韩国产精品无码一区二区三区| 中文字幕有乳无码| 亚卅精品无码久久毛片乌克兰 | 国产极品粉嫩小泬免费看| 国产在线欧美| 亚洲一级毛片免费观看| 亚洲三级视频在线观看| 午夜欧美在线| 视频一本大道香蕉久在线播放 | 18黑白丝水手服自慰喷水网站| 97成人在线视频| 无码电影在线观看| 999精品在线视频| 亚洲av无码成人专区| 好吊妞欧美视频免费| 伊人大杳蕉中文无码| 欧美国产视频| 亚洲成人在线免费| 91成人在线免费视频| 亚洲美女操| 一级毛片基地| 国产最新无码专区在线| 欧美yw精品日本国产精品| 视频一区视频二区中文精品| 久久五月天国产自| 爆操波多野结衣| 欧美乱妇高清无乱码免费| 91久久天天躁狠狠躁夜夜| 国产理论最新国产精品视频| 国产日产欧美精品| 国产欧美视频在线观看| 国产美女人喷水在线观看| 日本少妇又色又爽又高潮| 美女被躁出白浆视频播放| 91年精品国产福利线观看久久 | 亚洲综合久久一本伊一区| 久久黄色毛片| 国产成人8x视频一区二区| 99免费视频观看| 久久久久国色AV免费观看性色| 超碰aⅴ人人做人人爽欧美| 熟女视频91| 亚洲不卡影院| 免费一级毛片在线播放傲雪网| 免费国产福利| 亚洲欧洲美色一区二区三区| 国产不卡网| 狠狠色香婷婷久久亚洲精品| 日韩在线永久免费播放| 国产一区二区人大臿蕉香蕉| 亚洲成人免费看| 国产后式a一视频| 久久这里只精品热免费99| 欧美日韩国产在线播放| 在线毛片网站| 亚洲日韩在线满18点击进入| 国产一区二区网站| 九九九精品成人免费视频7| 精品人妻无码中字系列| 国产精品久久久久久久久久久久| 69av在线| 中文字幕啪啪| 午夜国产不卡在线观看视频| 亚洲日韩久久综合中文字幕| 亚洲精品无码专区在线观看| 精品久久久久久成人AV| 免费在线观看av| 国产成人亚洲无吗淙合青草| 亚洲中文无码h在线观看| av大片在线无码免费| 鲁鲁鲁爽爽爽在线视频观看 | 欧美午夜在线播放| 国产对白刺激真实精品91| 欧美在线视频不卡第一页| 欧美日韩一区二区三| jizz国产在线| 精品国产黑色丝袜高跟鞋|