999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

虛擬化Hadoop系統的數據資源調控與管理體系

2016-09-20 09:20:12司雅楠
新鄉學院學報 2016年3期
關鍵詞:數據處理系統

司雅楠,阮 寧

(河南師范大學a.計算機與信息工程學院;b.新聯學院,河南 新鄉453007)

虛擬化Hadoop系統的數據資源調控與管理體系

司雅楠a,阮寧b

(河南師范大學a.計算機與信息工程學院;b.新聯學院,河南新鄉453007)

當前,Hadoop系統所采取的本地化數據優化方案還不能很好地應用于虛擬化環境當中,虛擬平臺相關數據的處理及數據存儲任務的優化還存在一些問題。為此,對虛擬化Hadoop系統的數據本地化屬性進行了分析,并從虛擬化Hadoop系統平臺的架構模式出發,提出分離式的系統平臺架構模式,并以此為基礎建立虛擬化Hadoop的數據資源調控與管理體系。

虛擬化Hadoop;資源調度;數據本地化;在線遷移

進入20世紀以來,互聯網數據分析技術已被普遍應用在許多信息技術企業(如IMB、谷歌等)的數據管理中。分布式計算模式MapReduce[1]的出現使大數據技術在各大企業中得到了廣泛的應用,而Hadoop作為其開源實現也備受關注[2]。Hadoop開發出一系列可供并行計算的框架模式,使IT產業的相關技術管理人員可以將工作重心放于企業業務的開展上,而無需擔心數據的容錯、負載等環節。隨著Hadoop的日益普及,利用Hadoop搭建系統的規模也逐漸擴大,使用的環境也日益復雜,其所承載的數據內容也不斷增多,因此,Hadoop中存在的問題也開始顯露出來,例如,Hadoop僅提供集成式的數據任務管理,僅支持單一性的程序調度模式等。為了解決Hadoop系統中MapReduce功能不足的問題,新一代的Hadoop的資源管理器YARN[3]產生了,相比于傳統的Hadoop,YARN具有更大的可擴展空間,同時還可以兼容包括MapReduce在內的多種不同的計算框架,例如Spark、REEF和DRYAD等。

傳統的Hadoop系統采用物理服務器進行搭建,隨著系統規模的不斷擴大,這種搭建方式明顯無法滿足需要。隨著云計算技術的廣泛應用,應用平臺可以部署在虛擬化的數據中心,即云平臺中。虛擬集群的出現彌補了傳統物理服務器搭建方式存在的不足,但是也產生了一些問題,例如,Hadoop新的資源管理器YARN上所運行的計算框架MapReduce有大量的I/O操作,這些I/O操作包括本地讀寫和跨節點的讀寫兩種,而跨節點的數據傳輸則成為在虛擬化Hadoop系統中制約如MapReduce等應用程序性能的主要因素。

本文將討論Hadoop系統虛擬化數據處理平臺的優化問題,利用存儲節點與數據節點分割架構的模式,將數據存儲節點與數據計算節點分別架構在不同的虛擬平臺上,從而大幅度提升數據計算及存儲處理的調度與管理能力。通過建立Hadoop系統虛擬化數據處理平臺,提出一種能夠提升Hadoop系統應用程序數據處理性能的資源調控模式:(1)在提交任務數據階段,通過對虛擬數據平臺計算能力的調節,能夠有效地完成“數據節點任務本地化”的任務;(2)在任務數據運行階段,將虛擬計算數據節點向實體主機存儲數據節點在線遷移[4],實現數據節點的本地化目的。

1 虛擬Hadoop系統的數據本地化屬性

Hadoop系統中的分布式計算模式能夠利用并行計算模型,將大規模的數據計算作業分化為許多小規模數據計算任務,每一個小規模數據計算任務僅處理一小部分數據,即一個數據塊(YARN數據計算平臺默認分割數據塊的大小為128 MB)。按照指定的數據資源調控與管理模式,每一個小規模數據計算任務都被分配至指定的數據任務計算處理節點,同時,每個數據塊要保存多個副本。YARN數據計算平臺的默認數據塊副本數為3,這3個副本以冗余備份的形式存在于3個不同的數據節點中。YARN數據資源調控與管理模式優先把數據計算任務轉移至該任務所需的存儲節點中,如果相關數據存儲節點均已被占用,或無法實現對該數據任務的處理,那么,系統便會將該任務轉移至其他與之相匹配的數據任務處理節點中。

在傳統的Hadoop系統平臺內,根據數據處理任務所需要的節點以及所需處理數據任務的存儲節點之間的關系,可以將數據的本地化[5]屬性劃分為三類:跨平臺數據本地化屬性、平臺數據本地化屬性、數據節點本地化屬性。而在虛擬的Hadoop系統平臺內,由于增設了虛擬化的數據任務處理平臺,故將其數據的本地化屬性劃分為下述四類:1)跨平臺的數據本地化屬性,即任務計算所需要的節點與數據存儲節點未分布在相同的實體主機平臺上,同時,這些實體主機平臺也分布于不同的實體框架中;2)平臺數據本地化屬性,即任務計算所需要的節點與數據存儲節點未分布在相同的實體主機平臺上,但這些實體主機平臺分布于相同的實體框架中;3)實體主機數據節點本地化屬性,即任務計算所需要的節點與數據存儲節點位于相同的節點內,且分布于相同的實體主機框架中;4)虛擬主機數據本地化屬性,即任務計算所需要的節點與數據存儲節點位于相同的虛擬主機節點內。

在相同的條件下,執行不同數據本地化屬性的計算任務的響應及處理速度由慢至快依次為跨平臺數據本地化、平臺數據本地化、實體主機數據節點本地化和虛擬主機數據本地化。在這四種本地化處理方式中,實體主機數據節點本地化與虛擬主機數據本地化的數據任務響應與處理時間較為接近,而跨平臺數據本地化與平臺數據本地化的數據任務響應與處理時間則分別為上述兩者的4倍與5倍。Hadoop系統平臺所搭載的應用程序往往需做龐大的數據處理與數據傳輸操作,而且數據的虛擬化處理也會對I/O性能產生一定的影響,隨著數據任務處理量的增加,任務數據的本地化對數據任務的處理效率造成的影響也增大??梢?,提升實體主機數據節點本地化屬性以及虛擬主機數據本地化屬性能夠有效地降低任務數據節點之間的數據傳輸量,進而提升應用程序執行相關數據處理任務的效率。

2 虛擬Hadoop系統平臺的架構模式

2.1傳統的平臺架構模式

傳統的Hadoop系統平臺通常架構在實體主體內部。在虛擬化環境下,也可以利用這種架構模式[6],其邏輯構架如圖1所示。圖1中,DN(Data Node,數據節點)用來存放具體數據塊,NM(Node Manager,節點管理器)對節點進行管理,NN(Name Node,名字節點)用來存放元數據,RM(Resource Manager,資源管理器)為系統提供資源調度管理。在這種構架中,計算節點同時也作為存儲節點使用,這樣可以在一定程度上確保數據節點任務處理的本地化屬性。

圖1 傳統Hadoop系統平臺邏輯架構模式

在虛擬化環境中,這種傳統Hadoop系統平臺架構模式存在以下問題。

(1)系統的擴展能力差。在虛擬的環境中,系統平臺能夠通過對虛擬主機數量的增加或減少來實現對虛擬集群的擴容和縮容。而在虛擬化的Hadoop系統平臺內,可以根據所需計算節點的數目動態地增、減虛擬機數量,從而在高效完成計算任務的同時節省資源和成本。但是,在傳統的Hadoop平臺架構模式中,任務數據計算節點還兼作數據的存儲節點,這樣使得在增加或減少虛擬數據節點時,系統不得不增加或減少相應的數據存儲節點:增加相應的數據存儲節點就會提升執行相關數據處理任務的資源成本;減少相應的數據存儲節點就會導致數據節點存儲副本不足,進而造成系統后臺數據備份性能下降。

(2)利用虛擬機對數據進行轉移的效率較低。在虛擬的網絡數據環境下,為了能夠提升數據資源的使用效率,減少資源消耗,并盡可能地使物理機的維護更加便利,在通常情況下,會采用在線數據轉移的方式,使虛擬機進行數據負載整合。在上述架構模式中,虛擬機不但可以作為數據任務處理節點,也可以作為數據任務的存儲節點,這使虛擬機在遷移時產生大量的數據轉移。

利用傳統架構模式的虛擬化Hadoop平臺系統,如1中所述的四種平臺數據本地化屬性均存在。即使YARN資源調控管理模式對數據本地化問題有所考慮,但其所采取的架構模式在實際的數據處理任務中也不能確保虛擬主機數據的本地化屬性,且在虛擬化Hadoop系統平臺下,因為增設了虛擬的數據處理平臺,數據副本被劃分為兩個不同的層次,所以也會對傳統Hadoop系統平臺中的數據本地化水平產生一定程度的負面影響。

2.2分離式架構模式

在虛擬化環境下,還有一種Hadoop系統平臺架構模式,即分離式架構模式。在這種架構模式中,數據的計算節點與存儲節點分別被設置在不同的虛擬機內,如圖2所示。圖2中,虛擬機NN與虛擬機RM運行在同一臺物理機中,當然這兩臺虛擬機也可以分別運行在不同的物理機上。

圖2 分離式平臺邏輯架構模式

分離式架構模式能夠有效地解決傳統Hadoop平臺架構模式中存在的問題,并具備如下優勢:1)具備較強的擴展能力,系統平臺能夠獨立地增加或減少數據任務處理節點的數量,而數據任務存儲節點不受影響,故不會對后臺數據副本服務性能造成不良的影響;2)虛擬主機能夠進行靈活的轉移,當數據任務處理節點進行轉移時,其數據任務存儲節點不需轉移。

3 數據資源調控與管理體系設計

Hadoop中的MapReduce計算模式把數據的計算過程分解成兩個階段:Map和Reduce。這兩個階段又分別對應了兩個處理函數:mapper和reducer。在YARN平臺中,用戶程序中的MapReduce庫將數據文件分化為許多的數據塊(默認為128 MB),在Map階段,每個Map處理一個小數據塊,原始數據被輸入mapper中進行過濾和轉換,所獲得的中間數據在Reduce階段作為reducer函數的輸入,經過reducer的聚合處理后生成最終結果。

本文提出的數據資源調控與管理體系的架構模式如圖3所示,該調控與管理體系主要包括四個環節,分別是遷移控制器、作業解析器、資源調節器以及任務解析器。圖3中的序號表示的是該調控與管理體系具體的工作順序與流程。

作業被發送至作業解析器后(如圖3步驟1),作業解析器對該作業包含的所有任務內容以及每項任務涉及的數據塊副本所在的位置信息進行解析。根據YARN資源調節模式,若某項數據處理任務能夠被調節至符合實體主機數據本地化屬性的數據任務處理節點中,那么該任務便不需要進行調節;否則,便由資源調節器(圖3步驟2)按照數據塊副本的位置分布信息,選擇具有提升數據處理能力的計算節點所在的虛擬機,并利用資源調節器來提升該計算節點的計算能力。在對虛擬機計算節點的計算能力進行調整的過程中,若出現節點所處的宿主機無法增加計算能力來滿足該計算節點需要的情況時,就需要將該宿主機上的一些虛擬機通過遷移控制器(圖3步驟3)在線遷移到其他宿主機上,再利用資源調節器(圖3步驟4)對遷移后宿主機上虛擬機的計算能力進行調節。

在上述調整過程中,對最終仍不能實現宿主機數據本地化的數據計算任務,可以利用YARN默認的處理模式,即盡可能地將其轉移至平臺數據本地化的數據處理與計算節點中運行。在運行過程中,任務解析器(圖3步驟5)負責對任務運行中的數據狀態、數據本地化屬性、數據分析處理進度,特別是未符合“實體主機數據本地化屬性”的數據進行監控,對數據計算處理進度明顯落后于其他處理進度的任務,由遷移控制器(圖3步驟6)按照數據任務副本的劃分情況以及宿主機系統資源的剩余狀況,篩選出符合該宿主機數據本地化屬性的宿主機,隨后對該計算節點所在的虛擬機進行在線遷移。

圖3 數據資源調控與管理體系

4 結束語

隨著互聯網數據分析技術應用的日益普遍,各大信息企業對系統平臺的數據任務處理要求也不斷提高,即對其任務處理能力、任務處理效率的要求逐漸增加,而傳統的Hadoop已不能滿足新型信息技術企業的發展要求,需要形成新的系統平臺架構模式、更高效的系統數據處理平臺以及功能更強大的虛擬化數據調控與管理體系。

本文以這種需求為基礎,從傳統Hadoop系統平臺存在的缺陷及問題出發,提出相應的系統架構模式以及數據調控管理體系,為今后系統數據平臺的架構與設立提供參考。

[1]張文光,陳俊,姚鈺輝,等.分布式網絡環境中基于MapReduce的WordCount實現[J].貴州師范大學學報(自然科學版),2015(1):93-97.

[2]Apache Software Foundation.Hadoop[EB/OL].(2015-06-09)[2015-10-12].http://hadoop.apache.org.

[3]董西成.Hadoop技術內幕:深入解析YARN架構設計與實現原理[M].北京:機械工業出版社,2013:153-184.

[4]蘭雨晴,申騫,劉銘.云計算環境中在線遷移技術研究[J].電信科學,2010(9):90-94.

[5]徐永士,霍菁,孫功星.一種數據本地化存儲與處理系統[J].計算機工程與應用,2012(5):7-11.

[6]楊卓犖.基于YARN構建多功能分布式集群[J].程序員,2013(11):105-107.

【責任編輯梅欣麗】

Data Resources Control and Management System for Virtual Hadoop System

SI Yanana,RUAN Ningb
(a.College of Conmputer and Information Engineering;b.Xinlian College,Henan Normal University,Xinxiang 453007,China)

The current localization optimization data scheme adopted for Hadoop system platform could not be well applied in virtual environment,which prevented the optimization of virtual platform from processing the related data calculation and data storage.This paper conducted analysis according to the data localization property of Hadoop system platform.From the structure mode of virtual Hadoop system platform,it put forward separated type system platform structure mode,and on which,it established the data resource control and management system of virtual Hadoop system platform.

virtual Hadoop;resources control;data localization;live migration;localization property

TP391

A

2095-7726(2016)03-0029-04

2015-12-20

司雅楠(1987-),女,河南新鄉人,碩士,研究方向:大數據。阮寧(1988-),男,河南駐馬店人,碩士,研究方向:數據挖掘。

猜你喜歡
數據處理系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
MATLAB在化學工程與工藝實驗數據處理中的應用
Matlab在密立根油滴實驗數據處理中的應用
主站蜘蛛池模板: 久久香蕉国产线| 国产综合在线观看视频| 欧美中日韩在线| 亚洲精品爱草草视频在线| 国产人成午夜免费看| 免费aa毛片| 日韩福利在线视频| 国产h视频免费观看| 亚洲日本www| jizz在线观看| 国产精品思思热在线| 久久一本日韩精品中文字幕屁孩| 亚洲综合婷婷激情| 狠狠亚洲婷婷综合色香| 中文字幕乱码二三区免费| 中美日韩在线网免费毛片视频| 欧美国产成人在线| 亚洲精品无码不卡在线播放| 香蕉视频在线观看www| 国产男女XX00免费观看| 亚洲成年人网| 国产网友愉拍精品视频| 六月婷婷激情综合| 亚洲中久无码永久在线观看软件| 国语少妇高潮| 麻豆精品在线播放| 久久毛片免费基地| 国产九九精品视频| 亚洲日韩AV无码一区二区三区人| 伊人五月丁香综合AⅤ| 欧美亚洲国产视频| 直接黄91麻豆网站| 欧美日韩国产一级| 99这里只有精品免费视频| 91久久偷偷做嫩草影院免费看| 99偷拍视频精品一区二区| 免费看a级毛片| 中文无码日韩精品| 中文字幕人妻av一区二区| 丁香婷婷综合激情| 97狠狠操| 国产欧美日本在线观看| 91网址在线播放| 国产三级精品三级在线观看| 亚洲国产欧洲精品路线久久| 伊人久久综在合线亚洲91| 日本草草视频在线观看| 香蕉eeww99国产精选播放| 2021亚洲精品不卡a| 国产香蕉在线视频| 国产精品亚洲αv天堂无码| 激情视频综合网| 99精品一区二区免费视频| 国产幂在线无码精品| 国产精品一区二区久久精品无码| 国产成人久视频免费| 国产熟睡乱子伦视频网站| 欧美一区精品| 午夜精品久久久久久久99热下载| 农村乱人伦一区二区| 中文字幕无码中文字幕有码在线| 91麻豆精品国产高清在线| 91蜜芽尤物福利在线观看| 少妇极品熟妇人妻专区视频| 国产91丝袜在线播放动漫 | 99久久国产综合精品女同| 亚洲成aⅴ人片在线影院八| 国产精品欧美激情| 不卡的在线视频免费观看| 99精品热视频这里只有精品7| 国产丝袜91| 伊人激情综合网| 日本一区二区三区精品AⅤ| 国产精品99一区不卡| 久久一日本道色综合久久| 国产精品视频观看裸模| 青草视频在线观看国产| 亚洲一级毛片| 美女免费黄网站| 亚洲国产成人精品青青草原| 丁香五月激情图片| 国产精品午夜福利麻豆|