999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop云平臺優化策略研究

2015-04-29 16:38:07劉毅
科技尚品 2015年11期
關鍵詞:優化方法研究

劉毅

摘 要:隨著Hadoop平臺的日益完善,其應用范圍越來越普及,但仍然存在諸多影響性能的問題,比如調度算法中Hadoop配置對象開銷大、MapReduce階段中排序對象的序列化及反序列的高開銷問題。本文針對以上問題,提出解決方案。

關鍵詞:Hadoop云平臺;優化策略

1 研究背景

由于具備低成本和前所未有的高擴展性,Hadoop已被公認為是新一代的大數據處理平臺。Hadoop正帶來了新一輪的數據革命。雖然hadoop的應用價值已得到廣泛認可,但其有諸多問題依然制約著hadoop的發展,優化hadoop性能主要可以從以下方面著手:

1.1 應用程序優化

考Hadoop云平臺優化策略研究高效率的應用程序。

1.2 Hadoop參數優化

這種優化方法要結合操作協同層面的調優,對hadoop系統的諸多配置參數進行優化調整,使hadoop作業運行速度更快。

1.3 系統實現優化

這是源碼級的優化,針對hadoop框架及實現機制中不合理的地方進行優化,優化難度大,效果也比較明顯。

本文主要針對hadoop存儲及系統實現中的幾種高開銷問題進行了研究并提出了改進措施。

2 存在的問題

2.1 Hadoop的Configuration開銷大

Hadoop的Configuration的配置需要花費大量的時間,hadoop把對象的信息按照hashmap的方式存在于一個xml的配置文件中,讀取、解壓、分析均來自這一個磁盤的xml文件,這嚴重影響了IO性能,另外當取對象時需要去調用get()方法,而get()方法的參數會也會引起正則表達式計算和變量替換,這也需要耗費資源。如果對多個對象讀取,上面的步驟通過循環語句去實現的話,性能更是將大打折扣。當對象很多的情況下hadoop花費30%用來配置對象。

2.2 中間壓縮結果包含很多無用數據

spill線程中的壓縮和解壓縮操作會消耗消耗了大量時間,并且中間結果是臨時的。如果使用lz4方法取代lzo level 3,可以減少了30%多的中間數據,并使其能被更快地讀取。

2.3 hadoop中對對象序列化和反序列化消耗太高

對對象的序列化和反序列化是Hadoop Job中開銷最高的操作,特別是對于那些進場使用并且復雜、非主鍵的key。在hadoop中需要將兩個對象進行比較,通常的做法是對這些對象反序列化后再進行比較,但是反序列化是一個耗時的工程。下圖1是極端情況下通過java-xprof工具檢測得到的結果。

3 解決方法

傳統的數據讀寫是按照row-oriented方式讀寫,也就是順序讀取存儲,這樣的方式優點是讀寫相對容易速度也相對較快,但缺點也是相當明顯的就是每次讀取都讀寫了一些無用的數據,并且文件的存儲量也相對教大。傳統存儲的抽象圖如圖2和圖3所示。

解決方法是將record順序存儲的方式改為面向列的數據格式。它遵循“先按列劃分,再垂直劃分”的設計理念。當查詢過程中,針對它并不關心的列時,它會在IO上跳過這些列。也就是按需在磁盤上存取,這種面向列的數據讀取方式被稱為Parquet,下圖4和圖5說明了這種存取方式。

對比圖2和圖3由可以看出Parquet是面向列的存儲,它使得同類型的字段被順序排在一起。那么這種存儲有什么好處呢,好處就是按列存儲,可以有效地進行列投影,并且在進行反序列化的時候可以只反序列化需要的列。這樣就大大縮減了因為反序列化消耗的時間,除此之外,存儲的文件也會相應的減小很多,可以達到原來文件的一半。圖6是了采用面向列存儲后對某一列投影的示例圖。

下圖7是采用Parquet技術后,對比傳統存儲方式,使用java-xprof技術對hadoop運行效率做了一個跟蹤對比,從圖中可以看出當只有1字段時,Parquet存儲方式是傳統基礎速度的3倍,當有10字段的時候是傳統技術的1.5倍,速度提高明顯。

4 總結

本文針對hadoop性能調優三種方法中的存儲及系統實現進行了研究分析,提出了將row-oriented存儲改進為Parquet存儲,實驗證明改為面向列的存儲對系統性能的提高是有效的,但是從圖7中可以看出隨著列的增加,這種性能優勢在降低,后續將針對這一情況進行深入的研究,完善這種技術。

參考文獻

[1]劉鵬.云計算(第二版)[M].北京:電子工業出版社,2011.

[2]淺析Hadoop文件格式.[EB/OL].http://www.infoq.com/cn/articles/hadoop-file-format,2012-5-28.

[3]探究提高Hadoop穩定性與性能的方法 [EB/OL].http://dongxicheng.org/mapreduce/how-to-improve-hadoop-stablility-and-performance/,2013-12-29.

[4]王宏宇.hadoop平臺在云計算中的應用[J].軟件,2011,(4):36-39.

[5]黃曉云.基于HDFS的云存儲服務系統研究[D].大連海事大學,2010.

[6]王永洲.基于HDFS的存儲技術的研究[D].南京郵電大學,2013.

[7]高薊超.Hadoop平臺存儲策略的研究與優化[D].北京交通大學,2012.

猜你喜歡
優化方法研究
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
FMS與YBT相關性的實證研究
遼代千人邑研究述論
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 午夜国产精品视频| 国产精品自拍露脸视频| 亚洲妓女综合网995久久| 欧美成人A视频| 超碰aⅴ人人做人人爽欧美| 免费xxxxx在线观看网站| 国产福利一区二区在线观看| 69综合网| 丰满的熟女一区二区三区l| 亚洲精品图区| 国产精品久久自在自线观看| 制服丝袜亚洲| 手机永久AV在线播放| 草逼视频国产| 日本不卡在线视频| 免费高清a毛片| 亚洲V日韩V无码一区二区| 精品国产污污免费网站| 国产手机在线小视频免费观看 | 亚洲国产精品成人久久综合影院| 欧美.成人.综合在线| 2019年国产精品自拍不卡| 亚洲一欧洲中文字幕在线| 天天躁狠狠躁| 国产精品伦视频观看免费| 亚洲无限乱码一二三四区| 国产杨幂丝袜av在线播放| 91亚洲国产视频| 国产日韩欧美一区二区三区在线| 日韩av在线直播| 国产精品第一区| 99久久精品免费看国产电影| 国产精品亚洲天堂| 亚洲美女AV免费一区| 成人字幕网视频在线观看| 国产波多野结衣中文在线播放| 午夜精品久久久久久久99热下载| 最新亚洲人成无码网站欣赏网 | 中文字幕无码中文字幕有码在线| 久久精品国产精品一区二区| 久久青草视频| 久久五月天国产自| 狠狠色噜噜狠狠狠狠色综合久 | 国产在线精彩视频论坛| 成人精品视频一区二区在线| 亚洲男人天堂2020| 国产精品无码AⅤ在线观看播放| 97国内精品久久久久不卡| 精品国产香蕉在线播出| 婷婷99视频精品全部在线观看| 亚洲AV电影不卡在线观看| 成人夜夜嗨| 热re99久久精品国99热| 色欲国产一区二区日韩欧美| 99久久精品国产麻豆婷婷| 丁香六月激情综合| 久久综合久久鬼| 黄色网站在线观看无码| 亚洲欧美一级一级a| 精品久久久久无码| 亚洲成人高清无码| 免费午夜无码18禁无码影院| 国产黄在线免费观看| 国产在线小视频| 午夜国产不卡在线观看视频| 99久久99这里只有免费的精品| 国产真实乱人视频| 国产免费好大好硬视频| 精品少妇人妻一区二区| 91精品伊人久久大香线蕉| 久久久久夜色精品波多野结衣| V一区无码内射国产| 国产特级毛片| 国产白浆在线观看| 国产aaaaa一级毛片| 国产成人精品亚洲77美色| 狠狠色噜噜狠狠狠狠色综合久| 国产精品9| 久久久久无码精品| 91视频精品| 波多野结衣一区二区三区AV| 毛片a级毛片免费观看免下载|