999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop日志壓縮算法的研究與實現

2017-05-12 09:22:54王煜驄
現代計算機 2017年9期

王煜驄

(四川大學計算機學院,成都 610065)

Hadoop日志壓縮算法的研究與實現

王煜驄

(四川大學計算機學院,成都 610065)

Hadoop集群由于規模增大、運行時間增長使得日志量持續增加,導致存儲壓力過大。為了節約存儲資源,研究并實現一種高效的Hadoop日志無損壓縮算法。實驗結果表明,該壓縮算法與傳統的LZW壓縮算法的壓縮比基本相同,但壓縮和解壓操作的耗時均小于LZW壓縮算法且受文件大小影響更小。

Hadoop;日志;壓縮

0 引言

Hadoop[1]作為目前較為流行的分布式計算框架,已被廣泛地應用于大數據處理。為了方便用戶使用及調試,Hadoop會將其自身的運行狀況以日志的形式寫入磁盤,主要包括:各類守護進程的運行日志、MapReduce作業的運行日志等。當Hadoop集群規模增大及其使用時間的增長,日志的產生量會急劇增加,從而對磁盤存儲造成極大的壓力。

為了解決 Hadoop日志過大的問題,本文對Hadoop的日志結構進行了分析,并根據其特點,設計并實現了一種高效的無損壓縮算法,對日志進行壓縮以節省存儲資源,同時保證解壓縮過程的高速性。

1 Hadoop日志結構分析

Hadoop日志信息通過Log4j[2]產生,其具體格式為%d{ISO8601}%p%c:%m%n,具體參數說明如下:

●%d:日志時間點的日期或時間,默認格式為ISO8601

●%p:級別,包括:DEBUG,INFO,WARN,ERROR,FATAL

●%c:所屬的類,通常為所在類全名

●%m:代碼中輸出的信息

●%n:回車換行符

由此可知,Hadoop日志信息的具體結構如下:

日志產生時間+空格+級別+空格+所在類全名+冒號+空格+代碼輸出信息+回車換行符

因此,本文將該日志信息切分為4部分:日志產生時間、級別、所在類全名、代碼輸出信息。其中,日志產生時間又可分為日志產生日期與具體時間,因此又將日志產生時間分為兩塊:日志產生日期與日志產生時間(精確到毫秒)。

通過分析Hadoop具體的日志,發現日志產生日期、優先級、所在類全名重復率較高,因此,本文最終采用基于字典的方式實現Hadoop日志壓縮算法。

2 Hadoop壓縮算法

2.1 壓縮算法實現

本文提出的壓縮算法基于字典方式實現,建立了三張字典:mDate(用于存放日志產生時間)、mLevel(用于存放日志級別)、mName(用于存放所在類全名)。每張字典的表項為一個序號,用于區分與檢索。

壓縮算法的具體執行流程如圖1所示,首先判斷每一行中的數據是否為日志信息,若是則對其進行解析并進行切分,否則直接將其寫入緩存;然后判斷字典中是否已包含切分得到的值,若有則從字典中提取相應序號進行編碼,否則分配新序號進行編碼并更新字典;接著將編碼后的內容寫入緩存,若文件已壓縮完成,則先將字典寫入文件頭部,然后再寫入緩存中的壓縮內容。

圖1 壓縮算法執行流程圖

2.2 解壓算法實現

解壓算法的具體執行流程如圖2所示,解壓時首先讀取相應的三張字典(mDate、mLevel、mName),并將其加載進入內存,然后判斷讀入的每一行是否符合日志消息格式,若是,則根據字典將壓縮后內容中的序號替換為其在字典中對應的內容后寫入解壓縮文件,否則直接將該行寫入解壓縮文件。

3 實驗

本文實驗環境包含一臺主機,其CPU為Intel Core i5-3230M CPU 2.60GHz,內存為4GB,系統為64位Window7版。本文設計的壓縮算法利用了Java編程語言實現,JDK版本為1.7,堆大小配置如下:-Xms512m–Xmx512。

圖2 解壓算法執行流程圖

為了測試該算法性能,本文將其與傳統的LZW壓縮算法[3]進行了比較,具體做法是:利用兩種算法分別對6個不同大小的Hadoop日志文件進行壓縮和解壓,記錄了二者壓縮和解壓分別消耗的時間,并對比了二者的壓縮比 (壓縮比=壓縮后文件大小/壓縮前文件大小),各類測試分別進行了6次實驗,結果取其平均值。

本文提出的算法和LZW算法對不同文件大小的壓縮比對比結果如圖3所示,由結果可見,兩種算法對于不同大小的Hadoop日志文件的壓縮比基本相同。

本文提出的算法和LZW算法對不同文件大小的壓縮、解壓操作耗時對比結果如圖4所示,LZW壓縮算法隨著日志文件的增大,壓縮及解壓操作耗時均會線性增長,而本文提出的壓縮算法壓縮及解壓操作均較為快速,同時,日志文件增大時,壓縮及解壓操作基本不受影響,耗時變化不大。

4 結語

本文首先研究了Hadoop日志的組成結構,然后對其日志特點進行了分析,最后基于字典方式設計并實現了一種高效的Hadoop日志無損壓縮算法。通過測試可知,該算法壓縮及解壓速度快于LZW壓縮算法,且壓縮比與其基本相同,同時Hadoop日志文件增大對壓縮、解壓縮過程的耗時影響較小。

圖3 本文算法與LZW算法的壓縮比對比圖

圖4 本文算法與LZW算法的解、壓縮平均耗時對比圖

[1]Apache Hadoop Home Page[EB/OL].[2017-1-27].http://hadoop.apache.org.

[2]Apache Log4j Home Page[EB/OL].[2017-1-27].http://logging.apache.org/log4j/1.2/.

[3]Welch T A.A technique for high-performance data compression[J].Computer,1984,6(17):8-19.

Research and Implementation of Hadoop Log Compression Algorithm

WANG Yu-cong
(College of Computer Science,Sichuan University,Chengdu 610065)

The increased size and run-time growth of Hadoop cluster make the log data continued to increase,which leads to the large storage pressure.In order to save storage resources,studies an efficiently lossless compression algorithm of Hadoop log.The results show that the compression algorithm proposed is basically the same as the compression ratio of LZW compression algorithm,but the compression,decompression operation time of the proposed algorithm is much shorter than the LZW compression algorithm,and the proposed algorithm is less affected by the file size.

Hadoop;Log;Compress

1007-1423(2017)09-0134-03

10.3969/j.issn.1007-1423.2017.09.031

王煜驄(1991-),男,江蘇無錫人,在校學生,研究方向為分布式處理

2017-03-09

2017-03-15

主站蜘蛛池模板: 国产精品一区不卡| 日本日韩欧美| 欧美在线视频不卡| 五月婷婷中文字幕| 精品欧美一区二区三区久久久| 亚洲AV无码精品无码久久蜜桃| 亚洲人成成无码网WWW| 亚洲AV无码乱码在线观看代蜜桃 | 国产精品视频久| 亚洲专区一区二区在线观看| 亚洲毛片网站| 欧美激情伊人| 免费人成视频在线观看网站| 在线免费看黄的网站| 欧美不卡视频在线| 91精品久久久无码中文字幕vr| 精品色综合| 大陆精大陆国产国语精品1024| 国产成+人+综合+亚洲欧美| 亚洲成A人V欧美综合天堂| 夜夜爽免费视频| 国产午夜精品一区二区三区软件| 亚洲 欧美 中文 AⅤ在线视频| 日韩天堂视频| 国产又黄又硬又粗| 亚洲性色永久网址| 国产欧美日韩精品综合在线| 国产午夜无码专区喷水| 亚洲精品无码久久毛片波多野吉| 色婷婷成人网| 一本大道香蕉高清久久| 欧美a在线| 在线a视频免费观看| 青青青国产免费线在| 2021天堂在线亚洲精品专区| 日韩国产一区二区三区无码| 亚洲an第二区国产精品| 毛片网站观看| 国产香蕉97碰碰视频VA碰碰看| 亚洲区欧美区| 国产va视频| 国产精品 欧美激情 在线播放| 日韩一区二区三免费高清| 午夜毛片福利| 欧美日韩免费观看| 婷婷激情亚洲| 国产美女无遮挡免费视频网站 | 国产久操视频| 婷婷激情亚洲| 四虎免费视频网站| 亚洲男人的天堂久久香蕉网| 久久99精品久久久久纯品| 99视频免费观看| 91丨九色丨首页在线播放| 漂亮人妻被中出中文字幕久久| 国产农村妇女精品一二区| 免费毛片a| 免费jizz在线播放| 人妻丝袜无码视频| 日韩a级片视频| 久久a毛片| 亚洲精品国产精品乱码不卞| 国产激情第一页| 欧美日韩亚洲国产| 日韩最新中文字幕| 日韩东京热无码人妻| 在线精品亚洲一区二区古装| 99热这里只有成人精品国产| 久久精品视频一| 国产成人精品三级| 精品国产三级在线观看| 亚洲精品在线观看91| 亚洲人成影视在线观看| 国产日韩av在线播放| 久久天天躁狠狠躁夜夜2020一| 亚洲国产无码有码| 视频一本大道香蕉久在线播放 | 色综合五月| 人妻精品久久无码区| 国产高颜值露脸在线观看| 成人小视频网| 成年免费在线观看|