999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Java的大數(shù)據(jù)壓縮研究

2017-02-06 02:34:55宗家冰
數(shù)碼世界 2017年1期
關(guān)鍵詞:研究

宗家冰

遼寧錦州渤海大學(xué)信息科學(xué)與技術(shù)學(xué)院

基于Java的大數(shù)據(jù)壓縮研究

宗家冰

遼寧錦州渤海大學(xué)信息科學(xué)與技術(shù)學(xué)院

本文針對(duì)大數(shù)據(jù)壓縮存儲(chǔ)算法的研究與實(shí)現(xiàn),隨著數(shù)據(jù)庫(kù)承載的信息量的快速增長(zhǎng),大數(shù)據(jù)壓縮是一種必然趨勢(shì),數(shù)據(jù)壓縮包括兩種類(lèi)型:無(wú)損數(shù)據(jù)壓縮和有損數(shù)據(jù)壓縮,在本文中主要介紹使用較為廣泛的無(wú)損數(shù)據(jù)壓縮算法,論文中實(shí)現(xiàn)大數(shù)據(jù)壓縮是按照無(wú)損壓縮技術(shù)的方法,從基于統(tǒng)計(jì)和字典的數(shù)據(jù)壓縮優(yōu)缺點(diǎn)進(jìn)行比較研究,基于Java大數(shù)據(jù)BWT壓縮算法的不足,提出了一種改進(jìn)的NBWT大數(shù)據(jù)壓縮算法。對(duì)大數(shù)據(jù)的三個(gè)構(gòu)成元素:數(shù)據(jù)、時(shí)間標(biāo)簽和壓縮碼采用不同的數(shù)據(jù)編碼策略進(jìn)行壓縮,在數(shù)據(jù)壓縮過(guò)程中,提出了使用矢量方式壓縮數(shù)據(jù)的概念。通過(guò)設(shè)立大數(shù)據(jù)壓縮緩沖池的方法,最后對(duì)本文的改進(jìn)大數(shù)據(jù)壓縮算法進(jìn)行了仿真測(cè)試,測(cè)試結(jié)果表明,一種改進(jìn)大數(shù)據(jù)壓縮算法的壓縮率與壓縮時(shí)間都有所改善。

Java 大數(shù)據(jù) BWT壓縮算法 無(wú)損壓縮

1 引言

目前,隨著大數(shù)據(jù)的發(fā)展,計(jì)算機(jī)用于各行各業(yè)處理信息需求逐漸增多,系統(tǒng)內(nèi)部存儲(chǔ)數(shù)據(jù)量不斷增多,海量數(shù)據(jù)在時(shí)、空上指數(shù)倍增長(zhǎng),為海量信息存儲(chǔ)帶來(lái)不便,特別是數(shù)據(jù)量巨大、存儲(chǔ)要求較高的系統(tǒng)中需要對(duì)數(shù)據(jù)進(jìn)行加工后才存儲(chǔ)到系統(tǒng)中,必須對(duì)海量數(shù)據(jù)進(jìn)行有效的編碼、壓縮后進(jìn)行存儲(chǔ),為了能夠解決海量數(shù)據(jù)存儲(chǔ)BTW算法受到程序員的極大關(guān)注。

數(shù)據(jù)的表現(xiàn)形式多種,例如:符號(hào)、文字、字符、音樂(lè)、標(biāo)志、圖片、動(dòng)畫(huà)等多種形式。利用計(jì)算機(jī)來(lái)處理數(shù)據(jù)已經(jīng)面臨的一個(gè)問(wèn)題:海量數(shù)據(jù)的壓縮存儲(chǔ)與數(shù)據(jù)解壓等問(wèn)題。為此我們?cè)噲D采取其他的數(shù)據(jù)表達(dá)方式,目的是減少數(shù)據(jù)總量,這就需要對(duì)海量數(shù)據(jù)進(jìn)行壓縮。

數(shù)據(jù)壓縮算法分為無(wú)損壓縮和有損壓縮兩種數(shù)據(jù)壓縮編碼形式,相對(duì)于有損數(shù)據(jù)壓縮編碼來(lái)說(shuō),無(wú)損數(shù)據(jù)壓縮編碼的數(shù)據(jù)占用存儲(chǔ)空間較大,數(shù)據(jù)壓縮比并不高,但是,將其還原原始數(shù)據(jù)的同時(shí),沒(méi)有任何數(shù)據(jù)損壞,隨著無(wú)損壓縮算法逐漸被廣泛應(yīng)用,使得無(wú)損壓縮算法成為各個(gè)系統(tǒng)實(shí)現(xiàn)海量數(shù)據(jù)壓縮存儲(chǔ)的首選工具,由于本文是對(duì)BTW算法的一種改進(jìn)的海量數(shù)據(jù)壓縮存儲(chǔ)的算法,下文將會(huì)詳細(xì)的描述該改進(jìn)算法的主要步驟及其優(yōu)缺點(diǎn),并對(duì)該改進(jìn)的數(shù)據(jù)壓縮存儲(chǔ)算法進(jìn)行測(cè)試與歸納總結(jié)。

2 數(shù)據(jù)壓縮算法分類(lèi)研究

2.1 數(shù)據(jù)壓縮概念

在計(jì)算機(jī)科學(xué),數(shù)據(jù)壓縮是按照特定的規(guī)律經(jīng)過(guò)編碼減少的數(shù)據(jù)位數(shù)存儲(chǔ)過(guò)程。數(shù)據(jù)壓縮是指在縮減數(shù)據(jù)量且減少數(shù)據(jù)存儲(chǔ)空間,提高其數(shù)據(jù)存儲(chǔ)空間和數(shù)據(jù)處理效率,或按照一定的算法對(duì)海量數(shù)據(jù)進(jìn)行重新壓縮編碼,減少數(shù)據(jù)的冗余空間和數(shù)據(jù)存儲(chǔ)空間的一種信息編碼技術(shù)。

數(shù)據(jù)壓縮是信息技術(shù)研究中非常重要的分支,在信息技術(shù)中被稱為數(shù)據(jù)編碼。但是近些年來(lái),數(shù)據(jù)壓縮存儲(chǔ)己不僅是局限于數(shù)據(jù)編碼方法的研究,它已經(jīng)是一種獨(dú)立的研究分支體系,數(shù)據(jù)壓縮算法主要研究數(shù)據(jù)的存儲(chǔ)表示、壓縮編碼和解壓數(shù)據(jù)的方法,目的是減少數(shù)據(jù)在系統(tǒng)占據(jù)的存儲(chǔ)空間。

2.2 大數(shù)據(jù)壓縮分類(lèi)研究

數(shù)據(jù)壓縮包括有損數(shù)據(jù)壓縮存儲(chǔ)和無(wú)損數(shù)據(jù)壓縮存儲(chǔ)。無(wú)損數(shù)據(jù)壓縮存儲(chǔ)技術(shù)通常所說(shuō)的是數(shù)據(jù)壓縮編碼技術(shù),根據(jù)海量數(shù)據(jù)進(jìn)行壓縮編碼處理以達(dá)到壓縮存儲(chǔ)的過(guò)程,在數(shù)據(jù)壓縮存儲(chǔ)過(guò)程中,被壓縮的數(shù)據(jù)必須經(jīng)過(guò)解碼恢復(fù)原始數(shù)據(jù),數(shù)據(jù)壓縮分類(lèi)包括:字符、文本文件、數(shù)據(jù)庫(kù)數(shù)據(jù)、程序數(shù)據(jù)、圖像數(shù)據(jù)壓縮過(guò)程,一般為數(shù)據(jù)壓縮存儲(chǔ)是文字或數(shù)字等,而針對(duì)圖像數(shù)據(jù)壓縮、聲音壓縮、視頻圖像壓縮的效率是很低,無(wú)損數(shù)據(jù)壓縮存儲(chǔ)是必然的選擇基于統(tǒng)計(jì)和字典的數(shù)據(jù)壓縮算法,表1為數(shù)據(jù)壓縮存儲(chǔ)的分類(lèi)研究。

表1 數(shù)據(jù)壓縮存儲(chǔ)的分類(lèi)研究

3 一種改進(jìn)的大數(shù)據(jù)壓縮編碼算法

講述本文改進(jìn)的壓縮編碼方法的同時(shí),先介紹一下關(guān)于詞典方式壓縮編碼,根據(jù)的是大數(shù)據(jù)所本身包含具有重復(fù)性代碼序列的特征。壓縮編碼的常用格式為:zip格式、rar格式、xz格式等等。

在本文中,研究一種改進(jìn)的大數(shù)據(jù)壓縮編碼方式,無(wú)損編碼是大數(shù)據(jù)壓縮編碼的最優(yōu)方式,在實(shí)現(xiàn)大數(shù)據(jù)壓縮編碼的過(guò)程中使得壓縮效率和壓縮比盡可能最快最優(yōu)為最佳。

3.1 一種改進(jìn)的大數(shù)據(jù)壓縮算法的概述

本文改進(jìn)的大數(shù)據(jù)壓縮編碼主要是將壓縮數(shù)據(jù)進(jìn)行字符和整數(shù)進(jìn)行分開(kāi)壓縮編碼,字符壓縮算法使用BWT算法,其應(yīng)用壓縮排序算法對(duì)字符數(shù)據(jù)塊進(jìn)行重組,將原始的數(shù)據(jù)轉(zhuǎn)換成一個(gè)相似的一段數(shù)據(jù),此過(guò)程并不是進(jìn)行壓縮算法,而是為了提高數(shù)據(jù)壓縮率的輔助工具,在壓縮編碼的過(guò)程中需要存儲(chǔ)一些額外的數(shù)據(jù)用于后續(xù)的解碼操作。BWT算法最重要之處是能夠產(chǎn)生一種轉(zhuǎn)換數(shù)據(jù)比原始數(shù)據(jù)存在更多更長(zhǎng)的連續(xù)編碼數(shù)據(jù);另一種數(shù)據(jù)壓縮編碼算法主要是針對(duì)整數(shù)進(jìn)行壓縮編碼,較小的整數(shù)用較短的編碼字段,較大的數(shù)據(jù)使用較大的編碼字段表示。假設(shè)有個(gè)整數(shù)x要進(jìn)行整數(shù)壓縮編碼,當(dāng)x的值趨于較小時(shí),此時(shí)的數(shù)據(jù)壓縮編碼字段較短,可以有效的節(jié)省大數(shù)據(jù)的存儲(chǔ)空間。

3.2 一種改進(jìn)的大數(shù)據(jù)壓縮算法原理

NBWT為改進(jìn)的大數(shù)據(jù)壓縮算法,該算法描述的是給定的待進(jìn)行數(shù)據(jù)壓縮的一段字符,該段字符集合標(biāo)示為X={X1,X2,X3,…,Xn},使用本文的改進(jìn)的大數(shù)據(jù)壓算法先要判斷給定的大數(shù)據(jù)中是否包含整數(shù)字符,如果包含整數(shù)字符交給Golomb編碼函數(shù),否則直接交給NBWT編碼函數(shù),將讀取的數(shù)據(jù)進(jìn)行循環(huán)右移位后旋轉(zhuǎn),經(jīng)過(guò)一系列的移位旋轉(zhuǎn)獲取到新的數(shù)據(jù),再將新數(shù)據(jù)按照字典升序進(jìn)行排序操作,BWT壓縮算法對(duì)于由相同符號(hào)開(kāi)頭的大數(shù)據(jù)的壓縮作用非常好。

3.3 一種改進(jìn)的大數(shù)據(jù)壓縮算法實(shí)現(xiàn)步驟

給定的X大數(shù)據(jù)待壓縮編碼序列,其中x表示為整數(shù)編碼部分,Golomb編碼算法的實(shí)現(xiàn)步驟:

①選取一個(gè)參數(shù)m,確定編碼的位數(shù),b=2^m,m是需要先確認(rèn)的參數(shù)值;

②定義q=[int](x-1)/b,表示一個(gè)取整過(guò)程;

③使用r=x-qb-1,經(jīng)過(guò)式子轉(zhuǎn)化為x=qb+r+1,此種編碼過(guò)程由兩個(gè)部分組成,一是q個(gè)1加上1個(gè)0組成,表示q;另一部分由m個(gè)位組成表示成為r。

接下來(lái)討論針對(duì)上文給定的數(shù)據(jù)序列X,改進(jìn)的NBWT數(shù)據(jù)壓縮編碼算法的實(shí)現(xiàn)步驟為:

①判斷給定的X序列數(shù)據(jù)是否包含整數(shù),如果包含交給Golomb編碼算法,否則進(jìn)行2;

②將X的序列進(jìn)行循環(huán)右移位,形成一個(gè)新的數(shù)據(jù)數(shù)組X1,X={Xn,Xn-1,Xn-2,…,X1};

③將X1按照字典的升序進(jìn)行排序;

④計(jì)算X1的長(zhǎng)度,N=size(X1);

⑤定義i=0(0<i<N),循環(huán)處理X1和X之間的對(duì)應(yīng)關(guān)系,X[N-i-1]=X1[i];

⑥輸出已經(jīng)編碼的數(shù)據(jù)序列。

實(shí)現(xiàn)大數(shù)據(jù)的解壓算法是根據(jù)大數(shù)據(jù)壓縮算法而實(shí)現(xiàn)的一種可逆算法,這種算法按照壓縮算法的逆過(guò)程進(jìn)行,實(shí)現(xiàn)解壓算法非常簡(jiǎn)單,在這里不再闡述。

4 一種改進(jìn)的大數(shù)據(jù)壓縮算法測(cè)試及其應(yīng)用分析

改進(jìn)的大數(shù)據(jù)壓縮算法性能比較,BWT壓縮編碼算法優(yōu)點(diǎn)是簡(jiǎn)單易懂,但是其缺點(diǎn)是耗費(fèi)更多的內(nèi)存資源,因?yàn)樗紦?jù)更多多字符串存儲(chǔ)循右移的數(shù)組序列。

改進(jìn)的大數(shù)據(jù)壓縮編碼算法應(yīng)用在數(shù)據(jù)庫(kù)需要存儲(chǔ)的大數(shù)據(jù)環(huán)境下,測(cè)試數(shù)據(jù)取于某個(gè)系統(tǒng)內(nèi)的數(shù)據(jù)庫(kù)大數(shù)據(jù)模塊,分別對(duì)給定的大數(shù)據(jù)進(jìn)行壓縮測(cè)試及其分析,包括:壓縮時(shí)間、壓縮比例、解壓時(shí)間、還原質(zhì)量等等。本文給定的大數(shù)據(jù)文件大小為100G,下面從不同的參數(shù)進(jìn)行比較壓縮算法的性能(表2)。

表2 比較不同種壓縮算法的性能

大數(shù)據(jù)壓縮算法測(cè)試及結(jié)果表明,改進(jìn)的NBWT壓縮算法由于其他算法,該算法無(wú)論在壓縮時(shí)間和壓縮比上都具有一定的優(yōu)勢(shì),提高大數(shù)據(jù)的壓縮比和降低大數(shù)據(jù)的壓縮時(shí)間是改進(jìn)算法的唯一目的。

5 結(jié)論與展望

本文研究的大數(shù)據(jù)壓縮算法,通過(guò)對(duì)BWT算法的改進(jìn)與設(shè)計(jì),通過(guò)對(duì)NBWT的算法實(shí)現(xiàn)步驟簡(jiǎn)單的描述,最后本文給出本文大數(shù)據(jù)算法的測(cè)試應(yīng)用分析過(guò)程及其及其測(cè)試結(jié)果的性能比較,測(cè)試結(jié)果表明,一種改進(jìn)大數(shù)據(jù)壓縮算法的壓縮率與壓縮時(shí)間都有所改善。

[1]Moghaddam Alborz,Kabir Ehsanollah. Dynamic and memory efficient web page prediction model using LZ78 and LZW algorithms[J]. 14th Information Computer Conference, 2009: 675-680

[2]P.Ferragina,I.Nitto,R .Venturini. On the bitcomplexity of Lempel-Ziv compression[J]. Proceedings of the Twentieth Annual ACM-SIAM Symposium on Discrete Algorithms, 2009:768-777

[3]R. Grossi, J. S. Vitter, Compressed suffix arrays and suffix trees with applications to text indexing and string matching[J]. SIAM J. Comput. 2005,35(2):378-407

[4]Jacob Ziv. The Universal LZ77 Compression Algorithm Is Essentially Optimal for Individual Finite-Length N-Blocks[J]. IEEE Transactions on Information Theory, 2009,55(5):1941-1944

猜你喜歡
研究
FMS與YBT相關(guān)性的實(shí)證研究
2020年國(guó)內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關(guān)于遼朝“一國(guó)兩制”研究的回顧與思考
EMA伺服控制系統(tǒng)研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側(cè)面碰撞假人損傷研究
關(guān)于反傾銷(xiāo)會(huì)計(jì)研究的思考
焊接膜層脫落的攻關(guān)研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 欧美亚洲一二三区| 国产精品va免费视频| 日韩天堂在线观看| 找国产毛片看| 国产成人精品一区二区免费看京| 欧美性爱精品一区二区三区| 超碰色了色| 91探花在线观看国产最新| 欧美天堂在线| 亚洲伊人久久精品影院| 国产sm重味一区二区三区| 高潮爽到爆的喷水女主播视频 | 久久久受www免费人成| 国产精彩视频在线观看| 欧美人人干| 国产乱人伦AV在线A| 亚洲天堂日韩在线| 中文毛片无遮挡播放免费| 狠狠色综合网| 影音先锋丝袜制服| 国产新AV天堂| 无码内射在线| 中文字幕资源站| 欧美午夜性视频| 3D动漫精品啪啪一区二区下载| 国产美女91视频| 在线a网站| 国产又爽又黄无遮挡免费观看 | 中文字幕无码电影| 欧日韩在线不卡视频| 免费福利视频网站| 丁香综合在线| 青草视频久久| 久久一色本道亚洲| 色婷婷亚洲十月十月色天| 亚洲综合精品香蕉久久网| 国产av无码日韩av无码网站| 国产精品女人呻吟在线观看| 亚洲精品图区| 亚洲福利片无码最新在线播放| 国产精品亚洲а∨天堂免下载| 久久精品午夜视频| 99在线国产| 91麻豆国产视频| 毛片免费在线| 成年人免费国产视频| 中文字幕1区2区| 丁香婷婷久久| 3344在线观看无码| 老司国产精品视频91| 亚洲一区二区约美女探花| 一本一本大道香蕉久在线播放| 伊人久久福利中文字幕| 免费一级全黄少妇性色生活片| 亚洲欧美成人影院| 人妻无码中文字幕一区二区三区| 午夜福利在线观看入口| 99热这里只有免费国产精品| 国产真实二区一区在线亚洲| 天天综合亚洲| 日本不卡在线播放| 亚洲综合婷婷激情| 日韩欧美国产三级| 无码精品国产VA在线观看DVD| 精品久久高清| 波多野结衣视频一区二区| 最新亚洲人成无码网站欣赏网 | 国产一二三区在线| 国产精品一区二区不卡的视频 | 亚洲欧美另类中文字幕| 欧美在线天堂| 亚洲国产精品一区二区高清无码久久| 一区二区三区精品视频在线观看| 亚洲人成电影在线播放| 久久a级片| 色偷偷一区二区三区| 日韩久草视频| 国产午夜无码片在线观看网站 | 久久无码高潮喷水| 国产成人高精品免费视频| 国产尤物在线播放| 日韩高清一区 |