999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

運(yùn)用Hadoo高效存儲(chǔ)海量碎片文件的方法

2018-03-23 11:59:34劉揚(yáng)劉冰
電子技術(shù)與軟件工程 2018年4期
關(guān)鍵詞:實(shí)驗(yàn)方法系統(tǒng)

劉揚(yáng) 劉冰

摘 要學(xué)院綜合管理信息系統(tǒng),是學(xué)院開(kāi)展各項(xiàng)工作的信息化方式和途徑,在信息共享的同時(shí),減少工作數(shù)據(jù)報(bào)送的重復(fù)現(xiàn)象,結(jié)合技術(shù)手段以實(shí)現(xiàn)工作效率的提高。本文從實(shí)際出發(fā),從技術(shù)的角度,就目前本單位所使用的綜合管理信息系統(tǒng)中存在的問(wèn)題進(jìn)行了深入研究和剖析,對(duì)系統(tǒng)性能進(jìn)行了技術(shù)優(yōu)化和改進(jìn),減少了碎片化數(shù)據(jù)的產(chǎn)生,提升了系統(tǒng)的整體效能。

【關(guān)鍵詞】Hadoop 碎片化

在目前單位使用的綜合管理信息系統(tǒng)中,應(yīng)用層中體現(xiàn)為多用戶(hù)并發(fā)訪問(wèn)系統(tǒng)出現(xiàn)數(shù)據(jù)傳輸過(guò)慢造成大量的數(shù)據(jù)延遲,系統(tǒng)卡死以及用戶(hù)掉線的情況。在系統(tǒng)底層體現(xiàn)為CPU和內(nèi)存使用率長(zhǎng)時(shí)間保持在較高狀態(tài)。

為了優(yōu)化并提高系統(tǒng)整體效能,從根本上解決系統(tǒng)碎片化處理問(wèn)題,找到解決碎片化處理的方法和機(jī)制,所以我們進(jìn)行了本次實(shí)驗(yàn)。

實(shí)驗(yàn)環(huán)境如表1所示。

實(shí)驗(yàn)選取功能相對(duì)VirtualBox更強(qiáng)的VMware Workstation虛擬機(jī)軟件,以學(xué)院服務(wù)器使用的Ubuntu 16.04作為虛擬機(jī)的操作系統(tǒng),同時(shí)使用穩(wěn)定的Hadoop-2.7.4部署偽分布式Hadoop實(shí)驗(yàn)環(huán)境,Hadoop的源代碼由Java實(shí)現(xiàn),故選取穩(wěn)定的Openjdk-8-jdk版本進(jìn)行Java環(huán)境的配置。

在完成偽分布式hadoop部署后啟動(dòng)hadoop將預(yù)先準(zhǔn)備好的75K個(gè)文件從本地存儲(chǔ)到hdfs分布式文件系統(tǒng)中,在一次性存儲(chǔ)如此大量文件時(shí),虛擬機(jī)出現(xiàn)了短暫性死機(jī)情況,幾分鐘后,shell出現(xiàn)大量警告,如圖1。

著手開(kāi)始分析出現(xiàn)警告的原因,使用hdfs shell命令查看hdfs分布式文件系統(tǒng)上存儲(chǔ)數(shù)據(jù)的文件,發(fā)現(xiàn)只有部分文件被成功的從本地存儲(chǔ)到分布式文件系統(tǒng),這說(shuō)明所執(zhí)行的命令沒(méi)有錯(cuò)誤。那究竟是什么原因?qū)е逻€有大量的文件沒(méi)有被成功存儲(chǔ)到分布式文件系統(tǒng)上?帶著這個(gè)疑問(wèn),開(kāi)始查詢(xún)hdfs分布式文件系統(tǒng)存儲(chǔ)文件的相關(guān)資料。

首先,hdfs分布式文件系統(tǒng)的存儲(chǔ)分為元數(shù)據(jù)存儲(chǔ)和真實(shí)數(shù)據(jù)存儲(chǔ),元數(shù)據(jù)存儲(chǔ)在namenode節(jié)點(diǎn)上,真實(shí)數(shù)據(jù)則存儲(chǔ)在datanode節(jié)點(diǎn)上,結(jié)合本次實(shí)驗(yàn)環(huán)境,所部署的是ubuntu下的偽分布式hadoop,datanode節(jié)點(diǎn)和namenode節(jié)點(diǎn)在同一臺(tái)虛擬機(jī)上,所以元數(shù)據(jù)和真實(shí)的數(shù)據(jù)都是存儲(chǔ)在同一臺(tái)虛擬機(jī)上的。在分析原因的過(guò)程中,我注意到了一個(gè)地方,就是hdfs分布式文件系統(tǒng)不適合做的事——存儲(chǔ)大量小文件。因?yàn)閚amenode要存儲(chǔ)HDFS的metadata(比如目錄的樹(shù)狀結(jié)構(gòu),每個(gè)文件的文件名、ACL、長(zhǎng)度、owner、文件內(nèi)容存放的位置等等信息)會(huì)受到namenode內(nèi)存的限制。分析到這里似乎找到了出現(xiàn)警告的根源。

根據(jù)分析得知namenode節(jié)點(diǎn)的元數(shù)據(jù)需要放在內(nèi)存中。其中,saveFSImage方法的參數(shù)代表內(nèi)存元數(shù)據(jù)將要保存的位置,磁盤(pán)確實(shí)有塊空間,對(duì)元數(shù)據(jù)進(jìn)行持久化存儲(chǔ),名為fsimage,如果直接讀取磁盤(pán)文件,速度肯定跟不上,內(nèi)存中也要放一些元數(shù)據(jù)信息,雖然很容易丟失,但可以提供查詢(xún)服務(wù),實(shí)際上就是讀寫(xiě)分離,由讀寫(xiě)分離就有了數(shù)據(jù)一致性的問(wèn)題,因?yàn)閷?xiě)入數(shù)據(jù),沒(méi)有寫(xiě)入內(nèi)存中,最新的元數(shù)據(jù)記錄在哪呢?實(shí)際上是記錄在一個(gè)很小的文件中,這個(gè)文件不提供修改,只提供追加,以日志的形式記錄,一直都保持著幾十兆大小,名為edits***.log,比如在上傳一個(gè)文件時(shí),先對(duì)NAMENODE進(jìn)行詢(xún)問(wèn),往哪里寫(xiě)?NAMENODE一邊分配一邊記錄,將空間分配信息記錄edits**.log,當(dāng)完成一個(gè)副本的寫(xiě)入工作后,通知NAMENODE,被認(rèn)為是寫(xiě)入成功,這時(shí),將edits**.log的數(shù)據(jù)更新至內(nèi)存,此時(shí),內(nèi)存中的數(shù)據(jù)是最新的,即使現(xiàn)在斷電,最新的元數(shù)據(jù)在edits**.log也有保存。

既然如此,之前遇到的警告就是因?yàn)閮?nèi)存的原因使得件沒(méi)有全部都存儲(chǔ)到hdfs分布式文件系統(tǒng)中,有一部分存儲(chǔ)成功,很容易讓人聯(lián)想到是不是因?yàn)閮?nèi)存不足導(dǎo)致的呢?

Namenode元數(shù)據(jù)在內(nèi)存中所占空間的計(jì)算方法如表2。

元數(shù)據(jù)在內(nèi)存中所占空間包含文件和塊兩部分,由于實(shí)驗(yàn)環(huán)境為偽分布式Hadoop,文件塊的副本數(shù)目為一,忽略文件名長(zhǎng)度對(duì)計(jì)算結(jié)果的影響,分步計(jì)算過(guò)程如下:

文件所占內(nèi)存:

75000*100*1000B≈750MB

塊所占內(nèi)存:

5000*(250*1000B+24*1)≈750MB

計(jì)算元數(shù)據(jù)需要總內(nèi)存:

750MB+750MB≈1.5GB

然而這只是粗略計(jì)算,其中并沒(méi)有包含塊信息和其他信息,實(shí)際情況會(huì)比所計(jì)算的結(jié)果多出很多。通過(guò)使用hdfs的oiv和ls這兩個(gè)命令測(cè)得namenode實(shí)際使用內(nèi)存大約2.2G,而在實(shí)驗(yàn)環(huán)境中分給虛擬機(jī)內(nèi)存正好是2.5G。一直到現(xiàn)在,之前遇到的問(wèn)題才真正得到正確的解答。讓我更進(jìn)一步地了解hdfs分布式文件系統(tǒng)存儲(chǔ)的機(jī)制。hdfs分布式文件系統(tǒng)無(wú)法高效完成對(duì)海量碎片文件的存儲(chǔ),仔細(xì)想一想真的是這樣,七萬(wàn)個(gè)文件會(huì)占據(jù)2.2G內(nèi)存的硬件資源,那七千萬(wàn)個(gè)文件,乃至七億個(gè)文件,將會(huì)占據(jù)多少的內(nèi)存硬件資源,而一個(gè)大型的分布式系統(tǒng),在存儲(chǔ)大文件時(shí)所產(chǎn)生的“碎片”文件的數(shù)量是不可預(yù)估的,當(dāng)務(wù)之急是針對(duì)這個(gè)問(wèn)題提出一種行之有效的解決方法。

在上面提到的Namenode元數(shù)據(jù)所需內(nèi)存的計(jì)算公式中,注意到所需內(nèi)存大小與文件名長(zhǎng)度有很大關(guān)系,那么,如果能夠找到一種方法,能夠像windows和linux操作系統(tǒng)那樣實(shí)現(xiàn)對(duì)文件的壓縮,是不是能夠有效的解決這個(gè)問(wèn)題呢?

在這里就要探討一種hdfs存儲(chǔ)海量“碎片”文件的解決方法——Hadoop Archive。它是通過(guò)archive工具來(lái)將多個(gè)文件建立為歸檔文件,這種歸檔文件并不同于windows和linux操作系統(tǒng)下的壓縮文件,首先歸檔文件的擴(kuò)展名是*.har,并且在歸檔后還可以直接訪問(wèn)每一個(gè)文件,但是并沒(méi)有實(shí)現(xiàn)壓縮的功能,除此之外,archive文件一旦創(chuàng)建就無(wú)法改變,這就意味這你要改一些東西的話(huà),你需要重新創(chuàng)建archive文件。在Hadoop archive中包含兩種文件,分別是元數(shù)據(jù)和數(shù)據(jù)文件,元數(shù)據(jù)以?xún)煞N形式存在———_index和_masterindex文件,在_index文件中包含了歸檔文件所含文件的文件名和位置信息。

從圖2所示布局圖中可以看出,Masterindex指向index,index的各個(gè)部分則指向不同的數(shù)據(jù),這種布局使得歸檔文件實(shí)現(xiàn)了類(lèi)似于目錄的功能,而歸檔文件中的數(shù)據(jù)文件對(duì)于用戶(hù)來(lái)說(shuō)又是透明的,用戶(hù)在建立歸檔文件后仍然能夠直接訪問(wèn)內(nèi)部的數(shù)據(jù)文件,唯一的缺點(diǎn)就是沒(méi)有實(shí)現(xiàn)數(shù)據(jù)追加的功能,一旦歸檔文件被創(chuàng)建,如果想要實(shí)現(xiàn)對(duì)歸檔文件內(nèi)容的調(diào)整,就只能重新創(chuàng)建歸檔文件。

通過(guò)圖4所示效能比對(duì)圖我們可以看出在系統(tǒng)底層集成了Hadoop Archive方法后,對(duì)照原有系統(tǒng)在碎片哈數(shù)據(jù)處理方面有了較大的提高。并且在系統(tǒng)響應(yīng)和并發(fā)響應(yīng)中也有了很大的提高,這樣一來(lái)我們可以看出構(gòu)建歸檔文件方法對(duì)于碎片化處理底層數(shù)據(jù)和優(yōu)化十分有效,也是我們找出了這樣一條系統(tǒng)優(yōu)化和提升的新思路。

參考文獻(xiàn)

[1]查禮.基于Hadoop的大數(shù)據(jù)計(jì)算技術(shù)[J].科研信息化技術(shù)與應(yīng)用,2012(06).

作者簡(jiǎn)介

劉揚(yáng)(1982-),男,山東省濟(jì)南市人。大學(xué)本科學(xué)歷,初級(jí)職稱(chēng)。研究方向?yàn)檐浖こ蹋F(xiàn)從事一線教學(xué)工作。

劉冰(1997-),男,山東省濰坊市人。山東電子職業(yè)技術(shù)學(xué)院大二學(xué)生。

作者單位

山東電子職業(yè)技術(shù)學(xué)院 山東省濟(jì)南市 250000

猜你喜歡
實(shí)驗(yàn)方法系統(tǒng)
記一次有趣的實(shí)驗(yàn)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無(wú)人機(jī)系統(tǒng)
ZC系列無(wú)人機(jī)遙感系統(tǒng)
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产18页| 欧美高清视频一区二区三区| 在线观看国产精品第一区免费| 99999久久久久久亚洲| 久久国产热| 国产精品污视频| 日韩美女福利视频| 欧美中日韩在线| 人妻夜夜爽天天爽| 亚洲午夜福利在线| 国产精品偷伦在线观看| 国产成人亚洲综合A∨在线播放| 免费人成网站在线观看欧美| 国产成人超碰无码| 国内老司机精品视频在线播出| 好紧太爽了视频免费无码| 久久香蕉国产线看观| 久久黄色视频影| 她的性爱视频| 国产一区二区三区免费观看 | 超清无码一区二区三区| 久久亚洲美女精品国产精品| 亚洲国产综合精品一区| 亚洲综合婷婷激情| 国产一区二区福利| 中国毛片网| 精品久久综合1区2区3区激情| 看国产毛片| 久久久久无码精品| 婷五月综合| 亚洲乱码精品久久久久..| 九九视频免费在线观看| 91热爆在线| 国产国产人在线成免费视频狼人色| 一边摸一边做爽的视频17国产| 国产激情在线视频| 国产毛片片精品天天看视频| 伊人查蕉在线观看国产精品| 午夜爽爽视频| 国产导航在线| 凹凸国产分类在线观看| 亚洲人精品亚洲人成在线| 欧美黑人欧美精品刺激| 97无码免费人妻超级碰碰碰| av手机版在线播放| 国产精品夜夜嗨视频免费视频| 欧美激情综合一区二区| 欧美一区二区三区欧美日韩亚洲| 亚洲an第二区国产精品| 久久天天躁狠狠躁夜夜2020一| 韩国福利一区| 91毛片网| 成人无码区免费视频网站蜜臀| 国产97公开成人免费视频| 九九线精品视频在线观看| 天堂岛国av无码免费无禁网站| 99草精品视频| 一区二区三区成人| 久久综合丝袜长腿丝袜| 亚洲男人在线| 重口调教一区二区视频| 欧美另类一区| a毛片免费在线观看| 国产色婷婷| 国产精品亚洲一区二区在线观看| 久久国产乱子伦视频无卡顿| 国产精品美女在线| 欧美一区二区三区国产精品| 国产欧美日韩另类| 2022国产91精品久久久久久| 九色91在线视频| 波多野结衣视频一区二区 | 国产精品亚欧美一区二区| WWW丫丫国产成人精品| 婷婷伊人五月| 国产成人AV综合久久| 无码人中文字幕| 精品一区国产精品| 婷婷99视频精品全部在线观看| 国产欧美视频在线观看| 亚洲无码视频一区二区三区 | 国产本道久久一区二区三区|