楊蓮 馬磊 呂傳愛 李焱
摘 要:現(xiàn)如今,科技發(fā)展速度不斷加快,云存儲效率在先進科技的帶動下大大提高,但云存儲文件系統(tǒng)應用期間受靜態(tài)完全副本冗余機制影響較大,這在一定程度上會增加云存儲負載壓力,最終影響系統(tǒng)運行穩(wěn)定性,減慢系統(tǒng)運行速度。文章首先簡要介紹RS糾刪碼,然后針對HDFS完全副本與糾刪碼對比分析,最后重點探究RS糾刪碼基礎下HDFS云存儲動態(tài)副本策略。
關(guān)鍵詞:RS糾刪碼;HDFS;云存儲;動態(tài)副本策略
中圖分類號:TP333 文獻標志碼:A 文章編號:2095-2945(2018)24-0038-02
Abstract: Nowadays, the scientific and technological development is being accelerated, and the efficiency of cloud storage is greatly improved by advanced science and technology. However, the redundant mechanism of static full replica greatly affects the application of cloud storage file system. To some extent, this will increase the cloud storage load pressure, and ultimately affect the stability of the system and slow down the speed of the system. This paper first briefly introduces RS erasure codes, then compares HDFS full replica with erasure codes, and finally focuses on the dynamic replication strategy of HDFS cloud storage based on RS erasure codes.
Keywords: RS erasure code; HDFS; cloud storage; dynamic replication strategy
前言
隨著云存儲文件系統(tǒng)應用頻率的不斷提高,以及系統(tǒng)存儲量的相應增加,HDFS云存儲動態(tài)副本策略能夠更好的滿足系統(tǒng)應用需要,同時,還能豐富RS糾刪碼理論內(nèi)容,大大縮短系統(tǒng)相應時間。由此可見,本文針對該論題展開探究具有必要性,論題探究如下。
1 RS糾刪碼基本介紹
所謂RS糾刪碼,指的是等分數(shù)據(jù)文件于數(shù)據(jù)塊,在此期間,字節(jié)為等分單位,接下來借助編碼完成校驗塊生成操作。針對數(shù)據(jù)還原處理時,充分準備糾刪碼個別數(shù)據(jù)塊的校驗塊即可,其中,數(shù)據(jù)塊內(nèi)含多個字節(jié),所含字節(jié)長度為W位。丟失數(shù)據(jù)分塊在允許的塊數(shù)范圍內(nèi),則原數(shù)據(jù)文件恢復不會受到影響[1]。
2 對比分析HDFS完全副本與糾刪碼
大數(shù)據(jù)時代悄然而至,在這一時代背景中,云存儲構(gòu)建存儲資源池,以此實現(xiàn)大數(shù)據(jù)存儲目標。現(xiàn)如今,云存儲應用范圍較廣,云存儲產(chǎn)品基于數(shù)據(jù)冗余機制完成具體應用,常見方式主要有兩種,第一種即完全副本冗余——DPHS,第二種即糾刪碼——RS。前者即針對數(shù)據(jù)塊復制,并存儲于不同數(shù)據(jù)節(jié)點,這能大大提高系統(tǒng)利用率,完全副本冗余——DPHS應用簡答,但應用成本較高,并且還會影響系統(tǒng)可拓展性。相對而言,糾刪碼——RS能夠增強系統(tǒng)可靠性,提高空間利用效率。下文針對二者存在的優(yōu)缺點具體介紹,以便為接下來的分析工作奠定理論基礎。
2.1 完全副本冗余機制
DPHS模塊細分兩類,第一類即分布式存儲,第二類即分布式管理,它以slave架構(gòu)為基礎,由DataDode、NameNode等節(jié)點組成,兩節(jié)點分別負責數(shù)據(jù)存儲和原數(shù)據(jù)管理。DPHS針對數(shù)據(jù)分塊存儲,以此提高文件存儲效率以及可靠性,同時,還能提高數(shù)據(jù)利用率,DPHS應用完全副本策略不僅會延長索引時間,而且還會提高線性成本,最終會增加系統(tǒng)運行阻力,不利于提升系統(tǒng)性能。
2.2 糾刪碼冗余
糾刪碼在線性編碼特點的引導下大大提高空間利用率,并且能在短時間內(nèi)糾正錯誤,盡最大可能保證數(shù)據(jù)準確性。相關(guān)學者對比分析糾刪碼冗余以及完全備份冗余,分析可知,相同條件下前一種方法能夠擴大存儲空間。本文介紹的RS糾刪碼特點表現(xiàn)為:小容量;較強糾錯能力;編碼解碼速度較慢,將其用于谷歌分布式文件系統(tǒng)——Colossus,有步驟完成數(shù)據(jù)輸入。據(jù)實踐總結(jié)可知,RS糾刪碼應用過程中存在些許不足,即編碼解碼過程較復雜,導致解碼效率大大降低。
從上述介紹中可以看出,完全副本冗余——DPHS與糾刪碼——RS均存在應用優(yōu)勢和不足,為了更好的彌補不足,應用HDFS云存儲動態(tài)副本策略,以此提升系統(tǒng)實用性,該策略具體分析如下。
3 基于RS糾刪碼下HDFS云存儲動態(tài)副本策略分析
3.1 基本介紹
以文件為目標應用RS糾刪碼動態(tài)副本策略,最初應用HDFS的過程中,為提高系統(tǒng)可靠性,加快數(shù)據(jù)讀取速度,適當應用完全副本策略,同時,細分文件熱度級別,使其對應副本數(shù)。接下來有步驟完成增減操作,直到文件熱度降低,待熱度低至要求的標準后,利用RS編碼細分為兩部分,第一部分即數(shù)據(jù)部分,數(shù)據(jù)利用率相對較高;第二部分即冗余編碼部分,待數(shù)據(jù)恢復后方可應用,并在各個數(shù)據(jù)節(jié)點合理安排編碼塊。編碼文件內(nèi)部數(shù)據(jù)塊讀取時,一旦出現(xiàn)數(shù)據(jù)丟失現(xiàn)象,通過解碼操作進行文件獲取[2]。
3.2 制定設計目標
由于數(shù)據(jù)增長速度不斷加快,數(shù)據(jù)量大大增多,對此,應維持云存儲負載均衡能力,全面彌補完全副本冗余策略存在的劣勢,設計合理的基于RS糾刪碼的動態(tài)副本冗余策略,在這一過程中制定設計目標。首先,掌握當前大數(shù)據(jù)時代數(shù)據(jù)快速運轉(zhuǎn)需要,并提高數(shù)據(jù)讀取效率;其次,提高數(shù)據(jù)真實性和可靠性,與時俱進的更新存儲設備,避免數(shù)據(jù)信息失效,如果數(shù)據(jù)更新速度不及時,那么數(shù)據(jù)可靠性得不到保證;然后,減少數(shù)據(jù)存儲成本,因為數(shù)據(jù)量不斷增多,只有合理控制數(shù)據(jù)存儲成本,才能做好系統(tǒng)維護工作,并且系統(tǒng)拓展性能會不斷優(yōu)化。最后,優(yōu)化系統(tǒng)拓展性,增加適量的存儲設備,確保系統(tǒng)存儲水平大大提高。
3.3 優(yōu)化副本模塊
HDFS云存儲動態(tài)副本策略在文件處理的過程中,要想降低存儲成本,務必細分文件內(nèi)容,平衡系統(tǒng)負載能力。在此期間,副本模塊用來調(diào)整文件熱度以及副本數(shù)量,只有文件熱度低至要求標準,副本數(shù)自然會減少,最終存儲成本會大大降低。對于高熱度、多副本數(shù)的文件處理時,通過適當降低負載節(jié)點來平衡負載能力,充分發(fā)揮負載均衡優(yōu)勢。
針對文件熱度計算時,既要了解文件大小,又要準確統(tǒng)計訪問頻率,因為高熱度文件的訪問次數(shù)十分頻繁,進而會相應增加副本數(shù),大大提高數(shù)據(jù)讀取效率。在這一過程中,細分文件熱度,并對應副本數(shù)與各級文件熱度,據(jù)此有步驟完成文件副本調(diào)整任務。如果副本數(shù)少于3,那么應用糾錯碼編譯模塊有序調(diào)整,盡可能提高數(shù)據(jù)可靠性。
3.4 調(diào)整糾刪碼編解碼模塊
糾刪碼編解碼模塊圍繞HDFS完成文件編解任務,這在一定程度上能夠減輕客戶端工作壓力,避免客戶端工作任務量過多出現(xiàn)延時操作現(xiàn)象,與此同時,能夠提升用戶滿意度,有利于提升系統(tǒng)服務質(zhì)量。糾刪碼——RS依據(jù)矩陣差異完成類別劃分,以此降低編碼復雜度。糾刪碼編解碼模塊應用異步編碼模式,首先應用多副本方式完成文件存儲任務,待系統(tǒng)常規(guī)化運行后,針對糾刪碼編解碼模塊適當調(diào)整,細分文件熱度級別,以便為文件編碼奠定良好基礎。
3.5 實驗分析
針對基于RS糾刪碼下HDFS云存儲動態(tài)副本策略應用效果進行實驗分析,全面了解該策略優(yōu)越性,同時,構(gòu)建HDFS集群環(huán)境,有步驟組織測試活動,具體分析如下。
數(shù)據(jù)可靠性:針對RS(7.11)編碼處理,所選節(jié)點故障數(shù)量為四個,動態(tài)副本策略應用后,其中一個節(jié)點故障能夠高效恢復文件,其余三個節(jié)點故障則不可。存儲效率:動態(tài)副本策略適時應用,不僅能夠提高系統(tǒng)存儲效率,而且還能優(yōu)化系統(tǒng)性能。負載均衡:應用動態(tài)副本策略,能夠減輕原有節(jié)點副本壓力,同時,還能提高HDFS訪問效率,大大縮短系統(tǒng)訪問時間。總結(jié)可知,基于RS糾刪碼下HDFS云存儲動態(tài)副本策略高效應用,不僅符合云存儲系統(tǒng)持續(xù)發(fā)展需要,而且還能提升云存儲系統(tǒng)性能,在保證數(shù)據(jù)可靠性、提高數(shù)據(jù)存儲效率、提高負載均能能力等方面發(fā)揮重要作用[3]。
4 結(jié)束語
綜上所述,云存儲文件系統(tǒng)應用原有存儲策略存在一定劣勢,為滿足云存儲系統(tǒng)運行需要,提高動態(tài)副本策略應用效率,以此補充原有存儲策略存在的不足,全面優(yōu)化云存儲系統(tǒng)性能,大大提高數(shù)據(jù)存儲可靠性。此外,有利于降低數(shù)據(jù)存儲成本,合理平衡系統(tǒng)負載能力,不斷提高文件讀取速度。
參考文獻:
[1]左方,何欣.一種基于蟻群算法的云存儲副本動態(tài)選擇機制研究[J].計算機應用研究,2015,32(11):3368-3370+3374.
[2]張浩,趙磊,馮博.CACDP:適用于云存儲動態(tài)策略的密文訪問控制方法[J].計算機研究與發(fā)展,2014,51(07):1424-1435.
[3]胡德敏,余星.一種基于同態(tài)標簽的動態(tài)云存儲數(shù)據(jù)完整性驗證方法[J].計算機應用研究,2014,31(05):1362-1365+1395.