武警8710部隊通信科 段志剛武警警官學院 吳耕銳 薄 鳥
面向武警云災備的數據同步技術研究綜述
武警8710部隊通信科段志剛武警警官學院吳耕銳薄鳥
近年來,云計算作為一種新的集群計算模式,為人們提供了一種市場空間巨大、全新的信息化服務[1]-[6]。盡管云計算與云存儲帶來極大的便利,諸多用戶依然選擇分布式計算系統,主要原因是在云計算及云存儲中,沒有采取有效的措施保護用戶數據的可用性和完整性。換而言之,數據災備問題是眾多用戶選擇云存儲的最大障礙,而用戶數據的安全最大程度依賴于數據備份后的完整性和可用性。
傳統的分布式系統中的數據災難備份已經不能適應新環境下的災備需求,云災備服務擁有投入成本低、資源共享的巨大優勢,這些優勢為云災備提供了強大的生命力,云計算環境下數據同步問題成為災難備份發展的一個重大瓶頸。
數據同步是云環境下實時動態備份的關鍵技術,研究一種適用的數據同步技術成為云環境下災難備份的迫切需求。因此,研究適用于云環境下的數據同步技術對于降低網絡通信量、實現數據實時同步、縮減數據重復率以節省存儲空間具有重大的理論意義和緊迫的現實意義。
針對現有網絡環境下的數據同步問題,學術界的眾多學者和專家已經有了深入的研究。基于廣域網的網絡環境下時刻伴隨著數據同步,例如遠程數據的備份、網絡數據的同步、共享等。最直接的方法是用源數據覆蓋舊數據,但是源數據和被覆蓋數據之間往往存在較小的差異,因此會占用不必要的網絡流量,特別是具有較高相似性的集群存儲系統以及存儲密度較大的云環境下,往往會造成大量網絡流量資源的浪費。目前,網絡環境下數據同步工作的研究主要有Rsync、FileGee(基于Windows平臺的數據文件同步)[7],TAPER和 GrahanConmode提出的T.Suel[8]同步算法以及LBFS算法等。另外,在數據同步系統的開發與實踐中,IMB、HP、DELL等著名的IT企業占據了其重要的地位。
吳昊[9]在共享內存體系結構下,為解決鎖同步導致的并發性能瓶頸,提出了一種基于硬件CAS(比較交換)原語的無鎖同步算法。該算法實現了多核多線程環境下共享變量的非阻塞同步操作,有效的避免由于鎖競爭造成的程序串行化問題。
張鳳琴[10]等人鑒于目前數據同步領域存在的不足,通過對WCF技術的分析和研究,構建了一個數據同步模型,該模型實現了分布式環境下多個數據中心之間的高效實時同步。文獻[10]以實時數據檢索機制的設計作為切入點,提出了結合一致性哈希算法的數據存儲方案。對于數據同步的研究,目前研究主要側重于數據復制策略以及數據壓縮算法,通過計算得出數據源端和目標數據的差異部分,通過網絡傳輸差異數據來更新目標數據,使數據達到一致。
遠程同步往往缺少監控機制,不能實時的進行數據同步,針對此類問題,李貞[11]設計了基于Rsync算法的遠程同步系統,并引入了Inotify機制,進行文件的實時監控。文獻[12]基于云平臺的數據同步需求,設計了以Rsync算法為基礎的同步系統。
云環境下數據同步面臨的另一個挑戰是同步帶來的大量數據冗余,針對數據冗余的問題,眾多學者開始研究重復數據刪除技術[12-14]。為在較少的數據冗余前提下保持數據的高可靠性,Bhagwat等人提出了基于副本的重復數據刪除策略[15],根據數據chunk的共享度在存儲系統內存放數目不同的數據副本,以增強數據刪重系統的可靠性。
為了保證存儲系統在較高可靠性的前提下縮減數據量,眾多學者利用糾錯編碼技術進行數據的刪重。Data Domain開發的DDFS[16]和HP開發的D2D4000[17]利用RAID-6編碼技術實現了磁盤損壞后的數據恢復。Liu等人為提高存儲系統可靠性,設計了重復數據刪除系統R-ADMAD[18],將不定長的數據塊打包成定長的數據塊,并運用ECC編碼進行校驗。
1)數據傳輸的安全性和數據中心的安全訪問控制在遠程數據同步的整個過程中也是一個至關重要的方面。如何實現服務器接收請求的口令協定,是今后深入研究的問題之一。
2)云環境下的實時同步方案的設計中,首先,存在文件系統實時監控的可移植性行問題。在HDFS會同時存儲一個文件的三個副本,在集群系統內部的副本之間的數據同步方法,將是未來進一步研究優化的方向。
3)集群式重復數據刪除重點需要解決的兩個問題是磁盤的索引瓶頸和節點之間的孤島效應。如何盡可能降低全局的消重策略的誤判率提高刪除效率,在誤判率可以接受的范圍內進行重復數據的刪除是下一步工作研究的主要方向,有效地清除磁盤碎片是重復數據刪除中的又一個研究難點。
[1]Shamim S M,Sarker A,Bahar A N,et al.A Review on Mobile Cloud Computing[J].International Journal of Computer Applications, 2015,113(16):4-9.
[2]Crago S P,Walters J P.Heterogeneous Cloud Computing:The Way Forward[J]. Computer,2015, 48(1):59-61.
[3]IBM Cloud Computing [EB/OL]. http://www.ibm.com/ibm/cloud.
[4]吳朱華.云計算核心技術剖析[M].北京:人民郵電出版社,2011.5.
[5]陸嘉恒等.分布式系統與云計算[M].北京:清華大學出版社,2011.5.
[6]Sookhak M,Gani A,Talebain H, et al.Remote Data Auditing in Cloud Computing Environments: A Survey,Taxonomy,and Open Issues[J]. Acm Computing Surveys, 2015.
[7]Pierce B C,Vouillon J.Unison:A File Synchronizer and Its Specification[C]// Proceedings of the 4th International Symposium on Theoretical Aspects of Computer SoftwareSpringer-Verlag,2001.
[8]陳煌.基于差異同步的云存儲研究和實踐[D].華東理工大學,2015.
[9]張青鳳,張鳳琴,王磊.多數據中心的數據同步模型研究與設計[J].微型機與應用,2013.
[10]傅穎勛,羅圣美,舒繼武.一種云存儲環境下的安全網盤系統[J].軟件學報,2014,08:1831-1843.
[11]張海峰.基于Rsync的異構環境數據同步機制研究[D].成都:電子科技大學,2013.
[12]劉西崗.基于rsync算法的云平臺文件同步系統設計與實現[D].成都:電子科技大學, 2013.
[13]敖莉.舒繼武,李明強.重復數據刪除技術[J].軟件學報,2010(05):916-929..
[14]Muthitacharoen A,Chen B,Mazières D.A Low-bandwidth Network File System[J].Acm Sigops Operating Systems Review, 2001.35(5):174-187.
[15]Bolosky W J,Corbin S,Goebel D,et al.Single instance storage in Windows? 2000[C]//In Proceedings of the 4th USENIX Windows Systems Symposium (WinsSys 20002000.
[16]Bobbarjung D R,Jagannathan S,Dubnicki C.Improving duplicate elimination in storage systems[J].Acm Transactions on Storage,2006,2(4):424-448.
[17]付印金.肖儂.劉芳.重復數據刪除關鍵技術研究進展[J].計算機研究與發展,2012(1):12-20.
[18]Zhu B,Li K,Patterson H.Avoiding the disk bottleneck in the data domain deduplication file system[C]//Proceedings of the 6th USENIX Conference on File and Storage TechnologiesUSENIX Association, 2008.
吳耕銳(1985—),福建漳州人,現供職于武警警官學院信息工程系,研究方向:信息化。
薄鳥(1986—),女,陜西西安人,現供職于武警警官學院數學與物理系,研究方向:固體物理。
未來對數據同步中的關鍵技術研究將主要集中在以下幾個方面:
段志剛(1977—),男,江西景德鎮人,現供職于武警8710部隊通信修理所,助理工程師,主要研究武警通信與信息化。