馬錫坤,楊彩霞,吳艷君
南京軍區南京總醫院 信息科,江蘇 南京 210002
數據備份是數據高可用的最后一道防線,其目的是為了系統數據崩潰時能夠快速恢復數據[1-3]。傳統數據備份采用的是磁帶系統。但是,磁帶備份技術容易出現錯誤,恢復的性能很低,數據恢復操作往往會因為磁帶介質損壞的原因而無法成功執行。因此,僅依靠磁帶系統實現數據保護已經不能滿足今天的需求。基于磁盤備份技術慢慢發展并且成熟起來,利用虛擬磁帶庫作為備份介質則是慣用的磁盤備份形式,而重復數據刪除的新技術相對基于磁盤的數據保護方法又實現了顯著的改進。
在備份系統的最初發展階段,所有用戶的關注點全部集中在數據備份部分,即數據備份是否成功、備份設備的處理速度是否夠快、存儲介質的容量有多大等。隨著數據被損壞、丟失的情況越來越多,相應的,使用備份系統恢復數據的頻率正在不斷加大。在這一過程中,備份系統使用者才開始逐漸意識到一個更加嚴峻的問題,即備份數據的可恢復性。
磁帶和磁帶驅動器是數據備份最常用設備。傳統的磁帶介質,隨著時間的推移、使用次數的增加,經常會出現由于磁粉脫落等原因導致的磁帶老化,數據無法讀取。更可怕的是,磁帶介質不具備良好的報警機制,也就是說,磁帶即便老化了或者損壞了,除非我們嘗試去讀,否則根本沒有手段能夠及時發現這一故障,從而無法及時補救這份數據。
隨著磁盤成本的不斷降低,利用磁盤作為備份介質的趨勢已經越來越明顯。基于磁盤備份技術的核心工作原理是利用磁盤陣列做底層數據存儲,通過虛擬軟件將該磁盤陣列虛擬為磁帶庫[4-6]。備份軟件可以按照最習慣的方式對其虛擬出的磁帶庫、磁帶機、磁帶進行管理和分配。作為一個獨立設備,其上的數據對于生產主機具有完全隔離的免疫機制,任何在線災難均不能威脅備份數據。而底層的磁盤陣列技術,又可以通過RAID(磁盤數組)保護、熱備份磁盤、自我告警等機制對備份數據加以保護,從而提高了備份數據的可恢復性。磁帶備份和磁盤備份情況對比,見表1。

表1 磁帶與磁盤備份情況對比
備份的解決方案從開始,一直在持續地發展,其硬件及軟件都在不斷地進行著許多改進以提高性能。重復數據刪除技術已經逐漸成為一項熱門技術,旨在刪除冗余的備份數據、確保同樣的數據信息只被保存1次[7]。磁盤的重復數據刪除方案是新一代數據保護解決方案,能夠顯著降低存儲的經濟成本,極大地減少了數據備份和恢復時間,并且使廣域備份在進行中得以實現。新一代虛擬磁帶庫在替代原有磁帶庫功能的基礎上,增加了遠程數據復制、自動離線歸檔和容量優化(壓縮和重復數據刪除)等高級功能。
重復數據刪除可以在數據備份進行的同時在線應用,或在數據備份完成后進行。重復數據刪除的處理粒度越細,則重復數據刪除的效率越高,其算法不占用備份服務器主機CPU、內存、硬盤等資源。重復數據刪除結合了磁盤設備和磁帶設備兩種存儲的優點,同時摒棄了兩者缺點,減少了對存儲容量的需求,以更少的空間存儲更多的數據。也就是說,基于磁盤的數據保護解決了備份窗口的問題,而重復數據刪除技術解決了備份配置中硬盤的成本問題。
以采用帶重復數據刪除功能的EMC Data Domain設備為例,對比重復數據消除存儲與傳統的虛擬磁帶庫存儲情況,見表2。

表2 重復數據消除存儲與虛擬帶庫存儲對比
EMC提供了一體化備份解決方案,以EMC CX4-480為主存儲,以EMC Networker作為備份管理系統。以采用帶高效重復數據刪除功能的EMC Data Domain設備為備份存儲(同時具備虛擬磁帶庫VTL功能),提供基于數據源端的重復數據消除備份和基于目標端的重復數據消除備份,實現數據的在線備份和在線重復數據消除保存。
Data Domain采用容量優化技術使得備份存儲的效率極高。容量優化技術是通過只保存唯一1份備份鏡像冗余數據段來實現的。當數據寫入到Data Domain時,數據會被分成可變長度的數據段,也可以說一系列字節。Data Domain實時將該數據段與已經存儲的各數據段做比較,這種方式保證每個唯一獨特的數據段只保留1份[8]。所以Data Domain可以在文件內或文件間,甚至是數據塊內發現重復的文件和數據段,實際所需的存儲空間相對于所保存的數據量低1個數據量級。容量優化的好處隨著時間的推移會越來越明顯。
Data Domain把重復數據刪除與高速高效的數據壓縮相結合,在存儲器內對備份數據進行實時壓縮,并且不斷地驗證和糾錯以確保數據的可靠性,極大地降低了數據備份的數量。Data Domain數據壓縮采用了全局壓縮技術,其全局壓縮是基于對數據內容和重復模式的研究分析而定的,可以應用到任意類型的重復數據。全局壓縮算法會對所有要存放在Data Domain上的數據做分析,而不管數據的格式和排列方式如何。通過采用全局壓縮技術,不管什么樣的數據格式,都可以實現高效率的備份。
備份系統實現的功能是備份技術發展到一定階段的產物。基于Data Domain設備的備份系統既具備磁帶的經濟性,也具備磁盤的可用性和速度,同時還克服了磁帶和傳統磁盤存儲陣列固有的缺陷。該備份系統具有以下特點:一是滿足日漸縮減的備份窗口和不斷增長的數據量需要高性能備份的要求,同時滿足了日常運維數據需要高性能恢復的要求;二是保證備份數據的可恢復性,具備可驗證的可恢復性和高彈性的存儲;三是具備易于使用和易于集成到現有標準備份/恢復環境的特性,簡化備份和恢復的過程,支持標準接口,讓IT部門充分利用現有的投資。
[1] 李國亮.醫院網絡數據災難恢復與備份[J].中國醫療設備,2011,26(2):87.
[2] 葉俊,劉松林,陳健美,等.我院HIS數據備份與容災技術方案[J].中國醫療設備,2008,23(1):37.
[3] 翁盛鑫,黃影.安全數據備份系統的建設[J].醫療衛生裝備,2009,30(11):54-56.
[4] 何耀平,謝梅源.基于虛擬磁帶庫的醫院數據備份容災方案及其實現[J].計算機系統應用,2009(11):122-125.
[5] 張磊.虛擬磁帶庫在災備系統中的應用研究[J].小型微型計算機系統,2007,28(6):1149-1152.
[6] 孫曉東,丁煒良.虛擬磁帶庫技術在數據備份系統中的應用[J].現代計算機,2004,(12):63-65.
[7] 申彥舒.重復數據刪除技術在數字圖書館中的應用[J].圖書館學刊,2011,(7):123-125.
[8] 段夢博,蔡興旺.基于內容的重復數據刪除技術的研究[J].電腦知識與技術,2010,6(22):6275-6277.