摘 要:近年來隨著虛擬化技術在金融企業IT基礎架構中的推廣,數據整合密度急劇膨脹,高效數據保護問題成為一大技術熱點。本文旨在借用vmware和avamar軟件技術的結合,探討虛擬化系統環境下,利用重復數據消除技術來實現高效數據保護的實現方法。
關鍵詞:虛擬化 數據備份 重復數據消除技術綠色環保
中圖分類號:TP3文獻標識碼:A文章編號:1674-098X(2011)12(b)-0025-03
關鍵數據保護一直都是金融企業所面臨的一大難題。隨著數據信息量的激增,企業往往需要一些行之有效的解決方案來管理這些信息,同時依據金融行業監管機構規定和一些法律調查機構的要求往往使得傳統數據保護解決方案在資源和容量上捉襟見肘,如果不能遵守這些法規或及時提供信息,就會帶來巨額的成本開支甚至受到嚴厲的處罰。據權威機構的分析表明,全球金融行業需要保護的數據量正以每年 60%左右的速度在遞增,而傳統的備份解決方案往往依據固定的策略模式不斷地重復存儲數據,從而使得需要管理的數據總存儲量又徒增5至10倍,數據存儲和數據備份的有效性和延續性的要求顯得越來越高。
隨著綠色環保運動在全球資源緊缺背景下的大力推廣,虛擬化技術正在逐步被金融企業納入IT基礎架構考慮的主要技術模式。在數據分布密度不斷提高的狀態下,虛擬化系統下的數據保護有效性逐步成為擺在IT主管面前的嚴峻問題之一。
本文旨在借用VMware虛擬化產品和Avamar備份軟件來講解虛擬化基礎架構組成,并討論利用重復數據消除技術實現虛擬化環境下的“膨脹化”數據高效保護的完整技術方案和優勢所在。
1 需求背景和問題現狀
在虛擬化部署架構環境下,存儲數據存在數據量大、密度高、重復數據多的明顯特征,傳統備份解決方案每周都會產生大量需要移動的冗余數據,使得IT數據運維部門常常會經常面臨這樣的問題:備份時間段并入生產時間中、網絡存在局限性、集中備份管理的數據過多。
1.1 虛擬系統的數據分布密度提高
隨著企業IT數據中心基礎架構虛擬化模式推廣趨勢,由于虛擬機部署架構的特點,在服務器集成度大大提升的同時,存儲數據的存放壓力也隨之增長,這使得數據存儲和備份效率提升成為需要考慮的關鍵問題之一。
1.2 虛擬化系統的數據重復存儲特性
由于虛擬機的系統數據和業務應用數據都存放的存儲介質上,在虛擬化環境下,存儲數據中存在大量相同的數據元素。同時依據傳統數據備份策略,需要制定進行完整備份和增量備份的循環時間表,這樣備份產生的冗余數據又會成倍產生,如何提升這些共享資源上的冗余數據的存放和備份效率,也成為一個關鍵考慮問題之一。
1.3 數據備份可用時間窗口縮短
由于金融企業要實現7*24小時全天候的運營服務,為支撐業務系統的服務質量,滿足企業客戶的需求,業務運行的閑置時間越來越短。按照通常的備份原則,往往將生產系統的備份時間安排在業務運行的閑暇時間,這也就意味可以用來實施備份的時間窗口被不斷縮短,從而對于備份效率提出了更高的要求。
1.4 數據恢復時間要求提升
由于金融企業對客戶的利益承諾條款要求的提升,對業務運行的系統非宕機時間的要求也不斷提高,從而要求系統恢復時間可以最大限度的縮短,所以備份數據的可恢復性和恢復的效率也愈加受到關注。
1.5 數據備份介質的成本效益考量
出于成本費用的考慮,傳統備份的主要介質來源于磁帶介質,但是磁帶介質常常會出現介質損壞、磁頭污染、介質容量不足、磁帶庫硬件故障的各種出錯風險。隨著業務系統對于多級數據存儲的需求提升和數據恢復時效性的要求提高,數據備份介質的選擇基準更多的偏向于成本效益的分析。
1.6 數據集中備份管理需求
在金融行業綜合業務大集中模式的形成下,業務數據的集中管理需求也隨之提出,在考量備份方案時,由于傳統備份介質(磁帶、光盤等)存在異地傳輸易丟失或被盜的不安全性,逐步趨向于異地存放電子拷貝的共享管理模式。雖然無需人員直接干預處理磁帶介質,但是對于電子拷貝存放及恢復的可靠性和安全性要求又成為一大主要問題。
1.7 網絡吞吐的壓力問題
隨著集中存儲數據密集度增大,重復數據元素增多,在有限的備份時間窗口中,完成數據備份的管理目標,網絡壓力成為不可忽視的問題之一,如何降低網絡傳輸數據量也成為緩解問題的主要考慮方向。
近幾年來,IT部門往往會考慮使用磁盤存儲介質作為傳統備份方法的補充方案,但對于所面臨的數據有效備份和保護的難題,旨在替代磁帶庫和磁帶介質的磁盤解決方案卻僅能解決其中一部分的問題。數據備份容量、備份時間、備份數據保留時長,都成為企業IT主管們在考慮高質量數據保護的重要環節,而消除重復數據技術隨之成為提供高效數據保護解決方案的技術基礎。
2 技術實現原理
虛擬化架構體系下的數據冗余程度極高,在同一系統內和不同系統之間都存儲著許多完全相同的文件或數據(例如,發送給多個虛擬終端的操作系統文件或文檔)。在傳統的備份機制下,備份軟件將一次次地重復得存儲所有這些同源數據,導致數據冗余的成倍增長。重復數據消除技術的推出,定義了可將重復數據標準化為單個共享數據對象以提高存儲容量及備份效率的技術,高度冗余的數據保護尤其是備份數據在此獲益最大。Avamar備份軟件正是基于源位置全局數據消除技術達到IT數據高效保護的目的。
2.1 在源位置全局消除冗余數據
備份軟件可以通過在源位置上實施消除文件和子文件數據段級別的冗余。在備份操作期間,可以在源位置解決備份數據的冗余問題,然后才跨 LAN 或 WAN 傳輸數據。將備份軟件的代理端部署在需要保護的系統(如服務器、臺式機和筆記本電腦)上,可識別并過濾掉單個系統內和多個系統之間的文件中隨時間推移而重復存儲的數據段。這可確保每個具有唯一性的數據段僅在整個數據集內備份一次。因此,拷貝或編輯的文件、共享的應用程序、嵌入的附件,甚至每天都在變化的數據庫,都將只會產生少量的增量備份數據。
通過僅移動新的、具有唯一性的子文件數據段,可將每日所需的網絡帶寬和存儲量減少到1/500。通過在全局范圍內只存儲每個子文件數據段的單個實例,還可將總體后端磁盤存儲量降低到1/50,從而實現經濟高效的基于磁盤的長期存儲和恢復可行性。
2.2 可變長度數據段與固定長度數據段
重復數據消除技術對數據重復性的判斷前期是數據分段,確定數據分段大小的方法是在數據段(或子文件)級別消除冗余數據的關鍵因素。快照或復制技術通常采用固定塊或固定長度數據段來定義數據源組成。遺憾的是,即便對數據集只進行很小的改動(例如,在文件開頭插入數據),盡管這樣做對數據集的實際改動其實是極小的,但也會改變數據集中的所有固定長度數據段。重復消除技術可以使用智能的方法來確定數據段的大小,例如對于WORD應用和數據庫應用來說,數據段值特征將會不同,以這種方法通過觀察數據本身來確定邏輯邊界點,從而消除了重復數據字段存儲和備份的低效現象。
2.3 確定邏輯數據段的技術
重復數據消除技術采用的算法是對數據集的二進制結構(構成數據集的數字0和數字1)進行分析,以根據上下文確定數據段邊界,所以無論數據集存儲在企業中的什么位置,備份軟件客戶端代理都能夠識別出任何數據集中完全相同的數據段。Avamar備份軟件的數據段平均大小為24KB。
通過分析二進制結構的方法可適用于包括數據庫在內的所有類型和大小的文件。例如,如果在文本文件的開頭和中間各添加一個段落,此算法將識別出新的、修改過的數據段,并只備份這些識別出來的唯一數據段,從而顯著減少需要發送和存儲的備份數據量。
對于每個24KB的數據段,Avamar備份軟件使用SHA-1加密算法生成20個字節的唯一ID,此唯一ID就好像該數據段的指紋,成為數據段重復性判斷的唯一標準。備份軟件將使用該唯一ID來確定以前是否存儲過某個數據段。使用這些唯一ID的分層圖,可以快速高效地存儲備份文件、目錄、整個文件系統,甚至數據庫。
利用全局重復數據消除技術在源位置識別冗余數據段,然后對消重后的唯一數據段通過網絡傳輸到集中數據集,從而有效解決類似傳統備份難以解決的數據高效保護和成本經濟考慮的矛盾。通過僅移動新的、具有唯一性的子文件數據段,將每日所需的網絡帶寬和存儲量減少到1/500,無論網絡和基礎架構是如何緩慢或擁塞,企業都可以利用現有的網絡帶寬對數據中心和遠程數據中心進行備份和災難恢復。為了提高安全性,也可對傳輸中以及靜態的數據進行加密,可以有效地保護數百個遠程分支節點的數據存儲和備份需求。
2.4 虛擬化環境下的備份技術實現
自2007年以來,金融行業在IT基礎架構中逐步引入了成熟的VMware虛擬化技術,形成集中管理、靈活調度、資源優化的高密度服務器整合平臺。隨著虛擬化平臺使用的規模化擴展,數據分布密度急劇增長,數據備份的容量壓力愈發凸顯,集成了源位置全局重復數據消除功能的Avamar軟件技術,恰好響應了在虛擬化系統下的高效數據備份和恢復需求。
2.5 Vmware虛擬化架構體系
(1)VMware vSphere虛擬數據中心操作系統
VMware Virtual Infrastructure是業界一種云操作系統虛擬化套件,VMware vSphere虛擬數據中心操作系統將數據中心轉變成“內部云”,將IT部門從與硬件靜態對應的系統程序約束中解放出來,可向獨立于硬件和位置的所有應用程序保證適當級別的可用性、安全性和擴展性。
(2)VMware View虛擬終端
隨著使用多平臺設備和移動辦公模式的推廣,IT部門為跨各種Web、桌面和服務器解決方案連接到數據中心和應用程序而絞盡腦汁。將來的桌面將不會是單一物理設備,而是不同設備和環境的集合。應用程序和數據可能位于許多不同的位置,例如運行于某臺服務器上的虛擬桌面、家用筆記本電腦以及Web郵件帳戶,我們希望無論使用什么設備來連接到桌面,或者無論其應用程序及數據位于何處都能看到相同的視圖界面。同時IT部門也希望簡化企業終端管理,并經濟高效地控制桌面和應用程序。
虛擬終端是包含虛擬桌面基礎架構的桌面計算單元,它將應用程序、數據和操作系統與硬件分離,無論我們使用瘦客戶端還是筆記本電腦、在辦公室還是出差途中,都可以靈活的獲得應用程序和數據的個性化視圖。智能后端系統可以向任何設備提供應用程序和數據,使我們能夠將精力集中于業務工作而不是工具本身,應用程序和數據獲取也將不需要跟隨設備而移動,實現了用戶桌面系統控制的靈活性、集中管理和有效保護。
隨著企業IT部門對于開發終端接入的安全性管理,虛擬終端的使用越來越廣泛,成為虛擬化系統中VM組群一個相對具體獨立特性的單元群體。
(3)VMware Virtual Infrastructure組件構成
VMware ESX Server—VMware vSphere操作系統中的企業版虛擬化OS,是運行在物理服務器上的經過生產驗證的虛擬化層,將處理器、內存、存儲和網絡資源抽象化,是VM虛擬機的宿主平臺。
VMware Virtual Machine File System(VMware VMFS)—用于各類VM虛擬機的文件系統。
vCenter Management Server—用于配置、調配和管理虛擬化IT基礎架構的中心點。
Virtual Infrastructure Client (VI Client)—此界面讓用戶和管理員能夠從任何Windows PC遠程連接到 VirtualCenter 實施虛擬機的相關配置管理和終端操作。
VMware VMotionTM—使運行中的虛擬機能夠從一臺物理服務器實時遷移到另一臺服務器,同時實現零停機、保持連續的服務可用性并可完全保證事務完整性。
VMware vStorage APIs for Data Protection—將備份負載從ESX Server主機卸載,消除備份時間窗口,消除LAN中的備份流量,并避免在虛擬機內運行備份代理來執行映像級別和文件級別的虛擬機數據備份。
2.6 Avamar 備份軟件實現機制
Avamar備份模式可采用兩種方式為VMware虛擬化系統下VM虛擬機來提供數據備份的實現,兩種方式有著不同的技術特點,依據應用系統的備份需求不同可以考慮采用不同的部署模式。
(1)基于虛擬機VM系統的備份
VM系統級別的備份需要在每個虛擬機內安裝Avamar代理。用于此方法的備份配置與用于物理服務器的備份配置無任何區別,需要基本客戶端設置以外的資源配置來支持特定應用程序,例如Microsoft SQL Server或Exchange,或者Oracle。但與傳統備份模式不同的是它利用最高級別的分類識別重復數據消除,來支持虛擬機內應用程序和文件級的數據備份,將備份數據容量和數據傳輸率降到最低。
(2) 基于vStorage APIs for Data Protection的映像備份
VMware vStorage APIs for Data Protection可以實現無需LAN的備份,并將備份工作負載卸載到備份代理服務器。vStorage API的代理服務器可以裝載虛擬機的.vmdk文件,并提供.vmdk備份或文件級備份,以實現整個映像或文件集的可恢復性。通過使用Avamar代理來備份裝載的虛擬機磁盤,Avamar同時在文件級和.vmdk級提供了重復數據消除。
VMware vStorage APIs for Data Protection包括一組應用工具和API,它們可與 Avamar代理軟件和Avamar互操作性模塊(AVIM)協同工作,Avamar代理和AVIM在代理服務器上運行以提供備份服務。虛擬機的實際備份在備份代理服務器上進行,一臺備份服務器可以為多臺ESX Server主機上的許多虛擬機提供備份服務。
Avamar與vStorage APIs for Data Protection及AVIM集成后,利用vStorage API來創建快照以及裝載和卸載快照(運行中的虛擬機的時間點拷貝),當Avamar備份軟件按指定的時間表和策略啟動備份時,代理服務器上的Avamar代理將啟動備份活動,從而在最短時間內完成虛擬機的備份,并同時進行數據消重,將備份數據和存儲容量降到最小。
使用Avamar和vStorage APIs for Data Protection相結合的優勢體現:
可以對運行中的虛擬機進行實施完整映像備份
在VMDK文件內和VMDK文件之間執行重復數據消除
利用高效傳輸(只傳輸非重數據),避免通過網絡拷貝整個虛擬機磁盤映像
在Windows和LINUX中從映像級備份提供文件級恢復
通過重復數據消除和壓縮數據最大限度減少網絡流量
避免在大多數情形下管理每個虛擬機中的備份代理
2.7 備份軟件與vCenter 集成
為提供備份管理和數據恢復的集中化、全局化和可管理性,通常備份軟件都會與VMware的集中管理平臺vCenter集成,使備份軟件管理控制臺可以查詢一個或一組vCenter實例,獲取虛擬化系統的集中數據信息,并提供重要數據信息的集中備份和恢復活動的統一管理。
備份軟件與vCenter集成的主要特點:
輕松獲取虛擬化全局試圖,對虛擬機備份狀態一目了然
顯示虛擬機是如何(客戶系統、虛擬機、根本未備份)以及何時備份的,可以完全跟蹤備份執行并記錄過程
實現備份策略統一管理,添加虛擬機時自動向其添加預設的備份策略
3 在企業IT運維中的優勢體現
重復數據消除技術的采用,減少了虛擬機內和虛擬機之間的重復備份數據量,通過在全局范圍內只存儲文件數據段的單一實例,將總體后端存儲量減少到原來的 1/50,從而有條件實現經濟高效的基于磁盤的長期恢復。在金融企業IT部門的數據運維工作和IT預算支出中體現了諸多優勢:
縮減基礎架構成本
減少或消除了存儲數據每周和/或每月完整磁帶備份相關的介質成本和管理成本。磁帶備份過程的自然結果是,反復地提取、發送和存儲相同數據的多個拷貝。創建這些數據的每個副本都耗費寶貴的服務器、網絡、存儲設備和管理人員,導致總體擁有成本的連續攀升。
備份軟件利用消重技術,可以快速消除與操作系統、修補程序、應用程序等相關的冗余數據,從而大幅降低基礎架構成本。
減少備份時間(實際執行時間)
通過在源位置上消除冗余數據,將傳統備份負載從每周高達200%減少到每周2%,大大縮短了備份時間,有效避免出現備份占用生產時間或拖延到周末這樣的情況。對于虛擬化環境下的高密度應用系統部署的情況下,也能輕松面對類似每日完整備份的苛刻要求。
降低CPU利用率
集成消重技術的備份軟件客戶端以低優先級或“精確”模式運行,不會與其他應用程序爭奪客戶端系統中的CPU資源。雖然在備份操作過程中,此類客戶端通常比傳統備份代理多使用15%的CPU,但將備份操作所需時間縮短到了1/10,從而降低了總體CPU利用率。
集中式管理
集中部署模式使得備份軟件可以從單個管理控制臺屏幕上管理多個站點,并同時查看多個系統。完整的生命周期管理和執行策略管理可以使企業實現全局管理的一致性和靈活性。
提高恢復時間目標
由于增強了對數據的訪問功能,使企業可以輕松達到其恢復時間目標。既然數據可通過單個步驟即時恢復,那么,與傳統的多步恢復過程相比,就提高了員工的生產率。
經濟高效的災難恢復
利用備份軟件的復制模塊,可以實現經濟有效地向異地移動和存儲全部關鍵數據,從而加強災難恢復能力。遠程復制完全可以通過高效的IP異步數據傳輸實現的,可安排在非高峰時段進行,以優化利用網絡帶寬。可從DR(災難恢復)站點到主站點實施遠程恢復,對停機立即做出響應。
遠程系統保護
由于采用全局重復數據消除技術,備份數據量大大降低,通信成本顯著降低,只有新的、具有唯一性的子文件數據段才通過網絡從遠程位置發送到數據中心,從而可以有效保護駐留在所有遠程位置的寶貴數據資產。
4 結語
總而言之,在VMware 虛擬化系統備份需求下,備份軟件技術充分利用源位置重復數據消除的技術優勢,有效消除了傳統備份的瓶頸--大量冗余數據必須通過同一組共享資源(物理服務器的 CPU、以太網適配器、內存和磁盤存儲)進行傳遞,從而大幅減少與介質和網絡需求相關的基礎架構成本,同時提高了虛擬化環境下的備份效率和數據可靠性,有效提升了應用程序整合率,并最大限度地減少了繁雜的基礎設施的運維管理工作,成為金融企業IT主管們試圖降低CTO而考慮的基礎架構改革推進的主要技術途徑之一。
參考文獻
[1]VMware.com/cn上的VMware vSphere和VMware產品頁.
http://www.vmware.com/cn/products/vsphere/.
http://www.vmware.com/cn/products/view/.
[2]china.EMC.com 上的 Avamar 產品頁
http://china.emc.com/products/family/avamar-family.htm00.