徐 俠
(中國三峽集團信息中心)
現在集團公司的許多管理工作都需要通過網絡來完成。同時也有許多重要的企業經營、管理、個人資料以數據的形式集中保存信息系統中,數據的積累和增長速度很快。目前集團公司信息系統管理面臨的最大挑戰之一是如何處理對大量數據的透明存取和備份工作,同時網絡的規模越大、系統應用的越深入、數據量越多,數據的安全對于企業的運轉也越來越顯得重要,這就提出了數據存儲備份/恢復管理方面的要求。
為保證集團公司重要信息系統的數據安全,應對可能出現的信息系統災難事故,集團公司信息中心于2005年組織實施了集團公司信息系統集中存儲備份項目(主要架構見下圖一),隨后又每年組織開展信息系統災難恢復應急測試演練,收到了很好的成效,也使集團公司信息安全水平上升到一個新的臺階。
但隨著集團公司信息化建設的不斷發展,信息系統規模和數據量越來越大、系統架構日趨復雜,原有的信息系統數據備份系統逐漸不能滿足新形式下的需要,主要表現在以下方面:

圖 一
1)原來采用磁帶庫備份方式,磁帶介質長期使用后,數據保存穩定性下降,有可能出現恢復不了的情況。
2)集團公司信息系統用戶迅速增加,海量數據使正常的備份專業耗時很長,過長的備份時間嚴重擠壓了重要業務系統的備份窗口。為保證整個系統的正常運行,只能將當初執行的部分重要業務系統的每日備份策略調整為每周備份。
3)由于數據量較大,原來磁帶庫設備陳舊,老型號單盤磁帶容量小,磁帶介質數量有限,已不能保留較長周期的備份數據。
4)物理磁帶無重復數據刪除功能,多次備份后,一個數據備份集可能存放到了多盒磁帶上,磁帶恢復的線性尋址機制決定了數據恢復時間延長若干倍,大大增加了系統的恢復時間。
5)原系統使用TSM備份軟件版本為5.3及5.4,已不能完全支持新采購的磁帶庫設備;若更換備份軟件,需要重新采購軟件并重新部署,資金成本和人員掌握新技術的成本較大。
磁帶技術一直都是數據備份/恢復系統的主力軍,但伴隨著新一代ATA磁盤技術的出現,使更便捷、更高效的備份/恢復解決方案成為可能。本文在對兩種新備份技術——基于主機的磁盤到磁盤(Disk-to-Disk,簡稱D2D)技術和虛擬磁帶庫(Virtual Tape Library, 簡稱VTL)技術研究后,提出一套新的基于虛擬化技術——即多個VTL應用技術的信息系統備份架構,作為三峽集團信息系統數據備份方式,用于解決信息系統數據量不斷增大的備份問題。
D2D技術是把磁盤直接作為備份介質來使用的,本質是通過軟件備份后的系統數據文件直接寫入其它的文件系統進行存放,并不是用原文件的格式和普通的寫方法,把備份文件以大塊為單位放在一個大文件中。通過對D2D技術的實現方式進行分析,其優勢和存在的問題如下:
D2D的優勢:
1)充分利用了磁盤的隨機讀寫性能,效率比傳統的磁帶備份方式高很多,也高于進行順序讀寫的虛擬磁帶庫(VTL)方式。
2)充分利用了文件系統的多線程技術,在多個備份任務并發的情況下,不象VTL要受虛擬驅動器數量的限制。
3)D2D備份的數據讀取訪問方便,可以靈活的把數據遷移到不同的OS文件卷下。
D2D存在的問題:
1)需要重新調整部署系統,不能與現有備份環境無縫整合,需改變硬件架構、備份策略及管理策略。
2)結合內置或外接RAID存儲陣列的備份/恢復軟件的D2D性能依賴類似NTFS或NFS的文件系統,它們是為了在服務器系統中使用生產運行環境而生成的。這些文件系統設計用來為多個用戶管理多個文件,當用于以磁帶方式的備份會出現的問題是,在磁帶備份應用軟件與文件系統文件分配表結合來決定具體的文件位置時,存儲系統處理器會發生附加的、不必要的性能沖突。
3)D2D在UNIX SAN環境下的LAN Free備份,如要把數據集中存放在統一卷下,需要共享卷軟件來支持,會提高使用成本。
4)類似FAT、NFS和NTFS的通用文件系統受到文件系統、分區和單個文件大小的限制。此外,一個文件系統上文件的數目也有限制。這些限制會約束基于主機的D2D應用軟件所使用的備份卷的擴容性,當達到限制時,企業將投入額外的開銷,還必須轉移數據,創建新卷,重新配置備份應用軟件。
5)大多數D2D文件系統的另一個主要問題是系統中數據的安全性,懷有不良動機的黑客、病毒會威脅通用的文件系統。任何D2D系統都會遇到同樣的安全問題,可能導致數據保護方案的失敗。
6)對于現有的任何規模的IT環境,完全放棄原有的磁帶架構備份方式,全部轉變到基于磁盤的策略并不很容易實現。大多數企業組織已經大筆投資建立了已有的備份結構,并運用現有的磁帶技術,形成了較完善的管理制度和流程,培養了一批熟悉磁帶架構備份方式的技術人員,要完全轉型,難度很大。
VTL是基于磁盤的備份系統,其仿真一種或多種磁帶庫和/或磁帶格式,具備帶庫的接口、驅動器和磁帶槽位等有大外部特征,同時內部也是采用進行順序讀寫的指令集作。VTL是一個完全集成的解決方案,它包括磁帶仿真服務器、ATA RAID陣列和為磁帶備份優化的文件系統。多數情況下,VTL還提供給以往管理員所熟悉的相同的介質管理功能(如磁帶編目、介質是否有效等),完全模仿了一個真實的帶庫,能被所有的備份軟件來調用。
VTL的優點:
1)與以往的磁帶庫方式相比較,其采用高速的磁盤取代磁帶,加快了讀寫的速度,縮短了備份窗口。
2)由于其仿真一種或多種磁帶庫,對其它的應用系統而言,系統部署的變化完全透明,能與現有備份環境無縫整合,無需改變硬件架構、備份策略及管理策略。
3)基于VTL,可以擴展為D2D2T的多級方式,數據實現備份至虛擬磁帶庫,再備份到傳統的物理磁帶庫,虛擬磁帶庫支持物理磁帶直接出庫功能,這對于需要進行以磁帶方式進行歸檔和異地存放的用戶非常重要。
4)虛擬磁帶無需經過備份服務器,就能配合與系統直接相連的磁帶庫導出到物理磁帶,導出過程對備份服務器的性能完全沒有影響,用戶可以選擇在生產時間內將虛擬磁帶轉換成物理磁帶,大幅提升了磁帶備份的品質與效率。
5)虛擬磁帶能應用重復數據刪除后再壓縮,節省大量存儲空間,且重復數據刪除和壓縮等操作,都是在備份完成后進行的,其過程完全不影響備份速度和應用服務器的性能,備份窗口可以獲得最完整的保護。
6)可以擴展遠程復制功能,用戶可以利用WAN廣域網絡將備份數據復制到遠程,實現異地災備,并可通過加密功能防止數據在網絡傳輸過程中被惡意竊取。在執行遠程復制時,本地和遠程的VTL會自動比對單一存儲區內有無相同數據,僅有不重復的數據才會被復制并傳送到遠程。相對于傳統的以人力運送磁帶的異地備份方式,VTL的遠程備份不僅沒有數據遺失的風險,還能同時節省存儲空間、寬帶網絡占用、磁帶運輸及保管費用等多項支出,大幅節省了IT投資成本。
VTL的缺點:
1)VTL模擬磁帶順序讀寫方式,不能充分發揮磁盤的效率。
2)VTL的效率要受到虛擬驅動個數的限制。
3)VTL的備份策略設置與磁帶庫完全一樣,比較復雜。
通過上面的分析,純粹要提升備份、還原速度的話,磁盤對磁盤(Disk to Disk,D2D)的備份就可以作得到,但企業級的備份系統架構不能只關注在效能,更應該關注成本與管理兩個層面。
磁盤備份通常是在備份軟件里的一個功能,因此不具備虛擬磁帶庫的許多功能,在介質管理及空間回收方面會帶來很大不便,用戶很可能會由于磁盤空間的管理不善而導致備份數據的損壞。
磁盤備份是基于操作系統上的文件系統來進行,文件系統是I/O性能的一大瓶頸;而虛擬磁帶庫的數據是通常是寫在由VTL軟件管理的裸設備上的,避免了文件系統帶來的性能瓶頸。
磁盤備份方式產生的數據均是暴露在操作系統之上的,很容易受到包括黑客、病毒、人為因素造成的數據丟失問題,從而降低了備份系統安全可靠性;另外,磁盤備份不具備數據壓縮功能,這也帶來了磁盤空間的浪費。
虛擬磁帶庫(Virtual Tape Library, VTL)技術兼具了傳統磁帶庫技術方案和磁盤備份速度快、使用方便的優點,且繼承了傳統數據的管理方式,技術實施難度不大,且新舊系統能平滑過渡,有效的保護的以前的設備投資和技術實現,應作為新的集團公司信息系統備份架構的主選技術。

圖 二
V T L是把磁盤虛擬成帶庫,在磁盤介質上模擬出機械臂、磁帶機和磁帶來進行工作。市場上的虛擬磁帶庫依照架構不同,有三種形式的VTL,備份軟件型(Backup Software)、磁盤陣列型(Disk Array Based)、應用服務器型(VTL Appliance)。
直接將虛擬磁帶功能整合至備份軟件內。由于純粹是依靠軟件來達成仿真磁帶的目的,這類方案的限制是無法和其它廠牌備份軟件搭配使用。這種VTL只能被該備份軟件調用,并且不具有標準磁帶庫的訪問和管理方式。
嵌入式結構VTL采用專業的硬件平臺,模塊化的結構,采用專用的操作系統將VTL軟件安裝在專用系統內。它是以磁盤陣列為基礎發展的虛擬磁帶柜,透過內建于磁盤陣列控制器(RAID Controller)內的虛擬軟件,將儲存空間仿真成磁帶柜具備的所有特征。
透過安裝在服務器上的虛擬磁帶軟件,將服務器內的硬盤,或是可被服務器控制的外接磁盤陣列,做為存放備份數據的虛擬磁帶空間。由于軟件架構在標準的x86平臺和Linux操作系統上,成本相對較便宜,而且儲存裝置的限制較低,只要服務器支持,可以采用任何SCSI或光纖信道接口的磁盤陣列,與備份服務器端可以藉由SCSI、iSCSI或光纖信道等傳輸接口相連,部署應用上較有彈性。
從以上的對比分析看,嵌入式結構VTL磁盤陣列型和應用服務器型可作為集團公司選用的兩個主要實施方式。
VTL系統架構從連接VTL前端的備份服務器,到后端的磁盤陣列與磁帶庫,都必須支持速度在4Gb以上的光纖通道協議,以保證備份數據在整個傳輸過程中都能享有最充裕的帶寬。
同時新VTL系統架構具備多進程數據流并行備份的能力,可以同時連接多臺備份服務器,并同時執行多組備份程序,以大幅縮短備份時間。
具備智能的I/O負載均衡技術,可以自動分配備份數據流寫入到磁盤陣列的位置,避免多個備份數據流同時寫入VTL時,集中在少數的RAID控制器和LUN上,造成負載不均衡的情況。
部署了VTL后,不能對物理磁帶的產出速度和備份服務器的運行性能造成影響,應該支持Server-less磁帶備份。
采用VTL備份系統架構 對數據中心的意義在于“提升備份操作的品質”,而不是“取代物理磁帶設備”。磁帶不僅是單位成本最低的存儲介質,可以離線的長期保存數據,對于集團公司這樣的大型企業用戶而言,更是不可或缺。因此,集團公司的VTL不僅要提升備份性能,更可以與現有的磁帶設備無縫整合,具備與磁帶設備協同工作的能力。選用的VTL應該具備以下磁帶管理能力:
1)支持集團公司目前使用的TSM備份軟件和以后可能使用的所有主流備份軟件。
2)具備仿真所有主流的物理磁帶庫、磁帶格式的能力。
3)支持完整的磁帶入庫/出庫,確保所有主流的物理磁帶庫都能直接與VTL連接,且不能限制導入/導出的磁帶格式。
4)具備多磁帶輸出功能。可以按照備份策略的要求,在同一時間輸出多組相同內容的磁帶,節省了磁帶復制的時間及過程。
5)支持磁帶整合功能。可以將多卷數據量少的磁帶導入VTL后,再統一導出到單卷大容量的磁帶,節省介質和管理成本。
6)支持磁帶緩沖功能。允許備份數據在轉成虛擬磁帶格式后,直接從VTL出庫到物理磁帶,以大幅降低備份磁帶器的性能負載,簡化管理程序。
7)具備完善的報表生成功能。
8)可以通過單一介面同時設定管理多臺VTL。
VTL本身應該支持高可用性、多節點架構及雙工的故障切換機制,以避免單點故障造成停機,確保備份操作持續運行。
集團公司數據中心內有各種操作平臺的服務器和不同品牌的存儲設備,只有具備高度兼容性和擴展性的VTL,才能在不更改架構的前提下,無縫的部署于數據中心,才不會造成資源浪費和管理上的困擾。
系統應該完全支持開放系統的存儲架構,可以支持FC、SCSI、iSCSI,甚至是InfiniBand等多種傳輸協議,并與各種品牌的磁盤陣列及存儲系統相兼容,企業用戶可以靈活的選擇并配置存儲資源。
集團公司發展至今,已逐步形成北京、宜昌、成都的三總部架構,信息系統也逐步形成三地三中心的格局,今后將逐漸由一點擴展至多節點的虛擬磁帶庫(VTL)備份系統架構。
現在的虛擬磁帶庫(VTL)解決方案已具備遠程復制的功能,虛擬磁帶可以從數據中心復制到遠程的災備中心,將本地端數據保護直接延伸到異地災備。同時,逐漸完善的高級重復數據刪除功能,使通過廣域網方式進行遠程數據備份成為可能。數據中心級VTL的重復數據刪除功能可以刪除兩個備份時間點相近的全備份間重復率往往高達90%以上的數據,同時支持壓縮功能,并實現支持多對一遠程復制的全域重復數據刪除。最后附上集團公司北京、宜昌雙中心虛擬備份架構應用的規劃部署圖。

圖 三