摘要:如何在一定投資預算的情況下對數據進行快速備份、快速恢復,是每個系統維護及管理人員面臨的一個難題。該文根據湖北聯通的現狀,設計實現了一種集中的備份恢復方案,在實際使用中取得了較好的效果。
關鍵詞:集中;備份恢復;實現
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)32-1037-02
1 引言
作為目前國內唯一的全業務運營商,聯通經過這么多年的快速發展,業務支撐系統繁多。在湖北聯通,僅營帳、CRM、專業計費、經營分析、代理商管理等各種大的系統就有40余套,各類數據文件、數據庫歸檔日志加起來20T左右。擁有AIX、SOLARIS、LINUX等多套操作系統及ORACLE、SYBASE等多套數據庫。海量的數據、復雜繁多的系統,使得數據的備份與恢復成為系統維護管理中的難點。傳統獨立的人工備份方式,由于其備份、恢復效率較低,管理復雜,已不能滿足湖北聯通系統備份和恢復工作的需要。湖北聯通急需設計一套能夠及時備份、恢復的數據備份方案。
2 傳統備份架構探討
目前社會上常用的備份架構主要有Host-Base、LAN-Base、LAN-Free、Server-Free等,各種備份架構的主要特點如下:
2.1 Host-Based架構
Host-Based是傳統的數據備份架構。這種結構中磁帶庫直接接在服務器上,而且只為該服務器提供數據備份服務。在大多數情況下,這種備份是采用服務器上自帶的磁帶機,而備份操作往往也是通過手工操作的方式進行的。
Host-Based備份架構的優點是數據傳輸速度快,備份管理簡單,特別是對于系統文件的恢復較快,不依賴于其它環境和網絡;缺點是備份數據量有限,不利于備份系統的共享,不適合于現在大型的數據備份要求。
2.2 LAN-Base架構
LAN-Based架構是基于網絡的一種備份結構。備份時配置一臺服務器作為備份服務器,由它負責整個系統的備份操作。磁帶庫則接在某臺服務器上,在數據備份時,數據通過網絡傳輸到磁帶庫中實現備份。
LAN-Based備份架構的優點是節省投資、磁帶庫共享、集中備份管理;它的缺點是備份和恢復依賴于網絡環境,對網絡傳輸壓力也較大。
2.3 LAN-Free架構
LAN-Free架構是指在備份時,為提高用戶網絡性能,而選擇另外一條通路進行數據備份。LAN-Free可以根據設備和網絡結構的不同形式,以很多方式實現。通常,需要為每臺服務器配備光纖通道適配器,適配器負責把這些服務器連接到相連的SAN(存儲區域網)上。同時,還需要為服務器配備特定的管理軟件,通過它,系統能夠把數據從服務器經SAN傳輸到磁帶庫中。
在LAN-Free架構的備份中,LAN-Free的備份系統是建立在SAN的基礎上的,數據備份統一管理、備份速度快,由于備份數據的傳輸不經過LAN網絡,網絡傳輸速度大大提高,一般備份速度能提高2.5到10倍。
但LAN-Free架構也有不足,它仍就讓服務器參與了將備份數據從一個存儲設備轉移到另一個存儲設備的過程,在一定程度上占用了CPU和服務器內存。還有一個問題是,LAN-Free技術的恢復能力依賴于系統環境及備份軟件的功能,例如如果系統盤出現故障,部分基于LAN-Free架構的備份軟件不能進行有效恢復,需要安裝基于裸機的備份和恢復軟件。LAN-Free的實施比較復雜,需要相應的系統軟件及硬件設備支持。
2.4 Server-Free架構
Server-Free是LAN-Free架構的一種延伸,它不需占用備份主機的CPU資源,備份過程能夠在SAN內部完成,而大量數據流無需流過服務器,可使數據能夠在存儲陣列及備份帶庫(或其它設備)之間直接傳輸。
Server-Free與LAN-Free備份有著諸多相似的優點。雖然服務器仍參與備份過程,但負擔大大減輕,因為它不是主要的備份數據通道。Server-Free備份技術具有縮短備份及恢復所用時間的優點。因為備份過程在SAN網絡上進行,而且決定吞吐量的是存儲設備的速度,而不是服務器的處理能力,所以系統性能將大為提升。
Server-Free架構也有缺點,這種架構雖然服務器的負擔大為減輕,但仍需要備份應用軟件來控制備份過程,還是需要占用一定的CPU資源。而且,Server-Free備份可能難度更大、成本更高(需要購買相應的軟件、硬件)、管理也最復雜。該種備份方案還在不斷完善過程中。
3常用備份介質探討
傳統的備份介質是磁帶,但磁帶備份也有一些缺點,它的備份功能比恢復功能強,恢復能力較弱。由于磁帶機的傳輸速度增加,因此備份時要特別小心調整寫入磁帶的數據流,以避免磁帶在開始、進行中及定位時產生“摩擦(shoe shine)”效應。一般磁帶備份都支持多任務處理,以提升備份的速度,但是多任務卻會降低恢復的速度,因為恢復時,系統需要多花時間讀取屬于自己任務的那個備份映像。磁帶備份還有一個問題,它的備份質量并不穩定。在操作過程中,有可能數據已經全部備份成功,但是,卻很難驗證磁帶內所有數據是否都可以恢復。
另外一種常用的備份介質是磁盤。與磁帶相比,磁盤具有許多優點。 首先,和磁帶機不同的是,磁盤不需要穩定的數據流。即使采用只存儲少量數據的增量備份,也沒有“摩擦”效應。第二,磁盤允許系統管理員進行全部數據備份工作(Full Backup),而不用忍受執行速度變慢的后果或增加恢復資料時損壞的風險,可以加快整體備份的速度。另外,磁盤在恢復數據方面非常優秀,無論是在可靠性還是在執行速度上。以磁盤驅動器接口規格為主的磁盤陣列,讓磁盤成為比磁帶更可靠的介質。質量不好的磁帶會讓整個恢復操作失敗,而有了磁盤陣列保護功能,即使磁盤損壞,也可以成功地將數據恢復。 盡管磁盤有上述這些優點,但與磁帶比較起來,磁盤主要缺點就是,磁盤的價格要高于磁帶。
VTL是虛擬磁帶庫的簡稱(Virtual Tape Library)。VTL是近年來興起的眾多磁盤備份(Backup to Disk)解決方案中,最受矚目的一項。VTL既具有磁盤的優點,又具有磁帶的特性。它能夠模擬標準磁帶庫,讓現有的備份數據能夠使用磁盤而不是磁帶來做數據備份的介質。通過使用磁盤,用戶能夠得到更大的數據吞吐性能、更高的可靠性、數據保護能力和快速恢復能力,減少機械和人為操作導致的錯誤,而且不必改變已有的備份策略和操作過程。大部分VTL還具有硬件壓縮功能,通過硬件壓縮數據,在不影響數據備份速度性能的情況下,將同一硬盤的存儲容量增加2至3倍,因而大大節省磁盤成本。VTL一般還具有重復數據刪除功能,在做數據備份時,此項功能一般可增加存儲10倍以上的空間。但由于重復數據刪除時,一般采用一些特定的算法分析是否為重復數據,因此理論上存在誤刪的可能。
其它常用的介質,還有光盤、軟盤等,但綜合考慮成本、管理及技術成熟度等因素,在大型數據備份時使用案例不多。
4 湖北聯通數據集中備份恢復方案的實現
數據備份不僅是對數據進行保護,更重要的是在系統遇到人為或自然災難時,能夠通過備份對系統進行有效的災難恢復。在設計備份方案和備份策略時,首先考慮恢復點目標(RPO)和恢復時間目標(RTO),恢復點目標是指數據和系統必須恢復的時間。恢復時間目標是指災難發生后恢復業務所需的最長時間。各系統恢復要求為:核心系統24小時內恢復,重要業務支撐系統48小時內恢復,一般系統RTO可以達到48小時。
可以看出,湖北聯通系統備份面臨的主要問題有:數據量大,且核心系統恢復時間(RTO)短;系統較復雜,既有各種類型的操作系統、數據庫文件,也有各種數據文件、數據庫歸檔文件。傳統的備份方式很難滿足系統備份恢復的需要。根據湖北聯通現狀,必須結合現有的各種備份技術,才能設計出既能滿足符合RPO和RTO要求,又能兼顧投資成本的備份方案。湖北聯通設計了集中的備份方案,采用Veritas的NetBackup備份軟件,系統架構以LAN-Free為主, Host-Based、LAN-Base為輔,備份數據實現分級存儲,核心系統數據備份到VTL,非核心數據備份到帶庫。方案拓撲結構如圖1。
在該方案中,湖北聯通重要的系統為LAN-Free架構,服務器上安裝NetBackup系統管理軟件作為主服務器,重要系統的數據以LAN-Free的架構通過SAN交換機直接備份到VTL或磁帶庫STK L700e。一般系統為LAN-Base架構,數據通過LAN網絡備份到STK L700e帶庫上。具體方案如下:
4.1 備份軟件的部署
根據湖北聯通多平臺、多數據庫現狀及技術要求,湖北聯通選用了Veritas的NetBackup 備份軟件。VERITAS 的NetBackup軟件具有四層體系結構,可以滿足大型數據備份的需求。第一層的NetBackup主服務器(Master Server)用于進行規劃和跟蹤客戶機備份;第二層的介質服務器(Media Server)提供大型應用的本地備份。介質服務器可以與主服務器或另一個介質服務器共享磁帶庫;第三層為客戶端(Client),主要對服務器和工作站進行備份。第四層Global Data Manager可對企業內部的所有NetBackup存儲域進行集中的管理與控制。
湖北聯通在部署綜合備份軟件時,先將一臺IBM小型機作為備份服務器MASTER SERVER,服務器上安裝三種軟件,分別為:NETBACKUP SERVER,負責備份策略的制訂、管理、維護等工作;NETBACKUP LIBRARY SUPPORT,用于對磁帶庫中磁帶機設備的支持;NETBACKUP SHARED STORAGE OPTION,用于在SAN環境中對磁帶機共享的支持。
在客戶端,根據系統的重要程度、RTO時間不同,安裝不同的備份軟件:1) 核心系統,如營帳數據庫主機,安裝以下軟件:Bare Metal Restore Client,用于裸機災難恢復; NETBACKUP SAN MEDIA SERVER,用于對磁帶庫的管理、驅動及基于SAN備份的支持;安裝NETBACKUP ORACLE AGENT,用于對ORACLE數據庫的在線備份。2) 一般系統,根據備份方案的不同安裝不同的軟件:基于LAN—Free架構備份的,安裝NETBACKUP CLIENT及NETBACKUP SAN MEDIA SERVER;基于LAN-Base架構備份的,只需安裝NETBACKUP CLIENT。NETBACKUP CLIENT用于服務器與備份服務器之間建立通訊聯系,并提供文件系統備份的功能。NETBACKUP SAN MEDIA SERVER 用于支持基于LAN-FREE架構的備份。
所有需要備份的系統,都在Master Server上制定統一的備份策略,通過Netbackup,對支撐系統的備份工作進行集中的管理、監控。
4.2 數據備份架構的設計
湖北聯通業務支撐系統均具備LAN-Base的備份條件。對于RTO時間在48小時以上的一般支撐系統,湖北聯通采用LAN-Base架構的備份方案。對于部分數據量較大的核心業務系統,如果采用LAN-Base的備份方案,不僅系統備份及恢復的時間較長,而且由于系統備份時大量占用網絡資源,會嚴重影響業務系統的性能。對于這部分業務系統,湖北聯通組建了SAN的存儲網絡,采用了LAN-Free的備份方式。
由于LAN-Base和LAN-Free的備份方式都依賴于系統環境,特別是系統網絡環境,在系統遇到重大故障或災難時,部分基于LAN-Base和LAN-Free方式備份的數據就難于恢復。對于一般系統操作系統的備份,湖北聯通仍采用了傳統的Host-Based的備份方式。系統一旦出現故障,先用傳統的Host-Based方式恢復系統,再通過LAN-Base和LAN-Free方式恢復業務數據。對于核心系統,由于安裝了NETBACKUP SAN MEDIA SERVER,平時基于LAN-Free進行備份,出現災難時可基于LAN-Free進行系統及數據恢復。
4.3 備份數據分級存放
在前面比較備份介質時,我們可以看到,磁帶價格低廉,備份速度快,但存在恢復速度慢,不易驗證的缺點。磁盤備份讀寫速度快,但價格較高。VTL也是一種磁盤,但具有硬件壓縮功能及磁帶功能特性。通過分析RPO及RTO,以營帳系統為例,5T左右的數據若需要在24小時內恢復,按照最快的數據庫采用歸檔備份的恢復方案,至少需要在12小時內恢復數據,剩下的時間恢復數據庫,恢復業務。按照這個時間要求,帶庫恢復速度至少要達到118m/s。但目前采用LAN-Free進行數據恢復的最快速度為60m/s。因此,完全采用帶庫并不能在規定的時間恢復系統。綜合考慮系統恢復時間(RTO)及備份系統成本,湖北聯通采用了備份數據分級存放的方案。核心備份數據存放在VTL上,其余備份數據存放在STK L700e的帶庫上。即在Veritas NetBackup的Master Server的控制管理下,核心的營帳系統系統數據以LAN-Free的方式通過SAN交換機直接備份到VTL,專業計費等重要系統的數據以LAN-Free或LAN-Base的方式直接備份到磁帶庫STK L700e。通過以上的備份數據分級存放,湖北聯通核心業務系統恢復時間均可滿足RTO要求。
4.4 帶庫及VTL的選擇
由于核心的備份數據都存放在VTL上,要求VTL除具備快速備份和快速恢復特性外,數據的可靠性是重點考慮的問題。因此在選擇VTL上,湖北聯通并沒有選擇帶有重復刪除功能的VTL,而選擇了具有壓縮功能的VTL。
帶庫作為主要的備份載體,存放著主要的備份數據,根據業務數據量、數據備份恢復時間要求,湖北聯通備份系統選用了目前市場上成熟度較高的StorageTek公司的L700e 磁帶庫,配有8個LTO2磁帶機。
5 結束語
湖北聯通業務支撐系統數據集中備份恢復方案具有以下特點:
1) 實現了全省業務支撐系統的集中備份管理
2) 完全滿足RPO和RTO的要求
3) 實現備份數據分級存放
4) 結合了各種數據備份技術及方案
采用了Host-Based、LAN-Based、LAN-Free多種備份架構;
實現了基于帶庫和VTL的集中備份方案;
利用NETBACKUP ORACLE AGENT軟件,結合RMAN及數據庫歸檔,實現了ORACLE數據庫的實時備份。
5) 具有較高的性價比
由于采用了備份數據分級存放及各種備份技術,既滿足了備份、恢復的需要,又控制了成本。
參考文獻:
[1] 葉碩累.存儲區域網SAN的基本結構和應用環境[J].科學論壇,2005(17):31-32.