有效實施災難恢復計劃的五大關鍵步驟

2010-08-15 00:44:26

電腦與電信 2010年10期

關鍵詞：程序

特約通訊員伍芳菊

如需執行災難恢復計劃，請務必先了解自己的恢復要求。

在當今的環境下，很多企業需要保持某種形式的業務連續性計劃，該計劃旨在為企業提供一種面對突發事件（比如發生洪水，地震，或者大范圍的停電，導致主站點業務停滯）時可持續進行業務操作的辦法。業務連續性計劃涉及信息技術基礎設施的故障恢復和在遠程站點重新啟動業務操作需考慮的人身安全和相關物理設施等問題。同時，在偏遠地區給工作人員提供合適的工作區域。

IT基礎設施恢復，亦稱作災難恢復（DR），針對計算機設備（包括服務器，存儲器等）遇到災難故障如何恢復等問題。DR為業務連續性計劃提供了一個必要的基礎，但不能取代其本身。本文討論了創建有效災難恢復計劃的關鍵因素，適合IT管理者和IT技術工作者閱讀。

制定戰略

商業信息對于大多數企業來說，就如同王冠上的寶石，雖然大小不一，其意義非同小可。

現今企業高度計算機化，商業信息已被當作一種數據加以維護，大多數企業每天會采取一些措施以保證新數據和存檔數據隨時更新恢復。從歷史上來看，本地數據保護是通過某種基于磁帶備份的形式完成的。備份磁帶副本被保存在本地磁盤，可以每天對已丟失文件和數據表等資料進行恢復。其中，一部分磁帶副本被定期地遷移到偏遠站點，可以常年保存。即使發生災難事故（可能導致重要網站關閉），仍可確保數據恢復。一直以來，傳統的DR計劃是把備份磁帶儲存在裝置區外。當某個非主要站點需要重新運行業務操作程序時，保存在遠程站點磁帶上的數據將會被轉移到新的“主站點”，然后手動重建應用程序,上面的數據被裝載到新的服務器上，這樣業務程序就在新的站點得以處理，直到之前的“主站點”重新聯機。以上所描述的就是一系列災難恢復要求。

本文的重點在于讓用戶了解實施DR計劃的具體要求和意義。先不要去關注相關的技術問題，而是弄清楚自己的具體要求，再開始實施一項成本雖低但能滿足要求的恢復計劃。在這之前，用戶需打破“異地的備份磁帶等于災難恢復”這個概念。這樣，才能把具體要求和能滿足該要求的技術進行匹配，以便對癥下藥。

步驟一：理解業務優先次序

雖然不同企業有各自的業務流程，但是所有流程必定會有一個主次性關系。一般來說，只要是直接關系到創造收入或客戶支持的流程均被視為關鍵流程。

了解災難恢復的時間性，它和業務優先次序有何關聯，然后集中注意力關注有必要存在恢復計劃的那些領域。企業既要判斷程序失敗對業務的影響，還要判斷影響范圍有多大。

比如，程序一旦失敗是否會直接影響收入？如果是，有沒有解決辦法？解決辦法會不會很復雜，很繁瑣？部分重要程序丟失可能給業務帶來嚴重的影響，比如可能導致收入損失或者無法支持客戶工作。但是，其它非重要程序即使丟失幾天、幾周，甚至幾個月也不會有什么影響。因此，用戶必須對此進行判斷，如果可以確定某些程序不重要，完全不用執行任何恢復計劃，只需列一個業務程序主次清單，包括所有主要的業務程序區域，然后勾畫出一張業務流程圖及相關的配套IT基礎設施圖。最后，只需備一份選項列表，包括應用程序，服務器和能夠支持各個業務流程的存儲裝置。行政管理參與關鍵業務流程的優先次序的定義對以后的財政預算是非常有用的。為了讓公司把正確的恢復計劃放對地方，需對業務優先次序、相關流程，以及方案失敗對業務產生影響等問題達成一致意見。

步驟二：正確評估恢復要求

主要業務流程一旦被列為優先事項，就意味著需要第一時間處理。首先，要確定所有候選應用程序都具備一定價值，并確保最新的副本作為數據在一個或多個遠程位置保存。從商業角度來講，恢復方案應盡可能減少恢復過程中數據的丟失，提供簡單、可靠的恢復辦法，同時恢復時間盡可能縮短。恢復效果的衡量指標（即滿足恢復要求和評價每個應用環境的指標）主要是指恢復點目標（RPO）和恢復時間目標（RTO）。比如RPO是1個小時，就意味著丟失的數據不能多于1小時內最多的數據量，又如RTO是4個小時，則意味著特定的應用環境重新運行耗時不能超過4小時。

當發生災難事件時，系統很可能既要恢復應用程序，又要恢復丟失的數據資料。很多企業的服務器和和應用環境采用了手動重建和恢復。與僅自動恢復數據，然后靠管理員手動恢復應用程序的技術相比，提供全方位自動應用恢復的災難恢復計劃的RTO更短、更可靠、操作起來更具預測性，因為無需太多依賴進行實際操作的管理員的技術。

評價你的設備位置可能遇到的災難類型。如果你所處的位置隨時可能讓你面臨帶來大面積影響的災難事件（如洪水，地震，或大面積的斷電），您應該根據DR的最佳指引，也就是將遠程恢復站點設在離主站點至少200英里以外的地方。

如果實際情況如上所述，那么進行復制技術操作時所做的每一個決定都會受到影響。復制技術分兩種類型：同步復制和異步復制。前者的復制來源和目標在數據狀態方面保持一致，如果復制來源和目標相隔30英里以上，由于延遲問題會對生產應用程序產生嚴重的影響。同步復制有距離限制，所以異步復制使用更廣泛，因為后者能很好地解決DR計劃長距離問題。

異步復制理論上能使復制來源和目標在任何距離都保持同步，但目標偶爾會滯后幾分鐘（這取決于存儲空間大小和網絡延遲的來源）。盡管如此，異步復制提供了一種必要的RPO性能，足以滿足災難恢復計劃99.9%的要求。因此，對生產應用程序基本上沒有影響。

恢復分級是一種經常用來評估業務流程恢復技術和相關要求的方法。不是針對所有主要業務流程進行評估和單獨制定恢復要求，而只是少數恢復等級被嚴格定義。每個等級都有一套與該等級范圍內所有應用環境相關聯的恢復性能指標。例如，IT管理者通常定義以下三個等級：

等級1 RPO 5分鐘,RTO 1小時

應用環境A,B

等級2 RPO 6小時,RTO 8小時

應用環境C,D,E

等級3 RPO 1天或多于1天,RTO 1 RPO 5分鐘,RTO 1小時

所有其它的應用環境

以上數字并不是用于提供業務建議，因為恢復等級因業務內容和調節指令不同而改變。但是，總體思路還是可以適用的：少數關鍵應用程序要求的RPO和RTO值很低；另外一些非常重要的程序要求非常嚴格，不過沒有等級1嚴格；其它非重要程序，只需一兩天之內完成恢復即可。

一般來說，滿足的恢復要求越苛刻，恢復方案的成本越昂貴。如果不用考慮成本因素，大部分終端用戶馬上會反應：只要恢復速度夠快，花多少錢我不在乎。事實上，也許他們根本不需要苛刻的恢復技術就能輕松解決問題。但是，要在滿足真正恢復要求和所需成本之間作出權衡，企業有必要對上文提到的步驟1有準確的理解。

步驟三：根據恢復要求制定正確的解決方案

一旦確定RPO/RTO和恢復可靠性等關鍵指標，只需考慮要滿足IT基礎設施的類型。第一要考慮的是遠程位置：自己是不是已經擁有一個公司網點，該網點能否在一個或更多的首要位置用作DR站點？如果企業不具有這樣一個網點，需第一時間想辦法解決。

當災難事件發生時，可以從DR服務提供商那里租用設備，但必須謹慎為之。還可以選擇新的管理服務提供商，他們可以在一個大規模的共享基礎設施機構（其支持多種租賃服務）提供DR統計或儲蓄資源出租。

部分系統資源可能是專用的，如果主站點的停機時間超過數天，實際業務操作就顯得沒那么靈活。但是，對于沒有連接到遠程站點的小規模公司而言，選擇管理服務供應商是一個不錯的選擇。而且，如果同時具備一個可以用作遠程恢復站點的位置，選擇會更多。

恢復工具通常會選用磁盤或磁帶。如果每周進行1-2次的額外磁帶拷貝，通過地面運輸把備份資料輸送到遠程站點長期儲蓄，那么要達到的最佳RPO不能超過數日或一個星期。如果不能滿足要求，可考慮使用磁盤備份。跟磁帶相比，磁盤更適合用作備份和恢復工具，因為磁盤兼容不同速度的數據，支持隨機訪問，使用起來更可靠。

使用磁盤時，所有的主要恢復性能指標會獲得很大程度上的提高。同時，磁盤還能提供其它技術，尤其是DR同步復制技術和某些恢復進程自動化技術。

這些技術可支持DR計劃的實施，幾分鐘內實現RPOs,并在同樣的時間范圍內實現RTOs.如果用戶打算使用復制技術，需考慮對網絡帶寬帶來的潛在影響：要達到所需恢復點目標(RPO)要求需要多少兆的寬帶？還有大量的WAN優化技術減少了發送至遠程站點支持恢復計劃的數據總量。

優化技術包括TCP優化、壓縮和其它存儲容量優化技術，以及帶寬塑造和其它質量的服務工具。如果確定應用程序環境的輸入/輸出率是要保護的對象，那么將很容易確定現有的網絡是否能滿足RPO要求或在增加復制時是否還需額外購買寬帶。

另外，用戶可能會有這樣的疑問：在本地站點和遠程站點是不是需要有等效的硬件設備？使用的技術能否支持不同環境？假設今天大多數IT商店有很多不同設備供選擇，選擇使用支持異種環境的DR方案的成本效益會更高。具備支持異質性特性的DR方案不僅有助于保存現有投資，而且以后購買新的服務器和存儲器可以享受最大限度的選擇自由。

步驟四：測試災難恢復計劃

現實和理論之間總是存在很大區別。即使已經制定慎密的DR計劃，在理論上反復地推敲過，但要確保該計劃奏效，還必須不定期地對其進行測試。由于系統、存貯設備和軟件不可避免會發生變動，部署的DR配置會隨時間逐漸削弱其可預知的執行能力。主站點的生產系統只要發生小變動，就可能會導致遠程站點的數據和系統程序無法恢復。最糟糕的是，真正的補救工作剛進行到一半，非常嚴密的變更管理可能會論及此“削弱問題”，但是這才是真正的風險所在。被復制的配置可能會很復雜，牽涉到不同供應商提供的硬件和軟件，這些硬件和軟件必須做到同時工作，完美配合，才能順利達到恢復目標。

雖然大多數DR管理者可能會排除以上風險，但使用手動密集恢復操作的管理者們，如果不考慮到大量的故障標識或故障隔離、以及如何使遠程站點重新運行等問題，那么將對自己的災難恢復執行能力沒有太多信心。

許多公司不愿嘗試DR計劃測試有一個很簡單的原因——測試對他們的生產程序環境具有破壞性，且花費很高。尤其當使用某種外包DR服務時，萬一失敗抑或沒能獲取數據恢復，還需支付額外的費用。假如運用自己的基礎設備部署一個DR解決方案，更新的技術比如服務器和存儲虛擬化、持續數據保護（CDP）、異步復制，如果把這些技術跟DR測試自動化結合使用，有助于解決高破壞性和高成本的問題。虛擬化技術降低了對遠程站點的硬件要求，減少了DR部署的總成本。像CDP這類技術可以保證執行DR測試時不會對生產操作系統造成任何影響。

自動化技術使人們的進行恢復操作的風險因素減到最小，而且在減少恢復工作對管理員的高端技術依賴方面取得了成功，常規測試還能幫助企業進行微調和提高恢復能力，同時逐步隨著恢復要求而不斷改善。

步驟五：創建災難恢復計劃書

計劃書包括支持系統和網絡操作程序的各種流程，對所有IT管理學科都適用，而且經實踐證明在IT資源分配和平均恢復前時間（MTTR）方面操作起來更高效。編寫DR計劃書只是創建可重復程序的步驟之一，該程序的目的是讓恢復結果變得可以預知。計劃書既包含如何執行IT基礎設施恢復操作程序，也包含關于特殊要求和應急處理的描述。用戶一旦確定自己的恢復計劃要求，可以用文件的形式把要求記錄下來，并保存幾份同步更新的副本——本地站點和遠程站點至少各一份，同時還達到了以下目的：

·確保不管是誰在做這項恢復工作，都是遵循同樣的恢復過程。

·為恢復計劃隨著時間的推移日益改善做準備。

俗話說，有備無患，災難恢復計劃如同企業的日常業務保險，可以讓自己在遇到突發災難事件的時候把損失減少到最低。既然災難恢復計劃意義重大，企業不僅需要擁有一份主要的保險，而且應該是適合自己的保險。因此，在進行災難恢復計劃之前，務必了解清楚自己的要求，然后就可以按照本文的五大步驟執行恢復計劃。

參考資料：

1.http://www.inmage.com/

2.http://whitepaper.ctocio.com.cn/