張國強,楊英杰,李俊鋒
(解放軍信息工程大學電子技術學院,鄭州 450004)
隨著信息技術的發展與廣泛應用,特別是以金融、政府、電力、鐵路、民航等重點部門與行業為代表的一些關系國計民生的領域,其信息系統或電子政務系統已經成為國家的重要基礎設施。據國際數據公司(International Data Corporation, IDC)對亞太市場的最新調查顯示,近七成受訪機構在發生災難時只有不到一半的系統在運行[1]。災難對信息系統的安全威脅已嚴重影響企業的生存與社會的發展。
災難恢復是指將信息系統從災難造成的故障或癱瘓狀態恢復到可正常運行狀態,并將其支持的業務功能從災難造成的不正常狀態恢復到可接受狀態而設計的活動和流程[2]。其旨在降低災難影響,及時恢復關鍵業務。
發生在美國的9·11事件,使世貿中心在其后一年過半的企業因關鍵數據丟失而消失,而金融巨頭Morgan Stanley Co.由于重要數據得到災難恢復系統的保護,使其在事后數小時即宣布次日正常營業[3]。
災難恢復成為信息系統安全運行的最后防線,是各個行業或部門業務持續運作的重要保證。為指導提高災難恢復建設水平,及時發現存在問題、對信息系統災難恢復能力進行科學的評估具有較強的現實意義。
近年來,國外針對災難恢復能力評估方面的研究以可用性評估、性能評估及效能評估為主[4]。國內相關研究尚在起步階段,參照標準法規不一,且偏重管理與硬性條件評估,采用基于管理、技術或規劃的劃分方法[5-6]。
2007年,我國僅有的災難恢復行業國標《信息安全技術信息系統災難恢復規范》的出臺對災難恢復建設具有一定的指導作用,但僅依靠硬性基準要求與定性描述難以界定災難恢復能力的真實情況,在實際實施過程中存在“落地難”問題。建立緊密貼合國標的災難恢復能力指標體系勢在必行,而相應的指標度量方法目前也缺乏系統的研究。
本文在災難恢復國標的基礎上,結合動態影響分析,提出基于資源的災難恢復能力指標體系,并依據指標特性分類,設計系統的指標度量方法,以提高指標體系操作性,從而達到科學評估信息系統災難恢復能力的目的。
災難恢復能力是指在災難發生后,利用災難恢復資源和災難恢復預案及時恢復和繼續運作的能力[2]。
依據國標,提出基于資源的災難恢復能力指標體系。國標定義的7種災難恢復資源要素包括[2]:
(1)數據備份系統;
(2)備用數據處理系統;
(3)備用網絡系統;
(4)備用基礎設施;
(5)專業技術支持能力;
(6)運行維護管理能力;
(7)災難恢復預案。
采用層次結構,逐層細化,并引入動態指標,得到災難恢復能力指標體系架構,如圖1所示。

圖1 災難恢復能力指標體系架構
在圖1中,一級指標由國標災難恢復資源組成,二級指標與三級指標主要依據國標規范性附錄 A災難恢復能力等級劃分中對災難恢復資源的要求提出,四級指標為細粒度指標,底層指標由性能指標組成。
依據國標規范性附錄對各能力等級災難恢復資源要求,可進行歸類,以數據備份系統與備用基礎設施為例,分別如表1和表2所示。于是可建立其對應的二級指標,如圖2所示。

表1 數據備份系統要求

表2 備用基礎設施要求

圖2 示例二級子指標示意圖
根據國標對災難恢復資源的要求描述[2],組織應根據災難恢復目標,確定數據備份系統的以下內容:
(1)數據備份的范圍;
(2)數據備份的時間間隔;
(3)數據備份的技術及介質;
(4)數據備份線路速率及通信設備規格要求。
確定備用基礎設施的以下內容:
(1)與主中心的距離要求;
(2)場地和環境要求;
(3)運行維護和管理要求。
則可建立相應的三級指標,以備用基礎設施子指標為例,如圖3所示。

圖3 示例三級子指標示意圖

圖4 示例四級子指標示意圖
在圖3中,工作時間與電力要求為動態指標,反映災難恢復系統健康狀態受日常變化因素影響的情況。
指標體系四級指標為細粒度指標,刻畫技術細節,是指標與基礎數據集的橋梁。依據相關標準對三級指標進行細化得到四級子指標。如對于數據備份系統,可依據國標要求,建立數據備份線路速率與數據備份線路與設備硬件2項四級子指標。對于備用基礎設施,依據國標要求及《電子信息系統機房設計規范》[7],建立四級子指標如圖4所示。
部分四級指標,如數據備份線路速率、數據備份線路與設備硬件等,其決定因素來自性能指標,包括磁盤性能、網絡性能、硬件可靠性、處理性能等。由此,在指標體系底層建立性能指標,表3列舉了部分典型的性能指標。

表3 部分典型性能指標
隨著系統的運行,災難恢復能力會產生明顯變化,其原因包括:
(1)線路與設備逐漸老化,自然故障率上升。
(2)系統所在場地環境變化,如產生結露、電磁干擾等現象,威脅硬件穩定運行。
(3)系統安全漏洞、病毒感染、網絡擁塞等導致關鍵業務受到威脅。
(4)災難恢復建設初期,組織管理預案等的不完善及應急響應實施不熟練,影響災難恢復的效果。
(5)企業頻繁的人事變動或人才流失等,增大了數據災難發生率,對災難恢復工作產生影響。
綜合以上,提出動態指標以刻畫災難恢復能力受外界因素的影響情況。
根據指標特性,將動態指標劃分為以下4類:
(1)環境敏感指標。反映系統所處環境,主要指機房環境對系統的穩定運行及災難恢復的順利實施產生的影響。
(2)資源敏感指標。反映業務軟件環境對業務連續運行的影響,主要由性能指標組成。
(3)時間敏感指標。反映硬件可靠度、失效率及平均壽命等,該類可靠性指標與時間相關,通過統計數據計算。
(4)管理敏感指標。反映組織管理變更對災難恢復能力的影響,含組織結構調整及人力資源變動等。
依據動態指標分類情況選取適合的度量方法:對于環境敏感指標,各環境因素指標與其對系統影響程度存在一定關系,可采用模糊數學的方法,構建相應隸屬函數將影響量化,存在環境因素組合影響情況時,還需采用邏輯樹方法描述其間的邏輯運算關系;資源敏感指標系統性能指標對災難恢復能力的影響程度度量可采用劃分指標閾值區間,并構建邏輯規則庫,以反映系統性能對災難恢復能力的綜合影響;資源敏感指標的網絡性能指標對災難恢復能力的影響程度度量,應主要從網絡性能對災難備份與恢復性能影響上分析,采用基于備份性能影響分析指標度量方法;對于時間敏感指標的度量,其對象為硬件等可靠度、失效率等,選取工業上較為成熟且已廣泛應用的威布爾分析方法進行度量。
而對靜態指標度量方法的選取較為直觀,依據靜態指標獲得基礎數據的類型不同,典型地,可將靜態指標劃分為符合性指標、行業性指標與模糊性指標。對于符合性指標,僅有符合與不符合2種結果,可直接指定賦值;對于行業性指標,即由于企業所屬行業的不同,指標所參考的基準不同,應建立行業屬性矩陣,通過計算絕對差或相對差的方法進行度量;模糊性指標,即指標參數與指標取值關系不明顯的,采用模糊數學的方法進行度量。
本文主要針對動態指標度量方法進行研究。
閾值邏輯樹影響分析指標度量方法即先對底層性能指標設定閾值,再通過構建邏輯樹以建立邏輯規則庫,從底層指標值計算得出綜合動態指標。閾值邏輯樹影響分析指標度量應用于環境敏感指標及資源敏感指標的系統性能指標度量。其步驟如下:
(1)設定性能閾值。如從內存不足角度設定內存可用字節數閾值為 5 MB,設定每秒內存分頁數閾值20 Pages。
(2)構建邏輯樹。當上述2個指標同時超過相應閾值時,可初步判斷系統內存不足,2個事件間為“與”關系,如圖5所示,則依據邏輯樹可建立對應的邏輯規則庫。

圖5 邏輯樹示意圖
(3)影響分析計算。如造成內存不足的子事件有多個,依據其導致父事件發生概率的大小決定各自影響權重或子事件的影響值。設可能導致內存不足的子事件i導致內存不足的概率Pi,且Pi的最大值為內存字節數與每秒內存分頁數均超過閾值的事件導致內存不足事件的概率P=0.73,則當上述2項子指標同時超過閾值時,內存性能值為:

網絡性能指標用以度量網絡性能對備份性能的影響程度。網絡性能指標值可以通過度量其對災難恢復能力的 2項重要性能指標恢復點目標(Recovery Point Objective, RPO)與恢復時間目標(Recovery Time Objective, RTO)的影響來計算。
數據在廣域網傳輸過程中,網絡性能瓶頸時有發生,由此導致的備份性能下降現象不容忽視。據Arsenal Digital估測,其成功的備份任務中有 94.5%需要達到3次連接嘗試,且有超過6成的未成功備份任務的失敗歸因于網絡瓶頸[8]。
如圖6所示,設主站點到備用站點路徑包含n段鏈路,第i段鏈路Li的帶寬為Bi,承載的其他業務流總流量為 Fi,有瓶頸鏈路 Lbn帶寬 Bbn、緊湊鏈路Lc帶寬Bc、可用帶寬Ba的關系如下:


圖6 瓶頸鏈路示意圖
假設主站點與備用站點的設備I/O對網絡傳輸無影響,網絡未擁塞,網絡延時與備份時間相比忽略不計。設全備份周期Tb,第i次全備份總用時 tb(i),如圖7所示,則信息系統的RPO上限Rmax= Tb+tb(i)。

圖7 備份性能與RPO關系示意圖
備份數據大小通常為線性增長或指數增長,通過線性擬合或指數擬合推斷第 i次全備份的數據大小S(i),設備份時間區間的平均可用帶寬為,于是得到第i次全備份總用時為:

設系統初始建立時的RPO最大值Rmax′,從而得到網絡性能指標值W,且有:

當網絡擁塞發生,導致網絡延時。對于自適應心跳檢測算法,會主動提高檢測時間,從而造成 RTO下限提高,與往返時延(Round-trip Time, RTT)近似相等,即RTO下限Rmin≈RTT。
在目前所有適用的計算可靠性的分布中,威布爾分布是一種具有廣泛適用性的統計分布函數。對于硬件系統可靠性分析,應用雙參數威布爾分布較為常見,設備可靠度為R(t),有:

其中,β為狀態參數,確定威布爾分布族中對于具體數據描述相關性最好的分布;η為比例參數或特征壽命,可以簡單理解為63.2%的單元故障時的壽命。雙參數均可從壽命數據中估計出。
平均故障時間(Mean Time To Failure, MTTF)和特征壽命η為Γ函數關系,其公式為[9]:

現在標準工程方法采用故障時間的中間值而非均值來劃分壽命數據。根據中間等級壽命數據計算出β和 η。
威布爾分析分 4個步驟進行,并用 Matlab命令進行擬合:
(1)輸入壽命數據將某路由器壽命數據輸入data數組。

(2)估計威布爾參數
采用命令 parmhat=wblfit(data)估計威布爾雙參數,默認取置信水平為95%。
(3)繪制威布爾概率圖
采用命令 wblplot(data)繪制出威布爾概率,如圖8所示。

圖8 威布爾概率圖
(4)擬合結果分析
采用Matlab擬合工具箱對擬合結果分析如下:

由此可得相關系數 r=0.986 2≈1,即線性相關性很好。決定系數r2=0.972 5,有97.25%的變量數據可由相關性解釋。又有和方差SSE=0.045 69≈0,均方根RMSE=0.050 38≈0,表明擬合質量很好。
故采用威布爾分析設備可靠性的結果令人滿意。
現有災難恢復能力評估側重于對硬性指標符合性的考察[10],所選取的指標體系也大多局限于有或無等粗粒度指標,對災難恢復能力在災難恢復系統運行的不同階段所受到的變化因素影響細節缺乏考量,從而對系統災難恢復能力狀態細節難以準確把握。
本文提出的基于資源的災難恢復能力指標體系,緊扣國標并圍繞災難恢復能力定義劃分指標域,引入影響細節動態指標,加強了對災難恢復能力細節的刻畫能力,增強了評估的科學性與操作性。
災難恢復能力性能主要受系統性能與網絡性能影響,而災難恢復任務的實施需要耗費一定的系統資源與網絡資源。目前對于系統性能或網絡性能對備份恢復性能影響的研究較少,本文對此進行了研究分析,并針對性地提出閾值邏輯樹影響分析度量方法與網絡性能影響分析度量方法。結合災難恢復能力指標體系動態性能指標,有效刻畫了性能因素對災難恢復能力的影響,提高了災難恢復能力評估的準確性。
為科學規范指導災難恢復能力建設,本文提出基于資源的災難恢復能力指標體系,并對其建立過程進行了闡述,該指標體系充分考慮到災難恢復能力細節參量考察及各階段動態因素的影響,解決了國標粒度粗與缺乏動態因素考察的問題。之后針對災難恢復能力指標度量方法進行了系統的分析研究,并依據指標特性分類提出基于閾值邏輯樹影響分析、基于網絡性能影響分析及基于威布爾分析的指標度量方法,從而提供了指標與基礎測量值之間的紐帶,初步解決了國標“落地難”問題并提高了評估實施可操作性。最后,對提出的指標體系及其度量在評估中的應用進行了分析。
本文提出的指標體系及度量方法為科學規范的災難恢復能力評估提供了基礎,推動災難恢復能力指標向更細粒度發展。然而,在災難恢復能力評估中,評估算法模型及其權重的選擇也是決定評估成功與否的關鍵因素,如何構建更加科學的評估體系和提高評估質量,還有待進一步研究。
[1]IDC Corp..IDC-Press Release[EB/OL].(2011-04-15).http://www.idc.com/getdoc.jsp?containerId=prHK22926311.
[2]中華人民共和國國家質監總局.GB/T20988-2007 信息安全技術 信息系統災難恢復規范[S].2007.
[3]王勝航.IBM容災白皮書[EB/OL].(2010-03-27).http://wenku.baidu.com/view/cdd6a0aad1f34693daef3e3d.html.
[4]Ueno Y, Miyaho N, Suzuki S, et al.Performance Evaluation of a Disaster Recovery System and Practical Network System Applications[C]//Proc.of the 5th International Conference on Systems and Networks Communications.Nice, France: [s.n.], 2010.
[5]趙 瑩.信息系統災難恢復能力評估與實證研究[D].北京: 對外經濟貿易大學, 2009.
[6]陳敏剛, 董 軍, 張麗亮, 等.AHP和模糊綜合評判在災難恢復能力評估中的應用[J].計算機工程, 2006,32(18): 135-137.
[7]中華人民共和國工業和信息化部.GB50174-2008 電子信息系統機房設計規范[S].2008.
[8]Calyam P, Arava P K, Butler C, et al.Network Tuning and Monitoring for Disaster Recovery Data Backup and Retrieval[EB/OL].(2005-05-08).https://www.osc.edu/files/staff_files/pcalyam/dr_tcp.pdf.
[9]金 星, 洪延姬.系統可靠性與可用性分析方法[M].北京: 國防工業出版社, 2006.
[10]王椏楠.信息系統災難恢復能力評估方法研究[D].保定: 華北電力大學, 2006.