岳 陽,劉 洋,劉天宇
(中國鐵路信息科技集團有限公司 運行維護與生產調度部,北京 100844)
中國國家鐵路集團有限公司(簡稱:國鐵集團)的鐵路主數據中心,定位為中國鐵路最高級別的信息中心和數據處理中心,是實現國鐵集團信息化總體規劃的核心,承載著中國鐵路集中應用系統部署及數據資源存儲的任務。隨著鐵路信息化的不斷發展,國鐵集團初步建設“國鐵集團-鐵路局集團”兩級、“國鐵集團-鐵路局集團有限公司(簡稱:鐵路局)-站段”三級信息系統運維體系,組建了相應的人才隊伍[1]。目前,鐵路主數據中心仍處于建設階段,雖然已上線的各重大信息系統依托前期的運維管理系統框架建立了相關災備管理系統,但是鐵路主數據中心級災備管理還處于各大信息系統各自為政的狀態,沒有統一的管理且缺乏自動化工具。災備管理系統建設并不是技術堆疊和數據堆積,而是災備中心在真正需要時能得用上。因此不僅要有技術體系,還要有持續性的管理機制[2]。本文從災備日常管理、災備運維管理和災備恢復預案3 部分研究建設災備管理系統框架。希望可以改善主數據中心的災備管理系統缺乏統一化、自動化的狀況。
災備預案文檔管理電子化,可通過梳理在業務受到威脅或發生災難時需要采取的一系列關鍵步驟,包括業務應急預案、系統切換恢復預案等,在平臺中可以對相關預案及腳本進行儲存、查閱和管理。
應用系統等級管理的目的是為應用系統生產、災備系統建設和運維等提供標準。對于同時支撐多個應用系統的平臺,如果應用系統不可獨立部署,則支撐平臺以其中最高的應用系統等級作為平臺的等級;如果應用系統可以獨立部署,則該應用系統單獨評級,支撐平臺則以其余應用系統中最高的應用系統等級作為平臺的等級。
應用系統一直處在不斷發展變化中,為了保證災備系統的有效性,應用管理員需要定期對災備中心的應用版本進行一致性檢查和管理。災備中心信息系統隨時可用是災備中心具備業務接管能力的必要條件。運維人員應定期檢查應用服務器運行狀態,確保應用環境穩定、應用系統可隨時啟用。定期對應用程序版本、系統軟件版本、固件程序版本、關鍵配置參數等與鐵路主數據中心信息系統進行對比與核查,確保災備系統與生產系統同步。
鑒于故障的客觀存在性和故障恢復需要時間,信息系統的不可用性會導致業務的中斷,在市場競爭激烈的信息時代,由于業務中斷所付出的代價非常巨大,如何保證業務在數據遭受災難時及時恢復生產,是一個企業面對和亟待解決的問題[3]。在災備管理各項工作中,關鍵在于如何保障災備中心快速穩定的切換及切換后持久平穩的接管,需要建立切換和接管兩類關鍵指標,衡量切換能力和接管能力高低,并用于總體評價災備體系支撐能力水平。切換指標包括數據復制的延遲情況、突發事件響應決策速度、突發事件處理速度等。接管指標包括接管后持續的時長、用戶感知的接管效果、應急容災資源性能配比等。
災備演練的目的是為了檢驗各科技、業務和支持保障部門聯合應對災難事件的能力,檢驗重要信息系統災備環境和應急切換流程的有效性[4],提高相關人員的臨場應急處置能力和相關風險意識。
1.4.1 災備演練分類
災備演練分類,如圖1 所示。災備演練包括桌面演練、模擬演練和實戰演練。桌面演練只需要沙盤推演,演練過程工作量小,易于實施;模擬演練要在模擬環境下做模擬演練,演練對技術要求高,對生產系統沒有影響;實戰演練需要在真實環境下演練,演練成本高,易于發現潛在問題。

圖1 災備演練分類
1.4.2 災備演練流程
在演練過程中,災備切換自動通過預定義的切換步驟編排,實現各業務系統或各故障場景一鍵自動切換(包括自動化的切換演練),并實現切換流程可視化,即災備流程可進行可視化編輯和編排,可生成標準化災備流程模版,如圖2 所示。

圖2 災備演練管理及流程
1.4.3 災備演練總結
災備演練總結由演練發起人負責,演練總結的目的是分析問題,總結經驗,完善災備系統,提高災難恢復能力。總結報告應包括取得成績、發現問題和優化建議等內容。
在演練實施結束后,項目組根據演練過程記錄對本次演練進行回顧和總結,分析演練中所遇到的問題,提出改進建議,并對災難恢復預案進行修訂,以保障災難恢復系統的可用性和有效性。
為保障災備中心部署的業務系統隨時具備業務接管能力,落實災備系統“數據同步,應用可用,網絡連通”的技術要求,應遵循以下災備系統運維要求:災備中心物理設施符合鐵路主數據中心運行條件,日常運維管理根據信息系統運行維護相關規定,結合現有的運維管理體系,形成災備系統日常管理規范。
2.1.1 設備管理
災備機房是指同城數據中心機房和異地災備中心機房,參照原機房管理辦法運行管理。
(1)設立災備應急場所(EOC),作為進行災難恢復指揮和操作工作的場所。由運行管理員負責災備應急場所的日常維護,以及內部設施、檔案和辦公用品的管理;需定期進行災備應急場所檢查。
(2)運行管理員負責災備中心運行情況監控,內容主要包括CPU 使用率、內存使用率、文件系統、磁盤空間、數據復制狀態和備份等。
(3)運行管理員應做好記錄,發現問題及時提交事件單并進行處理。機房管理員配合及協助設備廠商或集成商例行設備巡檢,以保障災備中心基礎設置、主機、存儲、帶庫等的穩定運行。
(4)巡檢結束后做好巡檢報告等材料的管理,并將巡檢報告等材料發送至災備管理員進行歸檔。災備系統事件、變更和問題管理參照生產系統相關流程和制度。
2.1.2 網絡管理
確保鐵路主數據中心與災備中心之間、災備中心與外部單位之間數據交換安全通暢,是災備中心具備業務接管能力的重要前提。運維人員應定期檢查網絡運行狀態,驗證災備中心與鐵路主數據中心之間、災備中心與用戶單位之間的網絡雙向連通性。
(1)定期進行外連網絡雙向測試,確保應用層網絡連通性;保證用戶單位網絡瀏覽工具已添加災備中心地址為信任站點。
(2)定期進行應用登陸測試,模擬業務流程。確保災備系統啟用后,用戶單位可正常訪問。
2.1.3 數據管理
災備中心與鐵路主數據中心信息系統保持數據同步一致,是災備中心具備業務接管能力的基礎條件,數據備份需要保證數據的完整性、可靠性和一致性[5]。運維人員應嚴格制定系統部署及變更管理流程,確保與鐵路主數據中心系統配置一致。
(1)定期檢查數據庫服務器運行狀態,確保數據庫服務器穩定可用,做到災備系統數據庫可以隨時啟用。
(2)實時監測數據復制通道或數據備份系統的運行狀態,檢查業務數據同步情況,確保災備系統啟動后關鍵業務系統數據丟失量小于恢復點目標(RPO)指標。
通過災備自動化工具,提高災備管理的能力和水平,減少突發事件對業務的影響,滿足業務對信息系統可用率的要求,可以實現將原有需要的多工種配合、全人工操作的容災切換過程通過一個集中化、圖形化的界面(工具)進行,簡化操作,降低容災切換的復雜度,提高容災切換的成功率。實現“一鍵式”容災切換,節省切換時間,降低總體恢復時間目標(RTO)。對自動化工具的應用可以有效地做好災難恢復準備工作、實現演練自動化、提高可視化、降低運維成本等[6]。
災難恢復流程,也叫災難事件應急響應流程,是在重大事件即將發生或已經發生后,將要影響或已經影響業務運營時,指導相關人員遵從災備恢復預案進行的恢復流程,災備預案的制定,如圖3 所示。災難恢復不僅是恢復計算機系統和網絡等環境,還涉及到風險評估、業務影響程度分析、災難恢復策略的制定以及策略實施等方面。災難恢復是一項系統性、專業性的工作[7]。災難恢復流程明確災難恢復響應的階段劃分、每階段的行動內容及負責人,更有效地進行系統恢復,使應對突發事件的響應更加及時、有序、有效,從而避免或減少損失。

圖3 災備恢復預案
災備流程設計目標是為了提高災難事件的應對處理效率,進行科學的決策,按照既定的計劃實施災難恢復工作,災難應急處理流程主要包括出現災難事件后的響應、升級、決策、人員召集、以及災難恢復和回切等步驟。主要是在災難事件發生后或者演練開始時根據流程來逐步進行,從而實現最佳效果。
管理是保證組織有效運行所不可少的條件。組織越大,構成越復雜,管理的重要性也越加突出[8],通過完備的組織架構可以實現集中決策,提高災難恢復工作對高效決策的要求,實現統一的管理與協調,整合生產和災備運營的管理質量體系,使得分布在各級信息技術部門的技術人員能夠參與到災難恢復工作當中,承擔相應的災備工作,如圖4 所示。

圖4 災備組織架構
災備項目的設計目標是為了確保重大災難發生后,災備系統可以安全、有效、及時地接管生產系統,將核心業務系統從位于生產中心切換到位于同城災備中心,繼續對外開展業務,使關鍵業務可以在短時間內恢復,把災難事件造成的影響降到最低。當出現同城兩個數據中心同時故障時,切換到異地災備中心。
數據中心系統災難恢復解決方案和策略如下:
(1)鐵路主數據中心,作為核心業務系統的運行中心,負責整體的核心業務的數據處理。
(2)同城災備中心,配置了災難恢復所需的處理設備、通信網絡和場地,并且與主數據中心的生產數據保持數據同步。一旦主數據中心災難發生,將啟用同城災備中心接替主中心恢復核心業務系統運行。
(3)異地災備中心,配置與同城災備中心一致。一旦同城災難發生,將啟用異地災備中心接替同城恢復核心業務系統運行。
(4)一旦災難發生造成主辦公場地無法提供正常服務,災難應急指揮組將選擇本地應急指揮中心的緊急工作區域。 信息部辦公場所將作為第2 備選的緊急工作區域。位于異地的信息部辦公場所將作為第3 備選的緊急工作區域。
災備中心目前已經是各行業數據中心必不可少的建設環節,其相應的管理系統也得到了更多企業的重視。本文研究的基于鐵路主數據中心建設的災備管理系統框架包括災備日常管理、災備運維管理、災備恢復預案等[9],實現了災備的規范運維流程、統一數據備份管理,處理異常和故障等報警等,有效地規范了災備運維工作流程,提高了災備運維工作效率,是災備工作不可或缺的一部分。保障信息系統安全穩定運行和提升災備管理效能是災備管理兩大主要目標[10],災備系統為信息系統提供了一個能夠應對各種突發災難的保障。隨著鐵路主數據中心建設的不斷完善和異地災備中心的建設,可以繼續探討鐵路主數據中心災備管理與災備中心災備管理的結合,進一步提升鐵路信息化災備管理水平。