摘要:為保障南京地鐵集團業務數據的安全性和業務的連續性,構建南京地鐵集團容災平臺,形成完整的一體化災備架構,服務于南京地鐵集團業務應用的應急接管。本文分析了南京地鐵集團容災平臺建設必備的關鍵因素和遵循的主要構建原則,介紹了南京地鐵集團容災策略的規劃原則,闡述了容災平臺的建設方案,包括容災云池建設方案、數據庫容災建設方案、虛擬化平臺容災建設方案,提出了本次容災建設需要滿足的性能指標,強調了容災平臺建設的必要性。
關鍵詞:容災平臺;容災策略規劃;建設方案;平臺性能指標
一、引言
近年來,南京地鐵集團引入了各種信息化、數字化技術應用。隨著各類型業務信息系統的應用不斷深化,內外部數據的安全風險也相應增大。鑒于新型業務的涌現和業務數據量的增大,如何確保數據的安全性、可靠性和一致性,如何保證核心應用系統數據快速備份、在故障發生后可以快速應急恢復,如何實現非核心應用系統數據備份及對備份數據的集中管理,是南京地鐵集團亟需解決的問題,而建立一個可靠的、高性能的容災平臺是南京地鐵集團的最佳選擇。
二、容災平臺建設之關鍵因素
結合南京地鐵集團容災現狀與策略規劃分析,南京地鐵集團容災平臺建設存在以下影響建設成效的關鍵因素。
(一)詳盡的現狀調研
目前,南京地鐵集團有地鐵大廈、南京南及靈山三地的數據中心,容災平臺建設需對南京地鐵集團數據中心的IT架構進行詳盡了解,細致收集相關信息,明確各數據中心的定位和核心應用,并將其納入容災體系管理。
(二)明確的業務關聯關系
南京地鐵集團目前的部分業務系統在開發或上線過程中存在一定的IT架構和應用架構變化,需要一個連貫且一致的容災方法論來指導容災平臺的建設,通過業務分析、應用及系統分析,明確各應用之間、數據之間的依賴關系,制定符合南京地鐵集團的容災策略與容災平臺技術架構,落實南京地鐵集團容災平臺建設的業務目標。
(三)完善的容災演習方案
容災演習是容災平臺建設后期的重要環節,為了確保容災平臺的建設成效,南京地鐵集團應構建一套完善的容災演習方案,包括規劃、設計、協調、實施、監督、評估和總結的完整流程。之后,應結合業務連續性進行容災演習實戰,確保容災演習方案落到實處。
(四)配套的日常運維管理
南京地鐵集團容災平臺建設完成后,應建立相應的管理制度與日常運維計劃,著重保障容災數據中心的應用、數據及參數配置與生產數據中心保持一致,保證容災平臺建設完成后,需要進行應急切換時,容災數據中心的應用系統能夠使用。
三、容災平臺建設之策略規劃
合理可行的容災方案:根據南京地鐵集團容災平臺的建設需求與目標,應從多維度構思方案設計,從而保證整個建設方案的針對性和合理性。
彈性的容災體系結構:容災平臺建設基于分布式體系架構,有利于實現集團各業務系統的無縫對接,保障系統的可擴展性。
穩定可靠的數據傳輸:采用多種技術降低網絡帶寬要求,提高數據傳輸效率,確保數據備份穩定可靠。
全面廣泛的兼容性能:容災平臺應兼容各種主流操作系統和數據庫,避免所轄應用系統性能瓶頸,實現全局性能優化。
自動化的應急接管:容災平臺應確保能實現快速自動恢復和精細化恢復,確保能實現關鍵應用的快速應急接管,確保系統易于擴展和易于升級。
簡明實效的管理功能:設計易于管理、易于維護的平臺,提供簡單直觀的用戶界面,降低容災功能對業務系統的影響。
穩定可靠的安全性能:容災平臺應具備最大程度的數據安全保障,加密關鍵數據傳輸,確保數據傳輸和存儲安全。
高性能的需求保障:設計容災平臺時,應充分考慮如何降低對系統性能的影響,同時,能夠充分利用網絡帶寬和性能。
四、容災平臺建設之主要原則
綜合考慮南京地鐵集團業務影響分析、IT應用現狀及關聯分析、數據保護服務分析、容災技術應用分析等多種因素,南京地鐵集團的容災策略規劃應遵守以下基本原則。
循序漸進原則:各應用系統的業務連續性建設是一個不斷完善的過程,因此,應優先滿足關鍵業務的要求,確保將有限的資源用在最需要的地方,保證在一定的投入規模和實施周期內完成容災系統的建設,以滿足預定的業務連續性建設目標。
實用性與成熟性原則:容災平臺的建設要借鑒大量成功案例,盡量采用業界成熟、可靠和實用的容災技術,以確保容災系統的可靠性。
先進性原則:容災平臺的軟硬件基礎設施建設應采用先進的設備和技術,確保平臺技術的先進性,保證資源投入的有效性和延續性,能夠滿足和適應企業快速變化和發展的要求。
開放性與標準化原則:應采用開放的技術標準和協議,以保證平臺的兼容性。
靈活性與可擴展性原則:容災平臺應具備按需擴展的能力,支持多種組件模塊、多種物理接口;具備技術升級、設備更新的靈活性;支持業務功能的重組與更新的靈活性,減少企業對特定平臺的依賴。
資源充分利用原則:業務連續性建設及容災建設都需要在節約成本的原則下進行,因此,應充分發揮平臺配備設備的性能,同時采用流程優化等措施,降低容災平臺的運營成本。
綜上所述,南京地鐵集團容災平臺建設將參考業內外業務連續性建設的科學方法,進行相關業務系統的容災策略規劃建設。
五、容災平臺建設之建設方案
南京地鐵集團立足自身業務實際情況,依據《網絡安全法》《數據安全法》等相關法律法規要求,依據重要程度對所轄業務系統進行分類分級,并將其劃分為一級關鍵業務信息系統、二級業務信息系統及三級業務信息系統。南京地鐵集團現有三地數據中心:南京南數據中心、靈山數據中心和地鐵大廈數據中心。依據南京地鐵集團容災體系規劃,南京南和靈山數據中心用作生產數據中心,地鐵大廈數據中心用作同城異地災備數據中心。容災平臺建設的基礎即為在地鐵大廈數據中心構建的容災云池,配以相應的網絡與存儲資源,以便一級關鍵業務信息系統在地鐵大廈災備數據中心實現應用級容災,二級、三級業務信息系統在地鐵大廈災備數據中心實現數據級容災。
(一)容災云池建設方案
容災云池建設是南京地鐵集團構建容災平臺的基礎,其包括計算資源池搭建、存儲資源池搭建、網絡資源池搭建,為建設結構合理、集約高效、支撐有力的統一容災體系奠定基礎。
計算資源池:提供虛擬化主機、裸金屬主機等多種形式的計算資源,按需部署多個計算資源池,以滿足不同業務系統的需求,并實現資源隔離、故障域隔離。針對某些特定場景,可以采用裸金屬主機部署模式。
存儲資源池:用于提供存儲資源。其中,平臺塊存儲用于存儲主機操作系統磁盤和災備空間,同時支持對接各類外部存儲系統,統一交付存儲資源,通過多副本機制可實現跨數據中心存儲雙活,保證業務和數據的連續性。
網絡資源池:構建容災平臺所需的管理網絡系統、存儲和災備網絡系統、業務網絡系統。創建私有云網絡、公有云網絡,并提供給主機使用。平臺支持提供扁平網絡、VPC網絡等多種網絡模型,滿足不同業務系統的需求。
(二)數據庫容災建設方案
結合南京地鐵集團的實際業務使用場景,數據庫容災建設旨在實現如下目標:
數據同步:實現核心數據庫系統的數據同步或異步復制,確保數據的一致性和系統的可用性。
災難恢復:當發生故障時,能夠在30分鐘內根據不同的細粒度要求一鍵應急切換到災備中心,保障核心數據庫業務的持續運行。
鑒于南京地鐵集團目前已具備多數據中心的條件,本次數據庫容災建設在地鐵大廈災備數據中心部署容災服務器(虛擬化部署)和數據庫容災系統,實現在生產數據中心與災備數據中心的異地容災。本次數據庫容災解決方案部署方式靈活,支持多種類型的業務系統容災架構,包括主備容災架構、主要容災架構、級聯容災架構等等,可根據實際的業務需求進行選擇。
本次數據庫容災方案,建立了一套與本地生產數據庫系統相當的完整的數據庫容災系統。當本地生產數據庫系統出現災難時,異地數據庫容災系統可以接管數據庫業務,并在生產系統正常使用后,恢復100%數據。
(三)虛擬化平臺容災建設方案
南京地鐵集團所轄的應用系統目前均采用虛擬化方式部署于虛擬化平臺上,因此,容災平臺建設需對虛擬化平臺上的應用服務虛擬機進行備份保護,并定制備份、容災方案,靈活滿足不同虛擬機在不同恢復對象(RTO和RPO)方面的要求。在地鐵大廈災備數據中心使用虛擬機作為備份服務器,通過管理網絡與生產數據中心的虛擬化平臺相連,使用存儲網絡將虛擬化平臺上的虛擬機數據備份至災備數據中心。
根據應用容災分類分級標準,一級關鍵業務信息系統采用虛擬機連續數據保護技術,進行虛擬機級容災建設,將虛擬機在生產數據中心與災備數據中心之間進行互相復制。如果生產數據中心出現故障,可直接在災備數據中心實現分鐘級甚至秒級的恢復業務;二級和三級業務信息系統使用Backup Copy(備份數據復制)技術進行數據級容災,將生產數據中心的備份數據復制到災備數據中心,實現備份數據的異地存放。如果生產數據中心出現故障,可利用災備數據中心的備份數據進行即時的虛擬機恢復,避免業務出現長時間的中斷。
六、容災平臺建設之性能指標
(一)數據定時保護指標
南京地鐵集團容災平臺支持對各類型數據庫、虛擬機、數據卷等災備對象進行定時保護,采取“一次全備、永久增量”的備份方式,支持備份數據的快速掛載,總體備份與恢復性能達到50MB/s(千兆網)以上。
(二)數據實時保護指標
南京地鐵集團容災平臺支持對關鍵業務數據的自動監控,能夠持續捕獲數據變化。一旦數據發生變化,便實時、準確地進行備份,RPO(恢復點目標)要求不超過一秒。在特定時間周期內,可按任意歷史時間進行數據應急恢復,總體備份與恢復性能達到70MB/s(千兆網)以上。
(三)數據傳輸性能指標
在南京地鐵集團容災網絡建設過程中,為了滿足容災平臺的正常運行、日常運維管理及業務系統對外服務的網絡需求,生產數據中心與災備數據中心之間配備了萬兆數據專線,專用于容災數據傳輸,支持業務系統數據的遠程復制。容災數據傳輸速率支持彈性調整,通過在備份恢復策略中合理配置備份恢復數據對傳輸帶寬的占用,以及控制備份數據的發送頻率和數據量,實現對網絡資源的合理使用。同時,數據傳輸支持斷點續傳。若備份數據在傳輸過程中遇到網絡故障,可自動觸發重連機制,待網絡恢復后,可自斷點處繼續傳輸之前未成功發送的數據。
(四)業務容災接管性能指標
容災平臺對各業務系統的容災接管性能指標需滿足RTO(恢復時間目標)不超過30分鐘,同時,容災平臺配備管理中心對各業務系統狀態進行實時監控,從而保證任意時間點均能做到自動化、一鍵式應急接管故障業務系統。
七、結束語
隨著南京地鐵集團信息化建設的不斷發展,其業務系統數據保護和業務連續性建設越來越受重視。鑒于南京地鐵集團的IT系統架構愈加龐大、復雜,面臨的安全風險種類越來越多,結合業務信息系統的發展需求,建設完善的容災平臺架構,打造安全可靠的業務連續性能力,成為南京地鐵集團數據安全和信息化建設進一步發展的重要布局。南京地鐵集團對其容災平臺的性能、可靠性、穩定性、靈活性、擴展能力等提出了相對較高的要求,且容災平臺的建設不能對現有應用系統的正常運行造成明顯的影響。為了保證南京地鐵集團容災平臺建設做到科學、有序,并充分發揮容災備份系統應有的作用,本文論述了容災平臺建設的關鍵因素和主要原則,對南京地鐵集團數據中心業務系統(不包括生產系統)進行了科學的評估,并規劃了相應的容災備份策略,設計了可落地的容災建設預案,建成了滿足高性能指標的容災接管平臺,滿足業務發展和連續性的高標準、嚴要求。
作者單位:葛玲玉 南京地鐵集團有限公司
參考文獻
[1]陳斌,袁莎莎,孫磊.全棧SDN化的跨域云平臺容災備份體系設計與實現[J].網絡安全技術與應用,2023,(12):65-68.
[2]謝志奇.業務連續性及數據安全解決方案研究[J].網絡安全和信息化,2023,(11):138-140.
[3]董帥,孫杭標,陳躍俊.Oracle數據庫容災備份系統的建設研究[J].網絡安全技術與應用,2023,(07):61-62.
[4]范義波,曹雪娜,孫榮田.基于數據中心私有云的容災體系方案[J].信息技術與信息化,2023,(03):193-196.
[5]王猛,王霞,萬成威.基于云的容災雙活數據中心構建技術研究[J].網絡安全技術與應用,2023(03):62-65.
[6]劉志國,薛家貴.醫院雙活數據中心災備系統的探討和實踐[J].中國新通信,2022,24(12):114-116.