孫建剛,高 穎,楊慶甫,常雨竹,董耀眾,李偉良
(國家電網有限公司信息通信分公司,北京 100761)
隨著云計算技術在電力行業的廣泛普及,電力行業主體單位依托主流的互聯網云技術,構建了新一代信息基礎設施,用于承載服務于各類業務的數字化轉型應用。因此,保障云平臺自身的安全、穩定是提高信息系統連續運行能力和業務持續運營能力的基礎,也是防范數據資產泄露、丟失、破壞或不正當使用,進而充分挖掘資產使用價值的充分保障。
近年來開展了云平臺的容災建設,通過保障云平臺的高可用,從而實現云上業務的連續性。而容災建設僅是主備環境之間采用數據同步方式,無法應對數據丟失與誤操作等場景。同時,也無法在發生機房故障、地域性自然災害等場景時實現對核心數據的保護。因此需要開展平臺級的數據備份,但是目前各行業均沒有對云平臺的備份設置的標準,無法進行有效參考開展實施工作。有鑒于此,本文對云平臺備份的關鍵內容進行了一個體系化的梳理與設計。希望能夠為電力行業、政府、金融以及其他采用互聯網云技術搭建的私有云平臺,提供可供參考借鑒的理論方法。
平臺備份體系設計主要包括數據分級分類、數據備份策略設計、數據恢復及安全策略設計、數據備份驗證四部分。
平臺組件備份的最終目標是保障云上業務的連續性,組件的備份恢復情況,需要結合業務備份恢復要求。參照行業的整體要求,將云上業務劃分為一類、二類、三類系統。在此基礎上,進一步結合《信息安全技術網絡安全等級保護定級指南》,按照信息系統的重要程度進一步劃分為等保三級、等保二級、等保一級系統,如表1所示[1]。

表1 業務系統分類分級定義
參照行業的整體要求,其中一類系統RTO<8小時,二類系統RTO<12小時,三類系統RTO<24小時,所有系統RPO 為24 小時。在此基礎上,考慮到等保三級系統的重要性,將等保三級系統的RPO<24 小時要求提升為RPO<12小時,如表2所示。

表2 業務系統備份要求 單位:小時
為滿足多業務、多場景、海量數據、數千級的應用建設需求,云平臺進行模塊化的設計,基于技術路線與框架結構,構建了不同用途的平臺組件。根據組件數據丟失對平臺和業務的影響范圍、影響程度劃分一級組件、二級組件、三級組件,如表3所示[2-3]。

表3 組件數據丟失影響內容
按照組件功能,將組件運行過程中產生的數據劃分為成元數據、配置數據、日志數據。
元數據:存儲了運行該組件的基本信息,通常用來描述該組件包含的其他數據的結構、存儲位置、訪問權限、用戶結構等。丟失會影響平臺或業務可用性。
配置數據:存儲了該組件各個進程的環境、調用文件等,用來支撐各個進程的正常啟動與運行。丟失會影響平臺或業務可用性。
日志數據:存儲了該組件運行過程中產生的所有操作事件、狀態、告警、故障原因等。丟失會影響平臺或業務的優化[4]。
考慮到云平臺故障以及元數據、配置數據丟失的影響,參考一類系統的RTO 和RPO 指標要求設計,將一級、二級組件中的RPO<24小時要求提升為RPO<12小時,如表4所示[4-5]。

表4 業務系統備份要求 單位:小時
備份策略是備份工作開展的基礎,在進行備份策略設計時,需要明確備份數據存放的具體地點、備份方式、備份頻率、備份窗口,以及具體的保留周期[5-6]。
備份數據存放方式有本地云上、本地云下、異地云上三種,如表5所示。

表5 備份數據存放方式
根據備份對象與數據訪問特性,將備份方式分為完全備份、增量備份、差異備份,如表6所示。

表6 備份方式
基于系統分級分類中的PRO 指標要求,設置合理的備份頻率。例如生產系統的PRO 指標要求為24 小時,應當至少每24 小時執行一次備份。對于變化頻率不高的數據(如軟件配置類數據),可在發生變更前后各執行一次備份[7-8]。
備份窗口即發起備份作業的具體時間或執行一次備份作業所需的時間范圍。應結合生產系統的業務活動特性進行備份窗口的設置,避免在業務活動頻繁的時間段發起備份,如表7所示。

表7 備份窗口評估與建議
應結合備份對象的業務活動特性與訪問需求設置備份數據的保留周期。保留周期的設計需要考慮到備份對象的最長保留期限,以及備份存儲介質的空間占用情況。對于備份數據訪問頻率較低但不能進行刪除的,可根據需要轉儲至離線存儲介質中長期保留[9?10]。
云組件備份策略如表8所示。

表8 云組件備份策略
數據備份的目的是進行有效的恢復,為了保障國網云數據恢復過程的安全與有效,本章節主要針對數據恢復時的注意事項與恢復方式提出基本要求。
在進行數據恢復時,需要明確以下內容:
(1)明確各類數據的恢復對象與適用場景。
(2)確認數據的恢復時間點滿足業務訪問與運行需求。
(3)發布檢修/停機窗口時,數據恢復所需的時間應包括數據傳輸的時間,以及數據恢復后進行配置的時間。
(4)采用最小化恢復原則,盡量避免恢復與業務運行無關的數據,能夠選擇部分數據恢復時,不要進行完全恢復。
(5)數據恢復時需要考慮恢復對象之間的關聯性與優先級,并設置分步恢復策略。
(6)數據完成恢復與配置后,需要進行灰度發布確認數據一致性與有效性。
在進行數據的備份與恢復期間,需要基于安全策略確保生產系統(云上業務與云平臺組件)、備份系統、備份數據傳輸、備份數據存儲等維度的安全,如表9所示。

表9 備份安全策略設計
在行業數字化轉型的背景下,電力行業穩定快速發展的需求對數據備份的管理提出了更高、更全面的要求,數據備份的范圍不單單要涵蓋信息系統,對于底層的基礎設施也有同樣的要求。本文重點針對私有云備份這一課題,提出了體系設計理論研究內容,填補了行業內該領域的空白。希望這些理論能夠為其他行業的私有云的數據完整性建設提供有價值的參考。