摘" 要" 為貫徹實施《教育部等七部門關于加強教育系統數據安全工作的通知》等文件精神,保護教師的數據資產,完善教育云建設,瑞安市教育局著眼于未來五年規劃,定制可線性擴容的、基于CDM技術的數據管理解決方案,力求在數據方面做到高可靠的保障。
關鍵詞" 教育信息化;教育數據;CDM技術;CDM系統;云桌面系統
中圖分類號:G527(255)" " 文獻標識碼:B
文章編號:1671-489X(2022)23-0045-04
0" 引言
教育信息化是教育現代化的基本內涵和顯著特征,是教育現代化的有力支撐,是促進教育公平、提高教育質量、推動教育改革的有力抓手和有效手段。隨著我國教育信息化建設的不斷推進,數據對于信息化的重要性日益凸顯,“數據是寶貴的資產”這一概念在教育領域被廣泛提及,教育數據已成為我國大數據的重要組成部分。教育數據可以為教育決策提供科學依據,為教學改革創新、教育高質量發展提供強大動力。由于教育數據涉及個人、學校、課程、資源等諸多方面,一旦發生風險事件,不僅會影響教育領域,還有可能外溢到其他領域,造成經濟、安全等方面的損失。
為保障數據安全,規范數據收集、存儲、傳輸等數據活動,《教育部等七部門關于加強教育系統數據安全工作的通知》將數據安全治理列為推進教育信息化戰略發展的重要工作之一,保障教育數據安全成為辦好人民滿意的教育的必答題。2021年6月,《中華人民共和國數據安全法》(以下簡稱《數據安全法》)的出臺,將數據安全問題上升至國家安全層面,數據安全也不再只針對業務連續性要求高、數據安全性要求高的單位,而是只要具備數據中心的單位,都必須按要求落實政策。
2018年,為推動數字化改革和信息化建設,實現信息資源共享、數據安全、教師移動辦公,實現教育資產利用最大化、提升教育終端運維效率和提升教育終端安全,瑞安市教育局(以下簡稱“市教育局”)開始在全市范圍內部署教師云桌面。截至2022年初,教師云桌面已經部署四期,使用教師4 000人,儲存了超過50 T的非結構化數據(不含數個關鍵業務數據庫的數據量)。教師云桌面的飛速擴展加速了瑞安市教育系統后臺數據量的增長,經研究測算,瑞安市教育系統未來五年內的數據規模可能接近PB級別,海量數據的安全問題引起市教育局對于數據安全保護的重視。
2022年,為保護教師的數據資產,完善教育云建設,同時為滿足基于云桌面的海量數據和基于數據庫的結構化數據備份需求,市教育局圍繞《數據安全法》,著眼于未來五年規劃,定制可線性擴容的、基于CDM技術的數據管理解決方案,力求在數據方面做到高可靠的保障。
1" CDM技術及原理
拷貝數據管理(CDM,Copy Data Management)技術是2012年興起的一種創新型數據備份再利用技術,2016年正式被Gartner公司接納為存儲備份領域的新興技術路線。2019年,Gartner將PBBA備份專用一體機設備更名為Bamp;R備份及恢復一體化設備,國際CDM廠商(Rubrik等)正式進入Bamp;R魔力象限,標志著CDM技術替代陳舊的傳統備份技術的現代化進程在國際范圍開始。CDM技術可以在備份恢復和開發測試環境的快速搭建這兩種場景中提供非常高效的解決方案。與傳統備份技術相似,CDM技術采取定時與生產系統I/O交互的方式,通過自動化、定時、按策略從生產系統獲取具備應用一致性的副本數據,作業類型包括增量合成備份、全量增量備份以及歸檔長期保存。
CDM技術與傳統備份技術最大的不同在于其核心技術是原始數據格式備份,即備份數據可以直接掛載給目標服務器實現分鐘級恢復,且與數據量的大小無關。因其備份數據是原始數據格式,存放在磁盤上,可以根據新的增量數據和已有的全備數據在備份系統內合成新的全量備份,從而實現永遠增量備份。此外,CDM技術還可以將原格式黃金副本以空間折疊一致性算法存儲于本地塊存儲,無須恢復拷貝,可直接掛載使用,讓快速穿梭于不同時間的副本數據空間成為可能。
作為一種新型備份技術,CDM技術可以應對包括邏輯錯、人為錯等大概率小事故在內的各種宕機場景,其增量備份、增量合成功能可以極大地降低備份窗口及備份時系統資源的消耗。同時,CDM技術還可以實現分鐘級的恢復時間,滿足業務對恢復的時間要求。此外,CDM技術的即時掛載等技術可以對備份的副本實現分鐘級拉起,提供給開發測試環境、數據報表輸出等非生產環境使用,將備份的數據利用起來。
2" 瑞安市CDM系統解決方案主要特性
瑞安市CDM系統解決方案(以下簡稱“CDM系統”)采用B/S、C/S的混合架構。其中,管理控制臺采用B/S架構,便于管理員進行系統運維管理;備份采用C/S架構,利于進行備份數據傳輸。CDM系統支持主流文件系統、數據庫、虛擬化系統等原始數據格式備份,與傳統的數據保護技術相比,在快速備份、快速恢復、數據利用等方面有其獨到之處。
2.1" 快速備份
傳統的備份方案需要每周或每月執行一次完全備份且備份時間較長,若在備份過程中出現故障,就會對數據的完整性和安全性造成重大影響。CDM系統的永久增量備份功能,除首次進行全量備份外,每次只需要備份增量的數據即可,將整體備份效率提升90%,且每個增量時間點均為完整副本,即便出現任意增量時間點損壞,也不會影響其他時間點的恢復。
2.2" 快速恢復
當數據庫發生災難時,傳統的數據庫需要耗費較長的時間才能恢復,且設備資源占用較多,帶寬占用較高。CDM系統的即時掛載恢復技術,可以實現分鐘級數據恢復,即使數據量在10 TB以上,其恢復時間目標(RTO)也會小于30分鐘。
2.3" 數據利用
傳統的備份方案所備份的數據僅能用來進行災難時的恢復,但災難的發生是一種小概率事件,所備份的數據在災難發生前既占用存儲資源又毫無利用價值。與之相比,CDM系統不僅可以提供數據保護,還可以通過副本數據管理功能生成多份虛擬的可讀寫的副本數據,用以開發測試、查詢分析、災備演練等,大大提升數據價值。此外,基于角色的權限管控還可以避免數據泄漏或濫用風險。
3" 瑞安市CDM系統解決方案的應用
3.1" 云桌面個人數據的保護
教師辦公云桌面系統是整個瑞安市教育系統內數據量最為龐大、數據格式最復雜的應用,儲存著非常關鍵的業務數據。CDM系統能夠安全快捷地對云桌面系統中的文件服務器的個人數據和教師個人數據進行備份,并做到快速恢復被損壞的數據。
3.1.1 文件服務器的個人數據備份
教育云桌面系統中最龐大的數據量是文件服務器的個人數據,平均每天增長量在30~50 GB,目前數據總量已經超過50 T。在建設海量數據管理系統時,市教育局出于技術、性價比等方面的考慮,選擇SATA硬盤作為數據管理系統的硬盤。這種硬盤的優勢在于數據量不斷增長時,能夠以最優的價格進行擴容,但其弊端是數據備份的速度很慢。具體來說,在進行全量備份時,雖然SATA硬盤高峰傳輸速率理論上能達到150 MB/s,但根據實際情況以基于最高速度的80%來算,其傳輸速率僅能達到120 MB/s,一天僅能備份10 T左右的數據量,全部備份完成需要五天;且在數據備份過程中,整個瑞安市教育系統的業務會受到一定影響,教師云桌面的I/O速率會下降,因此,全備操作只能選擇在假期進行。在全量備份完成后,若選擇使用傳統的備份軟件,則需要進行短則每周一次、長則半月或者每月一次的周期性全備。但由于每次進行全備必然會影響到教育系統的正常辦公,因此,傳統的備份軟件(含CDP產品)在業務連續性有要求的應用場景下不能進行海量數據的備份。而CDM系統可以實現首次全備,永久增量備份,完美地解決上述問題;而且每個增量備份的數據副本在后端自動合成為完全副本,方便進行數據恢復。
3.1.2" 教師個人數據備份
教師云桌面數量的不斷擴容,導致教師個人數據的增量也在不斷增加。為減少增備工作對教育系統正常工作的影響,市教育局將每天的增備工作設置在次日0—6點進行,但隨著系統數據量的不斷增加,這種采用傳統備份軟件進行增備的時間也在不斷增加,如何縮短增備時間成為瑞安市亟待解決的問題。之所以會出現這種問題,是因為傳統備份軟件在數據抽取的過程中需要進行格式轉換,雖然數據的安全性得到保障,但備份時間會隨著數據的增多而增加。CDM系統采用有別于傳統備份技術的原始數據格式捕獲技術,在數據抽取過程中不用進行格式轉換,與傳統備份軟件相比大大縮短備份所需的時間。此外,從數據安全的角度來看,CDM系統的備份數據是虛擬數據,對勒索病毒免疫、不可見;同時,備份數據虛擬化可以提高備份存儲的安全性、機密性與完整性,避免副本數據被非法拷貝或篡改。
3.1.3" 數據恢復
市教育局云桌面的應用,讓教師能夠隨時隨地地調用課(文)件,但這也讓教師養成臨時性打開課(文)件的習慣,而不會像使用個人電腦時提前查看課(文)件是否存在或有效。因此,當課(文)件被誤刪除或者因病毒原因無法使用時,就需要系統快速恢復這個可能是幾個月前或更早的數據,就導致需要時間跨度很長的備份周期以滿足需求。CDM系統采用即時掛載恢復技術,不用進行數據傳輸,當數據落地在系統中,數據量大小不會影響恢復效率。當教師需要恢復的課件數量比較多或文件數據量較大時,通過即時掛載恢復技術能夠實現秒級讀取丟失數據,解決問題之后再通過數據恢復方式,將丟失數據拷貝回教師的云桌面個人數據盤中。此外,由于CDM系統基于首次全備技術,因此,在首次部署CDM產品后產生的所有數據變化量都可以進行回滾,能夠找到更久以前丟失或損毀的數據。
3.2" 云桌面虛擬機的集中數據保護
經過幾年的發展,瑞安市教育云桌面系統已經擁有4 000點云桌面,其龐大的虛擬機數量,直接導致原有備份軟件出現備份時間窗口不足、大量備份同時進行時業務卡頓等問題,已經無法滿足現有需求。究其原因,是因為原有備份系統采用的是“周期性全備+增量備份”模式,在大量虛擬機進行全備時會占用大量業務主機I/O資源,就會出現業務卡頓等現象;且大量的數據通過網絡傳輸也會造成網絡堵塞,而這些需要備份的數據中有很多是重復的數據,如云桌面系統內部就有多個虛擬機模板的操作系統數據是一致的。
3.2.1" 減少備份數據量
通過副本管理技術,CDM系統將云桌面數據中心內部多份相同的備份數據縮減成一份,減少存儲容量的開銷,提升存儲利用率,降低總擁有成本(TCO)。此外,通過虛擬化系統的變化塊追蹤(BCT)技術,CDM系統可以實現虛擬機的永久增量備份,不再需要進行周期性全備,能夠大大減少備份的數據量及數據在網絡上的傳輸量。這種“初始全量+以后永久增量”的數據備份方式,極大地節省了備份時的帶寬占用,避免因數據備份造成對生產系統的影響。
3.2.2" 數據備份和恢復更加便捷
采用CDM系統后,市教育局所有的云桌面虛擬機都可以在非工作時間完成備份。這是由于CDM系統在進行云桌面數據備份時能夠直接將數據流流至后端存儲的網絡邏輯單元號(LUN),而不是寫入文件,因此,備份速度非常快。此外,基于CDM系統虛擬副本的特性,在進行數據恢復時無須進行虛擬機恢復,可以直接通過虛擬機克隆技術創建一份虛擬的可讀寫的副本數據,直接掛載給業務系統使用,實現秒級別數據恢復。
3.2.3" 其他關鍵數據庫的集中數據保護
市教育局數據中心運行著瑞安市教育系統最核心的業務,每個業務都由相應的Oracle、SQL、MySQL、達夢等數據庫和云桌面系統的多個后臺架構數據庫來支撐運行,這些數據庫中均儲存著大量重要的數據。在應用CDM系統解決方案之前,市教育局沒有統一的備份系統對數據庫進行安全備份,通常是由廠商在實施過程中通過簡單的備份腳本進行本地備份,但是這種方式生成的備份數據很難驗證是否可用,原因如下:
1)驗證一次備份的有效性需要專業的數據管理員(DBA)和恢復環境(與生產系統一樣的數據庫環境并安裝操作系統、數據庫等);
2)將各類數據庫導入恢復環境進行驗證的過程會涉及大量專業命令的輸入,若其中一個環節出現問題,就會導致整個數據恢復過程失敗;
3)驗證恢復的各類數據庫是否能夠成功使用,還需要聯系與之對應的維護人員。
此外,若將原有的全備數據導入,再根據時間附加不等的差量或增量數據,整個過程往往需要一天或更長時間,很難滿足快速修復的時效性要求。
CDM系統采用的全圖形化操作讓系統管理員在不具備大量專業知識和技術的情況下能夠順利完成多套數據庫系統的集中備份和管理工作。此外,CDM系統備份的數據是原始數據格式,在進行數據庫恢復時,只需要通過圖形直接掛載至恢復主機,就能自動完成所有環境的構建工作,直至數據庫可用,用時短且易用性非常好。CDM系統建設使用后,可以完美解決之前數據庫備份恢復中遇到的問題,修復多次數據邏輯錯誤。
4" 結束語
自2022年CDM系統上線以來,瑞安市教育系統的海量數據和關鍵業務的結構化數據得到有效保護,幫助4 000名教師實現個人數據的安全保護。同時,CDM系統針對市教育局關鍵業務數據庫做了容災備份,提升了平臺數據的可靠性,降低了勒索病毒、數據誤刪除、硬件損壞導致數據丟失等潛在因素的威脅。下一步,瑞安市將繼續對新增的業務數據做好數據保護工作,打造統一的教育第二數據平臺,形成生產平臺和第二數據平臺雙平臺運行,其中生產平臺只供正常業務操作使用,而第二數據平臺基于CDM系統的快速備份、永久增量及虛擬副本功能,將服務于數據備份恢復、容災、數據合規檢查、數據查詢等創新型業務。
參考文獻
[1] 林岳鑫.基于CDM技術的IT系統數據保護實踐[J].移動通信,2017,41(4):39-44.
作者:蘇立昆,瑞安市教育局,助理研究員(325299)。