◆張 地 胡峻潔 李明喜 羅 群 雷 敏
?
基于雙活數據中心的電商平臺網站數據保護及災備恢復策略研究
◆張 地1,2胡峻潔3李明喜3羅 群1,2雷 敏1,2
(1.北京郵電大學網絡空間安全學院 北京 100876;2.災備技術國家工程實驗室 北京 100876; 3.四川科瑞軟件有限責任公司 四川 621000)
隨著信息技術的發展及互聯網用戶的急速增長,在信息化辦公時代到來的同時,數據安全問題已成為全球關注的焦點。傳統的個人或企業存儲設備和存儲安全性已不能滿足當代數據存儲的需求,數據信息的完整性和可用性是企業存亡之關鍵,信息系統一旦受到攻擊或面臨威脅,將對企業造成不可估量的損失。企業信息的災備保護技術越來越得到廣泛的應用并已成為企業信息系統的基本安全措施。特別是近年來迅速發展的電商企業,如淘寶、京東、當當等,其信息系統中包含了大量用戶的私密信息的同時,其服務器必須實時處于工作狀態,否則將對企業造成銷量及聲譽上的雙重損失。本文對各種備份策略和災備方案進行了深入研究,在雙活數據中心災備方案的基礎上,提出了具有加密機制的災備方案,達到了備份更加快速、恢復更加快捷、傳輸更加安全的數據保護的效果。
電商平臺;數據保護;災難備份;災備策略
隨著信息化的不斷發展,特別是近年來信息化建設的熱門話題如大數據、云計算等,可以看出以數據為中心的時代已經到來。美國9.11事件[1]的歷史經驗告訴我們信息系統的癱瘓將導致災難性的后果,并讓我們逐漸意識到災備建設的重要性。目前我國電子商務發展迅速。淘寶近年來僅雙十一當天的交易額就非常大,2016年淘寶雙十一的交易額更是達到了1207.49億。數據是電商行業正常運營的基本保障,一旦發生數據丟失,電商企業將蒙受巨大的經濟損失,用戶信息的泄露也會對企業信譽產生不良影響。
為了最大限度地維護數據信息的完整性和可用性,防止在災難發生時,給用戶和網站帶來不可避免的損失,必須對數據信息實施災難備份[2]。國務院信息化辦公室于2005年4月發布了關于關于信息系統恢復的重要文件《重要信息系統災難恢復指南》[3],對基礎信息網絡和重要信息系統災難備份與恢復作了原則規定,由此看出國家對信息系統災備建設的重視程度。
當前,我國銀行業在災備方面[4]做得較為完善,但隨著電子商務的迅速發展,電商企業的災備工作變得刻不容緩。相對銀行業而言,在保障數據信息的可用性和完整性的基礎上,保持業務的連續性和數據信息的安全性[5]已成為災備工作的實質內容。
目前,數據保護分為本地數據中心保護和遠程災備保護兩種形式[6]。據統計,占災難比重44%的硬件故障和49%的軟件、病毒、人為故障均可通過本地數據中心保護解決,剩下7%的自然災難和社會災難需要通過遠程災備來使數據得到保護。災難恢復分為數據級、系統級和應用級[7]。數據級的災備重點在于災難發生后,確保用戶的數據不會丟失或被破壞,但在數據恢復前,需要建立同樣的運行環境;系統級的災備是在數據級災備的基礎上,其可迅速恢復系統的運行;應用級的災備是在備份數據的同時,還將應用的處理能力再復制一份,即在異地災備中心再建立一套應用系統。無論是哪個級別,數據的備份和恢復都是整個災備系統的關鍵環節,只有保證數據的完整性,可用性和安全性,企業才能在硬件、軟件、病毒、人為故障或自然災難、社會災難發生后,盡快恢復正常運營。災難恢復的衡量指標主要有RPO(Recovery Point Object)和RTO(Recovery Time Object)兩個[8]。RPO代表數據的丟失量,即災難發生前與最后一次數據備份之間尚未來得及備份的時間;RTO代表系統的恢復能力,即災難發生后到恢復后系統啟動的時間。根據《信息安全技術信息系統災難恢復規范》[9]國家標準 (GB-T 20988-2007),將災難恢復分為6級(如表1所示)。從第2級開始有備用場地支持;3級滿足電子傳輸和部分設備支持;4級可以電子傳輸及完整設備支持;5級可以進行實時數據傳輸及完整設備支持;6級可以保證數據零丟失和遠程集群支持。每一級中都就數據備份、主機備份、網絡備份、災難恢復和技術支持和業務恢復環境做了詳細規定。
表1 RTO/RPO與災難恢復能力等級關系(GB/20988-2007)

1.1備份
所謂備份,簡單來說便是通過相關復制軟件將數據從本地數據系統復制到磁帶、光盤、硬盤等存儲設備中的過程。通過備份,可以在原數據系統發生災難后進行數據恢復,降低數據損失,保證數據的完整性,從而降低企業損失。按照數據備份的主要方式,可以分為完全備份、增量備份和差異備份[10][11]。
(1)完全備份
完全備份會機械地備份所有被選中的文件或文件夾,而不會檢查上次備份過后文件是否發生變更。如果兩個備份時間點之間未發生或只發生了少量的文件變更,依舊會將所選中的所有文件進行全部備份,浪費了大量的存儲空間。在備份的過程中,將清除存盤屬性,即將清除存盤的所有現有屬性,并將每個文件都標記為已備份。它的優點在文件恢復的速度迅速。
(2)增量備份
它是相對于完全備份來說的,在備份之前首先對文件進行變更檢查,如果文件的最后修改時間在上次備份之后,則進行備份,否則不進行備份。增量備份的優點在于速度便遠遠高于完全備份,并且節約了大量的存儲空間。其不足之處在于文件恢復時速度較慢,所以一般都將完全備份和增量備份結合使用,數據恢復時,先恢復最近一次的完全備份,再將最后一次完全備份之后的所有增量備份的文件一個一個地進行恢復。
(3)差異備份
差異備份與增量備份相似但有其各種的特點,增量備份是針對上次任何種類的備份的,只要經過上次備份導致文件的變更就會觸發增量備份,差異備份是針對上次完全備份之后發生變更的文件,并且不清除存盤屬性。因此,差異備份兼具完全備份和增量備份的優點,又合理地避免了兩者的缺陷。
1.2災備策略
一般災備策略都是兩者甚至三者之間的結合,通過技術之間 的搭配便形成了相對應的災備方案,如雙活存儲、雙活數據中心、兩地三中心[12]等災備建設方案。
(1)雙活存儲[13]
雙活存儲災備方案能夠使信息在數據中心內部及數據中心之間共享、存取或移動,對客戶透明,并保證數據的可靠性和可用性。典型的技術有IBM的SVC和EMC的VPLEX。它主要是利用跨數據中心的兩大功能,即存儲虛擬化功能和數據鏡像功能。再結合上層應用集群,使兩個數據中心都處于運行狀態。雙活存儲具有以下優點:由于可以同時承擔相同任務,所以提高了數據中心的整體服務能力和系統資源利用率;可以相互作為生產和備份,當一個數據中心出現故障時,業務會自動切換到另一數據中心,實現了恢復點為零和恢復時間約為零的目標,有效解決了傳統災備中心不能承載業務和業務無法自動切換的問題。
(2)雙活數據中心[14]
雙活數據中心災備方案維護著兩個兩個數據庫系統,它們在異地同時運行、可以支持相同的負載,一旦有一方出現故障另一方可以迅速的接替它的工作,這樣就保證業務的高可用性。雙活是整體意義的,單方面雙活是沒有實際意義的,只有結合存儲、數據庫、網絡、服務器、應用等各層面都進行雙活的設計,才能實現實際意義上的雙活。從雙活數據中心具有的可靠性、靈活性、可用性以及業務連續性來考慮,雙活數據中心也可以看做一個云端數據中心。
(3)兩地三中心
兩地三中心災備方案即同城雙中心加異地災備中心。同城雙中心即在同城或鄰近城市建立兩個數據中心,兩個數據中心可獨立承載所有相關業務,并通過高速鏈路實施同步數據。日常情況下,兩個數據中心系統同時運行;發生災難后,可迅速切換至另一數據中心,以保證業務連續性。與異地災備方案相比,同城雙中心的投資成本更低、建設速度更快、運維管理更簡單、可靠性更高。異地災備中心,即在異地建立一個數據備份中心,用來對同城雙中心數據的備份。當災難危害至同城雙中心時,異地災備中心可以迅速利用備份數據恢復業務的正常運行。
各種災備策略和災備方案均有各自不同的優點和缺點,不同企業應結合自身企業特點、對容災等級的要求和成本控制等多方面因素選擇最適合自己的災備方案。
二十一世紀以來,我國各大電商平臺發展迅速,7*24小時業務的可連續性使用已成為電商平臺的最基礎的要求。結合近年國內接連出現的大范圍的自然災害,我們對比銀行系統提出基于雙活數據中心的災備方案。
2.1對比銀行系統它們之間的相同點
(1)都需要保證業務系統的7×24小時持續不間斷正常運行。
(2)由于都涉及用戶的高級隱私,因此數據的安全性和完整性都需要得到保障,并做到實時備份。
2.2對比銀行系統它們之間的不同點
(1)銀行不存在特別大的業務峰值,而電商平臺網站則會因為雙十一等特別節日做活動而出現系統超負荷運行甚至崩潰的情況。
(2)銀行系統包括線上和線下兩大系統,而電商平臺網站則只有線上交易,所以電商平臺的第二災備中心建設成本相對會更低。
2.3具體方案
我們對比銀行系統結合電商平臺自身的特點,對已有雙活數據中心災備方案進行了改進,以更大限度地維護數據信息的完整性、可用性及安全性。
現有災備方案一般只注重了數據的備份和災難后的恢復速度,并沒有意識到數據的安全性。因此我們的改進方案中在進行數據備份的傳輸過程中,增加了數據加解密的步驟,增強了數據傳輸過程中的安全性。如圖1所示,我們利用數據庫的CDC將日志文件中的發生變化的關鍵數據捕獲,在捕獲的關鍵數據前端加上相關位置信息形成新的數據塊,將新數據塊加密,結合TCP/IP網絡協議將加密后的數據塊發送至災備系統;加密數據塊到達災備系統后,災備系統將接收到的加密數據塊解密,將解密后的數據塊進行解析,根據其中的位置信息對災備系統中的數據文件進行修改。具體過程如下:
(1)首先對當前數據庫及指定源表啟動CDC,利用CDC捕獲日志文件中發生變化的數據信息。
(2)在變更數據的前端加上其所在文件的文件名、所進行的操作類型(插入、刪除、修改)和變更數據在改文件中的相對地址,形成一個新的數據塊NDB,將數據塊進行加密處理,結合TCP/IP協議將加密后的數據塊發送至災備系統。
(3)災備系統將從源系統接收到經過加密的數據塊解密,解析出其日志文件名及其在災備日志文件中的相對地址,在災備系統找到同名日志文件,在日志文件的同樣位置(相對地址)根據操作類型對災備日志文件進行修改。數據備份成功后,向源系統返回備份成功標識符1,否則返回備份失敗標識符0,源系統重新發送備份失敗的數據內容到災備系統。

圖1 方案流程圖
(4)當由于某種原因,源系統的源數據庫中的數據文件發生少量丟失時,直接恢復該部分數據文件;當發生大量數據丟失時,啟動系統切換程序,將業務切換至災備系統。此時原源系統就變成了災備系統,原災備系統變為源系統,數據備份的流向逆轉;當源系統服務壓力過大時,將業務分配一部分給災備系統。
災備系統一直處于工作狀態,當源系統由于各種原因發生少量數據丟失的情況時,可直接恢復該部分數據文件;當源系統發生較大規模的數據丟失時,啟動系統切換程序,可直接切換至災備系統;當源系統業務壓力較大時,可分部分任務給災備系統。
2.4改進方案所具備的優點
本改進相對雙活數據中心災備方案有以下優點:
(1)在發生災難時,可以及時快速地切換至災備系統。
(2)由于工作人員的操作失誤導致文件誤刪時,可以快速的恢復指定文件。
(3)交易高峰期時,災備系統可以分擔一部分源系統的業務壓力。
(4)源系統和災備系統互為備份系統。
(5)該方法利用數據庫自帶的數據變更捕獲程序,而無需安裝新程序據復制軟件僅對日志中的關鍵數據信息進行復制,而不是復制整個日志文件,避免不必要的重復信息的復制,以提高備份速度,削減對系統和帶寬的消耗,并且降低存儲冗余。
電商平臺信息系統,涉及客戶的賬號、密碼、交易記錄等諸多敏感信息。現我們在已有雙活數據中心災備方案的基礎上,對其進行了改進:首先增加了加密傳輸的步驟,保證數據在備份及恢復的傳輸過程中的安全性;其次由于我們的交易量龐大,新產生的數據和發生變更的數據量巨大,因此我們的數據備份過程只備份日志中發生變化的內容,而非備份整個日志,大大降低了備份過程對帶寬和系統內存的占用,并且很大程度上提高了數據備份的速度。電商平臺網站的災備建設,事關我們每個人的信息能夠在突發災難事件中得到保障,關系到電商平臺的的社會影響、聲譽。因此,災備建設對于電商平臺網站的信息建設而言,是機遇與責任并重。
[1]王偉.從9·1看災備[J].金融電子化,2004.
[2]閔有黎,馬曉明.大型數據庫系統容災技術研究[J].電信技術,2005.
[3]鄒學強,楊海波.解讀《重要信息系統災難恢復指南》[J].信息網絡安全,2005.
[4]易永豐.華夏銀行數據中心災備體系建設實踐[J].中國金融電腦,2016.
[5]孫恒超,梁晶.IT系統備份及容災技術研究[J].電信快報,2013.
[6]陳建逢.淺談數據安全及數據容災[J].廣東公安科技,2016.
[7]李兆玉,韋世紅,李鶇.容災系統的建設方案研究[J].重慶郵電學院學報(自然科學版),2005.
[8]倪凱,李焱,陳石靈.安全生產數據的災難備份技術方法研究[J].信息與電腦(理論版),2016.
[9]《信息系統災難恢復規范》正式實施[J].信息安全與通信保密,2007.
[10]莫輝. Intranet網絡信息系統容災備份的研究與實現[D].北京郵電大學,2007.
[11]JonWillimaToigo.DisasterReeoveyrPlnnaing:StrategiesofrProteetingCritieal InofmrationAssds.PerniieeHallPTR.3rdedition,2002.
[12]呂仲濤. 構建“兩地三中心”運行體系[J].中國金融,2016.
[13]王寧. 煙草行業同一數據中心雙活存儲研究和探索[J]. 數字通信世界,2016.
[14]LI ZhiHang,WANGHao,PAN ZhiWen,LIU Nan,YOU XiaoHu. QoS and channel state aware load balancing in 3GPP LTE multi-cell networks[J]. Science China(Information Sciences),2013.