備份是一個老生常談的話題,但真正能做好的企業并不多。對于一個分布式企業生產數據管理系統來說,其備份與應急系統的建立能夠完善備份與應急方案機制,增強系統應對各種風險的能力,確保其安全、穩定、高效地運行。
為了確保企業生產數據管理系統中數據的完整性和安全性,以及應用的不間斷穩定性,我們針對系統的應急和備份特點,對現有市場中的備份產品進行了分析、調研、測試和研究,并針對如何在確保數據安全的基礎上提高業務連續運行能力,降低企業運營風險,提出了一套備份與應急解決方案。
流行的備份技術
目前,國內外流行的備份技術包括磁盤鏡像技術、網絡盤存儲鏡像技術、雙機熱備技術、集群運行技術、數據后備+增量數據備份技術等。
磁盤鏡像技術簡單實用,備份效率高,但不能解決除磁盤外的服務器故障問題,也不能解決操作系統中病毒,或者人為數據破壞等問題。
網絡盤存儲鏡像技術采用網絡數據存儲、數據復制、iSCSI及網絡啟動等多項技術,為應用系統提供從系統到數據全方位的保護和快速恢復。它的優點是按物理存儲塊進行讀寫,可以備份任何系統、軟件、程序(包括基于各種方法加密的內容)。
雙機熱備是常用的災備方法,一般分為兩種:一種是基于共享的存儲設備方式,另一種是沒有共享的存儲設備方式,常稱為純軟件方式。但因為它是一種共享的邏輯備份復制,所以,部分加密軟件雖可做備份,但無法恢復運行,門戶管理軟件TWS就是這樣的系統。
集群運行技術主要用來做系統負載均衡運行,但也可以作為系統備份技術,是一種實時災備系統。但這種技術需要有應用軟件的支持才能部署運行,所以,實際實施中會有一定的限制。
數據后備+增量數據備份與雙機熱備的純軟件方式類似,但它不是一個同步運行的系統。
我們的企業生產數據管理系統是一套實時的系統,我們對其系統面臨的各種風險因素做了全面分析,明確了備份與應急恢復的要求,對以上應急和數據備份技術進行了有針對性的全面調研,并在此基礎上提出了備份與應急系
統的總體技術解決方案
如何選擇方案
我們的企業生產數據管理系統采用集中+分布的體系架構,服務器涉及幾十臺Windows服務器和十幾臺Sun Solaris數據庫服務器,存儲采用SAN架構方式,網絡使用企業內部網,其應用主要是專用的應用軟件,運行在Windows平臺上,后臺數據管理是Oracle數據庫。應急恢復與生產數據備份的目標是實現應用系統的7×24小時穩定運行、生產數據在任何情況下都不能丟失,系統出現故障時能夠以本地和遠程異地兩種方式快速恢復。根據服務器上運行的軟件,我們分為以下兩種情況進行討論。
1. 應用服務器的應急恢復
應用服務器要實現7×24小時穩定運行,當應用服務器(包括操作系統和應用環境)受病毒攻擊或其他因素干擾而無法運行或出現主機癱瘓等災難時,能夠在本地和遠程異地啟動應急服務器系統接管災難服務器。經過充分的調研,我們發現,“網絡盤存儲鏡像”是目前市場上比較先進的應急和備份技術,能夠有效地滿足其系統應用服務器應急恢復的要求。其工作原理是在主應用服務器和應急應用服務器的存儲盤之間通過網絡進行實時增量鏡像復制,并進行多版本快照保存,但當某個油田應用服務器發生災難時,通過網絡恢復在本地或異地的應急服務器上保存的某個版本的鏡像備份,實現本地或遠程應用服務器的接管。由于“網絡盤存儲鏡像”通常都保存多版本快照,因此,可以有效地防止病毒。
2. 數據庫服務器的備份與恢復
對數據庫服務器的備份與恢復,目前市場上的商業產品通常有兩種技術實現方式:一種方式是使用數據庫準同步技術,在邏輯層實現生產數據庫和備份數據庫之間的準同步而達到備份的目的;另一種方式是通過網絡盤存儲鏡像技術,在生產數據庫和備份數據庫之間實現物理層的復制與恢復。當本地生產數據服務器發生故障時,由本地或總部異地的數據庫備份系統替代原主服務器快速恢復生產數據應用。對于這兩種方式,我們進行了實際測試和性能對比,以及用戶的可操作和維護性,最終我們選擇使用數據庫準同步技術實現數據庫服務器的備份與恢復。
實現哪些功能
備份與應急恢復與其他任何保險策略一樣,當沒有災難出現時,我們根本無法意識到備份與應急恢復系統所起到的作用,無法回收備份與應急恢復系統建設所需的大量投資。但從系統安全性角度考慮,我們又必須為關鍵的業務支撐系統建設最有效的備份與應急恢復解決方案。為此,備份與應急系統在實現中提供以下功能:
1. 應用服務器的應急恢復(Windows平臺)
#8226;操作系統與應用環境在線實時復制與恢復。包括在線實時增量復制/恢復操作系統和應用環境和數據;按用戶指定的應用和數據目錄進行復制和恢復;支持多版本快速回滾啟動恢復。
#8226;操作系統與應用環境的本地應急恢復。在本地主機存儲發生損壞或因任何其他(如病毒)軟件原因發生故障時,應急系統上能網絡啟動操作系統和應用環境,以快速恢復業務運營;實現多版本快速回滾啟動,以消除可能的病毒故障。
#8226;操作系統與應用環境的異地應急恢復。將本地應急系統的系統、環境和數據遠程同步到異地應急系統中心;支持數據加密后傳輸,保證異地操作的數據安全;在本地主機發生故障時,需要異地應急系統的備用主機能從異地應急系統上啟動操作系統和應用,以快速恢復業務運營。
2. 數據庫服務器的備份與恢復(Solaris平臺)
#8226;Oracle數據庫在線實時備份與恢復。能夠對生產數據庫(Oracle)進行在線實時的增量備份和恢復;備份系統對生產系統和數據庫無干擾,即不需要安裝非原廠家的Agent軟件,或者安裝的軟件對生產系統無負面影響。
#8226;Oracle數據庫的本地應急恢復。在本地主機存儲發生損壞或因任何其他軟件原因發生故障時,能立即從應急系統上啟動Oracle數據庫,以快速恢復業務運營;保持備份數據和源數據的一致性和完整性,并能立即可用;支持不同 Solaris操作系統版本上的數據庫(即Solaris 8 上的數據庫和 Solaris 9上的數據庫)之間的備份與恢復。
#8226;Oracle數據庫的異地應急恢復。將本地應急系統的Oracle數據同步到異地應急系統中心;支持數據加密傳輸,保障數據安全;在本地主機發生故障時,需要異地應急系統的備用主機能從異地應急系統上啟動Oracle數據庫,以快速恢復業務運營。
備份與應急恢復系統的實現,將大大提高企業生產數據管理系統應用服務器和數據庫服務器的災備能力,能夠及時、準確地實時動態備份和恢復,保證其系統的數據安全和業務的連續性。