楊紅兵
摘要: 從計算機災備系統的由來入手,對其工作原理和作用進行詳細介紹,闡述其重要性,由此引入建設該系統的必要性。最終如何讓其發揮更大更多的作用、提升信息化的功效,以此來減少總體投資,降低成本是本文重點描述的方面。并以實際所建系統為例,從系統構架體系、網絡鏈路、災備機房選址、系統應用拓展等方面進行分析與介紹。
關鍵詞計算:機災備系統 重要性 體系架構 拓展應用
中圖分類號:TP309.3 文獻標識碼:A 文章編號:1007-9416(2016)05-0000-00
相信計算機災備系統對很多人來講并不陌生,我們偶爾會聽到某個地方因為機房火災導致業務停頓、或在運維過程中因誤操作導致數據丟失等現象的發生,這時候就是計算機災備系統發揮其功效的時候了,可以說是救命的。目前基本上涉及財務、研發等核心信息的金融及企業均部署了計算機災備系統,除主數據中心外,在另外的城市再建一個災備中心,通過專用網絡或借助互聯網,搭建容災系統甚至雙活中心,以實現業務的連續性和數據的備份,防止當災難發生時的業務坍塌。
伴隨著一個企業信息化的不斷發展,數據大量集中,我們在享受計算機系統帶來的高效率、高服務的優勢的同時,其業務運作也更加依賴于計算機系統的穩定運行,一旦發生系統故障,那么我們的業務系統必將受到嚴重影響。
然而,小至一般性的硬件故障,大到區域性的自然災害,從物理的設備不可用,到邏輯的人為失誤和破壞,都可能造成整個計算機系統的癱瘓,導致業務運營的停頓。災難的定義也從過去的大面積自然災害,延伸為可造成計算機系統應用不可用,產生的任何故障和災害。如何才能保證盡量減少企業數據的丟失、將危險與災難的損失降低到最小程度呢?這就是計算機災備系統的作用,包括數據備份以及應用容災。計算機災備系統的核心就在于使用各種技術和管理手段將災難化解,主要表現為兩個方面:一是保證企業數據的安全;二是保證業務的連續性。通過在工作站點和災難恢復站點之間建立通道,對包括操作系統、數據、應用軟件等方面通過技術手段進行復制和快照。假如工作站點發生災難,不能再繼續工作,這時災備中心會將系統和數據及時恢復到備用設備上,并自動將業務切換到備用服務器,然后實現業務的遠程切換,恢復系統不間斷的運行,在容災中心實現應用級容災,這個過程只需要很短的時間;在此基礎上,在災難過后,再將業務系統切換回正常的生產系統,實現業務的災難恢復。
因此,計算機災備系統建設的目標是:為關鍵業務系統提供風險預防機制和災難恢復措施,在確保數據安全的基礎上提高業務連續運行能力,降低企業運營風險,將業務損失降低到可接受的程度,提升管理和服務質量,增強企業競爭力。
建立計算機災備系統猶如買保險,雖然重要性是不言而喻的,但畢竟投資是巨大的,而日常的使用率卻非常低,由于看不到直接的效益,導致很多企業高層決策時產生猶豫,尤其是在資金緊張的時候。我們做為數據中心的管理和運維者,一方面肯定希望通過計算機災備系統能夠為生產業務系統的運行保駕護航,另一方面也必須充分考慮資金的占用情況,因此,如何讓閑置的硬件資源和數據在日常充分發揮其作用,是否可以借助計算機災備系統,拓展其功能呢?
由此,我們在制定計算機災備系統設計方案時,就揉進再利用的元素,希望在具備冗災功能的前提下,該系統也能服務于日常的開發測試環境,下面就讓我們一起來看看我公司的計算機災備系統是怎么樣的吧。
首先,考慮到網絡線路租用和帶寬問題,災備機房我們選擇在同城不同地方,光纖線路直達,保證千兆帶寬,數據傳輸沒問題,這樣也可以確保RTO(Recovery Point Objective,數據恢復點目標)和RPO(Recovery Time Objective,恢復時間目標)足夠短,同時可以有效防止水災、火災等問題。至于如何防止地震,放在未來的2期,既可以考慮跨省異地部署,也可以探索公有云模式。
同時,在主數據中心機房,針對小型機上面的核心業務部署為高可用,存儲雙控雙活、數據完全鏡像,確保數據的安全性;服務器設置為彼此可替代模式,而不是傳統的HA方式,可以最大化硬件的資源使用,但如果發生服務器硬件故障,業務會有暫時的停頓和切換時間,數據不會丟,這種方案必須是在和業務及應用方充分溝通和評估后制定。
在這種架構下,我們利用存儲級別的容災備份方案,除將生產數據在本地保留多份快照外,還將本地數據再復制到災備機房。
而在服務器虛擬化方面,通過vmware SRM軟件實現虛機的容災,以及存儲本身所帶的快照功能實現整體的備份。
在災備機房,服務器利舊,并利用一套存儲虛擬化控制器,將不同品牌的存儲加以利舊整合。
在簡單描述完計算機災備體系后,下面就說說如何將這些備份數據讓它們在平時也“活”起來吧:
(1)針對部署在小型機上的業務,我們在災備機房部署一臺低配置的小型機,將近期的備份數據克隆出來,制造出一套和生產環境一模一樣的的環境,供項目的開發者進行測試,既減少測試環境硬件的投資,又更夠充分保證測試環境與生產環境的足夠接近。
(2)針對服務器虛擬化環境,SRM過來的虛機,除了可以動態地復制生產環境下的變化外,在恢復方面,還可以選擇部署成測試環境,即在災備中心側恢復并部署為不同計算機名和IP的新虛機,實現對生產環境虛機的衍生。
(3)而部署在NAS環境下的文件系統更是直接面向用戶,他們可以直接查找到自己丟失的文件并輕松恢復回來,有不同時間點的多份備份可供選擇,只要我們的存儲空間足夠大、設置的備份策略可以從幾分鐘到幾年的數據都會為你保存。
這樣,一個經濟實用性的計算機災備系統就搭建好了。