機房托管數據中心遭遇停電、宕機和非計劃性業務中斷的后果是十分嚴重的,一般托管數據中心的停機運行會影響該托管數據中心的流量下降50%以上,我們盡管在設計和運行托管數據中心時會努力避免各種事故的發生,但現有托管IDC機房設施并不能完全避免出現事故問題,其短期和長期的意外中斷都將是代價高昂的,另一方面如果我們因為事故風險選擇中斷放棄服務,企業可能會因為違反服務協議(SLA)而受到經濟處罰,也將對企業的關鍵業務造成長期傷害,并使企業品牌形象蒙受極大損失。
從托管數據中心的角度來看,應該做什么或不應該做什么都無法完全避免潛在事故風險的發生,但這并不妨礙數據承接業務的日常運營,那么如果客戶已經將主要數據運營放在托管中心,并和托管方進行了基本的事故模擬和風險預案,這樣就真的能夠面對所有最壞結果了嗎?答案是否定的。如果客戶發現自己已經處在這種未知的情況下該怎么辦?如果發生未預料到的情況怎么辦?如果故障恢復失敗或耗時太長影響到了事故處理步驟和業務計劃性的安排如何處理?這一切都將取決于管理者對托管數據事故風險分析和戰略性的應對策略。
以筆者單位為例,在制定關鍵業務應用戰略時,應避免將所有數據放在一處。同樣的道理,也避免將所有關鍵應用的服務程序放在同一區域,甚至同一托管方。同時要考慮在主要數據存放位置后,備份數據存放的位置以及和主要數據的物理關聯,然后逐步擴大到每個場景,并確定任何級別的故障將產生怎么樣的影響。當然在正常情況下,機房的數據動態是要記錄按天按周按月的日志并進行內控處理或者外部審計的,然而有時候,這種審查可能是由不完全了解自身托管數據中心和自身業務流如何運營的人員來完成。
因此,企業需要安排了解托管數據中心如何可靠運營的第三方專業人士進行審核,這些第三方審核通常會比托管人員自己識別的風險要容易得多,并且可以提供的信息更加豐富,在大多數情況下,與發生中斷事故的成本和運營成本相比,通過審查和驗證措施減輕風險的成本通常是最小的。
企業一定要了解自己關鍵數據面臨的風險,并為最壞的情況做好策略上的準備。大多數IDC機房都配備替代的鏡像,可以處理最基本的災難恢復,以確保他們的客戶對運營幾乎沒有影響。同時大多數公司仍在追求在托管數據中心(托管數據中心,云計算或者內部部署)中部署雙活數據庫。雖然有些雙活部署接近成功,但在嘗試使用災難恢復備份時,其長時間的關鍵業務應用中斷卻讓人痛苦,最后的結果是數據庫沒有企業期望的那樣完整,數據丟失或應用程序在故障轉換期間受到不一致性的影響。
另一方面,如果是IDC托管提供商的計劃內停電或者中斷,在與IDC托管方簽訂合同時,必須提前承認雙方同意在什么情況將造成中斷。這一點至關重要,通常時候真正數據擁有者到時就會發現預想的協議往往并沒有涵蓋他們真實的想法。
在事故真正發生的時候,托管數據中心的各方都進入危機模式,危機模式要有分不同等級的便于操作的應急預案,比如在不同程度的損壞下,允許什么級別的人,采取什么樣的步驟和順序以及應對的策略。
比如,企業要關心的一個重要問題就是,在危機模式期間誰可以訪問?誰來操作執行關鍵業務的恢復和一致性處理,企業需要準確了解其在此期間那些數據可以訪問,可以更改,以及訪問權限,以及在訪問時允許執行的操作。此外,還要知道在修復期間將采取什么額外的安全措施來保護其數據,數據有沒有外流,關鍵業務數據在危機模式之后和之前能不能保持一致性。
記錄文檔不僅適用于發生事故的托管數據中心,而且適用于所有與數據業務有關聯的公司。
筆者在調查中發現,許多客戶沒有記錄他們的日常運營流程和程序。就算有記錄,也沒有規律性的進行更新。文檔對于在發生災難時做好準備至關重要,這其中包括:了解應用程序運行的位置,知道中斷哪些受到影響最大,誰需要了解更改等。因為在事故的評估過程中,大多數托管數據中心商都會告訴企業,系統是如何安裝的,以防止服務中斷。他們還給為企業提供滿意的客戶的推薦和參考。但他們通常不會告訴他們失敗的案例。要記錄文檔并了解過往的故障處理的失敗案例,要了解事故的細節,從中學習如何糾正以及采取了哪些步驟來防止再次發生事故。
如果企業對托管數據中心的故障恢復工作失去信心,請務必了解合約中的免責條款,這有助于企業順利地中止合作。確保合同沒有采用模糊的語言描述,避免被不合理的條款所限制。大多數托管數據中心的合同期限一般都為長期合同,托管數據中心市場的規模將擴大,新的廠商進入市場,雖然企業可能目前不會尋求采用新的托管數據中心,但應該不斷評估其他提供商。如果發生失敗,企業必須知道移動到新的解決方案的選擇,如果托管數據中心的故障處理和恢復工作花費的時間太長,那么后果可能會迫使相關業務停止線上運營,讓您所在的組織業務遭受巨大的損失,而又無法得到相關托管方對這部分關鍵業務的賠償。
如今規模化地組織運營托管數據業務,就必須規模化地建立預備團隊,團隊組織不但要熟知托管數據中心的知識,而且還要了解市場趨勢。通過詢問問題和閱讀報告,可以了解托管數據中心解決方案的各個方面情況。最重要的是,知道潛在的失敗點,了解什么情況可能導致中斷,人們都希望中斷或失敗永遠不會出現。
但是如果這樣做,企業必須為此規模化地組建風險處理團隊,最好的建議是在這些故障情況下制定計劃,并組建工作組團隊按部就班遵循這個計劃,團隊內部溝通對步驟實施準確和成功至關重要,因為人們在發生失敗可能會不耐煩,但團隊必須遵守嚴格執行,并通過定期檢查這些重要領域,按團隊計劃性完成風險的分析和事故的預判,為管理者在中斷事故中的資源戰略調度提供有效性的建議。