丁海驁
“青云QingCloud在北京、廣東和上海三地擁有多活數據中心,以北京為例,這是我們最早上線的多活Region架構。”林源,青云QingCloud運營副總裁日前在接受采訪時談到,青云QingCloud已經從基礎設施層、基礎架構層(或IaaS)和分布式應用層(或PaaS層)做好了為用戶提供多活部署方式的準備。
那么,什么是多活?
一般來講,隨著企業數字化轉型的開展,企業的業務與IT基礎架構和數據之間的關聯越來越密切,所以如何保障數據安全和業務全天連續運營,成為企業在IT建設過程當中越來越關注的問題。在以往的企業IT架構當中,一般都會因此設置兩個或多個數據中心:其中一個為主數據中心,一個為備用數據中心。日常工作中:主數據中心承擔主要業務負載和數據處理,備用數據中心則主要用于備份主中心的業務過程、數據等。只有當主數據中心發生諸如宕機等意外時,備用數據才會臨時承擔起主數據中心的工作,通過快速恢復數據等,一方面保證業務的連貫,另一方面減輕業務間斷造成的損失。
這被稱為單活。而雙活是在此基礎上,將備用數據中心與主數據中心放在同樣平行的位置,共同承擔業務負載,同步復制數據,這樣不僅降低了原來單活架構帶來的資源浪費,而且當其中任意一個數據中心發生宕機時,另一個同樣能夠快速恢復數據和業務,同樣可以保證業務的連續性。
“曾經在2014年,某銀行核心系統宕機,中斷服務37小時。在這37個小時內,所有跟該銀行相關的賬戶無法存款或者取款。假如此時有人生病在需要取錢,那就意味著可能會造成延誤37個小時才能就診處置,生命攸關。”林源在強調多活的重要性的同時,也強調,雖然多活能夠增強系統的可靠性、提升業務的連續性,保證業務在運行過程中不受任何故障和災難的影響,但是,也并不是所有的場景都需要多活,用戶需要用RTO和RPO兩個技術指標來衡量自己業務對多活的需求程度。
其中,RTO指業務恢復時間;RPO是數據丟失量。“大家玩游戲時肯定有一個體驗,當我要射擊時,發現手機卡了,或者是服務卡了,這很有可能是數據中心出現故障。但是卡了10秒或者半分鐘后,就恢復了,那么這10秒鐘就被稱之為RTO。”林源舉例強調,一般互聯網行業對于PRO更加關注,而金融、保險等對數據安全性要求更高的行業,則對RPO更關注:“如果你欠一個朋友10萬元,在還錢過程中,銀行發生故障。比較好的情況是你朋友收到了10萬塊,但你這邊沒有扣款;比較不好的是你的賬號扣款了,但是你朋友沒有收到。無論哪種情況,都說明銀行在交易過程中出現故障,并且在故障恢復后,數據丟失了。而且不管丟失哪段交易,都會對數據的一致性造成影響,這是不能忍受的。”
顯然,RTO和RPO所定義的兩種業務形態,前者業務面向廣泛的客戶,發生故障影響比較大,如電商網站、微信、微博等;后者是業務本身很重要,發生故障后會影響公司業務,導致客戶資金受損,如銀行、保險、重型制造等業務場景。“在傳統意義上,這些對多活需求較高的業務場景,也往往因為成本高、人才短缺、建設周期長、技術難度大的情況,導致用戶企業需要付出相當大的決心和成本才能是實現。”而且林源也強調,即便如此,也不能保證能夠實現預期的目標:“GitHub在10月22日時,出現一次比較大規模的故障,導致服務中斷的時間達到24小時。由于有80%以上的工程師平時的工作依賴GitHub,所以這24小時的故障又導致了絕大部分互聯網企業的技術人員無法正常工作。而這次故障恰恰是因為他們的多活系統出現故障而導致的:兩個機房之間的網絡出現了中斷,服務發生切換時,由于多活系統考慮不全,導致系統發生腦裂,兩邊的數據不一致。為了保證用戶數據的一致性,GitHub只能直接停服,用24小時的時間恢復數據。”
林源認為,通過云為用戶提供多活,則能幫助用戶在業務和IT之間,找到更好的結合點,讓企業用戶更專注于自己業務。
在林源的介紹中,在基礎設施層,青云QingCloud有三個地區的數據中心有多活服務——北京、廣東和上海,通過青云QingCloud多活Region架構,一個Region由多個可用區或者多個數據中心構成,用戶可以在北京選擇三個機房作為數據中心:北京3B、北京3C、北京3D。通過多機房之間的互聯,保證數據中心的互聯帶寬和延遲時間能夠符合用戶的需求。同時,在基礎架構(IaaS)層,青云QingCloud提供通用組件能夠幫助用戶部署多活的負載均衡、網絡,保證在極端情況下,任意一個數據中心宕機,都不會影響用戶使用負載均衡器的服務,不會影響外網。在應用層(或者PaaS層),青云QingCloud的MySQL Plus(基于MySQL的數據庫服務)、MongoDB,本身就支持多活的部署,因此任何一個數據中心的宕機都不會影響數據庫。不僅如此,通過青云的SD-WAN智能廣域網加上私有云和公有云統一架構,甚至可以為用戶部署一個混合云架構下的多活地基礎設施。
“簡單地說,如果用戶想構建多活的業務,只需要做最簡單的應用層部分和中間件的部分,其他有關負載均衡器、Redis、MySQL以及多個數據中心之間的互聯,都是由青云提供。因此對于用戶來講,現在部署一個多活的應用或者多活的業務就會變得很簡單,而且很便宜。”林源說。
寫在最后
技術的進步是讓用戶可以不用學習更多的專業技能,讓部署、應用和維護更簡單。這也是云計算能夠在如此短時間內,就徹底改變原有IT世界格局的一個重要原因。無論從哪個方面講:讓專業的人,利用專業的知識解決專業的問題,對整個社會都是最有效率的一種分工。