譚志遠(yuǎn)+黃巍+宮云平
【摘 要】云資源池集中承載業(yè)務(wù)平臺實(shí)現(xiàn)了資源共享,降低了投資,節(jié)省了維護(hù)成本,推進(jìn)了平臺的集約化維護(hù),但同時(shí)也帶來了新的安全隱患,所有風(fēng)險(xiǎn)都將集中在云資源池,一旦云資源池出現(xiàn)問題,將嚴(yán)重影響其所承載的所有業(yè)務(wù)平臺的安全。基于此,通過結(jié)合云計(jì)算技術(shù)特征及業(yè)務(wù)平臺容災(zāi)的實(shí)際需求,從資源池的硬件層、虛擬化層、業(yè)務(wù)平臺層等多個(gè)維度探討了業(yè)務(wù)云平臺的整體容災(zāi)策略。
【關(guān)鍵詞】云平臺 容災(zāi)策略 高可用性 數(shù)據(jù)保護(hù) 災(zāi)難恢復(fù)
1 引言
隨著云計(jì)算虛擬化技術(shù)的逐漸成熟,在電信行業(yè)有越來越多的新建業(yè)務(wù)平臺都將部署在云資源池上,并且部分傳統(tǒng)業(yè)務(wù)平臺也將陸續(xù)遷移到云資源池上。云資源池集中承載業(yè)務(wù)平臺可實(shí)現(xiàn)各平臺間的資源共享,但同時(shí)所有的風(fēng)險(xiǎn)都集中在云資源池,一旦云資源池出現(xiàn)問題,如云資源池的共享存儲癱瘓,將嚴(yán)重影響其所承載的業(yè)務(wù)平臺的安全。另外,通過資源共享統(tǒng)一承載業(yè)務(wù)平臺這種新的承載模式,傳統(tǒng)業(yè)務(wù)平臺的容災(zāi)策略也需要適應(yīng)這種新的變化做出相應(yīng)的調(diào)整。
在此背景下,本文嘗試從多個(gè)維度來分析云資源池所承載業(yè)務(wù)平臺的整體容災(zāi)策略。
2 業(yè)務(wù)云平臺容災(zāi)策略
云平臺容災(zāi)的目的是為了保障其所承載業(yè)務(wù)的連續(xù)性,而業(yè)務(wù)的連續(xù)性涉及到三個(gè)方面的要素,即:HA(High Availability,高可用性)、DP(Data Protection,數(shù)據(jù)保護(hù))、DR(Disater Recovery,災(zāi)難恢復(fù))。
要實(shí)現(xiàn)容災(zāi),必然離不開資金的投入,根據(jù)云平臺的特點(diǎn),要實(shí)現(xiàn)這三個(gè)要素所投入的資金或者說付出的代價(jià)是不一樣的。因此,在實(shí)際規(guī)劃或建設(shè)中,可以根據(jù)需要并結(jié)合業(yè)務(wù)平臺的重要程度,實(shí)現(xiàn)不同級別的容災(zāi)(即通過容災(zāi)要素的不同組合實(shí)現(xiàn)不同級別的容災(zāi)),如圖1所示:
云平臺的高可用性(HA)是基礎(chǔ),在此基礎(chǔ)上,對于一般性業(yè)務(wù)平臺實(shí)現(xiàn)數(shù)據(jù)保護(hù)(DP),對于重要的業(yè)務(wù)平臺為確保業(yè)務(wù)的連續(xù)性,實(shí)現(xiàn)災(zāi)難恢復(fù)(DR)。因此,實(shí)際部署資源池(或選擇業(yè)務(wù)平臺所承載的資源池)時(shí),可結(jié)合業(yè)務(wù)平臺的重要程度部署或選取具備HA、DP、DR等不同組合的資源池。
另外,各要素的實(shí)現(xiàn)對于云平臺以及所承載的業(yè)務(wù)平臺來說,涉及到不同的容災(zāi)策略和措施。因此,本文探討的容災(zāi)策略是根據(jù)上述三要素,分析各要素所涉及的內(nèi)容,再根據(jù)具體的內(nèi)容有針對性地探討容災(zāi)策略和解決思路,如表1所示。
2.1 高可用性(HA)
為提高云平臺以及其所承載業(yè)務(wù)平臺的高可用性,可以在硬件層、虛擬化層、應(yīng)用層等維度分別考慮實(shí)現(xiàn)高可用性。
(1)硬件層
對于云平臺所使用的硬件,主要包括:服務(wù)器、路由器、交換機(jī)、負(fù)載均衡器、防火墻、光纖交換機(jī)、網(wǎng)卡、電源等。
要確保硬件層面的高可用性,必須保障所有硬件設(shè)備的冗余配置。根據(jù)現(xiàn)網(wǎng)的實(shí)際情況,服務(wù)器、交換機(jī)、防火墻、路由器、負(fù)載均衡器、供電等都有冗余配置,而共享存儲由于投資成本的考慮,目前一個(gè)資源池只有一套共享存儲。因此從硬件層面來說,共享存儲是主要的隱患來源。但共享存儲一般都會(huì)配置雙控制器、雙電源模塊、多路徑訪問等,相對來說具備一定的冗余性。
服務(wù)器中要求都配置雙硬盤,在安裝虛擬化軟件前要求把磁盤進(jìn)行鏡像管理(Raid10),對于共享存儲至少要采用Raid5以上的容災(zāi)配置。
(2)虛擬化層
要實(shí)現(xiàn)虛擬化層的高可用性(HA),必須啟用虛擬化廠家所提供HA功能和DRS功能,并確保資源池內(nèi)有足夠的資源供虛擬機(jī)運(yùn)行,要求所有主機(jī)都連接同一個(gè)共享存儲,配置一個(gè)專用的心跳網(wǎng)絡(luò)。
為確保VMotion的正常運(yùn)作,需同一個(gè)集群中各物理服務(wù)器的CPU型號兼容(最好是同一型號);使用專用的網(wǎng)絡(luò)來遷移虛擬機(jī),要求網(wǎng)絡(luò)帶寬至少為千兆,并且源和目標(biāo)主機(jī)具有相同的網(wǎng)絡(luò)配置(包括網(wǎng)絡(luò)類型、網(wǎng)絡(luò)標(biāo)簽);要求虛擬機(jī)一定要位于共享存儲上,并且源和目標(biāo)ESXi主機(jī)都能訪問到此共享存儲。
(3)應(yīng)用層
在應(yīng)用層,建議各業(yè)務(wù)平臺對于處理能力要求高的模塊,盡量設(shè)計(jì)為可負(fù)載均衡或分布式計(jì)算的模塊,這樣可以通過多虛擬機(jī)的部署提高平臺的處理能力及冗余能力。對于重要程度較高且不能通過多模塊部署成負(fù)載均衡方式的虛擬機(jī),可類似傳統(tǒng)業(yè)務(wù)平臺一樣部署雙機(jī)。
可根據(jù)不同業(yè)務(wù)平臺的忙閑時(shí)特征,把可以實(shí)現(xiàn)錯(cuò)峰填谷效果的業(yè)務(wù)平臺部署在同一個(gè)集群中,以提高資源的利用效率。為避免異常時(shí)的網(wǎng)絡(luò)沖擊,可針對各虛擬機(jī)根據(jù)業(yè)務(wù)量的估算,對出入帶寬進(jìn)行控制。
可根據(jù)業(yè)務(wù)平臺的重要程度,部署在不同容災(zāi)等級的云資源池中,而部署在云資源池中的業(yè)務(wù)平臺,在正式上線前務(wù)必經(jīng)過安全掃描和加固。
2.2 數(shù)據(jù)保護(hù)(DP)
實(shí)現(xiàn)云資源池及其所承載業(yè)務(wù)平臺數(shù)據(jù)保護(hù)功能,基于目前的技術(shù),可分別由虛擬化層、存儲系統(tǒng)層或應(yīng)用層來實(shí)現(xiàn)數(shù)據(jù)保護(hù),但從成本、備份效率等因素來考慮,可以利用現(xiàn)有虛擬化廠家或存儲廠家提供的備份解決方案。
(1)虛擬化層實(shí)現(xiàn)
可以利用虛擬化廠家所提供的備份技術(shù),例如VMware公司的VDP或VDPA備份解決方案,VMware VDPA技術(shù)實(shí)現(xiàn)對虛擬機(jī)的備份,其支持重復(fù)數(shù)據(jù)刪除、增量、全量備份以及備份Schedule等。支持文件級別的恢復(fù)(虛擬機(jī)通過自服務(wù)門戶來恢復(fù)文件),可以用于用戶數(shù)據(jù)的錯(cuò)誤刪除后的恢復(fù),與快照相比有周期性的特點(diǎn),且不影響性能,業(yè)務(wù)數(shù)據(jù)可恢復(fù)過去1個(gè)月甚至1年任意時(shí)間的文件。
(2)存儲系統(tǒng)實(shí)現(xiàn)
利用存儲設(shè)備廠家的相關(guān)備份解決方案,例如Symantec公司的NetBackup產(chǎn)品,Symantec公司在其NetBackup最新產(chǎn)品上專為VMware vSphere和Hyper-V虛擬化環(huán)境備份做了定制開發(fā)。NetBackup通過直接調(diào)用VMware的vStorage API實(shí)現(xiàn)與vCenter的集成,不需要在ESXi和虛擬機(jī)上部署任何腳本,也不需要安裝VCB組件,不需要Backup Proxy就可實(shí)現(xiàn)VMware vSphere環(huán)境下的虛擬機(jī)備份。或者可以使用EMC Awamar的備份解決方案。endprint
(3)應(yīng)用層實(shí)現(xiàn)
數(shù)據(jù)保護(hù)由應(yīng)用層實(shí)現(xiàn),即由云平臺所承載業(yè)務(wù)平臺各自負(fù)責(zé)各自平臺的數(shù)據(jù)保護(hù),類似于傳統(tǒng)業(yè)務(wù)平臺的處理。操作系統(tǒng)、數(shù)據(jù)庫等都按照傳統(tǒng)業(yè)務(wù)平臺備份思路進(jìn)行數(shù)據(jù)備份和恢復(fù)。這種方式的優(yōu)點(diǎn)是各業(yè)務(wù)平臺可根據(jù)需要自行定制適合自己的備份解決方案,但各業(yè)務(wù)平臺獨(dú)立規(guī)劃備份系統(tǒng),會(huì)造成投資浪費(fèi)、資源利用率低。
2.3 災(zāi)難恢復(fù)(DR)
通過建立異地容災(zāi)節(jié)點(diǎn)實(shí)現(xiàn)資源池的災(zāi)難保護(hù),在資金允許的情況下,生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)間可以通過大二層組網(wǎng)實(shí)現(xiàn)無需人工干預(yù)的自動(dòng)化切換的容災(zāi)解決方案。在建設(shè)成本不足時(shí),可以對相對重要的業(yè)務(wù)平臺實(shí)現(xiàn)資源池異地容災(zāi),這種情況下生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)采用獨(dú)立組網(wǎng)的方式,可以通過路由方式或DNS(Domain Name System,域名系統(tǒng))方式來實(shí)現(xiàn)主節(jié)點(diǎn)到容災(zāi)節(jié)點(diǎn)的業(yè)務(wù)切換。
(1)大二層組網(wǎng)
生產(chǎn)節(jié)點(diǎn)與容災(zāi)節(jié)點(diǎn)間通過大二層組網(wǎng)實(shí)現(xiàn)網(wǎng)絡(luò)互通,在虛擬化層實(shí)現(xiàn)虛擬機(jī)跨節(jié)點(diǎn)遷移,而在遷移過程中無需變更云平臺上承載業(yè)務(wù)平臺的IP地址,不影響外圍系統(tǒng)的正常通訊,從而保證業(yè)務(wù)的連續(xù)性。
基于VMware、EMC、Cisco的聯(lián)合解決方案如圖2所示,可以實(shí)現(xiàn)應(yīng)用/虛擬機(jī)在數(shù)據(jù)中心之間遷移,即可以實(shí)現(xiàn):虛擬機(jī)在2個(gè)節(jié)點(diǎn)間進(jìn)行VMotion,基于EMC VPLEX本地聯(lián)合和跨數(shù)據(jù)中心聯(lián)合的虛擬存儲,OTV(Overlay Transport Virtualization,虛擬化中繼傳輸技術(shù))無縫二層多站點(diǎn)擴(kuò)展,LISP(Location-ID Separation Protocol,名址分離網(wǎng)絡(luò)協(xié)議)優(yōu)化用戶到云的訪問路徑。
(2)獨(dú)立組網(wǎng)
兩個(gè)數(shù)據(jù)中心獨(dú)立組網(wǎng),生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)存儲間數(shù)據(jù)采用準(zhǔn)實(shí)時(shí)同步,當(dāng)生產(chǎn)節(jié)點(diǎn)異常時(shí),通過容災(zāi)節(jié)點(diǎn)承載業(yè)務(wù)。例如,VMware Site Recovery Manager(SRM)是一個(gè)業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)解決方案,可實(shí)現(xiàn)一個(gè)站點(diǎn)(受保護(hù)站點(diǎn))和另一個(gè)站點(diǎn)(恢復(fù)站點(diǎn))之間vCenter虛擬機(jī)的恢復(fù),其中存儲間可以配置使用第三方磁盤復(fù)制機(jī)制(基于陣列的復(fù)制)或VMware vSphere Replication,如圖3所示。
當(dāng)生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)采用獨(dú)立組網(wǎng)的解決方案時(shí),有兩種方式實(shí)現(xiàn)生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)的業(yè)務(wù)切換:一種是DNS方式,即所有在云平臺上承載的業(yè)務(wù)平臺對外通過DNS的方式互訪,當(dāng)主節(jié)點(diǎn)出問題后,外圍系統(tǒng)訪問平臺時(shí)可無感知的切換到容災(zāi)節(jié)點(diǎn)所承載的業(yè)務(wù)平臺處理(DNS與IP地址對應(yīng)的關(guān)系應(yīng)提前在相關(guān)系統(tǒng)做好數(shù)據(jù),而業(yè)務(wù)平臺中各虛擬機(jī)使用內(nèi)部IP地址,通過NAT映射的方式出公網(wǎng));另一種方式是修改路由的方式,通過在網(wǎng)絡(luò)設(shè)備上修改路由指向,切換到容災(zāi)節(jié)點(diǎn)。當(dāng)云平臺承載成百上千個(gè)業(yè)務(wù)平臺時(shí),后者的可行性不大,后續(xù)維護(hù)工作量相當(dāng)大。
3 結(jié)束語
云平臺的高可用性(HA)是容災(zāi)的前提和基礎(chǔ),在此基礎(chǔ)上實(shí)現(xiàn)一定的數(shù)據(jù)保護(hù),對于特別重要、影響大的業(yè)務(wù)平臺建設(shè)容災(zāi)資源池,即把重要程度非常高的業(yè)務(wù)平臺承載在具備HA、DP、DR等容災(zāi)措施的資源池上,普通業(yè)務(wù)平臺具備HA和DP即可。
本文根據(jù)當(dāng)前傳統(tǒng)業(yè)務(wù)平臺容災(zāi)解決方案的現(xiàn)狀,結(jié)合多年來業(yè)務(wù)平臺運(yùn)行的實(shí)際經(jīng)驗(yàn)及業(yè)務(wù)平臺各種故障發(fā)生的概率情況,探討了承載在云資源池上的業(yè)務(wù)平臺容災(zāi)解決方案,并提出了根據(jù)平臺的重要程度采用不同級別的容災(zāi)措施,希望能對云平臺相關(guān)維護(hù)人員或云資源池建設(shè)人員有所參考。
參考文獻(xiàn):
[1] 譚志遠(yuǎn),宮云平,陳喜洲. 云計(jì)算給業(yè)務(wù)平臺的發(fā)展與運(yùn)維帶來的機(jī)遇與挑戰(zhàn)[J]. 電信科學(xué), 2011,27(10A): 6-10.
[2] 許輝陽,李劼,羅霄翔. 面向業(yè)務(wù)的云計(jì)算IaaS研究[J]. 移動(dòng)通信, 2011(9): 20-25.
[3] 鄧孟城. 基于云計(jì)算IaaS的IT基礎(chǔ)架構(gòu)建設(shè)方案探討[J]. 科技風(fēng), 2011(11): 53.
[4] 余侃. 云計(jì)算時(shí)代的數(shù)據(jù)中心建設(shè)與發(fā)展[J]. 信息通信, 2011(6): 100-102.
[5] 史凡,趙慧玲. 智能化云計(jì)算承載網(wǎng)特征和關(guān)鍵技術(shù)分析[J]. 中興通訊技術(shù), 2012(4): 32-33.★endprint
(3)應(yīng)用層實(shí)現(xiàn)
數(shù)據(jù)保護(hù)由應(yīng)用層實(shí)現(xiàn),即由云平臺所承載業(yè)務(wù)平臺各自負(fù)責(zé)各自平臺的數(shù)據(jù)保護(hù),類似于傳統(tǒng)業(yè)務(wù)平臺的處理。操作系統(tǒng)、數(shù)據(jù)庫等都按照傳統(tǒng)業(yè)務(wù)平臺備份思路進(jìn)行數(shù)據(jù)備份和恢復(fù)。這種方式的優(yōu)點(diǎn)是各業(yè)務(wù)平臺可根據(jù)需要自行定制適合自己的備份解決方案,但各業(yè)務(wù)平臺獨(dú)立規(guī)劃備份系統(tǒng),會(huì)造成投資浪費(fèi)、資源利用率低。
2.3 災(zāi)難恢復(fù)(DR)
通過建立異地容災(zāi)節(jié)點(diǎn)實(shí)現(xiàn)資源池的災(zāi)難保護(hù),在資金允許的情況下,生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)間可以通過大二層組網(wǎng)實(shí)現(xiàn)無需人工干預(yù)的自動(dòng)化切換的容災(zāi)解決方案。在建設(shè)成本不足時(shí),可以對相對重要的業(yè)務(wù)平臺實(shí)現(xiàn)資源池異地容災(zāi),這種情況下生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)采用獨(dú)立組網(wǎng)的方式,可以通過路由方式或DNS(Domain Name System,域名系統(tǒng))方式來實(shí)現(xiàn)主節(jié)點(diǎn)到容災(zāi)節(jié)點(diǎn)的業(yè)務(wù)切換。
(1)大二層組網(wǎng)
生產(chǎn)節(jié)點(diǎn)與容災(zāi)節(jié)點(diǎn)間通過大二層組網(wǎng)實(shí)現(xiàn)網(wǎng)絡(luò)互通,在虛擬化層實(shí)現(xiàn)虛擬機(jī)跨節(jié)點(diǎn)遷移,而在遷移過程中無需變更云平臺上承載業(yè)務(wù)平臺的IP地址,不影響外圍系統(tǒng)的正常通訊,從而保證業(yè)務(wù)的連續(xù)性。
基于VMware、EMC、Cisco的聯(lián)合解決方案如圖2所示,可以實(shí)現(xiàn)應(yīng)用/虛擬機(jī)在數(shù)據(jù)中心之間遷移,即可以實(shí)現(xiàn):虛擬機(jī)在2個(gè)節(jié)點(diǎn)間進(jìn)行VMotion,基于EMC VPLEX本地聯(lián)合和跨數(shù)據(jù)中心聯(lián)合的虛擬存儲,OTV(Overlay Transport Virtualization,虛擬化中繼傳輸技術(shù))無縫二層多站點(diǎn)擴(kuò)展,LISP(Location-ID Separation Protocol,名址分離網(wǎng)絡(luò)協(xié)議)優(yōu)化用戶到云的訪問路徑。
(2)獨(dú)立組網(wǎng)
兩個(gè)數(shù)據(jù)中心獨(dú)立組網(wǎng),生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)存儲間數(shù)據(jù)采用準(zhǔn)實(shí)時(shí)同步,當(dāng)生產(chǎn)節(jié)點(diǎn)異常時(shí),通過容災(zāi)節(jié)點(diǎn)承載業(yè)務(wù)。例如,VMware Site Recovery Manager(SRM)是一個(gè)業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)解決方案,可實(shí)現(xiàn)一個(gè)站點(diǎn)(受保護(hù)站點(diǎn))和另一個(gè)站點(diǎn)(恢復(fù)站點(diǎn))之間vCenter虛擬機(jī)的恢復(fù),其中存儲間可以配置使用第三方磁盤復(fù)制機(jī)制(基于陣列的復(fù)制)或VMware vSphere Replication,如圖3所示。
當(dāng)生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)采用獨(dú)立組網(wǎng)的解決方案時(shí),有兩種方式實(shí)現(xiàn)生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)的業(yè)務(wù)切換:一種是DNS方式,即所有在云平臺上承載的業(yè)務(wù)平臺對外通過DNS的方式互訪,當(dāng)主節(jié)點(diǎn)出問題后,外圍系統(tǒng)訪問平臺時(shí)可無感知的切換到容災(zāi)節(jié)點(diǎn)所承載的業(yè)務(wù)平臺處理(DNS與IP地址對應(yīng)的關(guān)系應(yīng)提前在相關(guān)系統(tǒng)做好數(shù)據(jù),而業(yè)務(wù)平臺中各虛擬機(jī)使用內(nèi)部IP地址,通過NAT映射的方式出公網(wǎng));另一種方式是修改路由的方式,通過在網(wǎng)絡(luò)設(shè)備上修改路由指向,切換到容災(zāi)節(jié)點(diǎn)。當(dāng)云平臺承載成百上千個(gè)業(yè)務(wù)平臺時(shí),后者的可行性不大,后續(xù)維護(hù)工作量相當(dāng)大。
3 結(jié)束語
云平臺的高可用性(HA)是容災(zāi)的前提和基礎(chǔ),在此基礎(chǔ)上實(shí)現(xiàn)一定的數(shù)據(jù)保護(hù),對于特別重要、影響大的業(yè)務(wù)平臺建設(shè)容災(zāi)資源池,即把重要程度非常高的業(yè)務(wù)平臺承載在具備HA、DP、DR等容災(zāi)措施的資源池上,普通業(yè)務(wù)平臺具備HA和DP即可。
本文根據(jù)當(dāng)前傳統(tǒng)業(yè)務(wù)平臺容災(zāi)解決方案的現(xiàn)狀,結(jié)合多年來業(yè)務(wù)平臺運(yùn)行的實(shí)際經(jīng)驗(yàn)及業(yè)務(wù)平臺各種故障發(fā)生的概率情況,探討了承載在云資源池上的業(yè)務(wù)平臺容災(zāi)解決方案,并提出了根據(jù)平臺的重要程度采用不同級別的容災(zāi)措施,希望能對云平臺相關(guān)維護(hù)人員或云資源池建設(shè)人員有所參考。
參考文獻(xiàn):
[1] 譚志遠(yuǎn),宮云平,陳喜洲. 云計(jì)算給業(yè)務(wù)平臺的發(fā)展與運(yùn)維帶來的機(jī)遇與挑戰(zhàn)[J]. 電信科學(xué), 2011,27(10A): 6-10.
[2] 許輝陽,李劼,羅霄翔. 面向業(yè)務(wù)的云計(jì)算IaaS研究[J]. 移動(dòng)通信, 2011(9): 20-25.
[3] 鄧孟城. 基于云計(jì)算IaaS的IT基礎(chǔ)架構(gòu)建設(shè)方案探討[J]. 科技風(fēng), 2011(11): 53.
[4] 余侃. 云計(jì)算時(shí)代的數(shù)據(jù)中心建設(shè)與發(fā)展[J]. 信息通信, 2011(6): 100-102.
[5] 史凡,趙慧玲. 智能化云計(jì)算承載網(wǎng)特征和關(guān)鍵技術(shù)分析[J]. 中興通訊技術(shù), 2012(4): 32-33.★endprint
(3)應(yīng)用層實(shí)現(xiàn)
數(shù)據(jù)保護(hù)由應(yīng)用層實(shí)現(xiàn),即由云平臺所承載業(yè)務(wù)平臺各自負(fù)責(zé)各自平臺的數(shù)據(jù)保護(hù),類似于傳統(tǒng)業(yè)務(wù)平臺的處理。操作系統(tǒng)、數(shù)據(jù)庫等都按照傳統(tǒng)業(yè)務(wù)平臺備份思路進(jìn)行數(shù)據(jù)備份和恢復(fù)。這種方式的優(yōu)點(diǎn)是各業(yè)務(wù)平臺可根據(jù)需要自行定制適合自己的備份解決方案,但各業(yè)務(wù)平臺獨(dú)立規(guī)劃備份系統(tǒng),會(huì)造成投資浪費(fèi)、資源利用率低。
2.3 災(zāi)難恢復(fù)(DR)
通過建立異地容災(zāi)節(jié)點(diǎn)實(shí)現(xiàn)資源池的災(zāi)難保護(hù),在資金允許的情況下,生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)間可以通過大二層組網(wǎng)實(shí)現(xiàn)無需人工干預(yù)的自動(dòng)化切換的容災(zāi)解決方案。在建設(shè)成本不足時(shí),可以對相對重要的業(yè)務(wù)平臺實(shí)現(xiàn)資源池異地容災(zāi),這種情況下生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)采用獨(dú)立組網(wǎng)的方式,可以通過路由方式或DNS(Domain Name System,域名系統(tǒng))方式來實(shí)現(xiàn)主節(jié)點(diǎn)到容災(zāi)節(jié)點(diǎn)的業(yè)務(wù)切換。
(1)大二層組網(wǎng)
生產(chǎn)節(jié)點(diǎn)與容災(zāi)節(jié)點(diǎn)間通過大二層組網(wǎng)實(shí)現(xiàn)網(wǎng)絡(luò)互通,在虛擬化層實(shí)現(xiàn)虛擬機(jī)跨節(jié)點(diǎn)遷移,而在遷移過程中無需變更云平臺上承載業(yè)務(wù)平臺的IP地址,不影響外圍系統(tǒng)的正常通訊,從而保證業(yè)務(wù)的連續(xù)性。
基于VMware、EMC、Cisco的聯(lián)合解決方案如圖2所示,可以實(shí)現(xiàn)應(yīng)用/虛擬機(jī)在數(shù)據(jù)中心之間遷移,即可以實(shí)現(xiàn):虛擬機(jī)在2個(gè)節(jié)點(diǎn)間進(jìn)行VMotion,基于EMC VPLEX本地聯(lián)合和跨數(shù)據(jù)中心聯(lián)合的虛擬存儲,OTV(Overlay Transport Virtualization,虛擬化中繼傳輸技術(shù))無縫二層多站點(diǎn)擴(kuò)展,LISP(Location-ID Separation Protocol,名址分離網(wǎng)絡(luò)協(xié)議)優(yōu)化用戶到云的訪問路徑。
(2)獨(dú)立組網(wǎng)
兩個(gè)數(shù)據(jù)中心獨(dú)立組網(wǎng),生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)存儲間數(shù)據(jù)采用準(zhǔn)實(shí)時(shí)同步,當(dāng)生產(chǎn)節(jié)點(diǎn)異常時(shí),通過容災(zāi)節(jié)點(diǎn)承載業(yè)務(wù)。例如,VMware Site Recovery Manager(SRM)是一個(gè)業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)解決方案,可實(shí)現(xiàn)一個(gè)站點(diǎn)(受保護(hù)站點(diǎn))和另一個(gè)站點(diǎn)(恢復(fù)站點(diǎn))之間vCenter虛擬機(jī)的恢復(fù),其中存儲間可以配置使用第三方磁盤復(fù)制機(jī)制(基于陣列的復(fù)制)或VMware vSphere Replication,如圖3所示。
當(dāng)生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)采用獨(dú)立組網(wǎng)的解決方案時(shí),有兩種方式實(shí)現(xiàn)生產(chǎn)節(jié)點(diǎn)和容災(zāi)節(jié)點(diǎn)的業(yè)務(wù)切換:一種是DNS方式,即所有在云平臺上承載的業(yè)務(wù)平臺對外通過DNS的方式互訪,當(dāng)主節(jié)點(diǎn)出問題后,外圍系統(tǒng)訪問平臺時(shí)可無感知的切換到容災(zāi)節(jié)點(diǎn)所承載的業(yè)務(wù)平臺處理(DNS與IP地址對應(yīng)的關(guān)系應(yīng)提前在相關(guān)系統(tǒng)做好數(shù)據(jù),而業(yè)務(wù)平臺中各虛擬機(jī)使用內(nèi)部IP地址,通過NAT映射的方式出公網(wǎng));另一種方式是修改路由的方式,通過在網(wǎng)絡(luò)設(shè)備上修改路由指向,切換到容災(zāi)節(jié)點(diǎn)。當(dāng)云平臺承載成百上千個(gè)業(yè)務(wù)平臺時(shí),后者的可行性不大,后續(xù)維護(hù)工作量相當(dāng)大。
3 結(jié)束語
云平臺的高可用性(HA)是容災(zāi)的前提和基礎(chǔ),在此基礎(chǔ)上實(shí)現(xiàn)一定的數(shù)據(jù)保護(hù),對于特別重要、影響大的業(yè)務(wù)平臺建設(shè)容災(zāi)資源池,即把重要程度非常高的業(yè)務(wù)平臺承載在具備HA、DP、DR等容災(zāi)措施的資源池上,普通業(yè)務(wù)平臺具備HA和DP即可。
本文根據(jù)當(dāng)前傳統(tǒng)業(yè)務(wù)平臺容災(zāi)解決方案的現(xiàn)狀,結(jié)合多年來業(yè)務(wù)平臺運(yùn)行的實(shí)際經(jīng)驗(yàn)及業(yè)務(wù)平臺各種故障發(fā)生的概率情況,探討了承載在云資源池上的業(yè)務(wù)平臺容災(zāi)解決方案,并提出了根據(jù)平臺的重要程度采用不同級別的容災(zāi)措施,希望能對云平臺相關(guān)維護(hù)人員或云資源池建設(shè)人員有所參考。
參考文獻(xiàn):
[1] 譚志遠(yuǎn),宮云平,陳喜洲. 云計(jì)算給業(yè)務(wù)平臺的發(fā)展與運(yùn)維帶來的機(jī)遇與挑戰(zhàn)[J]. 電信科學(xué), 2011,27(10A): 6-10.
[2] 許輝陽,李劼,羅霄翔. 面向業(yè)務(wù)的云計(jì)算IaaS研究[J]. 移動(dòng)通信, 2011(9): 20-25.
[3] 鄧孟城. 基于云計(jì)算IaaS的IT基礎(chǔ)架構(gòu)建設(shè)方案探討[J]. 科技風(fēng), 2011(11): 53.
[4] 余侃. 云計(jì)算時(shí)代的數(shù)據(jù)中心建設(shè)與發(fā)展[J]. 信息通信, 2011(6): 100-102.
[5] 史凡,趙慧玲. 智能化云計(jì)算承載網(wǎng)特征和關(guān)鍵技術(shù)分析[J]. 中興通訊技術(shù), 2012(4): 32-33.★endprint