中國核電工程有限公司鄭州分公司 蘆 杉
針對云計算數(shù)據(jù)中心結(jié)構(gòu)復(fù)雜,構(gòu)成要素繁多,指標(biāo)量化困難等問題,提出蒙特卡洛仿真方法對其可用度進(jìn)行分析研究。首先分析確定可用度指標(biāo),然后應(yīng)用可靠性框圖結(jié)合蒙特卡洛模擬對中心可用度進(jìn)行實例仿真分析,最后提出提高可用度的建議。該方法能夠有效完成云計算數(shù)據(jù)中心可用度的仿真分析,為提升中心運行可靠性提供支持。
數(shù)據(jù)中心是信息化的核心,承擔(dān)著各單位的關(guān)鍵性業(yè)務(wù)。隨著云計算、物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,數(shù)據(jù)中心由傳統(tǒng)的IDC機(jī)房轉(zhuǎn)變?yōu)樵朴嬎銛?shù)據(jù)中心。云計算數(shù)據(jù)中心的特點是虛擬化、共享性,一旦數(shù)據(jù)中心出現(xiàn)故障,將給單位帶來不可預(yù)測的損失,其可用度是運維人員關(guān)注的核心問題。然而,云計算數(shù)據(jù)中心的構(gòu)成要素較多,各指標(biāo)的量化方法不統(tǒng)一,導(dǎo)致無法采用傳統(tǒng)的計算方法衡量數(shù)據(jù)中心的可用度。因此,構(gòu)建云計算數(shù)據(jù)中心的可用度評估指標(biāo)體系,探索可用度的仿真方法勢在必行。
云計算服務(wù)類型包括三種,分別為IaaS、PaaS、SaaS。這里主要研究云計算數(shù)據(jù)中心IaaS的可用度。典型的云計算數(shù)據(jù)中心主要由虛擬化平臺架構(gòu)、網(wǎng)絡(luò)通信系統(tǒng)、運維監(jiān)控系統(tǒng)、供電系統(tǒng)、業(yè)務(wù)服務(wù)系統(tǒng)五個模塊組成,如圖1所示。

圖1 云計算數(shù)據(jù)中心結(jié)構(gòu)
(1)可用度的相關(guān)概念
MTTR:系統(tǒng)由故障狀態(tài)轉(zhuǎn)為正常工作狀態(tài)時修復(fù)時間的平均值。MTTR越短,易修復(fù)性越好。
MTBF:對于可修復(fù)的系統(tǒng),每次故障后又投入使用,平均故障間隔時間。
可用度:用來表示系統(tǒng)性能好壞的指標(biāo)之一,用A表示。即:

(2)可靠性方框圖
可靠性方框圖(RBD-Reliability Block Diagrams)是一種圖解方法,定義了復(fù)雜系統(tǒng)內(nèi)部子系統(tǒng)的邏輯關(guān)系(串聯(lián)、并聯(lián)、串并混合)。
(3)蒙特卡洛模擬法
蒙特卡洛模擬法是一種基于隨機(jī)抽樣、概率分析的模擬方法,包括隨機(jī)抽樣、構(gòu)造概率模型、隨機(jī)數(shù)產(chǎn)生、系統(tǒng)仿真計算、結(jié)果統(tǒng)計擬合等過程。云計算數(shù)據(jù)中心具有結(jié)構(gòu)復(fù)雜、設(shè)備種類繁多、數(shù)量大、故障模式多種多樣等特點,可利用可靠性框圖完成結(jié)構(gòu)建模,再采用蒙特卡洛模擬仿真完成可用度計算。
蒙特卡洛模擬仿真的基本分析步驟如下:
(1)通過分析云計算數(shù)據(jù)中心的構(gòu)成和功能層次等,建立功能結(jié)構(gòu)圖,確定故障判別標(biāo)準(zhǔn),建立可靠性框圖模型。
(2)輸入系統(tǒng)中單個部件的故障函數(shù)、MTBF等參數(shù),使用蒙特卡洛法對基本部件壽命隨機(jī)抽樣,取得n個基礎(chǔ)樣本,分別將這n個基本部件至于失效,找出系統(tǒng)的失效時間。進(jìn)行N次仿真后,可統(tǒng)計出系統(tǒng)N次失效時間。
(3)用區(qū)間統(tǒng)計方法進(jìn)行系統(tǒng)失效數(shù)的分布統(tǒng)計,得出系統(tǒng)失效時間在每個區(qū)間內(nèi)的失效數(shù)。
(4)通過蒙特卡洛仿真,可以計算出平均故障間隔時間MTBF和平均修復(fù)時間MTTR,從而可以得出系統(tǒng)的可用度。
使用同樣的方法,可以推導(dǎo)計算出MTTR,最后利用公式可以計算出系統(tǒng)可用度A。
結(jié)合圖1所示的云計算數(shù)據(jù)中心結(jié)構(gòu),某云計算數(shù)據(jù)中心組成見表1所示。該中心能夠提供虛擬機(jī)服務(wù)、存儲管理、業(yè)務(wù)訪問、業(yè)務(wù)監(jiān)控等功能,無法實現(xiàn)上述任一項功能視為系統(tǒng)故障。

圖2 虛擬化架構(gòu)子系統(tǒng)可靠性框圖模型

表1 某云計算數(shù)據(jù)中心的結(jié)構(gòu)
應(yīng)用仿真平臺軟件建立RBD分析模型。
(1)建立云計算數(shù)據(jù)中心總可靠性框圖,由五個子系統(tǒng)串聯(lián)組成。
(2)建立各子系統(tǒng)可靠性框圖
深入分析搭建各子系統(tǒng)可靠性框圖模型,部分子系統(tǒng)的可靠性框圖如圖2所示,其他子系統(tǒng)的可靠性框圖構(gòu)建方法類似。

表2 輸入?yún)?shù)表

表3 數(shù)據(jù)中心各子系統(tǒng)得仿真結(jié)果
結(jié)合云計算數(shù)據(jù)中心設(shè)備型號,通過調(diào)研生產(chǎn)單位及用戶應(yīng)用情況,得到10種設(shè)備的可靠性輸入?yún)?shù),具體如表2所示。
(1)模擬仿真
依據(jù)設(shè)備更新時間間隔和用戶對該數(shù)據(jù)中心的運行要求,設(shè)置數(shù)據(jù)中心仿真運行壽命為15年,系統(tǒng)仿真次數(shù)為100次。人員調(diào)集延誤時間1h,維修間隔期為720h,備品備件到達(dá)延遲時間為0.5h。
對數(shù)據(jù)中心壽命周期可用度仿真分析,結(jié)果如表3所示。
(2)結(jié)果分析
在系統(tǒng)運行的15年間,云計算數(shù)據(jù)中心共計停工239次、923.8h,平均故障間隔時間為733.1h(約30.55天、1個月)。服務(wù)子系統(tǒng)的故障率最高,主要是由于該子系統(tǒng)組成數(shù)量較多,且離用戶最近,操作次數(shù)較多。在虛擬化架構(gòu)、網(wǎng)絡(luò)通信系統(tǒng)、監(jiān)控及解析、供電子系統(tǒng)中,主要節(jié)點例如服務(wù)器、出口、供電均采取了冗余備份方式,且市電、通信線路本身故障率較低,故該四個子系統(tǒng)的故障率較低。
網(wǎng)絡(luò)通信子系統(tǒng)故障引起的修復(fù)時間最長,主要是由于光纖通信線路的中斷,需要找故障點,并進(jìn)行光纖熔接,這樣導(dǎo)致修復(fù)時間較長。由于虛擬化主機(jī)、存儲等均設(shè)有備品備件,因此修復(fù)時間最短。
基于上述的實驗仿真方法以及計算結(jié)果,可從以下四個方面提升云計算數(shù)據(jù)中心的可用度:
(1)重視機(jī)房巡檢工作,加強(qiáng)機(jī)房溫度、濕度等環(huán)境的監(jiān)控,為設(shè)備的運行提供良好的環(huán)境,從而減低設(shè)備故障的風(fēng)險;
(2)強(qiáng)化對機(jī)房設(shè)備的管理以及操作系統(tǒng)的維護(hù)。確保每天查看設(shè)備的硬件情況,保障設(shè)備硬件無故障,以月份為單位對數(shù)據(jù)中心的操作系統(tǒng)和應(yīng)用軟件進(jìn)行檢查,升級版本,提高軟件的可用率。
(3)提升設(shè)備的質(zhì)量,對于關(guān)鍵設(shè)備優(yōu)選可靠性高、壽命時間長的硬件設(shè)備,如服務(wù)器、存儲等;針對數(shù)據(jù)中心的核心設(shè)備采取必要的冗余熱備份措施,實現(xiàn)自動切換功能。
(4)規(guī)范備件管理。對于核心設(shè)備,采購配置足量的備品、備件以及零部件等,同時建設(shè)一套完備的備品備件管理系統(tǒng),當(dāng)有故障發(fā)生時,能夠快速更換有效的備品備件。
結(jié)束語:通過深入分析云計算數(shù)據(jù)中心的構(gòu)成要素以及功能結(jié)構(gòu),確定了中心的典型結(jié)構(gòu),利用可靠性框圖分析與蒙特卡洛模擬相結(jié)合的方法仿真分析中心的可用度,完成了某中心的實例仿真應(yīng)用,提出了改進(jìn)措施建議。實踐表明,該方法能夠為云計算數(shù)據(jù)中心的運維決策提供理論參考,為提高云計算數(shù)據(jù)中心的可用度提供依據(jù)。