鄭海勇
本文以省級(jí)單位數(shù)據(jù)中心建設(shè)云計(jì)算基礎(chǔ)設(shè)施平臺(tái)的探索實(shí)踐為例,探討云計(jì)算基礎(chǔ)設(shè)施平臺(tái)的建設(shè)思路,以期探索出一條特色的節(jié)能高效硬件管理現(xiàn)代化之路,為落實(shí)“互聯(lián)網(wǎng)+”行動(dòng)及大數(shù)據(jù)應(yīng)用提供重要基礎(chǔ)保障。
一、平臺(tái)搭建背景
隨著經(jīng)濟(jì)的發(fā)展,現(xiàn)代數(shù)據(jù)中心規(guī)模不斷擴(kuò)大,數(shù)據(jù)量隨之急速增長,計(jì)算存儲(chǔ)設(shè)備數(shù)量與規(guī)模呈幾何級(jí)別的增長,數(shù)據(jù)中心的維護(hù)與管理開始出現(xiàn)以下問題:
1.1服務(wù)器增長對(duì)機(jī)房容量消耗快
短短幾年間,服務(wù)器由原來的幾十臺(tái)迅速增長到了幾百臺(tái),呈現(xiàn)出幾何級(jí)的增長速度,其他外設(shè)、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備也快速增長,對(duì)機(jī)房空間和電力的消耗非常大。
1.2服務(wù)器部署管理難度大
應(yīng)用系統(tǒng)往往要求在極短的時(shí)間內(nèi)甚至需求當(dāng)天完成計(jì)算機(jī)環(huán)境準(zhǔn)備和部署,對(duì)服務(wù)器資源調(diào)撥提出了極高的管理要求,操作系統(tǒng)、軟件、應(yīng)用、配置的重復(fù)安裝浪費(fèi)了大量時(shí)間精力,使日常維護(hù)變得更為復(fù)雜繁瑣。
1.3服務(wù)器資源利用率低
據(jù)統(tǒng)計(jì),目前數(shù)據(jù)中心小型機(jī)的利用率一般在10%到20%,服務(wù)器普遍低于3%。即便是在每月、每年的業(yè)務(wù)高峰期、高峰時(shí)段,業(yè)務(wù)的壓力主要在數(shù)據(jù)庫、小型機(jī),而前端應(yīng)用服務(wù)器CPU利用率一般也不高于10%,造成原本就不充足的服務(wù)器資源大量浪費(fèi)虛置。
1.4硬件故障恢復(fù)時(shí)間長
目前大部分?jǐn)?shù)據(jù)中心除了采取雙機(jī)熱備的少部分服務(wù)器和小型機(jī)外,設(shè)備一旦有任何硬件故障,都必須停機(jī)檢查、更換零件,耗費(fèi)的時(shí)間少則半個(gè)小時(shí),多則一兩天,直接影響到應(yīng)用系統(tǒng)的可持續(xù)服務(wù)。
二、平臺(tái)搭建與管理的具體實(shí)踐
經(jīng)過前期的摸索和測(cè)試,通過采取新、老結(jié)合的方式,對(duì)傳統(tǒng)基礎(chǔ)設(shè)施體系進(jìn)行改造,積極探索搭建云計(jì)算基礎(chǔ)設(shè)施平臺(tái),推動(dòng)高效率、低能耗的綠色數(shù)據(jù)中心建設(shè)。
2.1前期調(diào)研籌備
在這個(gè)階段主要明確三點(diǎn):平臺(tái)能做什么、需要做什么、該怎么建設(shè)。經(jīng)過充分調(diào)研,確定了云計(jì)算基礎(chǔ)設(shè)施平臺(tái)的架構(gòu)圖,如圖1所示,并決定先搭建底層的虛擬化平臺(tái),為云計(jì)算基礎(chǔ)設(shè)施平臺(tái)奠定重要基礎(chǔ)。
2.2虛擬化平臺(tái)的搭建
虛擬化平臺(tái)按功能定位,細(xì)分為“測(cè)試應(yīng)用集群”“核心內(nèi)網(wǎng)應(yīng)用集群…‘核心外網(wǎng)應(yīng)用集群”,每個(gè)集群(cluster)由若干臺(tái)物理服務(wù)器組成。如圖2所示:
2.3虛擬化平臺(tái)的使用與管理
1.虛擬化平臺(tái)的使用。虛擬化平臺(tái)投入使用后,第一步是對(duì)舊平臺(tái)資源進(jìn)行整合,淘汰老舊物理主機(jī),將較重要的應(yīng)用系統(tǒng)遷入到核心內(nèi)網(wǎng)集群中,保障其性能與穩(wěn)定性。第二步則從兩方面著手,一方面根據(jù)新應(yīng)用系統(tǒng)的上線需求,將符合“準(zhǔn)入標(biāo)準(zhǔn)”的新應(yīng)用系統(tǒng)部署到虛擬化平臺(tái)中,另一方面對(duì)年代久遠(yuǎn)、不能下線又無法重新部署的舊應(yīng)用系統(tǒng)進(jìn)行虛擬化遷移,下架故障率高的舊物理服務(wù)器,降低對(duì)機(jī)房的資源消耗和空間占用。2.虛擬化平臺(tái)的管理。當(dāng)前采取的管理措施包括:一是虛擬機(jī)管理。登記每臺(tái)虛擬機(jī)的資源配置、運(yùn)載應(yīng)用系統(tǒng)、使用部門和使用人等資料,并及時(shí)升級(jí)操作系統(tǒng)的虛擬機(jī)模板,安裝漏洞補(bǔ)丁。二是硬件資源管理。跟蹤分析現(xiàn)有硬件資源消耗情況,提前增加硬件資源,并對(duì)物理服務(wù)器進(jìn)行定期巡檢、修復(fù)故障。此外,監(jiān)控虛擬機(jī)資源實(shí)際使用情況并動(dòng)態(tài)調(diào)整每臺(tái)虛擬機(jī)的資源配置,提高資源使用效率。三是制度流程管理。建立虛擬化平臺(tái)巡檢制度、虛擬機(jī)增刪改流程、故障應(yīng)急處理流程、性能監(jiān)控分析報(bào)告制度,使虛擬化工作管理有據(jù)可依。
2.4虛擬化平臺(tái)成效初步凸顯
1.提高資源利用率,省電省錢省空間。目前物理服務(wù)器與虛擬機(jī)達(dá)到1:10的使用比例,即平均每臺(tái)物理服務(wù)器上能運(yùn)行10個(gè)應(yīng)用系統(tǒng),直接節(jié)約物理服務(wù)器資源達(dá)90%,服務(wù)器數(shù)量的大幅減少,一方面節(jié)約了大量的服務(wù)器購置費(fèi)用,另一方面有效降低了電耗和機(jī)房空間占有率。以100臺(tái)服務(wù)器的數(shù)據(jù)中心為例,使用云平臺(tái)后可節(jié)約39%的電力,節(jié)省約203平方米的空間。隨著虛擬化和云計(jì)算技術(shù)的進(jìn)一步推廣使用,經(jīng)費(fèi)、電力和空間的節(jié)省效果將會(huì)更加明顯,利于推進(jìn)節(jié)能省電綠色可持續(xù)發(fā)展。
2.提高系統(tǒng)可用性,稅收業(yè)務(wù)不間斷。除了完善的VDP數(shù)據(jù)備份保護(hù)外,平臺(tái)還實(shí)現(xiàn)了對(duì)應(yīng)用系統(tǒng)的HA故障保護(hù)。經(jīng)上百次的測(cè)試結(jié)果表明,故障服務(wù)器上的虛擬機(jī)能全部自動(dòng)轉(zhuǎn)移到正常的服務(wù)器上,以保證應(yīng)用系統(tǒng)不間斷。目前未出現(xiàn)因物理服務(wù)器故障而導(dǎo)致虛擬機(jī)服務(wù)中斷的情況。
3.資源優(yōu)化再配置,系統(tǒng)提速又增效。據(jù)監(jiān)測(cè)數(shù)據(jù)分析,調(diào)整后,以100臺(tái)虛擬機(jī)為例,可節(jié)約了18%的資源,物理服務(wù)器有效利用率從原來的61%提高到73%以上,各應(yīng)用系統(tǒng)的運(yùn)行效率也有了明顯提高。
4.延長軟件生命期,應(yīng)用安全更穩(wěn)定。利用虛擬機(jī)的熱遷移功能,將已使用較久、應(yīng)用系統(tǒng)暫時(shí)又無法下線的舊服務(wù)器進(jìn)行完整克隆、生成虛擬機(jī),大大提高了信息應(yīng)用的安全性和穩(wěn)定性。
三、深化虛擬化和云計(jì)算應(yīng)用探索的思考
1、完善優(yōu)化“集群化”的構(gòu)成模式。基于虛擬化平臺(tái)每個(gè)集群內(nèi)的物理服務(wù)器型號(hào)配置相同,因此若配置不同時(shí),可能導(dǎo)致大型虛擬機(jī)占用的資源可能是小型虛擬機(jī)的數(shù)倍,導(dǎo)致小型虛擬機(jī)的請(qǐng)求無法實(shí)時(shí)響應(yīng)的情況,造成“性能下降”的假象。此外,越是多路多核的CPU、空間越大的內(nèi)存,尋址時(shí)間偏長,影響小型虛擬機(jī),并隨著虛擬機(jī)數(shù)量增加,矛盾隨之加劇。為此,需要進(jìn)一步合理優(yōu)化硬件資源,提高虛擬機(jī)實(shí)際性能。
2、合理部署“一對(duì)多”的業(yè)務(wù)模式。在設(shè)計(jì)虛擬化平臺(tái)時(shí),必須考慮性能優(yōu)化的問題,具體又分為兩種情況:功能相同性,即是幾個(gè)應(yīng)用終端虛擬機(jī)的功能是相同的,就必須盡量將它們分散到不同的物理服務(wù)器上,分散風(fēng)險(xiǎn),避免相互搶占資源。另一種情況是,功能連續(xù)性,即同一個(gè)業(yè)務(wù)系統(tǒng)的幾個(gè)應(yīng)用終端相互之間要頻繁交流數(shù)據(jù),應(yīng)將它們都放到一個(gè)物理服務(wù)器上,避免占用物理網(wǎng)絡(luò)資源,提高數(shù)據(jù)交換效率。為此,在大型應(yīng)用系統(tǒng)上線之前,系統(tǒng)管理員要加強(qiáng)對(duì)應(yīng)用的了解,合理部署終端虛擬機(jī),提高系統(tǒng)性能。
3、深入挖掘“可還原”的備份模式。基于虛擬機(jī)的熱遷移技術(shù)(VMotion)、HA技術(shù)、VDP備份技術(shù)、克隆和快照、Replication技術(shù)的技術(shù)缺陷,在未來需通過反復(fù)細(xì)致的研究和試驗(yàn),綜合運(yùn)用虛擬化平臺(tái)的各種還原功能,使特殊應(yīng)用系統(tǒng)的故障還原時(shí)間、數(shù)據(jù)丟失風(fēng)險(xiǎn)與資源占用達(dá)到最佳平衡點(diǎn)。
4、搭建應(yīng)用“虛擬化”的開發(fā)環(huán)境。在未來逐步搭建起一個(gè)“虛擬化開發(fā)環(huán)境”平臺(tái),安裝開發(fā)人員需要使用的所有開發(fā)工具,使應(yīng)用系統(tǒng)從開發(fā)起就在虛擬化的環(huán)境中進(jìn)行,降低應(yīng)用系統(tǒng)在虛擬機(jī)環(huán)境中出錯(cuò)的概率。
5、打造全新“云計(jì)算”的基礎(chǔ)環(huán)境。繼續(xù)深入探索存儲(chǔ)虛擬化、網(wǎng)絡(luò)虛擬化、物理設(shè)備與虛擬設(shè)備互融組合、計(jì)算資源規(guī)模化部署等,積極利用先進(jìn)技術(shù),對(duì)傳統(tǒng)IT基礎(chǔ)環(huán)境進(jìn)行完善,為大數(shù)據(jù)時(shí)代創(chuàng)造一套基礎(chǔ)設(shè)備資源優(yōu)化、互融、規(guī)模化部署管理的新模式,以技術(shù)革新開創(chuàng)“互聯(lián)網(wǎng)+”行動(dòng)的新局面。