□劉克武 李 亞 呂朋舉(河南省水利信息中心)
河南省水利業(yè)務(wù)系統(tǒng)容災(zāi)平臺高可用研究與應(yīng)用
□劉克武 李 亞 呂朋舉(河南省水利信息中心)
隨著信息技術(shù)的飛速發(fā)展,社會需求的刺激,河南省水利業(yè)務(wù)系統(tǒng)呈幾何增長,隨之水利業(yè)務(wù)應(yīng)用系統(tǒng)的穩(wěn)定性和高可用性就顯得日益重要,為有效地防止因本地網(wǎng)絡(luò)的中斷或業(yè)務(wù)系統(tǒng)的故障引起的數(shù)據(jù)丟失和服務(wù)不可用,研究和建設(shè)河南省水利業(yè)務(wù)系統(tǒng)容災(zāi)平臺高可用,實現(xiàn)若生產(chǎn)端服務(wù)器故障或宕機,應(yīng)用服務(wù)自動或手動切換到容災(zāi)端的服務(wù)器上,由其上對應(yīng)的應(yīng)用對外提供服務(wù),關(guān)鍵業(yè)務(wù)系統(tǒng)達到“RPO≈0,RTO<5m”的目標(biāo),保證河南省水利業(yè)務(wù)系統(tǒng)的連續(xù)性。
容災(zāi);高可用;水利業(yè)務(wù)系統(tǒng)
容災(zāi)技術(shù)是現(xiàn)在信息化建設(shè)的重要組成部分,是防范災(zāi)難、降低損失、提高業(yè)務(wù)持續(xù)性的重要手段,是提升服務(wù)質(zhì)量、承擔(dān)社會責(zé)任的重要保障,目前已廣泛應(yīng)用于各行各業(yè)。
河南省水利信息化建設(shè)起步比較早,從20世紀(jì)70年代開始,隨著社會的發(fā)展和互聯(lián)網(wǎng)技術(shù)水平的提高,一方面水利系統(tǒng)業(yè)務(wù)的不斷擴展,刺激了水利業(yè)務(wù)系統(tǒng)突飛猛進的增長,另一方面隨著水利業(yè)務(wù)系統(tǒng)的推廣、使用以及無紙化辦公的要求,現(xiàn)在的工作已依賴于網(wǎng)上辦公,網(wǎng)絡(luò)的中斷或業(yè)務(wù)系統(tǒng)的故障都會嚴(yán)重影響日常工作的正常完成,同時也會對社會和公眾造成嚴(yán)重的影響。如何有效地規(guī)避故障風(fēng)險,如何提高水利系統(tǒng)業(yè)務(wù)連續(xù)性的接管能力,降低或減少網(wǎng)絡(luò)、業(yè)務(wù)系統(tǒng)中斷產(chǎn)生的影響,保證其安全穩(wěn)定的運行,已經(jīng)成為河南省水利信息化應(yīng)用管理的當(dāng)務(wù)之急。
在網(wǎng)絡(luò)層,河南省水利廳信息網(wǎng)絡(luò)建設(shè)了省水利廳至18個省轄市水利(務(wù))局、10個省直管縣(市)水利(務(wù))局、12座大型水庫、26個廳屬單位及124個縣(市、區(qū))水利部門的計算機網(wǎng)絡(luò)系統(tǒng),實現(xiàn)省、市、縣三級計算機網(wǎng)絡(luò)系統(tǒng)的互聯(lián)互通,并與水利部、濟南軍區(qū)、河南省委、省政府、省氣象局、省國土資源廳等相聯(lián),但帶寬非常有限。
在業(yè)務(wù)應(yīng)用層,河南省水利業(yè)務(wù)系統(tǒng)從2010年開始建設(shè),現(xiàn)已完成河南省水利廳門戶網(wǎng)站、水利綜合辦公系統(tǒng)、網(wǎng)上行政審批系統(tǒng)、水利電子郵件系統(tǒng)等水利電子政務(wù)系統(tǒng),以及防汛抗旱決策指揮系統(tǒng)、山洪災(zāi)害系統(tǒng)、水資源管理系統(tǒng),水利普查系統(tǒng)等重要業(yè)務(wù)系統(tǒng),承載著河南省、市、縣三級水利機構(gòu)的日常辦公、山洪預(yù)警、水文監(jiān)控、水資源監(jiān)測等工作,為越來越多的河南省水利業(yè)務(wù)提供基礎(chǔ)支撐。這其中的業(yè)務(wù)系統(tǒng)大多數(shù)都是涉及全省范圍的業(yè)務(wù),但卻都是在單機上運行,如果出現(xiàn)業(yè)務(wù)系統(tǒng)服務(wù)器硬件或服務(wù)故障,都會等待服務(wù)器配件到貨或從網(wǎng)絡(luò)層逐節(jié)點查找原因,甚至?xí)匦麓罱ǚ?wù)器環(huán)境、重新配置程序,這時間就不是半天、一天能恢復(fù)正常運行的。
為提高業(yè)務(wù)系統(tǒng)的服務(wù)質(zhì)量、減少業(yè)務(wù)系統(tǒng)中斷時間,梳理河南省水利業(yè)務(wù)系統(tǒng)的實際情況,按照容災(zāi)的等級要求,河南省水利業(yè)務(wù)系統(tǒng)容災(zāi)平臺高可用的需求如下:第一,生產(chǎn)端服務(wù)器發(fā)生故障時,容災(zāi)端服務(wù)器按容災(zāi)等級通過自動/手動方式實現(xiàn)一個或多個應(yīng)用的接管,關(guān)鍵業(yè)務(wù)系統(tǒng)做到自動的應(yīng)用接管。第二,容災(zāi)備份的一致性校驗。第三,生產(chǎn)端及容災(zāi)端網(wǎng)絡(luò)的最低帶寬的快速傳輸。
容災(zāi)的等級標(biāo)準(zhǔn)是按恢復(fù)點目標(biāo)RPO、恢復(fù)時間目標(biāo)RTO兩個指標(biāo)來劃分。RTO是針對服務(wù)丟失,從業(yè)務(wù)系統(tǒng)故障開始,到業(yè)務(wù)系統(tǒng)恢復(fù)正常之間的時間段。RPO是針對數(shù)據(jù)丟失,指業(yè)務(wù)系統(tǒng)和應(yīng)用數(shù)據(jù)恢復(fù)正常后,系統(tǒng)及生產(chǎn)數(shù)據(jù)能恢復(fù)到過去的哪個時間點。
河南省水利業(yè)務(wù)系統(tǒng)容災(zāi)平臺高可用能在現(xiàn)帶寬網(wǎng)絡(luò)環(huán)境下快速地容災(zāi)數(shù)據(jù)復(fù)制與傳輸、跨多網(wǎng)段應(yīng)用接管,實現(xiàn)對業(yè)務(wù)系統(tǒng)的按需切換。
根據(jù)河南省水利廳的實際業(yè)務(wù)系統(tǒng)環(huán)境,業(yè)務(wù)重要性和部署方式不同,分級對現(xiàn)有業(yè)務(wù)進行設(shè)計。其核心業(yè)務(wù)系統(tǒng)的應(yīng)用與數(shù)據(jù)十分重要,RPO和RTO要求級別較高,不僅要保證數(shù)據(jù)不丟失,而且在發(fā)生故障時,也需要快速地接管應(yīng)用,保障業(yè)務(wù)系統(tǒng)連續(xù)性,因此要求RPO≈0、RTO<5m;對于一般的業(yè)務(wù)系統(tǒng),不涉及下面市、縣,數(shù)據(jù)變化頻率不高,而且是在內(nèi)網(wǎng)運行的,要求RPO≈0、RTO<120m。
分析國內(nèi)外高可用容災(zāi)技術(shù)實現(xiàn),經(jīng)過詳細的探討研究,現(xiàn)河南省水利系統(tǒng)業(yè)務(wù)部署在不同的網(wǎng)段內(nèi),為實現(xiàn)高可用,容災(zāi)平臺通過對生產(chǎn)端服務(wù)器業(yè)務(wù)應(yīng)用、服務(wù)器等資源的狀態(tài)進行實時監(jiān)控,在發(fā)現(xiàn)業(yè)務(wù)應(yīng)用突然異常停止(如業(yè)務(wù)應(yīng)用異常退出、服務(wù)器斷電、硬件故障等)、或者達到需要切換的條件時(如生產(chǎn)端服務(wù)器資源即將耗盡、軟硬件升級等),通過負載均衡設(shè)備自動或者手工將應(yīng)用切換到容災(zāi)端服務(wù)器上,實現(xiàn)業(yè)務(wù)多種模式的加密高效率地傳輸、跨網(wǎng)段的業(yè)務(wù)系統(tǒng)雙活。如圖1所示。

圖1 河南省水利業(yè)務(wù)系統(tǒng)容災(zāi)平臺高可用總體架構(gòu)圖
2.3.1 窄帶寬網(wǎng)絡(luò)環(huán)境下容災(zāi)數(shù)據(jù)快速復(fù)制與傳輸技術(shù)
數(shù)據(jù)復(fù)制與傳輸技術(shù)是容災(zāi)方案設(shè)計中最基本也是最為核心的技術(shù)。傳統(tǒng)的數(shù)據(jù)容災(zāi)和備份技術(shù),是對生產(chǎn)端文件系統(tǒng)的關(guān)鍵數(shù)據(jù),進行定期的完全或增量備份,并使用去重技術(shù)減少對存儲空間的耗費,它存在著為了保證數(shù)據(jù)一致性,需要對生產(chǎn)端設(shè)備相關(guān)狀態(tài)進行暫時凍結(jié)或進行快照,然后再進行定期的完全或增量備份,無法在用戶使用過程中實時捕獲增量修改,不能保證數(shù)據(jù)的同步;另一方面需要考慮使用額外的數(shù)據(jù)來滿足去重技術(shù),增加了系統(tǒng)資源和處理開銷。因此備份的時間粒度和系統(tǒng)開銷需求都不能滿足實際。經(jīng)過多方的溝通、測試,容災(zāi)數(shù)據(jù)復(fù)制與傳輸功能最終選擇基于字節(jié)級的復(fù)制技術(shù)及數(shù)據(jù)序列化傳輸技術(shù)。一方面它可以通過旁路式監(jiān)聽源端的數(shù)據(jù)變化,以最小字節(jié)級增量數(shù)據(jù)捕捉方式,將生產(chǎn)端字節(jié)級的數(shù)據(jù)變化量實時的容災(zāi)復(fù)制,不需對生產(chǎn)端設(shè)備相關(guān)狀態(tài)進行暫時凍結(jié)或進行快照。另一方面字節(jié)級的復(fù)制技術(shù)對生產(chǎn)端服務(wù)器計算資源占用可以忽略。僅僅是旁路捕獲數(shù)據(jù),通過旁路式截獲生產(chǎn)系統(tǒng)的數(shù)據(jù)變化,所有的數(shù)據(jù)都是從內(nèi)存中獲得,處理和復(fù)制正在使用的文件與目錄時,無需要求關(guān)閉該文件,相關(guān)的應(yīng)用仍然保持在線和活躍運行狀態(tài),不會對您的工作有任何負面影響,因此數(shù)據(jù)復(fù)制過程不占用主機的IO資源。第三方面基于字節(jié)級的數(shù)據(jù)復(fù)制粒度最小到字節(jié),數(shù)據(jù)保護和恢復(fù)粒度可以做到毫秒級,因此對于帶寬資源的要求也是極低的。綜上容災(zāi)數(shù)據(jù)的快速復(fù)制、傳輸,在不影響現(xiàn)有生產(chǎn)端應(yīng)用的前提下,保證了信息在整個過程中的安全及完整性。
2.3.2 基于負載均衡的業(yè)務(wù)應(yīng)用無縫切換技術(shù)
分析國內(nèi)外跨網(wǎng)段容災(zāi)技術(shù),目前有3種技術(shù)方式:一是基于網(wǎng)絡(luò)虛擬化技術(shù)。通過使用MAC地址路由規(guī)則,打通生產(chǎn)端與容災(zāi)端的二層通信,實現(xiàn)IP地址跨數(shù)據(jù)中心的遷移,從而有效滿足了生產(chǎn)端與容災(zāi)端資源調(diào)度和虛機遷移的要求,但是網(wǎng)絡(luò)虛擬化技術(shù)對硬件要求較高,投資成本較高,對當(dāng)前網(wǎng)絡(luò)環(huán)境及設(shè)置改動較大,不符合實際建設(shè)需求。二是基于VPN技術(shù)。利用VPN技術(shù)使主機集群二層可達,缺點是維護復(fù)雜,系統(tǒng)節(jié)點較多的情況下維護更復(fù)雜,不支持H.232視頻協(xié)議等,經(jīng)過詳細調(diào)查研究,放棄此解決方案。三是基于負載均衡技術(shù)。采用負載均衡技術(shù),旁路接入對當(dāng)前網(wǎng)絡(luò)環(huán)境沒有任何改變,利用負載監(jiān)控業(yè)務(wù)端口或靜態(tài)頁,當(dāng)生產(chǎn)端應(yīng)用異常或出現(xiàn)各種異常(如服務(wù)異常停止、網(wǎng)絡(luò)異常、硬件故障、生產(chǎn)應(yīng)用宕機維護)而導(dǎo)致應(yīng)用不可用時,將相關(guān)的應(yīng)用立刻切換到容災(zāi)端服務(wù)器上,由容災(zāi)端服務(wù)器上的應(yīng)用來提供服務(wù),實現(xiàn)業(yè)務(wù)系統(tǒng)的無縫切換。根據(jù)河南省水利廳網(wǎng)段較多、網(wǎng)絡(luò)復(fù)雜及安全性的要求,經(jīng)過詳細的研究與測試,關(guān)鍵業(yè)務(wù)系統(tǒng)最終采用負載均衡來實現(xiàn)業(yè)務(wù)的雙活。
2.3.3 信息一致性技術(shù)
文件系統(tǒng)的I/O操作是序列化的,這些操作日志必須保持它原有的操作次序,如數(shù)據(jù)庫文件,在I/O操作被截獲時為每個操作日志進行序列化排序,要求對數(shù)據(jù)的截獲、傳輸、存儲嚴(yán)格的按源序處理,容災(zāi)端收到I/O操作日志后對個別亂序通過日志記錄中的數(shù)字序號重新將I/O操作序列化,與生產(chǎn)端序列嚴(yán)格一致后再提交到容災(zāi)端寫入,從而保證兩端信息的一致性。
根據(jù)河南省水利信息化業(yè)務(wù)系統(tǒng)現(xiàn)狀和特點,經(jīng)過針對性研究,利用最新容災(zāi)技術(shù),采用最經(jīng)濟的手段建設(shè)一套復(fù)雜網(wǎng)絡(luò)下業(yè)務(wù)應(yīng)用高可用的容災(zāi)平臺,為河南省水利信息化業(yè)務(wù)系統(tǒng)提供完善安全的容災(zāi)體系。
從長遠看,業(yè)務(wù)高可用的價值并非僅僅是業(yè)務(wù)系統(tǒng)應(yīng)對災(zāi)難、提高生存能力的工具,而是已經(jīng)成為提升政府服務(wù)質(zhì)量、承擔(dān)社會責(zé)任的重要保障;是水利系統(tǒng)提高政府辦事效率和透明度,減少行政環(huán)節(jié),節(jié)約行政成本,適應(yīng)需求變化的重要基礎(chǔ)。
[1]馬獻章.數(shù)據(jù)庫云平臺理論與實踐[M].北京∶清華大學(xué)出版社,2016(1).
[2]武春嶺.數(shù)據(jù)存儲與容災(zāi)[M].北京∶高等教育出版社,2015(1).
[3]肖良華.從災(zāi)備到雙活[J].金融電子化,2013(11)∶55-56.
[4]詹浩,李陽,郗新江.大型數(shù)據(jù)中心“雙活”應(yīng)用探析[J].金融電子化,2013(8)∶69-70.
[5]韓兆云.綜合業(yè)務(wù)異地災(zāi)備系統(tǒng)三層異構(gòu)云服務(wù)平臺[J].金融電子化,2014(9):70-72.
TP311.5
A
1673-8853(2017)09-0092-02
2017-6-16
編輯:劉 青