◆郭 岳 彭祥禮 袁 慧 莊 嚴(yán)
電力應(yīng)用業(yè)務(wù)的網(wǎng)絡(luò)性能及故障分析
◆郭 岳 彭祥禮 袁 慧 莊 嚴(yán)
(國網(wǎng)湖北省電力有限公司信息通信公司 湖北 430070)
本文基于網(wǎng)絡(luò)探針收集鏈路流量的方法實(shí)現(xiàn)對電力應(yīng)用業(yè)務(wù)的一個(gè)軟件系統(tǒng)和電力應(yīng)用的業(yè)務(wù)路徑進(jìn)行分析和梳理,對服務(wù)路徑圖和應(yīng)用的性能指標(biāo)進(jìn)行監(jiān)控分析,并提供精細(xì)化、可視化的網(wǎng)絡(luò)性能分析視圖,從而實(shí)現(xiàn)快速判斷網(wǎng)絡(luò)故障,優(yōu)化網(wǎng)絡(luò)流量,提高網(wǎng)絡(luò)效率。
網(wǎng)絡(luò)性能;鏈路流量;網(wǎng)絡(luò)探針
隨著國網(wǎng)應(yīng)用業(yè)務(wù)的發(fā)展計(jì)劃,信通公司也完成了省一級的數(shù)據(jù)大集中。完成了營銷系統(tǒng)的省級歸口,也對PMIS,GIS等業(yè)務(wù)系統(tǒng)進(jìn)行了2.0版本的升級。新系統(tǒng)采用了行業(yè)主流的SOA架構(gòu),以服務(wù)為導(dǎo)向,各組件協(xié)同工作,松耦合結(jié)構(gòu),為日后的系統(tǒng)擴(kuò)容和升級提供了良好的基礎(chǔ),提升了系統(tǒng)的業(yè)務(wù)水平、業(yè)務(wù)能力和處理效率,但SOA的架構(gòu)也給運(yùn)維帶來了挑戰(zhàn)。
同時(shí),國網(wǎng)對省公司的一類和二類業(yè)務(wù)系統(tǒng)有著嚴(yán)格的考核指標(biāo)。通過國網(wǎng)統(tǒng)一部署的IMS3000對省公司的34個(gè)業(yè)務(wù)系統(tǒng)進(jìn)行實(shí)時(shí)的監(jiān)控(5分鐘一次的業(yè)務(wù)可用性監(jiān)控),一旦出現(xiàn)30分鐘的業(yè)務(wù)連續(xù)停止,自動計(jì)入考核。
為了更好的實(shí)現(xiàn)業(yè)務(wù)監(jiān)控,將運(yùn)維從被動變得主動。本文在原有傳輸設(shè)備、網(wǎng)絡(luò)設(shè)備、主機(jī)等設(shè)備監(jiān)控系統(tǒng)的基礎(chǔ)上,實(shí)現(xiàn)面向業(yè)務(wù)的網(wǎng)絡(luò)信息安全監(jiān)測與預(yù)警分析,通過應(yīng)用傳輸通道的最小單元監(jiān)控,進(jìn)一步分析網(wǎng)絡(luò)、系統(tǒng)及應(yīng)用的運(yùn)行情況。在出現(xiàn)故障時(shí),及時(shí)發(fā)現(xiàn)并告警,并定位故障節(jié)點(diǎn)與組件。
此方案利用采集和分析網(wǎng)絡(luò)數(shù)據(jù)包來實(shí)現(xiàn)對重要鏈路、關(guān)鍵設(shè)備和核心服務(wù)的監(jiān)控。如果要建立橫跨兩個(gè)數(shù)據(jù)中心的全面的監(jiān)控視圖,數(shù)據(jù)采集需要覆蓋到這兩個(gè)數(shù)據(jù)中心的重要鏈路、關(guān)鍵設(shè)備和核心服務(wù)。數(shù)據(jù)采集可通過交換機(jī)把數(shù)據(jù)鏡像(SPAN)分別送給位于兩個(gè)數(shù)據(jù)中心的流量管理設(shè)備,如圖1所示。

圖1 流量監(jiān)測數(shù)據(jù)接入平臺
從省公司網(wǎng)絡(luò)管理的實(shí)際需求出發(fā),在省公司數(shù)據(jù)中心統(tǒng)一部署網(wǎng)絡(luò)流量分析探針和統(tǒng)一分析服務(wù)器,實(shí)現(xiàn)省公司的一類和二類業(yè)務(wù)系統(tǒng)網(wǎng)絡(luò)性能的實(shí)時(shí)監(jiān)控。
為了更精準(zhǔn)獲取分析數(shù)據(jù),在業(yè)務(wù)系統(tǒng)服務(wù)器的接入層交換機(jī)上實(shí)現(xiàn)對應(yīng)相應(yīng)端口的流量鏡像。鏡像過來的流量可以引入到流量分析探針。
以PMIS為例,如圖2。

圖2 捕獲示意圖
以業(yè)務(wù)真實(shí)路徑為視圖基礎(chǔ),提供端到端的網(wǎng)絡(luò)安全測量與預(yù)警:
它們在動!猛然意識到了這一點(diǎn),他的汗毛都炸了起來,本能地向下一縮身子,四只節(jié)足彎曲蓄勢,另外兩只則高高揚(yáng)起,橫斜在身前,做好了隨時(shí)攻防的準(zhǔn)備。
①實(shí)現(xiàn)網(wǎng)狀化的服務(wù)路徑圖;
②實(shí)現(xiàn)實(shí)時(shí)分析比特率(Mbps)、連接數(shù)、響應(yīng)時(shí)間(ms)等網(wǎng)絡(luò)指標(biāo);
③實(shí)現(xiàn)即時(shí)告警,點(diǎn)擊告警條目可由告警關(guān)聯(lián)到視圖進(jìn)行深入分析。
2.4.1監(jiān)控自動化
①業(yè)務(wù)路徑自動發(fā)現(xiàn)
依托于真實(shí)網(wǎng)絡(luò)流量,實(shí)現(xiàn)應(yīng)用服務(wù)路徑的可視化,為IT部門提供準(zhǔn)確有效的應(yīng)用組件,交付設(shè)備之間的訪問依賴關(guān)系信息,并且可以被持續(xù)管理,為應(yīng)用項(xiàng)目的建設(shè)、監(jiān)控、排障、遷移提供可靠的信息實(shí)現(xiàn)。
②業(yè)務(wù)應(yīng)用自動發(fā)現(xiàn)
實(shí)現(xiàn)自動發(fā)現(xiàn)知名應(yīng)用,自動發(fā)現(xiàn)私有應(yīng)用及自定義應(yīng)用。應(yīng)用發(fā)現(xiàn)有兩種模式,分別是發(fā)現(xiàn)模式和列表模式。發(fā)現(xiàn)模式中,被管理流量中存在的知名應(yīng)用、私有應(yīng)用以柱狀圖的方式呈現(xiàn),并且可視化了流量的覆蓋率。
2.4.2故障診斷自動化
故障診斷模塊可以直接分析采集的數(shù)據(jù)資源,通過數(shù)據(jù)分析,提供故障診斷和定位信息。
①自動故障診斷與定位概覽
②自動故障診斷報(bào)告
診斷報(bào)告主要匯集各項(xiàng)診斷指標(biāo)結(jié)果,以及給出故障主要原因,如圖3。

圖3 自動故障診斷報(bào)告
2.4.3指標(biāo)統(tǒng)計(jì)分析及追蹤
實(shí)時(shí)統(tǒng)計(jì)網(wǎng)絡(luò)服務(wù)的指標(biāo)數(shù)據(jù),通過服務(wù)路徑圖導(dǎo)航,總體指標(biāo)分為:可用性、性能、負(fù)載量三大影響網(wǎng)絡(luò)服務(wù)質(zhì)量的關(guān)鍵因素,提供歷史數(shù)據(jù)的保存和查詢,把握網(wǎng)絡(luò)服務(wù)狀態(tài)。
(1)負(fù)載量統(tǒng)計(jì)
對于網(wǎng)絡(luò)服務(wù)負(fù)載量,主要統(tǒng)計(jì)指標(biāo)包括:總體流量、客戶端數(shù)量、并發(fā)連接數(shù)。其中,總體流量表征了當(dāng)前選擇的捕獲點(diǎn)或者主機(jī)為該網(wǎng)絡(luò)服務(wù)所產(chǎn)生的流量。
(2)可用性統(tǒng)計(jì)
網(wǎng)絡(luò)服務(wù)的可用性,主要體現(xiàn)在建立連接是否成功,連接通道是否正常運(yùn)行這兩方面。可用性統(tǒng)計(jì)指標(biāo)包括:TCP SYN、TCP FIN、TCP RESET三個(gè)基礎(chǔ)指標(biāo),以及建連失敗率統(tǒng)計(jì)。
(3)性能統(tǒng)計(jì)
性能指標(biāo)主要分析TCP連接通道的傳輸性能,直接關(guān)系到網(wǎng)絡(luò)服務(wù)快慢的評估,性能指標(biāo)包括:TCP零窗口事件、TCP重傳數(shù)量。
其中,TCP零窗口事件記錄了服務(wù)器、客戶端的TCP協(xié)議棧出現(xiàn)0窗口事件的次數(shù),若連續(xù)出現(xiàn)大量0窗口事件則表明系統(tǒng)資源不足導(dǎo)致性能下降。
2.4.4所見即所得報(bào)表
①實(shí)現(xiàn)生成周期報(bào)表和即時(shí)報(bào)表,以及進(jìn)行自動故障診斷的結(jié)果報(bào)告。
②周期報(bào)表按照一定周期自動產(chǎn)生,例如每天、每周和每月。內(nèi)置數(shù)種報(bào)告模板,包括容量規(guī)劃、服務(wù)性能等。
③即時(shí)報(bào)表可在操作鏈路視圖、設(shè)備視圖時(shí),隨時(shí)點(diǎn)擊“即時(shí)報(bào)表”直接生成PDF。
通過上述研究及實(shí)驗(yàn),達(dá)到下述目標(biāo):
(1)提高系統(tǒng)運(yùn)維能力及故障定位響應(yīng)能力,降低網(wǎng)絡(luò)問題導(dǎo)致的業(yè)務(wù)中斷時(shí)長;
(2)降低網(wǎng)絡(luò)故障分析的人力成本,有效降低由于故障分析所耗費(fèi)的大量人力資源、時(shí)間;
(3)建立了圍繞應(yīng)用的網(wǎng)絡(luò)性能監(jiān)控的視角,評估網(wǎng)絡(luò)對業(yè)務(wù)性能的影響,在發(fā)生故障時(shí),能在業(yè)務(wù)的視角分析問題;
(4)提供系統(tǒng)優(yōu)化的網(wǎng)絡(luò)性能指標(biāo)數(shù)據(jù),幫助優(yōu)化業(yè)務(wù)系統(tǒng)性能,提高業(yè)務(wù)運(yùn)維人員使用體驗(yàn)及滿意度。
[1]上海天旦公司.NPM產(chǎn)品技術(shù)白皮書[M],2014.
[2]上海天旦公司.NPM測試報(bào)告[M],2014.
[3]Mani Subramanian.網(wǎng)絡(luò)管理—原理與實(shí)踐[M].高等教育出版社,2002.
[4]Larry L.Peterson.計(jì)算機(jī)網(wǎng)絡(luò)(第二版)[M].機(jī)械工業(yè)出版社,2015.