王 寧 劉伯宇
(國網(wǎng)河南省電力公司信息通訊公司 河南 450000)
“關鍵復雜應用不具備高性能和高可用性將直接給業(yè)務生產(chǎn)力,業(yè)務收入和IT效率造成負面影響。”—Forrester 咨詢機構時至今日,各個企業(yè) IT建設的規(guī)模與復雜度與日俱增,IT應用模式日新月異,基礎架構及應用模式的革命性變化給IT管理帶來了巨大的挑戰(zhàn),IT運維管理不僅要對傳統(tǒng)基礎資源的運行狀況負責,更要對承載于其上的應用、業(yè)務運行的性能與質量負責。應用性能管理(APM),已經(jīng)逐漸成為各個企業(yè) IT運維管理的重要研究課題。
隨著信息化程度的不斷深化,河南省電力公司的網(wǎng)絡設備、服務器、軟件應用系統(tǒng)越來越多。而且由于信息系統(tǒng)越來越復雜,軟件、硬件、網(wǎng)絡彼此之間的關聯(lián)關系日益變得錯綜復雜,這讓運維管理面臨前所未有的挑戰(zhàn)。而在現(xiàn)有的技術條件下,針對終端用戶反映的網(wǎng)絡中斷、系統(tǒng)響應緩慢、系統(tǒng)宕機等問題很多時候無從定位問題根源。出現(xiàn)這類現(xiàn)象的原因很多:
(1)應用系統(tǒng)變得越來越復雜。往往一個應用系統(tǒng)會涉及網(wǎng)絡設備、安全設備、負載均衡、WEB中間件、應用中間件、數(shù)據(jù)庫等許多設備,任何一點出現(xiàn)異常均會影響到應用服務。
(2)性能問題往往不會產(chǎn)生應用和系統(tǒng)報錯,使得運維人員無從查起;
(3)性能問題發(fā)生具有不規(guī)律性,可能問題出現(xiàn)一段時間后自動消失,當管理員開始問題分析時,故障現(xiàn)象已不存在,這樣就提高了問題分析難度。
針對這些情況,傳統(tǒng)的網(wǎng)元分析技術只針對某單一網(wǎng)絡元素進行分析,已經(jīng)無法處理這類具有復雜關聯(lián)性的問題,因為整套系統(tǒng)或整個系統(tǒng)群的性能問題和故障不是某單一網(wǎng)元造成的。為了解決這類問題,只有通過關聯(lián)分析,將影響用戶訪問體驗的各個元素的當前狀態(tài)告知運維管理人員,才能直接定位應用訪問性能低下的問題根源,實現(xiàn)復雜問題分簡單化。
本課題的研究實踐過程采用了需求調研、專家訪談、理論分析和測試驗證、歸納總結等研究方法。
(1)需求調研:結合現(xiàn)有網(wǎng)絡運維和變更經(jīng)驗,制定相應的業(yè)務系統(tǒng)需求調研模板,與應用部門進行溝通,形成需求調研報告,并整理出業(yè)務系統(tǒng)資源,編制業(yè)務流手冊;
(2)專家訪談:對于業(yè)務性能告警與新網(wǎng)管平臺的整合與集成,需要同網(wǎng)管平臺專家進行充分溝通,并討論行之有效的規(guī)則文件和告警映射關系;
(3)理論分析:對現(xiàn)有TCP/IP協(xié)議、HTTP協(xié)議原理和機制進行研究,對流量監(jiān)控工具統(tǒng)計的各項性能指標進行研究與分析,綜合相關研究結果明確監(jiān)控指標和接口消息;
(4)測試驗證:根據(jù)需求、訪談結果、理論分析結果,在監(jiān)控平臺上進行相應的業(yè)務監(jiān)控定義和業(yè)務視圖的定制,對于實際監(jiān)控結果,通過抓包分析驗證需求和理論的準確性和全面性。
(5)歸納總結:對全行業(yè)務系統(tǒng)進行分析,采用歸納總結的方法,對業(yè)務和業(yè)務系統(tǒng)按照其訪問特性進行分類,定制相應的監(jiān)控模型。
2.2.1 系統(tǒng)設計原則
應用性能管理系統(tǒng)總體設計原則需要滿足未來的發(fā)展需要,既要安全可靠,不影響現(xiàn)有的網(wǎng)絡和業(yè)務,又要具有一定的先進性---選取在設計理念和技術實現(xiàn)上具有長期延續(xù)性,代表行業(yè)趨勢的產(chǎn)品,在技術上既能覆蓋面向應用的網(wǎng)絡運維需求,又能在運維流程中各個層面提供有效支持和呈現(xiàn),并且隨著網(wǎng)絡運維管理水平的提升和深入,具備一定的模塊擴展能力,滿足未來網(wǎng)絡運維發(fā)展需要。
2.2.2 功能結構設計
根據(jù)河南電力網(wǎng)絡及應用性能可視化的需求,結合河南電力現(xiàn)有網(wǎng)管系統(tǒng),以網(wǎng)絡和應用性能監(jiān)控分析平臺為核心,利用網(wǎng)絡鏡像數(shù)據(jù)包對網(wǎng)絡和關鍵業(yè)務的性能進行實時監(jiān)控與分析。通過先進的智能告警技術,將告警信息發(fā)送給網(wǎng)管平臺進行統(tǒng)一的管理和展現(xiàn)。網(wǎng)絡運維人員,利用監(jiān)控與分析平臺對出現(xiàn)的故障進行快速的分析和定位。

圖1 功能結構圖
本次網(wǎng)絡及應用性能系統(tǒng)主要部署系統(tǒng)響應分析組件、事務分析組件、應用拓撲自動分析組件以及系統(tǒng)展示平臺,實施環(huán)境如表1所示:

表1 APM系統(tǒng)環(huán)境
經(jīng)過7個多月的實踐研究、反復摸索、不斷分析驗證,在河南省電力公司初步搭建了一個完整的、統(tǒng)一的、系統(tǒng)的、靈活的網(wǎng)絡及應用性能可視化監(jiān)控平臺,建立了一套完整、便捷的業(yè)務可視化監(jiān)控流程和規(guī)范,并建立了快速故障處理流程,提高了業(yè)務故障處理速度,減少了故障影響的時間和范圍。
(1)搭建了統(tǒng)一的可視化監(jiān)控平臺
通過在基礎網(wǎng)絡環(huán)境中進行流量鏡像設備和網(wǎng)絡流量監(jiān)控探針的全面部署、關鍵業(yè)務系統(tǒng)的準確定義、可視化視圖的精細化定制以及告警的定制與集成,在河南全省范圍內搭建了一套全面、統(tǒng)一、靈活、可擴展的網(wǎng)絡及應用性能可視化監(jiān)控平臺。

圖2 可視化流量平臺
(2)實現(xiàn)了對全行網(wǎng)絡流量的全面精細化監(jiān)控
網(wǎng)絡及應用性能可視化平臺從4個層面(業(yè)務組、應用、IP地址、Netflow接口)對網(wǎng)絡流量進行監(jiān)控,使得河南電力對網(wǎng)絡流量的監(jiān)控與統(tǒng)計更加全面、精細和清晰,為未來的容量規(guī)劃、帶寬擴容提供了真實、可靠的統(tǒng)計數(shù)據(jù)。
(3)實現(xiàn)了基于業(yè)務性能的多維度可視化監(jiān)控
通過在監(jiān)控分析平臺上,對關鍵業(yè)務、主要的業(yè)務組(IP地址集合,可以將某個區(qū)域、某個分行、某個部門或者某些應用服務器APP組的IP地址段定義為一個業(yè)務組,用來綜合考察業(yè)務組間的業(yè)務訪問關系)進行定義以及關鍵業(yè)務監(jiān)控視圖的定制,實現(xiàn)了基于業(yè)務系統(tǒng)的多維度(網(wǎng)絡流量、網(wǎng)絡性能、應用性能)可視化實時監(jiān)控。

圖3 多維度性能可視化監(jiān)控
(4)實現(xiàn)了基于最終用戶體驗的服務水平監(jiān)控
網(wǎng)絡及應用性能可視化監(jiān)控平臺,從最終用戶體驗出發(fā),建立了基于區(qū)域、分支機構等訪問行內關鍵業(yè)務的服務等級水平SLA監(jiān)控。實時查看關鍵業(yè)務在一天、一周內服務水平滿足情況。當業(yè)務的服務水平違規(guī)(服務質量下降到95%)時,還可以進行深入的問題根源分析。

圖4 SLA視圖監(jiān)控
(5)實現(xiàn)了關鍵業(yè)務系統(tǒng)的實時預警與告警
系統(tǒng)提供7x24小時不間斷性能檢測,應用響應閥值等實現(xiàn)郵件和短信自動告警,能夠協(xié)助故障定位,減少故障恢復時間。
在實施過程中,我們深刻認識到目前河南電力的網(wǎng)絡和應用性能監(jiān)控管理可視化水平仍處于初步階段,距離成熟的網(wǎng)絡及應用性管理體系還尚有相當大的差距,優(yōu)化現(xiàn)有流程,引進先進行自動化工具,加強人員的培養(yǎng),提升運維能力和自動化水平,充分利用現(xiàn)有流量分析平臺和數(shù)據(jù),有效整合現(xiàn)有可視化分析平臺與其它監(jiān)控平臺,深入挖掘平臺功能將是河南電力提升運維能力的下一步重點目標。
[1]《TCP/IP Illustarated Volume1:The Protocols》.(美)W.Richard Stevens.機械工業(yè)出版社.
[2]《HTTP:The Definitive Guard》.(美)David Gourley,Brian Totty.人民郵電出版社.
[3]A.Das,D.Nguyen,J.Zambreno An FPGA-Based Network Intrusion Detection Architecture,Information Forensics and Security,IEEE Transactions on,vol.3,pp.118-132,2008.