董繼宏 仲兆桉



摘 要 隨著企業(yè)IT架構(gòu)的不斷擴展,服務器、存儲設備的數(shù)量越來越多,網(wǎng)絡也變得更加復雜,特別是分支機構(gòu)眾多的大型企業(yè),這種情況更加突出明顯。為了保障良好的用戶體驗和數(shù)據(jù)時效性,運維工作變得越來越艱巨。雖然運維工作已經(jīng)借助相應的自動化監(jiān)控工具,但IT監(jiān)控系統(tǒng)每分鐘要進行上萬個數(shù)據(jù)采集,對采集的海量數(shù)據(jù)進行處理和分析才是對IT運維工作最大的挑戰(zhàn)。
關鍵詞 運維;通信;大數(shù)據(jù);可視化
引言
隨著通信業(yè)務的發(fā)展,信息支撐工作對IT運維提出了更高的要求,傳統(tǒng)的管理方法和手段中,管理系統(tǒng)是滯后的分立式管理系統(tǒng),不同管理產(chǎn)品(系統(tǒng))管理不同IT設施,傳統(tǒng)上有管網(wǎng)絡設備的,有管機房環(huán)境的,有管IP地址的,有管主機服務器的,有管數(shù)據(jù)庫、中間件的等。各管一攤、各自為政,隨著系統(tǒng)的復雜化,各自獨立的“分立”系統(tǒng)必然導致“推卸責任式”的管理,原因是多個孤立的系統(tǒng)所造成的信息“孤島”和信息“煙囪”,已經(jīng)無法滿足復雜IT系統(tǒng)的管理要求。
1可視化大數(shù)據(jù)運維平臺的基本概念
大數(shù)據(jù)可視化運維是創(chuàng)新的IT管理手段,主要指在借助于圖形化手段,清晰有效地傳達與溝通信息,提供直觀、實時、高效和友好的可視化監(jiān)控系統(tǒng)界面,將各設備的現(xiàn)狀清晰展現(xiàn),并形成一個有機的整體,高效應對突發(fā)事件,智慧制定網(wǎng)絡布局決策[1]。
2可視化運維大數(shù)據(jù)平臺的結(jié)構(gòu)
運維大數(shù)據(jù)可視化與信息圖形、信息可視化、科學可視化以及統(tǒng)計圖形密切相關。當前,在研究、教學和開發(fā)領域,數(shù)據(jù)可視化仍是一個極為活躍而又關鍵的方面。“運維大數(shù)據(jù)可視化”這條術語實現(xiàn)了成熟的科學可視化領域與較年輕的信息可視化領域的統(tǒng)一。
運維大數(shù)據(jù)可視化平臺主要有三個層面組成:分別是數(shù)據(jù)采集層、信息數(shù)據(jù)處理層、業(yè)務展示層。如圖1所示。
(1)數(shù)據(jù)采集層。完成信息源設備的數(shù)據(jù)采集工作,把各個類型的設備被管對象都進行業(yè)務建模。
(2)信息數(shù)據(jù)處理層。是整個系統(tǒng)的數(shù)據(jù)中心,完成了被管對象的集中存儲、查詢。網(wǎng)管的一些通用功能也在數(shù)據(jù)處理層完成,比如告警、智能運維、歷史記錄基礎數(shù)字技術。
(3)業(yè)務展示層。完成數(shù)據(jù)的整合展現(xiàn),被管對象的錄入功能。根據(jù)業(yè)務會被劃分成各個APP,各個APP 之間相對獨立便于維護和擴展[2]。
3可視化大數(shù)據(jù)運維平臺的優(yōu)勢
(1)平臺能夠?qū)崿F(xiàn)目前企業(yè)對網(wǎng)絡系統(tǒng)、應用系統(tǒng)的屬地化管理原則,實現(xiàn)信息網(wǎng)絡綜合監(jiān)測管理模式。對重要的應用系統(tǒng)和網(wǎng)絡核心環(huán)節(jié)能夠?qū)崿F(xiàn)全面的檢測和狀態(tài)管理。
(2)對包括網(wǎng)絡環(huán)境、主機系統(tǒng)在內(nèi)的各種設備和應用進行跨廠家、跨平臺的統(tǒng)一管理;提供快速的故障告警信息。
(3)從安全方面分析,全部數(shù)據(jù)都是通過加密方式上傳到總部統(tǒng)一查看,如果網(wǎng)絡傳輸使用的是互聯(lián)網(wǎng)線路也不會出現(xiàn)信息被竊取的情況。
(4)從管理方面分析,所有數(shù)據(jù)匯總后可以集中發(fā)送告警、集中設置設備的閥值和參數(shù)、集中生成報表,報表中可以看到全網(wǎng)設備總體的使用情況,不需要手工匯總。
(5)從使用方面分析,相關運維人員可以直觀地從管理平臺監(jiān)控部分看到所負責IT基礎資源的當前運行狀態(tài)和服務狀態(tài),通過監(jiān)控運維系統(tǒng)量化工作,使運維工作高效、快捷。
4在煤炭行業(yè)中的應用
以上所說的是廣義概念上的“可視化大數(shù)據(jù)運維平臺”,那么“可視化大數(shù)據(jù)運維平臺”在企業(yè)中具體是如何應用的?能給企業(yè)帶來什么?下面以北塔軟件公司的“可視化大數(shù)據(jù)運維平臺”為例具體說明。
在企業(yè)中,通信系統(tǒng)由多種設備構(gòu)成,包括:傳輸、網(wǎng)絡、存儲、交換、視頻會議和監(jiān)控等設備,設備管理系統(tǒng)各自獨立,各自獨立的系統(tǒng)必然導致“推卸責任式”的管理,原因是多個孤立的系統(tǒng)所造成的信息“孤島”和信息“煙囪”,已經(jīng)無法滿足復雜IT系統(tǒng)的管理要求。
4.1 技術概念
(1)BTSO2.5.5sp1采用平臺化設計,以DGO(Data Gather Ocean)為基礎,和告警、報表、智能運維、license共同構(gòu)成強大的功能平臺;具體資源的管理作為基于平臺的管理功能,具備以接口為中心的設計模式。如圖2所示。
(2)系統(tǒng)提供強大的擴展能力,支持管理能力的自由擴展:
1)采集平臺支持用戶個性化采集程序的快速兼容,實現(xiàn)管理指標的快速擴展;
2)采集服務器支持無縫擴展,支持多個采集器同時部署;
3)支持管理策略的快速擴展,實現(xiàn)用戶管理方式落地;
4)支持用戶個性化報表的快速擴展,實現(xiàn)各種具備企業(yè)特征的報表數(shù)據(jù)和展現(xiàn)方式[3]。
4.2 管理范圍
4.3 系統(tǒng)特點
北塔軟件的BTSO系統(tǒng)以自動學習、自動分析、自動運維詮釋智能運維的運維方法。
(1)自動學習:實現(xiàn)用戶環(huán)境數(shù)據(jù)的學習,結(jié)合內(nèi)置檢測指標體系,建立具有用戶特征的常態(tài)健康標準。
(2)自動分析:實時監(jiān)控用戶各項運維指標,結(jié)合指標變化特征,通過諸如單指標越界比例、多指標組合判斷、歷史趨勢變化等方法自動判斷數(shù)據(jù)異常情況,主動提醒。
(3)自動運維:提供處置方案的提醒,用戶處置程序的調(diào)用等多種方案,實現(xiàn)異常問題的及時處理和運維。
4.4 日常管理
運維軟件7*24小時在后臺運行,運維人員無須長期打開軟件前臺。
(1)常用應用狀態(tài)監(jiān)控
提供業(yè)務應用系統(tǒng)監(jiān)控和集成跳轉(zhuǎn)功能,為用戶提供全局業(yè)務監(jiān)控視圖,支持以不同顏色代表系統(tǒng)的實時狀態(tài),同時可以點擊打開該應用的界面。如圖3所示。
(2)故障管理
BTSO提供智能管理對越界異常進行檢測,以越界頻率為判斷方式,通過智能分析、判斷,輔助異常處理,而告警觸發(fā),需要人工介入流程處理,盡快“撲滅”現(xiàn)場故障是首要的,分析原因是其次的。
系統(tǒng)提供了靈活的告警設置、精確的告警檢測、多樣告警推送方式、簡單的告警經(jīng)驗積累方式,實現(xiàn)用戶有效及時得到故障信息。
1)系統(tǒng)告警規(guī)則實現(xiàn)快速設置,支持用戶實現(xiàn)快速規(guī)模化設置告警規(guī)則:
①提供按照指標進行告警資源的批量設置。
②提供以IP段方式預先設置告警規(guī)則,只要新對象符合IP范圍,自動啟動告警規(guī)則。
③提供不同監(jiān)控時段的設置,提供工作時間和非工作時間的不同監(jiān)控周期設置。
④支持多種告警通知方式,包括短信、郵件等內(nèi)置通知方式。
2)系統(tǒng)提供靈活的告警查詢方式:
①可通過告警檢測指標進行統(tǒng)一查詢,實現(xiàn)指標統(tǒng)一分析。
②可通過IP地址查詢IP上的所有告警規(guī)則。
3)系統(tǒng)即時發(fā)送告警信息:
①系統(tǒng)以5個等級區(qū)別不同的告警重要度。
②支持最短60秒響應周期,可根據(jù)不同業(yè)務要求進行調(diào)整告警響應周期。
③支持短信、郵件、數(shù)據(jù)庫、syslog等多種標準方式輸出。
(3)分析故障歷史提高運維成效
對于故障的處理需要即時、快速;但當故障處理完成后,更需要對以往發(fā)生的故障進行回顧分析,找出故障規(guī)律,并采取進一步優(yōu)化方案,避免下一次故障的產(chǎn)生。如圖4所示。
同時告警的處理一定程度上也是IT運維成效的體現(xiàn),管理上可以通過對告警解決時間和告警時長的角度,作為運維工作的一個考核項目;系統(tǒng)需要提供及時的故障分析報表。如圖5所示。
(4)報表與分析
BTSO提供無壓縮的數(shù)據(jù)存儲機制,支持長達1年以上無壓縮數(shù)據(jù)存儲。提供詳盡的歷史趨勢分析功能,支持1年期數(shù)據(jù)的智能展現(xiàn)。如圖6所示。
1)支持最大5個不同類型指標,進行同步分析;
2)支持不同指標單位數(shù)據(jù)的增長趨勢分析,可手工調(diào)準顯示比例;
3)支持1天、3天、1周、1月、3月數(shù)據(jù)的快速切換;
(5)智能拓撲
系統(tǒng)采用北塔先進的且得到近5000個現(xiàn)場驗證的發(fā)現(xiàn)算法,智能發(fā)現(xiàn)網(wǎng)絡設備和設備間的真實線路,準確而快速地完成拓撲的構(gòu)建。
網(wǎng)絡拓撲能清晰展現(xiàn)網(wǎng)絡的關系,自動布局;并能提供“圓形”“樹形”多種拓撲展現(xiàn)方式,便于用戶根據(jù)業(yè)務關系快速調(diào)整到用戶需要的展現(xiàn)方式,同時將管理對象的實時性能和告警信息通過圖標的不同狀態(tài)展現(xiàn)給用戶。如圖7所示。
針對業(yè)務承載的主機,系統(tǒng)同樣提供了系統(tǒng)拓撲,不僅提供全局狀態(tài)監(jiān)控界面,同時也講拓撲圖作為全局分析工具,實現(xiàn)對于管理對象增長趨勢的全域分析,包含對全域設備的CPU業(yè)務應用情況的分析,整體智能分析業(yè)務上一段時間內(nèi)使用的整體趨勢變化,以紅、黃、綠作為不同區(qū)段的顯示,使用戶能清晰辨識歷史增長異常。
(6)智能基線
智慧運維平臺能根據(jù)歷史記錄自動生成基線,并可按照業(yè)務變化規(guī)律,形成以日基線、周基線的數(shù)據(jù)對比,一旦實時數(shù)據(jù)大于基線比對點一定范圍,即生成智維事件,便于分析;當出現(xiàn)多次越界后,系統(tǒng)主動通知用戶,提示運維風險。如圖8所示。
(7)智能策略
智慧運維平臺引入策略管理概念,架構(gòu)上為策略提供各個功能的調(diào)用接口,方便地實現(xiàn)軟件各種處理邏輯的協(xié)同處置;方便實現(xiàn)用戶對于管理方法的落地。
策略分為觸發(fā)、分析、處置三個部分,通過全面的智能運維監(jiān)控,實現(xiàn)對于各項關鍵節(jié)點的智維,包含單點、多點觸發(fā);多單指標歷史記錄分析、多指標對比分析等方式,實現(xiàn)合理結(jié)論的分析,以提示、告警通知、自動報表的各項輸出方式給出用戶最終處置建議。
系統(tǒng)預置多款智能策略,實現(xiàn)全面檢測、智能判斷、全面分析;包含對所有智維規(guī)則的普世策略,越界次數(shù)警示;包含對CPU負載過高的深入分析策略,可實現(xiàn)一站式,異常進程的分析識別[4]。
5智慧運維給用戶的價值
5.1 落實等級化管理
管理上劃分優(yōu)先級是被普遍認可的方式,優(yōu)先級劃分能實現(xiàn)管理投入的合理分配,對于運維管理同樣適用,通過對資源按照所在業(yè)務重要度區(qū)分其對應的管理等級,比如關乎生產(chǎn)系統(tǒng)的資源劃分成一級,內(nèi)部辦公系統(tǒng)相關資源劃分成二級設備;對于一級設備意味著更為密集的數(shù)據(jù)采集和更低的閾值,對于異常更為敏感,故障處理上要求更為嚴格,后期的管理數(shù)據(jù)統(tǒng)計需要單獨列項統(tǒng)計。
5.2 落實管理經(jīng)驗積累
智慧運維平臺提供處置知識管理,通過對用戶日常故障處置方法的收集,經(jīng)驗積累,自動反饋到相同故障的處置過程中;通過系統(tǒng)提供的智能策略機制,將用戶對于某些異常分析的人工方式自動化,通過人工智能找到具體的異常進程,關閉該進程或者卸載相關軟件,同時對于該進程的設定預警,達到事前預警;通過策略體制調(diào)用系統(tǒng)的各項零散功能,將用戶問題分析方式,快速自動化。
5.3 從數(shù)據(jù)挖掘?qū)崿F(xiàn)隱患分析
智慧運維平臺提供了強大的歷史記錄能力,可以實現(xiàn)45萬KPI的指標數(shù)據(jù)不壓縮存儲1年;同時提供詳盡靈活的數(shù)據(jù)分析工具,可以實現(xiàn)單設備1年、1季度、1月、1周整體趨勢分析,從歷史層面分析出業(yè)務運行規(guī)律,方便發(fā)現(xiàn)業(yè)務運行異常;使用歷史記錄作為檢測閾值,實現(xiàn)更為合理的業(yè)務使用情況監(jiān)控;提供整體高低負載分析,實現(xiàn)整體回顧,合理評價。
6引入可視化大數(shù)據(jù)運維平臺的意義
可視化大數(shù)據(jù)運維平臺系統(tǒng)能夠很好地滿足企業(yè)信息網(wǎng)絡系統(tǒng)管理的實際需求,具備良好的實用性,能夠提供強大的故障監(jiān)測和故障信息處理平臺;平臺可實現(xiàn)目前企業(yè)對網(wǎng)絡系統(tǒng)、應用系統(tǒng)的屬地化管理原則,實現(xiàn)信息網(wǎng)絡綜合監(jiān)測管理模式;根據(jù)各級管理運行管理范圍和責任劃分實際情況,靈活定義和界定檢測管理的邊界,根據(jù)實際需求選擇和定義對相關檢測信息的顯示形式和統(tǒng)計方法;對重要的應用系統(tǒng)和網(wǎng)絡核心環(huán)節(jié)能夠?qū)崿F(xiàn)全面的檢測和狀態(tài)管理,可以從安全方面、管理方面和使用方面做到對企業(yè)IT基礎資源的統(tǒng)一監(jiān)控展現(xiàn),具體如下。
從安全方面分析,全部數(shù)據(jù)都是通過加密方式上傳到總部統(tǒng)一查看,如果網(wǎng)絡傳輸使用的是互聯(lián)網(wǎng)線路也不會出現(xiàn)信息被竊取的情況。
從管理方面分析,所有數(shù)據(jù)匯總后可以集中發(fā)送告警、集中設置設備的閥值和參數(shù)、集中生成報表,報表中可以看到全網(wǎng)設備總體的使用情況,不需要手工匯總。
從使用方面分析,相關運維人員可以直觀地從管理平臺監(jiān)控部分看到所負責IT基礎資源的當前運行狀態(tài)和服務狀態(tài),通過監(jiān)控運維系統(tǒng)量化工作,使運維工作高效、快捷。
7可視化大數(shù)據(jù)運維平臺的發(fā)展前景
在目前這個 IT 技術大發(fā)展的時代,各行業(yè)越來倚重 IT 作為生產(chǎn)平臺,各種新技術運用使業(yè)務運行更便捷的同時,也給業(yè)務 IT系統(tǒng)的運維部門帶來巨大挑戰(zhàn)。
可視化大數(shù)據(jù)運維平臺根據(jù) IT 運維部門的運維情況,不斷摸索最佳方式,形成了一些具有企業(yè)特色運維方式,逐漸形成了一些具有企業(yè)特色運維經(jīng)驗和問題分析方式,提高效率,降低運維成本,解決了運維部門無法將管理論轉(zhuǎn)化成最佳生產(chǎn)力的問題,實現(xiàn)用戶管理效率的最大化提升。
8結(jié)束語
可視化大數(shù)據(jù)運維平臺的最終目的是,消除數(shù)據(jù)孤島,快速接入各種企業(yè)數(shù)據(jù)源,提供數(shù)據(jù)存儲、處理及分析預測服務,在同一個平臺界面中整合分析業(yè)務健康及IT性能問題。通過標準化組件及可擴展框架隨心定制監(jiān)控大屏,進行數(shù)據(jù)的多維度實時展現(xiàn),迅速實現(xiàn)業(yè)務分析、趨勢判斷與決策響應。無須技術背景即可快速實現(xiàn)“自助式”數(shù)據(jù)分析,分析結(jié)果生成只需1小時,滿足用戶對大數(shù)據(jù)分析的多樣化需求。
參考文獻
[1] 李寒箬,夏榮. 淺談大數(shù)據(jù)分析在網(wǎng)絡運維中的應用[J]. 經(jīng)營管理者,2016(36):338.
[2] 嚴彬元,王皓然,周琳妍.淺談大數(shù)據(jù)分析在電網(wǎng)運維日志采集分析中的應用[J].信息周刊,2018(27):493.
[3] 單康康,王佶,常曉潔,等. 基于大數(shù)據(jù)的校園網(wǎng)海量日志分析平臺研究[J]. 信息通信,2017(3):154-155.
[4] 周平,馬斌,韓冰,等. 基于大數(shù)據(jù)平臺的日志分析預警技術研究[J]. 電腦知識與技術,2016,12(32):266-268.
作者簡介
董繼宏,男,陜西省神木縣人;畢業(yè)院校:西安電子科技大學,專業(yè):電子技術與微機應用,學歷:大專,現(xiàn)就職單位:神東煤炭集團公司信息管理中心,研究方向:通信。
仲兆桉,男,內(nèi)蒙古呼和浩特市人;畢業(yè)院校:內(nèi)蒙古大學,專業(yè):電子技術,學歷:大專,現(xiàn)就職單位:內(nèi)蒙古華強通訊科技有限公司,研究方向:通信。