劉昆 沈佳 鄒岳琳 郭江濤 張龍軍 明濤 趙剛 王楷
【摘 要】文章圍繞信息中心IT運維監控系統展開討論,首先對系統進行需求分析,然后設計完成信息中心IT運維監控系統的整體架構,并對其運作流程進行探究,最后論述監控系統關鍵子系統的實現。旨在增加維護的工作強度,將不穩定因素消滅在萌芽狀態。
【關鍵詞】信息中心;IT運維監控系統;設計;實現
引言:
現階段,IT在組織運維中的重要性逐漸凸顯出來,IT環境運維已經成為提升企業效率的關鍵。但是,IT運維的成本問題、運維控制方式不當、運維自動化方式不當等問題也成為困擾企業發展的重要因素,因此,引入高效的IT運維監控系統已經成為企業發展的必然選擇。
一、IT運維監控系統的需求分析
IT運維監控系統需求:一,簡單部署、快速實施;二,監控涵蓋所有IT環節,靈活定制化務視圖;三,多級角色權限設置;四,分布式監控管理;五,豐富的數據報表;六,專家建議庫;七,故障雙向定位及自動處理。
通過對用戶性能需求的調研,文章提出了對系統的性能要求,總結性能指標如下:監測器數量支持10萬以上;每個監測器探測時間小于50s;監測器數量達到10萬以上時,監測隊列排隊數量小于100。
二、信息中心IT運維監控系統的總體設計
(一)系統結構
信息中心IT運維監控系統的整體架構可以分為四個層次,從下到上分別為采集層、數據層、應用層、表現層,如圖1所示。
一,采集層。采集層按照需求將被監控對象的狀態信息、可用性信息、性能信息、功能信息等多種監測數據采集回來。除了實現采集的功能外,還會根據既定的處理邏輯將采集到的原始信息進行初步加工,方便其他組件訪問、調取此部分數據;
二,數據層。數據層的主要作用是進一步加工采集層收集的信息,包括功能信息、可用性信息、各種狀態信息、性能信息等,統一管理性能、故障、配置等信息,統一監測和管理由應用軟件、中間件、存儲、備份、數據庫、網絡、主機構成的應用系統;
三,應用層。應用層是在數據層基礎上提供完善的管理功能模塊和引擎。包括性能管理、故障管理、資源管理、報表管理、展示管理、安全管理等模塊;
四,表現層,所有應用功能完成統一呈現,提供基于Web的圖形化管理界面以及統一的用戶認證和登陸界面。監測和管理被管資源和監控系統自身,為系統的正常運行提供保障。
(二)工作流程
IT運維監控系統通過SNMP、SSH、Agent等多種方式實時采集IT業務平臺環境中的各種網絡設備、服務器、應用系統中間件以及私有業務系統的性能數據,還能夠利用Syslog與SNMPTrap的方式將第三方網管系統的數據合并進來。被監控對象的各種信息被收集后,通常經過信息的預加工等幾個步驟的處理,與服務建立依賴關系,對比各項信息的閾值,告警通知不在閾值范圍內的信息,并通過郵件、短信、聲音等方式通知管理員。同時,監控系統將自動對被管資源進行主動輪巡采集,所有性能數據都將保存到數據庫中。這個過程不需要任何管理員的干預和操作。管理員可以通過瀏覽器,不定時查看IT業務狀態,并獲得報表和分析數據,管理員處于離線狀態,也能夠收到監控系統發送的郵件、短信等告警信息。
(三)系統模塊
IT運維監控系統由3個子系統構成,其中包括監控子系統、知識管理子系統、服務部署及診斷子系統,每個子系統都有特定的功能,而三個子系統又都是相輔相成、不可分割的。
一,監控子系統。由五個模塊組成:數據展示模塊、設備監控模塊、告警管理模塊、業務監控模塊、報表管理模塊。其中數據展示模塊負責將整個系統的數據信息以更為直觀的形式進行展示,如對比曲線圖;設備監控模塊負責對機房中各種硬件設備的監控;告警管理模塊負責整個監控系統告警信息的管理,可將告警分類并告警界面列表、彈出窗口、郵件、短信、聲音等形式發出告警通知;業務監控模塊負責對企業各項業務、應用的可用性及性能的監控;報表管理模塊負責對監控信息的處理分析,統計各種類型的數據報表,以供使用者參考。監控子系統主要通過Oracle+JAVAStruts2+JSP+JQuery設計實現,其中Oracle數據庫為系統提供數據支持,JAVAStruts2負責數據處理以及關系數據庫的調節,JSP和JQuery負責客戶交互以及前臺界面展示。
二,服務部署及診斷子系統。由兩個主要的功能模塊組成:任務管理模塊、操作管理模塊。任務管理模塊負責服務的上線部署、升級改造等任務的管理;操作管理模塊負責遠程命令的執行,用于診斷服務狀態、可用性等。該子系統主要通過protobuf實現結構化信息的傳遞,Center和Agent之間的消息交互,完成對服務的部署或診斷。
三,知識管理子系統,該系統由兩個主要功能模塊組成:專家建議模塊、資料庫模塊。專家建議模塊負責記錄一些常見問題及疑難雜癥的解決方法,指導值班管理員處理故障;資料庫模塊負責中心整體運維工作的知識積累,如服務的維護手冊,相關技術要點說明等。該子系統主要通過Oracle+JAVAStruts2+JSP實現,按照中心服務分類對相關資料存儲在關系數據庫中。
三、關鍵子系統的實現
(一)監控子系統具體實現
監控子系統首先要實現對監測器的管理,即對系統中監測器進行添加、修改、刪除、查詢等操作。系統采用多叉樹的結構,由根節點開始一級一級向下蔓延,這樣可以對監測器按照業務進行分類,清晰的實現對大量監測器的管理,監測對象的架構建立后,整個監控子系統中的數據都是來源于系統對于各個監控對象的監控數據的采集,有了這些原始數據,就能實現監測器管理、報表統計等一系列的功能。
(二)知識管理子系統的實現
知識管理子系統可以通過實現資料管理模塊的API完成專家建議模塊與資料管理模塊的統一管理。資料管理模塊中,集成系統可以使用樹形目錄對應信息中心的組織結構或者系統體系結構,將相關服務的維護手冊、上線手冊等文檔存入目錄中進行清晰的管理。
專家建議模塊。每次遇到特殊情況,運維人員都會將解決故障的方法記錄下來,生成專家建議,當再次出現類似的告警情況時,值班人員就可以根據專家建議里的指導方法快速的解決故障、恢復服務,不用再逐一排查,進而節約時間,相關人員可以有更多的時間來尋找解決方案,實現在最短時間恢復服務,確保服務sla不受損。
四、結語
總而言之,文章設計完成了信息中心IT監控系統,并且該系統的關鍵子系統都能夠實現。但是文章中關于信息中心IT運維監控系統的設計仍有一些需要完善的地方,需要相關人員進行深入研究,以實現該系統的良好應用。
【參考文獻】
[1]盧彥兆.信息中心IT運維監控系統的設計與實現[D].中國科學院大學(工程管理與信息技術學院),2015.
[2]蔡恩勇.軟件系統的運維監控系統的設計與實現[D].西安電子科技大學,2015.
[3]韓瑞丁.面向ARP的IT運維監控系統設計與應用[D].中國科學院大學(工程管理與信息技術學院),2016.
[4]陸起陽.網絡監控運維系統的設計與實現[D].電子科技大學,2015.