◆李 敏 張曉磊 廉逸晗
(1.興安盟氣象局 內蒙古 137400;2.烏蘭浩特市氣象局 內蒙古 137400)
興安盟氣象局信息網絡監控系統的設計與實現
◆李 敏1張曉磊1廉逸晗2
(1.興安盟氣象局 內蒙古 137400;2.烏蘭浩特市氣象局 內蒙古 137400)
隨著氣象信息網絡的不斷發展,網絡規模相應日益擴大,其復雜程度也隨著不斷提高,承載業務種類也多樣化,因而發生網絡故障的機率也越來越頻繁。由于網絡故障或網絡運行狀態的不佳,會直接導致氣象業務效率的降低,甚至有可能會造成巨大損失,因此對信息網絡進行有效的管理和監控,已成為興安盟網絡管理者的迫切要求。網絡監控系統的研究與設計也成為信息網絡研究與建設必不可少的重要內容與熱點問題。該系統通過對興安盟全盟信息網絡管理技術的研究,以我盟氣象部門廣域網與局域網為原型,設計了信息網絡監控系統,對系統的各個部分進行了研究與設計,并對設計中用到的短信告警相關技術進行了重點研究,信息網絡監控系統能對興安盟氣象網絡的IP配置、故障和網絡設備性能進行以故障管理為核心的綜合監控,及時發現網絡配置的變化與網絡的故障,并進行故障的短信實時告警。
信息網絡監控故障;短信實時;短信告警技術
隨著氣象現代化的改革與發展,我盟氣象系統網絡規模不斷擴大,網絡復雜結構日益提高,根據實際業務需求,全盟氣象系統網絡結構為:廣域網以星形拓撲網絡結構通過光纖與局域網節點相連接,廣域網采用路由器、三層核心交換機通過以太網口與局域網相連,路由器完成全網的路由功能,路由器之間采用SDH寬帶接入技術,利用vrrp、osfp和靜態路由相結合的方式構成一個完全網狀網。局域網通過三層核心交換機與二層、三層交換機設備互聯,構成整個局域網劃分成多個子網,子網通過綜合布線系統,為用戶提供以太網接入端口,各樓層放置較低檔的以太網交換機,為用戶提供數據交換。面對這樣復雜的網絡,發生網絡故障的概率也會相應增高,當網絡出現故障或運行不佳時,會導致資料共享和自動站、區域網、農氣等多類氣象數據傳輸故障,如果網絡內一個或多個網絡設備或網絡鏈路、服務器等發生故障,將會造成氣象數據上傳缺收等巨大業務損失,更為嚴重的是會導致預報無法準確預測,可能會給公眾和社會經濟造成無法估量的影響,因此,必須有與之相匹配的監控系統,只有通過興安盟信息網絡監控系統進行自動監測、控制、管理與維護,才是正確的選擇。
綜上所述,由于網絡結構的復雜性,為保障信息網絡的正常運行,研究設計了一個全盟氣象信息網絡監控系統,以網絡進行故障管理為核心的監控,其中包括配置、性能和故障監控。當網絡故障發生時,能及時準確告警,網絡維護人員能及時解決網絡故障,保證業務正常運行。
故障監測是對網絡鏈路運行情況、網絡設備和服務器狀態進行管理,實現全盟網絡的故障監測和故障定位,進行故障的排除,收集處理網絡中的各種故障、告警及網絡運行狀態異常的信息。配置監控對網絡設備的配置變化進行監控,通過拓撲發現算法發現配置的變化情況,如路由的缺少、端口的變化、子網的改變等。性能監控是指從網絡鏈路通信設備和服務器中采集相關的性能參數,通信設備主要是采集網絡流量數據,發現鏈路流量的變化,服務器主要是采集存儲容量和停止使用的變化,根據情況進行相應的處理,配置監控和性能監控主要是通過對這兩項的管理參數進行采集實現的,主要通過信息網絡監控系統主動查詢的方式進行采集。性能監控和配置監控為故障監控提供了重要的信息和依據。該系統通過對配置、性能等故障數據進行采集,將采集的數據自動入庫,為拓撲顯示、性能、告警數據的統計查詢提供數據源。并對采集的配置、性能故障數據進行分析統計,及時發現網絡和性能異常等故障,進行告警,有利于網絡管理員及時對故障進行排除與恢復。系統應該提供WEB服務,提供系統數據的查詢、分析、設置和告警服務等。
通過對系統需求的分析,設計了興安盟信息網絡監控系統,包括系統體系結構的設計和各模塊的設計。采用分布式的體系結構,其功能由各個模塊實現,模塊之間采用接口通信來完成,系統設計共有5個子模塊,分別為:拓撲發現計算模塊、性能采集模塊、流量監控模塊、告警模塊、WEB服務器模塊。信息網絡監控系統體系結構如圖1所示:

圖1 信息網絡監控系統體系結構
拓撲發現計算模塊是該系統的前端采集模塊,其利用ICMP、SNMP協議,通過拓撲發現算法,獲取網絡運行的一些數據變化,如子網、設置配置的變化,為拓撲計算提供數據,當發現異常,為告警模塊提供數據,及時產生告警。性能采集模塊使用SNMP協議,對監控網絡的性能變化進行采集,是系統的前端采集模塊,可以按照要求進行定時或一次性采集,為性能的統計與分析提供一定數據源,當發現監控的性能滿足告警條件時,及時產生告警。流量監控模塊的功能是數據流量的采集,是該系統前端的采集模塊,該模塊通過對NETFLOW技術實現對流量的接收,獲取相關流量信息,通過分析這些信息,取得相應性能指標,為流量的統計與分析提供一定的數據源。告警模塊的功能是通過消除冗余警告,將拓撲發現計算模塊、性能采集模塊、流量監控模塊采集的數據中得到的一些關聯告警進行消除,避免告警風暴的產生,準確定位故障,將告警信息精準的發給網絡管理者。WEB服務器模塊是通過瀏覽器提供WEB服務,為用戶提供數據的查詢、設置、分析與修改,可以通過WEB網頁查詢網絡拓撲結構、鏈路及網絡終端的性能和所有故障信息及告警信息。
當網絡診斷為發生故障或運行狀態不佳時,會產生很多的告警,隨著告警事件的不斷增多,會產生告警風暴,告警風暴會造成診斷網絡故障的延時過長,造成故障的誤判,甚至會被忽略,更為嚴重的是廣播風暴會使信息網絡監控系統癱瘓,影響系統的正常告警。所以,對一些關聯的告警事件進行處理,消除冗余告警,是信息網絡監控系統需要解決的一個重要問題。本系統消除冗余告警的關鍵是通過對告警事件關聯的處理、分析后,進行合并與轉化,消除掉不必要和無關聯告警,將多個相關告警合并為一條擁有更多信息的告警。以減少網絡流量和減輕不必要的數據存儲,這樣能快速對故障進行定位,及時恢復網絡。本系統使用Petri網事件關聯方法,通過Petri網建立模型處理告警事件,通過 Petri網模型可以完成的關聯處理為:(1)將多個告警壓縮為一個告警,如告警事件Event發生多次,可將其映射為一個事件,完成告警壓縮的關聯處理。(2)當告警事件Event已發生,則過濾掉該事件 Event,完成告警過濾關聯處理。(3)當告警事件Event1、Event2同時發生,如果Event1的優先級高于Event2,則事件關聯結果為高優先級Event1,抑制了優先級Event2,完成了告警抑制關聯處理。(4)當告警事件Event1、Event2同時發生,如果 Event1 本文介紹了網絡監控的重要性,并講述了網絡監控系統的相關原理,并針對當前復雜的興安盟氣象系統網絡,設計了興安盟信息網絡監控系統,該監控系統具有較強的實用性與通用性,對網絡配置、性能、運行狀態進行中和監控,及時發現配置的變化、性能的異常、運行的故障,并實時告警。管理者通過WEB服務,能夠查看網頁查詢網絡拓撲結構、鏈路及網絡終端的性能和所有故障信息及告警信息。4 結論