摘要:本文介紹了網(wǎng)絡(luò)故障管理系統(tǒng)的基本功能,并簡(jiǎn)要分析網(wǎng)絡(luò)故障管理專家系統(tǒng)及知識(shí)發(fā)現(xiàn)系統(tǒng)。提出將分布式智能Agent用于計(jì)算機(jī)網(wǎng)絡(luò)故障的智能管理。
關(guān)鍵詞:網(wǎng)絡(luò)管理;故障診斷;智能化;專家系統(tǒng)
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)25-1530-02
Intellingence of Technology for Computer Network Macfunctions Management
HUANG Xiao-ming
(Guiyang Medical College of Computer Education Centre, Guiyang 550004, China)
Abstract: This article introduced basic function of network trouble management system, and analyze network trouble management expert system、knowledge discover system briefly. Proposing intelligence management of computer network trouble by using distrubuted intelligence Agent.
Key words: network management; trouble diagnosing; intelligentification; expert system
1 計(jì)算機(jī)網(wǎng)絡(luò)故障管理的概述
故障是指軟、硬件的缺陷;錯(cuò)誤是指軟硬件的不正確輸出;失效是指所有和某故障有關(guān)的錯(cuò)誤造成的網(wǎng)絡(luò)的非正常運(yùn)行。故障管理的主要任務(wù)是及時(shí)發(fā)現(xiàn)并排除網(wǎng)絡(luò)故障。
一個(gè)網(wǎng)絡(luò)管理系統(tǒng)應(yīng)具有五大功能:故障管理、配置管理、性能管理、計(jì)費(fèi)管理和安全管理。其中故障管理是最基本,也是最重要的功能,它保證網(wǎng)絡(luò)能夠連續(xù)可靠地運(yùn)行。如果網(wǎng)絡(luò)服務(wù)運(yùn)行中意外中止,將會(huì)對(duì)(教學(xué)、工作)生產(chǎn)、生活造成很大影響,這就需要一套科學(xué)的故障管理策略,及時(shí)發(fā)現(xiàn)故障、排除故障。
網(wǎng)絡(luò)故障的管理系統(tǒng)一般包括三個(gè)步驟:
1.1 故障檢測(cè)
網(wǎng)絡(luò)設(shè)備一般都具有感知異常情況的能力,當(dāng)設(shè)備發(fā)現(xiàn)自身或網(wǎng)絡(luò)中的不正常現(xiàn)象,它采用告警的方式報(bào)告給網(wǎng)管中心。因此,故障檢測(cè)一般由網(wǎng)絡(luò)中的設(shè)備來(lái)完成。
1.2 故障診斷及推理
故障會(huì)在網(wǎng)絡(luò)中傳播,所有感知到故障的網(wǎng)絡(luò)對(duì)象(包括物理對(duì)象和邏輯對(duì)象)都會(huì)發(fā)出告警,在一個(gè)大型網(wǎng)絡(luò)中,一個(gè)故障可能會(huì)引起大量的告警。故障診斷就是對(duì)網(wǎng)絡(luò)設(shè)備發(fā)出的告警進(jìn)行相關(guān)處理,從一大堆的告警中找出故障發(fā)生的真正原因。
1.3 故障排除
根據(jù)識(shí)別的故障原因,自動(dòng)地或手工地對(duì)網(wǎng)絡(luò)進(jìn)行控制操作,恢復(fù)網(wǎng)絡(luò)的正常運(yùn)行。
2 網(wǎng)絡(luò)故障診斷專家系統(tǒng)AngelES
網(wǎng)管系統(tǒng)IIENMS是包括主管理者/Web服務(wù)器層、子管理者一層和網(wǎng)元層的三層體系結(jié)構(gòu)的綜合智能網(wǎng)絡(luò)管理系統(tǒng),主要功能包括配置管理、性能管理、故障管理和安全管理。AngelES作為IIENM故障管理的一個(gè)子模塊,其主要功能是實(shí)時(shí)一接收網(wǎng)元層設(shè)備發(fā)送的Trap告警信息,經(jīng)必要的模式轉(zhuǎn)化后與規(guī)則庫(kù)中的規(guī)則進(jìn)行匹配,然后向網(wǎng)絡(luò)管理系統(tǒng)返回可能的解決方案和相關(guān)的故障診斷信息。
AngelES的特點(diǎn)集中體現(xiàn)在兩個(gè)方面:首先它是實(shí)時(shí)在線的專家系統(tǒng),它能對(duì)網(wǎng)絡(luò)中的突發(fā)故障作出響應(yīng),并將故障診斷結(jié)果及時(shí)反饋給網(wǎng)管系統(tǒng);其次它的知識(shí)獲取是來(lái)自基于數(shù)據(jù)融合技術(shù)的知識(shí)發(fā)現(xiàn)系統(tǒng)DFSKDS,從而使該系統(tǒng)具有更高的實(shí)用價(jià)值和可靠性。因此AngelES對(duì)于提高網(wǎng)管系統(tǒng)的實(shí)用性、智能化和健壯性有重大意義。
AngelES主要由知識(shí)庫(kù)、事實(shí)庫(kù)、推理機(jī)和故障診斷四大模塊構(gòu)成,下面分別介紹各個(gè)模塊的具體實(shí)現(xiàn):
2.1 知識(shí)庫(kù)
知識(shí)庫(kù)管理模塊主要完成知識(shí)獲取、瀏覽、更新和存貯。Clips對(duì)于知識(shí)(規(guī)則)的描述有一定的語(yǔ)法格式,并在系統(tǒng)內(nèi)部維護(hù)一張知識(shí)表。通過(guò)調(diào)用Clip、的相關(guān)外部函數(shù)GetRule-List, GetMFValue, GetDefrulePPForm等,可以在CLIPSFD中實(shí)現(xiàn)對(duì)知識(shí)的管理。
DFSKDS與CLIPSFD是松藕合的關(guān)系,被設(shè)計(jì)為離線方式配置在網(wǎng)絡(luò)答理中心。DFSKDS強(qiáng)調(diào)多數(shù)據(jù)源的數(shù)據(jù)融和和基于序列事件的增量挖掘,通過(guò)它發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則可分為以下類型:
(1)告警—告警關(guān)聯(lián)規(guī)則,如:如果A類型告警發(fā)生,那么在5秒內(nèi)B類型告警發(fā)生的概率為80%;
(2)告警—故障關(guān)聯(lián)規(guī)則,如:如果A類型告警和B類型告警在10秒鐘內(nèi)相繼發(fā)生,那么70%的可能是設(shè)備D故障;
(3)告警—業(yè)務(wù)關(guān)聯(lián)規(guī)則,如:如果A類型的告警發(fā)生,那么在15分鐘內(nèi)S類型的業(yè)務(wù)障礙申報(bào)產(chǎn)生的概率為80%。
告警—告警關(guān)聯(lián)規(guī)則可以用來(lái)進(jìn)行告警過(guò)濾和告警關(guān)聯(lián);告警—故障關(guān)聯(lián)規(guī)則則用在故障定位和故障辨識(shí);特別的告警—業(yè)務(wù)關(guān)聯(lián)規(guī)則對(duì)于業(yè)務(wù)障礙的迅速恢復(fù)有非常重大的意義,能夠在網(wǎng)絡(luò)業(yè)務(wù)未受到嚴(yán)重影響或中斷之前發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)中的潛在問(wèn)題并給予有效的處理,從而保證業(yè)務(wù)的健康、穩(wěn)定運(yùn)行。
2.2 事實(shí)庫(kù)
事實(shí)庫(kù)管理模塊主要完成事實(shí)獲取、瀏覽、更新和存貯,與知識(shí)庫(kù)的管理類似。AngelES通過(guò)Socket通信接收來(lái)自IIENMS網(wǎng)元層設(shè)備發(fā)送的Trap原始告警信息,再將其轉(zhuǎn)換為可供顯不/瀏覽及后續(xù)處理的標(biāo)準(zhǔn)格式存放在事實(shí)表中。對(duì)任何一條告警信息包括告警時(shí)間、告警源、告警類型、告警級(jí)別、告警描述等內(nèi)容。
2.3 推理機(jī)
推理機(jī)用于實(shí)現(xiàn)基于規(guī)則(知識(shí))的事實(shí)推理,從而得到故障的診斷結(jié)果。基于Clips的專家系統(tǒng)在執(zhí)行規(guī)則時(shí),要把規(guī)則中的各個(gè)模式同事實(shí)表中的事實(shí)進(jìn)行匹配。若所有模式均有事實(shí)與之匹配,則規(guī)則被“激活”,并置于“待議事件表”中。AngelES的推理機(jī)制就是每當(dāng)接收到來(lái)自IIENMS網(wǎng)元層設(shè)備發(fā)送的Trap告警信息,就將其與規(guī)則表中已存在的所有故障診斷規(guī)則進(jìn)行匹配,并調(diào)用Clips的系統(tǒng)函數(shù)Run返回被“激活”規(guī)則的結(jié)果。
2.4 故障診斷模塊
是整個(gè)網(wǎng)管系統(tǒng)故障管理的一部分,負(fù)責(zé)網(wǎng)絡(luò)故障定位和故障預(yù)測(cè)。一旦整個(gè)網(wǎng)絡(luò)系統(tǒng)有設(shè)備上報(bào)Trap,IIENMS除進(jìn)行必要的告警板顯示故障信息外,會(huì)通過(guò)Socket通信自動(dòng)、實(shí)時(shí)地將此告警信息發(fā)送給等待進(jìn)行故障診斷的AngelES。AngelES將接收到的Trap進(jìn)行必要的格式轉(zhuǎn)化后存入事實(shí)庫(kù),基于知識(shí)庫(kù)中的規(guī)則和Clips的推理機(jī)制進(jìn)行推理,并將推理的結(jié)果通過(guò)Socket通信返回網(wǎng)絡(luò)管理系統(tǒng)IIENMS。這一部分設(shè)計(jì)為后臺(tái)運(yùn)行方式,在啟動(dòng)IIENMS的同時(shí)啟動(dòng)AngelES。
3 智能化網(wǎng)絡(luò)故障管理
在專家系統(tǒng)中,對(duì)知識(shí)的表示有邏輯表示法、語(yǔ)義網(wǎng)絡(luò)表示法、規(guī)則表示法、特性表示法、框架表示法和過(guò)程表示法。產(chǎn)生式表示法,即規(guī)則表示法,是最常見(jiàn)的一種表示法。其特點(diǎn)是模塊性、一致性和自然。知識(shí)庫(kù)是知識(shí)的集合,嚴(yán)格意義上的知識(shí)庫(kù)包括概念、事實(shí)和規(guī)則只部分,缺一不可。
而在上述傳統(tǒng)的集中式網(wǎng)絡(luò)故障管理模式中,所有故障管理報(bào)告被送到網(wǎng)管中心進(jìn)行處理,此時(shí)網(wǎng)絡(luò)中的代理設(shè)備是沒(méi)有網(wǎng)管智能的,只有管理者才能執(zhí)行故障診斷等功能。為了提高故障管理的智能水平,最佳途徑是采用智能Agent技術(shù)來(lái)構(gòu)造Agent。通常人們把這種具有分布式特征的智能Agent實(shí)體稱為分布式智能AgentDIA。其基本思想是如果故障發(fā)生在局部區(qū)域(稱為管理域),就在本地進(jìn)行處理,而沒(méi)有必要將本地的故障報(bào)告給網(wǎng)管中心管理者去處理。這樣,可把具有特定網(wǎng)管職能的DIA派往更接近于被管理域的地方做出基本決策。
3.1 分布式智能故障管理的系統(tǒng)結(jié)構(gòu)
在分布式智能故障管理系統(tǒng)中,將整個(gè)網(wǎng)絡(luò)分為若干個(gè)區(qū)域,稱為管理域,每個(gè)管理域?qū)?yīng)一個(gè)負(fù)責(zé)管理該域故障的DIA,在此稱為面向領(lǐng)域的分布式智能代理DODIA。管理域是一個(gè)抽象概念,它可能是一個(gè)子網(wǎng)、主機(jī)或功能單元。對(duì)于DODIA都無(wú)法解決的問(wèn)題,允許DODIA向網(wǎng)管中心報(bào)告,以便網(wǎng)管中心進(jìn)行全局考慮并協(xié)同解決問(wèn)題。因此,整個(gè)系統(tǒng)是一個(gè)分布式、協(xié)同工作的多代理系統(tǒng)。它主要包括:故障檢測(cè)模塊和故障管理模塊兩個(gè)部分。
3.2 分布式智能故障管理系統(tǒng)的系統(tǒng)功能
該系統(tǒng)分不同的管理域,由DODIA對(duì)其進(jìn)行監(jiān)視并報(bào)告管理域的情況,并協(xié)同網(wǎng)管中心對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行有效的故障管理。DODIA通過(guò)分析系統(tǒng)的監(jiān)測(cè)數(shù)據(jù)、報(bào)警信息和用戶報(bào)告,獲得當(dāng)前系統(tǒng)的行為狀況,從而產(chǎn)生關(guān)于故障的假設(shè)并對(duì)其進(jìn)行測(cè)試。對(duì)發(fā)生的故障,通過(guò)神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)的集成故障診斷系統(tǒng)對(duì)其進(jìn)行分析并診斷出故障的原因。在給出可能故障原因的前提下,由系統(tǒng)自動(dòng)或有指導(dǎo)地手工完成一系列動(dòng)作以修復(fù)故障,保留詳細(xì)的故障處理記錄。DODIA不能解決的故障問(wèn)題,由CAM向網(wǎng)管中心報(bào)告,由網(wǎng)管中心協(xié)同處理該故障。該系統(tǒng)是基于DIA的故障管理系統(tǒng),在功能上較傳統(tǒng)的故障管理具有較大的優(yōu)越性。
由于每個(gè)DIA是自主的和自包容的實(shí)體,它代表網(wǎng)管中心去各個(gè)管理域解決某個(gè)特定的故障問(wèn)題,其間不需要網(wǎng)管中心的直接干預(yù),具有很好的主動(dòng)性。DIA之間也可分工協(xié)作以完成較大型的管理任務(wù),在訪問(wèn)和處理遠(yuǎn)方的網(wǎng)絡(luò)資源時(shí),可靈活地從一個(gè)管理域遷移到另一個(gè)管理域。此外,包含一定的智能,其范圍從預(yù)先指定的規(guī)則到自學(xué)習(xí)、自適應(yīng)功能。
4 結(jié)束語(yǔ)
文中分析了網(wǎng)絡(luò)故障的類型,提出將分布式智能Agent用于計(jì)算機(jī)網(wǎng)絡(luò)故障的智能管理。實(shí)驗(yàn)表明,計(jì)算機(jī)網(wǎng)絡(luò)故障的智能管理提供了基于知識(shí)的決策手段,比傳統(tǒng)的管理方式具有更高的決策水平,為專家系統(tǒng)技術(shù)在故障的檢測(cè)和隔離方面更加廣泛的應(yīng)用,奠定了一定基礎(chǔ)。
參考文獻(xiàn):
[1] 趙志囡,李劍鋒,賈志雷.計(jì)算機(jī)網(wǎng)絡(luò)中的服務(wù)[J].現(xiàn)代情報(bào),2006,26(11):214-215.
[2] 蘇玉北.基于DIA的分布式智能網(wǎng)絡(luò)故障管理[J].計(jì)算機(jī)工程與應(yīng)用,2007:36(8):30-32.
[3] 白英彩.計(jì)算機(jī)網(wǎng)絡(luò)管理系統(tǒng)設(shè)計(jì)與應(yīng)用[M].清華大學(xué)出版社,1998.