摘要:在對數(shù)據(jù)挖掘技術概念、主要方法和挖掘過程及網(wǎng)絡管理等知識進行簡單介紹的基礎上, 探討數(shù)據(jù)挖掘在網(wǎng)絡管理中的應用。
關鍵詞:數(shù)據(jù)挖掘;網(wǎng)絡管理;關聯(lián)規(guī)則
中圖分類號:TP3 文獻標識碼:A 文章編號:1009-3044(2009)15-3845-02
The Application of Data Mining in Network Management
LI Gang1,2
(1.Fushun technician Institute, Fushun 113123, China; 2.Shenyang ligong university, Shenyang 110168, China)
Abstract: This paper brief describes the basic concept of data mining technology, the main mining methods and Mining process, Network management knowledge, Discussed the Application of Data Mining in Network Managemen.
Key words: Data mining; network management; association rules
1 引言
通過數(shù)據(jù)挖掘的相應技術,建立數(shù)學模型,將海量的原始網(wǎng)絡信息應用于網(wǎng)絡故障預測,再根據(jù)實時的網(wǎng)絡數(shù)據(jù)預測網(wǎng)絡的故障概率和可能出現(xiàn)故障的時間和位置。這樣,管理員便可以及時作出判斷,提前避免故障的發(fā)生,減少損失。通過預測模型,以期達到一種自律計算,使系統(tǒng)能夠根據(jù)管理員給定的目標進行網(wǎng)絡管理。
2 數(shù)據(jù)挖掘技術
2.1 數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。簡單的說就是從大量數(shù)據(jù)中提取或“挖掘”知識。
2.2 數(shù)據(jù)挖掘處理過程模型
數(shù)據(jù)挖掘是一個需要經(jīng)過反復的多次處理過程。合理的數(shù)據(jù)挖掘處理過程模型能將各個處理階段有機地結合在一起,指導人們更好地開發(fā)和使用數(shù)據(jù)挖掘系統(tǒng)。從數(shù)據(jù)挖掘進入工程應用領域起,就有人對數(shù)據(jù)挖掘地過程進行歸納和總結,提出了不同的數(shù)據(jù)挖掘處理過程模型。
其中Usama M.Fayyad、GregoryPiatetsky-Shapiro等人給出的多處理階段模型是一種通用模型,也是最被廣為接受的一種模型,圖1所示的模型示意圖在數(shù)據(jù)挖掘領域內被多次引用。
在上述模型提出后也有人提出不同的數(shù)據(jù)挖掘過程模型,但是都有一個共同點就是都要經(jīng)過準備、預處理、算法設計、數(shù)據(jù)挖掘、后處理階段。其中準備階段包括問題定義、對象理解、數(shù)據(jù)收集等準備工作;預處理包括數(shù)據(jù)清理、壓縮、變換等;后處理包括結果解釋、輸出、評價、分析、使用等。
2.3 數(shù)據(jù)挖掘的分類
從不同的視角出發(fā), 數(shù)據(jù)挖掘技術有如下幾種分類標準。
1) 根據(jù)發(fā)現(xiàn)的知識種類分類: 總結規(guī)則挖掘、特征規(guī)則挖掘、關聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、趨勢分析、偏差分析、模式分析等。
2) 根據(jù)挖掘的數(shù)據(jù)庫分類: 數(shù)據(jù)挖掘基于的數(shù)據(jù)庫類型有:關系型、事務型、面向對象型、主動型、空間型、時間型、文本型、多媒體、異質數(shù)據(jù)庫和遺留系統(tǒng)等。
3) 根據(jù)采用的技術分類: 有人工神經(jīng)網(wǎng)絡、決策樹、遺傳算法、最近鄰技術、規(guī)則歸納、可視化等。
3 網(wǎng)絡管理概述
3.1 網(wǎng)絡管理
網(wǎng)絡管理主要是關于規(guī)劃、監(jiān)督、設計、和控制網(wǎng)絡資源的使用和網(wǎng)絡的各
種活動。人們管理網(wǎng)絡主要是為了能夠最大限度地增加網(wǎng)絡的可用時間,提高網(wǎng)絡設備的利用率, 控制網(wǎng)絡運行成本,提供網(wǎng)絡的規(guī)劃。
3.2 網(wǎng)絡管理的功能
國際標準化組織(ISO)定義了網(wǎng)絡管理的五大功能域:故障管理、配置管理、安全管理、性能管理和計費管理。
1) 故障管理是網(wǎng)絡管理中最基本的功能之一。它用于檢測、定位、排除網(wǎng)絡硬件和軟件中的故障。當出現(xiàn)故障時,該功能確認故障,并常常要記錄故障,找出故障位置并盡可能排除這些故障。
2) 配置管理的功能是掌握和控制互連網(wǎng)絡的狀態(tài)。它初始化網(wǎng)絡,并配置網(wǎng)絡,以使其提供網(wǎng)絡服務。同時它還隨時檢測互連網(wǎng)絡內各設備的狀態(tài)及其連接關系。
3) 性能管理考慮的是具體網(wǎng)絡的利用情況。配置管理考慮的是互連網(wǎng)運行是否正常,而性能管理考慮的則是具體網(wǎng)絡的利用情況。性能管理是網(wǎng)絡管理人員能夠監(jiān)視網(wǎng)絡運行的關鍵參數(shù),如吞吐率、響應時間、網(wǎng)絡的一般可用度,并指出
網(wǎng)絡中哪些性能可以改善以及如何改善。
4) 安全管理是對網(wǎng)絡資源及其重要信息訪問的約束和控制,包括驗證網(wǎng)絡用戶的訪問權限和優(yōu)先級、檢測和記錄未授權用戶企圖進行的不應的操作。
5) 計費管理的功能是度量各個端用戶和應用程序對網(wǎng)絡資源的使用情況。根據(jù)連接時間、連接跨越網(wǎng)絡的長度、用戶名和其他的參數(shù),采用與具體實現(xiàn)有關的各種算法來計算對網(wǎng)絡資源的使用,使用情況一般都以日志方式記錄到帳務數(shù)據(jù)庫中。計費管理功能提供了一種計算一個特定網(wǎng)絡或網(wǎng)段運行成本的手段。
3.3 網(wǎng)絡管理的模型
許多國際化組織和研究機構致力于網(wǎng)絡管理標準的研究和制定。其中,最具代表性的是由IETF提出的基于簡單網(wǎng)絡管理協(xié)議(SNMP)的TCP/IP互聯(lián)網(wǎng)(Intemet)管理體系模型和由ISO提出的基于公共管理信息協(xié)議(CMIP)的OSI網(wǎng)絡管理體系模型。SNMP是適用于互連網(wǎng)絡設備的網(wǎng)絡管理框架,首先考慮的是TCP/IP協(xié)議集。CMIP是為運行在OSI協(xié)議集上的開放系統(tǒng)提供一個網(wǎng)絡管理框架。網(wǎng)絡管理系統(tǒng)從邏輯上由管理進程(Manager)、管理代理(Agent)、管理對象(ManagedObject)、管理協(xié)議及管理應用等組成。網(wǎng)絡中所有被管理的資源,包括設備、軟件、以及網(wǎng)絡連接等物理和邏輯上的資源都被抽象成被管對象,并且組成層次化的管理信息庫(MIB)。管理代理Agent是一種軟件,在被管理的設備(也稱網(wǎng)絡實體或子系統(tǒng))中運行,負責執(zhí)行管理設備收集信息的任務,它直接操作本地MIB。如果需要,它可以改變MIB的值并將相應數(shù)據(jù)傳回管理進程。代理也負責將管理對象發(fā)出的異常事件報告給管理進程。管理進程Manage∶是一個或一組軟件程序,一般運行在網(wǎng)絡管理站(或網(wǎng)絡管理中心)的主機上,它可以在網(wǎng)絡管理協(xié)議(如SNMP)的支持下命令管理代理執(zhí)行各種管理操作。管理信息庫MIB是一個概念上的數(shù)據(jù)庫,由管理對象組成,每個管理代理管理MIB中屬于本地的管理對象,各管理代理控制的管理對象共同構成全網(wǎng)的管理信息庫。管理進程與管理代理間的雙向信息由管理協(xié)議來支持。
4 數(shù)據(jù)挖掘在網(wǎng)絡管理中的應用
數(shù)據(jù)挖掘技術本身是一項通用的知識發(fā)現(xiàn)技術,可以從海量數(shù)據(jù)中提取出所感興趣的數(shù)據(jù)知識,結合這一特點,將數(shù)據(jù)挖掘技術應用于網(wǎng)絡故障管理中, 構建基于數(shù)據(jù)挖掘的關聯(lián)規(guī)則實現(xiàn)對網(wǎng)絡故障管理。網(wǎng)絡故障管理是對網(wǎng)絡系統(tǒng)非正常操作的操作管理。故障管理的主要內容有:1) 故障檢測:維護和檢查差錯日志,檢查事件的發(fā)生率看是否己(或將)成為故障,接收故障報告;2) 故障診斷:尋找故障發(fā)生的原因,可執(zhí)行診斷測試,以尋找故障發(fā)生的準確位置;3) 故障恢復:將故障點從正常系統(tǒng)中隔離出去,并根據(jù)故障原因進行修復。其管理過程如圖2。
網(wǎng)絡狀態(tài)監(jiān)視包括分層顯示配置和狀態(tài)圖,它提供主要網(wǎng)絡元素全時間的狀態(tài)顯示,允許用戶放大有關部分以檢查和孤立問題并提供實時的業(yè)務狀態(tài)顯示。故障清單中保存有已知的故障及其診斷和恢復信息。網(wǎng)絡故障檢測主要采用兩種方式:主動輪詢方式和Trap機制。當故障發(fā)生時會產(chǎn)生相應的告警信息,這些信息存放在網(wǎng)絡管理數(shù)據(jù)庫中。在現(xiàn)代網(wǎng)絡中,每天不同時間發(fā)生的成千上萬條告警組成一個告警流,處理告警流是一項十分困難的工作。對于一個大型的通信網(wǎng)絡,由于設備種類的繁多和網(wǎng)絡結構的復雜,所產(chǎn)生的告警信息的類型和數(shù)量都極為可觀; 告警具有突發(fā)性,在很短的時間區(qū)間內可能產(chǎn)生很多不同種類的告警,網(wǎng)管人員很難迅速判斷告警的輕重緩急并及時處理;通信網(wǎng)絡中軟硬件的更新?lián)Q代使新的節(jié)點加入或舊的節(jié)點更新時,告警序列的特點也隨之發(fā)生改變,網(wǎng)管人員要及時跟上這些變化具有相當?shù)碾y度。為了解決處理海量告警信息的困難, 必須要引入智能化技術和有效的基于知識的信息處理技術。研究發(fā)現(xiàn), 雖然網(wǎng)絡中的告警信息很多,但它們之間往往存在某種關聯(lián)性,利用這點來進行關聯(lián)性分析,建立規(guī)則庫進行智能故障管理。如通過建立告警-告警規(guī)則來進行告警過濾,借助告警-故障規(guī)則進行故障定位和辨識,依靠告警-業(yè)務規(guī)則來在網(wǎng)絡業(yè)務未受到影響或中斷前找出潛在的問題并予以有效處理。隨著時間的推移,網(wǎng)絡設備會不斷出現(xiàn)新的故障類型、新的故障消息和新的業(yè)務障礙,不斷對規(guī)則庫進行更新操作,以適應網(wǎng)絡管理的需要。目前,將數(shù)據(jù)挖掘技術應用于網(wǎng)絡故障管理已成為新的研究熱點。
4 結語
網(wǎng)絡管理系統(tǒng)每天都產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)存儲在網(wǎng)絡管理數(shù)據(jù)庫中,通過利用數(shù)據(jù)挖掘這個新型工具,獲得網(wǎng)管數(shù)據(jù)中存在有用的知識,將它與數(shù)據(jù)倉庫,模型庫結合起來形成智能網(wǎng)絡管理系統(tǒng),從而對網(wǎng)絡進行更為有效的管理。
參考文獻:
[1] 李雄飛,李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京:高等教育出版社,2003.
[2] 敖廣武,溫春友.數(shù)據(jù)挖掘在網(wǎng)絡故障管理中的應用[J].計算機安全,2006.8.