摘 要:研究宏觀網(wǎng)絡安全數(shù)據(jù)挖掘系統(tǒng)的目的是保護大型網(wǎng)絡中關鍵網(wǎng)絡基礎設施的可用性、機密性和完整性。為此,首先提出了一種宏觀網(wǎng)絡數(shù)據(jù)挖掘的系統(tǒng)框架;然后分析了宏觀網(wǎng)絡挖掘子系統(tǒng)和態(tài)勢分析子系統(tǒng); 最后利用網(wǎng)格計算技術實現(xiàn)了該平臺, 并給出了其運行環(huán)境。該系統(tǒng)具有可擴展性, 能有效進行宏觀網(wǎng)絡的數(shù)據(jù)挖掘和實時勢態(tài)感知。
關鍵詞:數(shù)據(jù)挖掘;網(wǎng)格計算;網(wǎng)格服務
中圖分類號:TP309 文獻標志碼:A 文章編號:1001-3695(2008)08-2480-04
Cyberspace network data mining grid system
LIN Dong-dai1, SHI Ming-ruo2, SHEN Gui-cheng2
(1.State Key Laboratory of Information Security, Institute of Software, Chinese Academy of Sciences, Beijing 100080, China;2.Beijing Wuzi University, Beijing 101149, China)
Abstract:Research on cyberspace network security data mining system is to protect the usability, secret and integrity of key network infrastructure. This paper firstly put forward a framework for cyberspace network data mining system. Then described network mining subsystem and situational apperception subsystem.Finally discussed the corresponding system implementation and its runtime environment. The framework was scalable to conduct cyberspace data mining and situational apperception effectively.
Key words:data mining; grid computing; grid service
0 引言
宏觀網(wǎng)絡安全的規(guī)律性知識(正常和異常模式)難以被及時和有效發(fā)現(xiàn), 迫切需要借助數(shù)據(jù)挖掘工具。隨著計算機及網(wǎng)絡技術的發(fā)展, 計算機網(wǎng)絡的應用已深入到社會生活的各個領域, 網(wǎng)絡黑客入侵和攻擊手段也日顯復雜性和隱蔽性, 集中表現(xiàn)在攻擊的分布化、攻擊對象擴大到網(wǎng)絡中的所有組件。網(wǎng)絡安全問題在宏觀上已威脅到國家的政治、經(jīng)濟和軍事安全, 在微觀上也已影響到部門正常工作。為此,迫切需要一個科學的方法來研究宏觀網(wǎng)絡空間(cyberspace)的可靠性, 辨識、跟蹤、評估帶有多重復雜威脅的計算機空間的整體狀態(tài)。對互聯(lián)網(wǎng)的關鍵基礎設施從宏觀上進行安全態(tài)勢分析、網(wǎng)絡大規(guī)模異常發(fā)現(xiàn)和感知, 必要時進行應急響應, 以保障網(wǎng)絡基礎設施(如骨干網(wǎng))的正常運行和安全, 有效預防和遏制以網(wǎng)絡為中心的威脅。然而由于大型網(wǎng)絡日趨復雜, 以及攻擊網(wǎng)絡能力不斷提高且形式多樣化, 造成難以有效地從時間和空間兩個維度發(fā)現(xiàn)宏觀網(wǎng)絡的正常和異常運行模式, 以及模式之間的變化規(guī)律, 它已成為網(wǎng)絡安全的研究熱點, 同時也是制約宏觀網(wǎng)絡安全分析的關鍵。
雖然分布式數(shù)據(jù)源(如流經(jīng)基礎設施的原始網(wǎng)絡數(shù)據(jù)、路由器、防火墻和交換機日志以及入侵檢測系統(tǒng)的高級報警事件)有大量的數(shù)據(jù)可供分析, 但是數(shù)據(jù)具有廣泛分布、跨多個組織、數(shù)據(jù)格式差異大、海量等特點,給數(shù)據(jù)收集、傳輸、格式轉(zhuǎn)換及存儲提出了挑戰(zhàn)。從不同數(shù)據(jù)數(shù)據(jù)源中得到的海量宏觀網(wǎng)絡安全歷史數(shù)據(jù)中, 蘊涵著宏觀網(wǎng)絡運行潛在的正常和異常的規(guī)律性知識。入侵檢測研究[1~3]結(jié)果表明, 數(shù)據(jù)挖掘是目前發(fā)現(xiàn)宏觀網(wǎng)絡安全態(tài)勢知識的最有效手段。宏觀網(wǎng)絡安全數(shù)據(jù)挖掘的目的是從海量的原始數(shù)據(jù)中挖掘出宏觀網(wǎng)絡的正常和各種異常運行模式。針對宏觀網(wǎng)絡安全威脅的速度一直在加快, 威脅的復雜性也在不斷提高, 網(wǎng)絡分析人員迫切需要及時發(fā)現(xiàn)宏觀網(wǎng)絡新異常知識和實時監(jiān)測新異常的工具。數(shù)據(jù)挖掘技術是目前自動發(fā)現(xiàn)宏觀網(wǎng)絡安全規(guī)律性知識最有效的手段。
研究宏觀網(wǎng)絡安全數(shù)據(jù)挖掘系統(tǒng)的目的是保護大型網(wǎng)絡中關鍵網(wǎng)絡基礎設施的可用性、機密性和完整性, 這涉及到保護網(wǎng)絡基礎設施免遭拒絕服務攻擊(DoS)、蠕蟲病毒、未授權(quán)的信息泄露、修改和破壞, 實時監(jiān)視和分析網(wǎng)絡的態(tài)勢, 進行大規(guī)模異常感知和及時報警。由于大型網(wǎng)絡的數(shù)據(jù)流量大, 網(wǎng)絡結(jié)構(gòu)復雜,給分析、統(tǒng)計和異常感知帶來了極大的困難。其中最主要的困難是盡管有海量的原始數(shù)據(jù), 但是卻難以發(fā)現(xiàn)其規(guī)律性。在國內(nèi)外, 研究宏觀網(wǎng)絡的安全還剛剛處于起步階段, 并沒有試圖給出一種有效的框架進行挖掘和態(tài)勢感知。
由于網(wǎng)格技術能潛在地將分布式數(shù)據(jù)源、異構(gòu)的處理資源及已有的和新的數(shù)據(jù)挖掘工具有效地集成起來, 人們正在探索如何將網(wǎng)格計算技術應用到數(shù)據(jù)挖掘中, 已有研究工作主要集中在基于網(wǎng)格的數(shù)據(jù)挖掘體系結(jié)構(gòu)上。調(diào)查和開發(fā)網(wǎng)格系統(tǒng)的經(jīng)驗表明, 網(wǎng)格計算技術將是構(gòu)建實用宏觀網(wǎng)絡安全數(shù)據(jù)挖掘和勢態(tài)感知系統(tǒng)最有效的技術和方向。
本文通過對大型網(wǎng)絡可能出現(xiàn)的宏觀異常進行研究, 根據(jù)主流的宏觀異常(拒絕服務攻擊、蠕蟲病毒、 惡意消耗網(wǎng)絡帶寬、宏觀網(wǎng)絡關鍵基礎設施的損壞), 以及宏觀網(wǎng)絡異常種類不斷增加的趨勢, 提出靈活、可擴展的宏觀網(wǎng)絡數(shù)據(jù)挖掘方案、異常感知和決策支持方案;并在此基礎上開發(fā)出大規(guī)模網(wǎng)絡安全數(shù)據(jù)挖掘和綜合分析原型系統(tǒng), 提供大規(guī)模網(wǎng)絡異常特征發(fā)現(xiàn), 構(gòu)建安全態(tài)勢分析仿真模型, 開發(fā)行為感知相關的算法及原型系統(tǒng)。
1 相關工作
網(wǎng)絡安全分析和研究工作已取得了許多研究成果[1~6]。例如訪問控制系統(tǒng)、防火墻、VPN、物理隔離、網(wǎng)絡防毒、反垃圾郵件、入侵檢測系統(tǒng)、路由器和交換機的日志分析, 這些都能從某一個方面保護網(wǎng)絡的安全。由于這些研究和產(chǎn)品并不是專門針對大型宏觀網(wǎng)絡,它們不足以對宏觀網(wǎng)絡的態(tài)勢進行分析和預測。但是這些產(chǎn)品的結(jié)果卻可以作為宏觀網(wǎng)絡分析的數(shù)據(jù)來源。
Zhu等人[7]提出了分類器的方法對帶有噪聲的數(shù)據(jù)流進行挖掘,這種方法能有效去除需要挖掘的歷史數(shù)據(jù)的噪聲; Nittel等人[8]提出了對數(shù)據(jù)源進行并行聚類分析的方法, 分析了如何有效地進行并行數(shù)據(jù)挖掘; Floering等人[9,10]提出了監(jiān)視和分析高速網(wǎng)絡的自適應方法; Sanchez等人[11]提出在網(wǎng)格環(huán)境進行數(shù)據(jù)挖掘的框架, 但是這種框架并不適用于大規(guī)模宏觀網(wǎng)絡環(huán)境。
網(wǎng)格計算是一種新型的廣域網(wǎng)分布式計算技術。網(wǎng)格(grid)[12]是由分布在網(wǎng)絡上的異構(gòu)計算機(網(wǎng)格節(jié)點) 構(gòu)成的虛擬超級計算機, 從而有效利用其上的各種軟件、硬件和網(wǎng)絡資源, 進行高效分布式、動態(tài)和異構(gòu)計算。網(wǎng)格計算是研究如何將互連的工作站組織起來, 有效地利用其計算、存儲能力的研究領域。隨著網(wǎng)格計算研究和應用的需求,相繼出現(xiàn)了一些網(wǎng)格計算環(huán)境。其中最著名和應用最廣泛的是Globus Toolkit網(wǎng)格計算工具包, 它是由美國USC的信息科學研究所和阿岡(Argonme)國家重點實驗室開發(fā)的網(wǎng)格計算平臺。OGSA(open grid service architecture, 開放的網(wǎng)格服務體系結(jié)構(gòu))是使用網(wǎng)格關鍵技術和Web 服務(Web services)機制構(gòu)建的一個集成的、分布式系統(tǒng)框架。網(wǎng)格服務是它的統(tǒng)一服務語義(創(chuàng)建、命名和發(fā)現(xiàn)臨時服務實例的標準機制), 提供了服務實例的位置透明性和多重協(xié)議綁定, 并支持與本地平臺系統(tǒng)的集成。Globus Toolkit是OGSA的一個參考實現(xiàn), 它是一個網(wǎng)格系統(tǒng)的開發(fā)環(huán)境,包括暴露網(wǎng)格服務和訪問網(wǎng)格服務實現(xiàn)的編程模型。對于Globus平臺, 一個單一的網(wǎng)格節(jié)點的計算和數(shù)據(jù)資源被看做一些網(wǎng)格服務。WSRF(Web services resource framework, 網(wǎng)格服務資源框架)是OGSA規(guī)范的擴充和改進, 能建模有狀態(tài)的資源, GT4(Globus Tookit 4)是支持WRSF規(guī)范的一個網(wǎng)格開發(fā)工具包。現(xiàn)在GT已被應用到包括科學計算、電子商務和電子政務在內(nèi)的多個行業(yè)。
2 系統(tǒng)模型
本文提出的整個系統(tǒng)框架如圖1所示。該框架由一些網(wǎng)格服務組成, 它們可以方便地在不同計算節(jié)點上部署, 形成宏觀網(wǎng)絡安全數(shù)據(jù)挖掘和異常感知網(wǎng)格系統(tǒng)。
系統(tǒng)各組件的含義如下: a)元目錄服務(MDS), 存放和訪問傳感器(數(shù)據(jù)源)、學習組件、分類器組件的元信息。 在系統(tǒng)運行過程中, 通過該服務, 目錄數(shù)據(jù)庫能夠被各種服務查詢、插入、刪除和更新。b)決策支持服務, 用于輔助網(wǎng)絡管理人員進行決策支持。c)數(shù)據(jù)挖掘服務, 根據(jù)需要自動加載元學習插件進行學習,必要時可關聯(lián)多個元學習插件, 以便得到更抽象的知識;考慮到數(shù)據(jù)分布特性和計算資源的限制,可進行水平和垂直分布式數(shù)據(jù)挖掘。d)勢態(tài)檢測服務,根據(jù)從歷史數(shù)據(jù)中挖掘的知識對網(wǎng)絡勢態(tài)進行實時檢測和分析。為了得到高層次的異常事件和勢態(tài), 勢態(tài)檢測服務可以使用多個不同級別的元分類器插件進行異常檢測和感知;根據(jù)需要, 元分類器插件可以選擇多個相關的數(shù)據(jù)源進行分析, 以便得到多個傳感器融合后的態(tài)勢結(jié)果。e)數(shù)據(jù)訪問服務, 根據(jù)調(diào)用者提供的數(shù)據(jù)元信息, 將對應數(shù)據(jù)源中的數(shù)據(jù)進行過濾和預處理后, 提交給調(diào)用者, 或者存儲至數(shù)據(jù)倉庫。f)數(shù)據(jù)仲裁服務, 對分布式數(shù)據(jù)進行集成, 然后將集成后的數(shù)據(jù)提交給數(shù)據(jù)挖掘服務, 或者提交給勢態(tài)檢測服務。g)對象庫, 為了增加勢態(tài)的準確性, 本文采用基于TCP/IP和SNMP MIB管理框架的TCP/IP威脅分類法。SNMP MIB非常適于表達以網(wǎng)絡為中心的威脅和異常。本文對TCP/IP協(xié)議的層次進行編號并用安全威脅所在的協(xié)議層擴展編號來表示威脅, 這樣便于元分類器的使用;還可將數(shù)據(jù)組織成數(shù)據(jù)流進行勢態(tài)異常分布式和并行檢測, 組合多種分類器, 同時保證充分重用已有的和新加入的元分類器。
整個框架被分為兩個子系統(tǒng):a)大規(guī)模宏觀網(wǎng)絡安全數(shù)據(jù)挖掘子系統(tǒng)。其目的是通過在網(wǎng)格環(huán)境下對大規(guī)模宏觀網(wǎng)絡歷史數(shù)據(jù)進行分析和挖掘, 獲取宏觀網(wǎng)絡安全的規(guī)律性知識。b)網(wǎng)絡異常感知異常發(fā)現(xiàn)子系統(tǒng)。其目的是應用挖掘子系統(tǒng)得出的知識, 實時分析網(wǎng)絡的當前運行狀態(tài), 從而得出網(wǎng)絡的態(tài)勢。
1)大規(guī)模宏觀網(wǎng)絡安全數(shù)據(jù)挖掘子系統(tǒng)的設計
本文提出的大規(guī)模宏觀網(wǎng)絡安全數(shù)據(jù)挖掘子系統(tǒng)的模型如圖2所示。
該子系統(tǒng)是一個網(wǎng)絡勢態(tài)和異常相關知識創(chuàng)建及求精的過程。本文將以前收集的數(shù)據(jù)過濾、變換并組織成信息集合;信息集合進一步被用于發(fā)現(xiàn)隱藏的且未曾被檢測出來的宏觀網(wǎng)絡勢態(tài)模式(situational patterns)以便用于未來的勢態(tài)分析和異常感知。來自相關網(wǎng)絡管理系統(tǒng)和入侵監(jiān)測系統(tǒng)收集到的原始數(shù)據(jù)將被放入數(shù)據(jù)倉庫。數(shù)據(jù)源的種類多(數(shù)據(jù)包嗅探器輸出、防火墻日志、交換機日志、路由器日志和入侵監(jiān)測系統(tǒng)輸出等)、數(shù)據(jù)源的位置分散且格式不同、數(shù)據(jù)的定義不一致, 一種數(shù)據(jù)源僅包含挖掘所需要的部分信息, 因此需要數(shù)據(jù)清洗和融合。一個數(shù)據(jù)挖掘過程需要在數(shù)據(jù)倉庫中選擇初始數(shù)據(jù), 并根據(jù)挖掘算法的需求進行變換。對選擇的數(shù)據(jù)集進行數(shù)據(jù)挖掘時, 可能采用手工模式, 也可能采用自動模式。在宏觀網(wǎng)絡數(shù)據(jù)挖掘中, 使用的挖掘操作包括 聚類、關聯(lián)分析、統(tǒng)計分析、規(guī)則歸約、關聯(lián)歸約、樹歸約、偏離分析和神經(jīng)網(wǎng)絡分析。
本文對常見的宏觀網(wǎng)絡異常和各種數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)和類型進行了分析, 在數(shù)據(jù)源中找出能夠反映各種宏觀網(wǎng)絡異常的特征集合。本文參考入侵檢測系統(tǒng)、網(wǎng)格計算系統(tǒng)和網(wǎng)絡管理系統(tǒng)的相關標準和已有方法, 并為每一種數(shù)據(jù)源定義基于XML格式的元信息(meta-info)。它包括數(shù)據(jù)源元數(shù)據(jù)的格式、表達標準、存儲方法、解析方法以及與具體數(shù)據(jù)源的綁定方法。子系統(tǒng)根據(jù)對收集數(shù)據(jù)的范圍、約束以及數(shù)據(jù)的引用和層次關系, 與數(shù)據(jù)源元數(shù)據(jù)進行對照, 分布式提取每一種數(shù)據(jù)源的數(shù)據(jù), 然后根據(jù)元數(shù)據(jù)進行數(shù)據(jù)清洗和格式轉(zhuǎn)換。采用數(shù)據(jù)源元數(shù)據(jù)保證可隨時加入新的數(shù)據(jù)源種類, 而不需要對子系統(tǒng)進行更改。同時, 本文也設計了GUI接口, 便于對挖掘算法的結(jié)果進行分析、求精和消減。
為了能夠組合多種數(shù)據(jù)挖掘算法同時進行挖掘, 本文將挖掘算法包裝成插件(plug-ins)并提供統(tǒng)一的接口, 以便子系統(tǒng)進行分布式順序或并行數(shù)據(jù)挖掘。這種策略的目的是將挖掘算法與被分析的數(shù)據(jù)分開, 使得算法能夠容易地動態(tài)集成和動態(tài)擴充。本文把這些挖掘算法定義為元算法;元算法也需要通過元信息進行描述, 進一步實現(xiàn)子系統(tǒng)動態(tài)綁定和遠程復制。通過挖掘發(fā)現(xiàn)的模型可以被人工求精, 并存儲和分發(fā), 便于日后進行分布式異常感知。為了達到可擴充性和靈活性, 本文采用XML語言作為插件的元數(shù)據(jù)描述方式。在發(fā)現(xiàn)的知識中, 本文按知識的層次分成多級勢態(tài)知識, 從而對勢態(tài)進行多級分析。本文提出的方法可保證, 數(shù)據(jù)挖掘可以在分布式環(huán)境中進行, 而且分布的粒度也可按計算資源的具體情況動態(tài)適應。
為了有效利用多種學習算法, 本文采用元學習(meta-learning)方法,其目的是關聯(lián)多重異常檢測模型, 通過學習最終產(chǎn)生一個組合的檢測模型。這種方法需要分析宏觀網(wǎng)絡安全數(shù)據(jù)的特征集合以及多個檢測模型之間的內(nèi)在聯(lián)系, 通過適當?shù)奶卣骷蠈⒍鄠€模型關聯(lián)起來, 使產(chǎn)生的組合模型效率更高, 而且能夠得到更高層次的異常事件。
2)大規(guī)模網(wǎng)絡異常感知異常發(fā)現(xiàn)子系統(tǒng)的設計
本文采用的大規(guī)模異常行為感知和發(fā)現(xiàn)子系統(tǒng)如圖3所示。
本文將異常感知子系統(tǒng)設計成分布式、靈活并可擴展的。由于知識是分層的,根據(jù)知識本身的層次, 本文將異常規(guī)則分配到與網(wǎng)絡傳感器接近的底層, 將中層知識放在多個網(wǎng)絡傳感器的局部匯聚點, 而將高層全局知識放在頂層的異常發(fā)現(xiàn)點上。這樣可以保證異常發(fā)現(xiàn)和行為感知可以分布式進行, 充分利用分布式資源, 以期達到網(wǎng)絡宏觀實時異常發(fā)現(xiàn)的目標。本文把每一個傳感器的輸出看做一個流(stream), 把每一個相關的異常發(fā)現(xiàn)規(guī)則集合包裝成一個網(wǎng)絡異常分類器(classifier)。網(wǎng)絡異常檢測時, 系統(tǒng)根據(jù)某種算法將網(wǎng)絡傳感器定向到低級異常分類器, 低級異常分類器的輸出是低級網(wǎng)絡事件流, 系統(tǒng)再將低級異常事件流作為相關高級的分類器的輸入, 這樣逐步得到更高層次的事件, 最終至最頂層, 網(wǎng)絡分析人員看到的是直觀的網(wǎng)絡勢態(tài)和宏觀的匯總信息。對于異常趨勢, 子系統(tǒng)將給出異常的起源、目的地、可能造成的影響, 以及應該采取的建議措施, 以便輔助網(wǎng)絡安全人員進行決策。由于采用統(tǒng)一接口的分類器, 當發(fā)現(xiàn)新的異常, 并且通過挖掘提取到新的知識后, 可以包裝成新的分類器動態(tài)(即插即用)添加到實時監(jiān)測子系統(tǒng)的相應級別。
3 實現(xiàn)
由于該系統(tǒng)中的數(shù)據(jù)具有異構(gòu)和分布式特點, 大規(guī)模網(wǎng)絡安全異常感知和數(shù)據(jù)挖掘的數(shù)據(jù)處理量巨大, 并需要強大的處理能力。資料顯示, 傳統(tǒng)的分布式入侵檢測和分布式數(shù)據(jù)挖掘速度相對需求來說慢, 且計算敏感。為了使本系統(tǒng)的系統(tǒng)負載平衡并能更合理地利用處理和存儲資源, 本文通過分析和比較, 采用網(wǎng)格計算技術開發(fā)整個系統(tǒng), 帶來如下三個好處:a)高的檢測負載可以在分布式節(jié)點之間共享和平衡;b)可避免因大量網(wǎng)絡傳輸而導致系統(tǒng)崩潰;c)網(wǎng)格技術本身支持資源的訪問、分配和管理, 以及提供可擴展的安全解決方案, 能提高系統(tǒng)的魯棒性和安全性。
系統(tǒng)實現(xiàn)基于網(wǎng)格開發(fā)工具包GT4, 保證所有的節(jié)點都可以部署在任意硬件和軟件平臺上;同時利用GT4本身提供的網(wǎng)格安全組件GSI和PKI對系統(tǒng)各組件、用戶信息及其他各種數(shù)據(jù)和信息進行加密、認證和簽名等多種安全保護。對于大數(shù)據(jù)集, 采用GT4的GRIDFTP進行安全數(shù)據(jù)傳輸。使用GT4還能保證與其他系統(tǒng)(如外部入侵檢測系統(tǒng)和事件響應系統(tǒng))協(xié)作, 而且容易集成第三方的工具(如網(wǎng)絡數(shù)據(jù)包分析工具TCPDUMP和外部分類器RIPPER等)。利用GT4的通知/預定機制可以使該系統(tǒng)各組件在時間和空間兩方面進行異步操作, 從而達到更高程度的并行處理。
本文開發(fā)了一個原型系統(tǒng), 系統(tǒng)運行環(huán)境的網(wǎng)絡拓撲圖如圖4所示。
1)節(jié)點組成
在圖4中, 本系統(tǒng)的節(jié)點機包括中心數(shù)據(jù)挖掘機、 數(shù)據(jù)挖掘機1、 數(shù)據(jù)挖掘機2、 中心異常檢測機、異常檢測機、中心數(shù)據(jù)倉庫、數(shù)據(jù)倉庫1、數(shù)據(jù)倉庫2、對象/模式庫、GUI控制臺以及若干的傳感器。由于整個系統(tǒng)是分布式的,隨著實際網(wǎng)絡環(huán)境不同, 考慮到性能等因素, 這些組件的位置會有所不同。
2)節(jié)點的功能
a)GUI控制臺,控制網(wǎng)絡安全數(shù)據(jù)的挖掘和大型網(wǎng)絡的實時檢測, 它是網(wǎng)絡管理員與整個系統(tǒng)的接口。
b)數(shù)據(jù)挖掘機,負責分布式數(shù)據(jù)挖掘。根據(jù)實際需要, 數(shù)據(jù)挖掘機可能有多個, 目的是為了進行水平或者垂直數(shù)據(jù)挖掘。在每一次數(shù)據(jù)挖掘會話中, 每一個挖掘機可能順序或者并行啟用多個元學習插件, 以便生成高層的異常模式。在測試環(huán)境中, 有三臺數(shù)據(jù)挖掘機, 數(shù)據(jù)挖掘機1和數(shù)據(jù)挖掘機2挖掘的知識層次較低, 或者只能挖掘出部分知識;中心挖掘機能夠挖掘更高層次的知識。
c)異常檢測機,進行實時的宏觀網(wǎng)絡安全異常檢測。中心異常檢測機和異常檢測機1可進行分布式檢測。異常檢測機1使用多個相對低級的元分類器進行低級別,或者耗時較少的異常檢測;中心異常檢測機的檢測使用相對高級的元分類器,負責發(fā)現(xiàn)高級的宏觀網(wǎng)絡安全異常, 將最終得到的網(wǎng)絡勢態(tài)和高層次網(wǎng)絡異常事件報告給GUI控制臺, 以便網(wǎng)絡安全人員掌握網(wǎng)絡勢態(tài), 輔助網(wǎng)絡安全人員進行決策。
d)數(shù)據(jù)倉庫,存儲海量網(wǎng)絡安全原始數(shù)據(jù)。在該環(huán)境中, 被挖掘出的各種網(wǎng)絡宏觀異常勢態(tài)模型被存放在對象/模型庫中;被數(shù)據(jù)挖掘出的新對象/異常模型將被加入到異常對象編碼庫中, 在異常檢測時, 異常檢測節(jié)點將從該庫中提取需要的模型信息。中心數(shù)據(jù)倉庫、數(shù)據(jù)倉庫1和2分別存儲海量的網(wǎng)絡安全數(shù)據(jù), 多個傳感器會根據(jù)需要將網(wǎng)絡安全原始數(shù)據(jù)追加至這三個數(shù)據(jù)倉庫中。在數(shù)據(jù)挖掘時, 元學習插件會根據(jù)需要提取特定的數(shù)據(jù)子集(行和列兩個方向)。
e)傳感器,分布在大型網(wǎng)絡關鍵基礎設施的附近(對大型網(wǎng)絡關鍵的服務器、路由器、防火墻、交換機、子網(wǎng)以及入侵檢測系統(tǒng)), 負責獲取網(wǎng)絡安全原始數(shù)據(jù)。原始數(shù)據(jù)包括子網(wǎng)數(shù)據(jù)包組裝后的連接信息,路由器、交換機、防火墻和關鍵主機的流量信息及日志信息。由
于目前已有很多sniffer, 連接組裝器和日志提取服務, 本文編寫了傳感器元信息來集成這些工具, 避免重復開發(fā), 提高可擴展性。
4 結(jié)束語
本文提出了一種宏觀網(wǎng)絡數(shù)據(jù)挖掘網(wǎng)格系統(tǒng)。由于網(wǎng)格系統(tǒng)具有協(xié)議的統(tǒng)一性、與系統(tǒng)平臺的無關性、開放性以及面向服務的體系結(jié)構(gòu),本文將系統(tǒng)劃分為若干個相對獨立的網(wǎng)格服務, 使得該系統(tǒng)能夠分布式進行并行大規(guī)模宏觀網(wǎng)絡數(shù)據(jù)挖掘和實時態(tài)勢分析, 充分利用更多的異構(gòu)資源以及更大程度的分布, 提高并行性。本文將數(shù)據(jù)源看做數(shù)據(jù)流, 通過元數(shù)據(jù)對數(shù)據(jù)源進行描述, 不同數(shù)據(jù)源可以方便地集成到該系統(tǒng)中, 還可根據(jù)需要對數(shù)據(jù)源進行分級, 上級分析容易利用下級分析的結(jié)果。由于根據(jù)不同的數(shù)據(jù)量和挖掘速度、準確度以及關聯(lián)分析的需要, 系統(tǒng)可能需要不斷加入新的挖掘算法。本文采用元算法對算法的描述, 能統(tǒng)一處理不同的挖掘算法, 并能隨時將相關的不同挖掘算法集成, 進行關聯(lián)分析。本文采用網(wǎng)絡異常分類器包裝異常發(fā)現(xiàn)規(guī)則, 使規(guī)則能有效復用, 而且便于處理不同級別的異常。
參考文獻:
[1]MUKHERJEE B,HEBERLEIN L T,LEVITT K N.Network intrusion detection[J]. IEEE Network,1994,8(3):26-41.
[2]BREZANY P, HOFER J, WOHRER A,et al. Towards an open service architecture for data mining on the grid[C]//Proc of the 14th International Workshop on Database and Expert Systems Applications.Washington DC:IEEE Computer Society Press,2003: 113-120.
[3]LEE W,STOLFO S J,MOK K W.A data mining framework for building intrusion dectection models [C]//Proc of 1999 IEEE Symposium on Security and Privacy.Oakland,CA:IEEE Computer Society Press,1999: 120- 132.
[4]唐正軍, 李建華. 入侵檢測技術[M]. 北京: 清華大學出版社, 2004.
[5]ROIGER J R,GEATZ M W.數(shù)據(jù)挖掘教程[M]. 翁敬農(nóng),譯. 北京: 清華大學出版社, 2003.
[6]馮登國.計算機通信網(wǎng)絡安全[M].北京: 清華大學出版社, 2001.
[7]ZHU Xing-quan,WU Xin-dong,YANG Ying. Dynamic classifier selection for effective mining from noisy data streams[C]//Proc of the 4th IEEE International Conference on Data Mining.Washington DC:IEEE Computer Society Press,2004:305-312.
[8]NITTEL S, LEUNG K T. Parallelizing clustering of geoscientific data sets using data streams[C]//Proc of the 16th International Confe-rence on Scientific and Statistical Database Management.Washington DC:IEEE Computer Society Press,2004:73-84.
[9]FLOERING B, BROTHERS B,KAIBARCZYK Z,et al. An adaptive architecture for monitoring and failure analysis of high-speed networks[C]//Proc of the International Conference on Dependable Systems and Networks.Washington DC: IEEE Computer Society Press,2002:69-78.
[10]BASS T,ROAD S.Publish-subscribe enabled multisensor data fusion[C]//Proc of the 5th International Conference on Information Fusion.[S.l.]:IEEE Computer Society Press,2002:1076-1083.
[11]SANCHEZ A,PENA J M,PREZ M S, et al. Improving distributed data mining techniques by means of a grid infrastructure[C]//LNCS 3292.2004:111-122.
[12]FOSTER I,KESSEIMAN C,NICK J,et al. The physiology of the grid:an open grid services architecture for distributed systems integration [J]. IEEE Computer, 2002,35(6):37-46.
[13]JIN Hai,SUN Jian-hua,CHEN hao,et al. A fuzzy data mining based intrusion detection model[C]//Proc of the 10th IEEE International Workshop on Future Trends of Distributed Computing Systems.Washington DC:IEEE Computer Society Press,2004:191-197.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文