馬 姝 商美妮
[摘要]數據挖掘能從大量數據中提取出潛在的有應用價值的模式,而粗糙集理論作為一種分析不確定知識的強有力的數學工具,為數據挖掘提供一種嶄新的工具。建立網絡入侵檢測的系統結構,通過粗糙集方法在預處理中屬性約簡的應用,減小處理數據的規模,通過測試集上的實驗得到驗證粗糙集適用于入侵檢測這樣大數據集的問題。
[關鍵詞]粗糙集理論入侵檢測屬性約簡
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0710119-01
一、引言
互聯網正在不斷地高速發展,與此同時互聯網的開放性和安全漏洞帶來的安全風險也無處不在,網絡安全問題變得更加錯綜復雜。為了保證網絡系統的安全,就需要有一種能夠及時發現并報告系統中未授權或異常現象的技術,即入侵檢測系統(Intrusion Detection System,簡稱IDS),它可在一定程度上預防和檢測來自系統內、外的入侵。
二、粗糙集理論的基本概念
粗糙集理論是一種刻畫不完整性和不確定性的數學工具,能有效地分析不精確(imprecise)、不一致(inconsistent)、不完整(incomplete)等各種不完備的信息,還可以對數據進行分析和推理,從中發現隱含的知識,揭示潛在的規律。
(一)知識的含義與表示方法
定義1 設U是我們感興趣的對象組成的非空有限集合,稱為論域(全域)。任何子集XU,稱為U中的一個概念或范疇。U的一組概念稱為U上的抽象知識,簡稱為知識。
定義2 U上的一個劃分稱為關于U的一個知識庫(Knowledge Base)。一個知識庫就是一個關系系統K=(U,R),(U,R)稱為近似空間,其中U是非空有限集,R為U上等價關系的一個族集。U/R表示R的所有等價類(或者U上的分類)構成的集合,稱為關于U的一個知識,[X]R表示的是包含元素x∈U的R等價類。
(二)粗糙集
定義3 令x U,當X能用屬性子集P確切的描述(即是屬性子集P所確定的U上的不可分辨集的并)時,稱X是P可定義的,否則稱X是P不可定義的。P可定義集也稱作P精確集,P不可定義集也稱為P非精確集或P粗糙集。
定義4 設集合X U,RIND(K),定義兩個子集: X=∪{Y∈U/R|Y
X},X=∪{Y∈U/R|Y∩X≠?}。
分別稱它們為X的R下近似集和R上近似集。
集合BNR(X)=X-X稱為X的R邊界域;
POSR(X)=X稱為X的R正域;
NEGR(X)=U-X稱為X的R負域。
(三)知識的約簡與核
定義5 知識約簡就是在保持知識庫分類能力不變的條件下,刪除其中不必要的知識。
定義6 令P為一族等價關系,R∈P,如果IND(P-{R})=IND(P),則稱關系R在P中是不必要的;否則稱關系R在P中是必要的。
定義7 設U是一個論域,P為定義在U上的一個等價關系族,P中所有必要關系組成的集合,稱為族集P的核(core),記作core(P)。

三、基于粗糙集理論的網絡入侵檢測系統模型及工作流程
(一)訓練階段
訓練數據是帶有攻擊類型的網絡連接記錄,首先由數據預處理模塊對訓練數據進行預處理,產生符合數據挖掘要求的特定格式的記錄;屬性約簡模塊消除冗余的記錄和無關的屬性,以加快系統的效率;然后進入規則挖掘階段,可以利用數據挖掘的不同算法形成新的規則,為了使規則更具有一般性,可以進行規則合并,來減少規則的數目,從而提高匹配的效率。
(二)監測階段
從網絡上捕獲的當前行為記錄首先經過數據預處理、與已建立的入侵模式庫中的規則進行匹配,如果匹配成功,說明此種入侵發生。
四、實驗測試(在入侵檢測中應用粗糙集理論進行屬性約簡)
屬性約簡可以去除大量信息中的多余屬性,降低信息空間的維數和屬性數量,既大大簡化了樣本數量,又縮短了訓練時間。本文運用約簡算法,把原來的42個屬性約簡為15個屬性。
為了驗證約簡以后數據集的分類能力并沒有降低,我們采用以下方法驗證:
實驗采用Weka系統提供的分類器,選取了4個分類器RBF Network、Bayes Net、ID3、Decision Table,依次編號。每個分類器的檢測率是在測試集上成功預測的實例占總實例的百分比,采用訓練集方法估計分類器的檢測率,結果見表4-1。
約簡后的數據集的分類檢測率與約簡前不相上下甚至略高,說明屬性約簡對檢測準確度并沒有太大的影響。但是運行時間卻縮短了很多。
五、總結及展望
本文討論了粗糙集理論在網絡入侵檢測中的應用,用粗糙集理論對條件屬性進行約簡,從眾多的狀態屬性中選擇了最有效的條件屬性,簡化了網絡入侵檢測需要處理的數據。實踐表明,基于粗糙集理論的網絡入侵檢測方法提高了入侵檢測的速度。但是在利用粗糙集理論尋找較優約簡數據表時仍存在計算量較大的問題,同時,怎樣優選屬性還需在理論上進一步論證和探討。
參考文獻:
[1]苗奪謙、李道國,粗糙集理論、算法與應用,清華大學出版社,2008.4.
[2]張文修、仇國芳,基于粗糙集的不確定決策,清華大學出版社.
[3]羅敏、張煥國、王麗娜,基于數據挖掘的網絡入侵檢測技術:研究綜述,計算機科學,2003,30(2):105-107,117.