摘要:目前入侵防御機制上大多采用誤用檢測為主的機制,其機制需要已知的特征來進行比對,然而誤用檢測本身存在著以下的問題:(1)針對警報方面缺乏真實性,(2)對于區域網絡內部防護能比較弱。此外,入侵檢測系統必須面對更大量的數據里檢測入侵的行為,當我們收集這些大量數據的信息時,入侵檢測規則的數據庫規模將會激增,導致入侵檢測系統性能日益低下。數據挖掘是一種有效的從大規模的海量數據中有效挖掘其中所蘊含的規則的一種方法。本論文中為了解決上述問題,在異常入侵檢測的架構下,利用數據挖掘技術來搜集當攻擊事件發生時系統本身與網絡環境之間的相互關系,基于關聯規則算法來獲得更加有效的規則庫,實現更加準確快速的入侵檢測。
關鍵詞:入侵檢測;數據挖掘;關聯規則
中圖分類號:TP193 文獻標識碼:A 文章編號:1674-7712(2012)20-0030-01
一、引言
目前有關入侵檢測系統設計的方法相當多,其中采用了不同的檢測方法,例如,有的文獻提出實時在線檢測的架構,有的使用數據挖掘技術于入侵檢測系統,如聚類技術、關聯規則和人工神經網絡等都被應用在入侵檢測領域。數據挖掘技術可以概括的分為三大類:分類(classification)、頻繁集(frequent itemsets)、關聯規則(association rules)。因此將數據挖掘技術應用于入侵檢測模型,也分為三方面的應用:第一種為分類:將數據分類到事先定義好的類別。第二種為關聯分析:分析不同數據字段之間的關系。第三種為序列分析:分析事件或數據字段間的連續關系。所構建的基于數據挖掘的入侵檢測系統是基于關聯分析的。
二、入侵檢測系統功能架構
本文所提出的基于數據挖掘的入侵檢測模型由以下六個主要部分組成:數據采集子模塊、數據接口子模塊、數據挖掘子模塊模塊。
(一)數據采集子模塊
數據采集子模塊的功能是采集網絡上的數據并進行記錄,保存該記錄的源IP地址,目的IP地址,發送時間,目的端口號等信息,提供給基于數據挖掘的入侵監測系統使用。
(二)數據接口子模塊
完成數據格式的轉變,運用數據庫技術來對數據進行管理,提供給數據挖掘子模塊來使用。
(三)數據挖掘子模塊
數據挖掘子模塊完成的主要功能是用各種數據挖掘算法實現有效的關聯規則分析、分類等。
在入侵檢測中,為了要完成封包字段特征的關聯性分析,本論文采用數據挖掘技術中的關聯規則分析法,快速找出各封包字段特征的關聯性。
三、基于Apriori算法的關聯規則挖掘
對于能正確將一變量的變碼值分類于不同類型中的分析,采用常見數據集分析,計算不同特征組合的出現頻率。傳統上是將數據挖掘用來做為數據分類的工具,除了可直接關聯性法則得到基礎可做為識別入侵的工具外,在入侵檢測系統中,更進一步的為要提高不同種類的入侵識別率,可將識別出的不同攻擊行為特征,交予最適當的入侵檢測分析法。
挖掘頻繁項集是關聯規則提取中最重要的一步,它的算法效率和準確度直接影響了整個系統的性能。Apriori算法是一種典型的挖掘頻繁項集的算法,它可利用“候選產生集合”找出常見數據出現的頻率[1-3]。在Apriori算法中,尋找最大項目集的基本思想是:算法需要對數據集進行多步處理。第一步,簡單統計所有含一個元素項目集出現的頻率,并找出那些不小于最小支持度的項目集,即一維最大項目集.從第二步開始循環處理直到再沒有最大項目集生成。循環過程是:第k步中,根據第k-1步生成的(k-1)維最大項目集產生k維侯選項目集,然后對數據庫進行搜索,得到侯選項目集的項集支持度,與最小支持度比較,從而找到k維最大項目集。
利用連續事件挖掘的Apriori算法,找出連續事件的關聯性。接著進行靈敏度分析的流程,靈敏度分析以一次一個變量的靈敏度和其他的變量作比較,借著常見數據集的分析,出現最頻繁的特征(特征域值)及該特征的跟隨特征,即是最適時檢測該類型攻擊的特征。此部分可能需由人工事先設定或者迭代的調整。將各種類型各種型態的網絡流量特征,識別出特征合理范圍,先制定門限值,將其事先定義好流量特征類型。除了待評估的特征之外,其他特征則固定其范圍值,以關聯法則分析,觀看此一特征的一般流量變化,并與各類型攻擊流量作范圍值進行分析,重復該步驟取得各特征合理范圍值的分布。
四、結論
目前入侵防御機制上大多采用誤用檢測為主的機制,其機制需要已知的特征來進行比對。本論文中為了解決上述問題,在異常入侵檢測的架構下,利用數據挖掘技術來搜集當攻擊事件發生時系統本身與網絡環境之間的相互關系,基于關聯規則算法來獲得更加有效的規則庫,實現更加準確快速的入侵檢測。
參考文獻:
[1]R.Agrawal,T.Imielinski,and A.Swami.Mining association rules between sets of items in large databases.In SIG-MOD'93,pp207-216,Washington,DC,May,1993.
[2]A.Savasere,E.Omiecinski,and S.Navathe.An efficient algorithm for mining association rules in larges databases.Proceedings of the 21th Int'l Conference on Very Large.
[3]Peter Cabena,Discovering Data Mining From Concept to Implementation,IBM,1997.