姜巍 云南大學
基于樸素貝葉斯的入侵檢測優化設計
姜巍 云南大學
入侵檢測系統是一種對網絡傳輸進行即時監視,在發現可疑傳輸時發出警報或者采取主動反應措施的網絡安全設備。它與其他網絡安全設備的不同之處便在于,IDS是一種積極主動的安全防護技術。入侵檢測就是根據網絡流的數據屬性區分出正常流量和攻擊流量。
入侵檢測系統 樸素葉貝葉斯
防火墻是最常見的保護網絡安全的方法,它的作用是可以對外來攻擊進行有效的攔截,然而對內部入侵卻毫無辦法,所以在一定程度上,防火墻的作用是有局限性的,而入侵檢測可以說是有效地彌補了防火墻的不足和缺陷。入侵檢測系統根據入侵檢測的行為分為兩種模式:異常檢測和誤用檢測。前者先要建立一個系統訪問正常行為的模型,凡是訪問者不符合這個模型的行為將被斷定為入侵;后者則相反,先要將所有可能發生的不利的不可接受的行為歸納建立一個模型,凡是訪問者符合這個模型的行為將被斷定為入侵。
數據挖掘的原理很簡單,就是可以在已有的數據集中,識別相關的信息,可以找到之前沒有的并且是新的信息類型。數據挖掘覆蓋面相當廣泛,尤其是當前的新興技術,滲透到我們的生活當中,也廣泛的應用到我們的生活當中。其中,數據挖掘的應用方面占主導地位的方法之一就是分類(Classification)。數據分析中最為重要的一個過程也就是分類。一般有以下步驟:
(1)數據的收集:對所需數據的收集有很多方式,如制作網絡爬蟲從網站爬取數據、設備發送的實測數據等。
(2)輸入數據的準備:搜集到數據要提前變換為符合要求的格式。
(3)輸入數據的分析:在這其中不免有一些異常值的數據,要提前預處理這些數據。
(4)訓練算法:在算法中輸入得到的數據,并汲取有用信息,得到規律。
(5)算法的測試:通過已經得到的測試集,來檢測算法;來觀察算法測試后的結果,進而發現其效果。
(6)算法的使用:通過完成的算法去在新的工作中進行驗證,觀察其可否在具體的現實工作環境中進行應用。
樸素貝葉斯方法即在已知一些概率的情況下,基于這些概率選擇最佳的類別標簽,所以它非常便于應用,是一個基于概率論的算法。
貝葉斯分類器的方法和原理:首先要知道其中對象的先驗概率,其后驗概率可以通過貝葉斯公式計算出來,最后得到的結果就是該對象屬于某一類別標簽的概率,通過結果的比較,后驗概率最大類別標簽就是該對象的類別標簽。
設數據集中的元組為X,分類標簽集合為C,任意Ci屬于C,求任意元組X的分類標簽即求P(C|X).由概率公式可知:

我們的分類問題:已知特征向量求其標簽,轉化為概率問題就是在已知特征的條件下,求屬于每個類別的概率,哪個類別的概率最大就分類到那個類別。即求p(C|X)。而求這個概率需要求向量X與類別的聯合概率,由于x的維度較高,這是一個非常難求的概率。因此使用貝葉斯準則,將其展開為一個先驗概率與另一個條件概率的乘積除以X的先驗概率。由于我們求概率的目的是為了比較大小,因此可以將分母看作一個歸一化因子不去計算。而另一個條件概率仍涉及聯合概率的問題。這里作了一個條件獨立性假設,即屬性之間相互獨立,因此該條件概率就可以轉化為每個屬性取值下條件概率的乘積,這就是樸素貝葉斯算法的樸素之處。
實現入侵檢測的方法從根本意義上講就是設計一個事件分類器來將數據流中的正常與異常數據區分出來,從而實現對攻擊行為的報警功能。

圖4 -1 入侵檢測流程
通過入侵檢測流程圖可以看到,整個系統需要兩個數據集一個是訓練集即樣本數據,另一個是測試集即待測數據。首先通過數據挖掘對數據集作預處理,因為不管是訓練集還是測試集中的數據都是復雜且冗余的,我們需要劃分數據集中的屬性,劃分屬性特征。當測試集輸入后,還是需要先進行預處理,將測試集中的網絡流量進行分類,然后通過映射關系函數匹配未知事件與樣本標記事件,進而得出網絡流量所屬類別的概率。相比較于其他類型的入侵檢測系統,使用樸素貝葉斯的優勢在于準確度更高,配合數據挖掘對現在海量的網絡流量更具有針對性,并且將流量屬性復雜度大大降低,系統處理速度更快,誤警率大大降低。
整個優化設計還有需要完善的地方,比如說可以通過對流量屬性的細化控制提高整個系統的效率和準確度;可以加入機器學習技術,將大量的網絡流量作為學習樣本,提升對流量概率的判斷準確度,這樣可以使整個系統的準確度越來越高。
[1]百度百科“入侵檢測系統”詞條[EB]/[OL].http://baike.baidu.com/item/入侵檢測系統.2017-06-18
[2]王輝,陳泓予,劉淑芬.基于改進樸素貝葉斯算法的入侵檢測系統[J].河南理工大學計算機科學與技術學院,吉林大學計算機科學與技術學院.2014-04-15
[3]張亞萍,胡學鋼,方振國,姜恩華.數據缺失條件下的貝葉斯優化算法[J].淮北師范大學物理與電子信息學院,合肥工業大學計算機與信息學院.2012-04-11
[4]吳為勝,武友新,游建平,萬敏.一種基于線性的樸素貝葉斯分類器知識庫的組織方法[J].南昌大學信息工程學院.2009-10-15
[5]王輝,陳泓予,劉淑芬.基于改進樸素貝葉斯算法的入侵檢測系統[J].河南理工大學計算機科學與技術學院,吉林大學計算機科學與技術學院.2014-04-15