摘要:針對(duì)目前的入侵檢測(cè)技術(shù)誤警率和漏警率較高,提出了一個(gè)優(yōu)化的貝葉斯算法,通過引入滑動(dòng)窗口技術(shù)改善入侵檢測(cè)的實(shí)時(shí)性。該文利用貝葉斯優(yōu)化算法對(duì)對(duì)Probe、DoS、U2R、R2L測(cè)試集進(jìn)行實(shí)驗(yàn)仿真比較,結(jié)果表明:該算法能很好完成入侵檢測(cè)分類;該算法能提高入侵檢測(cè)正確率。
關(guān)鍵詞:貝葉斯優(yōu)化算法;入侵檢測(cè);分類
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)03-696-02
A Study on the Immersion and Examining Technology on the Basis of Bayesian Optimization Algorithm
PU Shi
(The Modern Technological Center of Neijiang Normal University, Neijiang 641112, China)
Abstract: As the erroneous of the present immersion and examining technology occur frequently, the author of this paper puts forward a Bayesian Optimization Algorithm, aiming to introduce the practicable method of a sliding window technology and improve this examining shill. By means of Bayesian Optimization Algorithm, the author intends to compare the experiment of Probe, DoS, UaR, R2L. Consequently, this method can complete the classification of the immersion and examination, meanwhile improving the ratio of correctness.
Key words: bayesian optimization algorithm; immersion and examining; classification
網(wǎng)絡(luò)入侵檢測(cè)技術(shù)通過分析數(shù)據(jù)包包頭信息、網(wǎng)絡(luò)流量和網(wǎng)絡(luò)連接的各個(gè)特征屬性來檢測(cè)網(wǎng)絡(luò)中存在的入侵行為,區(qū)分正常網(wǎng)絡(luò)應(yīng)用和惡意攻擊。早在20世紀(jì)80年代就已經(jīng)展開了對(duì)入侵檢測(cè)技術(shù)的研究,根據(jù)所檢測(cè)數(shù)據(jù)的來源不同,入侵檢測(cè)技術(shù)經(jīng)歷了基于主機(jī)的入侵檢測(cè)技術(shù)、基于網(wǎng)絡(luò)的入侵檢測(cè)技術(shù)和分布式入侵檢測(cè)技術(shù)三個(gè)發(fā)展時(shí)期。不論是基于主機(jī)的入侵檢測(cè)系統(tǒng)還是基于網(wǎng)絡(luò)的入侵檢測(cè)系統(tǒng),早期的結(jié)構(gòu)都是集中式的,數(shù)據(jù)采集模塊和數(shù)據(jù)分析模塊都位于同一臺(tái)機(jī)器上,這和網(wǎng)絡(luò)逐漸走向分布式、異構(gòu)性的趨勢(shì)并不符合。
根據(jù)采用檢測(cè)方法的不同,現(xiàn)有的入侵檢測(cè)技術(shù)從總體上可以分為三類:誤用檢測(cè)[1],異常檢測(cè)[2]和混合檢測(cè)[3]。目前,用于入侵檢測(cè)技術(shù)研究方法有神經(jīng)網(wǎng)絡(luò)(Neural Network NN)、信息理論、支持向量機(jī)(Support vector machine, SVM)、貝葉斯統(tǒng)計(jì)(Bayesian Static)等。本文主要針對(duì)貝葉斯算法要么計(jì)算量大,要么信息喪失嚴(yán)重這一特點(diǎn),引入免疫算法中的親和度和濃度概念,提出了貝葉斯優(yōu)化算法(Bayesian Optimization Algorithm BSOA),并通過檢測(cè)技術(shù)的評(píng)價(jià)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行仿真計(jì)算,得到了較好的結(jié)果。
1 優(yōu)化貝葉斯算法在入侵檢測(cè)中應(yīng)用
1.1 貝葉斯算法
貝葉斯理論適合解決不確定事件,而入侵檢測(cè)系統(tǒng)的性能指標(biāo)和功能指標(biāo),都可用精確的數(shù)學(xué)公式描述和計(jì)算,可以把模糊的指標(biāo)具體量化。檢測(cè)率,P(B|A)表示系統(tǒng)在入侵情況發(fā)生的條件下,入侵檢測(cè)系統(tǒng)能正確發(fā)出警報(bào)的概率;誤報(bào)率,P(B|A)表示系統(tǒng)在沒有實(shí)際入侵情況發(fā)生的條件下,入侵檢測(cè)系統(tǒng)發(fā)出警報(bào)的概率;漏報(bào)率P(B|A)表示系統(tǒng)在入侵情況發(fā)生的條件下,入侵檢測(cè)系統(tǒng)卻檢測(cè)不到而未發(fā)出警報(bào)的概率;正確率,P(B|A)表示系統(tǒng)在沒有入侵情況發(fā)生的條件下,入侵檢測(cè)系統(tǒng)未發(fā)警報(bào)的概率,屬正確狀態(tài)。在入侵檢測(cè)中關(guān)鍵問題在于分類,用基于貝葉斯統(tǒng)計(jì)方法可以這樣簡(jiǎn)單考慮,ki為第i個(gè)檢測(cè)對(duì)象屬性,{Aj}表示第j個(gè)入侵檢測(cè)分類,可以用數(shù)學(xué)公式表示如下:
1.2 貝葉斯優(yōu)化算法
由以上過程可知,該方法雖然能完成入侵檢測(cè)的分類,但在存在以下不足:①如果不簡(jiǎn)化,計(jì)算量很大,而且很難計(jì)算,是一個(gè)不可實(shí)行的方法;②按照樸素貝葉斯方法簡(jiǎn)化,易于實(shí)現(xiàn),但是過多地簡(jiǎn)化使得很多有用的信息喪失[10]。基于此引入免疫算法中的親和度與濃度,作為貝葉斯優(yōu)化算法(Bayesian Optimization Algorithm,BOA)。本文做如下假設(shè):個(gè)體為某個(gè)入侵檢測(cè)對(duì)象;種群為入侵檢測(cè)分類。這樣將個(gè)體適應(yīng)度概率與個(gè)體濃度概率一起作為優(yōu)良個(gè)體的選擇依據(jù),選擇低濃度、高適應(yīng)度的個(gè)體,能夠有效地保持種群的多樣性,克服容易陷入局部最優(yōu)問題。設(shè)有N個(gè)個(gè)體,每個(gè)由S={0,1}中的M個(gè)分類組成,則第j個(gè)分類的信息熵為:
式中:Pij表示第i個(gè)檢測(cè)對(duì)象在第j個(gè)入侵檢測(cè)分類中出現(xiàn)概率。
若入侵檢測(cè)分類j所有狀態(tài)相同,那么Hj(N)=0。平均信息熵:■它反映多樣性。由此得到兩種入侵檢測(cè)分類u和v的親和度:
Auv的取值范圍為(0,1],Auv越大表示兩種入侵檢測(cè)分類相似度越高,Auv=1表示兩種入侵檢測(cè)分類完全相同。這樣可定義為:
這樣每個(gè)入侵檢測(cè)個(gè)體評(píng)價(jià)指標(biāo)變?yōu)?
式中:pif為入侵檢測(cè)分類適應(yīng)度概率;pid為入侵檢測(cè)分類濃度概率;α為常數(shù)調(diào)節(jié)因子。這樣選擇能夠很好地保持入侵檢測(cè)的多樣性,提高算法的性能。
2.3 BSOA算法的總體框架設(shè)計(jì)
BSOA算法的總體框架如圖1所示,分為訓(xùn)練階段和檢測(cè)階段兩部分,訓(xùn)練階段按以下步驟處理:
1) 數(shù)據(jù)預(yù)處理。對(duì)符號(hào)型字段編碼為數(shù)值型數(shù)據(jù),同時(shí)對(duì)所有數(shù)據(jù)進(jìn)行歸一化處理。設(shè)輸入數(shù)據(jù)為(α1,α2, …,αn),平均值為:
標(biāo)準(zhǔn)方差為:
歸一化后的值為:
2) 隨機(jī)生成初始種群。
3) 由個(gè)體的基因位確定所選擇的特征、權(quán)重以及SVM訓(xùn)練模型參數(shù),根據(jù)適應(yīng)度函數(shù)計(jì)算每個(gè)個(gè)體的適應(yīng)度函數(shù)值,計(jì)算交叉率和變異率。
4) 對(duì)被選中的兩個(gè)個(gè)體進(jìn)行交叉操作,產(chǎn)生后代個(gè)體。對(duì)被選中的個(gè)體進(jìn)行變異操作。根據(jù)輪盤賭選擇法按照個(gè)體的適應(yīng)度丞數(shù)值大小對(duì)個(gè)體進(jìn)行選擇操作,并保留種群中的最優(yōu)個(gè)體直接進(jìn)入下一代種群。由此產(chǎn)生新的種群。
5) 重復(fù)執(zhí)行3),直到滿足適應(yīng)度要求或進(jìn)化到最大代數(shù),選擇當(dāng)前種群的最優(yōu)個(gè)體作為最優(yōu)解。
檢測(cè)階段,根據(jù)選擇的最優(yōu)特征子集及其權(quán)重和BSOA優(yōu)化參數(shù)建立BSOA檢測(cè)模型,對(duì)待分類個(gè)體進(jìn)行判斷。
2 仿真與分析
2.1 檢測(cè)技術(shù)的評(píng)價(jià)指標(biāo)
為了評(píng)估檢測(cè)技術(shù)的優(yōu)劣,需要一系列的定量評(píng)價(jià)指標(biāo)。主要的評(píng)價(jià)指標(biāo)包括分類正確率、漏警率、誤警率、檢測(cè)時(shí)延和學(xué)習(xí)能力等。
分類正確率=被正確分類的測(cè)試樣本個(gè)數(shù)/全體測(cè)試樣本個(gè)數(shù)(9)
漏警率=攻擊樣本中被認(rèn)為是正常樣本的個(gè)數(shù)/全體攻擊樣本個(gè)數(shù)(10)
誤警率=正常樣本中被認(rèn)為是攻擊樣本的個(gè)數(shù)/全體正常樣本個(gè)數(shù)(11)
2.2 窗寬對(duì)結(jié)果影響
在入侵檢測(cè)研究中,窗寬長(zhǎng)度的選擇,對(duì)于分類精度影響較大。在研究中針對(duì)19個(gè)窗口在mat lab中仿真,實(shí)驗(yàn)數(shù)據(jù)表明隨著窗寬長(zhǎng)度的增大,引進(jìn)的噪聲也會(huì)增大,導(dǎo)致預(yù)測(cè)精度的下降,耗費(fèi)更多的訓(xùn)練及測(cè)試時(shí)間。表1是在matlab仿真實(shí)驗(yàn)中,所得相關(guān)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。可以看出,隨著窗寬增加,分類預(yù)測(cè)精度有所提高,但提高幅度有限。考慮到運(yùn)算速度,我們選擇窗寬15。
2.3 仿真數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)來源于KDD CUP99數(shù)據(jù)集,該數(shù)據(jù)集由麻省理工學(xué)院林肯實(shí)驗(yàn)室提供。KDD CUP99數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分,包含了監(jiān)聽到的大量網(wǎng)絡(luò)連接信息。每條連接信息包含4l維特征,包括基本特征集、內(nèi)容特征集、流量特征集和主機(jī)流量特征集。訓(xùn)練數(shù)據(jù)集中的每個(gè)網(wǎng)絡(luò)連接都被標(biāo)記為正常或攻擊,可能的取值包括Normal、Probe、DoS、U2R(User to Root)和R2L(Remote to Local)五種類型。在仿真中,將實(shí)驗(yàn)數(shù)據(jù)集分為四個(gè)部分:Probe數(shù)據(jù)集、DoS數(shù)據(jù)集、R2R數(shù)據(jù)集和U2R數(shù)據(jù)集,各個(gè)數(shù)據(jù)集的樣本數(shù)量如表2所示。
2.4 仿真結(jié)果與分析
實(shí)驗(yàn)在Matlab 7.0環(huán)境中運(yùn)行。BSOA的實(shí)驗(yàn)結(jié)果如表3所示。通過對(duì)各類數(shù)據(jù)集(Probe、DoS、U2R、R2L)的測(cè)試集進(jìn)行實(shí)驗(yàn),由仿真結(jié)果可以看出,對(duì)特征進(jìn)行維數(shù)約減和空間變換后,不僅入侵特征的數(shù)量基本減少了一半,而且正確檢測(cè)率仍然取得了滿意的結(jié)果。
3 結(jié)論
本文在貝葉斯算法基礎(chǔ)上,針對(duì)其局限性:要么計(jì)算量大,要么信息喪失嚴(yán)重這一特點(diǎn)。提出了改進(jìn)貝葉斯優(yōu)化算法,并使用該方法對(duì)入侵檢測(cè)正確率進(jìn)行實(shí)驗(yàn)仿真,并和Bayesian Belief Network方法比較,結(jié)果表明貝葉斯優(yōu)化算法具有更好的分類預(yù)測(cè)性能。
參考文獻(xiàn):
[1] Denning D.E.An Intrusion-Detection Model[J].IEEE Transactions on Sofhvare Engineering.1987,13(2):222-232.
[2] Anderson J P. Computer security threat monitoring and surveillance[R]. Technical Report,79F296400,F(xiàn)ort Washington:James P.Anderson Company,1980.
[3] 卿斯?jié)h,蔣建春,馬恒太,等.入侵檢測(cè)技術(shù)研究綜述[J].通信學(xué)報(bào).2004,25(7):19-29.
[4] Chebrolu S, Abraham A, Thomas J P. Feature deduction and ensemble design of intrusion detection systems[J].Computers and Security,Elsevier,Amsterdam.2005,24(4):295-307.