馬勇
遺傳模糊系統(tǒng)結(jié)合迭代規(guī)則學習的網(wǎng)絡(luò)入侵檢測方案
馬勇
針對計算機網(wǎng)絡(luò)中安全性問題,提出一種遺傳模糊系統(tǒng)結(jié)合迭代規(guī)則學習的網(wǎng)絡(luò)入侵檢測方案。首先,通過一種啟發(fā)式過程來確定每個模糊if-then規(guī)則后件類和確定性分數(shù)。然后,利用遺傳算法的交叉和變異操作來進化模糊系統(tǒng)的規(guī)則,形成遺傳模糊系統(tǒng)。最后,利用迭代規(guī)則學習算法優(yōu)化遺傳模糊系統(tǒng)的規(guī)則庫,獲得最優(yōu)模糊模型,實現(xiàn)入侵檢測。在DARPA數(shù)據(jù)集上進行實驗,結(jié)果表明該方案能夠精確的檢測U2R、R2L、DoS和PRB類網(wǎng)絡(luò)攻擊,具有很高的安全性。
網(wǎng)絡(luò)入侵檢測;遺傳模糊系統(tǒng);迭代規(guī)則學習;規(guī)則庫優(yōu)化
當前計算機網(wǎng)絡(luò)盡管具有多重安全策略,譬如,訪問控制、加密以及防火墻的應(yīng)用,然而,網(wǎng)絡(luò)安全的漏洞還是與日俱增。因此,迫切需要智能的入侵檢測系統(tǒng)(Intrusion Detection System,IDS)來自動地檢測新型的入侵行為[1]。
基于模糊if-then規(guī)則[2]的模糊系統(tǒng)在很多應(yīng)用領(lǐng)域已得到成功應(yīng)用。學者們也提出了多種基于模糊系統(tǒng)的IDS,例如,文獻[3]提出一種基于模糊規(guī)則學習模型的入侵檢測方案,創(chuàng)建了基于權(quán)重的模糊檢測規(guī)則,并引入一種反饋學習算法,用于對檢測規(guī)則的改進。文獻[4]提出一種基于模糊關(guān)聯(lián)規(guī)則挖掘的入侵檢測方案,實現(xiàn)了從數(shù)據(jù)集屬性到模糊映射的過程,并利用K-means聚類算法為量化屬性建立模糊集合和模糊隸屬函數(shù),增強關(guān)聯(lián)規(guī)則的客觀性。
一般情況下,若模糊模型的精確性較高,其解釋性相對較差。而具備較高解釋性的模糊模型,其精確性又較低[5]。由于模糊邏輯的知識表達能力與進化計算的全局自學習能力可以互補[6]。所以,可引用進化計算來改進模糊系統(tǒng)。其中,遺傳算法是進化計算理論體系中最具代表性的算法,因此可形成一種有效的遺傳模糊系統(tǒng)[7]。然而,傳統(tǒng)遺傳模糊系統(tǒng)中,通過遺傳算法優(yōu)化模糊模型中的單條規(guī)則。但是,單條規(guī)則并不能表示整個模型規(guī)則的性能,且編碼方式對于單條規(guī)則沒有局部尋優(yōu)能力,容易造成獲得的模糊模型為全局次優(yōu)解[8]。
本文針對傳統(tǒng)遺傳模糊系統(tǒng)的缺陷,提出一種融合迭代規(guī)則學習(Iterative Rule Learning,IRL)算法的改進型遺傳模糊系統(tǒng),用于網(wǎng)絡(luò)入侵的檢測。首先,通過一種啟發(fā)式過程來確定每個模糊if-then規(guī)則后件類和確定性分數(shù)。然后,利用Michigan型遺傳算法進化模糊系統(tǒng)的規(guī)則,進行協(xié)同進化,獲得遺傳模糊系統(tǒng)。最后,通過迭代學習算法優(yōu)化規(guī)則庫,最終形成最優(yōu)模糊模型,實現(xiàn)網(wǎng)絡(luò)入侵檢測。實驗結(jié)果表明,本文方案能夠精確地檢測網(wǎng)絡(luò)攻擊。
在遺傳模糊系統(tǒng)中,將遺傳算法與模糊邏輯相結(jié)合,利用遺傳算法的全局自學習能力來彌補模糊邏輯中規(guī)則表達能力的缺陷。
本文中,首先通過一種啟發(fā)式過程來確定每個模糊if-then規(guī)則后件類和確定性分數(shù)。然后,利用Michigan型遺傳算法,通過交叉和變異操作來進化模糊系統(tǒng)的規(guī)則,產(chǎn)生高分類率的模糊規(guī)則,以此產(chǎn)生協(xié)同進化后的遺傳模糊系統(tǒng)。
1.1模糊規(guī)則
本文假設(shè)模式分類問題為具有連續(xù)屬性的n-維模式空間中的c-類問題。同時還假設(shè)給定m個實向量xp=(xp1,xp2,,xpn),p=1,2,,m ,并將其作為來自c個類的訓練模式c≤m。
由于模式空間為[0,1]n,所以每種模式的屬性值為xpi∈[0,1],p=1,2,,m;i=1,2,,n 。在本文中,將每個數(shù)據(jù)集的屬性值規(guī)范化到單位區(qū)間[0,1]。
本文提出的模糊分類器系統(tǒng)中,使用如下形式的if-then規(guī)則。xxA
規(guī)則Rj:If1為Aj1,…,n 為jn,Then類Cj滿足CF=CFj。
其中,Rj為第j個if-then規(guī)則的標簽,Aji,,Ajn為單位區(qū)間[0,1]上的前件模糊集,CjR為后件類(即給定C類中的一類),CFj為模糊if-then規(guī)則j的確定性分數(shù)。本文將一組典型的語言值用作圖1中的前件模糊集,并通過把每種屬性域劃分為對稱的三角模糊集,明確圖1中每個語言值的隸屬函數(shù)。值得注意的是,對于特定模式分類問題,本文在模糊分類系統(tǒng)中可以使用任何定制的隸屬度函數(shù),如圖1所示:

圖1 五個語言值的隸屬度函數(shù)(S:小,MS:中小,M:中,ML:中大,L:大)
在n維模式分類問題中,模糊if-then規(guī)則的總數(shù)為5n。當屬性的數(shù)量(即n)很大時(如n=n41的入侵檢測問題),有可能在單模糊規(guī)則庫中使用所有5個模糊if-then規(guī)則。
本文模糊分類系統(tǒng)搜索相對數(shù)量較小的具有高分類能力的模糊if-then規(guī)則(如100個規(guī)則)。由于每個模糊if-then規(guī)則的后件類和確定性分數(shù)可以通過簡單的啟發(fā)式過程從訓練模式中確定,所以本文模糊分類系統(tǒng)的任務(wù)是,為一個模糊if-then規(guī)則集生成前件模糊集的組合。然而,該任務(wù)對于高維模式分類器問題來說是很難的,因為搜尋空間涉及5n個組合(如在n=13時,多于1000萬個)。
為此,在本文模糊分類器系統(tǒng)中,通過利用啟發(fā)式過程來確定每個模糊if-then后件類Ci和確定性分數(shù)CFj。步驟如下描述。
1.2Ci和CFj的確定
步驟1:通過下式運算,計算具有模糊if-then規(guī)則Rj的每個訓練模式的兼容性如公式(1):

公式(1)中,μji(xpi)為第p個模式中第i個屬性的隸屬度函數(shù)。
步驟2:對于每個類,計算具有模糊if-then規(guī)則Rj的訓練模式的兼容性分數(shù)如公式(2):

公式(2)中,βClass(Rj)為類h中具有模糊if-then規(guī)則Rj的訓練模式的兼容性分數(shù)總和。NClass為對應(yīng)類為h的訓練模式的數(shù)量。
步驟3:找出具有最大βClass h(Rj)值的類如公式(3):

如果兩個或更多的類具有最大值,則不能確定唯一模糊if-then規(guī)則的后件類Cj。在這種情況下,令Cj為φ。如果沒有與模糊if-then規(guī)則Rj相配的訓練模式(即,對于h=1,2,,c ,βClassh(Rj)=0),則還將后件類Cj指定為φ。
步驟4:如果后件類Cj為φ,則令模糊if-then規(guī)則Rj的確定性分數(shù)CFj=0。否則,用以下公式計算確定性分數(shù)CFj如公式(4)、(5):

通過本文提出的啟發(fā)式過程,可以指定任意前件模糊集組合的后件類和確定性分數(shù)。
本文模糊分類器系統(tǒng)的任務(wù)是生成前件模糊集的組合,用以生成具有高分類能力的規(guī)則集S。然后,通過S中的單優(yōu)先規(guī)則Rj 來分類xp=(xp1,xp2,,xpn),其確定如公式(6):

也就是說,優(yōu)先原則選出具有最大兼容性和確定性分數(shù)CFj。如果不存在與輸入的模式xp一致的模糊規(guī)則(即,對于VRj∈S ,μj(xp)=0),則拒絕分類。
本文中,將每個模糊if-then規(guī)則編碼為字符串。利用下面的符號來表示五個語言值:1:小;2:中小;3:中;4:中大,5:大。例如,若模糊if-then規(guī)則被編碼為“1342”,即x1為小,x2為中,x3為中大,x4為中小,則類cj滿足CF=CFj。
1.3遺傳算法進化模糊規(guī)則
本文中利用的Michigan型遺傳模糊系統(tǒng)中,遺傳算法首先根據(jù)問題的分類數(shù),預(yù)先給定一個冗余的初始聚類數(shù)c,即模糊模型的規(guī)則數(shù)。然后,初始化種群,初始種群由模糊聚類所產(chǎn)生的初始模糊模型采用實數(shù)編碼方式構(gòu)成[9]。
隨機選擇種群中的染色體Ri,其適應(yīng)度計算方法為:根據(jù)該染色體所代表的模糊規(guī)則的后件類標,計算訓練樣本中屬于該類的樣本數(shù),設(shè)為Ni。計算該條規(guī)則對此Ni個樣本的錯誤劃分數(shù)Ei。計算該條規(guī)則的適應(yīng)度函數(shù)值P(Ri)=Ei/Ni。
Michigan型遺傳模糊系統(tǒng)的執(zhí)行步驟如下:
步驟1:利用聚類算法產(chǎn)生有c條模糊if-then規(guī)則的初始模糊模型,由初始模糊模型編碼產(chǎn)生初始種群。
步驟2:計算當前種群中的每一條染色體的適應(yīng)度函數(shù)值。
步驟3:根據(jù)每條染色體的適應(yīng)度值,通過二進制錦標賽選擇、交叉和變異產(chǎn)生Nreplace條新染色體,其中交叉和變異率預(yù)先設(shè)定。
步驟4:利用新產(chǎn)生的Nreplace條新染色體替代當前種群中Nreplace條適應(yīng)度較低的染色體,產(chǎn)生下一代種群,并計算該種群對于訓練樣本的錯誤劃分數(shù)。
步驟5:重復(fù)步驟2-4,直至達到最大遺傳代數(shù)為止。
最終,把對樣本錯誤劃分數(shù)最小的種群作為所獲得的最優(yōu)模糊模型。
本文針對傳統(tǒng)遺傳模糊系統(tǒng)的缺陷,提出一種基于迭代規(guī)則學習(IRL)的遺傳模糊系統(tǒng),其是遺傳分類方法的一種升級算法。通過調(diào)用遺傳模糊規(guī)則生成算法,以增量的方式創(chuàng)建模糊規(guī)則庫。每次迭代時,選出對當前分布具有最好分類效果的模糊規(guī)則,并將其加入模糊規(guī)則庫,如圖2所示:

圖2 改進的遺傳模糊分類器的體系結(jié)構(gòu)
本文將迭代規(guī)則學習算法應(yīng)用到模糊規(guī)則庫系統(tǒng)設(shè)計中。由于本文進化算法一次優(yōu)化一個模糊分類器規(guī)則,所以模糊規(guī)則庫是以增量的方式生成。升級算法利用新規(guī)則能夠有效減少分類器中訓練實例的權(quán)值。因此,下一條規(guī)則的生成過程主要專注于對目前未涉及或分類錯誤的實例,以給出解釋性的模糊規(guī)則。模糊規(guī)則的確定度反映了當升級算法分配規(guī)則類的相對強度。
在上面的學習框架中,本文提出的適應(yīng)度函數(shù)如公式(7)~(16)所示:


其中,
f1:規(guī)則R1(第一個目標)所覆蓋的訓練實例數(shù)。
wk:反映訓練集中實例xk頻率的權(quán)值。
ci:Ri的類標簽。
kcov:一個實數(shù),表示規(guī)則應(yīng)覆蓋的部分實例的數(shù)量。
f2:規(guī)則的通用性(第二個目標)。:規(guī)則R1所覆蓋的正確分類加權(quán)實例的數(shù)目。:規(guī)則R1所覆蓋的錯誤分類加權(quán)實例的數(shù)目。
k:一個單獨規(guī)則所制造的錯誤的最大容忍度。
f3:第一個一致性準則(第三個目標)。:不考慮權(quán)值wk時,錯誤分類實例的數(shù)目。:不考慮權(quán)值wk時,正確分類實例的數(shù)目。
f4:第二個一致性準則(第四個目標)。
根據(jù)方程(17)和(18)計算每個模糊規(guī)則的確定性因子如公式(17)、(18)所示:

根據(jù)方程(19)改變訓練樣本的權(quán)值如公式(19)、(20):

3.1實驗環(huán)境
本文利用國際標準入侵檢測評估數(shù)據(jù)集DARPA[10]上進行實驗。數(shù)據(jù)庫由正常和惡意通訊相關(guān)的大量網(wǎng)絡(luò)連接組成,每條連接用41維的特征向量表示,并將連接標記屬于5類中的哪一類。這些類中的一個子類為正常類,其余為4個為不同的入侵類。4種入侵類分別為:探測(PRB)攻擊、拒絕服務(wù)(DoS)攻擊、非法遠程闖(R2L)攻擊和非法提升權(quán)限(U2R)攻擊。這些入侵類中包含了計算機網(wǎng)絡(luò)中22種不同的攻擊,4個入侵類的樣本數(shù)如表1所示:

表1 4種不同入侵類中不同類攻擊的分類
本文從這些數(shù)據(jù)集中選擇650個樣本作為訓練集,選擇6500個樣本作為測試集,訓練和測試集樣本數(shù)量如表2所示:

表2 訓練和測試集樣本數(shù)量
在本文提出的基于遺傳模糊系統(tǒng)的IDS中,設(shè)定遺傳算法所使用的參數(shù)如下:種群大小為100;交叉概率為0.9;變異概率為0.1;最大遺傳代數(shù)為20。迭代學習算法中的參數(shù)設(shè)定為:規(guī)則涉及的實例分數(shù)(kcoov)為0.5;單獨規(guī)則產(chǎn)生的錯誤的最大容忍度(k)為0.2。
3.2性能分析
首先,對本文IDS系統(tǒng)進行入侵檢測性能分析實驗,本文遺傳模糊系統(tǒng)分類網(wǎng)絡(luò)的混淆矩陣如表3所示:

表3 本文IDS入侵檢測的混淆矩陣
可以看出,本文系統(tǒng)對于正常類、U2R、R2L、DoS和PRB類的分類準確率分別為90.8%、81.4%、83.2%、97.8%和83.9%,整體平均準確識別率達到了87.36%。這說明,本文IDS具有較高的正確檢測率。
然后,將本文系統(tǒng)與現(xiàn)有入侵檢測方案:文獻[3]和文獻[4]方案進行比較。各種IDS的性能比較如表4所示:

表4 各種IDS的入侵檢測分類準確率比較
可以看出,本文IDS的性能在R2L和DoS類的分類率明顯高于其他方案,整體準確分類率也遠遠高于其它方案,分別比文獻[3]和文獻[4]方案性能提高了10.06%和6.5%和。這是因為本文使用的基于迭代規(guī)則學習改進型遺傳模糊系統(tǒng)的IDS比其他方法更可靠。
本文提出一種遺傳模糊系統(tǒng)結(jié)合迭代規(guī)則學習的網(wǎng)絡(luò)入侵檢測方案。通過一種啟發(fā)式過程來確定每個模糊if-then規(guī)則后件類和確定性分數(shù)。利用遺傳算法的交叉和變異操作來進化模糊系統(tǒng)的規(guī)則,形成遺傳模糊系統(tǒng)。利用迭代規(guī)則學習算法優(yōu)化遺傳模糊系統(tǒng)的規(guī)則庫,獲得最優(yōu)模糊模型,實現(xiàn)入侵檢測。實驗表明,本文方法對U2R、R2L、DoS和PRB類攻擊的整體檢測率達到了87.36%,具有很高的性能。
在今后工作中,將考慮使用多目標演化模糊系統(tǒng)來提取一個易于理解的模糊分類器,進一步提高本文IDS性能。
[1] 田志宏, 王佰玲, 張偉哲,等. 基于上下文驗證的網(wǎng)絡(luò)入侵檢測模型[J]. 計算機研究與發(fā)展, 2013,50(3):498-508.
[2] 李晶皎, 許哲萬, 王愛俠,等. 基于移動模糊推理的DoS攻擊檢測方法[J]. 東北大學學報:自然科學版,2012, 33(10):1394-1398.
[3] Elhag S, Fernández A, Bawakid A, et al. On the combination of genetic fuzzy systems and pairwise learning for improving detection rates on Intrusion Detection Systems[J]. Expert Systems with Applications, 2015,42(1):193-202.
[4] Khamphakdee N, Benjamas N, Saiyod S. Improving Intrusion Detection System Based on Snort Rules for Network Probe Attacks Detection with Association Rules Technique of Data Mining[J]. Journal of Ict Research & Applications, 2015, 8(3):234-250.
[5] 武玉剛, 秦勇, 宋繼光,等. 基于關(guān)聯(lián)規(guī)則的入侵檢測算法研究綜述[J]. 計算機工程與設(shè)計, 2011,32(3):834-838.
[6] 周豫蘋, 方建安. 神經(jīng)模糊理論在入侵檢測系統(tǒng)中的應(yīng)用研究[J]. 微電子學與計算機, 2010, 27(9):126-129.
[7] Hassan M M M. Current Studies On Intrusion Detection System, Genetic Algorithm And Fuzzy Logic[J]. International Journal of Distributed & Parallel Systems, 2013,4(2):79-91.
[8] 朱長江, 柴秀麗. 基于改進遺傳算法的模糊聚類研究及應(yīng)用[J]. 科學技術(shù)與工程, 2013, 13(10):2863-2866.
[9] Acampora G. Exploiting timed automata based fuzzy controllers for designing adaptive intrusion detection systems[J]. Soft Computing, 2012, 16(7):1183-1196.
[10] Beigh B M. A New Classification Scheme for Intrusion Detection Systems[J]. International Journal of Computer Network & Information Security, 2014, 6(8):158-169.
A Network Intrusion Detection Schemer Base on Genetic Fuzzy System and Iterative Rule Learning
Ma Yong
(Sichuan Engineering Technical College, Deyang 618000, China)
For the issues that the security problem of computer network, a network intrusion detection schemer base on genetic fuzzy system and iterative rule learning is proposed. Firstly, a heuristic procedure is set to determine the consequent class and the certainty score of each fuzzy if-then rule. Then, the rules of fuzzy system are evolved by crossover and mutation operations of the Michigan genetic algorithm, to generate the fuzzy rules system. Finally, the iterative rule learning is used to optimize the genetic fuzzy system rule base, to obtain the optimal fuzzy model. Experiments on DARPA data sets show that the proposed scheme can accurately detect U2R, R2L, DoS and PRB attacks, and has high security.
Network Intrusion Detection; Genetic Fuzzy System; Iterative Rule Learning; Optimize Rule Base
TP393
A
1007-757X(2016)05-0025-04
2016.01.02)
四川省高校重點實驗室項目(2014WZY05)
馬 勇(1959-),男(漢),四川什邡人,四川工業(yè)職業(yè)技術(shù)學院,電氣信息工程系,副教授,研究方向:網(wǎng)絡(luò)安全、web挖掘等,德陽,618000