潘大勝



摘 要: 為了有效解決當前網(wǎng)絡入侵檢測算法存在的缺陷,提高網(wǎng)絡的安全性,提出基于模糊關聯(lián)規(guī)則挖掘的網(wǎng)絡入侵檢測算法。首先收集網(wǎng)絡數(shù)據(jù),提取網(wǎng)絡入侵行為的特征;然后采用模糊關聯(lián)規(guī)則算法對入侵行為特征進行挖掘,選擇入侵行為最有效的特征,減少特征之間的關聯(lián)度;最后支持向量機根據(jù)“一對多”的思想建立網(wǎng)絡入侵檢測的分類器,以KDD CUP數(shù)據(jù)為例對網(wǎng)絡入侵檢測性能進行分析。結果表明,該算法的網(wǎng)絡入侵檢測正確率超過了95%,檢測結果要明顯好于其他檢測算法,易實現(xiàn),可以用于大規(guī)模網(wǎng)絡的在線入侵檢測分析。
關鍵詞: 網(wǎng)絡安全; 入侵檢測; 關聯(lián)規(guī)則; 數(shù)據(jù)挖掘
中圖分類號: TN915.08?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)09?0086?03
Abstract: In order to solve the shortcomings existing in the current network intrusion detection algorithm effectively, and improve the network security, a network intrusion detection algorithm based on fuzzy association rules mining is proposed. The network data is collected to extract the features of the network intrusion behavior. The fuzzy association rules algorithm is used to mine the intrusion behavior features, select the most effective feature of intrusion behavior, and reduce the correlation among the features. The support vector machine is used to establish the classifier of the network intrusion detection according to the thought of "one?to?many". The KDD CUP data is taken as an instance to analyze the performance of network intrusion detection. The results show that the network intrusion detection accuracy of this algorithm is higher than 95%, its detection result is obviously better than that of other detection algorithms, the algorithm is simple to implement, and can be used to the online intrusion detection analysis of the large?scale network.
Keywords: network security; intrusion detection; association rule; data mining
0 引 言
隨著網(wǎng)絡技術的不斷普及以及應用的不斷深入,網(wǎng)絡安全事件發(fā)生的概率日益增加,網(wǎng)絡安全問題成為困擾人們生活和工作的一個難題[1?2]。為了解決網(wǎng)絡入侵帶來的安全問題,最初有學者采用網(wǎng)絡加密、水印技術、殺毒軟件等措施保證網(wǎng)絡的正常工作,但它們只能對非法網(wǎng)絡行為進行主動防范,當入侵行為發(fā)生變化時,它們就無能為力,缺陷十分明顯,實際應用價值低[3?5]。在該背景下,入侵檢測應運而生,其可以對網(wǎng)絡的歷史數(shù)據(jù)以及當前數(shù)據(jù)進行對比和分析,發(fā)現(xiàn)其中的非法行為,并進行實時攔截,成為當前一個重要研究課題[6]。
為了防止非法用戶進入網(wǎng)絡系統(tǒng),研究人員設計了許多種類型的網(wǎng)絡入侵檢測算法,在一定程度上保護了網(wǎng)絡的安全,使人們能夠正常、放心的工作和學習[7]。在網(wǎng)絡入侵檢測過程中,要收集數(shù)據(jù)和提取特征,由于網(wǎng)絡數(shù)據(jù)增長的速度非???,使得特征之間的重復十分嚴重,影響入侵的檢測效果,網(wǎng)絡入侵的實時性也相當差,因此需要對特征之間的關聯(lián)進行有效挖掘,分析特征之間的關系,但傳統(tǒng)挖掘算法很難準確找到特征之間的聯(lián)系,不適合于網(wǎng)絡入侵檢測的研究[8]。模糊關聯(lián)規(guī)則算法通過引入模糊理論建立入侵檢測行為規(guī)則,有效提高了特征之間的關聯(lián),具有較強的適應性,為網(wǎng)絡入侵檢測特征分析提供了一種新的研究工具[9]。在網(wǎng)絡入侵過程中,還需要設計入侵行為的分類器,當前主要基于支持向量機、神經(jīng)網(wǎng)絡等[10?11]進行設計,神經(jīng)網(wǎng)絡的結構十分復雜,尤其當特征的數(shù)量大時,易出現(xiàn)“維數(shù)災”等難題,入侵檢測結果變得很差,而且檢索結果不可靠;支持向量機可以較好地克服神經(jīng)網(wǎng)絡的不足,入侵行為檢測效果明顯增強,但檢測效率低,這是因為特征太多,入侵行為分類過程太復雜[12]。
為了提高網(wǎng)絡的安全性,提出基于模糊關聯(lián)規(guī)則挖掘的網(wǎng)絡入侵檢測算法。首先提取網(wǎng)絡入侵行為的特征,并采用模糊關聯(lián)規(guī)則算法對特征進行挖掘,減少特征之間的關聯(lián)度,然后用支持向量機建立網(wǎng)絡入侵檢測的分類器,KDD CUP數(shù)據(jù)的測試結果表明,本文算法的網(wǎng)絡入侵檢測結果要明顯好于其他檢測算法,能夠滿足大規(guī)模網(wǎng)絡的在線入侵檢測分析。
1 網(wǎng)絡入侵檢測的基本原理
在網(wǎng)絡入檢測系統(tǒng)中,包括硬件系統(tǒng)和軟件系統(tǒng)兩部分。其中軟件系統(tǒng)是網(wǎng)絡入侵檢測的重點,直接決定了網(wǎng)絡系統(tǒng)的工作性,而軟件系統(tǒng)中網(wǎng)絡入侵檢測算法最為關鍵,網(wǎng)絡入侵檢測算法包括數(shù)據(jù)采集、特征提取、入侵分類、輸出入侵檢測結果,并根據(jù)入侵檢測采取相應的措施,其工作原理如圖1所示。
2 模糊關聯(lián)規(guī)則和支持向量機
2.1 模糊關聯(lián)規(guī)則
由于傳統(tǒng)挖掘算法很難對數(shù)據(jù)進行有效分析,無法有效找出數(shù)據(jù)之間的關聯(lián),因此普遍存在檢測正確率低等不足。模糊關聯(lián)規(guī)則挖掘技術能夠從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,找出一些對問題求解結果有重要貢獻的數(shù)據(jù),為此,本文將其引入到網(wǎng)絡入侵檢測的特征分析中,提取重要的入侵行為特征,以獲得更好的入侵檢測結果。模糊關聯(lián)規(guī)則挖掘首先引入模糊理論對入侵檢測數(shù)據(jù)的特征進行處理,然后給每個特征賦一個模糊值,并根據(jù)模糊隸屬度函數(shù)得到每一個特征的模糊隸屬值,工作流程如圖2所示。
模糊關聯(lián)規(guī)則算法的網(wǎng)絡入侵檢測數(shù)據(jù)挖掘過程如下:
Step1:根據(jù)相應研究以及有關專家設置最小置信度和最小支持度
Step2:計算網(wǎng)絡入侵檢測數(shù)據(jù)集特征的模糊隸屬度參數(shù)值。
Step3:構建模糊隸屬度函數(shù),并根據(jù)模糊隸屬度函數(shù)得到相應的隸屬度。
Step4:估計各模糊屬性的支持度,得到頻繁1?項目集
Step5:根據(jù)生成項目集從而得到候選項目集根據(jù)得到頻繁集
Step6:若為空,增加否則進入下一步。
Step7:根據(jù)最大的得到置信度值,得到網(wǎng)絡入侵檢測特征之間的關聯(lián)規(guī)則。
2.2 支持向量機
對于一個兩分類問題,設滿足條件那么正類和負類分別定義為:
(1) 正類,個正類樣本的集合為對于全部均有
(2) 負類,個負類樣本的集合為,對于全部均有。
3 模糊關聯(lián)規(guī)則挖掘的入侵檢測步驟
Step1:收集網(wǎng)絡狀態(tài)信息,提取網(wǎng)絡的狀態(tài)特征。
Step2:采用模糊關聯(lián)規(guī)則挖掘算法對原始特征進行處理,得到每一種特征的模糊隸屬度函數(shù)值。
Step3:根據(jù)隸屬度函數(shù)值對網(wǎng)絡入侵的特征進行處理,減少學習樣本的規(guī)模。
Step4:支持向量機對訓練樣本進行學習,建立最優(yōu)網(wǎng)絡入侵檢測的分類器。
Step5:采用測試樣本對網(wǎng)絡入侵檢測分類器的性能進行分析。
4 實驗結果與分析
采用當前通用的網(wǎng)絡安全分析數(shù)據(jù)集——KDD CUP 99作為實驗對象,該數(shù)據(jù)集中包括四種網(wǎng)絡入侵行為,分別為:Probe,DOS,U2R,R2L,它們包含了大量的數(shù)據(jù)記錄,每一條記錄均含有41個特征屬性,其中有離散的,也有連續(xù)特征,因此對它們要進行預處理,使支持向量機可以直接識別和學習數(shù)據(jù)。選擇傳統(tǒng)數(shù)據(jù)挖掘算法的入侵檢測算法進行對比實驗,對平均檢測正確率、誤報率和平均執(zhí)行時間進行測試與分析。
網(wǎng)絡入侵檢測的正確率和誤報率如圖4,圖5所示。從圖4和圖5可知,與傳統(tǒng)數(shù)據(jù)挖掘算法的入侵檢測算法相比,模糊關聯(lián)規(guī)則挖掘算法的網(wǎng)絡入侵檢測正確率得到了顯著改善,平均檢測正確率超過95%,而且網(wǎng)絡入侵檢測的誤報率也得到了降低,這是因為通過引入模糊理論對網(wǎng)絡入侵數(shù)據(jù)之間的關系進行分析,找出它們之間存在的一些關聯(lián)規(guī)則,獲得了更加理想的網(wǎng)絡入侵檢測結果。
從表1可以看出,模糊關聯(lián)規(guī)則挖掘算法的執(zhí)行時間更短,加快了網(wǎng)絡入侵的檢測速度,這主要是因為通過模糊關聯(lián)規(guī)則挖掘,減少數(shù)據(jù)量,支持向量機的分類器結構更加簡單,網(wǎng)絡入侵的應用范圍更廣。
5 結 語
為了解決網(wǎng)絡入侵檢測中的數(shù)據(jù)量大,執(zhí)行效率低的難題,本文提出了基于模糊關聯(lián)規(guī)則挖掘的網(wǎng)絡入侵檢測算法,通過引入模糊關聯(lián)規(guī)則挖掘算法對網(wǎng)絡入侵檢測樣本數(shù)據(jù)進行分析,提取最有效的特征,去除大量無用的特征,通過具體實驗可知,相對于其他網(wǎng)絡入侵檢測算法,本文算法的網(wǎng)絡入侵檢測正確率提高了3%左右,遠遠超過實際應用的85%,同時網(wǎng)絡入侵的平均漏檢率也有了大幅下降,加快了網(wǎng)絡入侵的檢測速度,能迅速對網(wǎng)絡入侵做出響應,有效保證了網(wǎng)絡的正常工作,具有良好的實用價值。
參考文獻
[1] 唐正軍,李建華.入侵檢測技術[M].北京:清華大學出版社,2004.
[2] 井小沛,汪厚祥,聶凱,等.面向入侵檢測的基于IMGA和MKSVM的特征選擇算法[J].計算機科學,2012,39(7):96?99.
[3] DENNING D E. An intrusion detection model [J]. IEEE transactions on software engineering, 2010, 13(2): 222?232.
[4] HANG C L, WANG C J. A GA?based feature selection and parameters optimization for support vector machines [J]. Expert systems with applications, 2009, 36(2): 231?240.
[5] 何紹榮,梁金明,何志勇.基于互信息和關系積理論的特征選擇方法[J].計算機工程,2010,36(13):257?259.
[6] 陳友,程學旗,李洋,等.基于特征選擇的輕量級入侵檢測系統(tǒng)[J].軟件學報,2007(7):1639?1651.
[7] 郭文忠,陳國龍,陳慶良,等.基于粒子群優(yōu)化算法和相關性分析的特征子集選擇[J].計算機科學,2008,35(2):144?146.
[8] 高海華,楊輝華,王行愚.基于BPSO?SVM的網(wǎng)絡入侵特征選擇和檢測[J].計算機工程,2006,32(8):37?39.
[9] 陳仕濤,陳國龍,郭文忠,等.基于粒子群優(yōu)化和鄰域約簡的入侵檢測日志數(shù)據(jù)特征選擇[J].計算機研究與發(fā)展,2010,47(7):1261?1267.
[10] HONG J, SU M Y, CHEN Y H, et a1. A novel intrusion detection system based on hierarchical clustering and support vector machines [J]. Expert systems with applications, 2011, 38(1): 306?313.
[11] 陳友,沈華偉,李洋,等.一種高效的面向輕量級入侵檢測系統(tǒng)的特征選擇算法[J].計算機學報,2007,30(8):1398?1408.
[12] 魏德志,吳旭,林麗娜,等.基于云計算的模糊規(guī)則挖掘算法在入侵檢測中的應用[J].吉林師范大學學報(自然科學版),2012(1):115?118.