999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

支持向量分類機在入侵檢測中的應用研究

2013-08-04 02:23:38桂林電子科技大學計算機科學與工程學院廣西桂林541004
計算機工程與應用 2013年11期
關鍵詞:分類檢測

桂林電子科技大學 計算機科學與工程學院,廣西 桂林 541004

桂林電子科技大學 計算機科學與工程學院,廣西 桂林 541004

1 引言

傳統的入侵檢測模型存在檢測精度低、速度慢、計算量大等問題,很大程度上受制于檢測算法。目前入侵檢測技術逐漸向智能化[1]和分布式[2]兩個方向擴展,使用網絡流作為審計數據來源對入侵檢測模型進行性能評估。將異常檢測技術[3]應用于大型入侵檢測系統中,使入侵檢測系統具備一定的學習能力,從而提高識別率。

對入侵行為進行聚類分析是一種誤報率低的檢測方法[4],而對分類器進行優化訓練是一種較為常用的方法[5]。但在實際大規模網絡監測中,數據流量巨大,異常檢測模塊會因為訓練時間過長而無法有效監測入侵行為。特別是遇到各種拒絕服務攻擊時,入侵檢測系統將面臨嚴重的內存危機,響應速度變慢。

為了提高入侵檢測對各種網絡攻擊的檢測率,增強檢測模型的泛化能力,本文研究一種基于SVM(支持向量機)的智能入侵檢測分類算法。由于具有學習能力的SVM在數據分類方面有著廣泛的應用,本文對SVM算法在入侵檢測中的可行性進行了理論論證,引入了高維核函數概念,在進行數據預處理的基礎上,對核函數相關參數采用了兩種不同的優化算法進行選取,以減少訓練時間,提高預測精度,為SVM在實際應用中的優化提供指導。

2 支持向量機多類分類器研究

2.1 支持向量機應用

支持向量機是一種適用性較好的機器學習算法,通過尋找一個最優分類超平面,使訓練集的分類間隔達到最大化來進行分類。在處理小樣本問題時,SVM的泛化能力是最好的。因此,在入侵檢測系統中引入SVM方法,可以使入侵系統具有學習機制,很大程度上提高入侵檢測系統的識別率,減少防御階段的實時工作量,提高效率。

2.2 支持向量機分類器

建立線性分類機的前提是問題是否線性可分。對于訓練集中的兩類樣本,若能用一個超平面將兩者完全分開,那么該問題是線性可分的。但是線性分類器并不是萬能的。如圖1所示,當遇到線性不可分的情況時,線性分類器無法找到最優超平面。

圖1 數據樣本線性不可分的情況

當在低維的數據線性不可分時,分類器將陷入死循環,只有映射到高維[6]后可以使得數據線性可分。將數據映射到如圖1中的二次曲線上,則可根據二次曲線的函數值來分類。設原始特征內積為<x,z>,映射后為<Φ(x),Φ(z)>,那么定義核函數為:

選擇不同形式的核函數K就可以生成不同的支持向量機。例如線性、多項式、徑向基和高斯核函數。根據Mercer定理,本文選定徑向基核函數:

RBF具備其他核函數的優點[7]:一個有懲罰參數C的線性核與有參數C和核參數σ的RBF核具有相同的性能;與多項式核相比,RBF核參數少,有利于模型選擇;對一些參數,Sigmoid核與RBF核具有相似的性能。RBF核不僅可以將樣本映射到一個更高維的空間,還可以處理當類標簽和特征之間的關系是非線性時的樣例[8]。

2.3 不可分情況的軟間隔處理

當數據樣本線性不可分時,可以使用核函數來將特征映射到高維來提高數據可分性。然而映射后并不能保證數據100%可分。例如圖2的數據分布。

圖2 出現離群點造成超平面偏斜的情況

在圖2中,一個離群點可以造成超平面的移動,而分類面的偏斜會造成間隔縮小。因此,分類模型對噪聲有極大的敏感性。如果離群點在另外一個類中,那么將會出現線性不可分的情況。在這種情況下,應該允許一些點游離并在模型中違背函數間隔大于1的限制。因此引入非負的松弛變量ξi,在最大間隔區間里面放松限制條件,允許樣本點在對方的區域中。即軟間隔法:

其中,C是離群點的權重,C越大表明離群點對目標函數影響越大,也就是越不希望看到離群點。式(3)中以C為系數的項的表示離群點越多,目標函數值越大。目標函數控制了離群點的數目和程度,使大部分樣本點仍然遵守限制條件。模型修改后,相應的拉格朗日公式為:

其中,αi和ri都是拉格朗日乘子,分別對其參數求偏導,得到w和b的表達式。然后代入公式中,求帶入后公式的極大值。最后推導出:

2.4 多類入侵分類器的算法結構

目前將SVM應用于多類分類的方法較多,其中一些代表性的方法如1-vs-1,1-vs-r以及DAG-SVM(基于有向無環圖的大間隔多類SVM分類器)等都卓有成效。而這幾種方法都是在兩類分類器[9]的基礎上,進行分類器組合決策分類的,圍繞兩類分類的思路,本文對其訓練參數進行優化。

3 入侵檢測數據的預處理

3.1 入侵檢測實驗數據的選取

在研究人員使用的數據集中,由MIT LL采集并由哥倫比亞大學IDS實驗室整理的安全審計數據集KDDCUP99是公認的入侵檢測數據集[10-11]。由于原數據集數據記錄超過百萬條,因此本文選取其中10%的數據集合進行研究。

該數據集提供了從一個模擬的局域網上采集來的九個星期的數據,政府和空軍的一千臺主機上近百個用戶的正常通訊的數據被記錄為TCPDUMP格式,在這個文本格式的文件中所包含攻擊類型有38種,所有的特征共41維,分別包括:基本特征、內容特征、2 s內流量特征以及主機流量特征。

3.2 數據預處理

由于從數據集中獲取的向量中存在一些分類過程中不能識別的屬性,如字符型屬性。為不影響分類器訓練,因此在對數據分類前必須對含有字符型的屬性進行數值化預處理。如KDDCUP99數據集中的協議類型,原屬性值為 tcp,icmp,udp,可以分別用整型數值1,2,3來替換。類似地,對于第3、4和42項屬性分別進行數值化操作。

特別地,對于第42項屬性單獨地提取出來,構成一個N×1的矩陣,作為數值化后的類別標簽,其中分為5類:normal屬性值歸為類別1;land,neptune,pod,smurf,teardrop屬于 dos,歸為類別 2;buffer_overflow,loadmodule,perl,rootkit屬于 u2r,歸 為類別 3;ftp_write,guess_passwd,imap,multihop,phf,spy,warezclient,warezmaster屬于r2l,歸為類別4;ipsweep,nmap,portsweep,satan屬于probe,歸為類別5。

對于剩下的41個屬性構成的子集,由于原先屬性之間的度量值標準不一樣,會造成輸出數據中數值小的一方消失的現象。因此必須對屬性值標準化,把原度量值轉換成無單位值。此過程即數據歸一化,其公式如式(8)所示:

其中 ymax和 ymin是歸一化的區間上下限,xmax和xmin是原數值的最大最小值,x為屬性值,y為屬性歸一化后的最終值。

在經過數值化與標準化處理的每條記錄中,可以發現屬性數目過多,這會降低分類算法的收斂速度。Bazi,Y等人[12]在分類準確率沒有下降的情況下對數據集進行特征抽取,提高訓練和分類的速度。使用RS、SVDF、LGP和MARS等算法,相關研究證明[13],由3,4,5,24,32,33構成的屬性子集合保存了重要的信息,能夠最大程度地表示每條記錄上的基本屬性。

4 支持向量機相關參數的優化

4.1 遺傳算法對訓練參數的優化

用預處理后的kddcup99數據集進行測試。隨機選取的訓練和測試數據樣本分布為:正常行為(Normal)1 000條;拒絕服務(DoS)817條;嗅探(Probe)23條;獲取權限(U2R)37條;遠程登錄攻擊(R2L)374條。

在訓練過程中,參數的選取與分類精度有著不可分割的關系。懲罰參數C和核函數參數σ沒有公認的優化選取方法。遺傳算法(Genetic Algorithm)是一種廣泛應用于最優解搜索。在相關文獻[8]中,采用GA遺傳算法搜索最優參數算法更適合于大樣本、非均衡的數據集。根據適應度函數,在復雜解空間中,GA遺傳算法能快速計算全局最優解,其相關應用已經得到證明[14]。因此,可以考慮使用GA遺傳算法優化訓練參數。首先將樣本取50%作為訓練集。其次,將最大進化代數設為100,種群大小設為20,懲罰參數C和核函數參數σ的搜索范圍分別為0到256和0到100,代溝率設為0.9。最后,在參數尋優過程中,將訓練集分成k份進行k-折疊交叉驗證。將訓練集分為k份,每次驗證中,k-1份作為訓練集,剩下的作為測試集。每個模型訓練k次,測試k次,錯誤率為k次的均值。一般k取值為10能使分類器在測試集中獲得較高的精度。但過多的訓練和測試次數會導致計算量的增加。由于硬件配置的限制,在實驗中將k值設置為3,以減少內存占用和驗證時間。

4.2 改進的粗細網格搜索算法

GA遺傳算法搜索最優解的覆蓋面大,但是容易陷入局部最優解。為了提高參數尋優算法的收斂速度,本文提出一種粗細網格搜索算法,相對于固定參數搜索的網格算法[15]具有更小的運算開銷,搜索精度也得到提高。粗細網格搜索算法具體分為以下幾個步驟:

(1)初始化尋優范圍,根據參數C的取值范圍[C1,Cm],C被m等分為公比為(Cm/C1)1/(m-1)的等比數列{C1,C2,…,Cm};根據參數σ的取值范圍[σ1,σn],參數σ被n等分為公比為(σn/σ1)1/(n-1)的等比數列{σ1,σ2,…,σn}。將{C1,C2,…,Cm}與{σ1,σ2,…,σn}組合成 m × n× 2的三維數組 Pm×n×2={[(C1,σ1),…,(C1,σn)],…,[(Cm,σ1),…,(Cm,σn)]}。

(2)遍歷 Pm×n×2中的數據。設 i={1,2,…,m},j={1,2,…,n},用參數組合 (Pij1,Pij2)訓練分類器,在K折交叉驗證中的計算分類準確率,比較最高準確率并記錄下最優參數組合(C*,σ*)。當有多組最優解組合時,選C值最小的一組。

(3)在細網格內遍歷參數組合。根據粗略篩選獲得的參數組合(C*,σ*),參數C的取值范圍變為[C*×(Cm/C1)-2/(m-1),C*×(Cm/C1)2/(m-1)],替代初始范圍 [C1,Cm];參數σ的取值范圍變為[σ*×(σn/σ1)-2/(n-1),σ*×(σn/σ1)2/(n-1)],替代初始范圍[σ1,σn]。

(4)重復步驟(1)到(3),當獲得的參數組合 (C*,σ*)以及準確率不再改變時結束循環,輸出最優參數組合(C*,σ*)、循環次數和最優驗證率。

4.3 訓練和測試結果分析

為便于比較,實驗采用與GA參數尋優相同的訓練集和交叉驗證方式。其中,粗細網格搜索算法的實驗過程分為兩個階段:

(1)在大范圍中粗略搜索,將參數C的取值范圍設為[2-4,28],C 被分為24等份;將參數σ的取值范圍設為 [2-4,24],同時σ被分為16等份。記錄下不同參數組合下分類準確率最高的參數C*和參數σ*。參數優化分布如圖3。

圖3 經過粗網格搜索選取的參數C和參數σ三維等高線分布

在圖3中,Z軸為分類準確率,X軸與Y軸分別為以2為底的參數C的對數和以2為底的參數σ的對數,最優參數的分布曲面呈上凸趨勢,函數極值點的分布收斂于小塊閉區間,在得到的閉區間范圍內繼續進行精密搜索。由粗細網格搜索算法獲得優化參數的粗略分布如圖4。

圖4 經過粗細網格搜索算法優化的參數C和σ的分布

圖4為粗略選擇的二維分布映射,交叉驗證準確率分布在各條曲線上,X軸與Y軸分別為以2為底的參數C的對數和以2為底的參數σ的對數,最優參數的組合分布逐漸收斂于準確率高的區間,說明最優參數組合分布集中于更小塊區域。

(2)在小范圍中精細搜索,根據(1)中獲得的參數組合,將參數C和參數σ的取值范圍縮小。最終得到參數C和參數σ的組合分布如圖5所示。

圖5 經過細網格搜索選取的參數C和參數σ三維等高線分布

在圖5中,Z軸為分類準確率,X軸與Y軸分別為以2為底的參數C的對數和以2為底的參數σ的對數,最優參數的分布面為平面,函數極值點的分布收斂于頂端平面閉區間,此時在一組最優解組合中選取參數C最小的一組,最后可得到分類準確率最高的參數C和參數σ的組合。

用改進的粗細網格搜索算法與GA遺傳算法進行參數優化實驗的比較,用其余50%的入侵數據樣本分別進行分類測試,仿真結果如表1所示。

表1 粗細網格搜索法與GA遺傳算法性能比較

根據表1可以看出,參數值越小,時間開銷越少。利用GA遺傳算法優化的參數能在實際樣本分類中達到較高的準確率,但訓練時間開銷大,約為粗細網格搜索算法的3倍,對于數據分布較為均衡的復雜數據分類,參數優化的優勢并不明顯。而通過改進的粗細網格搜索法在保證高分類準確率的前提下,所獲得的參數C和參數σ相對來說有明顯的時間優勢,是一種在入侵檢測數據分類處理中相對高效的參數優化方法。

5 結論

如何有效地對數據集進行特征抽取是提高入侵檢測率的必要手段,而參數選取對SVM分類器的性能至關重要。為此,提出一種粗細網格參數搜索算法。通過實驗分析,在使用支持向量機進行數據分類之前進行采用粗細網格搜索算法對訓練參數進行優化,在提高分類準確率基礎上,SVM算法的收斂速度也得到了提高。通過與GA遺傳算法的比較結果表明,支持向量機分類算法是一種在實際應用中具有高可行性的網絡入侵檢測手段,粗細網格搜索算法更適合對SVM訓練參數進行優化。

[1]Macia-Perez F,Mora-Gimeno F,Marcos-Jorquera D,et al. Network intrusion detection system embedded on a smart sensor[J].IEEE Transactions on Industrial Electronics,2011,58:722-732.

[2]Rehak M,Pechoucek M,Grill M,et al.Adaptive multiagent system for network traffic monitoring[J].Intelligent Systems,2009,24:16-25.

[3]Gong Yunlu,Mabu S,Chen Ci,et al.Intrusion detection system combining misusedetection and anomaly detection using genetic network programming[C]//ICCAS-SICE,2009:3463-3467.

[4]Qian Yuwen,Song Huaju,Gao Hua.Intrusion detection based on support vector machine divided up by clusters[C]//2010 International Conference on Electrical and Control Engineering(ICECE),2010:2813-2815.

[5]Liu Hui,Cao Yonghui.Research intrusion detection techniques from the perspective of machine learning[C]//2010 2nd International Conference on Multimedia and Information Technology(MMIT),2010:166-168.

[6]Liang Xun,Chen Rong-Chang,Guo Xinyu.Pruning support vector machines without altering performances[J].IEEE Transactions on Neural Networks,2008,19:1792-1803.

[7]Melgani F,Bazi Y.Classification of electrocardiogram signals with support vector machines and particle swarm optimization[J].IEEE Transactionson Information Technology in Biomedicine,2008,12:667-677.

[8]Cao Lijia,Zhang Shengxiu,Li Xiaofeng,et al.Nonlinear adaptive block backstepping control using command filter and neural networks approximation[J].Information Technology Journal,2011,10:2284-2291.

[9]Camps-Valls G,Gomez-Chova L,Munoz-Mari J.Kernel-based framework for multitemporal and multisource remote sensing data classification and change detection[J].IEEE Transactionson GeoscienceandRemoteSensing,2008,46:1822-1835.

[10]Wang Jun,Li Taihang,Ren Rongrong.A real time IDSs based on artificial bee colony-support vector machine algorithm[C]// 2010 3rd International Workshop on Advanced Computational Intelligence(IWACI),2010:91-96.

[11]Gu Yu,Zhou Bo,Zhao Jiashu.PCA-ICA ensembled intrusion detection system by pareto-optimal optimization[J]. Information Technology Journal,2008,7:510-515.

[12]Bazi Y,Melgani F.Toward an optimal SVM classification system forhyperspectralremote sensing images[J].IEEE Transactions on Geoscience and Remote Sensing,2006,44:3374-3385.

[13]Zaina A,Maarof M A,Shamsuddin S M.Feature selection using rough set in intrusion detection[C]//TENCON,2006.

[14]Nizar A H,Dong Z Y,Wang Y.Power utility nontechnical lossanalysiswith extreme learning machine method[J]. IEEE Transactions on Power Systems,2008,23:946-955.

[15]李京華,張聰穎,倪寧.基于參數優化的支持向量機戰場多目標聲識別[J].探測與控制學報,2010,32(1).

支持向量分類機在入侵檢測中的應用研究

雷向宇,周 萍

LEI Xiangyu,ZHOU Ping

School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin,Guangxi 541004,China

To enhance the approximation and generalization ability of intrusion detection system,theoretical framework of multiple classifiers is analyzed,and factors such as training data pretreatment,cross-validation time and intrusion detection model accuracy is also taken into consideration.In order to get optimal parameters rapidly,a new approach based on grid search is presented.The KDD dataset is mapped into a high-dimensional feature space via the method for intrusion detection based on support vector machine.Different algorithms are applied to optimize the related parameters for kernel function.By using improved grid search method,the acquired parameter has relatively obvious time superiority.The experimental results prove that the classification accuracy and efficiency are improved.

intrusion detection system;KDD dataset;support vector machine;kernel function;grid search

為解決入侵檢測系統的泛化能力問題,分析了多類分類器的理論框架,并綜合考慮訓練集數據的預處理、交叉驗證時間和入侵檢測模型準確率三個因素,提出了一種改進的粗細網格參數優化算法。在基于支持向量機的入侵檢測模型中,將KDD數據集映射到高維空間,并采用不同的算法對核函數相關參數進行優化。實例仿真計算表明,通過改進的網格搜索法所獲得的參數相對來說有明顯的時間優勢,分類精度和效率得到了提高。

入侵檢測系統;KDD數據集;支持向量機;核函數;網格搜索

A

TP393.08

10.3778/j.issn.1002-8331.1110-0055

LEI Xiangyu,ZHOU Ping.Research of support vector machine classifiers for intrusion detection.Computer Engineering and Applications,2013,49(11):88-91.

國家自然科學基金(No.60961002)。

雷向宇(1987—),男,工學碩士,主要研究領域為入侵檢測、網絡安全;周萍,女,教授。E-mail:xiangyu155@qq.com

2011-10-08

2011-12-23

1002-8331(2013)11-0088-04

CNKI出版日期:2012-03-08 http://www.cnki.net/kcms/detail/11.2127.TP.20120308.1520.014.html

猜你喜歡
分類檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
“幾何圖形”檢測題
“角”檢測題
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 国产在线观看人成激情视频| 午夜a视频| 中文字幕色在线| 18禁黄无遮挡网站| 啪啪啪亚洲无码| 色婷婷啪啪| 欧美日韩亚洲综合在线观看| 首页亚洲国产丝袜长腿综合| 综合色区亚洲熟妇在线| 波多野结衣AV无码久久一区| 国产精品55夜色66夜色| 亚洲精品欧美日本中文字幕| 婷婷在线网站| A级毛片高清免费视频就| 日韩精品一区二区三区大桥未久 | 国产情侣一区二区三区| 天堂岛国av无码免费无禁网站 | 一级毛片基地| 欧美另类图片视频无弹跳第一页| 久久成人18免费| 成人在线综合| 久草视频中文| 亚洲视频无码| 国产丝袜无码一区二区视频| 九色在线视频导航91| 日本欧美一二三区色视频| 六月婷婷激情综合| 好久久免费视频高清| 国产一区二区免费播放| 先锋资源久久| 久久久久青草大香线综合精品| 国产成人AV综合久久| 亚洲精品免费网站| 国产成人精品日本亚洲77美色| 欧美乱妇高清无乱码免费| 精品一区二区无码av| 国产成人亚洲精品蜜芽影院| 欧美专区在线观看| 日本精品中文字幕在线不卡| 另类欧美日韩| 中文无码日韩精品| 亚洲国产看片基地久久1024| 伊人成人在线视频| 成人国产精品网站在线看| 57pao国产成视频免费播放| 国产中文在线亚洲精品官网| 在线中文字幕日韩| 亚洲欧洲一区二区三区| 日韩免费成人| 国产美女无遮挡免费视频网站| 九九热视频精品在线| 久久亚洲国产一区二区| 手机在线免费不卡一区二| 亚洲精品无码专区在线观看| 综合五月天网| 国产一级小视频| 久久一本日韩精品中文字幕屁孩| 免费亚洲成人| 亚洲国产在一区二区三区| 视频二区欧美| 成人日韩欧美| 欧美日本不卡| 亚洲国产成熟视频在线多多| 久久频这里精品99香蕉久网址| 欧美激情首页| 久久这里只有精品国产99| 亚洲无码A视频在线| 国产高清在线观看91精品| 色综合中文综合网| 亚洲午夜国产精品无卡| 国产成人91精品免费网址在线 | 最新国产网站| 亚洲福利一区二区三区| 综合成人国产| 亚洲综合色区在线播放2019| 99无码熟妇丰满人妻啪啪| 看看一级毛片| 国产区免费精品视频| 狠狠做深爱婷婷综合一区| 中文字幕久久精品波多野结| 伊人久久综在合线亚洲2019| 91九色国产porny|