999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的支持向量機在入侵檢測系統(tǒng)中的應(yīng)用

2014-10-17 06:09:14李小劍謝曉堯
關(guān)鍵詞:分類特征檢測

李小劍 謝曉堯

(貴州師范大學貴州省信息與計算科學重點實驗室 貴州 550001)

0 引言

支持向量機(SVM,Support Vector Machine),在解決小樣本、非線性、高維模式分類和回歸問題上,由于其泛化能力強,并且是基于機構(gòu)風險化最小原則的,因此成為目前網(wǎng)絡(luò)入侵檢測的主要分類器[1]。然而在構(gòu)建基于 SVM 分類器的過程中,由于可能存在人為的誤操作或者受外界因素的影響,例如噪聲,導致分類面附近的某些樣本點有可能被誤分類。因此本文提出將SVM于K近鄰法相結(jié)合的方法,對分類面附近的樣本點進行二次分類。在構(gòu)建分類器模型時,先用 SVM 算法對訓練樣本進行訓練,求得最優(yōu)分類超平面,然后設(shè)定一個閥值。在用設(shè)計好的分類器對測試樣本進行分類時,若待分類樣本與最優(yōu)分類超平面的距離大于預設(shè)閥值,則直接應(yīng)用 SVM 對測試樣本進行分類;否則采用K近鄰法對測試樣本進行二次分類,從而進一步提高分類的準確率。

1 支持向量機,K近鄰法簡介

1.1 支持向量機的模型

假設(shè)給定一個特征空間上訓練數(shù)據(jù)集 T={(x1,y1),( x2,y2),……,( xi,yi)},其中,xi∈ X =Rn,yi∈Y={+1,-1},i=1,2,……,N ,輸入空間是X ? Rn,xi為第i個特征向量,也稱為實例,yi為xi類標記,當yi=+1時,稱xi為正例;當 yi=-1時,稱xi為負例,(xi,yi)稱為樣本點。模型的輸入為實例的特征向量,輸出為實例的類別。對于線性可分訓練樣本集,線性可分支持向量機利用間隔最大化求得的最優(yōu)分離超平面

求解的最優(yōu)的w*,b*。由此得到的分離超平面:

以及相應(yīng)的分類決策函數(shù)

對于線性不可分的訓練樣本集,可以通過非線性變換,將原輸入空間映射到新的特征空間,使訓練數(shù)據(jù)集在新的特征空間變成線性可分,為此引入核函數(shù)

與拉格朗日乘子,將式(1)轉(zhuǎn)化為原始問題的對偶形式:

式中 αi為與每個樣本對應(yīng)的拉格朗日乘子

其分類決策函數(shù)為

在支持向量機中,核函數(shù)對算法具有重要的影響,在眾多核函數(shù)中,徑向基函數(shù)RBF(Radical Basis Function)需要優(yōu)化的參數(shù)少,且具有較好高維數(shù)據(jù)分析能力,因此選擇RBF核函數(shù)作為支持向量機的核函數(shù)[2]。

1.2 K近鄰法

K近鄰法是一種基本分類與回歸方法。其算法思想比較樸素:假設(shè)給定一個訓練樣本,其中樣本的類別已知。分類時,對于測試樣本,根據(jù)其K個最近鄰的訓練樣本的類別,通過多數(shù)表決的方式進行預測。具體來說就是,首先,計算測試樣本x到所有訓練樣本點的距離,然后找出與x最近的訓練樣本中的K個近鄰,最后檢查這K個近鄰中的多數(shù)樣本屬于哪一類,就把x分到哪一類[3]。

2 SVM-KNN分類器的實現(xiàn)

2.1 數(shù)據(jù)的預處理

網(wǎng)絡(luò)連接是指一個單獨的UDP或ICMP報文,或是從連接建立到連接斷開的所有連續(xù)的 TCP包。KDDCUP99每條網(wǎng)絡(luò)連接包含了41個固定的特征屬性。在41個固定的特征屬性中,32個特征屬性為連續(xù)的,9個特征屬性為離散的。這41個特征分為4大類。如下表所示:

表1 網(wǎng)絡(luò)連接的41個特征

數(shù)據(jù)連續(xù)化處理:在DARPA提供的數(shù)據(jù)集中,有幾個特征的取值是離散的,由于所設(shè)計的SVM-KNN分類器只能接受數(shù)值型的數(shù)據(jù),因而在構(gòu)造分類器模型之前要把這些離散數(shù)據(jù)連續(xù)化[4]。采用的方法是將這些離散數(shù)值數(shù)據(jù)除以該特征取值范圍的上限,使之轉(zhuǎn)化為0~1之間的連續(xù)型數(shù)據(jù)。例如,特征service共有64個標號值,則首先將其值轉(zhuǎn)化到l到64之間的整數(shù)m,然后將m/64作為對應(yīng)的屬性值。

數(shù)據(jù)標準化處理:采用計算距離的方法對連續(xù)型數(shù)據(jù)進行聚類。對于連續(xù)型特征屬性,各屬性的度量單位不一樣。一般而言,所用的度量單位越小,變量可能的值域就越大,這樣對聚類結(jié)果的影響也就越大,即在計算數(shù)據(jù)間距離時對聚類的影響越大,因此為了避免對度量單位選擇的依賴,消除由于屬性度量的差異對聚類產(chǎn)生的影響,需要對屬性值進行標準化。

假設(shè)對第i樣本的第i個特征 xii進行標準化處理,采用以下變換公式

2.2 特征值的篩選

KDDcup99描述一個完整的連接記錄包含有41維特征,根據(jù)前人研究結(jié)果表明并不是所有的特征都適合用于支持向量機的分類,有的甚至會降低分類器的識別率,因此有必要對提取的特征值進行篩選。篩選采用以下方法:如果缺少這個特征后,分類器匹配準確率下降,則認為這個特征是重要特征;如果分類器匹配準確率沒有變化,但缺少這個特征后訓練速度反而降低了,這個特征也被認為是重要特征;反之,則被認為是不重要特征[5]。針對目前網(wǎng)絡(luò)比較流行的 4中攻擊行為,篩選出具有代表性的特征值。拒絕服務(wù)攻擊(DoS)有10個重要特征,遠程用戶攻擊(R2L)有3個重要特征,提權(quán)攻擊(U2R)有5個重要特征,探測和掃描攻擊(Probe)有6個重要特征。

2.3 K值的選取

K的取值大小對分類器的分類結(jié)果有重要的影響。如果選擇較小的K值,就相當于用較小領(lǐng)域中訓練樣本對測試樣本進行判斷,這樣只有與測試樣本較近的訓練樣本才會對預測結(jié)果起作用,但如果測試樣本鄰近的實例點恰好是噪聲,預測結(jié)果就會出錯,這就意味著如果K值選取過小,整體模型會變得復雜,容易發(fā)生過擬合;如果選擇較大的K值,就相當于用較大領(lǐng)域的訓練樣本對測試樣本進行判斷,這樣與測試樣本較遠的訓練樣本也會對預測起作用,使預測發(fā)生錯誤。這就意味著如果K值選取過大,整體模型會變得簡單[6]。本文通過交叉驗證的方法來選取最優(yōu)的K值,取值為6。

2.4 網(wǎng)絡(luò)數(shù)據(jù)包的捕獲

本文利用wireshark抓包軟件在Windows平臺下采用被動監(jiān)聽的方式對流入網(wǎng)絡(luò)中的數(shù)據(jù)包進行分析,搭建的網(wǎng)絡(luò)環(huán)境如下:

圖1 搭建的網(wǎng)絡(luò)環(huán)境

對核心匯聚交換機g1/0/1-g1/0/7共7個端口進出兩個方向的流量進行鏡像,并把流量鏡像至端口 g1/0/8,使該端口作為流量采集端口,連接至終端設(shè)備。核心交換機采用華為的三層交換機S6503,配置命令如下:

圖2 配置命令表

采集終端運行wireshark軟件,捕獲流經(jīng)端口g1/0/8的數(shù)據(jù)包,捕獲過程如下圖所示:

圖3 捕獲過程

共捕獲10000個數(shù)據(jù)包,將其中的1000個數(shù)據(jù)包用于訓練SVM模型,剩余的作為測試樣本。

2.5 SVM-KNN分類器偽代碼

在入侵檢測系統(tǒng)中,不僅要實時地識別正常行為與攻擊行為,而且還要在攻擊行為中能夠識別是哪一類攻擊[7]。網(wǎng)絡(luò)流量包含多種類型的入侵,其中具有很強代表性的有 4類攻擊,分別是拒絕服務(wù)攻擊(DoS)、遠程用戶攻擊(R2L)、提權(quán)攻擊(U2R)、探測和掃描攻擊(Probe)。為此需要構(gòu)建5個不同類型 SVM 分類器。在第一層先將所有的網(wǎng)絡(luò)連接記錄劃分為正常和異常兩大類。在第二層再將異常的網(wǎng)絡(luò)連接記錄送入到事先訓練出來的 DoS_SVM,如此反復進行,最終可以將所有的連接記錄都分別歸類。

2.6 實驗結(jié)果與分析

為了說明采用SVM-KNN算法的入侵檢測模型比單獨采用SVM算法的入侵檢測模型具有更好的分類效果,本文將捕獲的網(wǎng)絡(luò)連接記錄分為四組,每組數(shù)據(jù)包為2000個,分別用于這兩種檢測模型,檢測效果對比如表2所示。

表2 兩種模型檢測結(jié)果對比

對表2的實驗結(jié)果進行對比和分析,可以得出以下結(jié)論:

基于SVM-KNN算法的入侵檢測模型無論是對正常、異常數(shù)據(jù)包進行分類還是在異常數(shù)據(jù)包中對對目前網(wǎng)絡(luò)具有代表性的四種數(shù)據(jù)包進行分類,其檢測的正確率都高于單獨采用SVM算法的入侵檢測模型。

3 結(jié)語

在網(wǎng)絡(luò)入侵檢測過程中,檢測的正確率是衡量網(wǎng)絡(luò)入侵檢測系統(tǒng)的一項重要指標。針對 SVM 對分類面附近,尤其是兩支持向量面之間的實例點易造成誤分類,為了進一步提高入侵檢測系統(tǒng)的檢測正確率,采用了SVM與KNN相結(jié)合的算法對易造成誤分類的實例點進行了二次分類。實驗結(jié)果表明,分類的正確率得到了進一步提高,可以用于網(wǎng)絡(luò)入侵檢測系統(tǒng)。

[1]Cheng Lung Huang,Chieh Jen Wang.A GA-based feature selection and parameters optimization for support vector machines[J].Expert Systems with Applications,2006,31(2):231-240.

[2]陳果.基于遺傳算法的支持向量機分類器模型參數(shù)優(yōu)化[J].機械科學與技術(shù),2007,26(3):347-350.

[3]殷小舟.一種改進的結(jié)合K近鄰法的SVM分類算法[J].中國圖像圖形學報,2009,14(11):2300-2303.

[4]王潔松,王小飛.KDDCup99網(wǎng)絡(luò)入侵檢測數(shù)據(jù)的分析和預處理[J].科技信息,2008,(15):407-408

[5]孫鋼,基于SVM的入侵檢測系統(tǒng)研究[D].北京:北京郵電大學,2007.

[6]李航.統(tǒng)計學習方法[M].北京:清華大學出版社,2012.

[7]唐正軍,李建華.入侵檢測技術(shù)[M].第2版.北京:清華大學出版社,2004.

猜你喜歡
分類特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 亚洲人成网站18禁动漫无码| 国产欧美精品午夜在线播放| 99热这里只有成人精品国产| 在线无码九区| 国产亚洲精久久久久久无码AV| 国产00高中生在线播放| 中国国产A一级毛片| 久久鸭综合久久国产| 久久精品人人做人人爽电影蜜月| 久久这里只有精品2| 国产精品偷伦视频免费观看国产 | 真实国产精品vr专区| 国产在线视频二区| 国产性精品| 免费无遮挡AV| 国产区福利小视频在线观看尤物| 亚洲成人播放| 九色视频在线免费观看| 91无码人妻精品一区二区蜜桃| 国产一区二区三区视频| 国产一级毛片高清完整视频版| 亚洲精品国产成人7777| 国产主播喷水| 四虎永久在线视频| 欧美午夜久久| 欧美97色| 中国一级特黄大片在线观看| 欧美色伊人| 国产www网站| 亚洲天堂啪啪| 在线无码av一区二区三区| 久久精品人妻中文系列| 国产视频你懂得| 国产自在线播放| 视频一区亚洲| 久久久噜噜噜久久中文字幕色伊伊| 嫩草在线视频| 日韩麻豆小视频| 毛片免费高清免费| 91伊人国产| 久久精品国产免费观看频道| 欧美日韩亚洲综合在线观看| 亚洲天堂日韩在线| 国产主播福利在线观看| h网站在线播放| 亚洲精品麻豆| 99re在线视频观看| 国产精品尹人在线观看| 91青青草视频| 久久亚洲黄色视频| 久久一本日韩精品中文字幕屁孩| 欧美精品1区2区| 亚洲国内精品自在自线官| 国产中文一区二区苍井空| 日韩av资源在线| 亚洲成人在线免费| 欧美三级视频在线播放| 欧美色伊人| 国产成人无码播放| 亚洲成人动漫在线| 亚洲欧洲日韩国产综合在线二区| 欧美成一级| 亚洲AV成人一区二区三区AV| 国产打屁股免费区网站| 亚洲国产中文精品va在线播放| a毛片免费观看| 国产一区二区三区免费| 久久精品人人做人人爽| 精品无码专区亚洲| 久久精品波多野结衣| 午夜人性色福利无码视频在线观看| 中文字幕在线看| 国产不卡网| 国产XXXX做受性欧美88| 2021最新国产精品网站| 91日本在线观看亚洲精品| 国产一级无码不卡视频| 亚洲国产天堂久久九九九| 亚瑟天堂久久一区二区影院| 怡红院美国分院一区二区| 尤物成AV人片在线观看| 国产一区二区三区在线观看视频 |