999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合動(dòng)態(tài)代價(jià)和協(xié)同標(biāo)注的網(wǎng)絡(luò)異常檢測(cè)*

2017-11-16 06:23:46杜紅樂(lè)
計(jì)算機(jī)與生活 2017年11期
關(guān)鍵詞:分類(lèi)

張 燕,杜紅樂(lè)

商洛學(xué)院 數(shù)學(xué)與計(jì)算機(jī)應(yīng)用學(xué)院,陜西 商洛 726000

結(jié)合動(dòng)態(tài)代價(jià)和協(xié)同標(biāo)注的網(wǎng)絡(luò)異常檢測(cè)*

張 燕,杜紅樂(lè)+

商洛學(xué)院 數(shù)學(xué)與計(jì)算機(jī)應(yīng)用學(xué)院,陜西 商洛 726000

針對(duì)網(wǎng)絡(luò)行為數(shù)據(jù)中中類(lèi)樣本不均衡、樣本標(biāo)注代價(jià)大的問(wèn)題,結(jié)合委員會(huì)投票和動(dòng)態(tài)代價(jià)思想提出一種針對(duì)不均衡數(shù)據(jù)集的分類(lèi)算法DC-TSVM(dynamic cost and cooperative labeling transductive support vector machine)。該方法在構(gòu)建每個(gè)子分類(lèi)器時(shí)利用類(lèi)密度之間的關(guān)系動(dòng)態(tài)計(jì)算各個(gè)類(lèi)的錯(cuò)分代價(jià),減少分類(lèi)超平面的偏移,然后利用投票熵選擇標(biāo)注準(zhǔn)確性較高的樣本進(jìn)行投票標(biāo)注,減少錯(cuò)誤的累積和傳遞,提高標(biāo)注準(zhǔn)確率,增強(qiáng)最后分類(lèi)器的泛化性能。KDDCUP99數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該方法對(duì)未知攻擊有較高的檢測(cè)準(zhǔn)確率。

支持向量機(jī);網(wǎng)絡(luò)異常檢測(cè);投票委員會(huì);協(xié)同標(biāo)注

1 引言

網(wǎng)絡(luò)運(yùn)行過(guò)程中產(chǎn)生大量反映用戶(hù)行為的數(shù)據(jù),如何利用這些數(shù)據(jù)提高系統(tǒng)的安全性受到廣泛關(guān)注,網(wǎng)絡(luò)入侵檢測(cè)利用用戶(hù)的行為數(shù)據(jù)識(shí)別用戶(hù)行為是否存在威脅,是網(wǎng)絡(luò)安全體系中的一個(gè)重要組成部分。在日益復(fù)雜的網(wǎng)絡(luò)環(huán)境中,攻擊方法變得多樣化、復(fù)雜化,新攻擊方法不斷涌現(xiàn),異常檢測(cè)能夠檢測(cè)未知類(lèi)型的攻擊方法越來(lái)越受到關(guān)注,也是網(wǎng)絡(luò)安全領(lǐng)域的研究熱點(diǎn)。

基于數(shù)據(jù)的網(wǎng)絡(luò)異常檢測(cè)方法大多采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘,將檢測(cè)問(wèn)題轉(zhuǎn)換為分類(lèi)問(wèn)題進(jìn)行求解,如基于概率統(tǒng)計(jì)的方法[1]、基于支持向量機(jī)方法[2-3]、基于神經(jīng)網(wǎng)絡(luò)方法等。這些方法都依賴(lài)于充分的有標(biāo)記的訓(xùn)練樣本集,然而,在實(shí)際應(yīng)用中,收集入侵行為數(shù)據(jù)并進(jìn)行標(biāo)注,需要花費(fèi)很大的代價(jià)。另外,新的入侵手段不斷涌現(xiàn),很難及時(shí)收集并標(biāo)注對(duì)應(yīng)的行為數(shù)據(jù),遷移學(xué)習(xí)為該類(lèi)問(wèn)題提供了一種解決途徑。直推式學(xué)習(xí)[4-10]是一種重要的遷移學(xué)習(xí)方法,同時(shí)利用有標(biāo)簽樣本和無(wú)標(biāo)簽樣本進(jìn)行學(xué)習(xí),把無(wú)標(biāo)簽樣本中的空間分布信息轉(zhuǎn)移到最終的分類(lèi)器中,則能大幅降低學(xué)習(xí)成本,提高分類(lèi)器泛化性能。

由于支持向量機(jī)自身的優(yōu)點(diǎn),直推式支持向量機(jī)[5](transductive support vector machine,TSVM)也備受關(guān)注。在TSVM中,若樣本標(biāo)注錯(cuò)誤將導(dǎo)致錯(cuò)誤的傳遞,雖然樣本標(biāo)記錯(cuò)誤有可能會(huì)被重置(也可能不被重置),但至少會(huì)影響標(biāo)記錯(cuò)誤的下一次迭代生成的分類(lèi)器。TSVM每次迭代從未標(biāo)注樣本中選取“重要”的未標(biāo)記樣本進(jìn)行暫時(shí)標(biāo)記,如何計(jì)算未標(biāo)注樣本的“重要”程度是這類(lèi)改進(jìn)的切入點(diǎn)。文獻(xiàn)[11]利用聚類(lèi)方法增加每次迭代標(biāo)注樣本的數(shù)量,減少迭代次數(shù);文獻(xiàn)[12]利用半監(jiān)督聚類(lèi)對(duì)未標(biāo)記樣本進(jìn)行預(yù)分類(lèi),然后再進(jìn)行迭代,減少迭代次數(shù)。

以上算法都是基于每次迭代中分類(lèi)器的分類(lèi)準(zhǔn)確率較高的前提,然而在不均衡數(shù)據(jù)集下,分類(lèi)超平面會(huì)向少數(shù)類(lèi)方向偏移[13-14],因此很多學(xué)者采用代價(jià)敏感支持向量機(jī)[15],對(duì)各個(gè)類(lèi)采用不同的錯(cuò)分代價(jià)來(lái)修正分類(lèi)超平面。然而,錯(cuò)分代價(jià)需要依據(jù)經(jīng)驗(yàn)給出,不同的數(shù)據(jù)集很難給出準(zhǔn)確的錯(cuò)分代價(jià)。數(shù)據(jù)集不均衡實(shí)質(zhì)是密度的不均衡,因此依據(jù)各類(lèi)密度之間的關(guān)系,在每次迭代中計(jì)算各個(gè)類(lèi)的錯(cuò)分代價(jià),能夠準(zhǔn)確地描述類(lèi)之間的不均衡程度,從而減少分類(lèi)超平面的偏移,提高樣本標(biāo)注的準(zhǔn)確率。另外,網(wǎng)絡(luò)數(shù)據(jù)集規(guī)模較大,把數(shù)據(jù)集劃分為多個(gè)子集,構(gòu)建多個(gè)子分類(lèi)器,可以大大減少每次迭代中訓(xùn)練的時(shí)間,同時(shí)利用多個(gè)分類(lèi)器的投票結(jié)果對(duì)樣本進(jìn)行標(biāo)注,可以提高準(zhǔn)確率,減少樣本重置次數(shù),進(jìn)一步提高算法速度及最終分類(lèi)器的性能。

基于以上分析,針對(duì)類(lèi)樣本不均衡,樣本標(biāo)注代價(jià)昂貴,數(shù)據(jù)集規(guī)模大的問(wèn)題,本文把投票機(jī)制和密度均衡引入到直推式支持向量機(jī)中,提出一種動(dòng)態(tài)代價(jià)和協(xié)同標(biāo)注的直推式支持向量機(jī)算法(dynamic cost and cooperative labeling TSVM,DC-TSVM)。該算法依據(jù)有標(biāo)記樣本構(gòu)建多個(gè)分類(lèi)器,利用投票結(jié)果對(duì)無(wú)標(biāo)簽樣本進(jìn)行標(biāo)注,提高樣本標(biāo)注的準(zhǔn)確率;在迭代過(guò)程中,利用類(lèi)樣本密度之間的關(guān)系計(jì)算錯(cuò)分代價(jià),減少分類(lèi)超平面的偏移,提高標(biāo)注準(zhǔn)確率;最后把該算法應(yīng)用到網(wǎng)絡(luò)異常檢測(cè)中,在KDDCUP99數(shù)據(jù)集上的仿真實(shí)驗(yàn)結(jié)果表明該算法在不均衡數(shù)據(jù)集下的有效性。

2 代價(jià)敏感支持向量機(jī)

在不均衡數(shù)據(jù)集下分類(lèi)超平面會(huì)向少數(shù)類(lèi)樣本側(cè)移動(dòng),這是因?yàn)閮深?lèi)樣本的錯(cuò)分代價(jià)相同,即兩類(lèi)采用相同的懲罰因子,支持向量機(jī)為使分類(lèi)間隔盡可能得大,同時(shí)分類(lèi)錯(cuò)誤的代價(jià)盡可能得小,分類(lèi)超平面會(huì)向少數(shù)類(lèi)側(cè)(樣本密度小的區(qū)域)偏移,即對(duì)多數(shù)類(lèi)的過(guò)學(xué)習(xí)和對(duì)少數(shù)類(lèi)的欠學(xué)習(xí)。因此,文獻(xiàn)[15]采用不同的懲罰因子,為體現(xiàn)對(duì)少數(shù)類(lèi)的重視,對(duì)少數(shù)類(lèi)使用較大的懲罰因子,而對(duì)多數(shù)類(lèi)使用較小的懲罰因子,但在實(shí)際應(yīng)用中懲罰因子很難計(jì)算。數(shù)據(jù)不均衡問(wèn)題本質(zhì)在于類(lèi)樣本密度的不均衡,本文從樣本的密度入手,利用類(lèi)樣本密度確定懲罰因子,減少分類(lèi)超平面的偏移,從而提高分類(lèi)器的分類(lèi)性能。

2.1 核空間中類(lèi)樣本密度

支持向量機(jī)最終構(gòu)建的分類(lèi)超平面是特征空間中的,因此特征空間中類(lèi)密度能更準(zhǔn)確反映樣本的分布情況。下面在特征空間中給出幾個(gè)相關(guān)概念的定義。

定義1設(shè)樣本x、y,則兩樣本之間的距離d(x,y)為:

其中x、y為多維向量,||x||為二階范數(shù)。

若線性不可分,支持向量機(jī)將使用核函數(shù)將樣本從輸入空間映射到某一特征空間中,使得樣本在該特征空間中線性可分。設(shè)映射函數(shù)為:?∶Rk?F,核函數(shù)為K(x,y)=<?(x),?(y)>,則在特征空間中兩個(gè)樣本之間的距離為:

假設(shè)核函數(shù)采用RBF,即K(x,y)=exp(-g||x-y||2),g為一待定的常數(shù),且g值會(huì)影響最終結(jié)果,g多取值為維數(shù)的倒數(shù),由式(2)可得:

經(jīng)過(guò)劃分后的每個(gè)類(lèi)可以看作是一個(gè)超球,類(lèi)中心及類(lèi)密度定義如下。

定義2(類(lèi)中心)數(shù)據(jù)集劃分后的第i個(gè)類(lèi)Gi,設(shè)包含ni個(gè)樣本,則類(lèi)中心Ci為:

若采用RBF核函數(shù),則第i個(gè)類(lèi)的中心Ci為:

由此可得類(lèi)內(nèi)樣本xj到類(lèi)中心Ci的距離為:

為了對(duì)多數(shù)類(lèi)的樣本進(jìn)行密度均衡化處理,需要計(jì)算類(lèi)密度。下面先給出在核空間下類(lèi)樣本空間大小的描述,類(lèi)空間大小多用樣本到類(lèi)中心的最大值作為超球體的半徑來(lái)描述,如果存在噪聲數(shù)據(jù),則導(dǎo)致半徑值偏大,因此不能準(zhǔn)確描述類(lèi)空間大小。本文采用樣本到類(lèi)中心距離的平均值來(lái)描述類(lèi)空間大小。

定義3(類(lèi)空間大小)設(shè)類(lèi)Gi的樣本xij表示第i個(gè)類(lèi)內(nèi)的第j個(gè)樣本,則類(lèi)Gi的空間大小Si表示為類(lèi)內(nèi)樣本到類(lèi)中心平均距離的m倍,即:

本文算法中需要計(jì)算兩類(lèi)樣本密度的比值,因此m的取值對(duì)計(jì)算結(jié)果沒(méi)有影響,為了簡(jiǎn)化計(jì)算,這里m取值為1。根據(jù)上面類(lèi)空間大小的定義,給出下面類(lèi)樣本密度的定義。

定義4(類(lèi)密度)設(shè)類(lèi)Gi的樣本xij表示第i個(gè)類(lèi)內(nèi)的第j個(gè)樣本,則類(lèi)密度ρi為類(lèi)內(nèi)樣本數(shù)與類(lèi)空間大小Si的比值,即:

若核函數(shù)采用RBF,則類(lèi)Gi的密度為:

2.2 懲罰因子

分類(lèi)超平面會(huì)向密度小的方向偏移,因此密度小的類(lèi)應(yīng)該賦予較大的懲罰因子,密度大的類(lèi)賦予較小的懲罰因子,可以把懲罰因子與密度之間視作成反比的關(guān)系。對(duì)于兩類(lèi)問(wèn)題,假設(shè)C1、C2為類(lèi)的懲罰因子,即錯(cuò)分代價(jià)參數(shù),ρ1、ρ2為類(lèi)的密度,則懲罰因子之間的關(guān)系為:

其中,a為懲罰因子調(diào)控系數(shù);C為支持向量機(jī)算法中的懲罰因子。

3 協(xié)同標(biāo)注算法

3.1 算法思想

為了進(jìn)一步提高每次迭代對(duì)樣本標(biāo)注的準(zhǔn)確率,通過(guò)有標(biāo)簽樣本構(gòu)建多個(gè)分類(lèi)器,然后利用委員會(huì)投票算法的投票結(jié)果進(jìn)行標(biāo)注。投票委員會(huì)中為了描述投票結(jié)果的一致程度,熵越小表明結(jié)果越一致,即標(biāo)注結(jié)果越準(zhǔn)確。投票熵的計(jì)算可簡(jiǎn)單表示為:

其中,D(x)表示對(duì)樣本x的投票結(jié)果的差異程度,值越大表示越不一致;k表示投票成員的個(gè)數(shù);L表示類(lèi)別數(shù);V(l,x)表示對(duì)樣本x的類(lèi)別l的投票數(shù)。

投票熵越大,樣本包含的信息越大,越靠近分類(lèi)超平面,這樣的樣本對(duì)分類(lèi)超平面的影響也越大,一旦標(biāo)記錯(cuò)誤,不但會(huì)導(dǎo)致錯(cuò)誤的傳遞和積累,也會(huì)影響后續(xù)樣本標(biāo)注類(lèi)別的準(zhǔn)確性,從而影響最終分類(lèi)器的分類(lèi)性能。因此每次迭代選擇對(duì)分類(lèi)超平面有影響的,投票熵小的樣本,即選擇能夠改變分類(lèi)超平面,且標(biāo)注最可能準(zhǔn)確的樣本進(jìn)行標(biāo)記,而把標(biāo)注準(zhǔn)確性不高的,投票熵較大的樣本等到分類(lèi)器完善的時(shí)候再進(jìn)行標(biāo)注,使得分類(lèi)超平面被逐漸地修正,獲得最優(yōu)的分類(lèi)器。

把有標(biāo)簽樣本集記為T(mén),無(wú)標(biāo)簽樣本集記為U,圖1給出了協(xié)同標(biāo)注算法的流程。對(duì)有標(biāo)簽樣本集劃分為多個(gè)訓(xùn)練集,并與無(wú)標(biāo)簽樣本放在一起進(jìn)行歸一化;然后采用一定的樣本打散方法,把樣本集T分為m(m取奇數(shù),如3、5、7等,文中m取值為3)個(gè)差異性較大的子集T1,T2,…,Tm作為訓(xùn)練集;隨后分別訓(xùn)練得到m個(gè)初始分類(lèi)器C1,C2,…,Cm,m個(gè)分類(lèi)器對(duì)每個(gè)無(wú)標(biāo)簽樣本的輸出為f1i,f2i,…,fmi;接下來(lái)是對(duì)無(wú)標(biāo)簽樣本進(jìn)行標(biāo)注、迭代。

3.2 算法描述

該算法結(jié)合投票委員會(huì)算法和動(dòng)態(tài)錯(cuò)分代價(jià)思想,提出基于動(dòng)態(tài)代價(jià)和協(xié)同標(biāo)注的直推式支持向量機(jī)算法。該算法利用類(lèi)密度之間的關(guān)系確定錯(cuò)分代價(jià),減少分類(lèi)超平面的偏移,然后利用投票委員會(huì)算法選擇標(biāo)注準(zhǔn)確性最高的樣本進(jìn)行標(biāo)注。該算法可以提高樣本標(biāo)注的準(zhǔn)確率,減少樣本重置次數(shù)。現(xiàn)將算法詳細(xì)過(guò)程描述如下。

算法 動(dòng)態(tài)代價(jià)和協(xié)同標(biāo)注的直推式支持向量機(jī)算法DC-TSVM。

Fig.1 Cooperative labeling TSVM圖1 協(xié)同標(biāo)注TSVM

輸入:有標(biāo)簽樣本集T,無(wú)標(biāo)簽樣本集U,分類(lèi)器數(shù)目K。

輸出:最終分類(lèi)器。

步驟1把有標(biāo)簽樣本集T按照一定的方法打散為K個(gè)子集,分別記為T(mén)1,T2,…,TK。

步驟2用支持向量機(jī)分別對(duì)K個(gè)子集進(jìn)行訓(xùn)練,得到K個(gè)初始分類(lèi)器C1,C2,…,CK。

步驟3用分類(lèi)器C1,C2,…,CK分別對(duì)無(wú)標(biāo)簽樣本集進(jìn)行測(cè)試,輸出每個(gè)樣本的測(cè)試結(jié)果f1i,f2i,…,fKi。

步驟4任意無(wú)標(biāo)簽樣本xi,若存在測(cè)試結(jié)果|fij|<1,則計(jì)算樣本的投票熵,選擇投票熵最小的若干個(gè)樣本按照投票結(jié)果進(jìn)行標(biāo)注類(lèi)別。

步驟5如果對(duì)樣本xi前期已經(jīng)標(biāo)注,且與這次標(biāo)注類(lèi)別不一致,則取消標(biāo)注,并且從對(duì)應(yīng)訓(xùn)練集中刪除該樣本;如果類(lèi)別與前期一致,但xi沒(méi)有加入到相應(yīng)的數(shù)據(jù)集中,若滿(mǎn)足條件則加入;如果前期沒(méi)有標(biāo)注,則依據(jù)條件加入到對(duì)應(yīng)的數(shù)據(jù)集中,返回步驟2。

步驟6重復(fù)上述操作,直到未標(biāo)注樣本集中沒(méi)有滿(mǎn)足條件的樣本,算法終止。

算法的步驟2中,對(duì)增加新樣本的訓(xùn)練子集重新訓(xùn)練,對(duì)無(wú)新樣本增加的訓(xùn)練集仍然使用上輪迭代中的分類(lèi)器。算法最終的分類(lèi)由多個(gè)分類(lèi)器共同構(gòu)成,樣本測(cè)試采用的決策函數(shù)為f=a1f1+a2f2+…+akfk,fi表示第i個(gè)分類(lèi)器的測(cè)試結(jié)果,ai表示第i個(gè)分類(lèi)器的權(quán)重,這里為了簡(jiǎn)化計(jì)算,取值都為1,即f=f1+f2+…+fk。

4 實(shí)驗(yàn)及數(shù)據(jù)分析

實(shí)驗(yàn)是在Matlab 7.11.0環(huán)境下,結(jié)合中國(guó)臺(tái)灣林智仁老師的LIBSVM(a library for support vector machines)[16],主機(jī)為 Intel Core i7 2.3 GHz,4 GB 內(nèi)存,操作系統(tǒng)為Win7的PC機(jī)上完成。

4.1 實(shí)驗(yàn)數(shù)據(jù)選取

KDDCUP1999數(shù)據(jù)集是關(guān)于入侵檢測(cè)的標(biāo)準(zhǔn)數(shù)據(jù)集,包括訓(xùn)練集和測(cè)試集,其中訓(xùn)練集有494 022條記錄,測(cè)試集有311 030條記錄,訓(xùn)練集中包含24種攻擊,在測(cè)試集有38種攻擊(增加了14種攻擊)。攻擊包括四大類(lèi),在本實(shí)驗(yàn)中把所有攻擊看作一類(lèi),abnormal類(lèi),即把入侵檢測(cè)看作二類(lèi)分類(lèi)問(wèn)題。

數(shù)據(jù)集中每條記錄有41個(gè)屬性,有數(shù)值型,也有字符型。首先對(duì)數(shù)據(jù)集進(jìn)行數(shù)值化和歸一化,數(shù)值化是對(duì)字符類(lèi)型數(shù)據(jù)用數(shù)字進(jìn)行簡(jiǎn)單的替代,歸一化采用LIBSVM中的歸一化工具進(jìn)行處理。由于數(shù)據(jù)集規(guī)模較大,本節(jié)分別從訓(xùn)練集和測(cè)試集中選擇部分樣本進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集包括有標(biāo)記樣本集(Train set)和無(wú)標(biāo)記樣本集(Test set),Test set在訓(xùn)練階段是無(wú)標(biāo)記樣本集,測(cè)試的時(shí)候是作為測(cè)試集。為了說(shuō)明本文算法的有效性,采用兩組數(shù)據(jù)進(jìn)行實(shí)驗(yàn),每組數(shù)據(jù)集中訓(xùn)練數(shù)據(jù)300條記錄,測(cè)試數(shù)據(jù)1 000條記錄,并且在測(cè)試數(shù)據(jù)集中有訓(xùn)練數(shù)據(jù)中沒(méi)有的攻擊類(lèi)型。詳細(xì)的數(shù)據(jù)集信息如表1和表2所示。

Table1 Experimental dataset 1表1 實(shí)驗(yàn)數(shù)據(jù)集1

Table 2 Experimental dataset 2表2 實(shí)驗(yàn)數(shù)據(jù)集2

兩個(gè)數(shù)據(jù)集中兩類(lèi)樣本數(shù)量不均衡,訓(xùn)練集和測(cè)試集中兩類(lèi)樣本數(shù)量約為2∶1。實(shí)驗(yàn)中用本文的計(jì)算密度的方法,數(shù)據(jù)集1在特征空間中兩類(lèi)的密度之比為1.8∶1和2.1∶1,數(shù)據(jù)集2在特征空間中兩類(lèi)的密度之比為1.9∶1和2.29∶1,也是不均衡的。

4.2 實(shí)驗(yàn)結(jié)果及分析

準(zhǔn)確率反映的是分類(lèi)器對(duì)整體的分類(lèi)性能,而對(duì)于不均衡數(shù)據(jù)集下,更多關(guān)注的是少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率,僅僅用準(zhǔn)確率就不能很好地描述分類(lèi)器的性能。這里采用文獻(xiàn)[13]中的性能評(píng)價(jià)指標(biāo),F(xiàn)v綜合考慮少數(shù)類(lèi)樣本的準(zhǔn)確率和查準(zhǔn)率,能夠更準(zhǔn)確地反映對(duì)少數(shù)類(lèi)樣本的分類(lèi)性能;而Gm綜合考慮多數(shù)類(lèi)和少數(shù)類(lèi)樣本的分類(lèi)準(zhǔn)確率,能夠衡量分類(lèi)器的整體分類(lèi)性能。

本實(shí)驗(yàn)中把訓(xùn)練數(shù)據(jù)集分為3個(gè),通過(guò)訓(xùn)練得到3個(gè)分類(lèi)器,也就是投票委員會(huì)算法中k取值為3,3個(gè)訓(xùn)練集中各100條數(shù)據(jù),正常數(shù)據(jù)和攻擊數(shù)據(jù)數(shù)量盡可能平均。對(duì)3種算法SVM(support vector machine)、PTSVM(progressive transductive support vector machine)[5]和DC-TSVM進(jìn)行結(jié)果比較,SVM算法的實(shí)驗(yàn)結(jié)果是依據(jù)訓(xùn)練集進(jìn)行歸納學(xué)習(xí)后對(duì)測(cè)試集測(cè)試的結(jié)果,PTSVM算法是采用成對(duì)標(biāo)注法進(jìn)行直推式學(xué)習(xí),DC-TSVM算法是本文提出的算法。

由表3可以看出,本文算法的訓(xùn)練時(shí)間明顯縮短,支持向量機(jī)的時(shí)間復(fù)雜度在一般情況下可以表示為O(Nsv3+l×Nsv2+d×Nsv)(具體情況有所區(qū)別)。其中d是維數(shù),Nsv是支持向量數(shù),l是樣本數(shù)。可見(jiàn)SVM的訓(xùn)練時(shí)間由維數(shù)、訓(xùn)練樣本數(shù)及支持向量數(shù)共同決定。而本文算法把訓(xùn)練集劃分為多個(gè)不相交的子集,因此每個(gè)子分類(lèi)器的訓(xùn)練樣本數(shù)量及支持向量數(shù)量都會(huì)明顯減少,由于a3+b3+c3<(a+b+c)3、l(a2+b2+c2)<l(a+b+c)2,從而每次迭代的訓(xùn)練時(shí)間會(huì)大大減少,劃分的子集越多速度提高得越多,但是若劃分子集過(guò)多會(huì)導(dǎo)致每個(gè)分類(lèi)器由于訓(xùn)練數(shù)據(jù)集不足導(dǎo)致分類(lèi)器性能不佳(本文采用的實(shí)驗(yàn)數(shù)據(jù)集,如果劃分為11個(gè)子集,則訓(xùn)練時(shí)間有明顯增多,因?yàn)榉诸?lèi)準(zhǔn)確度下降,導(dǎo)致迭代次數(shù)增加),子集的數(shù)量可以根據(jù)訓(xùn)練數(shù)據(jù)集的規(guī)模大小來(lái)確定,規(guī)模較小子集數(shù)少,這里采用了折衷的方法,劃分為3個(gè)子集。另外,委員會(huì)投票可以提高樣本標(biāo)注的準(zhǔn)確度,可以減少樣本重置次數(shù),進(jìn)而減少迭代次數(shù),可以提高訓(xùn)練速度。

表3給出了總體分類(lèi)、正常行為分類(lèi)、攻擊行為分類(lèi)、已有攻擊分類(lèi)、未知攻擊的實(shí)驗(yàn)結(jié)果,表4給出了查準(zhǔn)率的實(shí)驗(yàn)結(jié)果。SVM算法結(jié)果是依據(jù)類(lèi)密度計(jì)算兩類(lèi)的錯(cuò)分代價(jià),然后對(duì)300個(gè)樣本繼續(xù)訓(xùn)練,得到分類(lèi)器對(duì)1 000個(gè)測(cè)試樣本進(jìn)行測(cè)試的結(jié)果,由于未能學(xué)到新攻擊類(lèi)型數(shù)據(jù)的空間信息,導(dǎo)致對(duì)未知攻擊的分類(lèi)準(zhǔn)確率較低(平均27.15%)。PTSVM算法是用成對(duì)標(biāo)注的直推式支持向量機(jī)算法,該算法的前提是兩類(lèi)樣本數(shù)量相當(dāng),而實(shí)際的測(cè)試集中兩類(lèi)樣本不均衡,因此分類(lèi)準(zhǔn)確率仍不理想,但學(xué)習(xí)了測(cè)試樣本及未知攻擊類(lèi)型的空間分布信息,因此分類(lèi)準(zhǔn)確率有了明顯的提升。DC-TSVM算法是利用密度計(jì)算類(lèi)的錯(cuò)分懲罰因子,減少分類(lèi)超平面的偏移,提高標(biāo)注準(zhǔn)確率,同時(shí)學(xué)習(xí)了測(cè)試集中空間分布信息,因此對(duì)分類(lèi)準(zhǔn)確率及未知攻擊的分類(lèi)準(zhǔn)確率都有了明顯的提高。

Table 3 Accuracy comparison表3準(zhǔn)確率對(duì)比

Table 4 Precision comparison表4 查準(zhǔn)率對(duì)比

圖2、圖3、圖4和表5分別給出了查全率、查準(zhǔn)率以及Fv和Gm的實(shí)驗(yàn)結(jié)果,可以看到本文算法性能有所提高,這是因?yàn)楸疚乃惴ㄖ胁捎脛?dòng)態(tài)代價(jià)減少錯(cuò)誤的傳遞和累積,提高每個(gè)子分類(lèi)器的分類(lèi)性能,利用協(xié)同標(biāo)注提高每次迭代中樣本標(biāo)注的準(zhǔn)確度,提高最終分類(lèi)器的分類(lèi)性能。

Fig.2 Average recall comparison圖2 平均查全率對(duì)比

Fig.3 Average precision comparison圖3 平均查準(zhǔn)率對(duì)比

Fig.4 Average Fvand Gmcomparison圖4 平均Fv和Gm值對(duì)比

Table 5 Fvand Gmcomparison表5 Fv和Gm對(duì)比

5 結(jié)束語(yǔ)

針對(duì)數(shù)據(jù)不均衡進(jìn)行標(biāo)注的困難,結(jié)合投票委員會(huì)思想和動(dòng)態(tài)代價(jià)思想提出了DC-TSVM算法,最后在KDDCUP99數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明算法的有效性,能夠提高未知攻擊類(lèi)型的檢測(cè)準(zhǔn)確率。但是算法在大規(guī)模數(shù)據(jù)集下的收斂速度仍然較慢,如何提高速度將是下階段的主要工作。

[1]Li Yuchong,Luo Xingguo,Qian Yekui,et al.RMPCM:network-wide anomaly detection method based on robust multivariate probabilistic calibration model[J].Journal on Communications,2015,36(11):201-212.

[2]Li Yinhui,Xia Jingbo,Zhang Silan,et al.An efficient intrusion detection system based on support vector machines and gradually feature removal method[J].Expert Systems withApplications,2012,39(1):424-430.

[3]Wu Xiaonian,Peng Xiaojin,Yang Yuyang,et al.Two-level feature selection method based on SVM for intrusion detection[J].Journal on Communications,2015,36(4):19-26.

[4]Zhuang Fuzhen,Luo Ping,He Qing,et al.Survey on transfer learning research[J].Journal of Software,2015,26(1):26-39.

[5]Chen Yisong,Wang Guoping,Dong Shihai.Progressive transductive inference algorithm based on support vector machine[J].Journal of Software,2003,14(3):451-460.

[6]Zhang Xin,He Ben,Luo Tiejian,et al.Performance analysis of clustering-based transductive learning[J].Journal of Software,2014,25(12):2865-2876.

[7]Yang Liu,Jing Liping,Yu Jian.Heterogeneous transductive transfer learning algorithm[J].Journal of Software,2015,26(11):2762-2780.

[8]Wu Qingyao,Ng M K,Ye Yunming.Cotransfer learning using coupled Markov chains with restart[J].IEEE Intelligent Systems,2014,29(4):26-33.

[9]Yang Liu,Jing Liping,Yu Jian.Heterogeneous co-transfer spectral clustering[C]//LNCS 8818:Proceedings of the 9th International Conference on Rough Sets and Knowledge Technology,Shanghai,Oct 24-26,2014.Berlin,Heidelberg:Springer,2014:352-363.

[10]Li Wen,Duan Lixin,Xu Dong,et al.Learning with augmented features for supervised and semi-supervised heterogeneous domain adaptation[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2014,36(6):1134-1148.

[11]Wei Fengmei,Zhang Jianpei,Chu Yan,et al.CFSFP:transfer learning from long texts to the short[J].Applied Mathematics&Information Sciences,2014,8(4):2033-2044.

[12]Du Hongle.Algorithm for imbalanced dataset based onK-nearest neighbor in kernel space[J].Journal of Frontiers of Computer Science and Technology,2015,9(7):869-876.

[13]Du Hongle,Zhang Yan.A classification algorithm for imbalanced dataset of sample density[J].Journal of Xihua University:Natural Science,2015,34(5):16-23.

[14]Du Hongle,Teng Shaohua,Zhang Lin.Support vector machine based on dynamic density equalization[C]//LNCS 9567:Proceedings of the 2nd International Conference on Human Centered Computing,Colombo,Sri Lanka,Jan 7-9,2016.Berlin,Heidelberg:Springer,2016:58-69.

[15]Zhang Yishi,YangAnrong,Xiong Chan,et al.Feature selection using data envelopment analysis[J].Knowledge-Based Systems,2014,64:70-80.

[16]Chang C C,Lin C J.LIBSVM:a library for support vector machines[EB/OL].(2014)[2016-07-30].http://www.csie.ntu.tw/~cjlin/libsvm.

附中文參考文獻(xiàn):

[1]李宇翀,羅興國(guó),錢(qián)葉魁,等.RMPCM:一種基于健壯多元概率校準(zhǔn)模型的全網(wǎng)絡(luò)異常檢測(cè)方法[J].通信學(xué)報(bào),2015,36(11):201-212.

[3]武小年,彭小金,楊宇洋,等.入侵檢測(cè)中基于SVM的兩極特征選擇方法[J].通信學(xué)報(bào),2015,36(4):19-26.

[4]莊福振,羅平,何清,等.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報(bào),2015,26(1):26-39.

[5]陳毅松,汪國(guó)平,董士海.基于支持向量機(jī)的漸進(jìn)直推式分類(lèi)學(xué)習(xí)算法[J].軟件學(xué)報(bào),2003,14(3):451-460.

[6]張新,何苯,羅鐵堅(jiān),等.基于聚類(lèi)的直推式學(xué)習(xí)的性能分析[J].軟件學(xué)報(bào),2014,25(12):2865-2876.

[7]楊柳,景麗萍,于劍.一種異構(gòu)直推式遷移學(xué)習(xí)算法[J].軟件學(xué)報(bào),2015,26(11):2762-2780.

[12]杜紅樂(lè).基于核空間中K-近鄰的不均衡數(shù)據(jù)算法[J].計(jì)算機(jī)科學(xué)與探索,2015,9(7):869-876.

[13]杜紅樂(lè),張燕.密度不均衡數(shù)據(jù)分類(lèi)算法[J].西華大學(xué)學(xué)報(bào):自然科學(xué)版,2015,34(5):16-23.

2016-09,Accepted 2016-12.

NetworkAnomaly Detection Based on Dynamic Cost and Cooperative Labeling*

ZHANG Yan,DU Hongle+
School of Mathematics and ComputerApplications,Shangluo University,Shangluo,Shaanxi 726000,China
+Corresponding author:E-mail:dhl5597@126.com

This paper focuses on the imbalanced data classification and the labeling cost,proposes a classification method DC-TSVM(dynamic cost and cooperative labeling transductive support vector machine)based on voting committee algorithm and dynamic cost.This method constructs each sub-classifier according to the misclassification cost of each sub-class that is calculated based on the relationship of density.It can reduce the offset of the classified hyperplane.Then this method labels the sample according to the voting entropy.It can reduce the accumulation and transmission of errors,improve the accuracy of labeling and get the high generalization performance.Finally,the experimental results with KDDCUP99 dataset show that this method has higher detection accuracy for unknown attacks.

support vector machine;network anomaly detection;voting committee;cooperative labeling

10.3778/j.issn.1673-9418.1609048

*The Natural Science Foundation Research Project of Shaanxi Province under Grant No.2015JM6347(陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目);the Scientific Research Program of Shaanxi Provincial Education Department under Grant No.15JK1218(陜西省教育廳科技計(jì)劃項(xiàng)目);the Science and Technology Research Project of Shangluo University under Grant No.15sky010(商洛學(xué)院科學(xué)與技術(shù)項(xiàng)目).

CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-12-23,http://www.cnki.net/kcms/detail/11.5602.TP.20161223.1702.004.html

ZHANG Yan,DU Hongle.Network anomaly detection based on dynamic cost and cooperative labeling.Journal of Frontiers of Computer Science and Technology,2017,11(11):1775-1782.

A

TP301.6

ZHANG Yan was born in 1977.She received the M.S.degree from Northwest A&F University in 2011.Now she is a lecturer at Shangluo University.Her research interests include pattern recognition and machine learning,etc.

張燕(1977—),女,陜西丹鳳人,2011年于西北農(nóng)林科技大學(xué)獲得計(jì)算機(jī)應(yīng)用碩士學(xué)位,現(xiàn)為商洛學(xué)院講師,主要研究領(lǐng)域?yàn)槟J阶R(shí)別,機(jī)器學(xué)習(xí)等。發(fā)表學(xué)術(shù)論文10余篇,主持或承擔(dān)過(guò)校級(jí)以上項(xiàng)目8項(xiàng)。

DU Hongle was born in 1979.He received the M.S.degree from Guangdong University of Technology in 2010.Now he is a lecturer at Shangluo University.His research interests include machine learning and data mining,etc.

杜紅樂(lè)(1979—),男,河南宜陽(yáng)人,2010年于廣東工業(yè)大學(xué)獲得碩士學(xué)位,目前是商洛學(xué)院講師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等。發(fā)表學(xué)術(shù)論文近30多篇,主持或承擔(dān)校級(jí)以上項(xiàng)目12項(xiàng)。

猜你喜歡
分類(lèi)
2021年本刊分類(lèi)總目錄
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類(lèi)
我給資源分分類(lèi)
垃圾分類(lèi),你準(zhǔn)備好了嗎
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
按需分類(lèi)
教你一招:數(shù)的分類(lèi)
主站蜘蛛池模板: 伊人查蕉在线观看国产精品| 日本欧美视频在线观看| 女人18毛片久久| 国产主播在线一区| 蝴蝶伊人久久中文娱乐网| 国产精品极品美女自在线| 国产精品.com| 国产美女精品人人做人人爽| 在线a视频免费观看| jizz国产视频| 欧美在线视频不卡| 美女免费黄网站| 国产欧美日韩va| 色精品视频| 在线观看91精品国产剧情免费| 无码网站免费观看| 久综合日韩| 毛片免费在线视频| 欧美另类第一页| 小说区 亚洲 自拍 另类| 台湾AV国片精品女同性| 国产欧美成人不卡视频| 九九香蕉视频| 亚洲综合国产一区二区三区| 国产综合精品日本亚洲777| 青草娱乐极品免费视频| 国产免费一级精品视频 | 亚洲美女高潮久久久久久久| 伊人久久久大香线蕉综合直播| 一级成人a毛片免费播放| 成人福利免费在线观看| 国产精品性| 老熟妇喷水一区二区三区| 欧美日韩国产成人在线观看| 国产成人精品亚洲77美色| 日韩毛片在线播放| 欧美日韩一区二区三区四区在线观看| 亚洲无线国产观看| 99这里精品| a在线亚洲男人的天堂试看| 国产精品免费露脸视频| 在线观看网站国产| 欧美a在线| 亚洲va视频| 日韩成人在线一区二区| 免费国产黄线在线观看| 女人18毛片水真多国产| 国产自在线拍| 最新痴汉在线无码AV| 好紧好深好大乳无码中文字幕| 国产欧美亚洲精品第3页在线| 国产精品太粉嫩高中在线观看| 亚洲日本www| 亚洲一级无毛片无码在线免费视频 | 无码粉嫩虎白一线天在线观看| 欧美高清国产| 欧美日本不卡| 欧美综合区自拍亚洲综合天堂| 老司机久久精品视频| 亚洲最大在线观看| 在线中文字幕网| 在线免费不卡视频| 性色一区| 五月婷婷欧美| 中国黄色一级视频| 国产又黄又硬又粗| 久久一级电影| 天堂在线www网亚洲| 97无码免费人妻超级碰碰碰| 美女黄网十八禁免费看| 日韩国产欧美精品在线| 色偷偷一区二区三区| 狂欢视频在线观看不卡| 免费AV在线播放观看18禁强制| 久久这里只精品热免费99| 日本在线亚洲| 国产在线观看91精品亚瑟| 欧美亚洲一区二区三区在线| 久久福利片| 国产精品嫩草影院视频| 一级毛片免费的| 影音先锋丝袜制服|