郭倩林,張翰林
(1.青島大學(xué)智慧校園與信息化建設(shè)中心,山東 青島 266071;2.青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,山東 青島 266071)
網(wǎng)絡(luò)技術(shù)的不斷更新和深入發(fā)展使人們對(duì)網(wǎng)絡(luò)依賴程度越來越高,網(wǎng)絡(luò)改變了人們工作和生活方式。但是網(wǎng)絡(luò)規(guī)模的擴(kuò)大使其面臨的風(fēng)險(xiǎn)也隨之增加[1]。
由于大規(guī)模集群網(wǎng)絡(luò)存在開放性和匿名性等特征,一些用戶出于某種競(jìng)爭(zhēng)等目的惡意向互聯(lián)網(wǎng)系統(tǒng)發(fā)起大量疑似攻擊行為,導(dǎo)致網(wǎng)絡(luò)能源耗盡,甚至出現(xiàn)崩潰現(xiàn)象[2]。一旦網(wǎng)絡(luò)出現(xiàn)癱瘓,將會(huì)帶來巨大經(jīng)濟(jì)、資源損失。為此,人們經(jīng)常使用防火墻技術(shù)、攻擊檢測(cè)等方式對(duì)攻擊行為進(jìn)行防范。但是這些方法檢測(cè)范圍有限,檢測(cè)到的攻擊信息也較為片面。因此網(wǎng)絡(luò)疑似攻擊自主檢測(cè)已經(jīng)成為熱點(diǎn)研究課題。
文獻(xiàn)[3]提出基于兩級(jí)分段模型的異構(gòu)數(shù)據(jù)處理和網(wǎng)絡(luò)攻擊檢測(cè)方法。整理分析異構(gòu)數(shù)據(jù)并對(duì)其進(jìn)行建模分析,獲取在多核條件下模型分布特征,對(duì)模型做分布式訓(xùn)練,實(shí)現(xiàn)網(wǎng)絡(luò)攻擊行為檢測(cè)。
文獻(xiàn)[4]提出基于自適應(yīng)免疫計(jì)算的網(wǎng)絡(luò)攻擊檢測(cè)方法,利用密度聚類方法對(duì)自體訓(xùn)練數(shù)據(jù)做預(yù)處理,在聚類分析的基礎(chǔ)上,去除噪聲數(shù)據(jù)形成自體檢測(cè)器,然后結(jié)合自我檢測(cè)器構(gòu)成非自我檢測(cè)器,結(jié)合自適應(yīng)免疫計(jì)算檢測(cè)異常攻擊行為。
雖然上述兩種方法在一定程度上擴(kuò)大了攻擊檢測(cè)范圍,改善了檢測(cè)片面性缺陷,但是不能結(jié)合攻擊的動(dòng)態(tài)變換做自主調(diào)整,降低了檢測(cè)靈敏度。為此,本文利用模糊數(shù)據(jù)分離方法對(duì)大規(guī)模集群網(wǎng)絡(luò)疑似攻擊自主檢測(cè)進(jìn)行研究。通過聚類算法對(duì)疑似攻擊數(shù)據(jù)做模糊數(shù)據(jù)分離,構(gòu)建對(duì)檢測(cè)有價(jià)值的數(shù)據(jù)集合,根據(jù)聯(lián)合評(píng)分偏離度對(duì)數(shù)據(jù)集合中疑似攻擊數(shù)據(jù)進(jìn)行判斷,進(jìn)而實(shí)現(xiàn)對(duì)集群網(wǎng)絡(luò)疑似攻擊自主檢測(cè)。
在檢測(cè)疑似攻擊的過程中,首先需去除攻擊樣本數(shù)據(jù)中的冗余信息,保留具有較大特征值的主要成分。然后假設(shè)采集到的疑似攻擊樣本數(shù)據(jù)特征為xij∈X(i=j=1,2,…,N),則有

(1)

(2)
在此基礎(chǔ)上,根據(jù)式(3)計(jì)算樣本數(shù)據(jù)的主成分

(3)
如果主成分可以表示90%以上的數(shù)據(jù)特征,就可以將其當(dāng)做表示樣本特征的主成分值。若將最后確定的樣本特征主成分?jǐn)?shù)據(jù)表示為G=(xi,di),其中xi代表數(shù)據(jù)特征向量,di表示輸出期望值,對(duì)這些數(shù)據(jù)進(jìn)行從高維到低維的映射,可將非線性關(guān)系變換成線性關(guān)系

(4)
式(4)中,φ表示高維空間特征值,w代表權(quán)重,b屬于偏移量。為滿足網(wǎng)絡(luò)疑似攻擊自主檢測(cè)過程的需要,需建立風(fēng)險(xiǎn)評(píng)估函數(shù)并確保評(píng)估結(jié)果的平滑性,因此先設(shè)計(jì)一個(gè)風(fēng)險(xiǎn)函數(shù)[5-6],表達(dá)式如下

(5)
式(5)中,ε表示評(píng)估誤差,C表示風(fēng)險(xiǎn)系數(shù)。為準(zhǔn)確計(jì)算疑似攻擊風(fēng)險(xiǎn)評(píng)估值,需帶入正向松弛變量ξ,且必須符合下述約束條件

(6)
大規(guī)模集群網(wǎng)絡(luò)節(jié)點(diǎn)間的連接存在擇優(yōu)性,從整體上看節(jié)點(diǎn)間具有密切的關(guān)系連接,但是這種連接并不是均勻分布。一些節(jié)點(diǎn)存在大量連接,屬于整體網(wǎng)絡(luò)的核心節(jié)點(diǎn)。因此,為提高疑似攻擊檢測(cè)精準(zhǔn)度,利用混合免疫方法對(duì)所有節(jié)點(diǎn)進(jìn)行定義[7],并選擇最佳節(jié)點(diǎn)數(shù)、劃分代碼矢量,經(jīng)過對(duì)矢量集合中違背排名順序的節(jié)點(diǎn)進(jìn)行識(shí)別,完成對(duì)疑似攻擊數(shù)據(jù)初步判斷。
假設(shè)s表示節(jié)點(diǎn)總數(shù)量,T(xt,yt)表示其中一部分節(jié)點(diǎn)坐標(biāo),將T(xt,yt)變換為二維矢量,L表示所有坐標(biāo)二維矢量組成的一個(gè)平面,通過下述公式將L平面分割成多個(gè)互不相交的子區(qū)域

(7)


(8)
式(8)中,v表示二維矢量的種類,m表示任意兩個(gè)矢量之間歐氏距離,e描述矢量誤差。然后假設(shè)μ表示第j類矢量集中數(shù)目,r表示矢量集合初始聚類中心,則通過下述公式能夠計(jì)獲取節(jié)點(diǎn)在疑似攻擊檢測(cè)區(qū)域的位置分布狀況

(9)
式(9)中,a表示所有節(jié)點(diǎn)狀態(tài)種類。如果f表示一個(gè)受到疑似攻擊的數(shù)據(jù)檢測(cè)序列,d為受攻擊數(shù)據(jù)所在子區(qū)域的距離序列,利用式(10)對(duì)大規(guī)模集群網(wǎng)絡(luò)疑似攻擊行為進(jìn)行初步判斷

(10)
式(10)中,p表示節(jié)點(diǎn)次品率,A為網(wǎng)絡(luò)節(jié)點(diǎn)狀態(tài)種類集合。
以上分析能夠表明,在對(duì)網(wǎng)絡(luò)疑似攻擊自主檢測(cè)過程中,在對(duì)所有節(jié)點(diǎn)總數(shù)進(jìn)行定義的基礎(chǔ)上,選擇合理節(jié)點(diǎn)數(shù)量,劃分代碼矢量,最終完成疑似攻擊初步判斷。
在實(shí)際的檢測(cè)過程中,疑似攻擊自體通常存在動(dòng)態(tài)變換特征。因此,與其相對(duì)的自體耐受和檢測(cè)過程(抗體)同樣也是不斷變化的。自體動(dòng)力學(xué)表達(dá)式如下:
S(t)=Sdead(t)-Svar iation(t)+Snew(t)
(11)
式中,Svar iation(t)表示變異自體,Snew(t)代表新形成自體,Sdead(t)則為淘汰自體。
為確保檢測(cè)器具有多樣性特征,利用隨機(jī)方法對(duì)一部分檢測(cè)器選擇,其余部分則采用基因自由組合方式生成[8]。這種方式可以確保網(wǎng)絡(luò)疑似攻擊檢測(cè)器檢測(cè)的準(zhǔn)確度。利用下式表示網(wǎng)絡(luò)攻擊候選檢測(cè)器
Inew(t)=Rrandom(Ag)+Rrandom(G(t))
(12)
式(12)中,Ag表示網(wǎng)絡(luò)攻擊檢測(cè)器集合,其實(shí)質(zhì)屬于二進(jìn)制字符串,長(zhǎng)度表示為l?;驇?kù)動(dòng)力學(xué)方程表示為
G(t)=G(t-1)-Gdead(t)+Gnew(t)
(13)
式(13)中,Gdead(t)表示在t時(shí)間點(diǎn)出現(xiàn)虛警的記憶細(xì)胞,Gnew(t)代表t時(shí)間點(diǎn)上發(fā)出反應(yīng)的抗體克隆細(xì)胞。在檢測(cè)過程中,對(duì)于不同變異攻擊行為,僅需要獲取克隆抗體,即可控制檢測(cè)器進(jìn)化方向,改善系統(tǒng)對(duì)疑似攻擊風(fēng)險(xiǎn)檢測(cè)能力[9]。在此基礎(chǔ)上,通過下式表示獲取較為成熟的網(wǎng)絡(luò)攻擊檢測(cè)器

(14)
式(14)中,Tnew(t)表示t時(shí)刻成熟的檢測(cè)器,Imaturation(t)則代表進(jìn)化形成的檢測(cè)器,Tclone(t)為經(jīng)過克隆形成的檢測(cè)器。
綜上所述,網(wǎng)絡(luò)疑似攻擊的記憶檢測(cè)器動(dòng)力學(xué)表達(dá)式如下

(15)
式(15)中,Mnew(t)表示新的記憶檢測(cè)器,Mother(t)表示從其它系統(tǒng)中得到的記憶檢測(cè)器,Mdead(t)表示自體記憶檢測(cè)器,且
Mnew(t)=Tactive(t)+Mclone(t)
(16)
式(16)中,Mclone(t)表示克隆檢測(cè)器集合。綜上所述,分別研究自體與抗體動(dòng)力學(xué)表達(dá)式,為疑似攻擊檢測(cè)提供理論依據(jù)。
由于傳統(tǒng)算法在檢測(cè)過程中需要設(shè)置參數(shù)才可以檢測(cè)出疑似攻擊次數(shù),檢測(cè)過程較為復(fù)雜,因此本文在獲取檢測(cè)器動(dòng)力學(xué)方程后,基于聚類的模糊數(shù)據(jù)分離方法對(duì)疑似攻擊進(jìn)行檢測(cè)。在檢測(cè)過程中,對(duì)疑似攻擊的網(wǎng)絡(luò)信息做模糊數(shù)據(jù)分離,構(gòu)成疑似攻擊數(shù)據(jù)集合[10],詳細(xì)步驟如下:
步驟1:檢測(cè)過程中,假設(shè)H={h1,h2,…,hn}表示模糊數(shù)據(jù)集合,若該集合隸屬于空間Rp,因此可以表示為hn∈Rp。
步驟2:將誤差平方和函數(shù)當(dāng)作聚類函數(shù),表達(dá)式如下

(17)
式(17)中,uij表示檢測(cè)樣本中與數(shù)據(jù)點(diǎn)對(duì)應(yīng)的第j個(gè)聚類中心的隸屬度,V描述聚類中心數(shù)據(jù)集合。
步驟3:利用聚類方法能夠?qū)⑹?17)中J轉(zhuǎn)換成最小值的(U,V)。然后將全部聚類結(jié)果根據(jù)含有疑似攻擊數(shù)量多少排序,將Q當(dāng)作閾值,如果集合高于Q則表示為正常聚類集合;若小于Q,將其確定為疑似攻擊數(shù)據(jù)集合。
上述即為通過聚類方法對(duì)疑似攻擊模糊數(shù)據(jù)分離的全過程,為完成疑似攻擊檢測(cè)提供有力條件。
將聯(lián)合評(píng)分偏離度作為疑似攻擊判斷依據(jù)實(shí)現(xiàn)疑似攻擊自主檢測(cè)[11]。假設(shè)USr表示聯(lián)合評(píng)分偏離度,r表示對(duì)疑似攻擊數(shù)據(jù)的評(píng)分結(jié)果,uik表示支持?jǐn)?shù)據(jù)構(gòu)成集合,將其定義成數(shù)據(jù)支持度[12],表達(dá)式如下:
USr=|Uik|
(18)
不同類型疑似攻擊數(shù)據(jù)集合相對(duì)的攻擊子集不同,在任意一個(gè)子集中,攻擊數(shù)據(jù)一般會(huì)最大限度的偏離評(píng)分平均值,且存在相同偏離方向,由此準(zhǔn)確判斷出攻擊子集中存在的疑似攻擊數(shù)據(jù),以此實(shí)現(xiàn)大規(guī)模集群網(wǎng)絡(luò)疑似攻擊自主檢測(cè)。
為驗(yàn)證本研究設(shè)計(jì)的大規(guī)模集群網(wǎng)絡(luò)疑似攻擊自主檢測(cè)方法的實(shí)際應(yīng)用性能,將本文方法與文獻(xiàn)[3]中的基于兩級(jí)分段模型的異構(gòu)數(shù)據(jù)處理和網(wǎng)絡(luò)攻擊檢測(cè)方法、文獻(xiàn)[4]中的基于自適應(yīng)免疫計(jì)算的網(wǎng)絡(luò)攻擊檢測(cè)方法進(jìn)行仿真對(duì)比。

其它參數(shù)設(shè)置情況如下:網(wǎng)絡(luò)最大延時(shí)為17ms,數(shù)據(jù)集合中的樣本數(shù)量為2000個(gè),鏈路容量為50Mb/s,節(jié)點(diǎn)緩存大小為300Packets,數(shù)據(jù)包共300個(gè)。
實(shí)驗(yàn)分別從攻擊漏報(bào)率、檢測(cè)靈敏度以及誤檢率三方面對(duì)三種不同的檢測(cè)方法的應(yīng)用性能進(jìn)行對(duì)比。
如果η表示所有網(wǎng)絡(luò)數(shù)據(jù)樣本總數(shù),k1表示實(shí)驗(yàn)總次數(shù),k2表示正確檢測(cè)到的攻擊次數(shù),n表示實(shí)際受到攻擊數(shù)據(jù),則疑似攻擊檢測(cè)漏報(bào)率為

(19)
根據(jù)式(19)能夠看出,Er值越小,檢測(cè)精準(zhǔn)度越高。
若φ表示數(shù)據(jù)檢測(cè)平均代價(jià),利用下式分別計(jì)算檢測(cè)靈敏度Ek與誤檢率Ec。

(20)

(21)
對(duì)攻擊漏報(bào)率、檢測(cè)靈敏度以及誤檢率三項(xiàng)指標(biāo)的檢測(cè)結(jié)果分別如圖1、圖2、圖3所示。

圖1 不同方法攻擊漏報(bào)率對(duì)比圖
從圖1中可以看出,三種方法漏檢率均處于10%以下,但是相對(duì)來說,本文方法的攻擊漏報(bào)率最低,這主要因?yàn)楸疚姆椒▽?duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行模糊分離,構(gòu)成疑似攻擊數(shù)據(jù)集合,使檢測(cè)過程更加全面,因此對(duì)攻擊行為的漏檢率較低,充分滿足疑似攻擊檢測(cè)對(duì)精準(zhǔn)度的要求。

圖2 不同檢測(cè)方法檢測(cè)靈敏度對(duì)比圖

圖3 不同檢測(cè)方法誤檢率對(duì)比圖
綜合圖2與圖3可知,本文方法的檢測(cè)靈敏度遠(yuǎn)遠(yuǎn)高于其它兩種方法,因此,相應(yīng)的誤檢率也較低,這是由于所提方法確定風(fēng)險(xiǎn)評(píng)估函數(shù),對(duì)攻擊行為進(jìn)行初步判定,保障網(wǎng)絡(luò)疑似攻擊檢測(cè)質(zhì)量。相對(duì)來說,基于自適應(yīng)免疫計(jì)算的攻擊檢測(cè)方法和基于兩級(jí)分段模型的攻擊檢測(cè)方法的檢測(cè)靈敏度不理想,相應(yīng)的誤檢率也會(huì)有所增加。
本研究利用模糊數(shù)據(jù)分離方法獲取聚類目標(biāo)函數(shù),在確定約束條件后,根據(jù)聯(lián)合評(píng)分偏離度實(shí)現(xiàn)大規(guī)模集群網(wǎng)絡(luò)疑似攻擊行為檢測(cè)。仿真結(jié)果表明,該方法對(duì)攻擊行為的漏檢率低,檢測(cè)靈敏度較高,可充分滿足檢測(cè)精度的要求。
然而,疑似攻擊檢測(cè)不能全面解決網(wǎng)絡(luò)安全問題,因此,在接下來的研究中,可以將這種方式與其它安全技術(shù)以及網(wǎng)絡(luò)結(jié)構(gòu)特征相結(jié)合,使之互相融合、補(bǔ)充,共同在一定范圍內(nèi)確保網(wǎng)絡(luò)系統(tǒng)安全穩(wěn)定運(yùn)行。