999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進粗糙集屬性約簡結(jié)合K-means聚類的網(wǎng)絡(luò)入侵檢測方法

2020-08-06 08:28:44
計算機應(yīng)用 2020年7期
關(guān)鍵詞:分類特征檢測

王 磊

(蘇州大學(xué)信息化建設(shè)與管理中心,江蘇蘇州215006)(*通信作者電子郵箱wanglei01005@163.com)

0 引言

網(wǎng)絡(luò)安全問題一直是全社會關(guān)注的焦點,隨著網(wǎng)絡(luò)環(huán)境的日益復(fù)雜,包括防火墻、安全路由及數(shù)據(jù)加密等靜態(tài)網(wǎng)絡(luò)安全保護方法已很難滿足人們對于網(wǎng)絡(luò)安全性能的需求。

入侵檢測系統(tǒng)(Intrusion Detection System,IDS)作為一種網(wǎng)絡(luò)安全主動防御技術(shù),能夠?qū)Ψ阑饓Φ葌鹘y(tǒng)安全保護體系起到輔助作用[1],通過監(jiān)控流經(jīng)某個節(jié)點的流量,實現(xiàn)對入侵行為的檢測,并生成報警信號發(fā)送至系統(tǒng)管理員,典型的IDS通常包括事件采集、事件分析和事件響應(yīng)三個核心環(huán)節(jié),其檢測方法主要可分為兩種類型:誤用IDS 和異常IDS。現(xiàn)有IDS均或多或少存在有效性低、適應(yīng)性不強、誤報率高以及可擴展性不高等問題。其中:誤用IDS 根據(jù)已知攻擊和系統(tǒng)弱點的參數(shù)識別入侵,然而它無法識別新的或不熟悉的攻擊類型;異常IDS 則基于正常行為的參數(shù),并使用它們來識別任何與正常行為相差甚遠的行為[2]。誤用入侵檢測的機制是訓(xùn)練現(xiàn)有的入侵模式,并將考慮用于檢查的數(shù)據(jù),與先前的模式相匹配,以識別入侵。IDS 一般掛接在所有所關(guān)注流量都必須流經(jīng)的鏈路上,而所關(guān)注流量則是指來自高危網(wǎng)絡(luò)區(qū)域的訪問數(shù)據(jù)和需要進行統(tǒng)計、監(jiān)視的網(wǎng)絡(luò)報文數(shù)據(jù)。即無論是誤用IDS還是異常IDS,都離不開對數(shù)據(jù)的挖掘與處理。

利用數(shù)據(jù)挖掘技術(shù)開發(fā)的IDS 通常具有檢測網(wǎng)絡(luò)入侵的優(yōu)異性能和泛化能力,從而使其具有高效的入侵檢測性能。然而,實現(xiàn)和安裝這種系統(tǒng)的過程是復(fù)雜的,系統(tǒng)的固有復(fù)雜性可以根據(jù)準(zhǔn)確性、能力和可用性的參數(shù),組織成單獨的問題集[3]。與使用數(shù)據(jù)挖掘技術(shù)構(gòu)建的IDS 相關(guān)聯(lián)的一個關(guān)鍵問題主要是基于異常檢測的那些技術(shù),與先前基于手工簽名的檢測技術(shù)相比,其誤報率更高[4]。因此,對于這些技術(shù)來說,審計數(shù)據(jù)的處理和在線入侵的檢測比較困難,并且需要大量的訓(xùn)練數(shù)據(jù)。文獻[5]提出了一種結(jié)合了統(tǒng)計技術(shù)和自組織映射來檢測網(wǎng)絡(luò)中異常的分類方法(Statistical Techniques and Self-organizing Maps,STSM),其中主成分分析(Principal Component Analysis,PCA)和Fisher判別比用于特征選擇和噪聲消除,概率自組織映射用于將網(wǎng)絡(luò)事務(wù)分類為正常或異常。文獻[6]提出了一種結(jié)合數(shù)據(jù)挖掘方法的混合技術(shù)(Hybrid Technique that combines Data Mining Approaches,HT-DMA)。該方法中,K-means聚類算法用于減少與每個數(shù)據(jù)點相關(guān)聯(lián)屬性的數(shù)量,再將支持向量機(Support Vector Machine,SVM)的徑向基函數(shù)(Radial Basis Function,RBF)用于異常網(wǎng)絡(luò)入侵檢測。文獻[7]提出了基于距離和的SVM 混合學(xué)習(xí)(Distance Sum-based SVM,DSSVM)方法,用于建模有效的IDS。在DSSVM中,獲得基于每個數(shù)據(jù)樣本與數(shù)據(jù)集中的聚類中心特征維度之間的相關(guān)性的距離和,并將SVM用作分類器。

然而現(xiàn)有方法需要大量的訓(xùn)練數(shù)據(jù),并且與系統(tǒng)的學(xué)習(xí)過程相關(guān)的復(fù)雜性很高。因此提出一種基于改進粗糙集屬性約簡和K-means 聚類的網(wǎng)絡(luò)入侵檢測方法(Improved Rough Set Attribute Reduction and optimizedK-means Clustering Approach for Network Intrusion Detection,IRSAR-KCANID)。所提方法首先基于改進模糊粗糙集屬性約簡對數(shù)據(jù)集進行預(yù)處理,優(yōu)化異常的入侵檢測特征,然后利用改進K-means 聚類算法進行入侵檢測特征分析和入侵范圍估計閾值估計,并對網(wǎng)絡(luò)特征進行分類;再根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性,從所選擇的最優(yōu)特征探索關(guān)聯(lián)影響尺度,形成特征關(guān)聯(lián)影響量(Feature Association Impact Scale,F(xiàn)AIS)表,完成對異常網(wǎng)絡(luò)入侵的快速準(zhǔn)確檢測。主要創(chuàng)新體現(xiàn)在以下幾個方面:

1)現(xiàn)有方法在入侵檢測數(shù)據(jù)訓(xùn)練方面耗時較多,提出的方法利用改進模糊粗糙集屬性約簡對數(shù)據(jù)集進行了預(yù)處理,優(yōu)化異常的入侵檢測特征,避免了對大量數(shù)據(jù)的訓(xùn)練,縮短了入侵檢測時間;

2)現(xiàn)有大多數(shù)入侵檢測方法僅僅是發(fā)現(xiàn)攻擊行為,沒有對攻擊進行有效的分類,提出的方法在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,利用改進K-means 聚類算法進行入侵檢測特征分析和入侵范圍估計閾值估計,并對網(wǎng)絡(luò)特征進行分類。

3)在聚類結(jié)果的基礎(chǔ)上,根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性,從所選擇的最優(yōu)特征探索關(guān)聯(lián)影響尺度形成關(guān)聯(lián)影響量表,從而完成對異常網(wǎng)絡(luò)入侵的檢測。

特征相關(guān)性實驗結(jié)果表明,特征優(yōu)化聚類后的最小化測量特征關(guān)聯(lián)影響量表能在保證最大預(yù)測精度的前提下,最小化入侵檢測過程的復(fù)雜度并縮短完成時間。

1 基于改進粗糙集屬性約簡的數(shù)據(jù)集預(yù)處理

由于原始數(shù)據(jù)往往包含隱含信息[8-9],本文利用改進粗糙集屬性約簡(Improved Rough Set Attribute Reduction,IRSAR)將這些隱含信息提取出來,在保留原始特征的同時更好地表現(xiàn)數(shù)據(jù)特征。將網(wǎng)絡(luò)連接記錄表示為四元組FS=(U,At,V,f),其中:U為整個網(wǎng)絡(luò)數(shù)據(jù)集;At是一個非空的有限屬性集,t表示屬性集數(shù)量;表示屬性a域 集合;f=U×At表示信息函數(shù)。

由于傳統(tǒng)的粗糙集理論只能處理離散屬性集,無法很好地處理包含大量連續(xù)值的網(wǎng)絡(luò)連接數(shù)據(jù)[10-11],因此引入模糊理論,利用模糊粗糙集的信息增益率對網(wǎng)絡(luò)連接數(shù)據(jù)特征進行自動選取。

將引入模糊理論的網(wǎng)絡(luò)連接記錄表示為FIS=(U,C∪D,V,f),設(shè)B?C,?a∈C-B,C為條件屬性集,B為約簡的屬性集,D為決策屬性集,屬性a的信息增益率為:

其中,GainRatlo表示增益率,GainRatlo(a,B,D)可用于衡量屬性a的重要程度,可以通過每次選擇增益率最大的特征進行屬性選取,最終獲得的屬性集即為約簡的本征屬性集。IRSAR 的數(shù)據(jù)集預(yù)處理主要步驟如下,其中輸入為數(shù)據(jù)集X、條件屬性集C、決策屬性集D,輸出為約簡的屬性集B:

1)清空B集合,計算GainRatlo(a,B,D),并篩選其最大值;

2)如 果 maxGainRatlo(a,B,D) >0,則B←B∪{a},返回1);

3)集合B為屬性約簡后的屬性集合。

模糊等價關(guān)系是模糊粗糙集的核心,假如給定非空有限數(shù)據(jù)集X,X上的模糊等價關(guān)系R可以用關(guān)系矩陣Mr表示為:

其中rij∈[0,1]是xi與xj的關(guān)聯(lián)值;xi和xj分別表示不同數(shù)據(jù)在同一屬性上的值,xi,xj∈X,模糊等價關(guān)系需要滿足自反、對稱和傳遞性,能夠?qū)崿F(xiàn)信息增益率對網(wǎng)絡(luò)連接數(shù)據(jù)特征屬性集進行自動篩選,以獲得約簡的本征屬性集,從而有效提高入侵檢測算法的穩(wěn)定性。相較于經(jīng)典粗糙集理論只能處理離散屬性集的短板,改進粗糙集屬性能夠獲得保留原始特征辨別能力的屬性子集,能夠很好地處理包含大量連續(xù)值的網(wǎng)絡(luò)連接數(shù)據(jù)。

2 特征分析與影響尺度閾值估計方法

2.1 K-means 聚類及其改進

K-means 聚類算法采用評價指標(biāo)來度量距離的相似性[12-13],其主要思想體現(xiàn)為以下三點:

1)在樣本數(shù)據(jù)中,樣本數(shù)量為k,且為任意設(shè)設(shè)定,設(shè)定的樣本代表一個簇的初始中心或者均值;

2)數(shù)據(jù)樣本與每個聚類中心之間的距離通常用歐氏距離公式計算,每個數(shù)據(jù)樣本根據(jù)計算結(jié)果被分配到最近的類;

3)調(diào)整聚類中心并對得到的新類進行再次計算,聚類準(zhǔn)則函數(shù)收斂的條件是聚類中心不再變化,即可終止對樣本數(shù)據(jù)的聚類調(diào)整,從而結(jié)束算法。

改進K-means 算法則針對初值選取敏感問題,算法中簇心的初始位置在算法開始時通過臨時指定,再通過樣本數(shù)據(jù)各維度的最大值和最小值計算,結(jié)合多次迭代來選取最佳的簇心,期間采用隨機梯度下降的方法來取代批量梯度下降以防止K-means 算法陷入局部最優(yōu)。假定h(θ)為所需要擬合的函數(shù),J(θ)為損失函數(shù),其函數(shù)形式分別表示為:其中:m表示訓(xùn)練集的數(shù)量,θ表示多次迭代計算所需要求取的值,X和Y為數(shù)據(jù)集,i表示迭代計數(shù),t為損失因子,參數(shù)個數(shù)表示為j。當(dāng)求解出θ時最終要擬合的函數(shù)h(θ)的值也相應(yīng)求得。

損失函數(shù)也可以改寫為:

其中cost(θ,(xt,yi))可表示為:

此處損失函數(shù)所對應(yīng)的辨識訓(xùn)練集中每個樣本數(shù)據(jù)的隸屬度,對于每個樣本數(shù)據(jù)的損失函數(shù),通過對θ求偏導(dǎo)可以求出相應(yīng)的梯度,其中θ可以根據(jù)以下公式更新:

在計算過程中θ可以通過迭代計算不斷更新,但如果學(xué)習(xí)效率設(shè)置過高則可能導(dǎo)致振蕩現(xiàn)象。因此可以引進學(xué)習(xí)率α進行改進,若假設(shè)f(α)=h(xk+αdk),其中當(dāng)前樣本點設(shè)置為xk,搜索方向設(shè)置為dk,則可得隨機梯度下降過程所尋找的f(α)最小值為:

對學(xué)習(xí)率的函數(shù)導(dǎo)數(shù)的分析:若α=0,則有

下降方向dk可以選負梯度方向dk=-?h(xk),從而使f'(0) >0。假如找到的α足夠大,并且使得f'(a)>0,則一定存在某個α,使得f'(α*) >0,其中α*即為改進設(shè)置的學(xué)習(xí)率。

改進K-means 聚類算法工作步驟如下,輸入k(簇數(shù)),輸出標(biāo)記好的k個簇集合。

1)手動設(shè)定k個臨時簇心;

2)在樣本數(shù)據(jù)每個向量的維度以及各自維度最大值和最小值選取簇心;

3)根據(jù)選取的樣本數(shù)據(jù)Xi找出距離它最近的簇心,并把簇心向Xi方向移動;

4)每次移動數(shù)據(jù)項時都乘以學(xué)習(xí)率α,其變化趨勢隨迭代次數(shù)增加而不斷減小;

5)返回步驟2);

6)對簇心進行更新;

7)直到簇心位置固定不變;

8)根據(jù)數(shù)量以及標(biāo)記判別該簇正常與否。

改進后的K-means 算法對于初值選取要求有所降低,相較于原始算法簇心的初始位置可以在算法開始時臨時指定,無需進行繁瑣的初值整定;此外,改進算法在穩(wěn)定性方面也有一定的提升,因為學(xué)習(xí)率α的設(shè)置改進,可以避免因?qū)W習(xí)效率設(shè)置過高而導(dǎo)致的振蕩現(xiàn)象。

2.2 入侵檢測特征分析與特征關(guān)聯(lián)影響尺度閾值估計

2.2.1 入侵檢測特征分析

網(wǎng)絡(luò)事務(wù)集包含的42 個特征可以分為連續(xù)和分類的值,為了便于優(yōu)化,需要將所有最初字母及連續(xù)數(shù)值轉(zhuǎn)換為分類。預(yù)處理的一組網(wǎng)絡(luò)事務(wù)根據(jù)其標(biāo)簽進行分區(qū),使得正常事務(wù)是一組,拒絕服務(wù)(Denial of Service,DoS)攻擊事務(wù)是另一組。

將字母數(shù)字值表示為數(shù)值,并將聯(lián)系續(xù)值表示為分類值,其具體步驟如下:

1)考慮具有字母數(shù)字值的每個要素,然后列出所有可能的唯一值,并使用從1開始的增量索引列出它們;

2)用適當(dāng)?shù)乃饕鎿Q值;

3)考慮具有連續(xù)值的每個要素,然后將它們劃分為一組具有最小值和最大值的范圍,以便事件在所有這些范圍內(nèi)均勻分布。

考慮結(jié)果正常交易集(Normal Trade Set,NTS)中的每個特征值集合fiv(NTS) 及其覆蓋百分比為fiv={fi(v1,c1),fi(v2,c2),…,fi(vj,cj)},v,c為特征量,然后,可以按照以下步驟中的描述執(zhí)行每個攻擊A的特征優(yōu)化:

1)考慮交易集ts(Ak)表示攻擊類型Ak(假設(shè)為DoS攻擊)。

2)對于每個特征fi(Ak),將所有值視為集合fiv(Ak)。創(chuàng)建大小為的空集,并根據(jù)其覆蓋百分比填充中的值,使得表示的特征值集的大小。

4)此過程應(yīng)適用于攻擊Ak的網(wǎng)絡(luò)事務(wù)中設(shè)置的所有特征值。

5)找出fiv(Ak)和之間的典型相關(guān)性。如果得到的典型相關(guān)性小于給定閾值或零,那么特征fi(Ak)可以被認(rèn)為是評估入侵范圍規(guī)模的最佳值。

根據(jù)上述步驟中說明的過程,可以識別特定攻擊Ak的最佳特征。

2.2.2 特征關(guān)聯(lián)影響尺度閾值估計

通過聚合A的每一行來找到特權(quán)權(quán)重(將形成表示特權(quán)權(quán)重v),再通過A和v之間的乘法找到樞軸權(quán)重:

u=A×v(10)

那么特征分類值fivj的尺度閾值fas可以通過如下公式計算:

特征分類值fivj和fi'vj'之間的fas可以表示為:

其中:tvsk表示k交易價值集,|STVS|表示事務(wù)值集的總數(shù)。

另外,每個交易價值集tvsi的特征關(guān)聯(lián)影響量表fais和faist閾值可以分別表示為:

其中:valj∈V表示特征差值。

每個交易價值faist的標(biāo)準(zhǔn)差需要進一步測量集合,以估計faist閾值的上下限和挑戰(zhàn)黑洞(Challenge Collapsar,CC)閾值范圍。其中,cc閾值是faist的一個臨界值;下限為cc平均值與cc 標(biāo)準(zhǔn)差之間的差值,上限為cc 平均值與cc 標(biāo)準(zhǔn)差之和。閾值設(shè)定的目的在于對以上三種范圍進行閾值額定,與此對應(yīng)的范圍分別為不相關(guān)性、弱相似性和強相似性。發(fā)現(xiàn)的正常記錄總數(shù)為測試數(shù)據(jù)記錄的總和,估算標(biāo)準(zhǔn)偏差表示如下:

faist系列可以探索范圍如下:

faist范圍的下限是:

faist范圍的上限是:

當(dāng)且僅當(dāng)fais(nt)<faistl時,網(wǎng)絡(luò)事務(wù)nt可以說是安全的。

通過對網(wǎng)絡(luò)中不同標(biāo)注下數(shù)據(jù)進行處理,結(jié)合模糊等價關(guān)系矩陣,可獲得輸入信號參數(shù)入侵特征閾值的參考指標(biāo)集如下:

通過上式構(gòu)建Mg關(guān)聯(lián)模型,并通過不斷訓(xùn)練改變參數(shù)個數(shù)與入侵特征閾值,獲取異常度量關(guān)聯(lián)矩陣:

其中m表示參數(shù)個數(shù),則有入侵檢測特征關(guān)聯(lián)影響閾值為:

2.3 數(shù)據(jù)集特征相關(guān)性分析并聚類

考慮兩個多維數(shù)據(jù)集X和Y,并且利用基于標(biāo)準(zhǔn)統(tǒng)計技術(shù)的典型相關(guān)分析(Canonical Correlation Analysis,CCA),利用二階的自協(xié)方差和互協(xié)方差矩陣,建立數(shù)據(jù)集之間的線性關(guān)系。該技術(shù)基于兩個基礎(chǔ),每個基礎(chǔ)用于數(shù)據(jù)集X和Y,其中互相關(guān)矩陣變?yōu)閷蔷€,并且對角線的相關(guān)性最大化。

研究用于實現(xiàn)規(guī)范相關(guān)的參數(shù),其中,X和Y應(yīng)該相等;然而,假設(shè)平均值為零,數(shù)據(jù)向量x∈X和y∈Y可以具有變化的尺寸。使用特征向量方程求解規(guī)范相關(guān)計算:

這里,Cxx、Cxy、Cyy、Cyx均為交叉協(xié)方差矩陣,其中r2本征值是規(guī)范相關(guān)的平方,wx和wy是歸一化CCA 基矢量。方程的解等價于非零值,其數(shù)量等于x和y,表示考慮具有較小維數(shù)值的數(shù)據(jù)向量。當(dāng)時,式(21)被轉(zhuǎn)換為:

這些方程描述了交叉協(xié)方差矩陣Cxy的奇異值分解:

這里U和V表示包括奇異向量ui和vi的正交平方矩陣。wx和wy表示傳遞規(guī)范相關(guān)性的基礎(chǔ)向量。矩陣U和V以及ui和vi的向量維度通常根據(jù)x和y數(shù)據(jù)向量的維度變化而變化。

偽對角矩陣Q由對角矩陣D和附加零矩陣構(gòu)建,這將使得矩陣Q與x,y各維度兼容。如果Cxy具有滿秩,則非零奇異值基本上是非零規(guī)范相關(guān),其數(shù)量小于x和y數(shù)據(jù)矢量維度中的任何一個。

3 特征關(guān)聯(lián)影響量表的入侵檢測

測量特征關(guān)聯(lián)支持度量的方法是將給定訓(xùn)練集的網(wǎng)絡(luò)事務(wù)記錄和在這些網(wǎng)絡(luò)事務(wù)中使用的特征分類值視為兩個獨立集合,并進一步構(gòu)建這兩者之間的雙工圖[14]。所提入侵檢測基于以下理想性假設(shè)和操作步驟實施。

3.1 理想性假設(shè)

特征{f1,f2,…,fn?fi={fiv1,fiv2,…,fivm}}是對特定攻擊Ak是最佳的分類值,通過應(yīng)用于網(wǎng)絡(luò)事務(wù)集T(Ak)的典型相關(guān)分析來選擇。這里T(Ak)是給定訓(xùn)練集的特定攻擊Ak的網(wǎng)絡(luò)事務(wù)記錄集,使 得 :T={t1,t2,…,tn?ti={val(f1),val(f2),…,val(fi),val(fi+1),…,val(fn)}}屬于每個網(wǎng)絡(luò)事務(wù)特征的分類值集合,稱為事務(wù)值集合tvs,并且將所有事務(wù)值集合稱為STVS。在上面的描述中,val(fi)可以被定義為val(fi)∈{fiv1,fiv2,…,fivm},此后,術(shù)語特征指的是特征的當(dāng)前分類值。當(dāng)且僅當(dāng)(val(fi),val(fj))∈tvsk時,對于兩個特征val(fi)和val(fj),val(fi)與val(fj)連接。

3.2 方法與步驟

本文通過示例探索該過程,將STVS要素的發(fā)散向量表示為V={val1,val2,…,val8}。在 表1 和 圖2中,每個元素{val1,val2,…,val8}可以是fivj,使得{fivj?i∈[1,2,…,n] ∧j∈[1,2,…,m]}。

在檢測valk的每個特征分類值fivj與網(wǎng)絡(luò)事務(wù)記錄的關(guān)聯(lián)過程中,需要在STVS和特征分類值之間建立雙工圖。

形成雙重圖可認(rèn)為圖關(guān)系是二分的,并且在特征和事務(wù)值集之間形成邊。此圖中的每個關(guān)系都表示特征對網(wǎng)絡(luò)事務(wù)的作用[15]。當(dāng)且僅當(dāng)該特征f是tvs的一部分時,交易值集合tvs和特征f之間的邊緣才存在可能,這可以表示為etvs←f?f∈tvs。

表1 STVS和特征分類值之間關(guān)聯(lián)的二進制表示Tab.1 Binary representation of correlation between STVS and feature classification value

圖1 所示為加權(quán)無向圖,其中特征值作為特征值之間的頂點和邊。

圖1 計數(shù)為8的分類值集示例加權(quán)圖Fig.1 Weighted graph example of classification value set with counting of 8

任意兩個特征val(f1),val(f2)之間的邊將按如下方式加權(quán):

在上面的等式中,ctvs表示事務(wù)計數(shù),其中包含兩個特征val(f1)、val(f2)。然后特征val(f1)、val(f2)之間的邊緣重量可以如下測量:

在構(gòu)建加權(quán)圖的過程中,本文認(rèn)為當(dāng)且僅當(dāng)ctvs≥1時,任何兩個特征之間存在邊際。

在如圖2 所示的雙工圖中,虛線表示連接元素屬于雙工圖的相同級別,實線表示特征值和事務(wù)值集之間的關(guān)系。

圖2 STVS和V之間的雙工圖Fig.2 Duplex diagram between STVS and V

如果在tvs1中存在稱為val1的特征分類值fivj,則val1和tvs1之間的連接的權(quán)重將是val1與在加權(quán)中定義的tvs1的每個特征分類值{fivj?fivj∈tvs1}之間邊的權(quán)重的總和圖形[16]。

此外,將形成矩陣A,表示交易值集和特征分類值之間的雙重圖的邊緣權(quán)重。然后獲得A',表示矩陣A的轉(zhuǎn)置[17]。

將STVS視為數(shù)據(jù)庫,并將其描述為雙工圖而不會丟失信息。設(shè)STVS={tvs1,tvs2,…,tvs6}是事務(wù)值集的列表,V={val1,val2,…,val8}是相應(yīng)的特征集分類值。那么,顯然STVS相當(dāng)于雙工圖DG=(STVS,V,E)。其中,特征值分類值能夠跟隨通道業(yè)務(wù)變化而動態(tài)調(diào)整,從而達到辨識策略的修正,實現(xiàn)通信網(wǎng)絡(luò)入侵的在線監(jiān)測。

這里,E={tvsi,vali):vali∈tvsi,tvsi∈STVS,vali∈V}。

假設(shè)給定雙工圖的交易值集,作為樞軸并且特征分類值作為純特權(quán),則可以測量樞軸和特權(quán)值[18-19]。如果在交易值集合中存在特征分類值val1,那么val1和tvs1之間的連接的權(quán)重,將是val1與電視的每個特征分類值{vali?vali∈tvs1}之間的邊緣權(quán)重的總和。這些權(quán)重是邊緣權(quán)重,用加權(quán)圖(Weighted Graph,WG)表示。根據(jù)2.2 節(jié)所述入侵范圍估計方法,對特征關(guān)聯(lián)影響尺度閾值進行估計。

所提方法首先對數(shù)據(jù)集進行預(yù)處理,優(yōu)化異常的入侵檢測特征,然后利用改進K-means 聚類算法估計入侵范圍閾值并對網(wǎng)絡(luò)特征進行最終分類;再根據(jù)用于特征優(yōu)化的線性規(guī)范相關(guān)性,從所選擇的最優(yōu)特征探索特征關(guān)聯(lián)影響尺度,形成特征關(guān)聯(lián)影響量表,完成對異常網(wǎng)絡(luò)入侵的檢測。其具體流程如圖3所示。

圖3 基于改進K-means結(jié)合關(guān)聯(lián)影響尺度分析的入侵檢測方法流程Fig.3 Flowchart of intrusion detection method based on improved K-means and association impact scale analysis

4 實驗結(jié)果與分析

入侵檢測評估程序生成的數(shù)據(jù)用于構(gòu)建原始KDD-99 數(shù)據(jù)集,包含接近4 900 000 個唯一連接向量,其中每個連接向量由41個特征組成,34個是連續(xù)特征,7個是離散的特征。此外,本文還利用CICIDS2017 通用數(shù)據(jù)集進行了對比實驗,CICIDS2017 數(shù)據(jù)集是加拿大網(wǎng)絡(luò)安全研究所于2017 年開源的入侵檢測和入侵預(yù)防數(shù)據(jù)集,通過攻擊本地網(wǎng)絡(luò)來收集流量數(shù)據(jù),在一段時間內(nèi)收集正常流量和常見的攻擊流量,設(shè)計真實攻擊場景,具有一定的通用性和應(yīng)用性。在本文的實驗中模擬的攻擊屬于下面描述的四種類型中的任何一種。

1)DoS。DoS 攻擊是一種攻擊類型,攻擊者通過消耗計算機或內(nèi)存資源來阻止對有效用戶的訪問,從而使系統(tǒng)無法處理有效請求。DoS 攻擊的例子很多,如:teardrop、neptune、ping of death(pod)、mail bomb、back、smurf和land。

2)用戶到根式攻擊(Users-to-Root attack,U2R)。根攻擊是一種攻擊類型,攻擊者可以訪問系統(tǒng)中的有效用戶賬戶,并根據(jù)現(xiàn)有的系統(tǒng)弱點獲取對系統(tǒng)根組件的訪問權(quán)限。有幾種類型的U2R攻擊,例如:負載模塊、緩沖區(qū)溢出、rootkit、purl。

3)遠程到本地攻擊(Remote-to-Local attack,R2L)。遠程到本地攻擊是一種攻擊,其中沒有賬戶的攻擊者根據(jù)現(xiàn)有的計算機漏洞在本地訪問合法用戶賬戶。R2L 攻擊類型有:phf、warezmaster、warezclient、spy、imap、ftp_write、multihop 和guess_passwd。

4)探測攻擊(Probing attack,PROBE)。探測攻擊是一種攻擊類型,攻擊者會避開安防系統(tǒng)收集網(wǎng)絡(luò)中計算機上的數(shù)據(jù)。PROBE 攻擊類型有:nmap、satan、ipsweep 和portsweep。在NSL-KDD數(shù)據(jù)集中,考慮的協(xié)議是TCP、UDP和ICMP。

本實驗基于Intel Core i5-5430M CPU @ 2.70 GB,4 GB RAM 計算機平臺,并在Linux 系統(tǒng)中采用C 程序?qū)?shù)據(jù)集進行預(yù)處理操作,同時采用Java執(zhí)行數(shù)據(jù)分類和入侵檢測,采用粗糙集工具RSES(Rough Set Exploration System)。實驗通過與文獻[5]和文獻[7]所提方法(即STSM 和DSSVM)進行對比,從入侵檢測精度以及檢測完成時間等方面比較了所提入侵檢測方法的可行性和先進性。同時在原始KDD-99 數(shù)據(jù)集實驗基礎(chǔ)上,增加了CICIDS2017 通用數(shù)據(jù)集的對照實驗,以驗證所提方法的普適性。其中,假設(shè)網(wǎng)絡(luò)中發(fā)生的真實的攻擊事件數(shù)量M,IDS漏報的事件數(shù)量為N,在基于原始KDD-99數(shù)據(jù)集的實驗中,通過數(shù)據(jù)預(yù)處理得到的訓(xùn)練數(shù)據(jù)為54 675條,測試記錄24 533 條;基于CICIDS2017 通用數(shù)據(jù)集的實驗中,通過數(shù)據(jù)預(yù)處理得到的訓(xùn)練數(shù)據(jù)為53 687 條,測試記錄23 645 條,實驗數(shù)據(jù)分布類型和結(jié)果通過多次處理和測試得到。衡量系統(tǒng)性能最為重要的因素有檢測率(True Positive,TP)、誤報率(False Positive,F(xiàn)P)和漏報率(False Negative,F(xiàn)N)。異常網(wǎng)絡(luò)入侵檢測精度(Precision)是入侵檢測方法的主要度量指標(biāo),分析得出了入侵檢測的精確度度量方法:

其中:TP為正確識別為入侵事件與所有入侵的事件數(shù)的比值,F(xiàn)P為錯誤識別為入侵事件與所有非入侵的事件數(shù)的比值,F(xiàn)N為存在漏報的事件數(shù)與所有非入侵的事件數(shù)的比值。

實驗將提出的方法與STSM 和DSSVM 在KDD-99 數(shù)據(jù)集上進行了對比,其結(jié)果如圖4所示。

圖4 KDD-99數(shù)據(jù)集上典型發(fā)散相關(guān)閾值下IRSAR-KCANID預(yù)測精度的性能分析Fig.4 Performance analysis of IRSAR-KCANID prediction accuracy under typical divergence correlation threshold on KDD-99 dataset

從圖4中可以看出,提出的方法在閾值下限和臨界閾值附近對異常網(wǎng)絡(luò)入侵的檢測精度優(yōu)于STSM 和DSSVM 方法,其檢測精度均在97%以上,但在閾值上限處的精度則比另外兩種方法稍差。

同時,在同樣的實驗條件下,將所提方法與STSM 和DSSVM在CICIDS2017數(shù)據(jù)集上也進行對比,三者的閾值設(shè)定為各自在訓(xùn)練集重構(gòu)誤差的均值。

由圖5 可知,在閾值下限附近所提方法對入侵檢測精度明顯優(yōu)于STSM 和DSSVM 方法,且在臨界閾值條件下也保持了較好的精度優(yōu)勢,在閾值上限條件下,三種方法大體相同,均在99%以上。

圖5 CICIDS2017數(shù)據(jù)集上典型發(fā)散相關(guān)閾值下IRSAR-KCANID預(yù)測精度的性能分析Fig.5 Performance analysis of IRSAR-KCANID prediction accuracy under typical divergence correlation threshold on CICIDS2017 dataset

在不同標(biāo)記下的不同場景典型相關(guān)性實驗中,對時間復(fù)雜度進行了實驗分析,提出的方法實驗結(jié)果如圖6所示。

圖6 在不同的典型相關(guān)閾值下IRSAR-KCANID的入侵檢測完成時間Fig.6 Intrusion detection completion time of IRSAR-KCANID under different typical correlation thresholds

由圖6可知,由于cc閾值存在變化,所需要的時間復(fù)雜度也是可縮放的。當(dāng)cc 閾值較小時,所需要的完成時間較少,如cc 閾值為0.03時,僅需2.209 s便可完成入侵檢測;隨著cc閾值逐漸增大,所需要的完成時間逐漸延長,當(dāng)cc 閾值接近0.047時,完成時間趨于穩(wěn)定時間11.6 s左右。

此外,實驗將所提方法與STSM 與DSSVM 在不同數(shù)據(jù)集中的不同屬性數(shù)量下入侵檢測時間復(fù)雜度方面的對比,其實驗結(jié)果如表2所示。

如表2 所示,在不同數(shù)據(jù)集的同一屬性數(shù)量水平下,不同數(shù)據(jù)集對入侵檢測完成時間幾乎沒有影響。以KDD-99 為例,STSM 與DSSVM 方法比所提的IRSAR-KCANID 方法入侵檢測時間更長。當(dāng)屬性數(shù)量為90時,STSM 與DSSVM 方法時間分別為0.115 s 和0.095 s,而提出的方法僅為0.06 s;當(dāng)屬性數(shù)量為250時,STSM 與DSSVM 方法時間分別為0.945 s 和0.935 s,提出的方法為0.324 s,大約節(jié)省60%的網(wǎng)絡(luò)入侵檢測時間;在CICIDS2017 數(shù)據(jù)集中,當(dāng)屬性數(shù)量為70時,STSM方法時間為0.077 s,DSSVM 與所提方法的時間為0.033 s;當(dāng)屬性數(shù)量為230時,STSM 與DSSVM 方法時間分別為0.943 s和0.893 s,而所提方法所需時間僅為0.535 s,相比于較快的DSSVM 方法能節(jié)省大約0.0363 s 入侵檢測時間。由此可見,在不同的數(shù)據(jù)集中,入侵檢測方法在屬性數(shù)量越大時,所需要的入侵檢測事例越多,所提方法相對于其他方法在不同數(shù)據(jù)集中對于入侵檢測所節(jié)約的時間成本越明顯。

表2 不同屬性數(shù)量下入侵檢測完成時間對比 單位:sTab.2 Comparison of intrusion detection completion time complexity with different attribute numbers unit:s

5 結(jié)語

本文提出的IRSAR-KCANID 簡化了特征分析過程,使用基準(zhǔn)數(shù)據(jù)集進行實驗,同時引入IRSAR 對數(shù)據(jù)集進行預(yù)處理,采用改進K-means 聚類方法對數(shù)據(jù)特征進行聚類分析。實驗結(jié)果表明,規(guī)范相關(guān)分析對于選擇用于訓(xùn)練的網(wǎng)絡(luò)事務(wù)的最優(yōu)屬性十分重要,提出的方法在特征相關(guān)聚類的基礎(chǔ)上,結(jié)合關(guān)聯(lián)影響尺度進行入侵檢測,在保證最大化檢測精度的前提下,最小化了過程復(fù)雜性和完成時間;但在cc 閾值上限情況下,提出的方法檢測精度比其他方法略差,因此提出的方法在適用性方面還有待進一步拓展。

猜你喜歡
分類特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
如何表達“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 精品久久久久成人码免费动漫| 久久久黄色片| 91久久青青草原精品国产| 四虎AV麻豆| 午夜欧美理论2019理论| 亚洲无码精彩视频在线观看| 国产又色又刺激高潮免费看| 亚洲91在线精品| 欧美高清国产| 婷婷色一二三区波多野衣| 重口调教一区二区视频| 国产又爽又黄无遮挡免费观看 | 欧美亚洲第一页| 天天躁夜夜躁狠狠躁躁88| 日韩毛片免费| 欧美在线三级| a色毛片免费视频| 全部毛片免费看| 中文字幕久久波多野结衣| 国产成人永久免费视频| 亚洲国产天堂在线观看| 天天婬欲婬香婬色婬视频播放| 国产精品亚欧美一区二区| 久久夜色精品国产嚕嚕亚洲av| 国产麻豆精品在线观看| 人人爽人人爽人人片| 首页亚洲国产丝袜长腿综合| 国产成人亚洲无码淙合青草| 在线无码九区| 99在线国产| 特级精品毛片免费观看| 国产精品毛片一区| 国产精选小视频在线观看| 婷婷亚洲综合五月天在线| 精品午夜国产福利观看| 午夜无码一区二区三区| 国产流白浆视频| 韩国福利一区| 2020精品极品国产色在线观看| 国产亚洲精品在天天在线麻豆 | 亚洲精品无码高潮喷水A| 日韩欧美成人高清在线观看| 欧美精品aⅴ在线视频| a网站在线观看| 亚洲高清资源| 日韩中文无码av超清| 九色在线视频导航91| 国产99精品久久| 国产一级精品毛片基地| 亚洲区一区| 亚洲国产在一区二区三区| 国产欧美日韩在线一区| 91精品视频网站| 久久亚洲天堂| 亚洲成人精品| 国产农村1级毛片| 欧美成人一级| 婷婷五月在线| 国产欧美性爱网| a亚洲视频| 先锋资源久久| 国产精品爆乳99久久| 91探花在线观看国产最新| 国产理论最新国产精品视频| 欧美成a人片在线观看| 99在线视频网站| 中国一级毛片免费观看| 国产成人高清精品免费| 无码国内精品人妻少妇蜜桃视频| 久久久久久久久18禁秘| 日韩美毛片| 亚洲浓毛av| 波多野结衣AV无码久久一区| 国内精自视频品线一二区| 国产成人精品免费av| 久久免费精品琪琪| 国产精品无码一区二区桃花视频| 亚洲第一黄色网址| 中文毛片无遮挡播放免费| 国产精品污污在线观看网站 | 国产一区二区三区夜色| P尤物久久99国产综合精品|