粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測仿真

2021-11-18 05:06:14張德宇羅玉梅

計算機仿真 2021年1期

張德宇，羅玉梅

(貴州師范大學國際教育學院，貴州貴陽 550001)

1 引言

大數(shù)據(jù)具有多屬性特征，對網(wǎng)絡安全的防護起到重要作用，而對于其混合屬性特征的識別技術(shù)仍處于未開發(fā)階段，因此對網(wǎng)絡大數(shù)據(jù)混合屬性特征進行識別是極其重要的。網(wǎng)絡大數(shù)據(jù)混合屬性特征的準確識別不僅可以觀測目標網(wǎng)絡的整體運行情況，同時還能夠針對特定數(shù)據(jù)屬性進行高精度監(jiān)管，做到既不影響網(wǎng)絡運行情況的同時，還能夠?qū)W(wǎng)絡惡意攻擊行為發(fā)出預警。然而，隨著網(wǎng)絡惡意攻擊手段的不斷更新，現(xiàn)有的混合屬性特征檢測方法在當前較為復雜的網(wǎng)絡環(huán)境下都存在著難以突破和逾越的技術(shù)瓶頸。

文獻[1]提出基于特征選擇的網(wǎng)絡入侵檢測方法。該方法采用特征選擇算法生成具有顯著差異的多個屬性特征子集，并對不同的屬性特征子集進行統(tǒng)一處理，利用相關分類算法對統(tǒng)一化處理后的屬性特征進行學習建模，完成混合屬性特征檢測。但該方法的特征選擇操作復雜，并且會占用大量的存儲空間，導致檢測大數(shù)據(jù)時效率降低。文獻[2]提出基于特征和分類器參數(shù)組合優(yōu)化的網(wǎng)絡入侵檢測方法。該方法分開考慮了屬性特征、分類器參數(shù)對混合屬性特征檢測結(jié)果的影響，組建相應的組合優(yōu)化模型，利用生物地理學優(yōu)化算法求解組合優(yōu)化模型最優(yōu)解，完成混合屬性特征檢測。但該方法的檢測過程存在不穩(wěn)定因素，導致檢測結(jié)果有不小的誤差。文獻[3]提出基于深度信念網(wǎng)絡和線性單分類SVM的混合屬性特征檢測方法。該方法利用深度信念網(wǎng)絡先進行網(wǎng)絡大數(shù)據(jù)混合特征提取，實現(xiàn)屬性降維；將降維處理后的屬性特征輸入到單分類支持向量機中，實現(xiàn)混合屬性特征的檢測。該方法在處理屬性特征時經(jīng)常含有大量的冗余特征，使大數(shù)據(jù)屬性特征的提取消耗大量資源，導致使用性差，影響檢測效果。

上述方法還普遍存在檢測速度慢的問題，該現(xiàn)象會造成混合數(shù)據(jù)特征漏檢、誤檢情況的發(fā)生，進而影響目標網(wǎng)絡數(shù)據(jù)安全。為此，提出一種基于粗糙集的網(wǎng)絡大數(shù)據(jù)混合特征檢測方法。利用粗糙集理論對屬性特征和冗余屬性特征進行簡約，通過分類裝置檢測出冗余的屬性特征信息，并進行刪除，從而提高了大數(shù)據(jù)混合屬性特征檢測時的效率和精準度。

2 基于粗糙集理論的屬性特征約簡

粗糙集能在保證分類性能不變的情況下對大數(shù)據(jù)屬性特征進行約簡，建立于信息系統(tǒng)的基礎上，采用粗糙集理論對大數(shù)據(jù)混合屬性進行分析。

首先構(gòu)建一個四元組，并在四元組中任意選取一個鄰域信息，通過鄰域信息的距離系數(shù)分析，獲取信息的長度函數(shù)。為有效實現(xiàn)網(wǎng)絡大數(shù)據(jù)混合屬性特征的約簡，本文將通過結(jié)合粗糙集理論利用長度函數(shù)獲取數(shù)據(jù)相似值，最后完成鄰域熵的求解。

1)四元組I=(U，A，V，f)是一個信息系統(tǒng)，其中U是有限對象的集合，稱之為論域；A是大數(shù)據(jù)屬性集合，V∈Va，Va是屬性a的值域：f是函數(shù)信息，它為所有數(shù)據(jù)屬性都給予唯一值，即對任意u∈U和a∈A有f(u，a)∈Va。

在傳統(tǒng)的粗糙集[4]中，擁有相同特征屬性的對象應當歸入一個集合中。如果價值相同的特征都有同樣的標簽，則可認為特征是一致的，這是因為在連續(xù)性特征中，同等價值的特征對象出現(xiàn)的幾率較小。因此，相關研究學者用鄰域來代替等價特征。

2)擬定一個鄰域信息SU，其鄰域可表示為

δSU(xi)={xj|xj∈U，d(xi，xj)≤δ}

(1)

其中，d(xi，xj)表示xi到xj的距離的距離，δ是鄰域的大小。

其中，距離的獲取公式為

(2)

其中，k=1，2.…，N。當P=1時，該長度為曼哈頓長度[5]；當P=2時，該長度為歐幾里德長度；當P=∞時，該長度為契比雪夫長度[6]。

根據(jù)大數(shù)據(jù)混合屬性數(shù)據(jù)集的特點，提出新的鄰域信息測度來檢測大數(shù)據(jù)混合屬性特征。由于大數(shù)據(jù)混合屬性信息的決策屬性是按照排列形式出現(xiàn)的，為了衡量排列間的距離長度，距離需要滿足以下兩個條件

a)d(xi，xj)≠0；

b)δS(xi)>d(xi，xj)。

為了把兩個排列之間的長度融入到鄰域粗糙集的規(guī)劃框中，針對標簽混合屬性數(shù)據(jù)集的決策屬性，需根據(jù)距離擬定新的長度函數(shù)，該長度函數(shù)可以測量兩個排列之間的相似度[7]。

3)設π和σ是u個標簽的兩個排列，那么這兩個排列之間的相似度可用式(3)表示

(3)

經(jīng)前文描述可知，兩數(shù)據(jù)排列間的長度距離函數(shù)可表示為相似度判斷函數(shù)。式(3)中，該距離可以滿足上述兩條性質(zhì)，取值為[0，1]時，d(π，σ)=0，則可推出π=σ;若d(π，σ)=1，則表示π和σ之間是互逆的。

因為標簽排列混合屬性數(shù)據(jù)集中存在不同種類的屬性特征，在鄰域粗糙集中，也要同時使用兩種不同類型的距離測度，即對條件屬性使用歐幾里德距離[8]，對決策屬性使用上述(3)中的長度函數(shù)。依據(jù)兩種不同類別的距離測度獲得的樣本xi的鄰域分別標記為δ1(xi)和δ2(xi)，相應的其閾值[9]也分別標記為δ1和δ2，則

(4)

(5)

其中，πi代表樣本xi的標簽排列，l為排列πi的長度。

4)設N是一個決策屬性，則其鄰域熵可用公式表示為

a)若B?C，則

(6)

b)若B=D，則

(7)

結(jié)合粗糙集理論和鄰域熵的求解，完成了網(wǎng)絡大數(shù)據(jù)混合屬性特征的約簡。

3 基于支持向量機的約簡特征集檢測

對約簡后的網(wǎng)絡大數(shù)據(jù)混合屬性約簡特征集進行檢測。傳統(tǒng)的統(tǒng)計學方法都是以大數(shù)據(jù)為基礎進行討論，要求數(shù)據(jù)樣本的數(shù)量足夠充足。然而在實際使用中，因為各方面的不定性因素，檢測結(jié)果往往很難得到準確保證。

基于粗糙集理論提出的支持向量機充分減少了算法設計的隨機性，并且解決了上述小樣本實現(xiàn)高效分類的問題。支持向量機分類的基本思想是通過函數(shù)轉(zhuǎn)換的方法，將大數(shù)據(jù)混合屬性的分類問題變換為線性可分問題，然后在新的空間中求解最佳分類面。

支持向量機最初用于對數(shù)據(jù)進行二值分類處理，對線性可分問題，擬定訓練樣本{(x1，y1)，(x2，y2)，…，(xN，yN)}，期望輸出Y∈{-1，1}，分別表示不同類別標識[12]。用于分類的大數(shù)據(jù)混合屬性最優(yōu)超平面方程為

f(x)=ωx+b

(8)

其中，ω為權(quán)重向量，x為輸入向量，b為誤差值。支持向量機的目的是為了尋找一個劃分邊緣最大的超平面，使不同類別的數(shù)據(jù)屬性最大程度地分離，與最佳超平面距離較近的數(shù)據(jù)屬性樣本，將其稱作支持向量。對于任意一確定的最佳分類超平面，所有數(shù)據(jù)混合屬性樣本都滿足

yif(x)≥1，i=1，2，…，N

(9)

大數(shù)據(jù)混合屬性非線性可分模式的分類問題，會存在一些不滿足式(9)的約束條件，影響分類結(jié)果。因此需要適當?shù)姆艑捈s束，將其變更為

yif(x)+ξi≥1，i=1，2，…，N

(10)

式中，加入了松弛變量ξi，i=1，2，…，它用于度量一個數(shù)據(jù)特征點對線性可分理想條件的誤差程度。當0≤ξ≤1時，特征點落入分離區(qū)域的內(nèi)部，并且在分類平面正確的方向；當滿足ξ>1時，特征點進入分類器超平面錯誤的方向；當滿足ξ=0時，出現(xiàn)特征可分問題。

針對非特征問題，尋找ω和b的最優(yōu)值，使其在式(10)的約束下，將ω和ξi的目標函數(shù)關系最小化，即

(11)

其中，Ck為錯誤系數(shù)。

使用Lagrange法求解上述最優(yōu)化問題，上述方程可變更為下列問題

(12)

約束條件

0≤ai≤Ck，i=1，2，…，N

(13)

其中，e為單位矩陣，Q為半正定矩陣。采用的RBF函數(shù)求解約簡特征集檢測結(jié)果為

(13)

綜上所述，采用粗糙集理論對網(wǎng)絡大數(shù)據(jù)混合屬性進行分析，約簡屬性特征。利用支持向量機，對約簡后的屬性特征集進行檢測，實現(xiàn)粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征的檢測。

4 仿真驗證

為了驗證所提粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法的有效性，進行了如下仿真。

4.1 實驗環(huán)境的設定及實驗數(shù)據(jù)的選取

仿真環(huán)境為Intel Xeon500雙CPU，512M內(nèi)存，80G硬盤，WindowsNT操作系統(tǒng)的服務器，所有仿真均在Intel Xeon500雙CPU上進行。

為了驗證提出的粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法的準確性和時間性能，實驗選取基于LFR基準程序生成的網(wǎng)絡大數(shù)據(jù)集，其詳細內(nèi)容如表1所示。

表1 LFR基準程序生成的網(wǎng)絡大數(shù)據(jù)集

通過基于LFR基準程序生成的網(wǎng)絡大數(shù)據(jù)集來對比所提方法和文獻[2]提出的基于特征和分類器參數(shù)組合優(yōu)化的網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法的優(yōu)劣。

4.2 實驗結(jié)果分析

表2給出的是所提方法和文獻[2]檢測方法特征選擇數(shù)量的結(jié)果。

表2 不同方法屬性特征約簡結(jié)果

分析表2可以看出，所提方法和文獻[2]方法都能有效約簡屬性，相比原基于LFR基準程序生成的網(wǎng)絡大數(shù)據(jù)集，很多冗雜屬性均被消除，尤其對于wdbc數(shù)據(jù)集，所提方法將混合屬性從大小為34GB的數(shù)據(jù)約簡至22.8GB。說明所提方法對于高維混合大數(shù)據(jù)集，能夠選擇出更少的屬性特征集。

根據(jù)上述網(wǎng)絡大數(shù)據(jù)混合屬性特征約簡的結(jié)果，對屬性特征重新整合構(gòu)成新的屬性集，經(jīng)過屬性約簡后的屬性特征不會影響網(wǎng)絡數(shù)據(jù)之間的相關性，而且可以降低存儲空間。在后續(xù)通過支持向量機進行屬性特征檢測的時候，根據(jù)約簡后的屬性特征，對屬性特征樣本集進行支持向量機的構(gòu)建。

在表1獲取數(shù)據(jù)的基礎上，另外向上述數(shù)據(jù)集各添加100條無關數(shù)據(jù)，并分別應用本文方法、文獻[2]方法以及文獻[3]方法進行檢測，判斷采集的數(shù)據(jù)是否為原始數(shù)據(jù)量大小，并檢查該數(shù)據(jù)是否為數(shù)據(jù)集包含內(nèi)容。得到檢測數(shù)據(jù)數(shù)量如表3所示。

表3 不同方法屬性特征約簡結(jié)果

根據(jù)表3檢測結(jié)果進行數(shù)據(jù)獲取的查全率性能對比，圖2為所提方法與文獻[2]屬性特征檢測方法檢測查全率(%)的對比。

圖2 不同方法檢測查全率對比結(jié)果圖

通過圖2進行分析可以看出，所提方法的屬性特征檢測串查全率明顯高于文獻[2]及文獻[3]的屬性特征檢測方法地檢測查全率，主要原因在于所提方法結(jié)合粗糙集理論進行混合屬性特征約簡，去除了大量冗余特征，保證了后續(xù)網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測的準確性。

5 結(jié)論

所提的粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法，其所使用的粗糙集使網(wǎng)絡大數(shù)據(jù)混合屬性從1120個約簡至37個，大幅度減少了計算復雜度：

1)所提方法、基于特征和分類器參數(shù)組合優(yōu)化的網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法，兩者的屬性約簡數(shù)量級有很大差別，從實驗數(shù)據(jù)來看所提方法極具優(yōu)勢；

2)使用粗糙集屬性約簡的檢測方法比傳統(tǒng)檢測方法檢測準確率更高；

3)相對于原始基于LFR基準程序生成的網(wǎng)絡大數(shù)據(jù)集，所提方法通過使用粗糙集屬性約簡后，檢測精度有顯著提高。

所提粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法雖取得一定的成果，具有一定的優(yōu)越性，但仍存在不足之處。未來將針對網(wǎng)絡大數(shù)據(jù)混合屬性特征的約簡速率進行深入研究，從約簡速率提升的角度來提高屬性特征的檢測速度，在保證檢測準確性的基礎上，進一步提高檢測的效率。