張德宇,羅玉梅
(貴州師范大學國際教育學院,貴州 貴陽 550001)
大數(shù)據(jù)具有多屬性特征,對網(wǎng)絡安全的防護起到重要作用,而對于其混合屬性特征的識別技術(shù)仍處于未開發(fā)階段,因此對網(wǎng)絡大數(shù)據(jù)混合屬性特征進行識別是極其重要的。網(wǎng)絡大數(shù)據(jù)混合屬性特征的準確識別不僅可以觀測目標網(wǎng)絡的整體運行情況,同時還能夠針對特定數(shù)據(jù)屬性進行高精度監(jiān)管,做到既不影響網(wǎng)絡運行情況的同時,還能夠?qū)W(wǎng)絡惡意攻擊行為發(fā)出預警。然而,隨著網(wǎng)絡惡意攻擊手段的不斷更新,現(xiàn)有的混合屬性特征檢測方法在當前較為復雜的網(wǎng)絡環(huán)境下都存在著難以突破和逾越的技術(shù)瓶頸。
文獻[1]提出基于特征選擇的網(wǎng)絡入侵檢測方法。該方法采用特征選擇算法生成具有顯著差異的多個屬性特征子集,并對不同的屬性特征子集進行統(tǒng)一處理,利用相關分類算法對統(tǒng)一化處理后的屬性特征進行學習建模,完成混合屬性特征檢測。但該方法的特征選擇操作復雜,并且會占用大量的存儲空間,導致檢測大數(shù)據(jù)時效率降低。文獻[2]提出基于特征和分類器參數(shù)組合優(yōu)化的網(wǎng)絡入侵檢測方法。該方法分開考慮了屬性特征、分類器參數(shù)對混合屬性特征檢測結(jié)果的影響,組建相應的組合優(yōu)化模型,利用生物地理學優(yōu)化算法求解組合優(yōu)化模型最優(yōu)解,完成混合屬性特征檢測。但該方法的檢測過程存在不穩(wěn)定因素,導致檢測結(jié)果有不小的誤差。文獻[3]提出基于深度信念網(wǎng)絡和線性單分類SVM的混合屬性特征檢測方法。該方法利用深度信念網(wǎng)絡先進行網(wǎng)絡大數(shù)據(jù)混合特征提取,實現(xiàn)屬性降維;將降維處理后的屬性特征輸入到單分類支持向量機中,實現(xiàn)混合屬性特征的檢測。該方法在處理屬性特征時經(jīng)常含有大量的冗余特征,使大數(shù)據(jù)屬性特征的提取消耗大量資源,導致使用性差,影響檢測效果。
上述方法還普遍存在檢測速度慢的問題,該現(xiàn)象會造成混合數(shù)據(jù)特征漏檢、誤檢情況的發(fā)生,進而影響目標網(wǎng)絡數(shù)據(jù)安全。為此,提出一種基于粗糙集的網(wǎng)絡大數(shù)據(jù)混合特征檢測方法。利用粗糙集理論對屬性特征和冗余屬性特征進行簡約,通過分類裝置檢測出冗余的屬性特征信息,并進行刪除,從而提高了大數(shù)據(jù)混合屬性特征檢測時的效率和精準度。
粗糙集能在保證分類性能不變的情況下對大數(shù)據(jù)屬性特征進行約簡,建立于信息系統(tǒng)的基礎上,采用粗糙集理論對大數(shù)據(jù)混合屬性進行分析。
首先構(gòu)建一個四元組,并在四元組中任意選取一個鄰域信息,通過鄰域信息的距離系數(shù)分析,獲取信息的長度函數(shù)。為有效實現(xiàn)網(wǎng)絡大數(shù)據(jù)混合屬性特征的約簡,本文將通過結(jié)合粗糙集理論利用長度函數(shù)獲取數(shù)據(jù)相似值,最后完成鄰域熵的求解。
1)四元組I=(U,A,V,f)是一個信息系統(tǒng),其中U是有限對象的集合,稱之為論域;A是大數(shù)據(jù)屬性集合,V∈Va,Va是屬性a的值域:f是函數(shù)信息,它為所有數(shù)據(jù)屬性都給予唯一值,即對任意u∈U和a∈A有f(u,a)∈Va。
在傳統(tǒng)的粗糙集[4]中,擁有相同特征屬性的對象應當歸入一個集合中。如果價值相同的特征都有同樣的標簽,則可認為特征是一致的,這是因為在連續(xù)性特征中,同等價值的特征對象出現(xiàn)的幾率較小。因此,相關研究學者用鄰域來代替等價特征。
2)擬定一個鄰域信息SU,其鄰域可表示為
δSU(xi)={xj|xj∈U,d(xi,xj)≤δ}
(1)
其中,d(xi,xj)表示xi到xj的距離的距離,δ是鄰域的大小。
其中,距離的獲取公式為

(2)
其中,k=1,2.…,N。當P=1時,該長度為曼哈頓長度[5];當P=2時,該長度為歐幾里德長度;當P=∞時,該長度為契比雪夫長度[6]。
根據(jù)大數(shù)據(jù)混合屬性數(shù)據(jù)集的特點,提出新的鄰域信息測度來檢測大數(shù)據(jù)混合屬性特征。由于大數(shù)據(jù)混合屬性信息的決策屬性是按照排列形式出現(xiàn)的,為了衡量排列間的距離長度,距離需要滿足以下兩個條件
a)d(xi,xj)≠0;
b)δS(xi)>d(xi,xj)。
為了把兩個排列之間的長度融入到鄰域粗糙集的規(guī)劃框中,針對標簽混合屬性數(shù)據(jù)集的決策屬性,需根據(jù)距離擬定新的長度函數(shù),該長度函數(shù)可以測量兩個排列之間的相似度[7]。
3)設π和σ是u個標簽的兩個排列,那么這兩個排列之間的相似度可用式(3)表示

(3)
經(jīng)前文描述可知,兩數(shù)據(jù)排列間的長度距離函數(shù)可表示為相似度判斷函數(shù)。式(3)中,該距離可以滿足上述兩條性質(zhì),取值為[0,1]時,d(π,σ)=0,則可推出π=σ;若d(π,σ)=1,則表示π和σ之間是互逆的。
因為標簽排列混合屬性數(shù)據(jù)集中存在不同種類的屬性特征,在鄰域粗糙集中,也要同時使用兩種不同類型的距離測度,即對條件屬性使用歐幾里德距離[8],對決策屬性使用上述(3)中的長度函數(shù)。依據(jù)兩種不同類別的距離測度獲得的樣本xi的鄰域分別標記為δ1(xi)和δ2(xi),相應的其閾值[9]也分別標記為δ1和δ2,則
(4)

(5)
其中,πi代表樣本xi的標簽排列,l為排列πi的長度。
4)設N是一個決策屬性,則其鄰域熵可用公式表示為
a)若B?C,則

(6)
b)若B=D,則

(7)

結(jié)合粗糙集理論和鄰域熵的求解,完成了網(wǎng)絡大數(shù)據(jù)混合屬性特征的約簡。
對約簡后的網(wǎng)絡大數(shù)據(jù)混合屬性約簡特征集進行檢測。傳統(tǒng)的統(tǒng)計學方法都是以大數(shù)據(jù)為基礎進行討論,要求數(shù)據(jù)樣本的數(shù)量足夠充足。然而在實際使用中,因為各方面的不定性因素,檢測結(jié)果往往很難得到準確保證。
基于粗糙集理論提出的支持向量機充分減少了算法設計的隨機性,并且解決了上述小樣本實現(xiàn)高效分類的問題。支持向量機分類的基本思想是通過函數(shù)轉(zhuǎn)換的方法,將大數(shù)據(jù)混合屬性的分類問題變換為線性可分問題,然后在新的空間中求解最佳分類面。
支持向量機最初用于對數(shù)據(jù)進行二值分類處理,對線性可分問題,擬定訓練樣本{(x1,y1),(x2,y2),…,(xN,yN)},期望輸出Y∈{-1,1},分別表示不同類別標識[12]。用于分類的大數(shù)據(jù)混合屬性最優(yōu)超平面方程為
f(x)=ωx+b
(8)
其中,ω為權(quán)重向量,x為輸入向量,b為誤差值。支持向量機的目的是為了尋找一個劃分邊緣最大的超平面,使不同類別的數(shù)據(jù)屬性最大程度地分離,與最佳超平面距離較近的數(shù)據(jù)屬性樣本,將其稱作支持向量。對于任意一確定的最佳分類超平面,所有數(shù)據(jù)混合屬性樣本都滿足
yif(x)≥1,i=1,2,…,N
(9)
大數(shù)據(jù)混合屬性非線性可分模式的分類問題,會存在一些不滿足式(9)的約束條件,影響分類結(jié)果。因此需要適當?shù)姆艑捈s束,將其變更為
yif(x)+ξi≥1,i=1,2,…,N
(10)
式中,加入了松弛變量ξi,i=1,2,…,它用于度量一個數(shù)據(jù)特征點對線性可分理想條件的誤差程度。當0≤ξ≤1時,特征點落入分離區(qū)域的內(nèi)部,并且在分類平面正確的方向;當滿足ξ>1時,特征點進入分類器超平面錯誤的方向;當滿足ξ=0時,出現(xiàn)特征可分問題。
針對非特征問題,尋找ω和b的最優(yōu)值,使其在式(10)的約束下,將ω和ξi的目標函數(shù)關系最小化,即

(11)
其中,Ck為錯誤系數(shù)。
使用Lagrange法求解上述最優(yōu)化問題,上述方程可變更為下列問題
(12)
約束條件
0≤ai≤Ck,i=1,2,…,N
(13)
其中,e為單位矩陣,Q為半正定矩陣。采用的RBF函數(shù)求解約簡特征集檢測結(jié)果為

(13)
綜上所述,采用粗糙集理論對網(wǎng)絡大數(shù)據(jù)混合屬性進行分析,約簡屬性特征。利用支持向量機,對約簡后的屬性特征集進行檢測,實現(xiàn)粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征的檢測。
為了驗證所提粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法的有效性,進行了如下仿真。
仿真環(huán)境為Intel Xeon500雙CPU,512M內(nèi)存,80G硬盤,WindowsNT操作系統(tǒng)的服務器,所有仿真均在Intel Xeon500雙CPU上進行。
為了驗證提出的粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法的準確性和時間性能,實驗選取基于LFR基準程序生成的網(wǎng)絡大數(shù)據(jù)集,其詳細內(nèi)容如表1所示。

表1 LFR基準程序生成的網(wǎng)絡大數(shù)據(jù)集
通過基于LFR基準程序生成的網(wǎng)絡大數(shù)據(jù)集來對比所提方法和文獻[2]提出的基于特征和分類器參數(shù)組合優(yōu)化的網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法的優(yōu)劣。
表2給出的是所提方法和文獻[2]檢測方法特征選擇數(shù)量的結(jié)果。

表2 不同方法屬性特征約簡結(jié)果
分析表2可以看出,所提方法和文獻[2]方法都能有效約簡屬性,相比原基于LFR基準程序生成的網(wǎng)絡大數(shù)據(jù)集,很多冗雜屬性均被消除,尤其對于wdbc數(shù)據(jù)集,所提方法將混合屬性從大小為34GB的數(shù)據(jù)約簡至22.8GB。說明所提方法對于高維混合大數(shù)據(jù)集,能夠選擇出更少的屬性特征集。
根據(jù)上述網(wǎng)絡大數(shù)據(jù)混合屬性特征約簡的結(jié)果,對屬性特征重新整合構(gòu)成新的屬性集,經(jīng)過屬性約簡后的屬性特征不會影響網(wǎng)絡數(shù)據(jù)之間的相關性,而且可以降低存儲空間。在后續(xù)通過支持向量機進行屬性特征檢測的時候,根據(jù)約簡后的屬性特征,對屬性特征樣本集進行支持向量機的構(gòu)建。
在表1獲取數(shù)據(jù)的基礎上,另外向上述數(shù)據(jù)集各添加100條無關數(shù)據(jù),并分別應用本文方法、文獻[2]方法以及文獻[3]方法進行檢測,判斷采集的數(shù)據(jù)是否為原始數(shù)據(jù)量大小,并檢查該數(shù)據(jù)是否為數(shù)據(jù)集包含內(nèi)容。得到檢測數(shù)據(jù)數(shù)量如表3所示。

表3 不同方法屬性特征約簡結(jié)果
根據(jù)表3檢測結(jié)果進行數(shù)據(jù)獲取的查全率性能對比,圖2為所提方法與文獻[2]屬性特征檢測方法檢測查全率(%)的對比。

圖2 不同方法檢測查全率對比結(jié)果圖
通過圖2進行分析可以看出,所提方法的屬性特征檢測串查全率明顯高于文獻[2]及文獻[3]的屬性特征檢測方法地檢測查全率,主要原因在于所提方法結(jié)合粗糙集理論進行混合屬性特征約簡,去除了大量冗余特征,保證了后續(xù)網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測的準確性。
所提的粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法,其所使用的粗糙集使網(wǎng)絡大數(shù)據(jù)混合屬性從1120個約簡至37個,大幅度減少了計算復雜度:
1)所提方法、基于特征和分類器參數(shù)組合優(yōu)化的網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法,兩者的屬性約簡數(shù)量級有很大差別,從實驗數(shù)據(jù)來看所提方法極具優(yōu)勢;
2)使用粗糙集屬性約簡的檢測方法比傳統(tǒng)檢測方法檢測準確率更高;
3)相對于原始基于LFR基準程序生成的網(wǎng)絡大數(shù)據(jù)集,所提方法通過使用粗糙集屬性約簡后,檢測精度有顯著提高。
所提粗糙集下網(wǎng)絡大數(shù)據(jù)混合屬性特征檢測方法雖取得一定的成果,具有一定的優(yōu)越性,但仍存在不足之處。未來將針對網(wǎng)絡大數(shù)據(jù)混合屬性特征的約簡速率進行深入研究,從約簡速率提升的角度來提高屬性特征的檢測速度,在保證檢測準確性的基礎上,進一步提高檢測的效率。