肖耿毅
(桂林師范高等??茖W校數學與計算機技術系,廣西 桂林 541199)
互聯網具有開放性和包容性,但是容易受到外部入侵。入侵檢測是一種及時檢測和報告未經授權的訪問或異常的技術,網絡入侵檢測系統是用于保護系統免受非法攻擊的重要網絡防御工具。入侵檢測系統主要包含三種手段:第一種為基于特征的檢測方法,這種方法具有較高的預測和檢測精度,但需要入侵和攻擊的先驗知識或經驗;第二種為基于統計算法的檢測方法,這種方法對于常規網絡入侵檢測率高,但其學習能力較差;第三種為基于機器學習的檢測方法,其有效性完全取決于機器學習算法的有效性。建立一個有效的網絡入侵檢測系統,充分利用新的機器學習方法是一項具有挑戰性的任務。從對象的角度來看,與正常的網絡行為相比,不同類型的惡意攻擊具有相當不平衡的分布。網絡入侵行為復雜的、冗長的特征給構建有效的檢測系統帶來了嚴峻的挑戰。為了解決這些問題,本文提出一種新的網絡入侵檢測方法,即基于稀疏主成分空間嵌入與加權核極限學習機的網絡入侵檢測方法,它包含了稀疏主成分空間嵌入算法以及加權核極限學習機。
網絡入侵數據的較多特征不僅會影響檢測速度,還會影響檢測精度。由于高維空間的信息數據是可以以非常小的信息損失在低維空間中進行表示的,因而降維可能會產生較低維度的數據,從而可以減少網絡入侵數據的特征,當前的降維算法有主成分分析法、局部線性嵌入法、核主成分分析法等等。由于網絡入侵數據中有很多是稀疏的,這些降維算法對網絡入侵數據處理效果不佳,難以很好地提取稀疏數據的信息。因此,本文提出稀疏主成分空間嵌入算法(SPCSE)以約簡網絡入侵數據的特征,稀疏主成分空間嵌入算法是基于稀疏主成分的特征約簡的降維算法,稀疏主成分空間嵌入可以減少特征提取后的數據信息丟失,從而不僅提高算法提取的特征準確度,還能提高算法的效率。
極限學習機(ELM)是一種求解單隱層神經網絡的算法,極限學習機在保證學習精度的前提下比傳統的單層神經網絡有著更高的效率。為了改進極限學習機的網絡入侵的檢測效果,提出一種加權核極限學習機算法(WKELM),在加權極限學習機中引入了核函數,通過采用核函數代替包含激活函數的加權極限學習機隱層隨機特征映射,這些隱層隨機特征映射可以提高加權極限學習機的非線性處理能力和魯棒性。由于粒子群優化算法存在局部優化等問題,提出采用柯西粒子群優化算法進行加權核極限學習機的參數優化。采用KDDCUP99數據集樣本作為本文的實驗數據,網絡入侵類型主要為Dos、Probe、R2L、U2R,通過實驗測試基于稀疏主成分空間嵌入與加權核極限學習機的網絡入侵檢測方法用于識別正常、Dos、Probe、R2L、U2R這5種網絡狀態的可行性。
高維空間的信息數據是可以以非常小的信息損失在低維空間中進行表示的。對于給定的數據集,降維可能會產生較低維度的數據,從而可以減少網絡入侵數據的特征。由于網絡入侵數據中有很多是稀疏的,這些降維算法對網絡入侵數據處理效果不佳,難以很好地提取稀疏數據的信息,對此,本文提出一種稀疏主成分空間嵌入算法以約簡網絡入侵數據的特征。稀疏主成分空間嵌入算法是提取稀疏主成分并對特征約簡的降維算法,稀疏主成分就是以主成分為基礎將主成分的系數向量進行稀疏化,使絕對值較小的系數壓縮為零。


(1)

解決下述優化問題以產生稀疏回歸系數

(2)
約束條件:DD
=I
式中:D
,E
是最小化準則的參數矩陣,β
是范數-2懲罰參數。由稀疏主成分空間嵌入算法構造的抽樣誤差遵循關于零均值的對稱分布,這導致稀疏主成分空間嵌入在降維后更好地保留了歐氏距離。因此,稀疏主成分空間嵌入可以減少特征提取后的數據信息丟失,同時降低特征提取的計算復雜度。
極限學習機是黃廣斌提出的一種求解單隱層前饋神經網絡的算法,其輸入層和隱層之間的連接是隨機分配的。與傳統的單層神經網絡相比,極限學習機在保證學習精度的前提下保證更高的效率。經過訓練的極限學習機模型將會比反向傳播神經網絡具有更高的精度和速度。極限學習機的數學模型表達為

(3)
式中:h
(x
)為特征映射函數矩陣,H
=[h
(x
),…,h
(x
)]為隱含層特征映射矩陣,T
=[t
,…,t
]為訓練目標矩陣。對于加權極限學習機算法,為了最小化輸出權重并最小化每個樣本的加權累積誤差,非平衡學習的加權極限學習機優化問題可以描述為
最小化

(4)
約束條件

α
為輸出權重向量,α
=H
T
,W
是用于加權的對角矩陣。對于加權極限學習機,采用核函數代替包含激活函數的加權極限學習機隱層隨機特征映射,有利于提高加權極限學習機的非線性處理能力和魯棒性。


(5)
式中:C
為懲罰因子,I
為單位矩陣。引入核函數代替特征矩陣HH
,核極限學習機數學模型表達為
(6)

加權極限學習機定義一個內核矩陣,因而,加權極限學習機分類器的輸出函數為


(7)
式中:C
是加權極限學習機算法的正則化系數。加權極限學習機的懲罰因子C
以及高斯徑向基核函數的參數ε
需要優化。粒子群優化算法是一種群體智能優化算法,它從鳥群在多維搜索空間中的社會行為演化而來。一旦找到了食物的來源,領頭的鳥就會傳送這些信息,以便其它鳥群也能找到食物。粒子群優化算法隨機生成一組粒子,這些粒子根據式(8)與式(9)在搜索空間中移動以更新每個粒子的位置和速度以搜索最佳結果。
v
(t
+1)=λ
·v
(t
)+c
·rand
·(pbest
(t
)-x
(t
))+c
·rand
·(gbest
(t
)-x
(t
))(8)
x
(t
+1)=x
(t
)+v
(t
+1)(9)
式中:λ
是權重系數,pbest
是單個粒子的最佳先前經驗,gbest
是所有群中的全局最佳經驗,c
、c
是加速度常數,c
、c
取值為2,rand
是0與1之間的隨機數。該算法采用柯西分布進行初始粒子的選取,標準柯西密度函數表示為

(10)
由于加權核極限學習機的懲罰因子C
以及高斯徑向基核函數的參數ε
的選擇對其的識別能力有很大的影響,所以應用柯西粒子群優化算法選擇加權核極限學習機的懲罰因子C
以及高斯徑向基核函數的參數ε
。首先定義一個粒子,該粒子包括加權極限學習機的懲罰因子C
以及高斯徑向基核函數的參數ε
,利用標準柯西密度函數,產生一組初始的粒子;其次,定義適合度函數,評估每個粒子的適合度;再次,根據式(8)與式(9)更新每個粒子的位置和速度,評估當前粒子的適合度;最后,如果滿足終止條件,優化過程結束,同時獲取加權核極限學習機的懲罰因子C
以及高斯徑向基核函數的參數ε
。圖1描述了基于稀疏主成分空間嵌入與加權核極限學習機(SPCSE-WKELM)的網絡入侵檢測流程,該網絡入侵檢測流程中將網絡入侵數據高維特征集分為訓練樣本集與測試樣本集,通過稀疏主成分空間嵌入算法分別將訓練樣本集與測試樣本集進行降維,從而分別獲取低維特征集訓練樣本集與低維特征集測試樣本集,利用低維特征集訓練樣本集以及柯西粒子群優化算法對加權極限學習機的懲罰因子C以及高斯徑向基核函數的參數ε進行優化,從而獲取稀疏主成分空間嵌入與加權核極限學習機的網絡入侵檢測模型,采用低維特征集測試樣本集對稀疏主成分空間嵌入與加權核極限學習機的網絡入侵檢測模型進行測試。

圖1 基于SPCSE-WKELM的網絡入侵檢測流程圖
網絡入侵類型主要為Dos、Probe、R2L、U2R。本文采用500個KDDCUP99數據集樣本作為本文的實驗數據,該實驗數據包含正常、Dos、Probe、R2L、U2R這5種網絡狀態。其中300個KDDCUP99數據集樣本作為本文的訓練數據,200個KDDCUP99數據集樣本作為本文的測試數據,這200個KDDCUP99數據集樣本包括正常樣本40個,Dos入侵樣本40個,Probe入侵樣本40個,R2L入侵樣本40個以及U2R入侵樣本40個。通過稀疏主成分空間嵌入算法分別降低訓練樣本以及測試樣本的特征維數,選定柯西粒子群優化算法參數,采用柯西粒子群優化算法選擇加權核極限學習機的懲罰因子C以及高斯徑向基核函數的參數ε,建立SPCSE-WKELM網絡入侵檢測模型。分別采用WKELM網絡入侵檢測模型、ELM網絡入侵檢測模型與網絡入侵SPCSE-WKELM檢測模型進行比較。WKELM網絡入侵檢測模型、ELM網絡入侵檢測模型與SPCSE-WKELM網絡入侵檢測模型分別對正常、Dos、Probe、R2L、U2R的識別率如表1所示。圖2展示了SPCSE-WKELM的網絡入侵檢測結果,SPCSE-WKELM對正常樣本識別率100%,Dos入侵樣本識別率95%,對Probe入侵樣本識別率97.5%,對R2L入侵樣本識別率100%,對U2R入侵樣本識別率100%。圖3展示了WKELM的網絡入侵檢測結果,WKELM對正常樣本識別率100%,Dos入侵樣本識別率95%,對Probe入侵樣本識別率87.5%,對R2L入侵樣本識別率95%,對U2R入侵樣本識別率97.5%。WKELM對Probe入侵樣本識別率較低。圖4展示了ELM的網絡入侵檢測結果,ELM對正常樣本識別率97.5%,Dos入侵樣本識別率92.5%,對Probe入侵樣本識別率87.5%,對R2L入侵樣本識別率90%,對U2R入侵樣本識別率92.5%。ELM對Probe入侵樣本識別率以及對R2L入侵樣本識別率較低。從表2可以看出,SPCSE-WKELM對于網絡入侵的檢測精度98.5%,WKELM對于網絡入侵的檢測精度95%,ELM對于網絡入侵的檢測精度92%??梢钥闯觯琒PCSE-WKELM對于網絡入侵的檢測精度遠高于WKELM以及ELM對于網絡入侵的檢測精度。

圖2 基于SPCSE-WKELM的網絡入侵檢測結果

圖3 基于WKELM的網絡入侵檢測結果

圖4 基于ELM的網絡入侵檢測結果

表1 各模型對正常、Dos、Probe、R2L、U2R的識別率

表2 各模型對網絡入侵的檢測精度
為了解決網絡入侵行為復雜的、冗長的特征給構建有效的檢測系統帶來的問題以及提高網絡入侵檢測效果,本文提出一種新的網絡入侵檢測方法,即基于稀疏主成分空間嵌入與加權核極限學習機的網絡入侵檢測方法,給出基于稀疏主成分空間嵌入與加權核極限學習機的網絡入侵檢測流程,并通過實驗結果表明本文提出的基于稀疏主成分空間嵌入與加權核極限學習機的網絡入侵檢測方法對于網絡入侵的檢測結果優于傳統的極限學習機和加權核極限學習機,從而證明了本文提出的基于稀疏主成分空間嵌入與加權核極限學習機的網絡入侵檢測方法的有效性。本文貢獻在于:
1) 提出一種稀疏主成分空間嵌入算法以約簡網絡入侵數據的特征。這種算法是基于稀疏主成分的特征約簡的降維算法,稀疏主成分空間嵌入可以減少特征提取后的數據信息丟失。
2) 提出一種加權核極限學習機算法,它采用核函數代替包含激活函數的加權極限學習機隱層隨機特征映射,有利于提高算法的非線性處理能力和魯棒性,采用基于柯西粒子群優化算法進行加權核極限學習機的參數優化。