李紀真,孟相如,溫祥西,康巧燕
(1.空軍工程大學信息與導航學院,陜西西安710077;2.空軍工程大學空管領航學院,陜西西安710051)
螢火蟲群算法優化高斯過程的網絡安全態勢預測
李紀真1,孟相如1,溫祥西2,康巧燕1
(1.空軍工程大學信息與導航學院,陜西西安710077;2.空軍工程大學空管領航學院,陜西西安710051)
針對共軛梯度法獲取高斯過程超參數存在迭代次數難以確定及預測不精準等問題,提出一種螢火蟲群算法優化高斯過程的預測方法,并將其應用于網絡安全態勢預測研究。采用螢火蟲群優化算法對高斯過程超參數進行智能尋優,建立基于高斯過程回歸的網絡安全態勢預測模型。實驗結果表明新方法的平均相對預測誤差較共軛梯度法、粒子群優化算法和人工蜂群優化算法分別降低了近29.46%、10.37%和4.22%,且新方法收斂較快。另外,分析對比了3種單一類型和2種復合類型的協方差函數對高斯過程預測的影響,實驗結果表明采用神經網絡與有理二次的復合協方差函數(neural network and rational quadratic composite covariance function,NN-RQ)的平均相對預測誤差較其他4類協方差函數降低了1.65%~7.51%。
態勢預測;高斯過程;螢火蟲群;粒子群;人工蜂群
網絡安全態勢感知(network security situation aware-ness,NSSA)是第三代網絡安全技術代表之一,主要研究網絡安全態勢要素提取、態勢理解和態勢預測等3個方面的內容,是實現網絡安全監測和預警的新技術,對于提高網絡主動防御和應急響應能力具有重要作用[1-3]。態勢預測是NSSA的重要環節,能夠加強網絡管理者對網絡發展趨勢的認知與理解,進而為安全分析和網絡規劃提供決策支持[4]。
Tim Bass等國外學者首先開展了NSSA方面的相關研究,國內相關機構和學者也隨后進行了跟蹤研究。其中,文獻[3]提出了一種基于Markov博弈分析的網絡安全態勢感知方法,文獻[4]提出了基于集對分析的網絡安全態勢評估與預測方法,文獻[5]將支持向量機回歸預測方法應用于故障檢測,文獻[6-7]將神經網絡應用到網絡安全態勢感知研究中。上述研究雖都取得了不錯的效果,但仍然存在問題,如Markov和集對分析方法的參數設置依賴于所處的網絡環境,網絡環境的不確定性使得參數難以確定,進而不能準確體現態勢感知結果;支持向量機和神經網絡等方法參數設置更為復雜,且容易出現局部最優問題,也限制了其在網絡安全態勢感知中的應用。
高斯過程憑著可調整參數少和訓練過程就是超參數選擇過程等優點[8],使其在機器學習領域受到越來越廣泛的關注,因此相關研究機構和學者將其應用于預測方面的研究,并取得了一定的研究成果[9-12],但在網絡安全態勢預測研究中的應用較少。另外,采用傳統的共軛梯度法獲取高斯過程最優超參數存在迭代次數難以確定和預測結果不夠精準等問題,為此,文獻[10]采用粒子群優化算法(particle swarm optimization,PSO)尋找高斯過程最優超參數,但PSO算法容易在迭代過程中陷入局部最優,導致預測結果并不一定是全局最優解;文獻[11]采用人工蜂群算法(artificial bee colony,ABC)優化高斯過程超參數,但未考慮協方差函數的類型對預測結果的影響且ABC算法實現相對較為復雜。針對上述問題,本文嘗試采用螢火蟲群優化算法(glowworm swarm optimization,GSO)對高斯過程超參數進行智能尋優,GSO最大優點是能同時獲取全局最優解和多個局部最優解,不易陷入局部最優。另一方面,不同類型的協方差函數對高斯過程預測結果會產生不同的影響,針對這一問題,本文分別測試3種單一類型和2種復合類型的協方差函數對預測結果產生的影響,以尋找能夠對網絡安全態勢進行有效預測的最優方法。
1.1 高斯過程回歸
高斯過程又稱正態隨機過程,對處理小樣本、非線性、高維等復雜問題具有良好的適應性[8]。給定訓練數據集D=其中輸入向量xn∈Rd,輸入數據矩陣X∈Rd×N,觀測輸出向量y∈RN×1。給定測試數據集D*=其中輸入向量x*∈Rd,輸入數據矩陣X*∈Rd×N*,觀測輸出向量y*∈RN*×1。D和D*輸入向量的均值分別為m和m*,可以根據先驗知識建立D的觀測輸出值y和D*的觀測輸出值y*所形成的聯合高斯先驗分布[12],如式(1)所示

式中,C(X,X)為協方差矩陣;K(X,X)為核矩陣,且C(X,X)=K(X,X)+σ2nI。在給定訓練集D和輸入數據矩陣X*的條件下,可以通過后驗概率公式計算出與X*相對應的y*,即高斯過程回歸方程[13]為

1.2 高斯過程超參數的選擇
高斯過程回歸模型最大優點是可調整的參數只有協方差函數,由于高斯過程中的協方差函數滿足積分算子理論中的Mercer定理,因此協方差函數也等價于機器學習中的核函數。本文主要應用以下3種單一類型和2種復合類型的協方差函數,用以驗證不同類型協方差函數對高斯過程預測的影響。
(1)平方指數協方差函數

(2)有理二次協方差函數

(3)神經網絡協方差函數[10],其中~x=(1,x)T

(4)神經網絡協方差函數與平方指數協方差函數的復合變換形式

(5)神經網絡協方差函數與有理二次協方差函數的復合變換形式

令θ={H,σ2f,σ2n}為包含所有超參數的向量,其中,H=l2I表示超參數l2與I得乘積矩陣,l為關聯性測度超參數;σ2f為核函數的信號方差,是控制局部相關性的程度;σn為噪聲的方差;α為核函數的形狀參數;δij為狄拉克(Dirac Delta)函數[14]。
2.1 螢火蟲群優化算法
GSO由Krishnanand和Ghose于2005年提出,核心是利用螢火蟲發光的特性向鄰域空間內亮度高于自己的個體位置移動,通過位置更新實現優化[15]。
GSO中第i個個體由當前位置xi(t)和該位置的螢光素值li(t)確定(t為迭代次數),每次迭代都包括以下兩個階段[16]。
(1)熒光素值更新:更新公式為

式中,ρ為熒光素揮發因子;γ為熒光素更新率;f(xi(t))為該位置所對應的目標函數適應度值。

式中,s為移動步長;‖xj(t)-xi(t)‖為個體j與個體i之間的距離。最后,更新個體i的動態決策域半徑,更新公式如式(10)所示,β為動態決策域更新率,|Ni(t)|為鄰域范圍內的個體數,rs為感知半徑[17]。

2.2 安全態勢預測算法描述
本文提出的方法采用螢火蟲群優化算法對高斯過程最優超參數進行智能搜索確定,迭代訓練過程中利用高斯過程回歸方程對測試樣本進行測試,計算目標函數適應值,通過對每只螢火蟲熒光素值和位置的反復比較更新,得到最優螢火蟲,即最優超參數;最后,返回最優超參數對應的測試結果,進而得到高斯過程模型對于測試數據樣本的輸出結果,即網絡安全態勢的預測值,進一步繪制出安全態勢預測曲線并對實驗結果進行深入對比分析。預測算法框圖如圖1所示,具體詳細描述如算法1。
算法1
輸入:學習樣本集D,測試樣本集D*的輸入x*。
輸出:測試樣本集D*的觀測目標值y*。
步驟1 初始化螢火蟲群算法熒光素值和位置等基本參數;
步驟2 初始化高斯過程回歸模型,利用高斯過程回歸方程對群體所有螢火蟲進行測試,并根據目標函數計算出每個螢火蟲的適應度值f(xi(t));
步驟3 根據式(8)更新螢火蟲個體的li(t);
步驟5 計算個體i移向鄰域集內個體j的概率pij(t);
步驟6 向pij(t)值最大的方向,按式(9)進行位置更新;
步驟8 若滿足停止條件,執行步驟9。否則,返回步驟2繼續執行;
步驟9 停止搜索,返回最優的螢火蟲,找到最優超參數解,輸出預測結果y*,進行深入對比分析。

圖1 基于螢火蟲群優化高斯過程的預測算法框圖
3.1 數據處理與參數設置
3.1.1 數據處理
實驗測試環境為某一未劃分VLAN的簡單局域網,包括1臺服務器和16臺主機,其中服務器操作系統為Windows Server 2003,主機操作系統為Windows XP。實驗的基礎數據需要通過安裝一些軟件工具來得到,如cacti監測軟件、ovaldi漏洞掃描器、日志分析軟件、簡單網絡管理軟件等等。
本文將網絡安全指標體系重新劃分為內部安全指標Safety、外部安全指標Security和用戶類別指標User-Type(該指標體系研究已作為專項研究發表在其他刊物上,此處僅做簡要概述)。Safety指標更強調網絡系統及其主機本身的可靠性,各指標{Sa1,…,Sai,…,Sam}對應的影響因子為{R1,…,Ri,…,Rm},且滿足;Security指標更強調對于外界攻擊的防護水平,各指標{Se1,…,Sej,…,Sen}對應的影響因子為{T1,…,Tj,…,Tn},且滿足=1;User-Type指標指各類用戶的安全等級,可以根據用戶需要進行劃分,影響因子由原始數據來源的用戶等級所決定。態勢值獲取過程描述如下:
步驟1 計算內部安全態勢值Safety,指各項內部安全指標與其對應影響因子的內積

步驟2 計算外部安全態勢值Security,指各外部安全指標與其對應影響因子的內積

步驟3 計算整體安全態勢值S’,是內部態勢值與外部態勢值的加和

網絡安全態勢是一個長期持續且具有突發性特征的過程,為簡化實驗分析,本文采用等時間距的方法對網絡安全態勢實驗數據進行采樣,僅獲取某主機30個時間序列的原始數據進行實驗分析,并根據上述方法計算時間序列T1~T30的網絡安全態勢值如表1所示。

表1 時間序列T1-T30網絡安全態勢值
3.1.2 參數分析與設置
(1)高斯過程參數設置
將高斯過程超參數轉換為螢火蟲個體并對其進行編碼,即每個螢火蟲個體代表一個高斯過程超參數,不同超參數對應不同的高斯過程回歸模型。分別采用表2中所示的5種類型核函數進行對比實驗,以觀察不同核函數對高斯過程預測所產生的影響。

表2 相關算法主要參數設置
(2)PSO算法參數設置
PSO算法的目標函數是在綜合考慮相對預測誤差的均值和標準差兩個方面因素條件下確定的,如式(14)所示,其中,均值E(yn*-yn)主要體現整體相對預測誤差的大小,而標準差{E{[(yn*-yn)-E(yn*-yn)]2}}1/2則主要體現相對預測誤差的平穩性。PSO其他主要參數參考文獻[10]進行設置,詳細如表2所示。

(3)ABC算法參數設置
ABC算法目標函數為式(14)。ABC其他主要參數參考文獻[11]進行設置,詳細如表2所示,其中D為可行解維數,即超參數維數,最大迭代次數t=100,蜜源最大開采數目limit=t×D=300。
(4)GSO算法參數設置
GSO算法目標函數為式(14)。另外,Krishnanand和Ghose通過大量仿真實驗對GSO算法的相關參數進行分析研究,得出各參數的參考取值,如表2所示。其中,nt為鄰域集內包含的螢火蟲數目的閾值,l0為初始熒光素值。
3.2 實驗結果與分析
預測模型的實驗數據集由時間序列T1~T30的整體網絡安全態勢值構成,其中取T1~T10態勢值為學習樣本,T11~T20態勢值為測試樣本。預測模型通過對樣本數據的訓練和預測,尋找高斯過程模型最優超參數,并返回最優超參數對應測試數據集的預測結果,從而得到時間序列T21~T30的預測態勢值,最后通過與真實安全態勢值的對比分析來驗證本文預測方法的準確性及有效性。經過對多個試驗樣本數據的反復驗證,得知實驗樣本的差異對實驗結果并沒有產生非常明顯的差異和變化,因此本文僅選擇表1所示的一組實驗樣本數據進行分析。
實驗方法是將基于共軛梯度優化的高斯過程模型預測方法(Gaussian process,GP)、基于粒子群優化的高斯過程模型預測方法(particle swarm optimization-GP,PSO-GP)、基于人工蜂群算法優化的高斯過程預測方法(artificial bee colony-GP,ABC-GP)和基于螢火蟲群優化的高斯過程模型預測方法(glowworm swarm optimization-GP,GSO-GP)分別進行實驗,以通過實驗預測結果對比4種方法的優劣。另外,高斯過程應用不同的核函數會對實驗效果產生不同的影響,因此本文嘗試將表2中所示的5種核函數分別應用到上述4種方法中,以尋找哪類核函數能夠使預測結果更加精準。計算各種方法在分別采用5種類型核函數情況下相對預測誤差的均值和標準差,實驗結果如表3所示。為了更直觀的對實驗數據進行比較分析,將表3所示的相對預測誤差均值和標準差圖形化,如圖2所示。

表3 相對預測誤差對比

圖2 預測誤差均值與標準差對比
通過上述實驗結果,做如下兩個比較分析:
比較1 螢火蟲群優化、人工蜂群優化、粒子群優化及共軛梯度優化方法性能優劣的比較
由表3及圖2(a)所示的實驗結果可以看出:不論采用哪一種類型的核函數,基于螢火蟲群優化GP模型的相對預測誤差均值比基于共軛梯度優化的GP模型、基于粒子群優化的GP模型和基于人工蜂群優化的GP模型都更優秀,且前者的平均相對預測誤差較后三者分別降低了29.46%、10.37%和4.22%;由表3及圖2(b)所示的實驗結果可以看出:除了NN-SE核函數以外,其他核函數情況下,基于螢火蟲群優化的GP模型的相對預測誤差標準差比另外3種優化方法都更優秀。據此可以驗證螢火蟲群算法優化的高斯過程模型對網絡安全態勢預測的優越性和精準性。
比較2 3種單一類型和2種復合類型協方差函數對實驗結果影響的比較
由表3、圖2(a)及圖2(b)所示實驗結果可以看出:不論是基于螢火蟲群優化的GP模型、基于人工蜂群優化的GP模型、基于粒子群優化的GP模型還是基于共軛梯度優化的GP模型,核函數類型為神經網絡與有理二次的復合協方差函數(neural network and rational quadratic composite covariance function,NN-RQ)的相對預測誤差均值和標準差要比其他類型核函數更優秀。
在基于螢火蟲群優化的GP模型預測的情況下:通過圖2(a)所示的實驗結果對比可以得出核函數類型對于相對預測誤差均值的優越性能從大到小依次為:NN-RQ、NN、NN-SE、RQ、SE,且采用神經網絡與有理二次的復合協方差函數(NN-RQ)的平均相對預測誤差較其他4類(NN、NN-SE、RQ和SE)核函數分別降低了1.65%、3.24%、4.63%和7.51%;通過圖2(b)所示的實驗結果對比可以得出核函數類型對于相對預測誤差標準差的優越性能從大到小依次為:NN-RQ、NN、SE、RQ、NN-SE。
總之,通過上述兩個比較可以看出,當基于螢火蟲群優化高斯過程的網絡安全態勢預測方法采用復合協方差函數NN-RQ時,網絡安全態勢預測的結果是最優秀的,通過實驗得到時間序列T21~T30的安全態勢預測曲線與真實曲線對比如圖3(d)所示。另外3種方法在采用復合協方差函數NN-RQ時的預測結果如圖3(a)、圖3(b)和圖3(c)所示。
可以看出,基于螢火蟲群算法優化高斯過程的網絡安全態勢預測結果與真實值在大小及變化規律上基本一致,為了更加明顯的查看實驗結果,圖4所示為4種方法采用NN-RQ時的預測誤差,可見新方法80%的預測結果誤差小于其他3種方法。
另外,圖5給出了粒子群優化算法、人工蜂群優化算法和螢火蟲群優化算法在迭代預測過程中目標函數最優適應值與迭代次數的關系,可以看出,粒子群優化算法在迭代40~50次以后趨于平穩,人工蜂群優化算法在迭代30~40次以后趨于平穩,螢火蟲群優化算法在迭代25~35次后趨于平穩,由此可以證明螢火蟲群優化算法比其他算法收斂更快。

圖3 時間序列T21-T30安全態勢預測結果對比曲線

圖4 4種方法在NN-RQ下相對預測誤差對比
針對基于共軛梯度優化的高斯過程回歸預測方法存在迭代次數難確定及預測不精準的問題,嘗試采用螢火蟲群優化算法對高斯過程回歸超參數進行智能尋優,在網絡安全態勢預測實例分析中,本文算法將平均相對預測誤差較共軛梯度法優化方法、粒子群優化方法和人工蜂群優化方法分別降低了29.46%、10.37%和4.22%,驗證了螢火蟲群算法優化的高斯過程模型對網絡安全態勢預測的精準性和有效性。通過對5種類型核函數的實驗對比,驗證了采用神經網絡與有理二次的復合協方差函數時,預測效果是最理想的,且其平均相對預測誤差較其他4類核函數最多降低了7.51%。盡管如此,本文開展的理論研究距離在實際網絡中的應用還有很多工作要做,這也是今后進一步研究的重點。
[1]Zhang H L,Shi J Q,Chen X J.A multi-level analysis framework in network security situation awareness[J].Procedia Computer Science,2013,17:530-536.
[2]Mohsen N,Lu J,Zhang G Q.An intelligent situation awareness support system for safety-critical environments[J].Decision Support Systems,2014,59:325-340.
[3]Zhang Y,Tan X B,Cui X.Network security situation awareness approach based on Markov game model[J].Journal of Software,2011,22(3):495-508.(張勇,譚小彬,崔孝林.基于Markov博弈模型的網絡安全態勢感知方法[J].軟件學報,2011,22(3):495-508.)
[4]Wu K,Bai Z Y.Trusted network security situational awareness and forecast based on SPA[J].Journal of Harbin Institute of Technology,2012,44(3):112-118.(吳琨,白中英.集對分析的可信網絡安全態勢評估與預測[J].哈爾濱工業大學學報,2012,44(3):112-118.)
[5]Meng L M,Zhu J H,Yang Y.A fault detection algorithm for wireless sensor networks based on support vector regression[J].Journal of Beijing University of Posts and Telecommunications,2014,37(s1):23-29.(孟洛明,朱杰輝,楊楊.支持向量機回歸預測在網絡故障檢測中的應用[J].北京郵電大學學報,2014,37(s1):23-29.)
[6]Tang C H,Xie Y,Qiang B H.Security situation prediction based on dynamic BP neural with covariance[J].Procedia Engineering,2011,15:3313-3317.
[7]Xie L X,Wang Y C,Yu J B.Network security situation awareness based on neural network[J].Journal of Tsinghua University(Science and Technology),2014,53(12):1750-1760.(謝麗霞,王亞超,于巾博.基于神經網絡的網絡安全態勢感知[J].清華大學學報(自然科學版),2014,53(12):1750-1760.)
[8]Chen K M,Zhou Z X,Huo C L,et al.A semi supervised context-sensitive change detection technique via Gaussian process[J].IEEE Geoscience and Remote Sensing Letters,2013,10(2):2.
[9]Wang S W,Gu H L.Multiuser detection with sparse spectrum Gaussian process regression[J].IEEE Communications Letters,2012,16(2):164-167.
[10]Xu C,Liu B G,Liu K Y.Intelligent analysis model of landslide displacement time series based on coupling PSO-GPR[J].Rock and Soil Mechanics,2011,32(6):1669-1675.(徐沖,劉保國,劉開云.基于粒子群-高斯過程回歸耦合算法的滑坡位移時序分析預測智能模型[J].巖土力學,2011,32(6):1669-1675.)
[11]Zhang L,Liu Z,Zhang J Q.Optimized improved Gaussian processmodel based on artificial bee colony algorithm[J].Journal of National University of Defense Technology,2014,36(1):154-160.(張樂,劉忠,張建強.基于人工蜂群算法優化的改進高斯過程模型[J].國防科學技術大學學報,2014,36(1):154-160.)
[12]Kou P,Gao F,Guan X H.Sparse online warped Gaussian process for wind power probabilistic forecasting[J].Applied Energy,2013,108:410-428.
[13]Wu Q,Rob L,Xu X.A sparse Gaussian process regression model for tourism demand forecasting in Hong Kong[J].Expert Systems with Applications,2012,39(15):4769-4774.
[14]Alexander Y.S,Wang D B,Xu X L.Monthly stream flow forecasting using Gaussian Process Regression[J].Journal of Hydrology,2014,511(16):72-81.
[15]Krishnanand K N,Ghose D.Glowworm swarm optimization for simultaneous capture of multiple local optima of multimodal functions[J].Swarm Intelligence,2009,3(2):87-124.
[16]Wu B,Qian C,Ni W,et al.The improvement of glowworm swarm optimization for continuous optimization problems[J].Expert Systems with Applications,2012,39(7):6335-6342.
[17]Ibrahim A,Simone A L.A new clustering approach based on glowworm swarm optimization[C]∥Proc.of the IEEE Congress on Evolutionary Computation,2013:2642-2649.
Network security situation prediction based on Gaussian process optimized by glowworm swarm optimization
LI Ji-zhen1,MENG Xiang-ru1,WEN Xiang-xi2,KANG Qiao-yan1
(1.School of Information and Navigation,Air Force Engineering University,Xi’an 710077,China;2.School of Air Traffic Control and Navigation,Air Force Engineering University,Xi’an 710051,China)
A prediction method based on the Gaussian process optimized by glowworm swarm optimization(GSO)is proposed to solve the problems of difficult determination of iteration steps and less accuracy of prediction which are caused by searching the hyperparameters of the Gaussian process with the conjugate gradient algorithm.And it is applied to the research of network security situation prediction.The hyperparameters of the Gaussian process are intelligently searched by the GSO algorithm for establishing the network security situation prediction model based on Gaussian process regression.The analysis results of the experiment show that the average relative prediction error of this new method is reduced by about 29.46%,10.37%and 4.22%compared with the conjugate gradient algorithm,the particle swarm optimization(PSO)algorithm and the artificial bee colony(ABC)algorithm separately,and the new method has a better convergence.In addition,the impact of the prediction results are analyzed and compared by three single type covariance functions and two composite type covariance functions,and the analysis results of the experiment show that the average relative prediction error with neural network and rational quadratic composite covariance function(NN-RQ)is reduced by 1.65% to 7.51%compared with other four covariance functions.
situation prediction;Gaussian process;glowworm swarm optimization(GSO);particle swarm optimization(PSO);artificial bee colony(ABC)
TP 393
A
10.3969/j.issn.1001-506X.2015.08.26
李紀真(1986-),男,博士研究生,主要研究方向為網絡安全預警決策。
E-mail:lijizhen1986@126.com
孟相如(1963-),男,教授,博士,主要研究方向為寬帶通信網絡。
E-mail:mengxr1963@126.com
溫祥西(1984-),男,講師,博士,主要研究方向為網絡故障預測與健康管理。
E-mail:wenxiangxi1984@126.com
康巧燕(1980-),女,副教授,博士,主要研究方向為寬帶通信網絡。
E-mail:kangqy2012@163.com
1001-506X201508-1887-07
網址:www.sys-ele.com
2014-09-17;
2014-10-20;網絡優先出版日期:2014-10-31。
網絡優先出版地址:http://www.cnki.net/kcms/detail/11.2422.TN.20141031.1028.003.html
國家自然科學基金(61201209)資助課題