國家電網蚌埠供電公司 易 飛
基于進化神經網絡模型的網絡安全態勢要素提取方法研究
國家電網蚌埠供電公司 易 飛
針對網絡安全態勢要素提取不全面和不準確的近況,以神經網絡模型為基礎,展開了基于遺傳進化算法的進化神經網絡模型的網絡安全態勢要素提取方法研究。擬使用遺傳進化算法對神經網絡結構進行優化,進而建立一種進化神經網絡模型。研究表明,在該種模型下,對提取大量網絡安全狀態數據中的態勢要素的精確度方面有了很大程度的提升,此外,還能對其進行較為廣泛的推廣和普及。同時,為實現網絡安全態勢感知的實現提供了一個全新的想法和突破點,可以證實該模型的準確性和有效性。
進化神經網絡;網絡安全;態勢要素;優化設計
近年來,隨著網絡技術的不斷發展和網絡攻擊工具的傻瓜式使用,網絡攻擊手段正朝著多元化方向發展,信息泄露等安全事件發生頻率不斷提升。當下網絡安全態勢感知被公認為是網絡安全這門學科的主要研究方向,而對精確實現網絡安全態勢要素提取則是實現感知系統的第一步。在國內,網絡安全學科的發展也正迎頭趕上,特別是在聚類分析和分類分析等方面。一些研究工作者已經對相關問題做出了一定程度上的優化和解決,這些工作為以后的安全態勢要素的研究工作奠定了基石。其中華東理工大學的張學琴團隊提出了一種基于Fisher分和支持向量機的網絡入侵檢測特征提取方法;哈爾濱工程大學的王慧強教授將進化策略和神經網絡應用到網絡安全態勢要素提取技術中,提出了一種基于進化神經網絡的態勢要素提取模型[3]。
1.1態勢要素獲取的本質分析
網絡安全態勢要素提取的實質就是發現存在于網絡中的各種引起異常的安全問題,并轉化為某種方式告知安全系統。王慧強教授將網態勢要素定義為一種二元組SF=(N,W)。其中N代表態勢要素的名稱,W代表態勢要素所占的權重,即該態勢要素對你系統的影響程度。由此可看出,網絡安全態勢要素提取的實質是一個分類識別的問題,是對于網絡中的每條連接,判斷它是否屬于網絡中的正常連接,如果不是正常連接,用系統模型去識別它屬于哪種異常連接,進而作為網絡安全要素反饋給系統模型。
1.2態勢感知分層實現模型
由于現階段正是安全態勢感知研究的發展時期,該學科的發展需要學習和借鑒專業領域的成熟先進的理念和技術。Endsley于1995年提出了態勢感知理論模型,該理論模型著重于對態勢感知進行理論上的了解,并對相關因素進行量化融合分析的處理[1]。至此,態勢感知理論模型的應用主要被分為對態勢要素的提取、理解和預測三個層面,這也為科研工作者提供了真實可靠的決策思路與依據。
在此模型中,我們定義大規模網絡安全態勢來源于網絡系統提供的網絡服務程序,一般計算機網絡系統中出現的各種異常問題都會間接或直接的影響大量的網絡服務的正常工作。為了更好的分析系統網絡所面臨的異常問題及所受到的攻擊行為對安全狀況的影響,需要明確網絡安全態勢的主要影響層面,并且對其逐一分析。
從查閱文獻可知,對網絡安全態勢的威脅可以從三個角度來進行闡述,隨后分別從這三個角度來對網絡的狀態加以評價。具體說來,就是從行為層次方面、在線服務方面和網絡安全性方面。上述三個方面的安全性檢驗可依照關鍵信息點的采集、態勢分析及預判等三個過程依次進行。
BP神經網絡算法是當前使用最多、最成熟的提取網絡安全態勢要素的算法之一,它憑借著強大的兼容并行的特性、易于使用掌握的便捷性以及減少計算復雜程度的簡化性而成為一種被普羅大眾所廣泛接受的算法。我們可以將這種算法的核心定義為搜尋最小誤差。但是同時,他也存在著一些不足,特別在求安全態勢要素方面,通常存在收斂速度慢,學習效率低下不足的問題。究其原因,是由于其在處理非線性規劃時采用了最速下降的理論,以至于造成了上述不足。
結合上述的優劣勢分析,筆者根據自身經驗,提出了一種采用進化策略來改進神經網絡算法的訓練方法。該方法的優勢在于可以使訓練處的網絡模型分類準確度高并且不容易陷入局部循環的情況。這恰好彌補了BP算法的缺陷,使得搜索效率得到較大提升。
想要將網絡安全態勢的相關信息提取出來,可分為如下兩個大的方向:首先要進化訓練神經網絡,再根據相關需求對數據和參數進行提取。其進化步驟分別為∶結構編碼(染色體表示法)、變異策略、適度函數選取。
2.1進化策略結構編碼
神經網絡的數據處理能力不但跟神經元之間的協同強度相關聯,而且與神經元所構成的拓撲結構、處理單元之間的輸入輸出特性相關。所以利用進化策略對態勢要素提取模型進行優化處理,最重要的是染色體如何表示,即如何基因編碼。首先假設r,s,t為態勢要素提取模型中的輸入層、隱藏層和輸出層的處理單元個數。在該進化模型中我們采用的是個體表示法,采用比較傳統的十進制進行表示,其中個體的編碼分為兩大塊:(Xk, αk),其中Xk表示進化到第k代的個體,αk表示進化到第k代個體的連接權值或閡值。并且這兩大部分滿足:

式中,Xk表示第k代個體;N(0,σ)代表服從正態分布的隨機數,其均值為零,標準差為σ。新個體Xk+1,是在舊個體Xk的基礎上添加一個獨立隨機變量N(0,σ)生成的。
2. 2 適應度函數選取
在進化策略模型中,衡量個體好壞的比的標準是適應度函數選取的是否合適。分類選擇計算是按照一種準確的方式進行,故可以將該優化模型的目標函數值設定為每個處理單元的適應度函數,而不需要對目標函數進行任何變換處理。在這里定義模型的適應度函數為:

2.3算法描述
利用遺傳進化策略構建的進化神經網絡模型的主要步驟如下:第一步:初始化相關參數,設定神經網絡模型的輸入層,輸出層,隱層神經元個數分別為r,s,t;設定算法終止精度要求為ξ,令初始化進化代數k=1;第二步:隨機產生一系列初始父本,初始父本個數n應滿足對神經網絡模型的訓練精度要求,按公式一計算每個父本的適應度;第三步:對任一父本,變異產生子代,并計算其子代的適應度函數;第四步:進化代數為k+1,若,則完成進化,否則進入第二步繼續迭代。
3.1原始數據描述
實驗所用的初始數據來自WenkeLee等人于1998年在美國國防部高級研究計劃局作IDS評測時獲得的數據基礎上恢復出來的連接數據信息,即DARPA入侵檢測數據集[1],見表1。

表1 DARPA數據集攻擊分布統計表
鑒于原始數據的數據量過于龐大,故在數據采納之前采用了分層抽樣的概率統計方式,采用這種方法主要旨在使抽樣數據和原始數據保持一定的一致性。反饋數據集和測試數據集的比例是7∶3,但是相異的數據可能具有同樣的比重。
3.2實驗結果
本次實驗的誤差分析主要從算法的平方和誤差和適度函數值這兩個方面來著手進行,利用MATLAB進行仿真分析驗證,再從其結果中對網絡安全狀態數據的分類性能做出反饋。通過誤差分析和曲線擬合,即可得到兩種算法下的誤差判定指標的值,即誤差平方和與適應度函數隨進化代數的增加曲線。如圖1、圖2圖實線所示為基于進化策略的神經網絡模型訓練算法,虛線所示為基于遺傳算法的神經網絡模型訓練算法。

圖1 誤差平方和變化曲線圖

圖2 適應度函數變化曲線圖
通過進行誤差分析可知,基于進化策略的神經網絡模型訓練算法在進化到100代時,便可以看出基于進化策略的神經網絡訓練算法的收斂性較基于遺傳算法的神經網絡模型訓練算法好。因此,在進行網絡安全態勢要素提取實驗時,算法必然具有較好的數據分類精度,并且算法性能穩定。
網絡的安全性始終是一個不會過時的話題,它的態勢感知也將是極具可持續性的一個話題。本文提出了神經網絡算法模型,可在網絡安全狀態和分析維護中起到關鍵性作用,在快速防止網絡被攻擊方面的作用同樣不容小覷。當然,從整體來看,本文還有很多的不足和缺憾,比如沒有具體量化影響網絡安全的相關因素并確定其量化響應機制,這也將是將來的研究的方向和重點需要考慮的地方。
[1]梁穎.基于數據融合的網絡安全態勢定量感知方法研究[D].哈爾濱:哈爾濱工程大學,2007.
[2]蕭海東.網絡安全態勢評估與趨勢感知的分析研究[D].上海:上海交通大學,2007.
[3]郭劍.網絡安全態勢感知中態勢要素獲取技術的研究[D].東北:東北大學,2011.
[4]梁穎,王慧強,劉磊.基于網絡服務狀態分析的安全態勢定量感知方法[J].北京交通大學學報,2009(4).
[5]卿松.網絡安全態勢感知綜述[J].計算機安全,2011(10).
易飛(1983—),男,安徽蚌埠人,工程師,碩士,主要從事信息通信研究。