李秋德
(貴陽醫學院醫學生物工程系 貴州 550004)
入侵分析模塊決定入侵檢測系統檢測率和效率。在入侵分析模塊的研究中,軟計算方法對異常檢測系統的分析有效。軟計算方法通常有神經網絡、遺傳算法、模糊數學和粗糙集理論等。就神經網絡而言,BP(Error Back Propagation)神經網絡和徑向基函數(RBF)神經網絡是比較重要的神經網絡模型,BP算法具有局部精確搜索的特性,因而存在易陷局部最優、收斂速度慢等問題;RBF神經網絡不存在易陷局部最優,但收斂速度仍較慢,改善其收斂速度方法眾多,本文對RBF的初始化聚類子算法進行改進。使用集成神經網絡理論對有差異的RBF神經網絡構建集成RBF神經網絡分類器。實驗結果表明該方法提高了檢測率和收斂速度。
RBF神經網絡是具有單隱含層的三層前饋網絡,其網絡結構下圖所示。數學描述為:X=(x1,x2,…,xN)T為網絡輸入向量,φj(X)(j=1,2,…,P)為隱節點的基函數,Y=(y1,y2,…,yt)T為網絡輸出。
標準RBF算法的編程步驟:
輸入:訓練樣本、輸入層,輸出層,隱含層神經元的數目、最大誤差、最大循環次數、高斯函數寬度;
輸出:RBF神經網絡分類器。
Step1:初始化聚類中心,中心值方差,神經網絡的權值、偏值和學習率;
Step2:輸入訓練樣本對,聚類學習;
Step3:計算各層輸出及網絡輸出誤差;
Step4:計算各層誤差信號,調整各層權值;
Step5:檢查對所有樣本是否完成一次輪訓,完成則轉向Step6,否則返回Step3;
Step6:檢查網絡總誤差是否小于最大誤差或達到最大循環次數,滿足時結束訓練,否則返回Step3。
RBF的主要訓練時間是初始化聚類,改進其收斂速度重點在于初始化聚類的改進。文獻[1]設計了初始化聚類子算法,本文對初始化聚類子算法做如下改進:
由于入侵檢測數據庫數據量大,于是定義與其它數據距離最小的點:Min_Distance_Point[m],其它數據的最小距離:Min_Distance[m],最大最小距離:Max_Min_Distance[m];m為選取的數據記錄,一般很大,所以在step3中求最小歐氏距離最大的若干記錄時,為了減少儲存和時間復雜度,不使用比較排序法。由于取出k個點最多需要k*(k-1)個記錄對,Max_Min_Distance大小可定義為k*(k-1)。以下為快速求前k個最大數算法:for i=1 to m
求出比gi大的個數Number和與gi相等的個數Equation_Number,若k>Number,則gi> goal(目標值),記up=gi;若k<=Number且k>=Number-Equation_Number,則gi為目標值goal,否則gi< goal,記down=gi。
改進前的時間復雜度O(m2),改進后為O(m),時間復雜度得到降低。
神經網絡集成是集成一批有差異且能獨立分類學習的神經網絡,并共同決定最終輸出的信息處理系統。根據RBF神經網絡隱含層神經元的個數、學習率等不同網絡結構和輸入不同的特征屬性等影響因素,構造出5個RBF神經網絡分類器,這批分類器具有檢測率較高、網絡結構不同等特點。然后對這批神經網絡進行集成,輸出按對各網絡簡單平均,相當于大數的決策原則,共同決策輸出最終結果。
入侵分析模塊使用KDDCUP’99(10%)為實驗數據,RBF分類器的輸入數據為數值型,需要對原始數據做預處理,即將字符型按某種編碼方式轉換為數值型數據,并做歸一化處理。
運行環境: VC++6.0平臺,后臺數據庫為Access 2003。
參數設置:數據記錄數=29255,網絡誤差=1e-3,最大聚類中心數=100,最大權值學習數=1000,學習率=0.5,最大聚類中心距=1e-3,輸入層節點數=5,輸出層節點數=1。
變量初始化:改進算法初始化聚類子,連接權值取[0,1]的隨機數,徑向基函數為高斯函數。
輸出結果:連接權值文件,分類結果文件。
將輸出參數文件放入標準RBF算法中使用集成算法最終決策結果。
檢測率(ADR)、誤報率(FPR)、漏報率(FNR)三個指標來評價檢測性能。隨機抽取29255條訓練數據集和19481條測試集數據,訓練數據集對改進的RBF進行訓練,然后用測試集數據用于RBF與集成神經網絡,決策最終結果。RBF與集成神經網絡的檢測率、誤報率、漏報率的實驗結果如表1。

表1 RBF與集成的檢測結果
通過對入侵檢測系統事件分析模塊的分析,構建分類器時,本文對已有文獻中的初始化聚類子算法的進一步改進而提高了訓練速度,用集成理論對RBF神經網絡的集成提高了檢測率。針對分類器的構建過程,在此基礎上還有很多后續工作,對神經網絡的集成方案眾多,可在方案上開辟新途徑。
[1] 熊家軍,李慶華.信息熵理論與入侵檢測聚類問題研究[J].小型微型計算機系統,2003,5(26).
[2] 唐正軍,李建華.入侵檢測技術[M].北京:清華大學出版社,2004.
[3] 張義榮,鮮明,肖順平,王國玉.一種基于粗糙集屬性約簡的支持向量異常入侵檢測方法[J].計算機科學 2006(33).
[4] 韓力群.人工神經網絡理論、設計及應用(第二版)[M].北京:化學工業出版社,2007.
[5] 下載地址為:http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.