999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向不完備信息的網絡入侵檢測方法

2022-05-23 07:24:32張翼英阮元龍周保先
計算機工程與設計 2022年5期
關鍵詞:分類特征檢測

張翼英,阮元龍,尚 靜,周保先

(天津科技大學 人工智能學院,天津 300457)

0 引 言

入侵手段的發展呈現多平臺感染、產業化的特征,在入侵技術不斷升級的網絡環境中,入侵檢測的重要性日益凸顯,建立一套有效網絡入侵檢測機制尤為必要[1-3]。近年來,隨著人工智能的發展,基于深度學習的入侵檢測成為研究熱點。基于深度學習的入侵檢測包括特征提取和分類,特征提取是通過組合低層特征實現特征的降維[4]。但深度學習在處理大規模的入侵檢測時,存在兩個問題。第一,深度學習比較復雜,過于復雜的深層神經網絡需要花費大量的時間訓練參數,難以滿足檢測實時性的要求[5,6]。第二,深度學習的訓練必須以大量的完備數據為基礎,以增強模型的訓練效果,但是在收集與傳輸網絡數據的過程中,常常會出現數據未完全收集或信息不完備的情況[7,8]。因此,當下基于深度學習的網絡入侵檢測方法,雖然獲得了較好的檢測準確率,但對數據量要求較高,參數訓練也非常耗時。針對上述問題,提出了面向不完備信息的深度信念網絡的入侵檢測方法(intrusion detection with incomplete information based on deep belief network,IDII-DBN),基于SMOTE方法進行,然后采用DBN進行特征降維和SVM分類,實現了信息不完備下的輕量級高效入侵檢測,提高了罕見攻擊的檢測準確率。

1 相關工作

目前,國內外采用深度學習的方法研究入侵檢測均取得一定效果。針對訓練效率,文獻[9]提出了一種基于卷積神經網絡(convolutional neural networks,CNN)的入侵檢測方法,該方法可以有效提取原始樣本信息,從而提高分類準確率,但是過程相對耗時。文獻[10]基于稀疏自編碼器(sprarse auto-encoder,SAE)進行特征提取,用自學習(self-taught learning,STL)的方式進行有監督的訓練,達到了90%以上的檢測正確率,但是有監督的訓練對運算的要求過高,難以做到實時檢測。文獻[11]采用一種完全基于前饋神經網絡的檢測模型(simplified feedforward intrusion detection,SFID),通過逐級遞減神經元個數消除數據中的冗余特征,達到簡化模型、縮短訓練時長的效果,但相較復雜網絡的檢測結果仍有提升空間。

針對不完備信息,文獻[12]基于SVM-Adaboost結合的檢測模型,將SVM作為弱分類器、Adaboost作為集成器,利用其各自優勢提升了訓練效率,但是沒有考慮數據類別不平衡。文獻[13]基于神經元映射卷積神經網絡,用ReLU激活器作為非線性激活函數,采用Adam算法進行學習,具備較少的連接和參數,具有易于訓練和泛化能力強的優點,但暴露了數據不平衡的問題,缺少對不完備信息數據的處理。文獻[14]基于小波變換和人工神經網絡(artificial neural network,ANN)的混合模型,降低了數據不平衡所帶來的負面影響,提高了模型在少量數據類別上的檢測準確率。文獻[15]基于對數據集數據隨機丟棄的方式來解決數據的不平衡問題,僅僅使用40%的數據就獲得了較高的準確率,但是對少量數據類別的分類效果準確率較低。文獻[16]將DBN與核極限學習機(kernel extreme learning machine,KELM)結合提出了一種混合深度學習算法,但是算法沒有考慮數據分布不均,因此對少數類別的數據分類效果也不好。文獻[17]考慮特征收集不完整的情況,為了模擬真實的網絡環境,提出基于特征丟棄的入侵檢測方法,在使用少量特征的情況下,獲得了較好的檢測效果。文獻[18]基于深度信念網絡具有較好的非線性學習能力的特征,選取三層受限玻爾茲曼機(restricted boltzmann machines,RBM)和單層反向傳播算法(back propagation,BP)對高維數據做降維處理,并使用softmax函數對入侵數據進行分類,但是在檢測時間上存在不足。

上述方法基于數據完整實現了對入侵檢測的有效監測,但是模型存在對數據特征的敏感度高、數據量需求大、參數過多等問題。因此總體的入侵檢測時間長、罕見攻擊檢測準確率低,在具體應用中存在限制。因此,在真實的網絡入侵檢測環境中,面對不完備信息的網絡數據,如何提高訓練的準確率和縮短訓練時間也是本文研究的重點問題。

2 基于IDII-DBN入侵檢測模型

在數據的收集與傳輸過程中,會出現數據未完全收集或信息丟失的情況;出于保護用戶隱私和安全的考慮,部分數據會被隱蔽起來,無法參與實際的入侵檢測。因此,在數據層面,面對信息不完備的網絡數據,模型對網絡數據進行不完備信息的處理,針對各類別數據量的不平衡進行優化。使用改進后的SMOTE采樣方法,對網絡數據中的低頻樣本進行增量處理,實現各類別的數據量進行平衡,從而使得網絡數據可以得到更加充分的訓練,以此來抵消數據在傳輸過程中出現的數據丟失問題。模型對采樣后的網絡數據采用深度信念網絡對其進行訓練,通過多層RBM對數據進行降維,提取出最有效的特征,利用BP算法對參數微調,獲得原始數據最優的特征表示。最后將降維后的數據送入SVM分類器,SVM在低維數據和高維數據上都有良好的分類表現,且正則化方法有效預防過擬合的問題。經由DBN降維后數據大大降低了SVM的訓練時間,滿足了入侵檢測實時性的需求。

與現有的一些算法相比,本文模型有如下的優點。

(1)模型考慮了真實網絡在傳輸過程中可能出現的信息不完備現象,通過SMOTE采樣方法的方法來彌補數據在類別上不平衡的缺陷,實現信息特征穩定下的數據均衡化,降低了模型對特征的敏感度,避免因數據污染或特征丟失導致的訓練不充分的問題。

(2)在算法層面,模型基于DBN算法對入侵檢測的數據進行降維,數據通過RBM映射實現降維、消除冗余特征,獲取數據低維特征,實現對海量無標簽數據的特征提取。將精簡后特征送入SVM分類器進行分類訓練,先判斷數據是否為入侵數據,若判定為入侵數據則進一步判斷是否為已知入侵數據。若是未知入侵數據,對新特征進行學習,并將其加入特征知識庫。通過精準捕捉入侵特征,避免了因特征冗余而導致的訓練時間過長。滿足了網絡入侵檢測的實時性的需求,以較高的準確率實現低維特征下的輕量級入侵檢測。IDII-DBN模型如圖1所示。

圖1 IDII-DBN檢測模型

為了彌補網絡數據在類別上的不平衡,模型使用SMOTE的采樣的方法,避免了分類準確率下降和訓練不充分。采樣后的數據用DBN算法進行降維,通過RBM網絡逐層映射和BP算法的參數微調,實現整體參數的優化。降維后的數據輸入SVM分類器,進行攻擊類別的識別。

2.1 基于SMOTE采樣的缺失數據完備化

盡管近些年網絡入侵愈來愈頻繁,但是入侵數據相較于正常的網絡行為數據依舊不足。由于網絡入侵的數據樣本過少,而機器學習模型通常以最大化整體分類精確度為目標,當低頻攻擊實際樣本數量過少時,模型進行特征捕捉時往往效果不佳,故對模型無法進行有效的訓練,導致最終分類結果的準確率低,特別是對少量樣本的檢測難度很大。機器學習的算法存在結構簡單,特征提取單一,泛化性差的局限性,僅對小批量數據具有良好的擬合效果,當面臨大規模類別不均衡的數據集時無法對數據形成有效的非線性映射。大多數機器學習模型及算法中低頻攻擊樣本在訓練及分類過程中被忽視,導致訓練后的模型存在分類偏向性,在實際應用中的檢測準確率下降的問題。

網絡數據既有數值型數據又有字符型數據,采用one-hot編碼方式對字符型數據做數值化處理。部分數值的量綱差異過大,這會增加訓練時間、網絡收斂過慢,故預先對數據進行歸一化操作,實現了特征在區間上的映射。歸一化公式如式(1)

(1)

x′為歸一化后的特征值,x為原特征值,xmax,xmin分別是該特征屬性中的最大值和最小值。

本文基于已有的非平衡數據處理方式對數據進行過采樣,針對信息不完備采用SMOTE采樣方法對類別間的數據量進行平衡,在確保特征穩定的前提下實現了數據的完備化。SMOTE核心是通過線性變換函數在一些距離較近的少數類數據中獲得新數據,使得原數據集類別間的數量相對平衡[19]。SMOTE通過對原始數據的線性插值來生成原數據集中不存在的數據。對少數類中的每條數據x,選擇與其距離較近的K條數據,根據采樣的倍數N,在K個近鄰中選取N個數據,記為yi(i=1,2,…,N)。 在x和yi之間線性插值產生新的數據pi, 采用彌補了信息在類別上的缺陷,實現缺失數據的完備化。線性插值如式(2)

pi=x+rand(0,1)*(yi-x), i=1,2,…,N

(2)

rand(0,1) 表示生成0到1之間的隨機數。

2.2 基于DBN的數據降維

當下的網絡入侵數據具有維度高的特點,同時各個數據類別的數量不均,易導致分類結果出現偏差。當下大多數入侵檢測模型對類別不平衡的數據分類能力較差,存在訓練時間長、分類準確率低的缺陷。因此如何將高維的數據映射成低維的特征數據,從而解決攻擊數據不均衡問題是本文需要解決的一個關鍵問題。本模型針對高維數據的特征冗余特性,采用DBN對數據降維。從結構上看,DBN由多層RBM和一層有監督的BP網絡組成,通過對低維特征的組合實現數據降維。模型構造的DBN包含三層RBM和一層BP網絡,其結構圖如圖2所示。

圖2 深度信念網絡結構

DBN模型的預處理是一個無監督的自上而下的訓練過程,通過RBM實現特征降維。微調是對網絡整體調優,利用BP算法將誤差自上向下的傳播,實現參數優化。RBM是一種神經感知機,具有兩層結構,分別是可視層和隱藏層,兩層之間對稱連接,權值相同,層內無連接。RBM的特征降維如圖3所示,每層RBM均由可見層和隱藏層組成,數據由可見層輸入,由隱藏層輸出,并實現降維。其中,可見層特征數n多于隱藏層特征數m。

圖3 基于RBM的特征降維

RBM的訓練可分為前向和重構兩個階段,其中v=(v1,v2,…,vn) 為可見層,表示輸入數據,h=(h1,h2,…,hm) 為隱藏層。此外 RBM還包含了3個通過數據學習得到的參數,分別是w、a和b,wij表示可見層和隱藏層間的權重,ai表示顯神經元i的偏置,bj表示隱神經元j的偏置。

RBM是概率圖模型, 本文模型假設所有顯單元和隱單元均為二值變量,即?i,j,vi∈{0,1},hj∈{0,1}。 用vi表示第i個顯單元的狀態,hj表示第j個隱單元的狀態,Z是歸一化因子。則一組給定的狀態 (v,h), 其能量函數的定義如式(3)

(3)

θ={wij,ai,bj} 是RBM的參數。

當可見層的狀態確定時,每個隱藏層單元的激活是條件獨立的,隱藏層的第j個單元被激活的概率如式(4)

(4)

當隱藏層的狀態確定時,每個可見層單元的激活也是條件獨立的,可見層的第i個單元被激活的概率如式(5)

(5)

n維數據X(x1,x2,…,xn) 經RBM降維后得到m維數據Y(y1,y2,…,ym)。

訓練過程如下:

(1)數據X經可見層v傳到隱藏層h,并基于sigmoid函數獲取每個隱藏層神經元的激活概率;

(2)計算可見層和隱藏層中每個神經元的激活概率,得到神經元激活的概率p(h2|v2);

(3)更新RBM中的參數w、a和b;

(4)重復上述過程,得到隱藏層的輸出樣本Y(y1,y2,…,ym), 實現特征的降維。

DBN基于無標簽的數據采用無監督的學習生成模型,獲取模型的權重和偏置后,基于BP算法對參數進行更新,實現特征降維。

2.3 基于SVM的輕量級入侵檢測

(1)構造優化問題,其表達式如式(6)

(6)

(2)構造帶約束的拉格朗日數函數,其表達式如式(7)

(7)

(3)利用對偶性將函數轉化為無約束問題,并利用KKT(Karush-Kuhn-Tucker conditions)條件,求出參數ω*,b*。 參數表達式如式(8)所示

(8)

(4)構造決策函數,調整模型參數,并利用測試集對參數進行驗證。決策函數表達式如式(9)所示

f(x)=sign(ω*Tx+b*)

(9)

(5)未知樣本分類,將新的網絡數據樣本點導入到決策函數中實現入侵檢測。

3 實驗設置

基于國際公認的KDD Cup 99數據集是網絡入侵的標準數據集[20]。對KDD Cup 99數據集進行預處理,對預處理后的數據使用SMOTE采樣,優化各類別的數據量,并將數據分為訓練集和測試集。將采樣后的數據使用DBN降維,通過多層RBM提取特征,利用BP算法微調網絡參數。將降維后的數據送入SVM分類器,利用數據的低維特征實現輕量級的入侵檢測。實驗中對每個數據集進行多次獨立重復實驗。

3.1 實驗數據

KDD Cup 99數據是有標簽的數據集,數據被標記為5大類:正常類型數據(Normal)、拒絕服務攻擊(denial of service,DOS)、遠程主機攻擊(remote to local,R2L)、用戶到根攻擊(user to root,U2R)、端口掃描攻擊(Probe)[21]。數據集中的攻擊類型共39種,訓練集中有22種已知攻擊類型,測試集中有17種未知攻擊類型[22]。數據類型數量分布見表1。

表1 數據類型數量分布

3.2 評價指標

使用準確率和訓練時長作為模型的評價指標。樣例根據其真實類別與分類器的預測類別組合分為真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negative,TN)、假反例(false negative,FN)4種類型[23]。準確率的定義表達式如式(10)

(10)

模型的準確率AC表示預測正確的個數占全部樣本的百分比,百分比越大表示模型的檢測效果越好。

4 實驗及結果評估

為模擬真實環境中信息不完備的情況,實驗中遞減數據的特征量,觀察IDII-DBN算法在準確率和檢測時間上的變化情況。

針對檢測準確率:第一,設計了數據特征量對準確率的影響實驗,特征量從全部特征量的80%開始,以10%遞減,直至為總特征量的10%,并與SFID、DBN算法進行對比。第二,設計了采樣數據和原始數據的對比實驗,驗證了缺失數據完備化方法對分類準確率的影響。第三,比較不同降維方法在該模型中對最終檢測準確率的影響。

針對檢測時間,對比了IDII-DBN、SFID、DBN這3種算法在特征量不同情況下的耗時。

4.1 準確率

實驗對比了IDII-DBN、SFID、DBN這3種算法在信息不完備情況下的入侵檢測準確率。為了比較特征提取對分類效果的影響,設計了與文獻[11]SFID方法和文獻[18]DBN的對比實驗。文獻[11]通過神經元個數逐級遞減來消除數據的冗余特征,用降維后的特征完成入侵分類,方法的訓練效率較好,但準確率比IDII-DBN算法略低。文獻[18]利用多層RBM對高維原始數據進行降維,并利用低維特征完成入侵分類,但參數訓練過于耗時。實驗結果表明,IDII-DBN的算法在特征量40%時就獲得了較高的正確率且穩定性好。

為了驗證SMOTE采樣方法對入侵分類的效果,對采樣后數據和原始數據分別進行對比實驗,比較兩者在分類準確率上的效果。實驗結果表明,采樣后的數據分類準確率更高,同時穩定性更好;原始數據的分類準確率較采樣后的低,且需要更多的數據。這表明不完備信息處理對入侵檢測的分類準確率有很大提升。

3種算法實驗的準確率如圖4所示。采樣數據和原始數據分類準確率如圖5所示。

圖4 不同特征量下的準確率

圖5 采樣數據和原始數據分類準確率

為了解模型對各數據類型的分類準確率,設計了不同特征量下模型對各類別數據的檢測對比實驗。結果表明,模型對Normal、Dos、Probe這3類數據檢測結果較好,在特征量50%時就獲得較高的準確率;在特征量較多時U2R、R2L的準確率同樣較高。說明IDII-DBN模型對各類別數據的分類均有良好表現。

驗證采樣效果對各類別數據的分類效果,設計了原始數據在不同特征量下的檢測實驗。結果表明,原始數據各類別準確率的曲線圖和圖6相似,但是整體準確率比圖7低,U2R、R2L的檢測效果難以滿足預期。說明模型不完備信息的采樣處理優化了對不同數據類型的檢測效果。

圖6 不同數據類型的檢測準確率

圖7 原始數據不同數據類型的檢測

不同數據類型的檢測效果如圖6所示。原始數據不同數據類型的檢測如圖7所示。

模型采用DBN提取數據特征、實現降維,降低了特征冗余。設計了基于PCA、隨機森林(random forest,RF)降維方法的入侵對比實驗。結果表明基于RF降維方法的檢測效果較平穩,但整體準確率比DBN低;基于PCA降維方法的檢測效果在本模型中表現并不好?;诓煌稻S方法的分類準確率如圖8所示。

圖8 基于不同降維方法的分類準確率

4.2 訓練時間

為了驗證模型檢測的實時性,設計了IDII-DBN、SFID、DBN這3種算法在信息不完備下的訓練時間對比實驗,IDII-DBN、SFID、DBN在不同特征量下的訓練時間對比如圖9所示。

圖9 不同特征量的訓練時間

結果表明,基于SFID的檢測時間在特征量少時較短,是由于數據量少時DBN的降維優勢無法充分的體現,但隨著數量的增多,IDII-DBN的優勢逐漸顯現。模型的檢測時間沒有隨著數據量的增加出現較大幅度的波動,體現了訓練時間的平穩性,相較之下DBN的整體運行時間略長。隨著特征量的變化,IDII-DBN、SFID、DBN這3種算法的運行時間也隨之變化,說明特征量對算法的運行時間存在影響。

5 結束語

傳統入侵檢測方法在信息不完備的情況下,往往基于復雜的神經網絡進行參數訓練,很難同時滿足準確率和實時性的雙重要求。本文提出面向不完備信息的網絡入侵檢測方法。首先,針對信息不完備,對原始數據集使用SMOTE進行采樣,實現數據特征穩定下的類別均衡化。其次,基于DBN對數據進行降維,實現原始數據特征的低維映射,獲取數據低維特征,以便輕量級檢測。最后,將降維后的數據送入SVM,建立逐級分類,精準捕捉入侵特征,實現高效的輕量級入侵檢測。實驗結果表明,IDII-DBN模型的檢測準確率較對比算法穩定,同時縮短了訓練時間。表明了該方法具有可推廣性,能夠滿足網絡入侵檢測實時性的需求。

猜你喜歡
分類特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 99精品在线视频观看| 又黄又湿又爽的视频| 精品色综合| 宅男噜噜噜66国产在线观看| 日日拍夜夜操| yjizz视频最新网站在线| 四虎永久免费地址在线网站| 67194亚洲无码| 日韩毛片在线播放| 无码一区二区三区视频在线播放| 午夜a级毛片| 全部毛片免费看| 欧美精品二区| 久久精品人人做人人爽电影蜜月| 国产第一页亚洲| 伊人久久大香线蕉成人综合网| 亚洲中文字幕久久精品无码一区| 成人午夜视频免费看欧美| 毛片免费网址| 色天天综合| 久夜色精品国产噜噜| 被公侵犯人妻少妇一区二区三区| 久久这里只有精品66| 91精品情国产情侣高潮对白蜜| 国产美女无遮挡免费视频网站 | 国产成人AV男人的天堂| 激情影院内射美女| 97在线视频免费观看| 手机成人午夜在线视频| 日韩精品一区二区三区swag| 国产呦精品一区二区三区网站| 幺女国产一级毛片| 国产美女91呻吟求| 亚洲天堂视频在线观看| 日韩AV无码一区| 99在线免费播放| 亚洲精品成人福利在线电影| 在线国产91| 国产成人精品午夜视频'| 亚洲欧美另类视频| 国产91丝袜| 国产不卡国语在线| 国内精品久久人妻无码大片高| 91精品视频在线播放| 91在线激情在线观看| 在线看片免费人成视久网下载| 一本久道久综合久久鬼色| 亚洲伊人电影| 欧美一区二区人人喊爽| 美女一级毛片无遮挡内谢| 欧美亚洲日韩不卡在线在线观看| 91年精品国产福利线观看久久| 青青操视频在线| 国产精品美女免费视频大全 | 99精品伊人久久久大香线蕉| 日本一区二区不卡视频| 波多野吉衣一区二区三区av| 国产高颜值露脸在线观看| 欧洲亚洲欧美国产日本高清| vvvv98国产成人综合青青| 精品少妇人妻一区二区| 91精品伊人久久大香线蕉| 福利在线不卡| 欧美一区精品| 国产毛片高清一级国语| 国模视频一区二区| 国产午夜看片| 97亚洲色综久久精品| 91精品国产自产91精品资源| 国产99精品久久| 99久久国产综合精品2023| 国产成人亚洲精品无码电影| 亚洲女同一区二区| 日本在线欧美在线| 日本精品视频一区二区| 亚洲精品黄| 亚洲AⅤ无码国产精品| 精品日韩亚洲欧美高清a| 久久亚洲欧美综合| 全部无卡免费的毛片在线看| 精品天海翼一区二区| 亚洲午夜福利在线|