999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林和深度自編碼高斯混合模型的無監督入侵檢測方法

2020-09-10 06:50:48胡寧方蘭婷秦中元
網絡空間安全 2020年8期
關鍵詞:深度特征實驗

胡寧,方蘭婷,3,秦中元

〔1.東南大學網絡空間安全學院,江蘇南京 211189;2.網絡空間國際治理研究基地(東南大學),江蘇南京211189;3.網絡通信與安全紫金山實驗室,江蘇南京 211111〕

1 引言

近年來,網絡安全問題更加突出,網絡上新的攻擊手段層出不窮,這些攻擊手段比先前的攻擊手段更加隱蔽、更加智能、更難以發現。入侵檢測被視為信息安全的“第一道防線”因機器學習技術迅速發展面臨更大的威脅。許多研究人員使用機器學習算法進行入侵檢測,獲得了較好的結果。

有監督學習方式的網絡異常檢測,可以很好的識別攻擊行為。然而,其具有兩個弊端。第一,有監督學習過于依賴標簽,需要在大量的有標記數據的基礎上進行,即需要大量的人工操作和資金投入。第二,有監督學習只能學習已有的攻擊類型,對于新的攻擊手段,有監督方式無法檢測[1]。入侵檢測研究需要大量數據,隨著時間推進,數據量增長速度快,無法及時給新增數據打上正確標簽。有監督學習依賴標簽,而無監督方法可以憑借沒有標簽的數據學習正常數據特征,并根據數據特性獲得劃分異常的方法。因此,無監督方法具有很好的應用前景。

針對上述問題,Bo Zong[2]提出深度自編碼高斯混合模型DAGMM進行無監督網絡異常檢測。然而,該方法訓練集為異常數據,真實網絡環境理應通過訓練正常數據學習數據特征,異常數據計算后將偏離正常數據。一方面獲取用于異常檢測的閾值;另一方面,模型訓練過程只需要正常數據,無需學習已有攻擊,對新的攻擊手段具有一定檢測能力。此外,真實網絡環境中數據維度高、數據量大,本文提出了一種基于隨機森林和深度自編碼高斯混合模型的無監督入侵檢測方法RF-DAGMM。首先,通過隨機森林算法進行特征選擇,選擇最優特征組合。然后將隨機森林特征選擇方法與深度自編碼高斯混合模型結合,進行網絡異常檢測。

本文具體貢獻有三點:

(1)將異常檢測方法應用于網絡入侵檢測,訓練集只需要正常數據,解決了人工標記困難、無法檢測新型攻擊的問題;

(2)針對數據維數過高、無關特征對檢測結果產生干擾的問題,提出了一種基于隨機森林的特征重要度特征選擇方法;

(3)將隨機森林特征選擇方法與深度自編碼高斯混合模型結合RF-DAGMM,將對結果重要的特征輸入DAGMM模型,用于網絡異常檢測。提出的RF-DAGMM模型可以縮短訓練時長,并且在精確率、召回率、F1值多個指標獲得優于DAGMM的結果。

2 相關工作

網絡攻擊可以引發網絡流量特征的顯著變化,由此,Moustafa[3]等和Khammassi[4]等提出了基于統計或行為特征的流量異常檢測方法,但存在兩個問題:一是需要人工設計準確反映流量特性的特征集;二是攻擊者利用對抗機器學習思想針對性改變攻擊流量特征來消除數據分組的時空分布特性,就可以逃避防火墻和安全軟件的檢測。

有監督學習只能針對常見、危害性較大的攻擊方法學習,無法學到網絡中所有攻擊手段。而無監督學習可以從無標簽數據中總結規律。現有的無監督異常檢測方法可以分為三種:基于重構的方法、One-Class分類、聚類分析。基于重構的方法主要基于正常數據經壓縮重建后的重構誤差不同,但是大量異常樣本可能以正常水平潛伏;One-Class方法在數據維數增加時會受到次優性能的困擾;聚類分析很難直接用于多維數據。

本文將DAGMM模型應用于網絡入侵檢測,使用正常數據作為訓練集,并在該方法基礎上針對數據維數過高、無關特征對結果產生干擾問題進行改進,提出了一種基于隨機森林和深度自編碼高斯混合模型的無監督入侵檢測方法RFDAGMM,該方法注重對結果重要的特征,消除無關特征對檢測結果的影響。基于多個數據集的實驗結果表明,該方法檢測結果優于DAGMM,同時減少訓練時長和計算成本。

3 RF-DAGMM方法

RF-DAGMM模型由三部分組成:特征選擇網絡、深度自編碼網絡和高斯混合模型。該模型原理如圖1,特征選擇網絡選擇對結果重要的最優特征組合,進行冗余特征的刪除;深度自編碼網絡將數據的重構誤差及壓縮編碼作為數據的低維表示;高斯混合模型通過訓練輸出樣本能量用于異常判別。

圖1 RF-DAGMM模型圖

3.1 特征選擇網絡

分類高維數據時特征空間大,數據容易過擬合,特征選擇可以減少數據維度,降低分類器復雜度,使之更關注提供重要信息的特征。特征選擇網絡通過隨機森林(Random Forest,RF)算法選擇對結果重要的最優特征組合。一方面消除無關特征對結果的干擾,另一方面節省模型訓練時長和計算成本。

因此,本文提出一種特征選擇網絡,以特征重要度為標準,選擇對結果重要的最優特征組合。由于隨機森林算法具有隨機性,進行S次特征選擇,每次選擇M個特征,并取S次特征選擇的交集作為最終集合。

3.2 深度自編碼網絡

深度自編碼網絡完成數據的降維操作,得到高維數據的低維表示,其輸出包含兩部分:通過編碼器學習到的數據的壓縮表示、深度自編碼器的重構誤差。

3.3 高斯混合模型

訓練過程:給定N個樣本,該模型損失函數為:

判別方法:異常檢測的判別閾值T根據數據的樣本能量及異常數據比例c決定。具體而言,對N條數據通過RF-DAGMM模型求取樣本能量,并對所有數據的樣本能量值升序排列,閾值T的取值為所有樣本能量中第(1-c)N處的樣本能量值。在異常檢測中,將樣本能量大于閾值T的樣本判斷為異常,反之為正常。

4 實驗分析

本節基于KDD99數據集、UNSW-NB15數據集、CICIDS2017數據集進行實驗,并介紹預處理過程及實驗結果的對比與分析。

4.1 數據預處理

(1)刪除無關信息

由于原始數據集包含網絡中源主機和目標主機的IP地址、端口號、時間戳,刪除這些信息以提供無偏檢測非常重要,使用這些信息可能會導致對信息的過度訓練[6]。

(2)數據集重組

在網絡安全中,旨在通過訓練正常數據,實現異常數據的檢測,即希望異常數據占比較小,KDD99數據集中攻擊數據占比較高,不符合無監督入侵檢測的要求,因此對其進行數據重組,數據信息如表1所示。

表1 KDD99重組數據

(3)符號特征one-hot編碼

由于深度自動編碼器的輸入應為數字,而數據集中個別特征為符號特征,因此需要對符號特征進行編碼處理。同時,因特征取值之間為并列關系,并無前后關聯關系,因此對符號特征進行one-hot編碼。由于數據進行重組后,攻擊數據減少,one-hot編碼過程中可能出現所有數據在某個特征下的取值均相同,因此刪除冗余特征。

對于KDD99數據集,符號特征為service、flag、protocol_type,one-hot編碼后總特征維數為119(包含標簽)。對于UNSW-NB15數據集,符號特征為proto、service、state,進行onehot編碼后總特征數為197(包含標簽)。對于CICIDS2017數據集,去除無關信息后只有數字特征,因此不需要one-hot編碼。

(4)數字特征歸一化處理

為了消除指標之間的量綱影響,解決數據指標之間的可比性,在數據預處理階段對數據進行標準化處理,處理后各個特征指標將處于同一數量級。因此,標準化處理后的數據比較適合綜合對比評價。其中,最典型的標準化處理方式就是數據的歸一化處理。對數據中剩余特征向量進行歸一化處理,采用最大最小歸一化方法,其公式為:

4.2 RF-DAGMM實驗對比

本節分別基于KDD99、UNSW-NB15、CICIDS2017數據集進行實驗,三個數據集的實驗中深度自編碼網絡中的編碼器結構為每層節點數分別為90-45-20-10-1、102-50-25-10-1、46-23-10-1的全連接層,解碼器結構與編碼器對稱,網絡中的激活函數為tanh。

基于上述實驗分別進行20次測試,并取平均值作為結果,同時選擇DAE、DSEBM-r、DSEBM-e[7]方法作為對比實驗。DAE為深度自動編碼器,使用重構誤差作為異常檢測標準;DSEBM-e是基于深度結構化能量模型,利用樣本能量作為檢測異常的標準;DSEBM-r與DSEBM-e共享同樣的技術,以重構誤差作為異常檢測,具體實驗結果如表2所示(最佳結果已加粗)。

表2中結果表明,在基于KDD99、UNSWNB15、CICIDS2017三個數據集的實驗中,RFDAGMM在準確率、精確率、召回率、F1值多個指標上,均取得優于DAGMM的結果,并且RFDAGMM訓練時長更短。

在與其他模型的實驗結果對比中,基于KDD99數據集的實驗中,RF-DAGMM模型在召回率、F1值上取得最優結果,準確率為次優結果。基于UNSW-NB15數據集的實驗,RFDAGMM在準確率、召回率、F1值上均取得最優結果,精確率為次優結果。基于CICIDS2017數據集的實驗中,RF-DAGMM在多個指標上均取得最優結果。綜上,考慮多個指標,RF-DAGMM為上述模型中的最優方案。

5 結束語

本文提出一種基于隨機森林和深度自編碼高斯混合模型的無監督入侵檢測方法RF-DAGMM。該模型主要有三部分組成:特征選擇網絡、深度自編碼網絡、高斯混合模型。特征選擇網絡利用隨機森林方法實現維數約簡,更加注重對實驗結果較為重要的特征,消除無關特征對檢測結果的干擾,對實驗結果的提升、訓練時長的減少起到了關鍵性作用。基于KDD99、UNSWNB15、CICIDS2017數據集的實驗結果表明,RFDAGMM模型多個指標上的結果均優于DAGMM模型,同時節省了訓練時長。與其他方法相比,RF-DAGMM亦為其中最優方案,為多維數據無監督網絡入侵檢測提供了新的研究方向。

猜你喜歡
深度特征實驗
記一次有趣的實驗
深度理解一元一次方程
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 日韩av资源在线| 亚洲AV成人一区二区三区AV| 99一级毛片| 国产福利免费在线观看| 亚州AV秘 一区二区三区| 国产毛片一区| 国产精品3p视频| 1769国产精品免费视频| 国产九九精品视频| 国内毛片视频| 九月婷婷亚洲综合在线| 欧美天堂在线| 午夜啪啪网| 亚洲Va中文字幕久久一区 | 亚洲a免费| 成人一区在线| 91外围女在线观看| 亚洲国产高清精品线久久| 国产视频入口| 日韩欧美亚洲国产成人综合| 国产三级视频网站| 国产亚洲精品在天天在线麻豆 | 伊人无码视屏| 91亚洲精选| 国产午夜在线观看视频| 久久婷婷国产综合尤物精品| 国产精品真实对白精彩久久| 亚洲欧美日本国产综合在线 | 九色91在线视频| 欧美人在线一区二区三区| 国产日韩久久久久无码精品| 婷婷六月综合网| 国产精品网拍在线| 欧美精品二区| 蜜臀AV在线播放| а∨天堂一区中文字幕| 久久综合九九亚洲一区| 91欧美在线| 色哟哟国产成人精品| 干中文字幕| 国产二级毛片| 欧美成人精品在线| 国产va免费精品| 欧美在线中文字幕| 国产va在线观看免费| 亚洲高清国产拍精品26u| AV无码一区二区三区四区| 国产亚洲美日韩AV中文字幕无码成人 | 免费高清毛片| 日韩高清成人| 国产成a人片在线播放| 四虎国产永久在线观看| 国产欧美日韩综合在线第一| 理论片一区| 国产情侣一区| 国产精品午夜福利麻豆| 18禁色诱爆乳网站| 欧美一级专区免费大片| 亚洲视频免费在线| 亚洲三级色| 亚洲综合网在线观看| 国产aaaaa一级毛片| 日韩天堂网| 日韩第九页| 亚洲精品无码抽插日韩| 亚洲国产清纯| 日本精品一在线观看视频| 亚洲色图另类| 无码福利视频| 99视频精品在线观看| 在线观看精品自拍视频| 日韩黄色精品| 一级毛片视频免费| 国产成人永久免费视频| 国产亚洲成AⅤ人片在线观看| 日本欧美视频在线观看| 亚洲天堂网站在线| 国产精品免费露脸视频| 伊人福利视频| 国产成人综合日韩精品无码不卡| 国产成人综合久久| 成人欧美日韩|