999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的網絡入侵檢測研究綜述

2021-07-23 07:53:24肖建平龍春趙靜魏金俠胡安磊杜冠瑤
數據與計算發展前沿 2021年3期
關鍵詞:分類深度特征

肖建平,龍春*,趙靜,魏金俠,胡安磊,杜冠瑤

1.中國科學院計算機網絡信息中心,北京 100190

2.中國科學院大學,計算機科學與技術學院,北京 101408

3.中國互聯網絡信息中心,北京 100190

引 言

隨著信息技術的發展,互聯網已在多個領域發揮著重要的作用。與此同時,網絡空間面臨的安全威脅也在急劇增加,根據CNCERT發布的《2020 年上半年我國互聯網網絡安全監測數據分析報告》:(1)在惡意程序方面,我國有超過300萬臺主機感染了計算機惡意程序,同比增長25.7%,這些惡意程序造成了僵尸網絡的泛濫,此外,移動互聯網惡意程序的數量也大幅增加。(2)在安全漏洞方面,2020年上半年國家信息安全漏洞共享平臺(CNVD)共發現通用安全漏洞 11073個,同比增長89.0%。(3)在拒絕服務攻擊方面,分布式拒絕服務攻擊(DDoS)依然是最常見的網絡安全威脅之一,大流量DDoS攻擊事件對互聯網用戶造成了較大的影響。(4)在網站安全方面,主要存在網頁仿冒、網站后門和網頁篡改等問題,其中我國境內約3.59萬個網站被植入后門,數量較2019年上半年增長 36.9%。(5)在云平臺安全方面,云平臺上網絡安全威脅形勢依然很嚴峻,我國主要云平臺上發生了較多的各類網絡安全事件。(6)在工業控制系統安全方面,暴露在互聯網上的工業設備達 4630 臺,這些系統一旦被攻擊,將嚴重威脅生產系統的安全,我國有大量關鍵信息基礎設施及其聯網控制系統的網絡資產信息被境外嗅探,這無疑會帶來安全隱患[1]。隨著互聯網的發展,新型攻擊層出不窮,互聯網面臨的安全形勢不樂觀,因此,網絡安全正逐漸成為人們關注的焦點,必須采取有效的措施來防護這些攻擊行為。

入侵檢測系統(Intrusion Detection System, IDS)起源于Anderson等人[2]在1980年提出的用來處理用戶審計數據的“計算機安全威脅監測和監視系統”。基于同樣的原則,Denning[3]提出使用由審計數據生成的用戶特征來識別入侵,即從審計記錄中獲取主體相對于客體的行為的知識和檢測異常行為的規則。這些開創性的工作定義了入侵檢測的相關概念,IDS作為一種網絡安全防護技術,能充分利用軟件和硬件,通過對網絡或系統進行監控,以感知惡意活動并及時發出警報,為管理人員提供響應決策,從而確保網絡資源的機密性、完整性和可用性。

入侵檢測技術已在網絡安全防護的任務中發揮了重要作用,隨著機器學習的發展,已有很多研究工作將相關技術用于入侵檢測。但是,隨著攻擊行為的不斷升級和網絡數據量的快速增長,再加上近年來內部威脅、零日漏洞、加密攻擊等行為的出現,基于傳統機器學習方法的IDS已經難以應對這些新挑戰。深度學習是機器學習的一種,可以學習樣本數據的內在規律,在特征提取和模型建立方面效率更高,非常適合用于當前的網絡攻擊檢測。

本文通過對入侵檢測的相關工作進行梳理,首先簡要介紹了利用機器學習方法進行入侵檢測的最新研究,然后詳細論述了基于深度學習的入侵檢測技術,最后對存在的問題和未來發展方向進行了探討。

本文的內容安排如下:第1節給出入侵檢測系統的分類;第2節介紹了入侵檢測數據集和評估方法;第3節簡要分析了基于傳統機器學習的入侵檢測方法;第4節總結基于深度學習的入侵檢測技術;第5節對入侵檢測系統未來的研究方向進行討論;第6節總結全文。

1 入侵檢測系統的分類

通常可根據數據來源和檢測技術對入侵檢測進行分類,具體分類框架如圖1所示。

圖1 入侵檢測系統的分類框架Fig.1 Classification framework of intrusion detection system

1.1 基于數據來源的分類

根據所檢測數據來源的不同,可以將入侵檢測分為基于主機的入侵檢測和基于網絡的入侵檢測。

基于主機(Host)的入侵檢測(HIDS)[4]從其監視的主機收集輸入數據,HIDS一般使用日志文件作為其主要信息來源,通過對日志文件進行解碼、分析來有效識別各種入侵。HIDS的優點是性價比較高,誤報率比較低,缺點是只能監視主機上的特定程序,且需要安裝到每個主機上,檢測范圍有限。

基于網絡(Network)的入侵檢測(NIDS)[5]檢測網絡數據包,通過解析數據包的內容來判斷網絡中是否有攻擊行為。隨著互聯網的廣泛應用,IDS已將重點放在對網絡本身的攻擊上。NIDS的優點是可以通過一個系統對整個網絡進行監視,不需要在每臺主機上安裝軟件,缺點是其檢測范圍一般只限于傳輸中的非加密信息,很難實現需要較大計算量和較長分析時間的檢測。

1.2 基于檢測技術的分類

具體到所使用的檢測方法,入侵檢測領域主要有基于誤用的入侵檢測和基于異常的入侵檢測。

基于誤用(Misuse)的入侵檢測(MIDS)通過將網絡流量與已有的攻擊特征庫進行匹配,根據匹配情況判斷入侵行為。其前提是存在表示攻擊的方法,例如以模式或簽名的形式來表示。

基于異常(Anomaly)的入侵檢測(AIDS)通常情況下需要對系統中的正常活動進行記錄,確定這些活動的特征,并進行定量描述,當用戶行為偏離正常記錄時,就將這些行為活動定義為攻擊。基于異常的IDS可以檢測未知攻擊,因此目前是學者們研究的重點。

2 入侵檢測系統的數據集和評估方法

2.1 數據集

需要通過數據集對入侵檢測系統的性能進行評估,隨著IDS的發展,出現了許多優秀的數據集。目前基于網絡的入侵檢測數據集主要有DARPA 98、KDD 99、NSL-KDD、UNB ISCX2012、UNSWNB15和CICIDS2017等。

DARPA 98[6]由林肯實驗室(1998和1999)創建,用于網絡安全分析。它通過人工注入攻擊和正常流量,并因此受到了研究人員的廣泛批評,這些攻擊和正常流量造成了冗余,以及其他違規行為。

KDD 99[7]是在DARPA98數據集的基礎上,通過一個模擬的美國空軍局域網產生的,并加入了很多模擬的攻擊,它是到目前為止使用最多的數據集。其中的流量分為五類:正常、Probe、R2L、U2R和DoS攻擊,每條記錄都是一個包含41維特征和1個標簽的連接向量,NSL-KDD數據集[8]是KDD 99數據集的改進版本,是為了解決KDD 99數據集中存在的問題。NSL-KDD中刪除了KDD 99中訓練和測試集中的冗余記錄,共有39種攻擊類型,其中訓練數據中有22種,測試數據包含另外17種。

UNB ISCX2012數據集[9]是通過配置文件動態生成的數據集,包含七天的原始網絡數據流量,它不僅能反映當時的流量組成和入侵,還可以修改、擴展和重現。和KDD 99數據集相比,UNB ISCX2012數據集的攻擊類型更接近于真實攻擊。

為了解決KDD 99和NSL-KDD等數據集不能全面反映網絡流量和現代低占用空間攻擊的問題,Moustafa等人[10]創建了UNSW-NB15數據集。考慮到以往的數據集流量多樣性不足,覆蓋的攻擊種類不全面,匿名的數據包信息和有效載荷不能反映當前的趨勢或者缺乏特征集和元數據,加拿大網絡安全研究所為入侵檢測提供了許多相關的特定數據集,如CICIDS2017數據集[11]和CSE-CIC-IDS2018數據集,這兩種數據集中包含良性網絡流和七種常見攻擊網絡流,和真實網絡數據很接近。

2.2 評估方法

當前,入侵檢測系統的評估主要利用二分類算法的評估方法說明系統的性能,主要采用以下指標。

(1)TPR:真陽性率,在所有實際為惡意樣本的數據中,被正確地判斷為惡意樣本的比率,該指標越高越好;

(2)FPR:假陽性率,在所有實際為良性樣本的數據中,被錯誤地判斷為惡意樣本的比率,該指標越低越好;

(3)DR:檢測率,表示該方法在檢測惡意樣本的能力方面的性能,該指標越高越好;

(4)Precision:原本為惡意樣本的數據占預測為惡意樣本數據的比率,該指標越高越好;

(5)ACC:將實例正確地分為良性樣本和惡意樣本的比率;

(6)AUC:ROC 曲線下的面積即為AUC指標的值,ROC 曲線由TPR 和FPR 計算得到,該指標越高越好。

3 基于傳統機器學習的入侵檢測技術

傳統機器學習方法已經在基于異常的入侵檢測中得到廣泛應用。通常可以將機器學習分為監督學習、無監督學習和半監督學習,本節根據這個分類標準從三個方面進行介紹,最后進行了總結,并分析了基于傳統機器學習方法的入侵檢測存在的不足。

3.1 監督機器學習方法

(1)隱馬爾可夫模型

隱馬爾可夫模型(Hidden Markov Models,HMM)是關于時序的概率模型,它可以被應用于入侵檢測的序列相關問題。針對Web應用程序的安全,Ariu等人[12]將有效載荷表示為一個字節序列,并使用隱馬爾可夫模型(HMM)進行分析,經實驗評估,該方法對最常見的Web應用攻擊(如XSS和SQL注入)特別有效,但該方法沒有考慮有效載荷的長度,有進一步提高總體準確性的空間。Xiao等人[13]將HMM應用于基于異常流量的網絡入侵檢測,將基于主成分分析方法(PCA)提取到的流量特征作為HMM的輸入值,根據輸出的概率來判斷流量的類型。針對車載自組網中的入侵檢測系統檢測開銷大、檢測時間長的問題,Liang等人[14]提出了一種基于HMM的過濾模型用于入侵檢測系統,該方法將自組網中每輛車的狀態模式建模為HMM,以實現快速過濾來自車輛的消息,實驗表明,該入侵檢測系統在檢測率、檢測時間和檢測開銷方面都有較好的性能。

(2)K近鄰算法

K近鄰算法(K-Nearest Neighbor, KNN)精度高、理論成熟,能夠解決入侵檢測中的多分類問題。隨著網絡數據特征維度的增加,K近鄰算法的分類性能會顯著降低,為解決這個問題,Chen等人[15]利用樹種子算法(TSA)對原始數據進行處理,在提取到有效特征后,使用KNN進行分類,實驗結果表明這種組合模型能夠有效地去除冗余特征,提高網絡入侵檢測的準確性和效率。PKNN是經典KNN的改進版本,適合解決多標簽分類問題,它優先考慮樣本和待分類輸入項更接近的類,Saleh等人[16]設計了一種能實時應用并適合于解決多分類問題的混合入侵檢測系統,首先通過一種樸素的基特征選擇(NBFS)技術降低樣本數據的維度,然后通過優化后的支持向量機(OSVM)來剔除離群點,最后利用PKNN來檢測攻擊,在KDD 99、NSL-KDD和Kyoto2006+數據集上的實驗結果表明,該系統能較快地檢測攻擊并能用于實時入侵檢測。

(3)支持向量機

支持向量機(Support Vector Machine, SVM)通常用于解決小樣本、非線性、高維度等問題,泛化能力強,在入侵檢測領域被廣泛應用。在數據采樣階段對數據進行降維,可以大大提高檢測效率,Chen等人[17]提出了一種基于壓縮采樣的SVM入侵檢測模型,利用壓縮感知理論中的壓縮采樣方法對網絡數據流進行特征壓縮,然后利用SVM對壓縮結果進行分類,所提方法大大減少了訓練時間和檢測時間。戚等人[18]提出一種基于主成分分析的SVM攻擊檢測方法,通過主成分分析法對原始數據集進行降維,得到能提升分類效果的主成分屬性集,然后利用該屬性集訓練SVM分類器,在KDD 99數據集上的實驗表明,該方法大大縮短了檢測時間,提高了檢測效率。Wang等人[19]為改善特征的質量,通過對數邊際密度比(logarithms of the marginal density ratios, LMDRT)方法對原始特征進行處理,然后構建基于SVM的IDS,在NSL-KDD數據集上的實驗結果表明該方法在準確率、檢測率、誤報率和訓練速度等方面有更好的性能和更強的穩健性。

3.2 無監督機器學習方法

無監督學習主要處理先驗知識缺乏、難以人工標注類別或通過人工標注成本太高這些場景下的問題,在入侵檢測領域,無監督學習技術不需要對數據進行類別標注,能直接對網絡數據進行分類,此外,用于降維的無監督方法可以有效解決數據集的冗余和不相關問題,降低計算開銷。常用的無監督機器學習方法有:k-means、高斯混合模型和主成分分析法。

(1)k-means

k-means是經典的無監督聚類(Unsupervised Clustering)算法,被廣泛應用于入侵檢測領域。k-means可通過與其他方法結合進一步提升性能,也有不少研究對傳統k-means進行改進。Aung等人[20]將k-means和分類回歸樹(CART)算法相結合來構建入侵檢測模型,研究混合方法的性能。Al-Yaseen等人[21]為減小分類器的訓練時間,提高分類器性能,提出了一種多層次的入侵檢測模型,首先通過改進k-means算法對原始訓練數據集進行優化,減少了分類器的訓練時間,然后使用支持向量機和極限學習機進行多層次分類,在KDD 99數據集上進行評估,該模型的ACC指標達到了95.75%。

(2)高斯混合模型

高斯混合模型(Gaussian Mixture Model,GMM)對特征的概率分布進行建模,因此可以識別網絡流量中的惡意數據樣本。當攻擊樣本和正常樣本的分布類似時,可以使用高斯混合模型在特征層面建模,對兩類樣本進行區分[22]。為了解決訓練數據不平衡、誤報率高以及無法檢測到未知攻擊等問題,Chapaneri等人[23]使用高斯混合模型方法來學習每個流量類別的統計特征,并使用基于四分位數間距的自適應閾值技術來識別異常值。在CICIDS2017數據集上的評估結果表明該方法能有效檢測出未知攻擊。

(3)主成分分析法

主成分分析(PCA)是一種常用的特征提取方法,可以對高維數據進行降維,縮短模型的訓練時間,因此被廣泛用在入侵檢測中。文獻[24]使用PCA和Fisher判別比(FDR)進行特征選擇和去噪,然后用概率自組織映射(Probabilistic Self-Organizing Maps,PSOM)對特征空間進行建模,能有效區分正常和異常連接。

3.3 半監督機器學習方法

隨著網絡數據流量的增大,僅依賴專家知識進行人工標記很難得到大量準確標記的數據,造成訓練數據集規模很有限,這使得模型無法準確檢測出攻擊。半監督機器學習方法將監督學習與無監督學習相結合,不過度依賴標簽數據,同時也充分利用已有數據的類別信息,因此被廣泛用于入侵檢測中。

現有未知攻擊檢測方法選取的特征不具有代表性,導致檢測精度較低,許等人[25]使用改進的k-means半監督學習算法,實現對歷史數據的自動標記,并獲得了大量準確標記的訓練數據,引入信息增益的概念并用信息增益率來選取更具有代表性的特征,以提高模型對未知攻擊的檢測性能,實驗結果表明,該方法對不同目標網絡中未知攻擊檢測的準確率均達到90%以上。針對網絡流量在不同類別間的嚴重不平衡,訓練集和測試集在特征空間中的分布不一致這兩個問題,Yao等人[26]提出了一種多層半監督入侵檢測模型框架,使用一種層次化的半監督k-means聚類算法來緩解類不平衡問題,通過一種區分測試集中已知和未知模式樣本的方法來解決分布不同的問題,實驗結果表明,該模型在總體準確率、F1-Score、未知模式識別能力等方面均優于現有的入侵檢測模型。

3.4 總結與討論

傳統機器學習方法在入侵檢測領域得到了廣泛應用,表1總結了利用傳統機器學習方法進行入侵檢測的部分工作,其中給出了所使用的技術、數據預處理方式、特征處理方法、評估數據集、任務類型和評價指標。

表1 基于傳統機器學習的入侵檢測Table 1 Intrusion detection based on traditional machine learning

通過對引用論文的分析,多數研究工作在解決目前入侵檢測面臨的問題時,會將多種機器學習算法混合使用,首先通過特征提取或特征選擇算法對原始數據進行處理,然后構建基于分類器的檢測模型。在分類器的選取方面,通常可以對基本模型進行改進,也可以利用集成學習的思想,集成不同的分類器來提升檢測性能。然而隨著攻擊行為的進一步多樣化和流量數據持續增加、維度進一步增大,正常樣本和攻擊樣本的嚴重不平衡,利用傳統機器學習方法進行入侵檢測也存在很多不足,主要體現在過度依賴人工提取特征,難以深入挖掘樣本數據的內在規律,特別是未能考慮網絡流量的時間、空間等特征,沒有分析數據在不同維度上的相關性,從而難以做到對潛在威脅的預測。因此,基于傳統機器學習方法的入侵檢測技術面臨著巨大的挑戰。

4 基于深度學習的入侵檢測技術

傳統機器學習方法是較為淺層的學習方法,隨著網絡中數據量的增加,數據維度的進一步增大,這類方法往往難以達到預期的效果。在這樣的背景下,深度學習(Deep Learning)應運而生[27],深度學習的理論和相關技術在機器學習的應用領域得到了迅速的發展。近年來,深度學習促進了人工智能技術及相關產業的蓬勃發展。深度學習方法可分為生成式無監督學習、判別式有監督學習和混合深度學習三大類[28]。基于深度學習的網絡入侵檢測系統的結構如圖2所示,深度學習模型主要用于特征處理和分類。根據深度學習的分類方法,本節將對基于深度學習的入侵檢測技術進行詳細介紹。

圖2 基于深度學習的NIDS結構Fig.2 The NIDS structure based on deep learning

4.1 生成式無監督方法

生成式方法以及由此產生的生成模型使用無標記數據,可用于模式分析或合成,也可以描述數據的聯合分布統計[28]。

(1)循環神經網絡(Recurrent Neural Network,RNN)

循環神經網絡[29]基于常規前饋神經網絡,RNN之所以被稱為遞歸,是因為它們對序列的每個元素執行相同的任務,其輸出取決于先前的計算,RNN可以利用數據的序列信息,提取時序特征,非常適合應用于與序列相關的入侵檢測問題。Suda等人[30]針對車載網絡的入侵檢測,提出了一種時間序列特征提取的入侵檢測算法,利用RNN實現有效提取數據包的時間序列特征。燕昺昊等人[31]提出了一種基于深度循環神經網絡(DRNN)和區域自適應合成過采樣算法(RA-SMOTE)的組合式入侵檢測模型,不僅提升了低頻攻擊的檢測率,同時依靠RNN的時序循環結構充分挖掘并利用了樣本之間的時序相關性,提升了模型刻畫數據的能力和檢測性能。

然而,在一些長時間依賴問題中,傳統的RNN因為自身結構的特點在訓練過程會出現問題,例如梯度消失、爆炸問題。為了解決這個問題,人們提出了長短期記憶(Long Short-Term Memory networks,LSTM)網絡和門控循環單元(Gated Recurrent Unit,GRU)[29]。長短期記憶網絡[32]對時間序列中間隔和延遲長的事件有較強的處理能力。由于使用單一的RNN層作為分類器難以在網絡攻擊檢測中獲得顯著的性能提升,為了進一步提高性能,Hou等人[33]構建了一種基于分層LSTM的IDS,該系統可以在復雜的網絡流量序列上跨越多個層次的時間層次進行學習,在NSL-KDD數據集上的實驗結果表明,該方法對各種網絡攻擊,特別是低頻網絡攻擊具有較好的檢測性能。針對物聯網網絡中的攻擊檢測,Roy等人[34]提出了一種使用雙向LSTM的入侵檢測方法,雙向LSTM能在訓練階段從數據集中學習更為詳細的特征,主要研究了在二分類中的性能,能達到較高的攻擊流量檢測準確率。門控循環單元是LSTM的一種變體,在保證性能的同時進一步簡化了結構,較少的參數也讓訓練更容易。Xu等人[35]針對時間相關入侵的特點,用GRU作為主要存儲單元,并與多層感知器(MLP)結合以識別網絡入侵,實驗結果表明該方法對于時序特征明顯的DOS和PROBING攻擊有較高的檢測率。

(2)自動編碼器(Auto-Encoder, AE)

自動編碼器[36]對高維數據進行特征提取,在訓練過程中通過盡可能讓輸出接近于輸入數據來確定最優的網絡結構,它具有強大的非線性泛化能力。自動編碼器主要用于數據的降維。

隨著入侵檢測系統需要處理的復雜數據的迅速增長,對大規模數據的處理成為入侵檢測系統面臨的挑戰之一,自動編碼器被廣泛地用于入侵檢測中的降維任務。Shone 等人[36]在自動編碼器的基礎上,在輸出端也使用了和編碼層類似的函數,并提出了堆疊非對稱深度自動編碼器(NDAE),之后使用NDAE進行特征提取,并選取了隨機森林作為分類器,與之前的研究工作相比,NDAE顯著提升了檢測性能。Li等人[37]提出了一種基于隨機森林算法的自動編碼器入侵檢測系統,使用淺層自動編碼器神經網絡,降低了計算復雜度,大大縮短了檢測時間,有效提高了預測精度。為改善檢測Web攻擊的精度,Vartouni等人[38]提出了一種基于稀疏自動編碼器的異常檢測方法,主要利用稀疏自動編碼器進行特征處理,與不進行特征提取的方法相比,該方法具有更高的精度。

深度自動編碼器(DAE)有著更多的隱藏層,通過對每一層進行預訓練可以增強模型的學習能力。Farahnakian等人[39]利用DAE構建了入侵檢測系統,為避免過擬合和局部最優,對模型采取逐層貪婪的方式進行訓練,在KDD 99上進行評估,該方法有較高的準確率、檢測率。為了提高對未知攻擊和低頻攻擊的檢測能力,Yang等人[40]構建了一種基于正則化對抗式變分自動編碼器的入侵檢測模型,在基準數據集上的評估結果表明,該模型表現出了良好的檢測性能。

(3)深度玻爾茲曼機(Deep Boltzmann Machine,DBM)

深度玻爾茲曼機是一種以受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)為基礎的深度學習模型,由多層RBM疊加而成。RBM能從原始數據中學習特征的深層次信息,因此在入侵檢測任務中被廣泛應用。隨著攻擊技術和方式的變化,以前獲得的有關如何區別正常流量的信息可能不再有效,因此需要一個自學習系統,以便可以動態地構造和發展有關異常行為的知識,Fiore等人[41]使用了判別受限玻爾茲曼機,該模型可以組合生成模型,捕獲正常流量的固有屬性并且分類準確性較高,通過將訓練數據與測試網絡場景分離,以評估神經網絡的泛化能力,實驗證實,當在與獲取訓練數據的網絡截然不同的網絡中測試分類器時,性能會受到影響。這表明需要對異常流量的性質以及與正常流量的內在差異做進一步調查。Aldwairi等人[42]嘗試使用受限玻爾茲曼機來區分正常和異常的NetFlow流量,在信息安全中心(ISCX)數據集上進行評估,結果表明RBM可以對正常和異常的NetFlow流量進行分類,但存在的不足是只對兩層RBM進行了研究。Elsaeidy等人[43]對多層RBM進行了研究,使用經過訓練的深度玻爾茲曼機模型從網絡流量中提取高層特征,然后結合前饋神經網絡(Feed-Forward Neural Network, FFNN)、隨機森林(Random Forest, RF)等模型利用提取到的特征來檢測不同類型的DDoS攻擊。

(4)深度信念網絡(Deep Belief Network, DBN)

深度信念網絡[44]是一種具有深層架構的神經網絡,它通過無監督算法對每一層受限玻爾茲曼機進行訓練,它是一個特征學習的過程,可以解決涉及高維數據的問題,已經被應用于入侵檢測領域。Gao等人[44]證明了深度信念網絡方法可以成功地應用于入侵檢測領域,在KDD 99數據集上對DBN模型進行評估,實驗結果DBN模型的性能優于SVM和人工神經網絡(ANN)。為適應不同的攻擊類型并降低神經網絡結構的復雜度,Zhang等人[45]將改進的遺傳算法與深度信念網絡相結合,遺傳算法進行多次迭代來產生最優的網絡結構,然后構建最優的網絡結構的DBN作為入侵檢測模型對攻擊進行分類。面對不同類型的攻擊,該方法解決了在使用深度學習方法進行入侵檢測時如何選擇合適的神經網絡結構的問題,從而提高了模型的分類精度和泛化能力,降低了網絡結構的復雜性,在性能方面,針對具體攻擊類型生成特定的網絡結構,其分類精度高于其他網絡結構,可以達到99%以上的檢測率。

4.2 判別式有監督方法

判別式有監督方法以及由此產生的判別方法旨在通過表征以可見數據為條件的類的后驗分布來直接提供用于模式分類的判別能力,可區分部分帶標記數據的模式分類數據[28]。

卷積神經網絡(Convolutional Neural Networks,CNN)是典型的判別式有監督方法[28],它由輸入層、卷積層、池化層、完全連接層和輸出層組成,具有準確且高效地提取特征的能力,不同結構的CNN具有不同數量的卷積層和池化層[46]。在入侵檢測領域應用CNN時,主要是通過將流量分類問題轉換為圖片分類問題,即首先要將流量數據進行圖片化,然后得到灰度圖,利用CNN還可以提取網絡流量的空間特征。

Xiao等人[46]應用數據預處理方法來消除網絡流量數據中的冗余和不相關特征,然后將流量轉換為二維矩陣形式,再使用CNN提取特征, 這種方法解決了傳統機器學習模型無法確定數據特征之間關系的問題。Naseer等人[47]使用CNN、AE和RNN等深度神經網絡,來構建入侵檢測系統,在NSL-KDD上進行訓練和測試,CNN和LSTM模型都表現出了優異性能。Wu等人[48]利用CNN從原始數據集中自動提取流量特征,并根據其個數設定每類的成本函數權重系數,來解決數據集不平衡的問題。Blanco等人[49]使用遺傳算法(Genetic Algorithm,GA)優化CNN分類器,以找到輸入特征的更好布局,能改善多分類器的性能。

4.3 混合式方法

混合式深度網絡方法結合了生成式無監督方法和判別式有監督方法[28,50],主要有深度神經網絡(Deep Neural Network,DNN)和生成對抗網絡(Generative Adversarial Networks,GAN)[51]。DNN是一種具有多個隱含層的多層感知器,是一種混合結構,其權值是完全連通的。GAN是一種混合深層架構,包含兩個神經網絡,即生成器和判別器。根據提供的輸入樣本,生成器嘗試根據理想的數據分布生成偽造的數據,這些數據會和原始數據一起輸入到判別器中,判別器會學習區別原始數據和由生成器構造的樣本,并反饋到生成器,這個學習過程被稱為生成器和判別器之間的博弈。通常情況下,網絡中的異常流量遠少于正常流量,GAN能生成新數據,因此能用來解決入侵檢測中數據類別不平衡的問題。Salem等人[52]首先將數據轉換成圖像,然后利用Cycle-GAN生成新的數據,最后將生成的數據融入原始數據集中,之后將這些數據用于訓練模型,并檢測異常,實驗結果表明,分類結果得到了改善,AUC從0.55上升到0.71,異常檢測率從17.07%上升到80.49%。與SMOTE方法相比,分類結果得到顯著改善,展現了GAN強大的異常數據生成能力。

基于機器學習的IDS在面對對抗性攻擊時健壯性容易受到影響,為了解決這一問題,Lin等人[53]提出了一種基于GAN的入侵檢測框架(IDSGAN),IDSGAN利用生成器將原始惡意流量轉換為對抗性惡意流量,然后判別器對流量樣本進行分類,并模擬黑匣子檢測系統。實驗中僅對攻擊流量的部分非功能性特征進行了修改,從而保證了入侵的有效性。Usama等人[54]提出了一種使用GAN的對抗式機器學習攻擊,該攻擊可以成功規避基于機器學習的IDS,實驗結果表明,基于GAN的防御提高了IDS面對對抗性擾動的魯棒性。

4.4 總結與討論

隨著深度學習技術的應用,入侵檢測系統進入了一個新的發展階段。深度學習可以用于入侵檢測的特征處理過程和分類過程。面對海量高維度網絡流量數據,和傳統機器學習方法相比,深度學習方法具有更高的效率和檢測準確率。表2對部分基于深度學習的入侵檢測工作進行了總結,不涉及不同方法間的比較。

表2 基于深度學習的入侵檢測Table 2 Intrusion detection based on deep learning

盡管深度學習方法相比于傳統機器學習具有優勢,但深度學習技術仍然沒有在商用入侵檢測系統中大規模應用。目前比較有代表性的應用產品有騰訊的T-Sec主機安全和東軟NetEye入侵檢測系統(IDS)。T-Sec主機安全(Cloud Workload Protection,CWP)基于騰訊安全積累的海量威脅數據,利用機器學習和深度學習為用戶提供資產管理、木馬文件查殺、黑客入侵檢測、漏洞風險預警等安全防護服務,可以對網絡數據進行多維度分析。基于深度學習的入侵檢測系統仍面臨一些挑戰:(1)訓練耗時較長。深度學習模型通常都具有很多隱藏層,為保證模型的效果需要逐層訓練,這導致訓練速度較慢,所要求的計算量大,通過需要GPU并行來完成大規模的計算任務;(2)模型網絡結構的選擇及優化。深度神經網絡的結構對最終的分類結果有很大的影響,因此針對不同的檢測任務,需要確定最優的網絡結構;(3)實時檢測問題。實時檢測是IDS所追求的目標之一,然而網絡中海量高維度數據的不斷增加,給基于深度學習的入侵檢測技術帶來一定的挑戰;(4)數據不平衡問題。網絡中異常流量遠少于正常流量,這導致訓練出的模型具有明顯的偏向性,在多數情況下會偏向于正常流量,從而嚴重影響檢測準確率。

有學者嘗試將新的深度學習方法應用于入侵檢測。Javaid等人[55]基于自學習(Self-taught Learning)方法構建入侵檢測系統,自學習是一種深度學習方法,分為兩個階段。首先,從大量的未標記數據中學習一個好的特征表示,稱為無監督特征學習。在第二階段,將學習到的表示應用于標記數據,并用于分類任務。可以將不同的方法用于無監督特征學習階段。Cordero等人[56]使用復制神經網絡(Replicator Neural Networks)檢測大規模網絡攻擊,復制神經網絡經過訓練,可以將給定的輸入復制為輸出。在熵提取的過程中,首先將包聚合,然后將流分割成時間窗口,最后從流中選擇特定的特征。未來深度學習理論的突破不僅會緩解當前方法面臨的問題,還會在其他方面產生影響:(1)減少訓練時長和計算量,以更低的開銷將深度學習應用于工業界的產品和系統中;(2)模型參數的確定更便捷,可以學習不同任務的參數優化過程;(3)能高效處理海量高維度數據,實現實時檢測;(4)在一些任務中,未標記數據和標記數據可能來自不同的分布,挖掘它們之間的相關性有助于了解數據的內在屬性、特征之間的關系。

5 總結與展望

隨著互聯網的發展,網絡攻擊也會不斷變化、不斷增加。入侵檢測作為一種保障網絡安全的重要手段,將會發揮著關鍵作用。通過對所調研文獻的分析總結,本文對入侵檢測系統未來的研究方向進行如下討論:

(1)入侵檢測的數據。目前廣泛使用的數據集主要是KDD 99、NSL-KDD等,但這些數據集的產生時間較為久遠,很多數據與真實網絡數據不符合,用這些數據集評估入侵檢測模型得到的結果不具有代表性。因此,在未來的研究中,應隨著網絡環境的發展變化,生成較新的數據集,這樣才能更好地評估入侵檢測模型。

(2)未來入侵檢測仍面臨的問題也正如上一節中深度學習方法面臨的挑戰一樣,主要是高維數據的處理、實時檢測、數據不平衡等問題,這些是未來研究中面臨的難點問題。

(3)在檢測技術方面,相比傳統機器學習方法,深度學習方法有著更好的效果,因此,未來在入侵檢測領域,深度學習會有更廣泛的應用。然而,深度學習方法通常依賴于各自領域的訓練樣本來建立該領域的分類模型,面對復雜多變的網絡攻擊,入侵檢測系統也應該自主進化,不斷提升自身的適應能力。近年來,遷移學習在多個領域得到了廣泛應用。對于一個特定領域,遷移學習是基于對其他領域的訓練樣本的研究,并提取用于該領域學習的相關知識。深度遷移學習更像人類學習,它可以用自動化模塊代替參數系統和模型生成方法[57]。遷移學習可以實現不同域或多個任務之間的學習,具體到入侵檢測中,面對不同的網絡攻擊,根據知識遷移對象的不同,可以使用樣本遷移算法、特征表示遷移算法、參數遷移算法和相關知識遷移算法。在實體與動態環境的交互過程中,強化學習通過對策略的學習,可以達到回報最大化。有研究利用分布式強化學習技術檢測新的和復雜的分布式攻擊,但精準率波動較大,有待提升[58]。因此,將深度遷移學習、強化學習用于入侵檢測領域具有研究意義。

6 結束語

深度學習方法在入侵檢測領域受到了廣泛的關注,本文對最新的研究進展進行了總結,介紹了入侵檢測的基本概念、數據集和評估方法,然后簡要介紹了基于傳統機器學習方法的入侵檢測系統,最后重點闡述了基于深度學習的入侵檢測技術。本文旨在對入侵檢測相關研究提供框架和總結,分析深度學習方法相比傳統機器學習方法在入侵檢測中的優勢,以及未來有待解決的問題,從而為以后開展研究工作帶來幫助。

利益沖突聲明

所有作者聲明不存在利益沖突關系。

猜你喜歡
分類深度特征
分類算一算
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 四虎永久免费地址| 欧美一区二区啪啪| 亚洲成a∧人片在线观看无码| 久久夜色精品国产嚕嚕亚洲av| 久久精品国产在热久久2019| 欧美日韩亚洲国产| 免费看a级毛片| 国产微拍一区| 亚洲欧美极品| 在线看片免费人成视久网下载 | 久久综合亚洲色一区二区三区| 欧美国产日韩在线观看| 国产一级毛片网站| 67194在线午夜亚洲| 亚欧成人无码AV在线播放| 一级福利视频| 精品在线免费播放| 国产91精品久久| 狠狠色成人综合首页| 日本午夜网站| 国产波多野结衣中文在线播放| 免费观看国产小粉嫩喷水| 欧洲高清无码在线| 亚洲欧美在线综合图区| 国产成人精品在线1区| 亚洲中文无码av永久伊人| 老色鬼久久亚洲AV综合| 色综合天天视频在线观看| 久久99国产精品成人欧美| 国产成人亚洲精品无码电影| 欧美成人A视频| 丁香六月激情婷婷| 高潮爽到爆的喷水女主播视频| 亚洲va欧美va国产综合下载| 亚洲欧美国产五月天综合| 99久久国产精品无码| 福利国产微拍广场一区视频在线 | 伊人久久大香线蕉影院| 国产在线精品人成导航| 欧美精品啪啪一区二区三区| av午夜福利一片免费看| 日韩一级毛一欧美一国产| 97se亚洲综合| 国产一区二区三区免费观看| 国产va免费精品观看| 欧美一区二区精品久久久| 欧美亚洲一区二区三区导航| 国产中文在线亚洲精品官网| 夜夜高潮夜夜爽国产伦精品| 99热国产这里只有精品9九| 特级做a爰片毛片免费69| 成人欧美在线观看| 国产麻豆va精品视频| 亚洲二三区| 免费啪啪网址| 99久久精品免费看国产电影| 伊人中文网| 欧美日韩精品一区二区在线线| 亚洲中文字幕av无码区| 九色91在线视频| 成人小视频在线观看免费| 91成人在线免费视频| 国产婬乱a一级毛片多女| 国产微拍一区二区三区四区| yjizz视频最新网站在线| 亚洲黄色视频在线观看一区| WWW丫丫国产成人精品| 国产成人精品一区二区免费看京| 国产精品无码作爱| h视频在线播放| 久久国产热| 亚洲精品视频在线观看视频| 欧美高清三区| 国产欧美精品一区二区| 国产理论最新国产精品视频| 人人澡人人爽欧美一区| 国产女人18毛片水真多1| 一本一道波多野结衣一区二区 | 亚洲性视频网站| 欧美黄色a| 亚洲系列无码专区偷窥无码| 青草精品视频|