999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DL和TSVM的入侵檢測方法研究

2020-12-14 09:16:20魏明軍
計算機應用與軟件 2020年12期
關鍵詞:分類實驗檢測

魏明軍 彭 寧

(華北理工大學信息工程學院 河北 唐山 063210)

0 引 言

互聯(lián)網(wǎng)的發(fā)展使我們步入科技時代,人們的日常生活也因為網(wǎng)絡的普及而簡化,伴隨而來的網(wǎng)絡安全問題則愈演愈烈。比如,各大網(wǎng)絡平臺用戶信息泄露、DoS攻擊、WannaCry勒索病毒、被黑客竊取計算機全部內(nèi)存內(nèi)容的漏洞等。如何有效鑒別各種網(wǎng)絡攻擊行為是網(wǎng)絡安全領域中迫切需要解決的問題。入侵檢測是一種積極、主動的網(wǎng)絡安全防御技術手段,其通過分析收集計算機關鍵點的信息,從中發(fā)現(xiàn)是否有威脅計算機安全的異常行為[1],若有則及時作出響應告知用戶,從而進行緊急處理以保護本地計算機安全。因此入侵檢測技術一直是網(wǎng)絡安全研究領域中不可規(guī)避的重點課題。

研究學者在入侵檢測系統(tǒng)(Intrusion Detection Systems,IDS)中嘗試引用不同的方法,比如:基于免疫方法[2]、基于神經(jīng)網(wǎng)絡[3]、基于數(shù)據(jù)挖掘[4]、基于粒子群[5]、基于云計算[6]、支持向量機[7](Support Vector Machine,SVM)等方法,經(jīng)實驗證明這些方法運用到入侵檢測中都顯示出各自的檢測優(yōu)勢。然而,現(xiàn)如今面臨網(wǎng)絡上數(shù)據(jù)的海量化、高維化的特點,以及網(wǎng)絡攻擊方式的多樣化、復雜化的趨勢,入侵檢測技術需要尋求新的突破,在提取數(shù)據(jù)特征時,能夠盡可能保留初始數(shù)據(jù)的本質(zhì)特征,并且提高檢測率。

深度學習(Deep Learning,DL)被廣泛運用于各個研究領域是因為其具有獨特的數(shù)據(jù)特征學習能力。結合計算機視覺可以感知路口車流量,從而動態(tài)地控制十字路口紅綠燈時間的長短;融合自然語言處理開發(fā)了百度智能機器人小度;在語音識別領域成功地被應用于同聲傳譯技術。將深度學習應用到不同領域且皆取得了很好的成果。

綜合IDS研究現(xiàn)狀,本文將深度學習和TSVM相結合,提出一種DBN-TSVM-5入侵檢測模型。深度學習具有很好的數(shù)據(jù)特征提取性能,用于數(shù)據(jù)降維;而TSVM比SVM具有更高的分類精度,且耗時僅占SVM的四分之一[8]。數(shù)據(jù)采用KDDCUP99數(shù)據(jù)集對DBN-TSVM-5模型進行測試與評估,結果表明該模型的性能比傳統(tǒng)的入侵檢測方法好。

1 深度置信網(wǎng)絡

DBN是Hinton等[9]于2006年提出的一種深度學習模型,其特征學習能力非常強大,通過逐層提取的方式,可將原始數(shù)據(jù)轉換成為更高層和更抽象的形式。

DBN由若干層受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)和一層有監(jiān)督的反向傳播(Back-Propagation,BP)網(wǎng)絡組成,如圖1所示。

圖1 DBN模型圖

1.1 RBM模型

1986年,一個層內(nèi)無連接、層間全連接的兩層網(wǎng)絡模型被提出,它就是RBM,包含了一個可見層V和一個隱含層H,每一層都是由神經(jīng)元組成,所有神經(jīng)元都有激活狀態(tài)1和未激活狀態(tài)0兩種狀態(tài)值。W是兩層之間的連接權重矩陣,a是可見層偏差,b是隱含層偏差。如圖2所示。

訓練RBM模型使用的數(shù)據(jù)特征維數(shù)較高時,以Gibbs采樣方法訓練需要足夠大的采樣步數(shù),可想而知用此方法訓練RBM會花費相當多的時間,導致最終訓練結果不理想。針對該問題,Hinton[10]提出對比散度算法(Contrastive Divergence,CD)。

1.2 CD對比散度

不同于Gibbs采樣,CD算法在一開始將訓練樣本作為輸入加載到可見層,經(jīng)實驗證明,僅需要使用k=1步吉布斯次采樣,就可以得到很好的近似值[11]。

在已知v(0)的情況下,出于RBM的連接特性,所有隱含層之間相互獨立,利用式(1)計算隱含層第j個神經(jīng)元的狀態(tài)。

(1)

確定所有隱含層神經(jīng)元h(0)的狀態(tài)之后,由于可見層節(jié)點之間也是相互獨立的,再根據(jù)隱含層神經(jīng)元的狀態(tài),利用式(2)重構出可見層第i個神經(jīng)元的狀態(tài),到得可見層重構v(k)。

(2)

算法1CD算法

輸入:訓練樣本X(S),學習率alpha,最大訓練周期k。

輸出:鏈接權重矩陣W,可見層偏置向量a,隱藏層偏置向量b。

初始化:令可見層神經(jīng)元的初始狀態(tài)v(0)=X(S),W、a、b取隨機較小的數(shù)值。

fort=0,1,…,kdo

forj=1,2,…,n(對于所有隱含層神經(jīng)元節(jié)點)

fori=1,2,…,m(對于所有可見層神經(jīng)元節(jié)點)

利用式(3)更新各個參數(shù):

(3)

2 對支持向量機

Jayadeva等[12]在2007年提出了TSVM。TSVM的基本思想是對正負兩類樣本點分別構造一個分類超平面。這樣有兩點好處:一方面使得每一個分類超平面與其中一類樣本點盡可能近;另一方面遠離另一類樣本點。以二維平面內(nèi)的樣本數(shù)據(jù)為例,對線性TSVM分類思想描述如圖3所示。

TSVM實質(zhì)上是將傳統(tǒng)SVM中的一個二次規(guī)劃問題(Quadratic Programming Problem,QPP)分成兩個規(guī)模較小的QPP[13],簡化了計算復雜度,使得樣本訓練時間縮減為傳統(tǒng)SVM的四分之一,而且還保持了較高的分類精度。

3 DBN-TSVM-5模型

3.1 模型總體設計

基于DBN-TSVM-5的入侵檢測方法框架結構圖如圖4所示。

圖4 DBN-TSVM-5框架結構圖

主要有以下3個步驟:

1)數(shù)據(jù)預處理。將KDDCUP99數(shù)據(jù)集通過特征映射的方法,把字符型數(shù)據(jù)轉換為數(shù)值;再對數(shù)值化后的數(shù)據(jù)全部進行數(shù)據(jù)歸一化處理,將數(shù)值規(guī)范到0~1之間,使之成為標準數(shù)據(jù)集。

2)DBN降維。經(jīng)過預訓練和權重微調(diào)兩個過程后,得到DBN網(wǎng)絡模型最優(yōu)表達,能夠反映標準數(shù)據(jù)特征的低維數(shù)據(jù)。

3)多分類TSVM-5。構造多分類TSVM-5分類器,對五類數(shù)據(jù)進行識別。

3.2 DBN降維過程

DBN訓練經(jīng)過預訓練和微調(diào)兩個階段后方可得到一個可以反映高維、非線性原始數(shù)據(jù)特征的低維數(shù)據(jù),從而實現(xiàn)對標準數(shù)據(jù)集的最優(yōu)提取。

1)預訓練。將訓練集中的數(shù)據(jù)特征和類標簽分離,用無標簽的訓練集對每一層RBM進行自下而上、單獨、無監(jiān)督、基于CD算法的訓練。輸入V0通過P(H|V0)計算出H0,H0根據(jù)P(V|H0)計算重構出的V1如果和V0一樣,那么隱藏層H0就是V0的另一種表示,如此H0可作為下一層RBM的可見層V1。按照此方法執(zhí)行每一層RBM,直至訓練完所有的RBM層。

2)微調(diào)。RBM自下向上訓練完之后,只能保證RBM本身這一層內(nèi)的權值對該層的特征提取是局部最優(yōu);因此還需要反向傳播網(wǎng)絡微調(diào)整個網(wǎng)絡參數(shù),達到全局最優(yōu)。在這一步需要將帶有標簽的數(shù)據(jù)附加到頂層,使用這些帶標簽的數(shù)據(jù)對網(wǎng)絡進行區(qū)分性、有監(jiān)督的、自上而下的訓練來對整個網(wǎng)絡權值進行調(diào)整。BP網(wǎng)絡接受最后一層RBM輸出的特征向量作為其輸入數(shù)據(jù)[14],將BP網(wǎng)絡輸出層得到的實際輸出與期望信息兩者之間做減法操作,有差值則進行反向傳播。

算法2DBN訓練

輸入:可視層變量V0=(v1,v2,v3,…,vi,…,vm)。

輸出:參數(shù)W,a,b。

(1)將每一條訓練數(shù)據(jù)X(S)賦值給第一個RBM的可見層V0,并用CD算法訓練第一層RBM。

(2)訓練完第一層RBM后,將其輸出結果作為下一層RBM的輸入,繼續(xù)用CD算法訓練下一層。

(3)迭代步驟(1)和步驟(2)直至訓練完所有層的RBM。

(4)向前計算完之后,誤差為:

(4)

(5)利用梯度下降算法進行逆向傳播,調(diào)整網(wǎng)絡中各個權值,使誤差達到最小值。權值更新公式為:

(5)

(6)重復步驟(4)-步驟(5)過程,直至誤差足夠小,保存參數(shù)。

3.3 多分類TSVM-5分類器

本文改進的多分類TSVM算法TSVM-5設計具體分類步驟如下:

1)先將KDDCUP99中正常樣本Normal標記為+1,其余四類攻擊樣本標記為-1,通過T1分類器篩選出正常樣本;

2)將Dos和Probe兩類樣本標記為+1,U2R和R2L標記為-1,再將剩余四類樣本輸入到T2分類器中。標記為+1的樣本傳到T3分類器,標記為-1的傳到T4分類器中;

3)通過T3分類器,輸出標記為+1的是Dos攻擊樣本,-1是Probe樣本;

4)通過T4分類器的,輸出標記為+1的是U2R攻擊樣本,-1是R2L樣本。

4 實 驗

4.1 數(shù)據(jù)來源與預處理

1998年,林肯實驗室在美國空軍局域網(wǎng)進行模擬而采集9周的網(wǎng)絡數(shù)據(jù)。隨后Sal Stolfo教授和Wenke Lee 教授在此基礎之上對網(wǎng)絡數(shù)據(jù)進行分析和預處理形成了KDDCUP99數(shù)據(jù)集,該數(shù)據(jù)集是IDS研究領域中被廣泛使用的實驗數(shù)據(jù)之一,其中包含494 021個訓練樣本和311 029個測試樣本,分布情況如表1所示。

表1 KDDCUP99數(shù)據(jù)分布情況

1)字符特征數(shù)值化。KDDCUP99數(shù)據(jù)集每一條數(shù)據(jù)有38個數(shù)字型屬性和3個字符型屬性,外加1個類標簽。字符型屬性的數(shù)據(jù)不利于特征提取和分類算法的識別,需要將其數(shù)值化。比如Protocol_type這一屬性有3種類型:Tcp、Udp、Icmp,映射規(guī)則設置如下:Tcp=0,Udp=1,Icmp=2,將這些轉化為數(shù)值類型。

2)數(shù)值歸一化。想要數(shù)據(jù)之間的量綱具有可比性而不對實驗造成影響,將訓練集和測試集中的全部數(shù)據(jù)記錄,都要進行歸一化處理,將數(shù)據(jù)歸一到0和1之間。經(jīng)過上一步字符映射處理后,將數(shù)據(jù)用.csv格式導出,可以看出KDDTrain訓練集中的第20、21兩列全為0,數(shù)據(jù)歸一后這兩列會出現(xiàn)差錯,因此歸一數(shù)據(jù)之前,對每列數(shù)據(jù)最大值最小值進行判定:若差值不為0,進行歸一操作;若差值為0,則不進行歸一操作,給定這列歸一后的數(shù)據(jù)全為0。

(6)

4.2 參數(shù)設置

根據(jù)已有研究表明,當DBN層數(shù)到達7層及以上,入侵檢測識別的準確率趨于穩(wěn)定值[15]。為了選取DBN模型處理KDDCUP99數(shù)據(jù)具有相對較高準確率的層數(shù),本文選取2~7層DBN模型,設置6種不同的DBN網(wǎng)絡結構,如表2所示。將DBN最后的重構誤差作為選取DBN層數(shù)的依據(jù),結果如圖5所示。由結果可知采用5層RBM網(wǎng)絡結構的誤差最小。

表2 DBN層數(shù)設置

圖5 DBN不同層數(shù)重構誤差

KDDCUP99數(shù)據(jù)集經(jīng)過預處理后依然為41維特征,因此輸入層節(jié)點為41,之后依次選取為100、80、50、10和5,即用DBN-TSVM-5網(wǎng)絡結構為41-100-80-50-10-5對歸一后的標準數(shù)據(jù)進行降維。預訓練迭代次數(shù)為30次,微調(diào)權值迭代次數(shù)為100次。由于RBF(radial basis function)核函數(shù)參數(shù)設置少且非線性分類性能好[16],所以本文采用RBF作為TSVM-5的核函數(shù),設置懲罰因子C1=1,C2=1核函數(shù)參數(shù)gamma=1,最后獲得準確率。

4.3 實驗結果

采用Anaconda的Python集成環(huán)境,使用Pycharm編譯器編寫程序代碼。實驗用未改進的二分類對支持向量機模型(TSVM-2)、本文改進的多分類對支持向量機模型(TSVM-5)、基于DBN和TSVM-5混合模型(DBN-TSVM-5)三種方法對入侵檢測進行數(shù)據(jù)分析。

受到實驗硬件環(huán)境的限制,分類器的代碼數(shù)據(jù)量太大會導致存儲溢出。為了對比分析這三種方法的有效性,隨機抽取以下Data1、Data2、Data3、Data4四個數(shù)據(jù)集作為實驗數(shù)據(jù),見表3。用Python第三方庫sklearn里的train_test_split函數(shù),按照6∶4的比例將每個數(shù)據(jù)集分割成訓練集和測試集,函數(shù)里straight參數(shù)可以按照數(shù)據(jù)標簽的比例劃分,使每個樣本類別都分到訓練集和測試集。

表3 實驗數(shù)據(jù)

從準確率(Accuracy,AC)和誤報率(False Alarm,F(xiàn)A)來比對三種方法的有效性。表4是TSVM-2、TSVM-5和DBN-TSVM-5三種模型方法在不同數(shù)據(jù)集上進行實驗得到的檢測精度和誤報率結果。

表4 實驗結果 %

可以看出,在不同數(shù)據(jù)集上TSVM-5與TSVM-2對比得出,不僅實現(xiàn)了數(shù)據(jù)樣本的多分類,檢測率還平均提高了5.37%。由TSVM-5和DBN-TSVM-5對比看出,DBN降維操作可以提取出數(shù)據(jù)的深度特征,從而更有利于數(shù)據(jù)的分類與識別,比TSVM-5的檢測率平均提高了2.52%。

5 結 語

面對網(wǎng)絡環(huán)境具有高維、復雜數(shù)據(jù)的特點,本文提出一種基于DBN和改進的TSVM入侵檢測混合模型。以字符映射和歸一化處理后的KDDCUP99數(shù)據(jù)為實驗數(shù)據(jù)進行仿真實驗。DBN具有良好的降維性能,成功地減少了數(shù)據(jù)特征向量,再把降維后的數(shù)據(jù)輸入到TSVM-5多類分類器中檢測攻擊數(shù)據(jù),進行入侵檢測識別。實驗數(shù)據(jù)表明,DBN-TSVM-5模型的檢測準確率分別比TSVM-2和TSVM-5提高了8.03%和2.52%,同時其誤報率也有所降低,是一種卓有成效的入侵檢測模型。

猜你喜歡
分類實驗檢測
記一次有趣的實驗
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
做個怪怪長實驗
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 亚洲欧美日韩高清综合678| 国产精品美女网站| 国产精品欧美日本韩免费一区二区三区不卡| 91麻豆精品视频| 国产喷水视频| 制服无码网站| 毛片a级毛片免费观看免下载| 国产激爽大片在线播放| 亚洲欧洲日韩久久狠狠爱| 国产精品对白刺激| 无码在线激情片| 色偷偷男人的天堂亚洲av| 极品av一区二区| 无码中文AⅤ在线观看| 中文字幕在线视频免费| 91年精品国产福利线观看久久| 精品欧美一区二区三区久久久| 中文字幕第4页| 在线五月婷婷| 中文字幕亚洲精品2页| 久久这里只有精品2| 亚洲一区二区日韩欧美gif| 欧美精品v| 国产成人a在线观看视频| 色妞www精品视频一级下载| 免费观看无遮挡www的小视频| h网址在线观看| 国产精品黑色丝袜的老师| 最新日本中文字幕| 久久黄色毛片| 日本免费一级视频| 999国内精品视频免费| 天天视频在线91频| 91蜜芽尤物福利在线观看| 亚洲日韩AV无码精品| 亚洲黄网在线| 亚洲国产日韩在线观看| 欧美日韩在线成人| 久久情精品国产品免费| 极品国产一区二区三区| 久久久噜噜噜久久中文字幕色伊伊| 国产精品亚洲日韩AⅤ在线观看| 一级毛片在线播放免费观看| 97久久人人超碰国产精品| 午夜福利免费视频| 色久综合在线| 婷婷综合色| 天堂在线亚洲| 日本91在线| 国产va免费精品观看| 久久精品人人做人人爽电影蜜月| 精品久久久久成人码免费动漫| 露脸真实国语乱在线观看| 最新亚洲av女人的天堂| 国产精品99久久久久久董美香| 日韩久久精品无码aV| 国产美女一级毛片| 91无码视频在线观看| 女人18一级毛片免费观看| 午夜限制老子影院888| 婷婷色在线视频| 亚洲熟女偷拍| 亚洲美女久久| 欧美精品aⅴ在线视频| 国产在线视频福利资源站| 天堂成人av| 激情影院内射美女| 亚洲人成色在线观看| 91精品亚洲| 久久免费视频6| 成人免费网站久久久| 亚洲无码在线午夜电影| 国产精品lululu在线观看| 亚洲无线观看| 无码'专区第一页| 亚洲美女视频一区| 免费在线看黄网址| 久久综合色天堂av| 亚洲区第一页| 欧美区一区| 伊人色综合久久天天| 成人福利在线视频免费观看|