999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度提升網(wǎng)絡(luò)的入侵檢測技術(shù)研究

2022-12-12 12:14:58張如雪繆祥華
化工自動化及儀表 2022年6期
關(guān)鍵詞:分類模型

張如雪 繆祥華,b

(昆明理工大學(xué)a.信息工程與自動化學(xué)院;b.云南省計算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室)

基于已知攻擊特征的傳統(tǒng)靜態(tài)安全方法在網(wǎng)絡(luò)入侵檢測中已經(jīng)取得了不錯的效果,但是傳統(tǒng)靜態(tài)方法不能有效防御新的攻擊, 如0day攻擊、后門攻擊及高級持續(xù)威脅(APT)等,這些攻擊者可以發(fā)動有針對性的持久滲透攻擊,表現(xiàn)出較強(qiáng)的隱蔽性,潛伏期特別長。 針對這些新的攻擊需要研究新方法來應(yīng)對[1,2]。

Logit、KNN、SVM、神經(jīng)網(wǎng)絡(luò)、決策樹及隨機(jī)森林[3]等機(jī)器學(xué)習(xí)模型被廣泛應(yīng)用于入侵檢測研究,并取得了較好的效果[4]。 2014年,張陽和姚原崗提出的XGBoost算法具有效果好、 速度快及能處理大規(guī)模數(shù)據(jù)等特點(diǎn)[5]。 但是基于單個學(xué)習(xí)器只能學(xué)習(xí)到一個假設(shè), 存在泛化能力不強(qiáng)的問題。因此,筆者采用XGBoost和GBDT[6]構(gòu)成集成學(xué)習(xí)模型,以期多個假設(shè)在同一個訓(xùn)練集上達(dá)到較高的性能。

1 相關(guān)理論

1.1 自動編碼器

自動編碼器(AutoEncoder,AE)是一種無監(jiān)督神經(jīng)網(wǎng)絡(luò)模型[7],它可以學(xué)習(xí)到輸入數(shù)據(jù)的隱含特征, 使用Encoder對輸入進(jìn)行編碼, 并使用Decoder對輸出進(jìn)行解碼,如圖1所示。 AE可以提取到更有效的特征,比傳統(tǒng)降維方法主成分分析(Principal Components Analysis,PCA) 效果更好,除了降低函數(shù)的維數(shù)外,提取的特征還可以整合到一個有監(jiān)督的學(xué)習(xí)模型中,這表明自動編碼器可以在特征提取中發(fā)揮作用。

圖1 自動編碼器的基本結(jié)構(gòu)

AE對輸入X進(jìn)行編碼以獲得一個新的函數(shù)Y,并希望新的函數(shù)Y可以重建初始的輸入X。 編碼過程如下:

其中,W表示權(quán)重,b表示參數(shù)。

解碼過程為:

其中,X′表示輸出,W′表示權(quán)重,b′表示參數(shù)。

希望X′被重新構(gòu)建后能盡可能與原來一致,還可以使用損失函數(shù)L來訓(xùn)練模型:

通常會對自動編碼器的使用增加一些限制,最常見的方法是使W′=WT,即所謂的“綁定權(quán)重”,這一限制同樣適用于本研究中的自動編碼器。

1.2 梯度提升決策樹

梯度提升決策樹 (Gradient Boost Decision Tree,GBDT)是一種循環(huán)重復(fù)的決策樹算法,由許多決策樹構(gòu)成,所有樹的結(jié)論聚合而成得到最終答案。 GBDT經(jīng)過幾個循環(huán),會得到若干個弱分類器,由若干個弱分類器構(gòu)成最終的分類器。

GBDT分類算法主要應(yīng)用了以下公式:

其中,f(x)為預(yù)測結(jié)果;y為實(shí)際結(jié)果,y∈{-1,1};ft-1(x)表示前t-1個基學(xué)習(xí)器的輸出結(jié)果,yi為第i個實(shí)際結(jié)果;xi為第i個輸入。

對于最終的決策樹,每個葉子節(jié)點(diǎn)的最佳負(fù)梯度Ctj的計算式為:

其中,Rtj為輸入集合;tj為葉子結(jié)點(diǎn)。

1.3 極限梯度提升決策樹

極限梯度提升決策樹(eXtreme Gradient Boosting,XGBoost)是一種Boosting算法,它將許多弱分類器整合在一起,形成一個強(qiáng)大的分類器。

XGBoost是一個加法模型,它包含了k個基學(xué)習(xí)器,循環(huán)重復(fù)第t次迭代的樹模型是ft(x),則第t次重復(fù)訓(xùn)練后樣本i的預(yù)測結(jié)果y^i(t)的計算式為:

其中,y^i(t-1)表示前t-1棵樹的預(yù)測結(jié)果;ft(xi)表示第t棵樹的模型。

XGBoost的損失函數(shù)可由預(yù)測值y^i和真實(shí)值yi表示:其中,n為樣本數(shù)量。

2 深度提升網(wǎng)絡(luò)模型

2.1 集成學(xué)習(xí)

集成方法是一種元算法,把不同的機(jī)器學(xué)習(xí)算法組合到一個預(yù)測模型中, 能減小系統(tǒng)方差、系統(tǒng)誤差或提高系統(tǒng)預(yù)測精度,其特點(diǎn)如下:

a. 將多種相同或不同的分類方法相結(jié)合,以提高分類精度;

b. 集成學(xué)習(xí)方法是從訓(xùn)練數(shù)據(jù)中構(gòu)建一組基分類器,然后將預(yù)測數(shù)據(jù)應(yīng)用到每個基分類器進(jìn)行分類;

c. 集成學(xué)習(xí)不是一種分類,而是一種將分類器結(jié)合的方法。

2.2 深度提升網(wǎng)絡(luò)

深度提升網(wǎng)絡(luò)(Deep Boosting Network,DBN)擁有基于梯度增量策略中仍然存在的關(guān)鍵決策的深度耦合結(jié)構(gòu)[8~10]。 以XGBoost和GBDT為基學(xué)習(xí)器創(chuàng)建深度提升網(wǎng)絡(luò), 在第1層輸入中對特征向量進(jìn)行整合和改進(jìn),從第2層開始,每層接收來自前一層處理后的數(shù)據(jù),允許進(jìn)一步改進(jìn),并將結(jié)果傳遞到下一層,以此類推,流程如圖2所示。為了減少過度擬合風(fēng)險,每次創(chuàng)建一個新的隱含層, 都計算出當(dāng)前類輸出的預(yù)測精度C和每個基學(xué)習(xí)器輸出的準(zhǔn)確預(yù)測矩陣的收斂性η。 將η與自適應(yīng)因子α(α是學(xué)習(xí)結(jié)果變化的參數(shù))做比較,如果有η<α或者當(dāng)前平均準(zhǔn)確率低于前一級別的平均準(zhǔn)確率,則訓(xùn)練結(jié)束。

圖2 深度提升網(wǎng)絡(luò)流程

設(shè)N為樣本數(shù)量,H是基學(xué)習(xí)器在隱含層的數(shù)量, 第i層的第r個基學(xué)習(xí)器的輸出和預(yù)測精度分別為Air和Ci,則收斂性η和當(dāng)前層預(yù)測精度Ci的計算式為:

2.3 相對多數(shù)投票策略

由于本研究將GBDT和XGBoost基學(xué)習(xí)器整合應(yīng)用到集成學(xué)習(xí)中,這些基學(xué)習(xí)器都會有自己的結(jié)果,那么輸出層的結(jié)果就必須通過對這些結(jié)果進(jìn)行投票得出。 本研究選擇的是相對多數(shù)投票策略,該策略的思想是少數(shù)服從多數(shù),只要基學(xué)習(xí)器中有某一個結(jié)果所占比例與其他結(jié)果相比是多的,那么就選擇該結(jié)果。

2.4 算法流程

2.4.1 自動編碼器降維算法

為了滿足深度提升網(wǎng)絡(luò)中一個輸入向量維數(shù)的要求,AE網(wǎng)絡(luò)的隱含層神經(jīng)元數(shù)m=n×n。 為了最大限度地保留數(shù)據(jù)中的信息,m可以被賦值為64、81、100及121等。 當(dāng)m=64時,自動編碼器的結(jié)構(gòu)模型如圖3所示。

圖3 自動編碼器的結(jié)構(gòu)模型

為評價AE網(wǎng)絡(luò)的降維效果,引入重構(gòu)誤差的概念。 重構(gòu)誤差是特征重構(gòu)的輸出值和輸入值降維后得到的誤差。 在AE網(wǎng)絡(luò)降維中,需確定降維后的數(shù)據(jù)能否很好地恢復(fù)到原始輸入數(shù)據(jù),重構(gòu)誤差用均方誤差MSE表示:

其中,p表示輸入變量,p′表示輸出變量。

為了優(yōu)化自動編碼器網(wǎng)絡(luò)的結(jié)構(gòu), 通過調(diào)整GBDT和XGBoost模型個數(shù)、優(yōu)化函數(shù)等參數(shù),觀察自動編碼器網(wǎng)絡(luò)在迭代過程中重構(gòu)誤差的變化,最后確定自動編碼器網(wǎng)絡(luò)的最優(yōu)結(jié)構(gòu)。 在不同維度下, 利用自動編碼器結(jié)構(gòu)重構(gòu)誤差的結(jié)果如圖4所示。

圖4 利用自動編碼器結(jié)構(gòu)重構(gòu)誤差

自動編碼器的結(jié)構(gòu)確定后,通過輸入預(yù)處理后的數(shù)據(jù),計算出網(wǎng)絡(luò)的重構(gòu)誤差。 通過BP算法調(diào)整網(wǎng)絡(luò)參數(shù),最終通過隱含層獲得降維數(shù)據(jù)。

精準(zhǔn)醫(yī)療是針對于患者醫(yī)療保健和健康的個性化醫(yī)學(xué)模式,它通過醫(yī)生的醫(yī)療決策和實(shí)踐制定出適合不同疾病人群的治療方案。隨著對CRSwNP的發(fā)病機(jī)制的不斷深入了解,精準(zhǔn)醫(yī)療分析整合疾病的診斷和治療并能制定出最優(yōu)化的治療方案[28]。而實(shí)現(xiàn)精準(zhǔn)醫(yī)療的基礎(chǔ)必須具備的要素有:患者參與治療方案的決定;預(yù)判初始治療的成功率;防治疾病進(jìn)展的有效策略和疾病內(nèi)在型為驅(qū)動的個性化治療[29]。為了實(shí)現(xiàn)疾病內(nèi)在型為驅(qū)動的治療目的,必須對疾病的內(nèi)在型有著充分且標(biāo)準(zhǔn)化的認(rèn)識,而且能夠洞察用于評估或預(yù)測療效、指導(dǎo)完善臨床策略的生物標(biāo)記物[10]。

2.4.2 深度提升網(wǎng)絡(luò)算法

深度提升網(wǎng)絡(luò)的結(jié)構(gòu)如圖5所示。

圖5 深度提升網(wǎng)絡(luò)結(jié)構(gòu)框圖

深度提升網(wǎng)絡(luò)的算法步驟如下:

a. x0、x1、 …、xm分別代表GBDT和XGBoost模型,對其輸入訓(xùn)練集形成m個基學(xué)習(xí)器(前一個的輸出是下一個的輸入);

b. 輸入測試集,m個基學(xué)習(xí)器分別得出m個預(yù)測結(jié)果;

c. 對步驟b中的m個預(yù)測結(jié)果使用投票策略,得出綜合預(yù)測結(jié)果。

深度提升網(wǎng)絡(luò)在第1層輸入中對特征向量進(jìn)行整合和改進(jìn);從第2層開始,每層接收來自前一層處理后的數(shù)據(jù),允許進(jìn)一步進(jìn)行改進(jìn),并將結(jié)果傳遞到下一層,以此類推。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)所用的主機(jī)處理器為Intel(R)Core(TM)i5-7200U CPU@2.50 GHz,內(nèi)存16 GB,操作系統(tǒng)Win10專業(yè)版,在Pycharm環(huán)境下使用pytorch框架完成仿真實(shí)驗(yàn)。

3.2 評價指標(biāo)

分類問題常用的評價指標(biāo)是精確率和召回率。 正常類被標(biāo)記為正類,所有攻擊類被標(biāo)記為負(fù)類。 分類器對數(shù)據(jù)集的預(yù)測是正確的還是錯誤的,結(jié)果存在4種情況:

a. TP(True Positive),把正類預(yù)測為正類;

b. FP(False Positive),把負(fù)類預(yù)測為正類;

c. TN(True Negative),把負(fù)類預(yù)測為負(fù)類;

d. FN(False Negative),把正類預(yù)測為負(fù)類。

評價指標(biāo)的計算式如下:

F1分?jǐn)?shù)為精確率和召回率的調(diào)和平均,即有:

3.3 實(shí)驗(yàn)數(shù)據(jù)

CICIDS2017是一種入侵檢測數(shù)據(jù)集,由加拿大網(wǎng)絡(luò)安全研究所收集,包含良性攻擊網(wǎng)絡(luò)流和7 種公開可用的常見攻擊類型。 它包括使用CICFlowMeter的網(wǎng)絡(luò)流量分析結(jié)果, 使用基于時間戳、源和目的IP地址、源和目的端口、協(xié)議和攻擊(CSV文件)的標(biāo)記流。因此,CICIDS2017數(shù)據(jù)集更具代表性[6]。

CICIDS2017數(shù)據(jù)集中共有15種類別的數(shù)據(jù),其中包含1種正常類別和14種攻擊,詳見表1。

表1 數(shù)據(jù)集類別和數(shù)目

3.4 結(jié)果分析

為了提高模型的準(zhǔn)確性,加快模型的收斂速度,對所創(chuàng)建的數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,具體步驟如下:

a. 檢測數(shù)據(jù)集中的空值。因?yàn)楸狙芯恐械囊恍┧惴▽θ笔У闹岛苊舾校詫?shù)據(jù)集中元素列的平均值替換為空值。

b. 將處理后的數(shù)據(jù)集分為兩部分, 分別為80%的訓(xùn)練集和20%的測試集, 其中正常流量和攻擊流量在數(shù)據(jù)集和測試集中的占比見表2、3。

表2 訓(xùn)練集占比情況

c. 對多分類標(biāo)簽進(jìn)行one-hot編碼。

d. 為了消除不同特征尺度對模型精度的影響,對數(shù)據(jù)集的特征進(jìn)行正則化處理。

表3 測試集占比情況

本研究的模型在分類過程中設(shè)置GBDT和XGBoost的總數(shù)目后的損失值如圖6所示。

圖6 GBDT和XGBoost的總數(shù)目對損失值的影響

為了證明GBDT-XGBoost模型在相同實(shí)驗(yàn)環(huán)境下與其他模型相比的優(yōu)越性, 選擇KNN、DT、RF、GBDT和確定結(jié)果較好的XGBoost進(jìn)行比較,檢測結(jié)果見表4、5。

表4 二分類任務(wù)下模型的對比結(jié)果

表5 多分類任務(wù)下模型的對比結(jié)果

從表4、5可以看出,KNN在二分類和多分類任務(wù)下的分類效果較弱,DT其次,RF、單獨(dú)GBDT和單獨(dú)XGBoost在精確率和F1分?jǐn)?shù)的結(jié)果上不相上下, 但在召回率上有出入。 筆者提出的GBDTXGBoost模型在所有3個指標(biāo)上,無論是二分類還是多分類,都高于其他模型,證實(shí)該模型分類的整體效果優(yōu)于其他算法。

4 結(jié)束語

筆者提出基于GBDT-XGBoost的網(wǎng)絡(luò)入侵檢測算法, 獲得了入侵檢測的強(qiáng)分類器。 與傳統(tǒng)KNN、DT、RF、GBDT、XGBoost算法對比的結(jié)果可知,GBDT-XGBoost算法在精確率、 召回率和F1分?jǐn)?shù)上都有所提升。 但該方法對于未知攻擊的檢測還存在精確率不高的問題, 下一步計劃改進(jìn)該方法,提高該方法在未知攻擊檢測方面的精確率。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 东京热一区二区三区无码视频| 91网在线| 亚洲国产高清精品线久久| 爽爽影院十八禁在线观看| 精品久久久久成人码免费动漫| 亚洲中文在线看视频一区| 国产在线高清一级毛片| 美女被躁出白浆视频播放| 亚洲日韩高清无码| 无码福利日韩神码福利片| 爽爽影院十八禁在线观看| 香蕉国产精品视频| 欧美自慰一级看片免费| 人妻无码中文字幕一区二区三区| 亚洲男人在线| 久久久久免费看成人影片| 国产一在线| 国产免费福利网站| 欧美亚洲一二三区| 午夜精品影院| 日本一区中文字幕最新在线| 欧美一区二区三区国产精品| 免费毛片a| 日韩成人在线网站| 综合人妻久久一区二区精品 | 国产亚洲欧美在线人成aaaa | 久久国产成人精品国产成人亚洲| 国模在线视频一区二区三区| 国产不卡网| 国产乱子伦手机在线| 成人福利在线看| 午夜爽爽视频| 污视频日本| 亚洲第一黄片大全| 国产美女精品一区二区| 免费 国产 无码久久久| 99视频只有精品| 国产精品美乳| av无码久久精品| 67194在线午夜亚洲| 国产真实二区一区在线亚洲| 日韩中文精品亚洲第三区| 红杏AV在线无码| 欧美伦理一区| 亚洲精品国产自在现线最新| 欧美日在线观看| 久久亚洲国产一区二区| 亚洲中文字幕无码mv| 香蕉视频在线观看www| 亚洲女同一区二区| 亚洲欧美日韩成人高清在线一区| 色哟哟国产精品一区二区| 国产男人天堂| 欧美色伊人| 色婷婷电影网| 午夜三级在线| 国产综合另类小说色区色噜噜 | 欧美不卡二区| 日韩在线成年视频人网站观看| 国产亚洲精久久久久久久91| 91精品视频在线播放| 欧美在线视频不卡| 国产无码性爱一区二区三区| 综合色区亚洲熟妇在线| 玖玖精品在线| 欧美日韩国产精品综合| 亚洲日本一本dvd高清| 2022国产无码在线| 天堂亚洲网| 亚洲男人的天堂久久精品| 91福利免费视频| 免费全部高H视频无码无遮掩| 国产美女主播一级成人毛片| 亚洲天堂在线免费| 狠狠色狠狠综合久久| 亚洲无码高清免费视频亚洲| 亚洲精品你懂的| 国产男人天堂| 成人日韩欧美| 精品人妻一区无码视频| 欧美日韩高清在线| 亚洲资源站av无码网址|