999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于半監督多視圖特征協同訓練的網絡惡意流量識別方法*

2022-05-10 02:20:46盧宛芝丁要軍
通信技術 2022年4期
關鍵詞:特征模型

盧宛芝,丁要軍

(甘肅政法大學 網絡空間安全學院,甘肅 蘭州 730070)

0 引言

隨著互聯網應用的快速發展,加密技術和偽裝技術不斷升級,基于傳統深度報文解析(Deep Packet Inspection,DPI)的網絡流量識別方法準確率下降,使用機器學習和深度學習[1]進行網絡流量分類是目前較為準確的方法。傳統的有監督機器學習需要大量標記樣本來訓練分類模型,但獲取準確標記的網絡惡意流量訓練樣本較困難,而現有的網絡流量采集設備很容易獲取到大量的未標記樣本,因此使用少量標記樣本和大量未標記樣本共同訓練分類模型的半監督學習受到了學界的高度重視。

2007 年Erman 等人[2]首次提出將半監督學習應用到流量分類領域,解決了傳統流量分類方法無法對未知流量進行提取和分類的問題。Rezaei 等人[3]使用一維卷積神經網絡(Convolutional Neural Networks,CNN)模型,通過無監督預訓練和有監督微調,僅使用流的前幾個包就達到了比監督學習更好的識別準確率。協同訓練[4]作為半監督領域的重要分支之一,在圖像識別等領域取得了很好的成績。網絡流量識別領域中,Wu 等人[5]提出了基于Co-training 的入侵檢測算法,在訓練過程中可以提高檢測準確率,但訓練時間較長且算法穩定性有待提高。

目前網絡流量的特征表示方式[6]分為字節流特征、統計特征、數據包的時間序列特征和有效載荷數據,但現有的研究成果大多是基于一種特征表示方式進行網絡流量識別。本文提出一種融合原始字節流特征和網絡流統計特征的多特征視圖,通過協同訓練結合大量未標記樣本進行網絡惡意流量識別,來提升模型的魯棒性。

1 網絡流量特征表示

1.1 字節流特征

網絡流指具有相同五元組(源IP、源端口、目的IP、目的端口、傳輸層協議)的所有包。本文參考Wang 等人[7]對數據的處理方法,將原始流量pcap 切分為多個流,只選取每個流的前784 字節,每個字節對應取值范圍在[0~255]之間,輸入堆疊自動編碼器(Stacked Auto Encoder,SAE)進行無監督的自動特征提取,編碼器輸出一組編碼后的高級特征作為協同訓練的特征視圖a,如圖1 所示。

圖1 SAE 生成字節流特征視圖a

1.2 統計特征

數據流可以通過IP 數據包統計特征[6],如包最小時間間隔、包總數、平均字節數等。定義數據集X=[X1,X2,…,XN]T是由N個網絡流量樣本組成的數據集,對于每個流量樣本Xi都有m個統計特征,即Xi=[xi1,xi2,…,xim],向量Y=[y1,y2,…,yN]T表示數據集中每個流樣本的類別,如Dos Hulk、Zeus 等。針對數據集81 個統計特征,為了降低訓練模型對端口信息的依賴,刪除目的端口和源端口兩個特征,用隨機森林算法[8]進行特征選擇,選擇40 個統計特征作為視圖b,其中部分特征如表1 所示。

表1 部分網絡流統計特征

2 基于半監督多視圖特征協同訓練的網絡惡意流量識別方法

2.1 基分類器

本文使用極端隨機樹[9](Extremely Randomed Trees)作為協同訓練的基分類器,并作為一種集成算法,在節點分裂時隨機從M個特征中選擇m個特征,以基尼系數或信息增益熵選擇最優屬性進行分裂,分裂過程中不剪枝,直到生成一個決策樹(基分類器),最后利用投票決策對所有基分類器統計產生最終分類結果。一般來說,極端隨機樹算法優于決策樹,具有更好的平滑性,能有效減小偏差和方差,對于一個z維輸入空間,極端隨機樹的集合可以產生一個連續的分段多線性逼近樣本lsz,為了證明這一點,考慮大小為Z的樣本數。

式中:sz代表樣本z的大??;是一個n維的特征向量;ni為對應輸出值

設第j個屬性的樣本值通過增序取得,則樣本值可簡化為:

特征函數I(i1,i2,…,in)(m)的區間為:

基于此得出一個無限極端隨機樹的近似表示(m):

式中:參數λM(i1,i2,…,in)由輸入樣本mi和輸出樣本ni決定。

因此,分別使用原始字節流特征和網絡流統計特征兩種特征視圖,訓練兩個基分類器,保證了視圖的差異性,能進一步提升最終集成模型的準確率。

2.2 基于協同訓練的網絡惡意流量識別

協同訓練算法最初的思想是在兩個獨立的屬性集上訓練兩個分類器,并將其中一個分類器的預測樣本加入到另一個分類器的訓練集中,如此反復訓練,樣本得到擴充,分類界面得到修正。

如圖2 所示,xi(i=1,2,3,…) 為有標簽數據,xj(j=1,2,3,…)為無標簽數據。首先對標記的數據xi進行拆分,得到兩種不同視圖下的數據表示xi1,xi2;其次使用基分類器C1、C2 作為初始分類器訓練兩種視圖;最后利用初始分類器估計未標記樣本的標簽置信度,將可信樣本加入訓練數據集進行迭代訓練,優化分類器,當所有未標記的樣本都完成自我標記時訓練結束。

圖2 基于半監督多視圖特征協同訓練的網絡惡意流量識別方法結構

2.3 協同訓練算法描述

協同訓練算法首先定義標記數據集L由x1和x2組成,記為L(x1,x2),并在x1和x2分別訓練兩個分類器h1和h2;從未標記數據集U隨機選取u個樣本放入集合U中。算法如下:

(1)有標簽的網絡流量訓練集L,無標簽的網絡流量訓練集U′;

(2)循環K次用L的x1部分訓練一個分類器h1,用L的x2部分訓練一個分類器h2;

(3)用h1對U′中的所有數據進行標記,從中選出p1,p2,p3個正標記和n個負標記,用h2對U′中的所有數據進行標記,從中選出p1,p2,p3個正標記和n個負標記;

(4)選擇置信度(confidence score) 高 的2(p1+p2+p3)+2n個標記加入到L中;

(5)隨機從U中選取2(p1+p2+p3)+2n個數據補充到U′中,直到所有的無標記數據全部加標記放入到L中時,結束循環,訓練終止。

3 實驗結果及分析

3.1 數據集

CIC-IDS2017[10]數據集由加拿大網絡安全研究所(Canadian Institute for Cybersecurity,CIC)于2017 年發布,USTC-TFC2016[11]數據集是捷克共和國的捷克理工大學(Czech Technical University,CTU)的研究人員采集,如表2 和表3 所示。

表2 數據集CIC-IDS2017 介紹

表3 數據集USTC-TFC2016 介紹

3.2 評價指標

本實驗采用總體準確率、查準率、召回率、F1值來作為評估性能的指標。

3.3 實驗環境

實驗平臺使用的軟件框架是Pytorch 1.3.1,運行在Windows10 系統環境下,16 GB 內存,Intel(R)Core(TM) i5-9300H @ 2.40 GHz 處理器,實現Cotraining 框架。

3.4 協同訓練雙視圖生成

本文通過使用網絡原始流量的兩種特征表示方式,自然地將同一數據集分割成兩個相互獨立的視圖,分別作為協同訓練模型的視圖a 和視圖b,詳細過程如下所示。

(1)視圖a 的生成:本文參考王偉對網絡流數據的處理方法,將原始流量pcap 切分為多個流,只選取每個流的前784 字節,輸入SAE 進行無監督的自動特征提取,編碼器輸出一組編碼后的高級特征作為協同訓練的特征視圖a。

(2)視圖b 的生成:本文選用CICFlowMeter作為流特征提取工具,該工具能夠根據提交的pcap文件生成有81 個統計特征的字符分隔值(Comma-Separated Values,CSV)文件。由于實驗使用的兩個數據集中的CIC-IDS2017 已用CICFlowMeter 提取出了統計特征,本文即不再做相關的處理。對于數據集USTC-TFC2016,用CICFlowMeter 提取出81個統計特征。同時為了降低訓練模型對端口信息的依賴,刪除目的端口和源端口兩個特征,按照隨機森林算法特征重要性排序,選擇出最優的前40 個統計特征作為視圖a。

3.5 相關參數確定

3.5.1 SAE 生成特征視圖維數確定

實驗從時間效率和準確率兩個角度來考慮,對視圖a 選取的前784 字節,分別選擇10 到100 維的10 種情況進行實驗,確定經過SAE 編碼后特征數目為多少時,SAE 提取到的特征分類效果最佳,實驗結果如圖3 所示。

圖3 特征視圖維數確定

當特征維數為70 時,堆疊自動編碼器SAE 模型的準確率最高達到80.2%,此后隨著維數的增加,模型準確率趨于平緩。因此,視圖a選取特征維數70 來進行實驗。

3.5.2 標記樣本比例確定

選取2.5%、5%、10%和15%的數據作為標記樣本,進行對比實驗,剩余的作為未標記樣本。

如圖4(a)所示,對于數據集CIC-IDS2017,在迭代次數epoch 為20,標記樣本數為15%時,模型的準確率最高是99.3%;如圖4(b)所示,對于數據集USTC-TFC2016,在迭代次數epoch 為20,標記樣本比例為15%時,模型準確率最高到99.06%。因此確定迭代次數為20,標記樣本比例為15%,作為后續實驗的基礎。

圖4 標記樣本比例確定

3.5.3 基分類器的選擇

協同訓練通過兩個學習器之間的相互協作,在兩個不同的特征視圖上分別訓練,提高模型的泛化能力和魯棒性。由于不同模型學習機制的差異,選擇不同的基學習器進行協同訓練可以獲得更全面的數據信息。本文通過對比5 種基分類器選擇出最適用于網絡流量數據識別的協同訓練基分類器,表4 和表5 分別介紹了不同基分類器對于模型的分類準確率對比。

表4 數據集CIC-IDS2017 不同基分類器的分類準確率 %

表5 數據集USTC-TFC2016 不同基分類器的分類準確率 %

如表4 和表5 所示,分類器極端隨機樹(Extra TreesClassifier)的分類效果最好,在準確率、查準率和召回率上都比其他4 種分類器高,因此選擇ExtraTreesClassifier 作為協同訓練框架的基分類器。

3.6 與其他模型對比結果

本文將提出的半監督協同訓練(co-training)方法分別與兩種監督學習[7-12]和兩種半監督學習[13,14]結果進行對比。監督學習使用卷積神經網絡和決策樹;半監督學習使用階梯網絡(Ladder Net-work) 和標簽傳播算法(Lp_SVM 和Lp_Xgboost)。由于協同訓練使用了兩種網絡流量特征,因此,在與其他半監督和監督學習對比時分別用兩種視圖進行實驗,選擇實驗結果最佳的視圖與協同訓練對比,其中卷積神經網絡使用視圖a,決策樹使用視圖b,階梯網絡和標簽傳播算法選擇視圖b。

表6 介紹了在數據集CIC-IDS2017 和數據集USTC-TFC2016 上,協同訓練模型與半監督學習模型的對比結果。在CIC-IDS2017 上,協同訓練模型的準確率、查準率、召回率、F1 值均高于其他半監督模型,與階梯網絡相比,分別提高了1.44%、0.34%、2.32%和2.03%;與標簽傳播算法(LP_SVM)相比,分別提高了1.85%、20.72%、3.12%和13.32%;與標簽傳播算法(LP_Xgboost)相比,分別提高了1.46%、19.12%、2.62%和14.02%。在數據集USTC-TFC2016 上,協同訓練模型的準確率、召回率均高于其他半監督模型,與階梯網絡相比,分別提高了0.16%、0.19%;與標簽傳播算法相比,準確率、查準率、召回率和F1 值分別提高了2.4%、2.15%、2.21%和2.28%;與標簽傳播算法(LP_Xgboost)相比,分別提高了1.16%、0.9%、1.52%和1.47%。因此,通過上述對實驗結果的分析,驗證了本文提出的基于半監督協同訓練的網絡惡意流量識別方法的可行性。

表6 協同訓練模型與其他模型對比結果 %

4 結語

本文通過分析當前具有代表性的半監督協同訓練算法,結合協同訓練的運行是建立在同一數據集中存在兩個充分冗余且獨立視圖的假設下,并考慮實際應用環境中受到很多限制等因素,針對網絡流量數據量大且未標記數據易獲取等特點,融合字節流特征和統計特征這兩種特征表示方式,生成協同訓練框架所需的視圖a 和視圖b,實現了基于半監督的網絡惡意流量識別,保證了在少量標記樣本和大量未標記樣本下,半監督協同訓練模型仍具有對惡意流量識別的良好效果。然而,文章還存在一些不足之處,如在協同訓練模型中訓練兩視圖的分類器時,可以嘗試更多種的組合和更優的分類器。下一步工作將在基分類器的選擇上作出更優的調整,以及在網絡流量的特征工程上開展更深層次的研究。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 99久久精彩视频| 国产激爽大片在线播放| 色噜噜综合网| 四虎精品国产AV二区| 999在线免费视频| 性做久久久久久久免费看| 喷潮白浆直流在线播放| 欲色天天综合网| 国产精品视频系列专区| 国产中文一区a级毛片视频| 亚洲网综合| 色综合五月婷婷| 欧美视频在线不卡| 69av在线| 伊人婷婷色香五月综合缴缴情| 日韩午夜片| 国产欧美综合在线观看第七页| 色婷婷在线影院| 精品午夜国产福利观看| 亚洲色图欧美激情| 激情综合婷婷丁香五月尤物| 亚洲乱伦视频| 广东一级毛片| 五月丁香在线视频| 欧美日韩在线亚洲国产人| 中文字幕亚洲乱码熟女1区2区| 亚洲成网777777国产精品| 国产精品美女网站| 伊人久久婷婷| 欧美日韩国产在线人| 国产一区二区三区日韩精品| 国产免费精彩视频| 91青青草视频在线观看的| 在线无码私拍| 成人在线亚洲| 欧美专区日韩专区| 亚洲第一精品福利| 亚洲综合欧美在线一区在线播放| 伊人激情久久综合中文字幕| 亚洲av日韩综合一区尤物| 香蕉久久国产超碰青草| 天天爽免费视频| 一级毛片a女人刺激视频免费| 99热这里只有成人精品国产| 欧美亚洲香蕉| 手机精品视频在线观看免费| 看国产一级毛片| 久久亚洲国产视频| 粉嫩国产白浆在线观看| 欧美综合成人| 中文字幕乱码中文乱码51精品| 无码专区第一页| 国产区精品高清在线观看| 国内自拍久第一页| 亚洲精品第一页不卡| P尤物久久99国产综合精品| 亚洲人成网站日本片| 久草青青在线视频| 一级黄色网站在线免费看| 欧美另类一区| 精品偷拍一区二区| 国产色婷婷| 1级黄色毛片| 亚洲IV视频免费在线光看| 无码精品一区二区久久久| 一级毛片基地| 一级毛片免费高清视频| 中文无码伦av中文字幕| 久操中文在线| 日本手机在线视频| 国产成人一级| 国产丝袜丝视频在线观看| 成人福利在线免费观看| 四虎永久在线精品国产免费| 亚洲精品国产精品乱码不卞| 五月激情综合网| 国产乱子精品一区二区在线观看| 国产精品女人呻吟在线观看| 亚洲国产天堂在线观看| 亚洲成人网在线观看| 亚洲三级a| 在线观看欧美精品二区|