999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

半監督學習在惡意軟件流量檢測中的應用*

2022-05-26 03:04:18桂冠寧金輝王禹
移動通信 2022年4期
關鍵詞:分類方法

桂冠,寧金輝,王禹

(南京郵電大學通信與信息工程學院,江蘇 南京 210023)

0 引言

確保安全可靠的通信被認為是互聯網的關鍵技術之一,惡意軟件檢測(MD,Malware Detection)技術在網絡安全和互聯網領域發揮著重要的作用[1-3]。近年來,隨著互聯網的快速發展,各種應用也在激增,如網站、微博、視頻、團購軟件等。雖然這些在一定程度上改善了人們的生活,但也致使黑客攻擊、數據泄露等網絡安全問題顯著增加[4]。軟件流量可以記錄和反映網絡運行狀況[5-7]。為了確保未來互聯網的網絡安全,有必要識別惡意軟件流量并防止各種攻擊事件的發生。

目前出現了三種傳統的惡意軟件流量分類方法[8-10]:基于端口的方法、基于有效負載或深度包檢測(DPI,Deep Packet Inspection)的方法和基于統計的方法,具體如圖1 所示:

圖1 網絡流量分類方法

從人工智能的發展角度看,基于端口的方法和基于負載的方法都是基于規則來看的,而基于統計的方法屬于機器學習的方法,雖然機器學習的方法解決了很多基于規則的方法的弊端,如分類準確率低等,但這個方法也存在著依賴手工設計特征的方法不能提取關鍵特征的弊端。深度學習是直接從原始流量數據中獲取特征的有力工具[11-13],在一定程度上可以解決手工設計方法精度低的問題,因此許多研究者開始基于深度學習方法對惡意流量檢測問題進行研究。2017 年W.Wang[14]等人首次提出了表征學習在網絡流量數據分類中的應用;周翰遜[15]等人提出了基于值導數門控循環單元(GRU,Gated Recurrent Unit)的移動惡意軟件流量檢測方法;韋佶宏[16]等人利用深度學習方法分析安全傳輸層協議流量以識別惡意軟件;翟明芳[17]等人對加密的惡意流量特征及識別做了研究,都取得了較好的成績。但是,上述研究都建立在有豐富的有標簽流量數據的基礎上,無法直接用于真實的小樣本環境。因此,本文提出了一種面向半監督惡意軟件檢測[18-21]的卷積級聯階梯網絡(CCLN,Convolution Cascade Ladder Network)方法,以解決在有標簽樣本較少(有標簽樣本占總樣本的比例為5%)的情況下分類精度低的問題;還提出了一種面向半監督惡意軟件檢測的遷移卷積級聯階梯網絡(TCCLN,Transfer Convolution Cascade Ladder Network),以解決在有標簽樣本更少(有標簽樣本占總樣本的比例為1%)的情況下分類精度低的問題。

1 問題描述

首先,對原始軟件流量數據進行預處理。對于一組有標簽網絡流量樣本{xl(n),y l(n)|1 <n<N},使用卷積神經網絡進行分類,該分類過程可表示為:

其中,c(·) 表示特征提取函數,由CNN 擬合實現;?表示神經網絡參數;表示神經網絡的分類預測結果。在反向傳播優化中,其目標函數可以表示為:

其中,Ll表示用于測量真實標簽yl和預測標簽之差的損失函數。在實際的小樣本環境下,直接使用CNN 的分類方法會由于訓練數據不足而難以獲得好的性能,因此使用半監督學習方法以充分利用網絡中存在的大量無標簽數據{xu l(m)|1<m<M}(N<<M)。網絡的總體目標函數可以表示為:

2 提出的方法

2.1 數據預處理

實驗中使用的數據集是USTC-TFC2016[14]。數據集大致由兩部分組成:一部分是研究人員從真實網絡環境中收集的十種惡意軟件流量,包括Neris、Zeus、Virut 等;另一部分是專業網絡流量模擬設備IXIA BPS 收集的十種正常流量,如Facetime、Gmail、Weibo 等。從應用軟件流量中獲取流量數據后,對數據進行切片、整理以防止重復數據,生成輸入大小為784 字節的圖像,再轉換為IDX 格式。

2.2 實驗方法

(1)基于CCLN 的惡意軟件檢測方法

半監督學習是監督學習和無監督學習的結合,由于監督學習的目標是盡可能保留數據的關鍵特征,而無監督學習的目標是盡可能保留數據的全部特征以還原數據,二者存在矛盾,因此使用式(3)的半監督方法無法獲得良好的性能。受階梯網絡LadderNet[20]的啟發,在自編碼器的編碼層中加入高斯噪聲,設噪聲變換為g,則。然后使用、ce分別處理有標簽數據和無標簽數據。為了優化網絡,為每層計算一個要優化的損失函數Lul。對于CNN 中任意j層,修改目標函數為:

其中,L是網絡總層數;N(j) 是每層的特征數據量;是編碼器的輸出通過第j層解碼層輸出的結果。CCLN 方法由卷積神經網絡CNN 和階梯網絡LadderNet組成,處理后的訓練數據被送入卷積層進行訓練。提取數據特征后,將特征輸入階梯網絡進行數據分類,最終得到分類結果。訓練前,將數據集分為訓練部分和驗證部分進行交叉驗證,然后在訓練部分分離出一個小樣本部分作為有標簽數據,其余數據作為無標簽數據。

(2)基于TCCLN 的惡意軟件檢測方法

為了充分利用一些現有的網絡流量數據集,在半監督方法的基礎上結合了遷移學習的方法。首先將現有的網絡流量數據集進行預處理,然后按照式(2) 進行訓練,得到可用于提取網絡流量特征的卷積神經網絡c。隨后去掉c的分類層,使其輸出特征數據如下:

其中,f是卷積神經網絡提取的特征;cf是去掉頭部(如全連接層和softmax)的卷積神經網絡;? conv是cf的參數。使用cf處理從網絡獲得的無標簽數據和少量有標簽數據,得到無標簽特征ful和有標簽特征fl。將ful和fl作為輸入數據,分類層表示為:

其中,cTL表示遷移的網絡;fc?表示新分類層的網絡參數;表示? conv被凍結,防止更新。根據式(4)對cTL網絡進行優化,即可達到分類目標。CCLN 和TCCLN 的主要區別在于TCCLN 使用了遷移學習方法。首先將源域數據輸入預訓練網絡,在完成預訓練后,特征提取器被遷移到目標域并全部凍結;然后輸入目標域數據,將特征提取器連接到階梯網絡進行分類。在這種方法中,首先使用預訓練集訓練預訓練網絡,然后對數據集進行劃分,以完成遷移訓練。

(3)基于TCCLN 方法的消融實驗[22]

在上文采用的TCCLN 方法中,將預訓練后遷移到目標域的兩個卷積層全部凍結再進行訓練,與此同時也采用了兩種不同的遷移情況:第一種是對于參與預訓練的兩個卷積層均進行遷移學習的二次訓練,這種方法稱為權重未凍結下的TCCLN(UTCCLN,Unfrozen Transfer Convolution Cascade Ladder Network);第二種是凍結參與預訓練的前一層卷積層,第二層卷積層參與二次訓練,這種方法稱為部分權重凍結下的TCCLN(PTCCLN,Partially frozen Transfer Convolution Cascade Ladder Network)。三種基于遷移學習的惡意軟件流量分類方法如圖2 所示。其中,灰色方框內的卷積層代表遷移后在目標域被凍結不參與訓練;綠色方框內的卷積層參與二次訓練。

圖2 三種基于遷移學習的惡意軟件流量分類方法

3 實驗與評估

3.1 實驗參數設置

本文所有實驗均基于Geforce GTX 1080ti 為核心的硬件平臺,環境為Keras 2.2.4 深度學習框架和Python 3.6.2,使用sklearn 0.23.2 中的工具來評估模型,實驗中使用的隨機森林(RF,Random Forest)與支持向量機(SVM,Support Vector Machine)也基于sklearn 機器學習庫。

3.2 實驗結果

本次實驗主要使用準確率、精確率、召回率、F1 值以及混淆矩陣來對實驗結果進行評估。在本節中,首先比較提出的CCLN、TCCLN 方法在有標簽樣本比例為1%和5% 的情況下的分類準確率。如圖3 所示,本文所采用的兩種方法準確率均高于RF、SVM 方法,且采用知識遷移學習的方法(TCCLN)在有標簽樣本數較少(1%)的情況下獲得了更好的性能,當有標簽樣本數量增加(5%)時,直接特征提取方法(CCLN)會取得更好的效果。造成這種現象的原因是在樣本較少的情況下,從源域數據中學習到的知識有助于目標域的數據訓練。然而,當目標域的訓練數據增加時,目標域的特征提取層提取的特征與訓練數據更加一致,具有更好的分類性能,而在源域提取的特征不再適用于目標域的分類。因此,在這種情況下,采用遷移學習的方法性能會更差。

圖3 不同方法在1%和5%有標簽樣本下的準確率、精確率、召回率及F1值

消融實驗結果表明,采用全凍結模式的TCCLN 方法取得了最高的準確率,而采用部分凍結的PTCCLN 方法和全不凍結的UTCCLN 方法準確率起伏較大,這是由于遷移過程中源域數據量大,預訓練過程較為完善,此時的特征提取器分類準確性更強,而在目標域中的有標簽數據量較少,會對訓練過程產生一定程度上的影響。

從圖4 可以看出,相比于CCLN 方法,TCCLN 方法在1% 有標簽數據量時提高了一些軟件流量的識別準確率,然而個別類的識別準確率仍較低。而在圖5 顯示的混淆矩陣中可以看出,在有標簽樣本量增加后,CCLN 方法的準確率高于TCCLN 方法,一些類的識別準確率甚至能達到百分百。

圖4 有標簽樣本比例為1%時CCLN方法(左)和TCCLN方法(右)的混淆矩陣

圖5 有標簽樣本比例為5%時CCLN方法(左)和TCCLN方法(右)的混淆矩陣

4 結束語

本文分別提出了基于CCLN 和TCCLN 的惡意軟件檢測方法,并介紹了這兩種方法分別應用于有標簽樣本較少(5%)和有標簽樣本更少(1%)的情況?;贑CLN 的惡意軟件檢測方法在有標簽樣本較少的情況下實現了更好的性能,而在有標簽樣本更少的情況下,基于TCCLN 的惡意軟件檢測方法的分類性能更好。實驗結果表明,在有標簽樣本更少的情況下,在訓練前提取樣本特征可以達到較高的分類精度。本文所使用的模型是圖像識別領域的常用模型,通常具有高度的復雜性,因此在執行某些特定任務時,應測量所需的精度和計算能力,并適當簡化模型。此外,本文提出的基于遷移學習的方法都需要預訓練模型,這在實際應用中有時很難實現。在未來的工作中,將在幾個示例場景中進一步探索惡意軟件流量分類問題,并優化所提出的方法以解決上述問題。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 人妻91无码色偷偷色噜噜噜| 欧美中文字幕在线视频| 狠狠综合久久| 国产人人射| 欧美激情综合一区二区| 日本91在线| 国产丝袜无码精品| 怡春院欧美一区二区三区免费| 久久鸭综合久久国产| 波多野结衣久久精品| 欧美国产精品不卡在线观看| 国产成人高清精品免费5388| 九九热精品视频在线| 精品无码一区二区三区在线视频| 亚洲天堂精品视频| 女人18毛片一级毛片在线| 美女高潮全身流白浆福利区| 亚洲成AV人手机在线观看网站| 婷婷久久综合九色综合88| 日韩欧美国产中文| 青青久视频| 国产欧美在线| 黄色片中文字幕| 欧美久久网| 亚洲伊人天堂| av大片在线无码免费| 精品一区二区三区波多野结衣| 高清色本在线www| 青青久在线视频免费观看| 国产丝袜丝视频在线观看| 国产精品自在线天天看片| 永久免费无码成人网站| 狠狠五月天中文字幕| 福利视频99| 综合社区亚洲熟妇p| 国产精品成人久久| 亚洲天堂免费在线视频| a在线亚洲男人的天堂试看| 无套av在线| 亚洲国产天堂久久九九九| 最新国产高清在线| 91国语视频| 色丁丁毛片在线观看| 亚洲色图欧美在线| 亚洲成人一区在线| 一本一本大道香蕉久在线播放| 欧美va亚洲va香蕉在线| 国产SUV精品一区二区6| 亚洲日韩第九十九页| 午夜限制老子影院888| 爆乳熟妇一区二区三区| 日本欧美精品| 毛片卡一卡二| 无码乱人伦一区二区亚洲一| 精品自拍视频在线观看| 亚洲免费毛片| 久久国产V一级毛多内射| 国产91成人| 午夜老司机永久免费看片| 亚洲 成人国产| 国产精品jizz在线观看软件| 日韩精品一区二区三区swag| 亚洲成a人在线播放www| 高清国产在线| 青青久在线视频免费观看| 在线亚洲精品自拍| 日本国产在线| 日韩在线视频网| 久久国产高清视频| 国产精品不卡片视频免费观看| 成人精品视频一区二区在线| 色综合中文字幕| 免费一极毛片| 国产va在线| av免费在线观看美女叉开腿| 国产区91| 一个色综合久久| 国产一区二区在线视频观看| 亚洲资源在线视频| 国产精选小视频在线观看| 亚洲天堂首页| 无码电影在线观看|