半監督學習在惡意軟件流量檢測中的應用*

2022-05-26 03:04:18桂冠寧金輝王禹

移動通信 2022年4期

桂冠，寧金輝，王禹

（南京郵電大學通信與信息工程學院，江蘇南京 210023）

0 引言

確保安全可靠的通信被認為是互聯網的關鍵技術之一，惡意軟件檢測（MD,Malware Detection）技術在網絡安全和互聯網領域發揮著重要的作用[1-3]。近年來，隨著互聯網的快速發展，各種應用也在激增，如網站、微博、視頻、團購軟件等。雖然這些在一定程度上改善了人們的生活，但也致使黑客攻擊、數據泄露等網絡安全問題顯著增加[4]。軟件流量可以記錄和反映網絡運行狀況[5-7]。為了確保未來互聯網的網絡安全，有必要識別惡意軟件流量并防止各種攻擊事件的發生。

目前出現了三種傳統的惡意軟件流量分類方法[8-10]：基于端口的方法、基于有效負載或深度包檢測（DPI,Deep Packet Inspection）的方法和基于統計的方法，具體如圖1 所示：

圖1 網絡流量分類方法

從人工智能的發展角度看，基于端口的方法和基于負載的方法都是基于規則來看的，而基于統計的方法屬于機器學習的方法，雖然機器學習的方法解決了很多基于規則的方法的弊端，如分類準確率低等，但這個方法也存在著依賴手工設計特征的方法不能提取關鍵特征的弊端。深度學習是直接從原始流量數據中獲取特征的有力工具[11-13]，在一定程度上可以解決手工設計方法精度低的問題，因此許多研究者開始基于深度學習方法對惡意流量檢測問題進行研究。2017 年W.Wang[14]等人首次提出了表征學習在網絡流量數據分類中的應用；周翰遜[15]等人提出了基于值導數門控循環單元（GRU,Gated Recurrent Unit）的移動惡意軟件流量檢測方法；韋佶宏[16]等人利用深度學習方法分析安全傳輸層協議流量以識別惡意軟件；翟明芳[17]等人對加密的惡意流量特征及識別做了研究，都取得了較好的成績。但是，上述研究都建立在有豐富的有標簽流量數據的基礎上，無法直接用于真實的小樣本環境。因此，本文提出了一種面向半監督惡意軟件檢測[18-21]的卷積級聯階梯網絡（CCLN,Convolution Cascade Ladder Network）方法，以解決在有標簽樣本較少（有標簽樣本占總樣本的比例為5%）的情況下分類精度低的問題；還提出了一種面向半監督惡意軟件檢測的遷移卷積級聯階梯網絡（TCCLN,Transfer Convolution Cascade Ladder Network），以解決在有標簽樣本更少（有標簽樣本占總樣本的比例為1%）的情況下分類精度低的問題。

1 問題描述

首先，對原始軟件流量數據進行預處理。對于一組有標簽網絡流量樣本{xl(n),y l(n)|1 ＜n＜N}，使用卷積神經網絡進行分類，該分類過程可表示為：

其中，c(·) 表示特征提取函數，由CNN 擬合實現；?表示神經網絡參數；表示神經網絡的分類預測結果。在反向傳播優化中，其目標函數可以表示為：

其中，Ll表示用于測量真實標簽yl和預測標簽之差的損失函數。在實際的小樣本環境下，直接使用CNN 的分類方法會由于訓練數據不足而難以獲得好的性能，因此使用半監督學習方法以充分利用網絡中存在的大量無標簽數據{xu l(m)|1＜m＜M}(N＜＜M)。網絡的總體目標函數可以表示為：

2 提出的方法

2.1 數據預處理

實驗中使用的數據集是USTC-TFC2016[14]。數據集大致由兩部分組成：一部分是研究人員從真實網絡環境中收集的十種惡意軟件流量，包括Neris、Zeus、Virut 等；另一部分是專業網絡流量模擬設備IXIA BPS 收集的十種正常流量，如Facetime、Gmail、Weibo 等。從應用軟件流量中獲取流量數據后，對數據進行切片、整理以防止重復數據，生成輸入大小為784 字節的圖像，再轉換為IDX 格式。

2.2 實驗方法

（1）基于CCLN 的惡意軟件檢測方法

半監督學習是監督學習和無監督學習的結合，由于監督學習的目標是盡可能保留數據的關鍵特征，而無監督學習的目標是盡可能保留數據的全部特征以還原數據，二者存在矛盾，因此使用式(3)的半監督方法無法獲得良好的性能。受階梯網絡LadderNet[20]的啟發，在自編碼器的編碼層中加入高斯噪聲，設噪聲變換為g，則。然后使用、ce分別處理有標簽數據和無標簽數據。為了優化網絡，為每層計算一個要優化的損失函數Lul。對于CNN 中任意j層，修改目標函數為：

其中，L是網絡總層數；N(j) 是每層的特征數據量；是編碼器的輸出通過第j層解碼層輸出的結果。CCLN 方法由卷積神經網絡CNN 和階梯網絡LadderNet組成，處理后的訓練數據被送入卷積層進行訓練。提取數據特征后，將特征輸入階梯網絡進行數據分類，最終得到分類結果。訓練前，將數據集分為訓練部分和驗證部分進行交叉驗證，然后在訓練部分分離出一個小樣本部分作為有標簽數據，其余數據作為無標簽數據。

（2）基于TCCLN 的惡意軟件檢測方法

為了充分利用一些現有的網絡流量數據集，在半監督方法的基礎上結合了遷移學習的方法。首先將現有的網絡流量數據集進行預處理，然后按照式(2) 進行訓練，得到可用于提取網絡流量特征的卷積神經網絡c。隨后去掉c的分類層，使其輸出特征數據如下：

其中，f是卷積神經網絡提取的特征；cf是去掉頭部（如全連接層和softmax）的卷積神經網絡；? conv是cf的參數。使用cf處理從網絡獲得的無標簽數據和少量有標簽數據，得到無標簽特征ful和有標簽特征fl。將ful和fl作為輸入數據，分類層表示為：

其中，cTL表示遷移的網絡；fc?表示新分類層的網絡參數；表示? conv被凍結，防止更新。根據式(4)對cTL網絡進行優化，即可達到分類目標。CCLN 和TCCLN 的主要區別在于TCCLN 使用了遷移學習方法。首先將源域數據輸入預訓練網絡，在完成預訓練后，特征提取器被遷移到目標域并全部凍結；然后輸入目標域數據，將特征提取器連接到階梯網絡進行分類。在這種方法中，首先使用預訓練集訓練預訓練網絡，然后對數據集進行劃分，以完成遷移訓練。

（3）基于TCCLN 方法的消融實驗[22]

在上文采用的TCCLN 方法中，將預訓練后遷移到目標域的兩個卷積層全部凍結再進行訓練，與此同時也采用了兩種不同的遷移情況：第一種是對于參與預訓練的兩個卷積層均進行遷移學習的二次訓練，這種方法稱為權重未凍結下的TCCLN（UTCCLN,Unfrozen Transfer Convolution Cascade Ladder Network）；第二種是凍結參與預訓練的前一層卷積層，第二層卷積層參與二次訓練，這種方法稱為部分權重凍結下的TCCLN（PTCCLN,Partially frozen Transfer Convolution Cascade Ladder Network）。三種基于遷移學習的惡意軟件流量分類方法如圖2 所示。其中，灰色方框內的卷積層代表遷移后在目標域被凍結不參與訓練；綠色方框內的卷積層參與二次訓練。

圖2 三種基于遷移學習的惡意軟件流量分類方法

3 實驗與評估

3.1 實驗參數設置

本文所有實驗均基于Geforce GTX 1080ti 為核心的硬件平臺，環境為Keras 2.2.4 深度學習框架和Python 3.6.2，使用sklearn 0.23.2 中的工具來評估模型，實驗中使用的隨機森林（RF,Random Forest）與支持向量機（SVM,Support Vector Machine）也基于sklearn 機器學習庫。

3.2 實驗結果

本次實驗主要使用準確率、精確率、召回率、F1 值以及混淆矩陣來對實驗結果進行評估。在本節中，首先比較提出的CCLN、TCCLN 方法在有標簽樣本比例為1%和5% 的情況下的分類準確率。如圖3 所示，本文所采用的兩種方法準確率均高于RF、SVM 方法，且采用知識遷移學習的方法（TCCLN）在有標簽樣本數較少（1%）的情況下獲得了更好的性能，當有標簽樣本數量增加（5%）時，直接特征提取方法（CCLN）會取得更好的效果。造成這種現象的原因是在樣本較少的情況下，從源域數據中學習到的知識有助于目標域的數據訓練。然而，當目標域的訓練數據增加時，目標域的特征提取層提取的特征與訓練數據更加一致，具有更好的分類性能，而在源域提取的特征不再適用于目標域的分類。因此，在這種情況下，采用遷移學習的方法性能會更差。

圖3 不同方法在1%和5%有標簽樣本下的準確率、精確率、召回率及F1值

消融實驗結果表明，采用全凍結模式的TCCLN 方法取得了最高的準確率，而采用部分凍結的PTCCLN 方法和全不凍結的UTCCLN 方法準確率起伏較大，這是由于遷移過程中源域數據量大，預訓練過程較為完善，此時的特征提取器分類準確性更強，而在目標域中的有標簽數據量較少，會對訓練過程產生一定程度上的影響。

從圖4 可以看出，相比于CCLN 方法，TCCLN 方法在1% 有標簽數據量時提高了一些軟件流量的識別準確率，然而個別類的識別準確率仍較低。而在圖5 顯示的混淆矩陣中可以看出，在有標簽樣本量增加后，CCLN 方法的準確率高于TCCLN 方法，一些類的識別準確率甚至能達到百分百。

圖4 有標簽樣本比例為1%時CCLN方法（左）和TCCLN方法（右）的混淆矩陣

圖5 有標簽樣本比例為5%時CCLN方法（左）和TCCLN方法（右）的混淆矩陣

4 結束語

本文分別提出了基于CCLN 和TCCLN 的惡意軟件檢測方法，并介紹了這兩種方法分別應用于有標簽樣本較少（5%）和有標簽樣本更少（1%）的情況?；贑CLN 的惡意軟件檢測方法在有標簽樣本較少的情況下實現了更好的性能，而在有標簽樣本更少的情況下，基于TCCLN 的惡意軟件檢測方法的分類性能更好。實驗結果表明，在有標簽樣本更少的情況下，在訓練前提取樣本特征可以達到較高的分類精度。本文所使用的模型是圖像識別領域的常用模型，通常具有高度的復雜性，因此在執行某些特定任務時，應測量所需的精度和計算能力，并適當簡化模型。此外，本文提出的基于遷移學習的方法都需要預訓練模型，這在實際應用中有時很難實現。在未來的工作中，將在幾個示例場景中進一步探索惡意軟件流量分類問題，并優化所提出的方法以解決上述問題。