一種針對木馬流量的特征選擇方法

2021-01-28 03:20:56劉曉潔李貝貝

四川大學學報(自然科學版) 2021年1期

張瑜，劉曉潔，李貝貝

(四川大學網絡空間安全學院，成都 610065)

1 引言

網絡攻擊中，木馬作為一種十分隱蔽的惡意程序，常被攻擊者用來竊取信息、遠程控制他人主機并借此構建僵尸網絡來發動大規模的攻擊，其中遠程控制型木馬危害較大，其大多對通信數據進行加密，在目標機器上通過多種方式隱藏自身，檢測難度較高.國家計算機網絡應急技術處理協調中心在《2018年中國互聯網網絡安全報告》中指出，2018年境內共有659208個IP地址的主機被植入木馬或僵尸程序，給網民、企業以至國家造成了巨大損失[1].

通過網絡會話流的異常行為識別木馬是當前的研究熱點，通過采集木馬流量并統計特征來構建異常檢測模型，部署在網絡出口節點上，從而實現對未知木馬的檢測，此方式避免了對加密流量載荷的分析，同時克服了基于主機行為的特征碼檢測方式[2-3]的滯后性.目前，對木馬通信流量進行異常檢測的研究工作主要集中在以下兩方面.

(1) 對于木馬會話流特征提取階段的改進：李巍等[4]將木馬通信過程劃分成建立連接、命令交互、保持連接三個階段，分別提取出代表性特征后建模驗證特征的有效性. Jiang等[5]提出一種在木馬通信早期階段進行檢測的方法，將會話從TCP三次連接開始到數據包間隔大于1 s這段時期定義為流的早期階段，通過提取該階段的特征進行模型構建及識別.但UDP會話無法劃定早期階段，且該研究選擇的特征不夠具有代表性.胥攀等[6]在時間維度上對木馬通信流進行聚類生成通信流簇，在簇上提取特征能夠更精確地描述木馬流量.該方法需要對提取到的數據聚合多次，增加了計算代價且損失了實時性.

(2) 對于檢測階段的改進：蘭景宏等[7]提出一種木馬流量檢測集成分類模型以增加分類精度和泛化能力，先對旋轉隨機森林算法中的主成分變換進行均值化改進，接著采用此旋轉森林算法對原始數據集進行旋轉處理，再選取樸素貝葉斯、C4.5決策樹和支持向量機構建集成分類模型.張兆林等[8]引入人臉識別領域的Adaboost算法模型，選擇支持向量機、C4.5決策樹和神經網絡建立集成分類模型，提高了單一算法的檢測效果.汪潔等[9]提出多層集成分類器的方法檢測惡意流量，首先采用無監督學習框架對數據進行預處理并將其聚成不同的簇，并對每一個簇進行噪音處理，然后使用隨機森林、bagging和Adaboost構建三層分類器進行檢測，達到了較好的檢測效果.此類方法[10-11]選擇的特征較少，代表性不足，且存在特征間信息冗余的缺點.

針對以上問題，本文提出一種子集規模自適應特征選擇方法.在提取并派生出充分的特征后，先對提取的特征計算重要性評價系數，接著在每一輪迭代中更新特征的聯合相關性評價系數，同時做出排序，使得篩選后的特征具有足夠的代表性，并減小子集中特征的冗余，最后選擇另外兩種特征選擇算法在真實木馬流量上采用樸素貝葉斯、支持向量機兩種分類算法進行對比實驗.

2 木馬通信行為分析

木馬大多采用C-S架構部署，服務端運行在受控主機上，客戶端運行在控制主機上，這種木馬稱為遠程控制型木馬.在Windows平臺上，木馬具有以下行為：磁盤文件操作，包括遠程運行、刪除、修改、上傳及下載；注冊表讀寫操作；進程管理操作；屏幕監控和鼠標控制；鍵盤記錄及遠程操作；遠程執行CMD命令；攝像頭及聲音設備控制.這些行為從網絡流的角度可以劃分成四類：下行短數據流(如控制命令)、上行短數據流(如命令執行結果)、下行長數據流(如文件傳輸)、上行長數據流(如屏幕監控)，這里的上行指服務端向客戶端發送的方向，下行則是指客戶端向服務端發送的方向,長短表示流的持續時間.在程序通信中，網絡數據流指按照五元組(源IP、目的IP、源端口、目的端口、協議)對數據包劃分后得到的數據包集合，本文將一條網絡數據流定義為一條會話，通過對多種木馬運行并分析其會話數據后，劃分以下5類會話屬性，共提取43個會話特征作為初選特征集，用以描述木馬流量與正常流量的差異.

2.1 上下行流特征

相比于正常應用程序，木馬服務端作為受控端，提供竊取信息和執行命令的功能，而正常應用程序的網絡行為是獲取信息和發送請求，反映在流量統計上則是上行流量遠高于下行流量，例如攻擊者在下載服務端上的文件或監控服務端主機的屏幕時.例如采集到的正常通信流和木馬流在上下行數據量比上的取值分布統計對比(如圖1所示)，從圖1可以看出木馬流量和正常流量的分布差異.本文在此屬性上派生出的6個會話特征見表1.

圖1 上下行流量比值差異

2.2 上下行數據包特征

在木馬連接和通信過程中，控制端會發送大量的命令到服務端執行，服務端會返回執行結果，而命令數據大多是較短指令構成的小數據包(100字節內)，返回的內容大多是大數據包(文件、CMD返回內容、音視頻數據)，例如正常流量與木馬流量在上行大包數量上的差異如圖2所示，本文在此屬性上派生出的12個會話特征見表2.

表1 上下行流特征

圖2 上行大包數量差異

表2 上下行數據包特征

2.3 流標志位特征

木馬服務端在通過DNS解析到客戶端IP后，會向該地址不斷發送連接請求，直到成功連接到客戶端，在這一過程中，服務端會發起大量的TCP連接請求，產生了大量的帶有SYN標志位的數據包.同時為了使兩端的通信延遲更小，發送方會在發送控制數據時將該次連接的PSH標志位置1，這樣接收方便會在執行完成后立即返回結果數據，而不必等待其他數據，這也使得會話中帶有PSH標志位的數據包占比較正常會話高，本文在此屬性上提取的兩個會話特征見表3.

表3 流標志位特征

2.4 數據包間隔特征

受害主機在接收到客戶端發送的控制命令后，需要執行指定的命令，執行完成后再將結果返回給客戶端，攻擊者在收到數據后，也需要在分析結果后給出下一步攻擊命令，這樣就帶來了較大的數據包處理間隔.而正常通信流量的數據包間隔往往較小且更穩定，如圖3所示，流下行包最大間隔差異，本文在此屬性上派生出14個特征以描述會話流，如表4所示.

圖3 流下行包最大間隔差異

表4 數據包間隔特征

2.5 會話流基本特征

由于木馬攻擊活動具有持續性，因此其部分通信連接會保存較長的時間，而正常應用程序出于減小服務器負載的目的會在完成信息傳輸后斷開連接，釋放資源，因此大部分正常連接持續時間都短于木馬流.同時為了衡量數據流在時間維度上的差異，本文增加了9個會話流基本特征，如表5所示.

表5會話流基本特征

3 子集規模自適應特征選擇算法

在模式識別中，特征選擇作為一種降維方法一直是研究的熱點[12-16]，考慮到特征對模型預測能力的影響以及特征間的相關性，通過某種方法從原始特征集合中選擇更優的特征子集后，能夠在后續機器學習模型中得到更好的預測效果，同時降低在大規模數據下的計算代價.

按照搜索策略來劃分特征選擇方法，可以分為采用全局最優搜索的特征選擇算法、采用隨機搜索策略的特征選擇算法和采用序列搜索策略的特征選擇算法三類.其中采用全局最優搜索可以找到最優子集，但計算代價也是最大的，目前使用較廣泛的是后兩者[17-19].若按照特征子集評價標準來劃分特征選擇方法，主要分為Filter(過濾法)和Wrapper(包裝法).其中，Filter方法獨立于后續機器學習算法的結果，通過某些統計指標來衡量選擇的優劣，使用較廣泛的指標有特征間距離、特征信息熵等；而Wrapper方法將后續采用的機器學習算法的結果作為指標來衡量特征選擇的優劣，這種方法與算法結合得更加緊密，但也損失了特征選擇的一般性.

本文采用序列搜索中的后向選擇策略和Filter式的評價標準構造特征選擇算法.

3.1 特征重要性及聯合相關性度量

本文在后向選擇策略的基礎上，定義特征重要性評價系數以及特征的聯合相關性評價系數.基于這兩系數，本節提出一種特征子集自適應選擇算法(Adaptive Feature Subset Selection Algorithm, AFSA)，AFSA算法通過每一輪迭代計算特征間的組合效應，選出最優特征，且能自適應地確定特征數量.

3.1.1 改進的重要性及聯合相關性評價系數特征的重要性評價系數指通過該特征識別出某類C的能力強弱，重要性評價系數越大，說明通過該特征能夠更好地區分類C與其他類.根據香農信息熵理論，若某特征f在類C上的取值范圍較集中，表示其不確定性較小，在類C上具有較強代表性，同時，若特征f在類C1和C2上的取值分布范圍重合區間較小，表示該特征在此兩類上分布差異較大，通過特征f能夠很好地區分類C1和C2.特征重要性評價系數結合了特征f的取值集中程度和在不同類上的分布差異.

特征的聯合相關性評價系數則用來衡量特征f與剩余特征集合的相關性關系，本文采用標準化互信息來計算兩兩特征間的相關性，若特征f與剩余特征相關性較高，且在去除該特征后剩余特征集合內相關性較低，則表明該特征給特征集合帶來了較大的冗余信息.基于以上分析，本節給出以下的定義.

假定有木馬流量數據集S，包含M條數據，每條數據由N個特征值和一個類別標簽構成，廣義上有兩種類別：木馬流量和正常流量，但正常流量間具有差異性，因此本文先對正常流量通過K-Means聚類后，根據結果更新正常流量這一類別，同時本文采用Z-score方法對數據進行標準化以消除不同量綱的影響.

定義1特征集中度Pim，表示特征fi在Cm類上的分布集中度.

Pim=1/(Zmax-Zmin)Vs

(1)

其中,Zmax、Zmin為標準化后特征最大、最小值;Vs表示特征取值的離散系數.

定義2特征值分布差異Dimn.

Dimn=nim·nin/nimn2

(2)

從圖1～圖3可以看出，同一特征在兩類上取值分布具有差異，其中，nimn表示兩類在同一特征上取值重合區間內樣本數；nim、nin分別表示兩類的樣本總數.

定義3特征重要性評價系數Ii.

(3)

特征重要性評價系數衡量了特征f在木馬類別上取值集中程度及與其他類的分布差異，該值越大，表示特征在選擇時權重越大.

定義4特征聯合相關性評價系數Ei.

該評價系數的思想來源于圖像關聯分析中的關聯信息熵[20]，是一種度量信息冗余的指標，文獻[13]引入該思想到特征選擇中，相較于文獻[13]中提出的關聯信息熵公式，本文采用特征間標準化互信息作為矩陣元素，更好地度量特征集整體的相關性.設有原始木馬流量特征集合F={f1,f2,f3, ... ,fN}，從中選擇特征fk后剩余特征子集F/fk，基于特征間的相關關系，構造以下相關性模型Hk,形式為

(4)

例如F={f1,f2,f3,f4,f5}時f2的相關性模型H2的形式如下.

(5)

Hk為一個N-1階方陣，矩陣元素NMIij為兩個特征間的標準化互信息：

(6)

其中，I(X;Y)為X和Y的互信息；H(X)和H(Y)為X和Y的熵，根據性質知0≤NMIij≤1，NMIij=NMIji，那么Hk為實對稱方陣.對稱方陣進行特征分解得到的特征值表示在各個特征向量上矩陣的信息量，而每個特征對相關性影響可以用其特征值表示，假定Hk存在K個正特征值ek，定義特征聯合相關性評價系數為

(7)

當特征fk與其他特征完全相關，且特征子集間相互無關時，矩陣Hk成為單位矩陣I，單位矩陣的特征值均為1，根據式(7)可以計算出Ei為1，這時將特征fk視為帶來較大不確定性的特征，在后續選擇中權重較低，若特征fk與其他特征不相關，此時Ei為0，將該特征視為帶來較小不確定性的特征，后續選擇中權重更高，因此該系數滿足特征選擇的要求.

3.2 子集規模自適應后向特征選擇算法

通過3.1節定義的兩個評價系數，本文設計了基于序列后向選擇的子集規模自適應特征選擇算法，特征選擇中如何確定移除的特征數量是一個研究熱點，而人工設定數量的方式不夠靈活，本文算法通過以下策略對子集規模進行控制,如算法1所示.

算法1 特征子集自適應后向選擇算法-AFSA

輸入原始特征集合F，數據集，類別C.

輸出終選特征子集S.

1) 遍歷F，計算特征f重要性評價系數If；

2) 計算重要性評價系數均值Ie，將低于均值的特征放到預移除特征集合Fd中，剩余特征為集合Fr，F=Fd+Fr；

3) 計算F的特征間標準化互信息NMIij；

4) 遍歷Fr，計算每個特征相對于Fr的聯合相關性評價系數Eri，同時計算Fr聯合相關性評價系數均值和重要性評價系數均值的比值Rri作為參照值，以Fr中特征的系數比值最小值作為適應值；

5) 遍歷Fd，計算每個特征相對于Fd+Fr的聯合相關性評價系數Edi，計算聯合相關性評價系數均值和重要性評價系數均值的比Rdi后做升序排序；

6) 若Fd中末尾特征flast的Rd大于參照值Rri，則在Fd中移除特征flast，否則結束，若第一輪比較時無可移除特征，那么令Rri為步驟4)中的適應值；

7) 若Fd為空，算法結束，否則回到步驟5)；

8) 結束后輸出特征選擇結果Fd+Fr.

由于上述步驟6)第一次移除時，可能出現無法移除特征的情況，本文的目標是盡可能移除較差作用特征，因此算法考慮對參照值Rri作一定范圍調整，即以Fr中特征的聯合相關性評價系數和重要性評價系數比的最小值作為參照值Rri，若仍然無可移除特征，算法終止，表明原始特征集合較為優異.

3.3 算法復雜度分析

盡管特征選擇在整個檢測系統只需進行一次，但算法的計算代價也需要盡可能的低.按照3.1節中所述，設有N維特征，M個類別，k條樣本數據，3.2節算法中計算特征重要性評價系數代價為O(NMk)，兩兩特征計算NMI的計算代價為O(k2)，最壞情況下迭代次數為Fd，此時總的相關性評價系數計算代價為O(N3×N)，由于N?k，那么算法時間復雜度為O(k2)，相較于經典的mRMR算法[21]的O(N2k2)，本算法計算代價更低.

4 實驗測試及分析

為了驗證本文提出方法的有效性，本文設計了兩組對比實驗：(1) 將本文初選特征集和終選特征集與文獻[7]中16個特征基于相同分類器做實驗對比，驗證特征提取和特征選擇的有效性；(2) 與常用基于信息熵的特征選擇算法作對比，驗證本文特征選擇算法的改進效果.實驗均使用相同的訓練集和測試集，采用樸素貝葉斯分類算法和支持向量機分類算法.這兩種算法在相關研究[6-7,10-11]中多被采用，且屬于分類算法中原理差異較大的代表性算法，能夠衡量特征集合的效果.為了得到更為準確的檢測效果，本文采用10折交叉驗證方法來計算評估指標.

4.1 實驗環境與數據樣本

本文在四川大學某實驗室局域網出口搭建了木馬流量檢測系統，測試局域網共有主機35臺，其中30臺為正常使用機器，用于生成正常流量，5臺為目標機器用于生成木馬流量，在局域網外設置一臺控制主機，用于控制木馬，通過設置端口白名單的方式來保證流量的純凈，網絡拓撲如圖4所示.實驗收集了惡意軟件社區(VirusShare、Github、MalShare)中上傳的木馬樣本，選擇后帶有控制端的可用木馬共42款.

圖4 木馬流量檢測系統網絡環境

在持續一周的流量采集中，共捕捉到正常流量32 GB、木馬流量5 GB，在經過流量清洗后，共得到正常會話流26 778條，木馬流量4 261條.

4.2 實驗評估指標

取木馬流量為Positive，正常流量為Negative.本文使用精確率、召回率和F1值三個指標來評價檢測效果，定義如下.

精確率： Prec=TP/(FP+TP)

(8)

召回率： Recall=TP/(TP+FN)

(9)

(10)

4.3 實驗及結果分析

用于對比的特征選擇算法為快速相關性過濾[17](FCBF)和信息增益法(IG)，均為基于信息熵的特征選擇方法.其中IG算法以特征的信息增益為指標，計算各個特征的信息增益并作排序，移除信息增益較低的特征，為了更準確地比較，其移除的數量設置與AFSA相同.FCBF算法步驟如算法2所示.

算法2 快速相關性過濾算法-FCBF

輸入特征集合F，數據集，閾值T，類別C.

輸出特征子集S.

1) 遍歷F，計算特征fi與類別的標準化互信息SUic；

2) 保留SUic大于閾值T的特征并排序；

3) 以剩余特征中SUi值最大者為主特征，計算其他特征fj與它的標準化互信息SUij；

4) 將SUij與fj的SUjc值比較，若大于SUjc則移除特征fj；

5) 回到步驟3)，在剩余特征中繼續選擇主特征，直到剩余特征數為1，輸出子集.

實驗后各算法移除的特征如表6所示.

表6 三種特征選擇算法移除的特征

特征選擇有效性驗證結果見表7和表8，相對于文獻[7]的特征集，本文初選特征集使用樸素貝葉斯分類時的精確率和召回率提升分別為0.31%、12.24%，使用SVM時的提升分別為0.55%、5.2%.通過本文特征選擇算法得到的終選特征集，使用樸素貝葉斯分類時的精確率提升為0.88%，召回率提升為2.12%，使用SVM時的精確率、召回率提升分別為1.25%、1.4%.

表7 樸素貝葉斯分類時特征選擇有效性驗證結果

表8 支持向量機分類時特征選擇有效性驗證結果

總體在召回率上的提升高于精確率上的提升，由于漏報的危害性大，即召回率的提升更為重要，在SVM分類算法上召回率提升總體小于在樸素貝葉斯分類上的提升，原因是本文特征選擇中一部分影響是聯合相關性系數帶來的，而樸素貝葉斯對特征獨立的強假設使得本方法帶來的增益更高.

本文特征選擇算法優異性驗證結果如表9和表10所示，在召回率上本文終選特征集較優，使用樸素貝葉斯分類時達到了最高96.92%，FCBF所選的特征集合在精確率上稍高于AFSA算法，但其F1值仍然低于本文終選特征集；且SVM分類時本文終選特征集達到最高99.03%的精確率，簡單使用信息增益的IG算法得到的特征子集檢測效果最差，召回率與文獻[7]特征集的結果接近.

表9 樸素貝葉斯分類時本文算法優異性驗證結果

表10 支持向量機分類時本文算法優異性驗證結果

結合以上實驗數據，對表6特征選擇結果進一步分析.FCBF算法移除的特征與本文AFSA算法移除的特征有一定的重合，在對算法的每一輪計算結果進行對比后發現，其未移除的特征中每秒流的數據包數、總下行包數量均被劃分到保留特征中，即它們與類別的標準化互信息值較大，但在AFSA移除過程中，這兩個特征分別在第2輪、第5輪被移除，它們的重要性評價系數差別并不明顯，但聯合相關性評價系數均較大，正是它們給總體特征集合帶來較大冗余而被移除.同時FCBF未做特征重要性度量，被其移除的發送包最大間隔和發送包間隔均值兩個特征在AFSA中屬于重要性評價系數較高而保留的特征.該算法需要設置閾值也給特征選擇帶來更多的工作和不確定性.

IG算法僅考慮單一特征與類別的相關程度，忽略了特征間的相關性，其移除的特征與前兩者差異較大，其中部分特征的重要性評價系數較大，如發送包最大間隔、數據包平均長度，另外總上行包長度、下行包間隔總和兩個特征在AFSA中計算的聯合相關性評價系數較小，但在IG中表現為與類別關聯較弱而移除，最終造成較差的實驗結果.本文算法通過重要性評價系數預先劃分一次特征，接著通過每一輪迭代計算聯合相關性評價系數來綜合評價特征，充分考慮了特征與整體集合的相關性，得到更優的特征子集.

同時繪制出三種特征選擇算法得到特征集合使用樸素貝葉斯分類結果的實驗接收者操作特征曲線(Receiver Operating Characteristic, ROC)，如圖5所示.

圖5 樸素貝葉斯分類下ROC曲線

計算三條ROC曲線的AUC(Area Under Curve)值，見表11.

表11 AUC值

圖5及表11也證明本文特征選擇算法相比對照算法的優異性.

5 結論

現有基于通信流量的木馬檢測方法中存在所用特征的代表性不足、特征間信息冗余的問題，本文通過流量分析在一定規模的真實數據上充分提取木馬會話特征，通過定義改進的特征重要性評價系數和聯合相關性評價系數，基于此設計一種特征子集自適應選擇算法(AFSA).實驗結果表明，本文算法選擇后特征集合能有效提升木馬檢測效果.后續研究將集中于檢測模型的選擇與實時環境下系統的構建.