惡意代碼檢測技術(shù)研究綜述

2021-12-11 06:01:18楊坤

新一代信息技術(shù) 2021年20期

楊坤

(河北地質(zhì)大學(xué)信息工程學(xué)院，河北石家莊 050031)

0 引言

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，網(wǎng)絡(luò)安全攻勢也愈發(fā)激烈，人們在享受便捷日常的同時(shí)還受到無止盡的網(wǎng)絡(luò)攻擊。如今，網(wǎng)絡(luò)安全問題已成為人們正常生活和政府企業(yè)正常運(yùn)營的重大威脅之一。在一些地下利益的驅(qū)動(dòng)下，網(wǎng)絡(luò)攻擊技術(shù)在不斷地升級更新，黑客團(tuán)體使用各種技術(shù)升級包裝惡意軟件，意圖躲避安全軟件的查殺，惡意軟件潛伏在計(jì)算機(jī)系統(tǒng)中竊取用戶隱私信息，破壞系統(tǒng)數(shù)據(jù)，占用計(jì)算機(jī)資源，甚至威脅勒索用戶，給互聯(lián)網(wǎng)安全帶來了巨大的威脅，同時(shí)給網(wǎng)絡(luò)安全人員帶來了巨大的挑戰(zhàn)。

根據(jù)2021年瑞星發(fā)布的2020年中國網(wǎng)絡(luò)安全報(bào)告，2020年瑞星安全系統(tǒng)共截獲病毒樣本1.48×108億個(gè)，總體病毒數(shù)量相較2019年同期上升43.71%[1]。根據(jù)病毒感染的人數(shù)、病毒變種的數(shù)量以及所具有代表性進(jìn)行綜合性評估，得到2020年1月至 12月病毒 Top10：Adware.AdPop家族排名第一，這是流氓軟件使用的彈窗模塊；第二是 Trojan.ShadowBrokers家族，被病毒利用后進(jìn)行蠕蟲傳播的一類病毒；第三是Trojan.Vools家族，它利用計(jì)算機(jī)漏洞進(jìn)行傳播，攻擊區(qū)域網(wǎng)中的計(jì)算機(jī)，傳播挖礦木馬。由此看來，通過家族特征檢測病毒對于病毒的正確分類和統(tǒng)計(jì)有著至關(guān)重要的作用。

近幾年里惡意代碼數(shù)量呈爆發(fā)式增長，原因之一是惡意代碼編寫者往往通過復(fù)制已有惡意代碼的核心代碼段來生成新的惡意代碼，或者在原惡意代碼的基礎(chǔ)上進(jìn)行部分改進(jìn)，由此得到的惡意代碼變種和原惡意代碼歸屬于一個(gè)家族，它們在功能上會(huì)有些許不同，因此可能躲避基于特征碼掃描的病毒查殺技術(shù)。惡意代碼變種數(shù)量的激增，對惡意代碼的檢測造成了極大的阻礙，傳統(tǒng)的檢測方法已不堪重負(fù)，網(wǎng)絡(luò)安全態(tài)勢不容樂觀。

傳統(tǒng)的惡意代碼檢測方法主要有靜態(tài)分析方法和動(dòng)態(tài)分析方法。隨著近幾年來惡意代碼數(shù)目的暴增，出現(xiàn)了結(jié)合圖像處理技術(shù)的惡意代碼檢測方法：通過可視化惡意代碼，根據(jù)圖像相似度進(jìn)行分類，進(jìn)而對惡意代碼家族進(jìn)行分類。伴隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的崛起，這種結(jié)合圖像的新穎的惡意代碼檢測方法開始被越來越多的安全研究者所應(yīng)用。

1 傳統(tǒng)惡意代碼檢測技術(shù)

惡意代碼最早出現(xiàn)于上世紀(jì)八十年代末期，大多以病毒的形式存在，這時(shí)候反惡意代碼軟件也應(yīng)運(yùn)而生，由于這個(gè)時(shí)期科學(xué)技術(shù)不夠發(fā)達(dá)，惡意代碼還處于比較簡單的階段，因此對應(yīng)的惡意代碼檢測技術(shù)也比較簡單，采用的通常是較為直接的特征匹配方法，通過提取惡意代碼的特征串進(jìn)行匹配即可完成檢測。隨著科學(xué)技術(shù)的發(fā)展，惡意代碼的形態(tài)、數(shù)目發(fā)生很大的變化，簡單的特征匹配方式不能滿足查殺需求，因此出現(xiàn)了基于動(dòng)態(tài)特征的惡意代碼檢測技術(shù)，并由此根據(jù)分類時(shí)使用特征的不同，將惡意代碼的檢測技術(shù)分為了靜態(tài)分析技術(shù)和動(dòng)態(tài)分析技術(shù)[2]。

靜態(tài)分析方法[3]，指的是使用惡意代碼的靜態(tài)特征進(jìn)行分析。在不實(shí)際執(zhí)行程序的情況下，通過使用反匯編技術(shù)對可疑軟件進(jìn)行反匯編操作，然后通過查看分析反匯編代碼得到惡意代碼的靜態(tài)結(jié)構(gòu)、流程圖以及各個(gè)代碼塊，進(jìn)而提取惡意代碼的特征字符串作為其特征碼，常見的惡意代碼靜態(tài)分析方法有基于特征碼的檢測、基于代碼語義的檢測和啟發(fā)式掃描方法[4]。靜態(tài)分析方法的優(yōu)勢在于執(zhí)行速度快，方案簡明高效，覆蓋范圍廣，但是其不足之處在于難以應(yīng)對日漸復(fù)雜的惡意代碼對抗技術(shù)，一些經(jīng)過加殼或混淆手段處理的惡意代碼在形態(tài)上發(fā)生了變換，對其進(jìn)行靜態(tài)特征提取時(shí)會(huì)變得很困難。

動(dòng)態(tài)分析方法[5]，指的是在一個(gè)安全虛擬的環(huán)境或者沙盒中執(zhí)行代碼，通過監(jiān)視程序運(yùn)行、比較惡意程序的某些狀態(tài)信息在執(zhí)行前后發(fā)生的變化來識(shí)別分析惡意代碼。這在一定程度上解決了加殼混淆等惡意代碼對抗問題，但是該方法耗時(shí)、耗資源，且無法應(yīng)對反沙箱、虛擬機(jī)保護(hù)技術(shù)等更加復(fù)雜的惡意代碼對抗技術(shù)。

靜態(tài)分析方法和動(dòng)態(tài)分析方法都是基于惡意代碼的靜態(tài)特征或動(dòng)態(tài)特征的惡意代碼識(shí)別分析方法。這種基于特征的分析方法需要先人工提取惡意代碼的文本分析特征或程序執(zhí)行特征，然后分析比對提取的特征，以此將惡意代碼正確分類。其缺點(diǎn)是在提取特征階段仍然是由人工分析，并沒有實(shí)現(xiàn)真正的智能化，人工分析可能會(huì)丟失惡意代碼的深層特征，從而無法正確地分類惡意代碼。

2 基于圖像的惡意代碼檢測技術(shù)

隨著圖像處理領(lǐng)域的發(fā)展，有研究者提出基于圖像化的惡意代碼檢測技術(shù)，并在近幾年里迅速發(fā)展起來。2008年 Conti等人[6]首次提出將二進(jìn)制和數(shù)據(jù)文件可視化的想法，在他們的研究中，他們分別將音頻數(shù)據(jù)、固定或可變長度的記錄數(shù)據(jù)以及文本數(shù)據(jù)進(jìn)行可視化。2011年，Nataraj等人[7]提出了將惡意代碼可視化為灰度圖像并進(jìn)行分類的一套完整方案，構(gòu)建了惡意代碼圖像數(shù)據(jù)集Malimg，其中包含25個(gè)家族共計(jì)9 458個(gè)惡意軟件樣本。在該文介紹了將惡意代碼文件轉(zhuǎn)換為灰度圖像的方法：將惡意代碼文件以二進(jìn)制串形式表示，每8位二進(jìn)制數(shù)即一個(gè)字節(jié)，轉(zhuǎn)換為十進(jìn)制的范圍是[0, 255]，正好對應(yīng)灰度圖像的一個(gè)灰度值，0表示黑色像素，255表示白色像素，具體轉(zhuǎn)換過程如圖1所示。

圖1 惡意代碼可視化為圖像過程Fig.1 the process of malicious code visualization as an image

圖像寬度由經(jīng)驗(yàn)值確定，如表 1所示，圖像高度則取決于文件的大小。

表1 圖像寬度確定Tab.1 determine image width

圖 2展示了不同家族的多個(gè)惡意代碼可視化后的圖像，從可視化結(jié)果中可以明顯看到，屬于相同家族的惡意代碼圖像呈現(xiàn)出非常相似的布局和紋理，屬于不同家族的惡意代碼圖像相似性較差。基于這一結(jié)論，該文使用 GIST算法提取圖像的特征并使用KNN分類算法對圖像進(jìn)行分類，最終在Malimg數(shù)據(jù)集上達(dá)到了97.18%的分類準(zhǔn)確率。

圖2 屬于不同家族的惡意代碼圖像Fig.2 images of malicious code belonging to different families

2013年Kancherla等人[8]在Nataraj等人的基礎(chǔ)上提出使用灰度圖像的密度特征、Gabor特征和小波特征來計(jì)算圖像相似性。密度特征直接從字節(jié)圖中提取，基于小波的特征可以有效地捕獲紋理信息。最后使用SVM算法在一個(gè)包含25 000個(gè)惡意軟件樣本和12 000個(gè)良性軟件樣本集上獲得了95%的分類準(zhǔn)確率。

2014年韓曉光等人[9]提出一種基于紋理指紋的惡意代碼特征提取和檢測方法，在將惡意代碼按照文獻(xiàn)[7]的方式轉(zhuǎn)換為灰度圖像后，首先使用基于紋理分割的方法對圖像進(jìn)行分塊，使用灰度共生矩陣（GLCM）提取圖像中每一個(gè)分塊的紋理特征，這些圖像紋理特征即作為惡意代碼的指紋特征；根據(jù)這種指紋特征，創(chuàng)建方便對紋理指紋進(jìn)行索引的結(jié)構(gòu)；最后在檢測階段，采用加權(quán)的方式綜合多分段紋理指紋的相似性匹配方法檢測惡意代碼變種和未知的惡意代碼[9]。該論文的提出使得惡意代碼圖像化檢測在國內(nèi)有了創(chuàng)新性研究進(jìn)展。2016年任卓君等人[10]在惡意代碼可視化的基礎(chǔ)上提出將二進(jìn)制文件像素歸一化，通過RGB通道呈現(xiàn)惡意代碼的特征，這種方法將比較文件之間的相似性轉(zhuǎn)換為比較像素點(diǎn)集合之間的相似性，并且使用Jaccard距離度量來計(jì)算特征的相似度，最后采用 KNN算法來實(shí)現(xiàn)惡意代碼的樣本分類。

2018年Yan等人[11]提出一種基于改進(jìn)的局部二值模式（LBP）算法——對稱旋轉(zhuǎn)不變的共生局部二值模式算法（PRICoLBP）的惡意代碼分類，發(fā)現(xiàn)該算法在不同惡意代碼家族之間具有線性可分性，PRICoLBP-TFIDF算法對混淆代碼具有較強(qiáng)的容錯(cuò)性，尤其是在加密強(qiáng)度較弱、代碼段重定位、有冗余數(shù)據(jù)和指令的情況下也能有較好的分類精度。同年，劉亞姝等人[12]結(jié)合文獻(xiàn)[8]和文獻(xiàn)[11]，提出一種惡意代碼圖像特征融合的方法：將圖像全局特征（GIST）和局部特征（LBP）融合，以此構(gòu)建魯棒性更強(qiáng)的特征描述符，可以更好地抗混淆、抗干擾，這種方法一定程度上解決了Nataraj的方法[8]在一些相似度很高或差異性不大的惡意代碼家族上模型的分類準(zhǔn)確率不高的問題。實(shí)驗(yàn)證明這種特征融合的算法得到了更好的分類結(jié)果。

近幾年隨著深度學(xué)習(xí)技術(shù)發(fā)展，有研究者提出基于深度神經(jīng)網(wǎng)絡(luò)的惡意代碼圖像化方案，2018年，Cui等人[13]使用蝙蝠算法（Bat Algorithm）解決了因 Malimg數(shù)據(jù)集中惡意代碼族群樣本數(shù)量不均所導(dǎo)致的過擬合問題，并結(jié)合卷積神經(jīng)網(wǎng)絡(luò)對 Nataraj使用的分類方法做了改進(jìn)，最后在Malimg數(shù)據(jù)集上既保證了檢測速度又達(dá)到了94.5%的分類準(zhǔn)確率。該文章仍然按照文獻(xiàn)[8]的方法將惡意代碼二進(jìn)制轉(zhuǎn)換為灰度圖像，然后將惡意代碼灰度圖像放入搭建好的 CNN網(wǎng)絡(luò)中自動(dòng)進(jìn)行識(shí)別和分類。由于 Malimg數(shù)據(jù)集的分布極其不均衡，如圖3所示，嚴(yán)重影響了CNN分類的效果，因此，在文獻(xiàn)[13]中使用了蝙蝠算法來降低因數(shù)據(jù)不均衡所導(dǎo)致的過擬合問題。

圖3 Malimg數(shù)據(jù)集分布Fig.3 the dirtribution of Malimg dataset

自此，深度學(xué)習(xí)開始逐漸應(yīng)用于惡意代碼分類任務(wù)中。Edmar等人[14]于2018年提出使用遷移學(xué)習(xí)方法，將深度學(xué)習(xí)框架Resnet-50應(yīng)用到惡意代碼樣本上，整體準(zhǔn)確率達(dá)到98%以上，取得了比Nataraj[8]更好的結(jié)果。2019年，KHAN R U等[15]使用GooleNet和ResNet對兩個(gè)不同數(shù)據(jù)集進(jìn)行分類識(shí)別，驗(yàn)證了深度學(xué)習(xí)框架對惡意代碼識(shí)別分類的有效性。

隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，其弊端也逐漸顯現(xiàn)出來：由于深度學(xué)習(xí)框架的網(wǎng)絡(luò)層數(shù)越來越深，網(wǎng)絡(luò)結(jié)構(gòu)越來越復(fù)雜，使得計(jì)算量和參數(shù)量不斷增加，造成計(jì)算機(jī)巨大的資源消耗和運(yùn)行的時(shí)間消耗。由此，曾婭琴等人[16]使用了當(dāng)時(shí)工業(yè)界流行的輕量級神經(jīng)網(wǎng)絡(luò)——MobileNet v2模型[17]，該模型主要運(yùn)用了分組卷積的思想來降低深度卷積網(wǎng)絡(luò)模型中的計(jì)算量和參數(shù)量，在文獻(xiàn)[16]中實(shí)現(xiàn)了基于該模型的惡意代碼變種分類模型，在該論文的實(shí)驗(yàn)結(jié)果說明中，提到該模型對惡意代碼家族的分類平均準(zhǔn)確率可高達(dá)99.32%[16]。

圖4 標(biāo)準(zhǔn)卷積Fig.4 standard convolution

圖5 深度可分離卷積Fig.5 depthwise separable convolution

2018年Goole對MobileNet v1結(jié)構(gòu)進(jìn)行改進(jìn)，提出了MobileNet v2輕量級網(wǎng)絡(luò)，改進(jìn)的v2模型主要是在v1模型的架構(gòu)上加入了線性瓶頸（Linear Bottleneck）和倒殘差結(jié)構(gòu)（Inverted Residual）。

圖6是MobileNet v2模型中的可分離線性瓶頸結(jié)構(gòu)（Separable with Linear Bottleneck），在這個(gè)結(jié)構(gòu)中替換標(biāo)準(zhǔn)卷積為深度卷積和逐點(diǎn)卷積，在逐點(diǎn)卷積層后面加入了使用線性激活函數(shù)的1×1卷積（網(wǎng)格標(biāo)志的層），這一模塊稱之為 Linear Bottleneck。

圖6 可分離的線性瓶頸Fig.6 separable with linear bottleneck

經(jīng)典的殘差塊（Residual Block）結(jié)構(gòu)如圖7所示，圖中每個(gè)塊的厚度代表對應(yīng)通道的數(shù)量，在圖8中將高維特征圖先使用1×1卷積降維，然后再使用3×3卷積進(jìn)行濾波，最后利用1×1卷積進(jìn)行升維，以此得到輸出特征，也就是下一層的輸入，這里每一層卷積都使用了ReLU函數(shù)進(jìn)行激活。

圖7 經(jīng)典殘差塊結(jié)構(gòu)Fig.7 residual block

MobileNet v2借鑒了殘差結(jié)構(gòu)的思想，并做了相應(yīng)的改進(jìn)：將經(jīng)典的殘差結(jié)構(gòu)改進(jìn)為倒殘差結(jié)構(gòu)，其結(jié)構(gòu)如圖8所示，圖中塊的厚度表示通道的數(shù)量。

圖8 倒殘差塊結(jié)構(gòu)Fig.8 inverted residual block

由于深度卷積層提取特征受限于輸入特征的維度，若采用經(jīng)典殘差塊，經(jīng)過1×1的逐點(diǎn)卷積后再使用深度卷積層進(jìn)行濾波，這兩部分會(huì)把輸入特征圖進(jìn)行壓縮，容易導(dǎo)致重要信息的丟失，最終有可能影響模型的檢測精度。因此，MobileNet v2使用的倒殘差結(jié)構(gòu)可以解釋為：首先通過1×1的逐點(diǎn)卷積將輸入特征圖的通道進(jìn)行擴(kuò)張，豐富特征數(shù)量，再通過3×3的卷積提取特征，最后使用1×1卷積進(jìn)行壓縮，從而達(dá)到提高模型精度的目的。由于這一過程恰與經(jīng)典殘差塊的順序顛倒，所以稱之為倒殘差結(jié)構(gòu)（Inverted Residual Block）。簡單說，倒殘差塊就是將低維特征使用1×1卷積進(jìn)行升維，而后使用3×3卷積進(jìn)行濾波，最后使用1×1卷積進(jìn)行降維，得到本層特征的輸出，即下一層特征的輸入。這樣的結(jié)構(gòu)增加了特征維度，可以一定程度上提高模型精度。

3 結(jié)論

本文介紹了惡意代碼分類的基本方法，重點(diǎn)介紹了基于圖像的惡意代碼分類。從使用傳統(tǒng)機(jī)器學(xué)習(xí)方法到使用深度學(xué)習(xí)技術(shù)來進(jìn)行惡意代碼圖像的識(shí)別分類，可以看到在惡意代碼分類任務(wù)中，深度學(xué)習(xí)技術(shù)雖然可以自動(dòng)提取特征，但是會(huì)增加運(yùn)行時(shí)間，伴隨分類精度提升的是更多的計(jì)算資源，更長的運(yùn)行時(shí)間。對于這種實(shí)時(shí)性較強(qiáng)的任務(wù)，提出快速且錯(cuò)誤率較低的檢測方案是未來的研究重點(diǎn)，惡意代碼檢測方法在未來仍然有很大的發(fā)展提升空間。