999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于VGGNet的惡意代碼變種分類

2020-03-06 12:55:58蔡弘昊
計(jì)算機(jī)應(yīng)用 2020年1期
關(guān)鍵詞:分類模型

王 博,蔡弘昊,蘇 旸

(1.武警工程大學(xué) 密碼工程學(xué)院,西安 710086; 2.網(wǎng)絡(luò)與信息安全武警部隊(duì)重點(diǎn)實(shí)驗(yàn)室(武警工程大學(xué)),西安 710086;3.武警工程大學(xué) 信息工程學(xué)院,西安 710086)

0 引言

隨著信息技術(shù)的飛速發(fā)展,呈指數(shù)增長的惡意代碼已經(jīng)成為網(wǎng)絡(luò)安全的主要威脅。賽門鐵克指出:2016年有4.01億份惡意代碼被發(fā)現(xiàn),其中包括3.57億份新的惡意代碼變種[1]。針對當(dāng)前數(shù)量龐大的惡意代碼,需要一種自動(dòng)化分析方法對其進(jìn)行檢測與分類,包括基于靜態(tài)分析的方法和基于動(dòng)態(tài)分析的方法,但是傳統(tǒng)的基于特征碼的自動(dòng)化分析容易被混淆技術(shù)繞過,基于動(dòng)態(tài)特征的自動(dòng)化分析方法(如沙箱技術(shù))雖然對惡意代碼有較高的識別率,但是系統(tǒng)開銷較大,檢測速度較低,不適合于大樣本集的惡意代碼檢測。

近幾年來,由于惡意軟件的制作者開始使用標(biāo)準(zhǔn)軟件工程實(shí)踐的方法,所以惡意軟件由其他幾個(gè)代碼樣本復(fù)合而成的現(xiàn)象變得越來越廣泛,從而使代碼的重用變得更加普遍[2],并且,大多數(shù)惡意軟件都是復(fù)用的,并不是從零開始編寫的。2014年,賽門鐵克指出:隨著惡意軟件程序員們致力于完善現(xiàn)有的惡意軟件,真正新創(chuàng)建的惡意軟件家族的數(shù)量已經(jīng)放緩,事實(shí)上,一些惡意代碼正在被重用和修改[3],所以,大部分惡意軟件的變種和母體有重復(fù)的代碼片段。

因此,有研究者利用這一特點(diǎn)將惡意軟件可視化。在惡意軟件的分類問題上,區(qū)別于傳統(tǒng)的特征提取方法,他們利用可視化后得到的圖像特征來對樣本進(jìn)行分類。Yoo[4]使用自組織映射圖來檢測和可視化可執(zhí)行文件中的惡意代碼,該方法假想每個(gè)惡意樣本都有其獨(dú)有的基因圖譜,同一家族樣本之間的基因圖譜是相似的,但是該方法生成的同一家族的圖譜差異較大導(dǎo)致錯(cuò)誤分類率較高。Han等[5]通過生成圖像矩陣的方法對惡意代碼進(jìn)行分類,該方法具有較高的分類準(zhǔn)確率但不足之處是需要反匯編提取操作碼序列,預(yù)處理較復(fù)雜。任卓君等[6]提出了一種利用熵像素圖來可視化惡意代碼的方法,通過比較熵像素圖的圖像特征來對惡意代碼進(jìn)行分類,缺點(diǎn)是對于植入大量冗余代碼的變種分類準(zhǔn)確率較低。

Nataraj等[7]將惡意軟件樣本轉(zhuǎn)換成灰度圖,利用惡意代碼變種之間圖譜的相似性,結(jié)合圖像處理的方法對惡意軟件進(jìn)行分類。該方法具有較高的識別率與較低的預(yù)處理成本,且對一般的混淆技術(shù)有一定的抵抗力。在此基礎(chǔ)上,Cui等[8]針對惡意代碼家族樣本數(shù)量不均勻?qū)е碌倪^擬合問題采用了蝙蝠算法(Bat Algorithm, BA)并結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的方法對Nataraj提出的方案作出了改進(jìn)。本文在充分研究上述研究成果的基礎(chǔ)上提出一種可視化方法來分類惡意代碼,該方法將二進(jìn)制文件轉(zhuǎn)換為彩色圖,基于VGG(Visual Geometry Group)卷積神經(jīng)網(wǎng)絡(luò)生成惡意樣本分類模型,并采用隨機(jī)失活(Dropout)算法解決過擬合和梯度消失問題以及降低神經(jīng)網(wǎng)絡(luò)計(jì)算開銷。與灰度圖相比,將二進(jìn)制文件轉(zhuǎn)換為彩色圖能更明顯強(qiáng)調(diào)圖像特征,尤其是對于二進(jìn)制序列中含有重復(fù)的短數(shù)據(jù)片段的文件。利用特征更明顯的訓(xùn)練集,神經(jīng)網(wǎng)絡(luò)能生成分類效果更好的分類模型。該方法實(shí)驗(yàn)結(jié)果表明,該方法使用25個(gè)族的9 342個(gè)樣本進(jìn)行評估,平均分類準(zhǔn)確率達(dá)96.16%,能有效地分類惡意代碼樣本。

1 惡意代碼變種分類模型

本文設(shè)計(jì)的基于VGG網(wǎng)絡(luò)的惡意代碼變種分類模型,其結(jié)構(gòu)如圖1所示,主要分為三層:樣本預(yù)處理層、卷積神經(jīng)網(wǎng)絡(luò)層和優(yōu)化層。

圖1 分類模型層次結(jié)構(gòu)Fig. 1 Classification model hierarchical structure

其中,樣本預(yù)處理層根據(jù)文件的二進(jìn)制序列將惡意代碼二進(jìn)制文件轉(zhuǎn)換為RGB(Red Green Blue)三色圖像。由于代碼復(fù)用在同一惡意家族之間普遍存在,因此屬于同一家族的惡意代碼變種之間有相同的二進(jìn)制序列片段,轉(zhuǎn)換為RGB圖像后表現(xiàn)為具有相同或相近的條紋圖案。根據(jù)這一特點(diǎn),將原始惡意代碼轉(zhuǎn)換為圖像進(jìn)行分類檢測的方法是可行的,并且,由于樣本預(yù)處理只涉及到分割文件二進(jìn)制序列這一個(gè)關(guān)鍵步驟,操作簡單,完全能以自動(dòng)化形式快速完成,因此適用于大規(guī)模惡意樣本的快速分類等即時(shí)性要求較高的場景。

卷積神經(jīng)網(wǎng)絡(luò)層負(fù)責(zé)將預(yù)處理得到的圖像輸入至卷積神經(jīng)網(wǎng)絡(luò)中,通過訓(xùn)練集與驗(yàn)證集每一輪的訓(xùn)練結(jié)果調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù),最終獲得具有較高識別率的分類模型。本文以VGG網(wǎng)絡(luò)為基本結(jié)構(gòu),微調(diào)了輸出層的結(jié)構(gòu)使其能與分類任務(wù)相匹配。

優(yōu)化層負(fù)責(zé)優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)或結(jié)構(gòu)以避免分類模型過擬合的現(xiàn)象。常見的優(yōu)化方法有正則化以及 Dropout,本文采用Dropout的方法在訓(xùn)練模型時(shí)隨機(jī)對輸出層部分節(jié)點(diǎn)失活處理,多輪訓(xùn)練得到多個(gè)結(jié)構(gòu)精簡后的“子網(wǎng)絡(luò)”通過取平均的作用以及減少神經(jīng)元之間復(fù)雜的共適應(yīng)關(guān)系達(dá)到避免過擬合的效果。采用Dropout結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)簡單,并且由于輸出層每輪參與運(yùn)算的節(jié)點(diǎn)數(shù)顯著減少,因此減少了模型的訓(xùn)練時(shí)間。

2 樣本預(yù)處理

惡意軟件二進(jìn)制比特串可以被分割成若干長度為8比特的子串,因?yàn)?比特可以看作0~255范圍內(nèi)的無符號整數(shù),這正好和灰度值的范圍0~255對應(yīng),所以每一個(gè)子字符串都可以看作一個(gè)像素[8]。選取連續(xù)的三個(gè)8比特字符串,分別對應(yīng)于彩色圖中RGB三色通道,即第一個(gè)8比特串對應(yīng)R通道的值,第二個(gè)8比特串對應(yīng)G通道的值,第三個(gè)8比特串對應(yīng)B通道的值,然后重復(fù)這一過程直到所有的數(shù)據(jù)都被選取完畢(最末段端數(shù)據(jù)量不足24比特的,用1補(bǔ)足)。舉例說明,假設(shè)有一串比特串為:011011101001100111010011,那么處理過程為011011101001100111010011 → 01101110, 10011001, 11010011 → 110,153,211。一個(gè)3字節(jié)(24比特)的二進(jìn)制數(shù)B=(b23,b22,b21,…,b2,b1,b0)能通過以下方法轉(zhuǎn)換為R、G、B三色通道的值:

這樣惡意軟件二進(jìn)制比特串就轉(zhuǎn)換成“l(fā)ength×width×3”型矩陣,其中l(wèi)ength的值根據(jù)文件大小自適應(yīng),width的值為分段區(qū)間上的定值,根據(jù)二進(jìn)制文件大小而定。Nataraj等[7]中給出了一種推薦的width取值如表1所示。

表1 不同文件大小所對應(yīng)的圖像寬度 Tab. 1 Image widths corresponding to different file sizes

但考慮到本文所采用的卷積神經(jīng)網(wǎng)絡(luò)的輸入為224像素×224像素的RGB圖像,若采用表1給定的圖像寬度取值來生成惡意代碼彩色圖,則部分樣本圖像由于長寬比例差異較大,被強(qiáng)制縮放成224像素×224像素時(shí)圖像中的紋理圖案會被拉伸或擠壓,造成一定的失真。為避免由圖像失真帶來的可能導(dǎo)致識別率降低的影響,本文在生成惡意代碼彩色圖時(shí)統(tǒng)一按照長∶寬=1∶1生成彩色圖(圖像正方化),然后等比例地縮放至224像素×224像素大小,從而最大限度地保持了圖像中的紋理特征。圖2給出了樣本預(yù)處理的流程。

不同惡意家族之間的紋理特征是不同的。圖3展示了經(jīng)圖像正方化以后25個(gè)惡意家族中的3個(gè)家族的樣本圖,從圖中可知Adialer.C家族中上部分是稀疏的彩色像素點(diǎn)陣,中間有一道黑色分割線,下部分是密集的彩色像素點(diǎn)陣接著是黑、白、黑三道條紋;C2LOP.P家族的上約3/4部分由稀疏彩色像素點(diǎn)陣和兩道黑色條紋組成,下方由相間的黑色條紋和一道彩色條紋組成;Swizzor.gen!I家族雖然上約3/4部分與C2LOP.P家族相似,但是其下方顏色漸變的彩色“波紋”卻是獨(dú)有的顯著特征。

圖2 樣本預(yù)處理流程Fig. 2 Flowchart of sample preprocessing

圖3 三個(gè)家族樣本經(jīng)圖像正方化至224像素×224像素Fig.3 Images of three family samples squared to 224px×224px

同一家族間的樣本具有相似的紋理圖案。圖4展示了經(jīng)圖像正方化后Lolyda.AA2家族中的兩個(gè)樣本圖像,從圖中可知樣本1和樣本2自上而下的紋理特征相似。

圖4 來自Lolyda.AA2家族樣本且 經(jīng)圖像正方化至224像素×224像素Fig. 4 Lolyda.AA2 family samples squared to 224px×224px

根據(jù)前文所設(shè)計(jì)的策略對Malimg樣本集進(jìn)行預(yù)處理后得到25個(gè)惡意家族共9 342個(gè)樣本的彩圖。相比于灰度圖,彩圖在保留了灰度圖主要特征的同時(shí),對于二進(jìn)制文件中重復(fù)出現(xiàn)的短數(shù)據(jù)片段具有更明顯的強(qiáng)調(diào)效果(這里的重復(fù)出現(xiàn)并不是一成不變的重復(fù),而是指偽重復(fù),即重復(fù)的片段后一段可以與前一段有微小差異,這樣在彩色圖中就會產(chǎn)生顏色漸變的圖案)。本文將使用深度學(xué)習(xí)的方法,基于VGG網(wǎng)絡(luò)結(jié)構(gòu)[9],對分類模型進(jìn)行訓(xùn)練,具體細(xì)節(jié)將在第3章敘述。

3 分類模型的構(gòu)建

3.1 基于VGGNet的分類模型

VGGNet(Visual Geometry Group Net)是牛津大學(xué)計(jì)算機(jī)視覺組Visual Geometry Group和Google DeepMind公司的研究員一起研發(fā)的卷積神經(jīng)網(wǎng)絡(luò)。VGGNet探索了卷積神經(jīng)網(wǎng)絡(luò)的深度與其性能之間的關(guān)系,通過反復(fù)地使用3×3的小型卷積核和2×2的最大池化層,VGGNet成功地構(gòu)筑了16~19層深的卷積神經(jīng)網(wǎng)絡(luò),并在2014年的ImageNet大型視覺識別挑戰(zhàn)賽(ImageNet Large Scale Visual Recognition Challenge 2014, ILSVRC 2014)中獲得定位任務(wù)第一名和分類任務(wù)第二名的優(yōu)異成績[9]。

VGGNet突出貢獻(xiàn)在于證明使用很小的卷積(3×3),增加網(wǎng)絡(luò)深度可以有效提升模型的效果,而且VGGNet對其他數(shù)據(jù)集具有很好的泛化能力,因此遷移到惡意代碼可視化圖像的分類問題上,VGGNet也會擁有不錯(cuò)的表現(xiàn)。

如圖5所示,本文采用的是基于VGG16的模型,由于樣本集大小為9 342,待分種類為25種,考慮到惡意樣本彩圖的紋理圖案復(fù)雜度較低,因此本文使用一層節(jié)點(diǎn)數(shù)為256的全連接(Fully Connected, FC)層“FC- 256”用以整合卷積層提取的特征。

圖5 本文采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig. 5 Neural network structure used in this paper

本文使用15層神經(jīng)網(wǎng)絡(luò)(灰色部分)的原因是考慮到擴(kuò)展的需要。待分類的種類與樣本總數(shù)越多,該神經(jīng)網(wǎng)絡(luò)越能體現(xiàn)出分類上的優(yōu)勢。

3.2 Adamax梯度下降優(yōu)化算法

Adamax算法是基于低階矩的自適應(yīng)估計(jì)的隨機(jī)目標(biāo)函數(shù)的梯度優(yōu)化算法。該算法實(shí)現(xiàn)簡單,計(jì)算效率高,內(nèi)存占用低,不僅適合解決擁有大量數(shù)據(jù)或者變量的問題,而且同樣適合目標(biāo)是非平穩(wěn)的和擁有嚴(yán)重噪聲或者稀疏梯度的問題[10]。

由于本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)的參數(shù)總量達(dá)到了1 471萬,屬于大量變量問題,同時(shí)因?yàn)椴捎昧薉ropout,Dropout后的子網(wǎng)絡(luò)相當(dāng)于對原網(wǎng)絡(luò)的稀疏表示,所以選擇了Adamax作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)的優(yōu)化算法。

4 模型擬合度優(yōu)化

本文所用的數(shù)據(jù)集樣本分布如圖6所示。由于各惡意家族間的樣本數(shù)分布并不均勻(比如Allaple.A家族有2 949個(gè)樣本,而kintrim.N家族只有80個(gè)樣本),如果忽略樣本之間的數(shù)量差異性對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不作調(diào)整,則會產(chǎn)生過擬合現(xiàn)象,造成分類準(zhǔn)確率下降。

為此,在神經(jīng)網(wǎng)絡(luò)的全連接層部分引入了Dropout算法,原理如圖7所示。2012年,Hinton等[11]提出Dropout。當(dāng)一個(gè)復(fù)雜的前饋神經(jīng)網(wǎng)絡(luò)被用于在小的數(shù)據(jù)集上訓(xùn)練時(shí),容易造成過擬合。為了防止過擬合,可以通過阻止特征檢測器的共同作用來提高神經(jīng)網(wǎng)絡(luò)的性能。簡言之:在前向傳播的時(shí)候,讓某個(gè)神經(jīng)元以一定的概率p激活,這樣可以使模型泛化性更強(qiáng),因?yàn)樗粫蕾嚹承┚植康奶卣鳌?/p>

圖6 本文所使用的數(shù)據(jù)集的樣本分布Fig. 6 Sample distribution of dataset used in this paper

圖7 隨機(jī)失活(Dropout)原理Fig. 7 Dropout schematic diagram

如圖9所示。圖9(a)表明一個(gè)單元在訓(xùn)練時(shí)是以概率p保留的并且以權(quán)重W連接至下一層的單元,圖9(b)表明在測試時(shí),單元總是存在的(也就是不會以概率1-p抹去一部分單元),但是為了使得測試時(shí)期望的輸出與訓(xùn)練時(shí)的輸出相同,因此要將權(quán)重乘以概率p。

圖8 標(biāo)準(zhǔn)網(wǎng)絡(luò)和隨機(jī)失活網(wǎng)絡(luò)前向傳播對比Fig. 8 Comparison of forward propagation of standard and dropout network

圖9 預(yù)測模型時(shí)隨機(jī)失活的操作Fig. 9 Operation of dropout in predicting model

Dropout可以解決過擬合的原因[12]在于:

1)取平均的作用。整個(gè)Dropout過程就相當(dāng)于對很多個(gè)不同的神經(jīng)網(wǎng)絡(luò)取平均,而不同的網(wǎng)絡(luò)產(chǎn)生不同的過擬合,一些互為“反向”的擬合相互抵消就可以達(dá)到整體上減少過擬合。

2)減少神經(jīng)元之間復(fù)雜的共適應(yīng)關(guān)系。因?yàn)镈ropout的存在導(dǎo)致兩個(gè)神經(jīng)元不一定每次都在一個(gè)Dropout網(wǎng)絡(luò)中出現(xiàn)。這樣權(quán)值的更新不再依賴于有固定關(guān)系的隱含節(jié)點(diǎn)的共同作用,阻止了某些特征僅僅在其他特定特征下才有效果的情況,迫使網(wǎng)絡(luò)去學(xué)習(xí)更加魯棒的特征。

除此之外,使用Dropout可以大幅度減少參與每輪訓(xùn)練的節(jié)點(diǎn)數(shù),提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度。

5 實(shí)驗(yàn)結(jié)果與評估

在本文實(shí)驗(yàn)中,樣本集選擇的是Vision Research Lab團(tuán)隊(duì)在2011年公布的Malimg數(shù)據(jù)集,它包括了25個(gè)惡意軟件家族的9 342個(gè)樣本[7]。對樣本進(jìn)行預(yù)處理后,通過神經(jīng)網(wǎng)絡(luò)框架Keras來創(chuàng)建和訓(xùn)練CNN。實(shí)驗(yàn)環(huán)境為Intel Core i7- 8750H CPU(2.20 GHz,12 CPUs)、Nvidia GeForce GTX 1060 GPU(6 GB)和16 GB RAM。

本文通過第2章所提方法將灰度圖轉(zhuǎn)換為彩色圖并進(jìn)行了圖像正方化得到9 342張惡意代碼彩色圖,按照8∶2的比例劃分訓(xùn)練集和驗(yàn)證集,采用python語言編程并以自動(dòng)化的方式執(zhí)行。在神經(jīng)網(wǎng)絡(luò)關(guān)鍵參數(shù)的設(shè)置方面,目標(biāo)函數(shù)losses=categorical_crossentropy,訓(xùn)練輪次epochs=200,訓(xùn)練時(shí)每一批包含的樣本數(shù)batch_size=16。圖10(a)和圖10(b)分別展示了經(jīng)過200輪訓(xùn)練后模型在損失值(Loss)和準(zhǔn)確率(Accuracy)指標(biāo)上的表現(xiàn)。

圖11展示了使用默認(rèn)參數(shù)時(shí),選用不同梯度下降優(yōu)化算法對模型在損失值和準(zhǔn)確率指標(biāo)上的影響。表2給出了各優(yōu)化算法的默認(rèn)參數(shù)取值。顯然,在4種算法當(dāng)中,Adamax的表現(xiàn)最好,其次分別是RMSprop(Root Mean Square prop)[13]、Adagrad[14]和SGD(Stochastic Gradient Descent)[15]。原因在于Adamax算法本質(zhì)上是帶有動(dòng)量項(xiàng)的RMSprop,它利用一階和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率使得參數(shù)值的變化比較平穩(wěn);RMSprop相比Adamax沒有記錄歷史梯度均值作為動(dòng)量而是僅采用了一種遞推遞減的形式來記錄歷史梯度平方和,導(dǎo)致早期的歷史梯度平方和會逐漸失去影響力,系數(shù)逐漸衰減;Adagrad隨著時(shí)間的累計(jì)每個(gè)參數(shù)的歷史梯度平方和會變得很大導(dǎo)致所有參數(shù)的學(xué)習(xí)率急劇縮小,因此采用該算法的模型隨著訓(xùn)練輪數(shù)的增加,在準(zhǔn)確率上提升速度顯著變慢;SGD由于設(shè)置了所有參數(shù)擁有相同的學(xué)習(xí)率,并且隨機(jī)以單個(gè)樣本的梯度作為整體更新方向使得更新不穩(wěn)定,波動(dòng)很大且某些情況下會被困在鞍點(diǎn)導(dǎo)致梯度消失,準(zhǔn)確率不再提升。

圖10 經(jīng)過200輪訓(xùn)練后模型在Loss和Accuracy指標(biāo)上的表現(xiàn)Fig.10 Performance of model on Loss and Accuracy after 200 epochs of training

圖11 使用不同算法后模型在Loss和Accuracy指標(biāo)上的表現(xiàn)Fig.11 Performance of model on Loss and Accuracy after using different gradient descent optimization algorithms表2 優(yōu)化算法相關(guān)參數(shù)的取值

Tab. 2 Values of relevant parameters of optimization algorithms

實(shí)驗(yàn)結(jié)果表明,經(jīng)過200輪訓(xùn)練后,對于本文的來自25個(gè)樣本的9 458個(gè)樣本,利用CNN訓(xùn)練出的分類器模型準(zhǔn)確率達(dá)96.16%,相比于文獻(xiàn)[8]的94.50%提高了1.66個(gè)百分點(diǎn)。為便于說明,將文獻(xiàn)[8]中使用的卷積神經(jīng)網(wǎng)絡(luò)稱為“simpleNet”,本文所采用的神經(jīng)網(wǎng)絡(luò)稱為“ourNet”,由實(shí)驗(yàn)得到圖12所示結(jié)果。圖12(a)和圖12(b)為兩種網(wǎng)絡(luò)在訓(xùn)練集上的表現(xiàn),雖然simpleNet在前15輪左右的性能表現(xiàn)比ourNet好,但是隨著訓(xùn)練輪數(shù)的增加,ourNet在性能上超越了simpleNet。ourNet性能表現(xiàn)更好的原因是采用了15層的基于VGG16的神經(jīng)網(wǎng)絡(luò)而simpleNet采取的神經(jīng)網(wǎng)絡(luò)為簡單的5層神經(jīng)網(wǎng)絡(luò),從網(wǎng)絡(luò)結(jié)構(gòu)上來看本文使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,因此能提取出更具體的圖案特征,從而達(dá)到更好的分類效果。此外,本文將灰度圖樣本處理成彩色圖樣本,加強(qiáng)了樣本的紋理特點(diǎn),尤其是對于二進(jìn)制序列中含有重復(fù)的短數(shù)據(jù)片段的樣本,因此,得到了更高的分類準(zhǔn)確率。

圖12 本文使用不同網(wǎng)絡(luò)在Loss和Accuracy指標(biāo)上的表現(xiàn)Fig.12 Performance of neural network in this paper and simple neural network on Loss and Accuracy

6 結(jié)語

本文提出一種運(yùn)用CNN、Adamax算法、Dropout算法等實(shí)現(xiàn)惡意代碼分類的可視化方法。該方法將二進(jìn)制文件轉(zhuǎn)化為彩色像素圖的惡意代碼特征可視化,采用Dropout算法減少了訓(xùn)練時(shí)參與的神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù),使得生成分類模型時(shí)間開銷小,同時(shí)一定程度上解決了過擬合問題。以自動(dòng)化方式處理二進(jìn)制文件,操作簡單,無需事先執(zhí)行代碼或者反編譯。實(shí)驗(yàn)結(jié)果表明,該方法能有效分類各族代碼。本文工作的不足包括:

1)本文方法較高的分類準(zhǔn)確率是建立在代碼復(fù)用作為軟件工程學(xué)的方法被廣泛應(yīng)用于制作惡意代碼變種的基礎(chǔ)上的,對于重新編寫的惡意代碼具有較低的識別率;

2)本文采用的數(shù)據(jù)集樣本數(shù)過少,不能完全體現(xiàn)所設(shè)計(jì)的CNN結(jié)構(gòu)的優(yōu)勢;

3)所設(shè)計(jì)的CNN結(jié)構(gòu)參數(shù)量較大。

因此,今后的工作方向?yàn)椋?)結(jié)合異常行為檢測的方法實(shí)現(xiàn)惡意代碼的分類;2)為擴(kuò)大該方法的應(yīng)用范圍,下一步將考慮收集更多的樣本;3)對CNN結(jié)構(gòu)作進(jìn)一步優(yōu)化,減少網(wǎng)絡(luò)中的參數(shù)量。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产欧美另类| 国产黄色免费看| 97超级碰碰碰碰精品| 国产日本一区二区三区| 亚洲日韩精品无码专区97| 亚洲欧美精品一中文字幕| 国产福利观看| 精品伊人久久久久7777人| 国产在线一区二区视频| 亚洲无线视频| 国产一级裸网站| 国产 在线视频无码| 国产亚洲欧美日韩在线一区二区三区| 免费三A级毛片视频| …亚洲 欧洲 另类 春色| 永久在线播放| 国产福利大秀91| 欧亚日韩Av| 无码丝袜人妻| 欧美精品xx| 国产一级小视频| 欧美福利在线观看| 亚洲欧美日本国产综合在线| 91免费精品国偷自产在线在线| 亚洲一区二区黄色| 国产美女视频黄a视频全免费网站| 99尹人香蕉国产免费天天拍| 欧美午夜久久| 日韩123欧美字幕| 国产福利免费在线观看| 欧美日韩中文国产| 国产成人高清在线精品| 992Tv视频国产精品| 日本欧美一二三区色视频| 国产精品无码作爱| 91亚瑟视频| 色偷偷男人的天堂亚洲av| 狠狠久久综合伊人不卡| 国产特一级毛片| 九月婷婷亚洲综合在线| 呦女精品网站| 亚洲全网成人资源在线观看| a免费毛片在线播放| 色婷婷啪啪| 伦伦影院精品一区| 人人爽人人爽人人片| 99久久国产自偷自偷免费一区| 亚洲中文字幕久久精品无码一区| 日韩福利在线观看| 本亚洲精品网站| 97免费在线观看视频| 伊人久久大香线蕉成人综合网| 国产尤物在线播放| 五月婷婷丁香综合| 在线观看的黄网| 亚洲黄色成人| 亚洲第一成年网| 精品人妻无码中字系列| 国产成人乱无码视频| 女人毛片a级大学毛片免费| 久久亚洲日本不卡一区二区| 久久精品丝袜高跟鞋| 国产欧美高清| 久久国产精品无码hdav| 国产福利一区视频| 99视频国产精品| 国产91高跟丝袜| 亚洲人成影院在线观看| 强奷白丝美女在线观看| 亚洲国产精品一区二区第一页免| 四虎影视库国产精品一区| 欧美一区精品| 国产午夜精品一区二区三区软件| 久久久亚洲国产美女国产盗摄| 国产女人综合久久精品视| 99精品久久精品| 99久久亚洲精品影院| 人妻丝袜无码视频| 亚洲一区精品视频在线| 中文字幕久久波多野结衣| 三上悠亚在线精品二区| 国产精品无码作爱|