999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于概率主題模型的惡意代碼特征提取方法

2019-11-15 01:43:08劉亞姝王志海侯躍然嚴(yán)寒冰
計(jì)算機(jī)研究與發(fā)展 2019年11期
關(guān)鍵詞:指令標(biāo)準(zhǔn)化分類

劉亞姝 王志海 侯躍然 嚴(yán)寒冰

1(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 北京 100044) 2(北京建筑大學(xué)電氣與信息工程學(xué)院 北京 100044) 3(北京郵電大學(xué)網(wǎng)絡(luò)技術(shù)研究院 北京 100876) 4(國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心 北京 100029)

惡意代碼是各種類型惡意軟件的統(tǒng)稱,包括病毒、特洛伊木馬、后門、蠕蟲等.據(jù)2019年Symantec發(fā)布的《互聯(lián)網(wǎng)安全威脅報(bào)告》稱,全球日均攔截威脅數(shù)量達(dá)142億個(gè),幾乎每一種物聯(lián)網(wǎng)設(shè)備都很容易遭受攻擊[1].惡意代碼對(duì)互聯(lián)網(wǎng)企業(yè)、個(gè)人用戶的數(shù)據(jù)安全和財(cái)產(chǎn)安全造成了極大的威脅.

最常見的惡意代碼檢測(cè)方法是基于特征碼的檢測(cè),通過(guò)人工提取、構(gòu)造特征庫(kù),比對(duì)相同位置的字節(jié)碼來(lái)判斷樣本是否為惡意代碼[2].這種方法被各大反病毒工具廣泛使用,通過(guò)不斷更新特征庫(kù)以提高保護(hù)企業(yè)、個(gè)人用戶信息安全的能力.但是基于特征碼的檢測(cè)方法不能識(shí)別未知的惡意代碼,而隨著各種開發(fā)工具的發(fā)展,惡意代碼的變體越來(lái)越多樣、反檢測(cè)能力越來(lái)越強(qiáng),使得各大反病毒和安全廠商面臨著巨大的挑戰(zhàn).在與惡意代碼博弈中,研究人員也提出很多有價(jià)值的研究成果.

Moskovitch等人針對(duì)反匯編后的文件指令、結(jié)構(gòu)等從語(yǔ)法和語(yǔ)義角度分析匯編代碼,提出以n-grams操作碼序列為特征構(gòu)造惡意代碼的特征集[3];Santos等人分析操作碼的頻度以達(dá)到檢測(cè)未知惡意樣本的目的[4].Kapoor將操作碼與控制流程圖(control flow graph, CFG)結(jié)合起來(lái)實(shí)現(xiàn)多類別的分類[5].Ashkan提出基于API調(diào)用的檢測(cè)方法[6].

2001年Matthew將數(shù)據(jù)挖掘技術(shù)引入惡意代碼檢測(cè)中,惡意代碼檢測(cè)技術(shù)有了飛速地發(fā)展,傳統(tǒng)惡意代碼檢測(cè)技術(shù)與數(shù)據(jù)挖掘技術(shù)相結(jié)合產(chǎn)生了更好的檢測(cè)效果[7-8].Saxe等人引入深度神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)大規(guī)模惡意樣本的低誤報(bào)率檢測(cè)[9].以Nataraj為代表的研究人員另辟蹊徑,將二進(jìn)制可執(zhí)行PE文件轉(zhuǎn)化為灰度圖像,借助圖像處理的辦法和機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)惡意樣本的分類問(wèn)題[10-13].

Tamersoy等人考慮樣本之間的關(guān)系圖[14];Ye等人結(jié)合樣本內(nèi)容和樣本之間的關(guān)系實(shí)現(xiàn)云端惡意代碼的檢測(cè)[15];Fan等人將樣本與API、樣本與壓縮包、樣本與機(jī)器之間關(guān)系構(gòu)造為異構(gòu)信息網(wǎng)絡(luò)以檢測(cè)應(yīng)用程序的惡意性[16].

由于惡意代碼相對(duì)于良性代碼而言會(huì)有特殊的行為,例如會(huì)有特定的訪問(wèn)序列、特定的行為以及對(duì)內(nèi)存的控制,因此基于行為的分析是動(dòng)態(tài)檢測(cè)中常用的技術(shù)[17-20].

綜上,無(wú)論是動(dòng)態(tài)還是靜態(tài)分析方法,通過(guò)分析樣本的內(nèi)容、樣本之間的關(guān)系提取惡意特征,并采用機(jī)器學(xué)習(xí)的方法分類惡意樣本是一種常用的方法.

本文基于Windows平臺(tái),從靜態(tài)分析入手針對(duì)惡意代碼樣本的反匯編文本,采用概率主題模型聚集樣本特征,并用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)惡意樣本的分類問(wèn)題.本文主要貢獻(xiàn)有3個(gè)方面:

1) 給出了匯編指令標(biāo)準(zhǔn)化規(guī)則.該規(guī)則不僅針對(duì)操作碼,同時(shí)也考慮了操作數(shù)的影響.細(xì)化后的規(guī)則可以提高0.4左右的分類精確率.

2) 提出了具有潛在語(yǔ)義的特征表示方法.本文引入概率主題模型——LDA,通過(guò)計(jì)算潛在的“文檔-主題”概率分布得到樣本特征.該特征具有潛在語(yǔ)義信息,更具有鑒別能力.

3) 給出了一種無(wú)監(jiān)督學(xué)習(xí)模型.本文結(jié)合LDA模型提出了一種全新的、無(wú)監(jiān)督的學(xué)習(xí)模式,它可以為新樣本賦予與訓(xùn)練集相關(guān)的主題概率分布,具有檢測(cè)新樣本的能力.同時(shí)將困惑度與不定步長(zhǎng)相結(jié)合快速、準(zhǔn)確選取合適的“主題”數(shù)目,解決LDA模型需要預(yù)先設(shè)定主題數(shù)目的問(wèn)題.

本文為惡意代碼的檢測(cè)提出了一個(gè)新的研究視角.實(shí)驗(yàn)表明:與其他方法相比,本文方法不僅具有較好的分類性能,而且能夠識(shí)別新的惡意代碼.

1 概率主題模型

概率主題模型是一種統(tǒng)計(jì)方法,以非監(jiān)督學(xué)習(xí)的方式分析文本中的“詞”從而發(fā)現(xiàn)蘊(yùn)藏于其中的“主題-詞”、“主題-文檔”之間的結(jié)構(gòu).Christos等人于1998年提出了潛在語(yǔ)義索引(latent semantic indexing, LSI)[21].Hofmann于1999年提出了概率潛在語(yǔ)義分析(probabilistic latent semantic analysis, PLSA)[22].隨后,Blei等人于2003年提出了潛在狄利克雷分布(latent Dirichlet allocation, LDA)[23].LDA是一個(gè)生成模型,也是一個(gè)3層貝葉斯概率模型,包含詞、主題和文檔3層結(jié)構(gòu),可以生成“文檔-主題”模型.在主題模型中,“主題(topic)”就是文本中“詞(word)”的條件概率分布,表示“詞”與“主題”之間的關(guān)聯(lián)性,反映了“詞”在該“主題”下出現(xiàn)的頻繁程度,即與該“主題”關(guān)聯(lián)性高的“詞”有更大概率出現(xiàn).其概率模型圖如圖1所示:

Fig. 1 Probabilistic model diagram of LDA圖1 LDA概率模型圖

1.1 模型定義

在主題模型中,涉及到“文檔”、“主題”、“詞”,下面給出符號(hào)定義.一篇“文檔”W是由N個(gè)“詞”wi構(gòu)成,即W={w1,w2,…,wN}構(gòu)成,這里wi表示第i個(gè)“詞”;一個(gè)“語(yǔ)料庫(kù)”D是M篇文檔的集合,即D={d1,d2,…,dM},語(yǔ)料庫(kù)中包含的全部“詞”可以表示為W={w1,w2,…,wV};“主題”是隱含在文檔中,用于聚集相關(guān)的“詞”,可以表示為Z={z1,z2,…,zK}.概率主題模型,不僅能夠?qū)φZ(yǔ)料庫(kù)中的“文檔”而且對(duì)于其他“相似文檔”都具賦予較高的概率.LDA模型中“主題”分布與“詞”分布都服Dirichlet先驗(yàn)分布.

根據(jù)圖1,產(chǎn)生一篇文檔的方式為:

1) 采樣主題d的主題分布θd~Dirichlet(α),得到文檔d的主題分布;

2) 生成第d個(gè)文檔的第n個(gè)主題zd,n~Multinomail(θd),得到詞的主題;

3) 采樣主題zd,n的詞的分布βk~Dirichlet(η),得到該主題的詞分布;

4) 采樣生成文檔d的第n個(gè)主題下的詞wd,n~Multinomail(βzd,n).

這里,α為Dirichlet分布的K維超參,用于產(chǎn)生任一文檔di的主題分布θi;η為Dirichlet分布的V維超參,V代表D中“詞”的個(gè)數(shù).本文中使用的符號(hào)及說(shuō)明如表1所示:

Table 1 Notations in this Paper表1 本文使用符號(hào)說(shuō)明表

LDA模型的目標(biāo)是找到每一篇文檔的“主題分布”和每一個(gè)主題中“詞的分布”.在模型中,需要預(yù)先假定主題數(shù)目——“K”.LDA模型中,假設(shè)文檔中的“詞”是無(wú)序的、互相獨(dú)立的.文檔中的詞,通過(guò)統(tǒng)計(jì)詞頻構(gòu)成詞向量,也即“詞包(bag of words)”.“主題”產(chǎn)生“詞”不依賴具體某一個(gè)文檔,因此“文檔-主題”分布和“主題-詞”分布是相互獨(dú)立的.

1.2 模型推導(dǎo)

為了獲得“文檔-主題”和“主題-詞”的概率分布,也即Z,W的概率分布,可以采用Gibbs采樣的方法.

由于P(W,Z)∝P(W,Z|α,η),根據(jù)Dirichlet分布與多項(xiàng)式分布共軛的特性,可以簡(jiǎn)化條件概率P(W,Z|α,η)的求解:

(1)

有:

(2)

(3)

由于Dirichlet分布與多項(xiàng)式分布共軛則式(3)可寫為

(4)

同理可得,式(1)中,

(5)

(6)

這樣,獲得了P(W,Z)聯(lián)合概率分布的近似形式.在P(W,Z)中詞向量W是已知的,因此:

P(zd,n|W,Z,α,η)=

(7)

其中,Z表示去掉詞wd,n的主詞分布,W表示詞向量W中去掉詞wd,n,由于:

P(θd|Zd,α)=Dirichlet(θd|α+nd),

(8)

P(βk|Z,W,η)=Dirichlet(βk|η+nk).

(9)

根據(jù)Dirichlet分布的期望公式,對(duì)式(8)(9)取數(shù)學(xué)期望,可以得到:

(10)

(11)

Gibbs采樣“詞”的“主題”,即得到所有詞的采樣主題,進(jìn)而得到θd,βk.

2 惡意樣本特征的提取

一個(gè)惡意樣本可以通過(guò)逆向工具將其PE文件轉(zhuǎn)化為匯編語(yǔ)言代碼.本文通過(guò)LDA模型對(duì)惡意樣本集中的匯編操作指令進(jìn)行分析、提取其特征,并解決惡意樣本的分類問(wèn)題.

2.1 匯編指令的預(yù)處理

本文采用了python包中的pefile完成對(duì)PE文件的解析,獲得匯編文件,如圖2所示:

Fig. 2 Disassemble example of PE file圖2 PE文件反匯編示例

如圖2所示,經(jīng)過(guò)反匯編解析得到的匯編文件中包含了很多冗余、干擾信息.在此僅針對(duì)其中的匯編指令提取特征.一條匯編指令由操作數(shù)和操作碼構(gòu)成,本文不僅針對(duì)操作碼,同時(shí)操作數(shù)也參與特征的聚集.由于匯編指令的格式復(fù)雜、長(zhǎng)短差距懸殊、含義高度豐富和雜亂、數(shù)量龐大,不能直接作為語(yǔ)料庫(kù).為了更好地控制“詞典”的數(shù)據(jù)量,對(duì)數(shù)據(jù)進(jìn)行粗糙化處理——匯編代碼標(biāo)準(zhǔn)化,使其表示的類型有限、表示的規(guī)律性更明顯.

具體方法為:

1) 操作碼對(duì)齊

在匯編指令中操作碼的長(zhǎng)度為2~6個(gè)字符不等,由于3個(gè)字符長(zhǎng)度以內(nèi)的操作碼占操作碼類型的48.2%、4個(gè)字符長(zhǎng)度的操作碼占28.8%、5個(gè)字符長(zhǎng)度的操作碼占17.8%、6個(gè)字符長(zhǎng)度的操作碼占5.2%.而如果考慮到使用頻率,3個(gè)字符長(zhǎng)度內(nèi)的操作碼被調(diào)用的占比超過(guò)90%.因此,本文選用3個(gè)字符長(zhǎng)度描述操作碼.例如push→pus,mov→mov,call→cal,je→je_(_表示空格)等.

2) 操作數(shù)標(biāo)準(zhǔn)化

① 寄存器.由于寄存器的種類較多,常用的有8 b,16 b以及32 b三種主要的寄存器.如eax,ebx,ecx,edx,esi,edi,ebp,esp等寄存器標(biāo)準(zhǔn)化為r32;ax標(biāo)準(zhǔn)化為r16;al標(biāo)準(zhǔn)化為rg8[24].

② 內(nèi)存.標(biāo)準(zhǔn)化為MEM.如[eax],[edi+4]等

均表示為MEM.

③ 立即數(shù).標(biāo)準(zhǔn)化為VAL,如0,5A4Dh表示為VAL.

④ 調(diào)用指令.調(diào)用外部的系統(tǒng)庫(kù)函數(shù)時(shí)指令不做處理;調(diào)用內(nèi)部函數(shù)如“call sub_101C02D”時(shí)規(guī)范化為“call sub”.

⑤ 跳轉(zhuǎn)指令后的操作數(shù).如“jz short loc_4023E7”規(guī)范化“jz loc”.

表2給出了按照如上規(guī)則標(biāo)準(zhǔn)化前后的代碼塊的對(duì)照.

Table 2 Example of Standardizing the Assembly Instructions表2 匯編指令標(biāo)準(zhǔn)化示例

將每條匯編指令設(shè)定為一個(gè)“詞”.圖3所示的是MD5為0C1BF77A51B6308D62F0743C3B1A9FF1.3AF3EF67的樣本,經(jīng)過(guò)匯編指令規(guī)則化后、提取“詞”的部分結(jié)果.

2.2 檢測(cè)框架

將訓(xùn)練集中惡意樣本按照上述方法標(biāo)準(zhǔn)化后,可統(tǒng)計(jì)出訓(xùn)練集的詞典、每個(gè)樣本的“詞袋”作為L(zhǎng)DA模型訓(xùn)練的輸入數(shù)據(jù),進(jìn)而得到惡意樣本的特征并實(shí)現(xiàn)分類.

本文在使用LDA模型提取惡意樣本特征時(shí),訓(xùn)練集樣本會(huì)被使用2次,第1次是用來(lái)構(gòu)建LDA模型,第2次是用來(lái)產(chǎn)生訓(xùn)練集的特征數(shù)據(jù).但是,不論訓(xùn)練樣本還是測(cè)試樣本,都需要經(jīng)過(guò)樣本預(yù)處理.具體的工作流程如圖4所示.工作流程可以分為3個(gè)階段:

1) 訓(xùn)練樣本預(yù)處理階段.該階段產(chǎn)生可被LDA模型處理的數(shù)據(jù).首先需要標(biāo)準(zhǔn)化訓(xùn)練集樣本的匯編指令、提取“詞典”,計(jì)算每個(gè)樣本的“詞包”.初始設(shè)置LDA模型主題個(gè)數(shù)、輸入LDA模型其他參數(shù),產(chǎn)生當(dāng)前數(shù)據(jù)分布下的LDA模型.經(jīng)過(guò)多次困惑度和不定步長(zhǎng)評(píng)價(jià)、選擇最優(yōu)的主題數(shù)目,進(jìn)而得到最優(yōu)主題數(shù)目下LDA的訓(xùn)練模型.

2) LDA建模階段.樣本預(yù)處理結(jié)果輸入LDA模型會(huì)產(chǎn)生與LDA主題數(shù)相同維度的特征,每個(gè)維度標(biāo)識(shí)在相應(yīng)主題上的擬合程度,從而得到訓(xùn)練樣本的特征,并訓(xùn)練分類器.

3) 分類階段.該階段將測(cè)試樣本經(jīng)過(guò)樣本預(yù)處理、獲得測(cè)試集的特征,將特征輸入訓(xùn)練好的分類器,得到分類結(jié)果.

3 實(shí)驗(yàn)與分析

本節(jié)中我們構(gòu)建了基于LDA模型的惡意代碼檢測(cè)模型,并在2個(gè)數(shù)據(jù)集測(cè)試了本文方法.首先選取2015年微軟Kaggle數(shù)據(jù)集[25],包括訓(xùn)練集、測(cè)試集和訓(xùn)練集的標(biāo)注.其中每個(gè)惡意代碼樣本(去除了PE頭)包含2個(gè)文件:一個(gè)是十六進(jìn)制表示的“.bytes”文件,另一個(gè)是利用IDA反匯編工具生成的“.asm”文件.

我們首先進(jìn)行了小樣本驗(yàn)證實(shí)驗(yàn).在微軟Kaggle數(shù)據(jù)集中,隨機(jī)選取某一家族為測(cè)試集(例如隨機(jī)選擇編號(hào)為7的家族中的70個(gè)樣本);訓(xùn)練數(shù)據(jù)為標(biāo)號(hào)為7的家族中抽取的80個(gè)樣本,以及其余家族中隨機(jī)抽取的80個(gè)樣本,共160個(gè)樣本.經(jīng)實(shí)驗(yàn),當(dāng)主題數(shù)為5時(shí)采用隨機(jī)森林(random forest, RF)分類器(參數(shù)為30)精確率為0.969.證明本文方法對(duì)惡意代碼的分類是有效的.

第2個(gè)數(shù)據(jù)集來(lái)自于CNCERT,包含10個(gè)家族、15 000個(gè)惡意代碼樣本.本文在CNCERT提供的數(shù)據(jù)集上測(cè)試了我們的方法并完成與他人方法的實(shí)驗(yàn)對(duì)比.

3.1 匯編指令標(biāo)準(zhǔn)化粗糙程度對(duì)分類結(jié)果的影響

按照2.1節(jié)匯編指令標(biāo)準(zhǔn)化規(guī)則,在CNCERT數(shù)據(jù)集上,當(dāng)主題數(shù)目為240個(gè)時(shí)本文方法平均分類精確率達(dá)到最好,為0.90.每個(gè)家族具體的分類評(píng)價(jià)指標(biāo)如表3所示:

Table 3 Classification Results of Every Family表3 各家族分類結(jié)果

從表3可以看出LMN家族分類結(jié)果最好,分類精確率可以達(dá)到100%;Softpulse家族和Ageneric家族的分類精確率較低.經(jīng)過(guò)對(duì)比這2個(gè)家族的標(biāo)準(zhǔn)化操作碼的結(jié)果發(fā)現(xiàn),32 b寄存器均被標(biāo)準(zhǔn)化為r32,這種標(biāo)準(zhǔn)化方法過(guò)于粗糙,不利于分析較敏感的數(shù)據(jù).

為此,細(xì)化了匯編指令的標(biāo)準(zhǔn)化規(guī)則,以便盡可能地抽取其中的信息,同時(shí)保證詞典不會(huì)過(guò)于龐大.

寄存器中32 b寄存器更多地負(fù)責(zé)與程序有關(guān)的信息,將32 b寄存器具體標(biāo)示出來(lái).這些寄存器有EAX,EBX,ECX,EDX,ESIEDI以及EBP等.

此外還有R0~R3四個(gè)與程序運(yùn)行息息相關(guān)的寄存器,也將它們具體進(jìn)行標(biāo)示.但是,這些寄存器并不是所有的編譯環(huán)境都支持的,在樣本中幾乎不出現(xiàn).

細(xì)化了寄存器類別后,采用RF分類器(參數(shù)為30)、主題數(shù)目為240時(shí),平均分類精確率為0.94,相比細(xì)化前(0.90)有了較大提高,如表4所示:

Table 4 Classification Results After More Specified Register Classes

從表4相比表3可以看到,Agent家族、Softpulse家族、Ageneric家族的精確率、召回率和F1-score都有了比較明顯的提高.這說(shuō)明對(duì)寄存器采用較精細(xì)的標(biāo)準(zhǔn)化規(guī)則能夠更有效地反映出家族特征,會(huì)獲得更好的分類結(jié)果.

3.2 主題數(shù)目的確定

在LDA建模過(guò)程中,需要預(yù)先設(shè)定主題的數(shù)目,但是如何準(zhǔn)確設(shè)置主題的數(shù)目,這是一個(gè)很困難的問(wèn)題.本文采用了困惑度來(lái)評(píng)價(jià)主題數(shù)目對(duì)模型的影響.困惑度(perplexity)是一種信息理論的測(cè)量方法.若求A的困惑度值,則定義為基于A的熵的能量(A可以是一個(gè)概率分布或者概率模型):

(12)

顯而易見隨著主題數(shù)的增加,困惑度會(huì)減小——更多的主題可以把單詞更輕松和置信到不同的主題上.但是在主題數(shù)極少的時(shí)候,困惑度不會(huì)隨著主題數(shù)上升而減小,反而會(huì)增加,這是因?yàn)樵跊](méi)有到達(dá)當(dāng)前語(yǔ)料庫(kù)合適的主題數(shù)時(shí),大量困惑的樣本一直難以被分配到合適的主題上.因此,本文選擇拐點(diǎn)作為L(zhǎng)DA模型的主題數(shù),如圖5所示:

Fig. 5 Perplexity curve of LDA model using different topic numbers圖5 LDA模型在不同主題數(shù)下困惑度曲線

在確定最優(yōu)主題數(shù)目的過(guò)程中,為了加快最優(yōu)主題選擇的效率,本文采取的策略為:主題數(shù)目低于200時(shí),按照固定步長(zhǎng)的遞增方法設(shè)置主題數(shù)目;當(dāng)超過(guò)200時(shí)采用變化的步長(zhǎng),由大到小地確定主題數(shù)目的方法,加快了主題數(shù)目確定的速度,減少了一半以上的時(shí)間消耗.

3.3 LDA主題模型的特征描述能力

在LDA模型中,為了更明確地表述主題模型的特征描述能力,本文從實(shí)驗(yàn)中提取2個(gè)分布明顯的家族——Allaple與Adload進(jìn)行分析.首先提取2個(gè)家族中占比最多的幾個(gè)主題,列出每個(gè)主題前十的匯編指令.根據(jù)“主題-詞”分布,嘗試分析其行為.圖6為Allaple家族主題分布圖,這里主題數(shù)目為240個(gè).主題概率分布居前2位“主題”中的前十個(gè)“詞”如表5所示.圖7為Adload家族主題分布圖,同樣地選擇主題概率分布居前2位的“主題”中前十個(gè)“詞”如表6所示.

在這2個(gè)家族中可以看到的是,每個(gè)具有高擬合度的主題具有各自不同的特點(diǎn).反映出來(lái)的或是在底層上的操作、或是在寄存器上的操作、或是在數(shù)據(jù)類型上的變化、或是中斷的處理、或是函數(shù)的調(diào)用和返回、或是循環(huán)使用、或是權(quán)限申請(qǐng),或是硬件端口使用等等信息.這些信息具有可讀性以及可解釋性.

雖然在構(gòu)造LDA模型過(guò)程中詞包是離散的、無(wú)序的形式,可從表面上看損失了匯編指令的上下文信息,但是從表5、表6的分析中也可以看到,本文方法聚集的特征具有隱含的語(yǔ)義信息,這并沒(méi)有受到“詞”序的影響,這就是LDA模型的魅力所在.

Fig. 6 Probability distribution diagram of Allape family圖6 Allaple家族主題分布圖

TopicTop Ten WordsBehavior DescriptionThe 200thTopic“ire oth”,“pus oth”,“stc oth”,“pop oth”,“imu ecx mem oth”,“arp mem oth”,“.by oth”,“dec oth”,“inc oth”,“xch eax oth”interrupt return;application for privilege level;exchange the value of register “eax”;The 23thTopic“pus oth”,“.by oth”,“inc oth”,“pop oth”,“dec mem”,“dec oth”,“jmp oth”,“int oth”,“cld oth”,“std oth”plus 1;minus 1;loop operartion;string operation;

Fig. 7 Probability distribution diagram of Adload family圖7 Adload家族主題分布圖

TopicTop Ten WordsBehavior DescriptionThe 7thTopic“cdq oth”,“pus oth”,“pop oth”,“and ecx mem”,“.by oth”,“xch eax oth”,“mov val oth”,“dec oth”,“inc oth”,“int oth”extended registerhigher digits;register;replication andcomputing operations;plus 1;minus 1;The 32thTopic“pop oth”,“pus oth”,“dec oth”,“.by oth”,“xch eax oth”,“mov val oth”,“inc oth”,“ret oth”,“mov rg8 oth”,“int oth”register assignmentoperation;function return;

3.4 與其他方法的比較

在Kaggle和CNCERT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性.下面給出與他人方法的實(shí)驗(yàn)對(duì)比.

本文在CNCERT數(shù)據(jù)集上完成了其他3篇文獻(xiàn)方法的實(shí)驗(yàn):

1) 提取惡意代碼反匯編文件的操作碼序列并轉(zhuǎn)化為點(diǎn)陣圖的惡意代碼分類實(shí)驗(yàn)[26];

2) 將惡意代碼二進(jìn)制可執(zhí)行文件轉(zhuǎn)化為灰度圖像的分類實(shí)驗(yàn)[10];

3) 基于惡意代碼反匯編文件Opcode 頻度的惡意代碼分類實(shí)驗(yàn)[4].

對(duì)比3個(gè)方法與本文方法的分類結(jié)果,可以看到本文方法與其他分類方法相比具有一致的或者更好的分類精確率,結(jié)果如表7所示:

Table 7 Classification Results of Many Methods表7 多種方法的分類結(jié)果

此外,由于LDA的無(wú)監(jiān)督學(xué)習(xí)特性,使得基于主題概率模型的特征提取方法可以為新樣本賦予與訓(xùn)練集中的文檔相關(guān)聯(lián)的一組不同的主題概率[23].因此,本文方法完全有能力檢測(cè)新樣本,這是文獻(xiàn)[4,10,26]不具有的能力.

4 總 結(jié)

本文將LDA主題模型用于Windows平臺(tái)下的惡意代碼分析中,采用LDA模型聚類惡意樣本的特征,設(shè)計(jì)惡意代碼檢測(cè)的工作框架,實(shí)現(xiàn)惡意樣本的分類問(wèn)題.針對(duì)LDA模型主題數(shù)目不易確定的問(wèn)題,提出了困惑度的評(píng)價(jià)方法,并采取了加速策略,大大提高運(yùn)行效率.同時(shí)本文方法還能夠檢測(cè)未知樣本.

但是受限于反匯編技術(shù),目前在匯編命令的層級(jí)能獲得的信息描述更加偏向于底層,如果想獲得更抽象的信息可以采用2種方法:在靜態(tài)分析的情況下,通過(guò)IDA獲得WinAPI;在動(dòng)態(tài)的情況下,可以通過(guò)沙箱獲得API調(diào)用的詞包信息,預(yù)測(cè)這些信息應(yīng)用在本文的方法上依然是可行的,這將是本文接下來(lái)的研究?jī)?nèi)容.

猜你喜歡
指令標(biāo)準(zhǔn)化分類
聽我指令:大催眠術(shù)
標(biāo)準(zhǔn)化簡(jiǎn)述
分類算一算
分類討論求坐標(biāo)
ARINC661顯控指令快速驗(yàn)證方法
LED照明產(chǎn)品歐盟ErP指令要求解讀
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
標(biāo)準(zhǔn)化是綜合交通運(yùn)輸?shù)谋U稀庾x《交通運(yùn)輸標(biāo)準(zhǔn)化體系》
論汽車維修診斷標(biāo)準(zhǔn)化(上)
主站蜘蛛池模板: 四虎综合网| 国产区人妖精品人妖精品视频| 最新国产你懂的在线网址| 欧美午夜精品| 中文成人在线视频| 在线va视频| 国产在线91在线电影| 国产一区二区三区精品欧美日韩| 色综合国产| 亚洲综合片| 国产大全韩国亚洲一区二区三区| 九月婷婷亚洲综合在线| 亚洲综合专区| 91精品啪在线观看国产91| 午夜激情婷婷| 日韩精品久久久久久久电影蜜臀| 四虎永久在线| 一级黄色欧美| 亚洲swag精品自拍一区| 波多野结衣一区二区三区88| 国产欧美日韩va| 亚洲A∨无码精品午夜在线观看| 国产精品密蕾丝视频| 免费毛片网站在线观看| 久久亚洲美女精品国产精品| 黄色网页在线播放| 爱做久久久久久| 毛片网站在线看| 99re在线视频观看| 久久精品丝袜高跟鞋| 国产一区二区三区视频| 在线精品视频成人网| 久久综合五月| 亚洲大学生视频在线播放| a毛片免费观看| 麻豆AV网站免费进入| 伊人丁香五月天久久综合| 欧美激情视频二区| 9久久伊人精品综合| 日本AⅤ精品一区二区三区日| 亚洲国产天堂在线观看| 日本精品影院| 国产成年女人特黄特色毛片免 | 99久视频| 啪啪永久免费av| 欧美人人干| 国产va在线观看| 呦系列视频一区二区三区| 国产精品毛片在线直播完整版| 国产一区二区网站| 高清无码手机在线观看| 亚洲精品高清视频| 亚洲AV一二三区无码AV蜜桃| 欧美人与牲动交a欧美精品| 欧美精品色视频| 国产小视频免费| AV天堂资源福利在线观看| 久久网欧美| 久久大香伊蕉在人线观看热2| 真实国产乱子伦视频| 香蕉国产精品视频| 国产亚洲精品91| 尤物精品视频一区二区三区| 91成人在线观看| 午夜天堂视频| 91视频精品| 日本在线欧美在线| h视频在线播放| 不卡无码h在线观看| 人禽伦免费交视频网页播放| 国产精品性| 亚洲v日韩v欧美在线观看| 伊人色天堂| 国产丝袜无码精品| 日韩久草视频| 偷拍久久网| 成人精品亚洲| 99热这里只有成人精品国产| 老司国产精品视频91| 日韩精品一区二区三区大桥未久| aaa国产一级毛片| 手机精品视频在线观看免费|