基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)研究

2020-09-10 07:22:44付大亮

信息技術(shù)時(shí)代·上旬刊 2020年4期

關(guān)鍵詞：機(jī)器學(xué)習(xí)檢測(cè)技術(shù)數(shù)據(jù)挖掘

摘要：信息化技術(shù)是當(dāng)前社會(huì)發(fā)展的標(biāo)志產(chǎn)物，也是推動(dòng)信息化社會(huì)建設(shè)的標(biāo)桿。而在信息化發(fā)展過(guò)程中，信息安全是影響其發(fā)展的瓶頸之一，如計(jì)算機(jī)病毒的侵入、釣魚(yú)網(wǎng)站的設(shè)立、木馬盜號(hào)等。對(duì)用戶(hù)個(gè)人隱私、企業(yè)業(yè)務(wù)信息安全、國(guó)家信息安全等造成嚴(yán)重影響。由于在信息技術(shù)發(fā)展的進(jìn)程中，離不開(kāi)軟件的使用，而軟件目前更加注重人工編寫(xiě)，這種業(yè)態(tài)是缺陷代碼、惡意代碼產(chǎn)生的根本原因，因此有效的檢測(cè)及防范惡意代碼生成成為當(dāng)前信息安全檢測(cè)技術(shù)發(fā)展方向之一。本文結(jié)合傳統(tǒng)檢測(cè)技術(shù)，重點(diǎn)對(duì)檢測(cè)技術(shù)的速度及效率等問(wèn)題進(jìn)行分析，實(shí)現(xiàn)快速、智能化檢測(cè)，研究中基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)理論，為解決相關(guān)技術(shù)的實(shí)際應(yīng)用提供一定理論參考。

關(guān)鍵詞：數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);惡意代碼;檢測(cè)技術(shù)

引言

現(xiàn)代社會(huì)快速發(fā)展進(jìn)程中，信息技術(shù)發(fā)展迅速，伴隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展，信息技術(shù)已經(jīng)深深的融入到人們的日常生活中，同時(shí)信息技術(shù)的發(fā)展，也提升了人們?nèi)粘９ぷ鳌⑿蓍e和娛樂(lè)的氛圍，為互聯(lián)網(wǎng)技術(shù)的快速發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。但是，計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，也為惡意代碼的滋生提供了良好的傳播空間和環(huán)境，惡意代碼數(shù)量的增加，使其傳播速度逐步的加快。依據(jù)互聯(lián)網(wǎng)應(yīng)急管理中心發(fā)布的《2018年中國(guó)互聯(lián)網(wǎng)安全報(bào)告》顯示，2018年全年惡意程序傳播事件達(dá)46，578，698次，其中惡意程序下載鏈接778，388個(gè)。惡意代碼的傳播數(shù)量逐步增加，不僅會(huì)導(dǎo)致系統(tǒng)中的相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)受到一定的影響，同時(shí)惡意代碼可能泄露數(shù)據(jù)，甚至?xí)p壞硬件結(jié)構(gòu)，導(dǎo)致企業(yè)和個(gè)人的正常生產(chǎn)生活受到影響，甚至帶來(lái)較大的經(jīng)濟(jì)損失。因此，要充分結(jié)合惡意代碼的檢測(cè)與處理技術(shù)，智能化檢測(cè)惡意代碼，降低惡意代碼帶來(lái)的危害，防止造成信息技術(shù)的干擾。惡意代碼檢查技術(shù)已成為當(dāng)前信息安全技術(shù)研究和發(fā)展的重要熱點(diǎn)話(huà)題。

1惡意代碼相關(guān)分析與檢測(cè)技術(shù)理論

1.1惡意代碼的定義與分類(lèi)

1.1.1木馬

木馬是安全威脅的最多的惡意代碼類(lèi)型之一。從名字上看，它是一種非法入侵計(jì)算機(jī)，并獲得遠(yuǎn)程控制權(quán)限的一種惡意代碼，其往往偽裝成正常的程序，誘導(dǎo)用戶(hù)進(jìn)行下載，一旦用戶(hù)下載了裝有木馬的程序，木馬就會(huì)在計(jì)算機(jī)上運(yùn)行，收集信息、接受黑客指令等。

1.1.2孺蟲(chóng)

孺蟲(chóng)是一種不斷的自我修復(fù)、復(fù)制病毒，它能利用電子郵件等網(wǎng)絡(luò)手段實(shí)現(xiàn)惡意代碼的傳播。蠕蟲(chóng)類(lèi)型很多，有的惡意消耗資源、有的收集信息等。

1.2.3病毒

當(dāng)前，大部分人都習(xí)慣性的將惡意代碼統(tǒng)稱(chēng)為病毒，其實(shí)嚴(yán)格意義上，病毒只是惡意代碼的一個(gè)類(lèi)型，病毒從名稱(chēng)來(lái)看，只是來(lái)源于對(duì)應(yīng)的科幻小說(shuō)，并通過(guò)一段時(shí)間的修復(fù)和修改技術(shù)，增加自身的副本，并將相應(yīng)的程序感染到對(duì)應(yīng)的程序代碼中。

1.2惡意代碼的檢測(cè)技術(shù)

1.2.1基于特征碼的檢測(cè)技術(shù)

基于特征碼的檢測(cè)技術(shù)主要利用惡意代碼的靜態(tài)分析，獲取惡意代碼的特征信息，并結(jié)合十六進(jìn)制的字節(jié)序列，按照字符串序列結(jié)構(gòu)，對(duì)該特征體系下的惡意代碼進(jìn)行有效的檢測(cè)。檢測(cè)流程如下圖1所示。

1.2.2基于啟發(fā)式的檢測(cè)技術(shù)

基于啟發(fā)式的檢測(cè)技術(shù)主要是通過(guò)對(duì)惡意代碼的分析，從而獲取惡意代碼中所通用的操作序列或者結(jié)構(gòu)形式，并依據(jù)一般性操作的存在形式（如修改某個(gè)文件的結(jié)構(gòu)、刪除相關(guān)系統(tǒng)性文件等），對(duì)每一個(gè)的行為操作序列或者結(jié)構(gòu)的模式按照危險(xiǎn)性程序的排序，實(shí)現(xiàn)不同危險(xiǎn)程序的加權(quán)值，在檢測(cè)實(shí)施的過(guò)程中，將對(duì)應(yīng)操作行為中相關(guān)序列及結(jié)構(gòu)模式的加權(quán)值進(jìn)行總和分析，如果超過(guò)了某個(gè)特定的閾值，則可判定其為惡意代碼。

1.2.3基于檢驗(yàn)和的檢測(cè)技術(shù)

檢驗(yàn)和是一種信息保護(hù)技術(shù)，如Hash值、循環(huán)冗余碼等。只要文件發(fā)生標(biāo)動(dòng)，校驗(yàn)和就會(huì)改變。通過(guò)定期性的文件檢查，對(duì)文件的完整性檢測(cè)分析，來(lái)發(fā)現(xiàn)異常改變的文件。

2基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的檢測(cè)技術(shù)

惡意代碼在信息技術(shù)應(yīng)用的過(guò)程中，呈現(xiàn)出數(shù)量不斷增多，出現(xiàn)的周期逐步縮短的特征，加上一定迷惑性技術(shù)的應(yīng)用，導(dǎo)致檢測(cè)的難度越來(lái)越大，因此如何有效的獲取智能化的惡意代碼檢測(cè)技術(shù)，是當(dāng)前惡意代碼檢測(cè)領(lǐng)域中發(fā)展的重點(diǎn)內(nèi)容。在數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用中，都可通過(guò)樣本的特征進(jìn)行分析，通過(guò)自動(dòng)學(xué)習(xí)病毒融合規(guī)律性的發(fā)展模式，將學(xué)習(xí)到的基礎(chǔ)性模式運(yùn)用到病毒分類(lèi)檢測(cè)與分析，實(shí)現(xiàn)監(jiān)測(cè)的自動(dòng)化與智能化。其檢測(cè)原理如圖2所示。

2.1樣本的選擇與劃分

數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的惡意代碼的檢測(cè)技術(shù)中，主要包含有訓(xùn)練與測(cè)試兩個(gè)步驟，因此在獲取數(shù)據(jù)集合的過(guò)程中，應(yīng)對(duì)數(shù)據(jù)進(jìn)行有效的劃分，主要可劃分為訓(xùn)練集和數(shù)據(jù)集。主要的劃分方式有：

一種是k重交叉驗(yàn)證的方式，k重交叉驗(yàn)證即將實(shí)驗(yàn)數(shù)據(jù)集劃分為k等份，其中k-1份作為訓(xùn)練集，剩下的1份作為測(cè)試集，然后從訓(xùn)練集中再取出1分作為測(cè)試集，將前面的1份測(cè)試集再加入訓(xùn)練集之中，如此重復(fù)k次。

另外一種，利用固定性質(zhì)的比例模式，將即將數(shù)據(jù)集按照一定的比例，如3：1的方式進(jìn)行有效劃分，主要可區(qū)分為訓(xùn)練集與測(cè)試集，并通過(guò)兩種模式的劃分，對(duì)其應(yīng)用過(guò)程中的劃分方式進(jìn)行分析。其中，采用k重交叉驗(yàn)證的方式能夠獲取均值，并采用k重取均值的方式，實(shí)現(xiàn)分類(lèi)精度的進(jìn)一步提高。

2.2特征表示與提取

在挖掘與學(xué)習(xí)算法的應(yīng)用中，應(yīng)基于惡意代碼的基本特征，融合特征的表現(xiàn)形式等，對(duì)特征的提取方法進(jìn)行精度和使用性能的對(duì)比分析，融合學(xué)習(xí)算法的有效應(yīng)用，提升算法應(yīng)用的精度的實(shí)現(xiàn)。

在常用性的特征表示方案中，主要包含文件的結(jié)構(gòu)特征、序列特征及統(tǒng)計(jì)特征的合理應(yīng)用，不過(guò)特征性的表達(dá)方式并沒(méi)有絕對(duì)的好壞之分，不同的特征反映出的只是惡意代碼不同層面的信息，其側(cè)重點(diǎn)是不同的。

2.3特征降維與約簡(jiǎn)

相關(guān)研究表明，冗余與不相關(guān)的特征的存在對(duì)學(xué)習(xí)算法的性能影響非常巨大，最終會(huì)導(dǎo)致分類(lèi)器的使用性能降低，分類(lèi)的準(zhǔn)確性也會(huì)降低，可實(shí)現(xiàn)的泛化功能逐步的下降等，因此對(duì)于以高維矢量為基礎(chǔ)的惡意代碼在其特征應(yīng)用上尤為明顯，因此在分類(lèi)學(xué)習(xí)的過(guò)程中，應(yīng)充分的結(jié)合高維惡意代碼的特征，實(shí)現(xiàn)降維數(shù)據(jù)信息的合理化構(gòu)建。降維的過(guò)程中排除與類(lèi)別無(wú)關(guān)的特征負(fù)面影響，并選擇性的利用分類(lèi)對(duì)比的方法，將最優(yōu)的特征子集進(jìn)行選擇，并通過(guò)進(jìn)一步的提高分類(lèi)的利用效果，提高分類(lèi)器的泛化使用功能等，以減少學(xué)習(xí)算法過(guò)程中的學(xué)習(xí)時(shí)間。

3基于多維特征與選擇性集成學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)

3.1檢測(cè)基本框架

本文所提出的檢測(cè)算法相關(guān)的框架體系，如圖3中，檢測(cè)過(guò)程中主要可分為兩個(gè)重要的階段，分別為訓(xùn)練階段和測(cè)試階段，訓(xùn)練階段通過(guò)測(cè)試集訓(xùn)練模型，測(cè)試階段驗(yàn)證模型。監(jiān)測(cè)過(guò)程包含樣本的靜態(tài)反匯編、特征的提取與選擇，集成分類(lèi)器構(gòu)建等3個(gè)基本流程。其中靜態(tài)反匯編主要完成判斷惡意代碼是否加殼并依據(jù)殼的類(lèi)型選擇相應(yīng)的脫殼程序正確脫殼。在特征提取的過(guò)程中，將基本的字節(jié)序列、指令序列和基于語(yǔ)義的靜態(tài)API調(diào)用的序列特征進(jìn)行合理的提取，供后續(xù)算法使用。對(duì)于不同維度的特征化分析過(guò)程，主要應(yīng)包含特征約簡(jiǎn)，促進(jìn)集成分類(lèi)器的合理構(gòu)建，并結(jié)合集成過(guò)程，實(shí)現(xiàn)測(cè)試階段中的主要樣本信息的測(cè)試的完善。

3.2實(shí)驗(yàn)樣本的選擇與劃分

實(shí)驗(yàn)樣本的選擇要點(diǎn)要依據(jù)操作系統(tǒng)平臺(tái)、語(yǔ)言類(lèi)型、特征進(jìn)行選擇。

實(shí)驗(yàn)樣本的劃分。傳統(tǒng)模式下的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的檢測(cè)方法中，主要以實(shí)驗(yàn)數(shù)據(jù)的應(yīng)用為主，在實(shí)驗(yàn)數(shù)據(jù)的劃分過(guò)程中，應(yīng)對(duì)實(shí)驗(yàn)數(shù)據(jù)的平衡性進(jìn)行管理，達(dá)到最終的檢驗(yàn)檢測(cè)效果，因此如何有效設(shè)定測(cè)試集中區(qū)域中的惡意代碼與正常代碼的類(lèi)別比例的合理的應(yīng)用，使得分類(lèi)的過(guò)程能夠以最佳的接近實(shí)際分布的相關(guān)情況進(jìn)行合理分析。

3.3多維特征的提取

結(jié)合當(dāng)前特征性的描述能力，根據(jù)指定的多特征的方式，融合新的特征對(duì)信息補(bǔ)充，以更加全面的刻畫(huà)惡意性的代碼特征，提升惡意代碼的檢驗(yàn)檢測(cè)能力，一般推薦利用惡意代碼的多特征檢構(gòu)建科學(xué)合理監(jiān)測(cè)技術(shù)。為了綜合考慮效率與成本之間的關(guān)系，在特征性的提取過(guò)程中，主要采取使用靜態(tài)的特征指標(biāo)方案，采用多種工具結(jié)合，更加全面的描述惡意代碼特征，充分的發(fā)揮靜態(tài)特征的優(yōu)勢(shì)，本文以惡意代碼的多個(gè)靜態(tài)層次為基礎(chǔ)，實(shí)現(xiàn)多維特征的有效描述，并結(jié)合文件的結(jié)構(gòu)層次，字節(jié)的層次性等，將語(yǔ)義層、序列的基本特征進(jìn)行合理化的構(gòu)建。

由于當(dāng)前很多的惡意代碼都選擇使用了加殼技術(shù)，進(jìn)而導(dǎo)致自我保護(hù)的力度不斷的加大，使得程序中的相關(guān)運(yùn)行機(jī)制不斷發(fā)生變化，應(yīng)精確實(shí)施反匯編，在反匯編的結(jié)果基礎(chǔ)上，應(yīng)根據(jù)基礎(chǔ)性的各個(gè)靜態(tài)層次的特征提取方式，按照一定的靜態(tài)特征，無(wú)須運(yùn)行惡意代碼，通過(guò)相對(duì)的動(dòng)態(tài)信息獲取調(diào)用的序列結(jié)構(gòu)等，系統(tǒng)性的開(kāi)銷(xiāo)相對(duì)較小，但是其安全性相對(duì)較高。

3.4文件結(jié)構(gòu)層特征

文件結(jié)構(gòu)層的特征，更關(guān)注于靜態(tài)結(jié)構(gòu)信息，將惡意代碼的重新定位、文件搜索功能等進(jìn)行有效的防范，并對(duì)反病毒的軟件進(jìn)行查殺，通常能夠達(dá)到修改文件結(jié)構(gòu)的目的。

3.5高維特征的降維與約簡(jiǎn)

降維的方案有多種，如信息的增補(bǔ)、互動(dòng)信息的應(yīng)用及文檔的翻轉(zhuǎn)頻率等，其中應(yīng)用最多的為信息增益，應(yīng)按照降維的思路，計(jì)算各個(gè)特征環(huán)境及信息增益值下的降序排列，然后按照信息的增益值，實(shí)現(xiàn)某一閾值特征下的特征值的有效應(yīng)用。在特征提取的過(guò)程中，應(yīng)對(duì)文件的結(jié)構(gòu)特征進(jìn)行分析，利用滑動(dòng)窗口獲取有效的字節(jié)層、指令層和語(yǔ)義層，然后運(yùn)用降維方案進(jìn)行合理的降維。

3.6選擇性集成學(xué)習(xí)與決策融合

第一步，基于不同的特征訓(xùn)練模式，按照多個(gè)不同類(lèi)型的分類(lèi)器，選擇合理的分類(lèi)器裝置，實(shí)現(xiàn)多個(gè)分類(lèi)精度高、差異性大的分類(lèi)器裝置的合理化應(yīng)用及選擇，并通過(guò)選擇最優(yōu)的分類(lèi)器裝置，合理的利用分類(lèi)器組合實(shí)現(xiàn)最優(yōu)配置。

第二步，對(duì)于第一步的不同特征下的選擇性的集成分類(lèi)結(jié)果，應(yīng)對(duì)采用的加權(quán)多數(shù)投票的方式進(jìn)行融合，達(dá)到實(shí)現(xiàn)最終的分類(lèi)信息的有效應(yīng)用的目標(biāo)。針對(duì)選擇性的集成信息，每一個(gè)特征下的少數(shù)最優(yōu)的分類(lèi)器裝置進(jìn)行組合，從而減低分類(lèi)器的存儲(chǔ)空間等，提高分類(lèi)器的分類(lèi)速度，保障多特征模式下的分類(lèi)結(jié)果、分類(lèi)體系及投票方式的決策性融合分析。提高分類(lèi)器的精度與泛化能力。

4結(jié)論及展望

基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意代碼的檢測(cè)技術(shù)應(yīng)用是當(dāng)前信息技術(shù)惡意代碼檢測(cè)領(lǐng)域中的研究熱點(diǎn)，因此在本文的研究中，主要基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)，按照一種或者多維的特征體系，選擇性的集成惡意代碼檢測(cè)技術(shù)，利用多維特征、從多個(gè)層次中實(shí)現(xiàn)惡意代碼的特征集描述能力的全面應(yīng)用，以保障集成學(xué)習(xí)過(guò)程中的每個(gè)特征性分類(lèi)器的優(yōu)勢(shì)互補(bǔ)。最終實(shí)現(xiàn)檢測(cè)精度與單個(gè)分類(lèi)器檢測(cè)方式特征下的選擇性的集成學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)的充分應(yīng)用，并對(duì)機(jī)器學(xué)習(xí)過(guò)程中惡意代碼的檢測(cè)技術(shù)的優(yōu)勢(shì)進(jìn)行價(jià)值分析。

參考文獻(xiàn)

[1]廖國(guó)輝，劉嘉勇.基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)方法[J].信息安全研究，2016，2（01）：74-79.

[2]施宇.基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的木馬檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué)，2014.

[3]馮本慧.基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)研究[D].中南大學(xué)，2013.

[4]張福勇.面向惡意代碼檢測(cè)的人工免疫算法研究[D].華南理工大學(xué)，2012.

[5]孔德光.結(jié)合語(yǔ)義的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在代碼安全中應(yīng)用研究[D].中國(guó)科學(xué)技術(shù)大學(xué)，2010.

[6]張小康. 基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)研究[D].中國(guó)科學(xué)技術(shù)大學(xué)，2009.

作者簡(jiǎn)介：付大亮（1981.03-），男，遼寧沈陽(yáng)人，碩士在讀，國(guó)家軟考系統(tǒng)分析師，主要研究方向：概率論與數(shù)理統(tǒng)計(jì)。