


摘要:信息化技術(shù)是當(dāng)前社會(huì)發(fā)展的標(biāo)志產(chǎn)物,也是推動(dòng)信息化社會(huì)建設(shè)的標(biāo)桿。而在信息化發(fā)展過(guò)程中,信息安全是影響其發(fā)展的瓶頸之一,如計(jì)算機(jī)病毒的侵入、釣魚(yú)網(wǎng)站的設(shè)立、木馬盜號(hào)等。對(duì)用戶(hù)個(gè)人隱私、企業(yè)業(yè)務(wù)信息安全、國(guó)家信息安全等造成嚴(yán)重影響。由于在信息技術(shù)發(fā)展的進(jìn)程中,離不開(kāi)軟件的使用,而軟件目前更加注重人工編寫(xiě),這種業(yè)態(tài)是缺陷代碼、惡意代碼產(chǎn)生的根本原因,因此有效的檢測(cè)及防范惡意代碼生成成為當(dāng)前信息安全檢測(cè)技術(shù)發(fā)展方向之一。本文結(jié)合傳統(tǒng)檢測(cè)技術(shù),重點(diǎn)對(duì)檢測(cè)技術(shù)的速度及效率等問(wèn)題進(jìn)行分析,實(shí)現(xiàn)快速、智能化檢測(cè),研究中基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)理論,為解決相關(guān)技術(shù)的實(shí)際應(yīng)用提供一定理論參考。
關(guān)鍵詞:數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);惡意代碼;檢測(cè)技術(shù)
引言
現(xiàn)代社會(huì)快速發(fā)展進(jìn)程中,信息技術(shù)發(fā)展迅速,伴隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,信息技術(shù)已經(jīng)深深的融入到人們的日常生活中,同時(shí)信息技術(shù)的發(fā)展,也提升了人們?nèi)粘9ぷ鳌⑿蓍e和娛樂(lè)的氛圍,為互聯(lián)網(wǎng)技術(shù)的快速發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。但是,計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,也為惡意代碼的滋生提供了良好的傳播空間和環(huán)境,惡意代碼數(shù)量的增加,使其傳播速度逐步的加快。依據(jù)互聯(lián)網(wǎng)應(yīng)急管理中心發(fā)布的《2018年中國(guó)互聯(lián)網(wǎng)安全報(bào)告》顯示,2018年全年惡意程序傳播事件達(dá)46,578,698次,其中惡意程序下載鏈接778,388個(gè)。惡意代碼的傳播數(shù)量逐步增加,不僅會(huì)導(dǎo)致系統(tǒng)中的相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)受到一定的影響,同時(shí)惡意代碼可能泄露數(shù)據(jù),甚至?xí)p壞硬件結(jié)構(gòu),導(dǎo)致企業(yè)和個(gè)人的正常生產(chǎn)生活受到影響,甚至帶來(lái)較大的經(jīng)濟(jì)損失。因此,要充分結(jié)合惡意代碼的檢測(cè)與處理技術(shù),智能化檢測(cè)惡意代碼,降低惡意代碼帶來(lái)的危害,防止造成信息技術(shù)的干擾。惡意代碼檢查技術(shù)已成為當(dāng)前信息安全技術(shù)研究和發(fā)展的重要熱點(diǎn)話(huà)題。
1惡意代碼相關(guān)分析與檢測(cè)技術(shù)理論
1.1惡意代碼的定義與分類(lèi)
1.1.1木馬
木馬是安全威脅的最多的惡意代碼類(lèi)型之一。從名字上看,它是一種非法入侵計(jì)算機(jī),并獲得遠(yuǎn)程控制權(quán)限的一種惡意代碼,其往往偽裝成正常的程序,誘導(dǎo)用戶(hù)進(jìn)行下載,一旦用戶(hù)下載了裝有木馬的程序,木馬就會(huì)在計(jì)算機(jī)上運(yùn)行,收集信息、接受黑客指令等。
1.1.2孺蟲(chóng)
孺蟲(chóng)是一種不斷的自我修復(fù)、復(fù)制病毒,它能利用電子郵件等網(wǎng)絡(luò)手段實(shí)現(xiàn)惡意代碼的傳播。蠕蟲(chóng)類(lèi)型很多,有的惡意消耗資源、有的收集信息等。
1.2.3病毒
當(dāng)前,大部分人都習(xí)慣性的將惡意代碼統(tǒng)稱(chēng)為病毒,其實(shí)嚴(yán)格意義上,病毒只是惡意代碼的一個(gè)類(lèi)型,病毒從名稱(chēng)來(lái)看,只是來(lái)源于對(duì)應(yīng)的科幻小說(shuō),并通過(guò)一段時(shí)間的修復(fù)和修改技術(shù),增加自身的副本,并將相應(yīng)的程序感染到對(duì)應(yīng)的程序代碼中。
1.2惡意代碼的檢測(cè)技術(shù)
1.2.1基于特征碼的檢測(cè)技術(shù)
基于特征碼的檢測(cè)技術(shù)主要利用惡意代碼的靜態(tài)分析,獲取惡意代碼的特征信息,并結(jié)合十六進(jìn)制的字節(jié)序列,按照字符串序列結(jié)構(gòu),對(duì)該特征體系下的惡意代碼進(jìn)行有效的檢測(cè)。檢測(cè)流程如下圖1所示。
1.2.2基于啟發(fā)式的檢測(cè)技術(shù)
基于啟發(fā)式的檢測(cè)技術(shù)主要是通過(guò)對(duì)惡意代碼的分析,從而獲取惡意代碼中所通用的操作序列或者結(jié)構(gòu)形式,并依據(jù)一般性操作的存在形式(如修改某個(gè)文件的結(jié)構(gòu)、刪除相關(guān)系統(tǒng)性文件等),對(duì)每一個(gè)的行為操作序列或者結(jié)構(gòu)的模式按照危險(xiǎn)性程序的排序,實(shí)現(xiàn)不同危險(xiǎn)程序的加權(quán)值,在檢測(cè)實(shí)施的過(guò)程中,將對(duì)應(yīng)操作行為中相關(guān)序列及結(jié)構(gòu)模式的加權(quán)值進(jìn)行總和分析,如果超過(guò)了某個(gè)特定的閾值,則可判定其為惡意代碼。
1.2.3基于檢驗(yàn)和的檢測(cè)技術(shù)
檢驗(yàn)和是一種信息保護(hù)技術(shù),如Hash值、循環(huán)冗余碼等。只要文件發(fā)生標(biāo)動(dòng),校驗(yàn)和就會(huì)改變。通過(guò)定期性的文件檢查,對(duì)文件的完整性檢測(cè)分析,來(lái)發(fā)現(xiàn)異常改變的文件。
2基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的檢測(cè)技術(shù)
惡意代碼在信息技術(shù)應(yīng)用的過(guò)程中,呈現(xiàn)出數(shù)量不斷增多,出現(xiàn)的周期逐步縮短的特征,加上一定迷惑性技術(shù)的應(yīng)用,導(dǎo)致檢測(cè)的難度越來(lái)越大,因此如何有效的獲取智能化的惡意代碼檢測(cè)技術(shù),是當(dāng)前惡意代碼檢測(cè)領(lǐng)域中發(fā)展的重點(diǎn)內(nèi)容。在數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用中,都可通過(guò)樣本的特征進(jìn)行分析,通過(guò)自動(dòng)學(xué)習(xí)病毒融合規(guī)律性的發(fā)展模式,將學(xué)習(xí)到的基礎(chǔ)性模式運(yùn)用到病毒分類(lèi)檢測(cè)與分析,實(shí)現(xiàn)監(jiān)測(cè)的自動(dòng)化與智能化。其檢測(cè)原理如圖2所示。
2.1樣本的選擇與劃分
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的惡意代碼的檢測(cè)技術(shù)中,主要包含有訓(xùn)練與測(cè)試兩個(gè)步驟,因此在獲取數(shù)據(jù)集合的過(guò)程中,應(yīng)對(duì)數(shù)據(jù)進(jìn)行有效的劃分,主要可劃分為訓(xùn)練集和數(shù)據(jù)集。主要的劃分方式有:
一種是k重交叉驗(yàn)證的方式,k重交叉驗(yàn)證即將實(shí)驗(yàn)數(shù)據(jù)集劃分為k等份,其中k-1份作為訓(xùn)練集,剩下的1份作為測(cè)試集,然后從訓(xùn)練集中再取出1分作為測(cè)試集,將前面的1份測(cè)試集再加入訓(xùn)練集之中,如此重復(fù)k次。
另外一種,利用固定性質(zhì)的比例模式,將即將數(shù)據(jù)集按照一定的比例,如3:1的方式進(jìn)行有效劃分,主要可區(qū)分為訓(xùn)練集與測(cè)試集,并通過(guò)兩種模式的劃分,對(duì)其應(yīng)用過(guò)程中的劃分方式進(jìn)行分析。其中,采用k重交叉驗(yàn)證的方式能夠獲取均值,并采用k重取均值的方式,實(shí)現(xiàn)分類(lèi)精度的進(jìn)一步提高。
2.2特征表示與提取
在挖掘與學(xué)習(xí)算法的應(yīng)用中,應(yīng)基于惡意代碼的基本特征,融合特征的表現(xiàn)形式等,對(duì)特征的提取方法進(jìn)行精度和使用性能的對(duì)比分析,融合學(xué)習(xí)算法的有效應(yīng)用,提升算法應(yīng)用的精度的實(shí)現(xiàn)。
在常用性的特征表示方案中,主要包含文件的結(jié)構(gòu)特征、序列特征及統(tǒng)計(jì)特征的合理應(yīng)用,不過(guò)特征性的表達(dá)方式并沒(méi)有絕對(duì)的好壞之分,不同的特征反映出的只是惡意代碼不同層面的信息,其側(cè)重點(diǎn)是不同的。
2.3特征降維與約簡(jiǎn)
相關(guān)研究表明,冗余與不相關(guān)的特征的存在對(duì)學(xué)習(xí)算法的性能影響非常巨大,最終會(huì)導(dǎo)致分類(lèi)器的使用性能降低,分類(lèi)的準(zhǔn)確性也會(huì)降低,可實(shí)現(xiàn)的泛化功能逐步的下降等,因此對(duì)于以高維矢量為基礎(chǔ)的惡意代碼在其特征應(yīng)用上尤為明顯,因此在分類(lèi)學(xué)習(xí)的過(guò)程中,應(yīng)充分的結(jié)合高維惡意代碼的特征,實(shí)現(xiàn)降維數(shù)據(jù)信息的合理化構(gòu)建。降維的過(guò)程中排除與類(lèi)別無(wú)關(guān)的特征負(fù)面影響,并選擇性的利用分類(lèi)對(duì)比的方法,將最優(yōu)的特征子集進(jìn)行選擇,并通過(guò)進(jìn)一步的提高分類(lèi)的利用效果,提高分類(lèi)器的泛化使用功能等,以減少學(xué)習(xí)算法過(guò)程中的學(xué)習(xí)時(shí)間。
3基于多維特征與選擇性集成學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)
3.1檢測(cè)基本框架
本文所提出的檢測(cè)算法相關(guān)的框架體系,如圖3中,檢測(cè)過(guò)程中主要可分為兩個(gè)重要的階段,分別為訓(xùn)練階段和測(cè)試階段,訓(xùn)練階段通過(guò)測(cè)試集訓(xùn)練模型,測(cè)試階段驗(yàn)證模型。監(jiān)測(cè)過(guò)程包含樣本的靜態(tài)反匯編、特征的提取與選擇,集成分類(lèi)器構(gòu)建等3個(gè)基本流程。其中靜態(tài)反匯編主要完成判斷惡意代碼是否加殼并依據(jù)殼的類(lèi)型選擇相應(yīng)的脫殼程序正確脫殼。在特征提取的過(guò)程中,將基本的字節(jié)序列、指令序列和基于語(yǔ)義的靜態(tài)API調(diào)用的序列特征進(jìn)行合理的提取,供后續(xù)算法使用。對(duì)于不同維度的特征化分析過(guò)程,主要應(yīng)包含特征約簡(jiǎn),促進(jìn)集成分類(lèi)器的合理構(gòu)建,并結(jié)合集成過(guò)程,實(shí)現(xiàn)測(cè)試階段中的主要樣本信息的測(cè)試的完善。
3.2實(shí)驗(yàn)樣本的選擇與劃分
實(shí)驗(yàn)樣本的選擇要點(diǎn)要依據(jù)操作系統(tǒng)平臺(tái)、語(yǔ)言類(lèi)型、特征進(jìn)行選擇。
實(shí)驗(yàn)樣本的劃分。傳統(tǒng)模式下的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的檢測(cè)方法中,主要以實(shí)驗(yàn)數(shù)據(jù)的應(yīng)用為主,在實(shí)驗(yàn)數(shù)據(jù)的劃分過(guò)程中,應(yīng)對(duì)實(shí)驗(yàn)數(shù)據(jù)的平衡性進(jìn)行管理,達(dá)到最終的檢驗(yàn)檢測(cè)效果,因此如何有效設(shè)定測(cè)試集中區(qū)域中的惡意代碼與正常代碼的類(lèi)別比例的合理的應(yīng)用,使得分類(lèi)的過(guò)程能夠以最佳的接近實(shí)際分布的相關(guān)情況進(jìn)行合理分析。
3.3多維特征的提取
結(jié)合當(dāng)前特征性的描述能力,根據(jù)指定的多特征的方式,融合新的特征對(duì)信息補(bǔ)充,以更加全面的刻畫(huà)惡意性的代碼特征,提升惡意代碼的檢驗(yàn)檢測(cè)能力,一般推薦利用惡意代碼的多特征檢構(gòu)建科學(xué)合理監(jiān)測(cè)技術(shù)。為了綜合考慮效率與成本之間的關(guān)系,在特征性的提取過(guò)程中,主要采取使用靜態(tài)的特征指標(biāo)方案,采用多種工具結(jié)合,更加全面的描述惡意代碼特征,充分的發(fā)揮靜態(tài)特征的優(yōu)勢(shì),本文以惡意代碼的多個(gè)靜態(tài)層次為基礎(chǔ),實(shí)現(xiàn)多維特征的有效描述,并結(jié)合文件的結(jié)構(gòu)層次,字節(jié)的層次性等,將語(yǔ)義層、序列的基本特征進(jìn)行合理化的構(gòu)建。
由于當(dāng)前很多的惡意代碼都選擇使用了加殼技術(shù),進(jìn)而導(dǎo)致自我保護(hù)的力度不斷的加大,使得程序中的相關(guān)運(yùn)行機(jī)制不斷發(fā)生變化,應(yīng)精確實(shí)施反匯編,在反匯編的結(jié)果基礎(chǔ)上,應(yīng)根據(jù)基礎(chǔ)性的各個(gè)靜態(tài)層次的特征提取方式,按照一定的靜態(tài)特征,無(wú)須運(yùn)行惡意代碼,通過(guò)相對(duì)的動(dòng)態(tài)信息獲取調(diào)用的序列結(jié)構(gòu)等,系統(tǒng)性的開(kāi)銷(xiāo)相對(duì)較小,但是其安全性相對(duì)較高。
3.4文件結(jié)構(gòu)層特征
文件結(jié)構(gòu)層的特征,更關(guān)注于靜態(tài)結(jié)構(gòu)信息,將惡意代碼的重新定位、文件搜索功能等進(jìn)行有效的防范,并對(duì)反病毒的軟件進(jìn)行查殺,通常能夠達(dá)到修改文件結(jié)構(gòu)的目的。
3.5高維特征的降維與約簡(jiǎn)
降維的方案有多種,如信息的增補(bǔ)、互動(dòng)信息的應(yīng)用及文檔的翻轉(zhuǎn)頻率等,其中應(yīng)用最多的為信息增益,應(yīng)按照降維的思路,計(jì)算各個(gè)特征環(huán)境及信息增益值下的降序排列,然后按照信息的增益值,實(shí)現(xiàn)某一閾值特征下的特征值的有效應(yīng)用。在特征提取的過(guò)程中,應(yīng)對(duì)文件的結(jié)構(gòu)特征進(jìn)行分析,利用滑動(dòng)窗口獲取有效的字節(jié)層、指令層和語(yǔ)義層,然后運(yùn)用降維方案進(jìn)行合理的降維。
3.6選擇性集成學(xué)習(xí)與決策融合
第一步,基于不同的特征訓(xùn)練模式,按照多個(gè)不同類(lèi)型的分類(lèi)器,選擇合理的分類(lèi)器裝置,實(shí)現(xiàn)多個(gè)分類(lèi)精度高、差異性大的分類(lèi)器裝置的合理化應(yīng)用及選擇,并通過(guò)選擇最優(yōu)的分類(lèi)器裝置,合理的利用分類(lèi)器組合實(shí)現(xiàn)最優(yōu)配置。
第二步,對(duì)于第一步的不同特征下的選擇性的集成分類(lèi)結(jié)果,應(yīng)對(duì)采用的加權(quán)多數(shù)投票的方式進(jìn)行融合,達(dá)到實(shí)現(xiàn)最終的分類(lèi)信息的有效應(yīng)用的目標(biāo)。針對(duì)選擇性的集成信息,每一個(gè)特征下的少數(shù)最優(yōu)的分類(lèi)器裝置進(jìn)行組合,從而減低分類(lèi)器的存儲(chǔ)空間等,提高分類(lèi)器的分類(lèi)速度,保障多特征模式下的分類(lèi)結(jié)果、分類(lèi)體系及投票方式的決策性融合分析。提高分類(lèi)器的精度與泛化能力。
4結(jié)論及展望
基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意代碼的檢測(cè)技術(shù)應(yīng)用是當(dāng)前信息技術(shù)惡意代碼檢測(cè)領(lǐng)域中的研究熱點(diǎn),因此在本文的研究中,主要基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí),按照一種或者多維的特征體系,選擇性的集成惡意代碼檢測(cè)技術(shù),利用多維特征、從多個(gè)層次中實(shí)現(xiàn)惡意代碼的特征集描述能力的全面應(yīng)用,以保障集成學(xué)習(xí)過(guò)程中的每個(gè)特征性分類(lèi)器的優(yōu)勢(shì)互補(bǔ)。最終實(shí)現(xiàn)檢測(cè)精度與單個(gè)分類(lèi)器檢測(cè)方式特征下的選擇性的集成學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)的充分應(yīng)用,并對(duì)機(jī)器學(xué)習(xí)過(guò)程中惡意代碼的檢測(cè)技術(shù)的優(yōu)勢(shì)進(jìn)行價(jià)值分析。
參考文獻(xiàn)
[1]廖國(guó)輝,劉嘉勇.基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)方法[J].信息安全研究,2016,2(01):74-79.
[2]施宇.基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的木馬檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2014.
[3]馮本慧.基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)研究[D].中南大學(xué),2013.
[4]張福勇.面向惡意代碼檢測(cè)的人工免疫算法研究[D].華南理工大學(xué),2012.
[5]孔德光.結(jié)合語(yǔ)義的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在代碼安全中應(yīng)用研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2010.
[6]張小康. 基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)技術(shù)研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2009.
作者簡(jiǎn)介:付大亮(1981.03-),男,遼寧沈陽(yáng)人,碩士在讀,國(guó)家軟考系統(tǒng)分析師,主要研究方向:概率論與數(shù)理統(tǒng)計(jì)。