999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對抗環境下基于集成決策樹的惡意PDF文件檢測

2020-10-15 12:17:26李坤明顧益軍張培晶
計算機應用與軟件 2020年10期
關鍵詞:分類檢測方法

李坤明 顧益軍 張培晶

1(中國人民公安大學信息技術與網絡安全學院 北京 102600) 2(中國人民公安大學網絡信息中心 北京 102600)

0 引 言

由于PDF文件格式的穩定性和跨平臺的交互性,其在政府、企業以及社會等組織的日常辦公中被廣泛使用。針對PDF文件漏洞發起的攻擊迅速增多,對惡意PDF文件的檢測非常有必要[1]。隨著人工智能的迅速發展,機器學習方法在惡意PDF文件的檢測中有著廣泛的應用。初始對于惡意PDF文件檢測的研究方法主要是通過定位和抽取惡意PDF文件中的Java-Script代碼進行檢測[2-3],但是由于大量的JavaScript代碼通過加密、混淆等手段使得在對其進行定位和解析中存在著巨大困難,此外還存在一些惡意PDF文件不含有JavaScript代碼。這些因素都使得使用該方法進行惡意PDF文件檢測時因為重要特征的缺失導致檢測的效率較低。于是出現了另一種通過將惡意PDF文件中元數據作為特征進行檢測的方法,其中較為常用的是將惡意PDF文件中的關鍵詞[4]、結構路徑[5-6]作為特征進行檢測,結果表明該方法具有較高的檢測率,由原來的80%提升到90%以上。

研究發現通過使用元數據作為特征進行惡意PDF文件檢測時,存在著一些非法攻擊者通過精心構造惡意PDF樣本(對抗樣本)使其逃避分類模型的檢測,降低了分類模型的可用性,導致模型的魯棒性較差。因此,研究對抗環境下在保持分類模型對惡意PDF文件檢測具有較高檢測率的同時也具有較強的魯棒性具有重要意義。

1 相關工作

1.1 逃避攻擊

目前機器學習方法在對文本進行分類時面臨的攻擊問題根據發生的時間可以分為兩類,分別是針對訓練階段的攻擊和針對測試階段的攻擊。本文只考慮在測試階段發生的攻擊。

逃避攻擊是發生在機器學習模型測試階段的一種常用的攻擊方式[7]。其原理是在基于特征提取的分類和惡意軟件檢測中,攻擊者能夠通過一定的方式修改惡意樣本中的部分特征進而生成對抗樣本,對抗樣本本身仍保留惡意內容,但使得其被模型誤分類為正常樣本,逃避了模型的檢測進而降低了模型的可用性。對于一個惡意PDF樣本,在無攻擊時其輸出為(x,y),在對抗環境下,攻擊者通過一定的方式修改其特征使得輸出改變為(x*,z),表示如下:

(1)

其中最優的攻擊策略是在使得分類模型誤分類的同時,所需要修改的特征值最小,C為標簽集合,即:

(2)

針對惡意PDF文件檢測的分類模型中,逃避攻擊方法產生對抗樣本的方式通常有兩種,一種是基于梯度的方法產生對抗樣本[8],另一種是基于特征加法的方式產生對抗樣本[9]。這兩種方法在垃圾郵件檢測系統與惡意PDF文件檢測上都實現了攻擊。由于攻擊者實施攻擊不需要了解訓練數據集的分布,并且能夠在已知更少的信息下實現對分類模型的攻擊,因此逃避攻擊是威脅機器學習安全的一種重要攻擊方式。

1.2 對抗環境下機器學習防御技術

機器學習方法被廣泛應用到網絡入侵檢測、人臉識別、文本分類等安全領域。機器學習模型經常受到對抗樣本的干擾,在利益的驅使下,攻擊者通過構造對抗樣本惡意地干擾輸入,以便在測試時使得分類模型誤分類[10]。

在對抗環境下對機器學習魯棒性的防御技術主要有蒸餾法、正則化方法、對抗性訓練方法和重新構造分類模型等。Papernot等[11]提出了蒸餾防御機制,該方法通過提升攻擊者產生對抗樣本時需要修改特征最小平均值的方式提高模型的魯棒性。但隨后Carlini等[12]指出該方法在不知道分類模型時的效果不明顯。文獻[13-14]使用正則化和對抗性訓練的方式,通過專門的訓練增強模型的魯棒性,但仍然存在盲區。針對如何在測試階段構建一個魯棒性能好的分類模型主要有以下研究:Zhang等[15]通過使用封裝式(Wrapper)的特征選擇方法挑選部分特征子集的方式構建出魯棒的分類模型;Bhagoji等[16]通過使用主成分分析方式對特征進行降維,構建了一個魯棒性較好的分類模型;Biggio等[17]提出使用Bagging集成的方法構建出魯棒的分類模型。

目前使用集成學習的方式對抗逃避攻擊通常是將若干個單分類器并行疊加在一起,然后將多個單分類器的結果以投票法、均值法等結合策略輸出,這些提高模型魯棒性的方法沒有考慮到攻擊者產生的對抗樣本信息。本文提出一種新的集成方法,首先通過模擬攻擊者的攻擊將攻擊過程中產生的對抗樣本添加到訓練集中;然后使用Adaboost方法集成決策樹在每次迭代過程中增加錯分樣本的權重,構建出新的惡意PDF文件檢測模型;最后通過模擬不同強度的攻擊測試所提方法在惡意PDF文件檢測上的有效性,并與單分類器決策樹方法、Bagging集成方法相比較。實驗結果表明,本文方法在無攻擊情況下具有較高的分類精度,有攻擊時的魯棒性優于其他兩種方法。

2 存在的問題

2.1 基于決策樹的惡意PDF文件檢測的脆弱性

PDF格式的靈活性使得攻擊者有足夠的機會改變其內容與結構。在逃避攻擊中攻擊者的目的是通過修改惡意PDF文件使其被分類模型誤分為正常樣本。由于PDF文件格式的特性使得攻擊者很難刪除惡意PDF文件中的部分惡意內容,但是可以輕松地向惡意PDF文件中添加正常內容,因此在惡意PDF文件檢測中常用基于特征加法的攻擊方式。

決策樹算法應用于惡意PDF文件檢測時,攻擊者通過查找終節點被正確分為惡意的路徑,然后沿著這條路徑回溯并找到第一個非終節點,沿著這個方向的終節點被分為正常樣本。在這種情況下,攻擊者通過向惡意樣本中添加正常樣本含有的特征生成對抗樣本,改變決策樹分類模型的決策路徑進而導致惡意樣本被誤分類,使得模型的魯棒性較差。

2.2 基于集成決策樹的方法提升模型的魯棒性

由于JavaScript代碼具有隱蔽性,對于其在PDF文件中的定位比較困難,因此使用JavaScript代碼的檢測率較低。在隨后提出的基于結構特征的惡意PDF文件檢測方法中,文獻[5]提出了基于結構特征的PDF文件特征抽取方法,并使用決策樹算法對惡意PDF文件進行分類,實驗結果表明該方法具有較高的正確率。但該方法存在兩個問題:一是文檔特征復雜,僅以特征在每個文檔中出現的頻數作為特征值不夠客觀;二是在對抗環境下,存在非法的攻擊者通過修改測試集中惡意PDF文件中的特征來逃避分類器的檢測,表明該模型的魯棒性較差。

對此提出一種基于集成決策樹的惡意PDF文件檢測方法。在構建分類模型前就考慮到攻擊者的攻擊問題,通過模擬針對于惡意PDF文件的特征加法攻擊,將攻擊產生的對抗樣本添加到訓練集中。然后使用Adaboost集成決策樹的方法構建分類模型,因為攻擊者產生的對抗樣本會被分類模型錯分為正常樣本,Adaboost方法使用串行迭代的方式,在每一次訓練中會增加錯分樣本的權重,通過模擬攻擊產生的對抗樣本的權重則會在下一次訓練中增加。因此攻擊者再對新的分類模型實施攻擊時,達到相同的攻擊效果需要修改惡意PDF文件的最小平均特征值會增加。最后通過實驗將該方法與單分類模型和現有的Bagging集成方法進行比較,結果表明在分類精度與魯棒性上均高于這兩種方法。

2.3 對抗環境下分類器性能評價指標

傳統的分類模型通常只考慮分類器的分類精確度,沒有考慮到攻擊者的攻擊問題。存在非法攻擊者通過修改惡意樣本的特征,使其被分類器檢測為正常樣本。因此在評價分類器性能時不僅要考慮分類模型在無攻擊時的分類精確度,還要考慮到其本身的魯棒性,即對抗逃避攻擊的能力。對于惡意PDF文件檢測的二分類問題,其分類結果的混淆矩陣如表1所示。

表1 分類結果混淆矩陣

在分類模型的評價指標中,正確率表示模型檢測結果是正確的PDF文件數占PDF文件總量的比例。逃避攻擊中,攻擊者的目的在于修改惡意樣本使其被模型誤分類,漏報率表示惡意PDF文件被模型檢測為正常PDF文件的數量占惡意PDF文件總量的比例,是評價分類模型魯棒性的重要指標。因此本文選擇精確度(Acc)和漏報率(FNR)作為評價分類模型的指標。

(3)

(4)

3 模型設計

在對抗環境下,為提高分類模型對惡意PDF文件的檢測率以及模型的魯棒性。本文提出一種集成決策樹的方法檢測惡意PDF文件,具體步驟如下:

1)對于一個PDF文件,具有固定的格式,通過使用PDF文件解析器可以抽取出其結構特征,惡意PDF文件數據集可以表示為T={(x1,y1),(x2,y2),…,(xN,yN)},xi=(xi1,xi2,…,xij)。其中:xi表示一個空間維度為j的PDF文件;yn∈{1,-1}為PDF文件的標簽,1表示惡意文件,-1表示正常文件。

2)使用TF-IDF(Term Frequency-Inverse Document Frequency)算法對每個PDF文件所抽取的特征屬性進行量化處理,計算每一個特征向量的權重。其公式如下:

(5)

(6)

tfidfi,j=tfi,j×idfi

(7)

3)使用基于特征加法攻擊方法實現對決策樹算法的攻擊,并記錄分類器的分類效果。

4)使用Adaboost方法集成決策樹算法,在每一次串行迭代訓練中,增加攻擊過程中錯分樣本的權重,經過M次迭代訓練出新的分類模型。對于訓練數據集D={(x1,y1),(x2,y2),…,(xN,yN)},xi∈X?R,yi∈{-1,1}。

(1)初始化訓練數據的權值分布:

(8)

(2)對m=1,2,…,M(M表示實驗設置決策樹的個數):

① 使用具有權值分布的Dm訓練數據集學習,得到決策樹模型Gm(x)。

② 計算Gm(x)在訓練數據集上的分類誤差率:

(9)

③ 計算得到決策樹模型Gm(x)的權重:

am=ln(1-em)/em

(10)

④ 更新PDF訓練數據集的權值分布:

(11)

式中:Zm為規范化因子。

(3)得到由決策樹集成的分類器:

(12)

5)通過模擬不同強度的攻擊,對集成決策樹模型F(x)進行攻擊,驗證本文方法構建的惡意PDF文件檢測模型在逃避攻擊情況下的分類效果。具體檢測流程如圖1所示。

圖1 集成決策樹算法的惡意PDF文件檢測流程

4 實驗分析

4.1 實驗數據

本文使用的數據集來源于CONTAGIO數據集[18],選取了其中的4 786個惡意PDF文件和4 904個正常PDF文件,使用基于關鍵詞的方法提取PDF文件特征。采取5折交叉驗證的方式進行實驗,即將數據集隨機分成5份,其中4份作為訓練集,剩余的1份作為測試集。

4.2 攻擊強度

本文方法旨在提高分類模型在測試過程中分類模型對抗逃避攻擊的能力,實驗采用基于特征加法的攻擊方式。基于特征加法的攻擊方法是機器學習在文本分類中一種常見的攻擊方式,同時也是檢測分類模型魯棒性的方式。本文將攻擊強度記為K,通過設定K為2、4、6、8、10,即向惡意樣本中添加不同的正常樣本特征屬性的數量,模擬不同強度的攻擊。

4.3 實驗結果

本文通過將集成決策樹的個數M設置為10到70,并測試集成方法在無攻擊時的分類精確度。由表2可知,隨著弱分類器個數的增加,分類效果并未提升,此外考慮到計算開銷問題以及模型的泛化性能,本文選擇集成決策樹的個數為10進行實驗。

表2 無攻擊時集成不同個數單分類器的精確度

由表3可知,在無攻擊的情況下(K=0),基于Adaboost方法集成決策樹的方法在惡意PDF文件檢測的精確度上相比Bagging方法增加了0.56%,但兩種集成的方法在檢測精確度上均高于決策樹算法構建的單分類器。隨著攻擊強度的增加,決策樹分類器的檢測精確度迅速下降,當攻擊強度K=10時,其惡意PDF文件檢測精確度由初始的97.01%下降到71.59%,下降了25.42個百分點。相同攻擊強度下,基于Bagging的集成方法下降了10.95個百分點,本文的方法下降了8.94個百分點,說明本文方法在不同攻擊強度下具有更高的檢測精確度,對抗逃避攻擊時模型的魯棒性更好。

表3 三種方法在不同攻擊強度下的精確度

在漏報率方面,兩種集成方法在無攻擊時較為接近。隨著攻擊強度的增加,由表4可知,基于決策樹算法的檢測模型隨著攻擊強度的增加在漏報率上下降幅度最大。當攻擊強度K=10時,基于決策樹的惡意PDF文件檢測模型的漏報率為10%,基于Bagging集成的方法漏報率為8.1%,使用本文方法的漏報率最低為5.07%。

表4 三種方法在不同攻擊強度下的漏報率

向惡意PDF文件中添加正常樣本的特征,會改變決策樹分類模型劃分屬性選擇,導致模型做出錯誤的判斷,因此單分類器在面對攻擊時模型的魯棒性通常較差。Bagging集成方法的原理是通過使用自助采樣法并行訓練出多個單決策樹分類模型,使用投票的方法得到最終結果。本質上減小了每個單分類器輸出結果的權重,雖然在一定程度上模型的分類魯棒性優于單分類器,但是模型的構建過程中沒有考慮到攻擊者產生的逃避攻擊樣本問題。而本文采用的方法通過使用串行迭代的方式生成模型,并在訓練集中加入對抗樣本,在每一輪訓練過程中會根據樣本的分布為每個樣本重新賦予一個權重,使得樣本屬性的權重分配更加均衡合理,即使存在攻擊者通過修改惡意PDF文件特征逃避檢測時,達到相同的攻擊效果,其修改的特征值也就越多。因此本文方法構建的分類模型在惡意PDF文件檢測上具有較高檢測精確度的同時,模型的魯棒性更好。

5 結 語

決策樹算法在惡意PDF文件檢測上通常具有較高的精確度,但模型的魯棒性較差。為此,本文在訓練分類模型的過程中將攻擊者產生的對抗樣本添加到訓練集中,然后使用串行迭代的方式在每次迭代的過程中通過不斷增大錯分樣本的權重,最終訓練出分類模型。為驗證本文構建模型的分類性能和魯棒性,通過模擬不同強度的攻擊與單分類器和Bagging集成的多分類器進行比較。實驗結果表明,本文方法在無攻擊情況下具有較高的精確度,同時在不同攻擊強度下其精確度和漏報率均優于決策樹算法和Bagging集成方法。

本文主要是對決策樹算法的集成,構建了一個魯棒的惡意PDF文件檢測模型。下一步可以使用集成的方法將多種算法融合在惡意PDF文件的檢測上,還可以考慮將集成的方法與其他提高模型魯棒性的方法相結合進行研究。

猜你喜歡
分類檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产AV无码专区亚洲精品网站| 亚洲另类色| 高清不卡毛片| 亚洲二区视频| 性网站在线观看| 国产精女同一区二区三区久| jizz在线免费播放| 欧类av怡春院| 欧美精品啪啪一区二区三区| 亚洲国产天堂久久九九九| AV无码一区二区三区四区| 最新国产精品鲁鲁免费视频| 不卡色老大久久综合网| 日本www在线视频| 国产一二视频| 免费激情网址| 国产精品思思热在线| 香蕉视频在线观看www| 国产主播一区二区三区| 综合色88| 亚洲成人一区二区| 国产精品欧美在线观看| 中文纯内无码H| 美美女高清毛片视频免费观看| 一级毛片高清| 中日韩一区二区三区中文免费视频 | 国产精品久久久久久搜索 | 精品国产免费观看一区| 亚洲经典在线中文字幕| 国产第四页| 一级成人欧美一区在线观看 | 日本草草视频在线观看| 无码一区二区波多野结衣播放搜索| 永久免费无码日韩视频| 亚洲91精品视频| 91亚洲精选| www.亚洲天堂| 国产区在线看| 欧美午夜在线播放| 久久影院一区二区h| 精品亚洲欧美中文字幕在线看| 成人久久精品一区二区三区| 婷婷六月综合网| 欧美激情视频在线观看一区| 欧美五月婷婷| 亚洲人成网站18禁动漫无码| 97视频免费在线观看| 天天干伊人| 亚洲成人在线免费观看| 国产玖玖玖精品视频| 国产日韩精品欧美一区喷| 日韩在线欧美在线| 国产成人精品免费av| 无码中字出轨中文人妻中文中| 国产97视频在线| 国产99久久亚洲综合精品西瓜tv| 九九这里只有精品视频| 国产精品久久久久久久久久久久| 日本人妻丰满熟妇区| 色综合激情网| 1级黄色毛片| 毛片视频网址| 免费毛片在线| 人妻免费无码不卡视频| 国产欧美视频一区二区三区| 狠狠躁天天躁夜夜躁婷婷| 精品国产乱码久久久久久一区二区| 啊嗯不日本网站| 久久亚洲综合伊人| 精品国产福利在线| 欧美精品伊人久久| 国产精品19p| 丰满人妻久久中文字幕| 伊人精品视频免费在线| 国产一区二区精品高清在线观看| 欧美成人午夜在线全部免费| a免费毛片在线播放| 首页亚洲国产丝袜长腿综合| 国产精品青青| 九九久久精品国产av片囯产区| 免费看av在线网站网址| 国产精品hd在线播放|