999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多層分類器的惡意網(wǎng)頁檢測技術(shù)研究

2020-08-07 14:42:08張士坤
現(xiàn)代計(jì)算機(jī) 2020年18期
關(guān)鍵詞:特征檢測方法

張士坤

(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州510006)

0 引言

根據(jù)中國反釣魚聯(lián)盟組織的報(bào)告[1]指出,2019 年7月國內(nèi)檢測出448046 個(gè)惡意網(wǎng)站,對社會和經(jīng)濟(jì)造成重大損失。隨著移動互聯(lián)網(wǎng)的興起和繁榮,惡意網(wǎng)頁攻擊日益多樣化和復(fù)雜化,使得惡意網(wǎng)頁的檢測更為困難。如何高效識別惡意網(wǎng)頁已經(jīng)成為亟待解決的問題之一。

為了應(yīng)對這些挑戰(zhàn),機(jī)器學(xué)習(xí)方法在惡意網(wǎng)頁檢測中得到了廣泛應(yīng)用,包括樸素貝葉斯、決策樹、隨機(jī)森林、支持向量機(jī)等算法。在這些方法中,特征提取和分類器的構(gòu)建是很關(guān)鍵的因素。人工特征提取需要耗費(fèi)大量時(shí)間和精力。近年來,深度學(xué)習(xí)方法在圖像識別、語音識別等領(lǐng)域得到廣泛應(yīng)用。深度學(xué)習(xí)方法使用神經(jīng)網(wǎng)絡(luò)模型,自動學(xué)習(xí)樣本特征,在處理大量數(shù)據(jù)集情況下表現(xiàn)良好。惡意網(wǎng)頁檢測領(lǐng)域也能使用深度學(xué)習(xí)方法,目前該應(yīng)用已經(jīng)取得不錯的效果。

1 相關(guān)工作

針對惡意網(wǎng)頁的識別,國內(nèi)外學(xué)者提出很多檢測方法,主要分為以下5 類:

基于黑名單的檢測方法。黑名單是一份惡意網(wǎng)頁列表,包含惡意網(wǎng)頁的URL、IP 地址等信息。通常是由具有公信力的網(wǎng)站發(fā)布,例如谷歌公司開發(fā)和維護(hù)的Google Safe Browsing API[2]。文獻(xiàn)[3]通過網(wǎng)站域名匹配以及Google 搜索結(jié)果,來確定待測網(wǎng)頁是否為惡意的。黑名單技術(shù)雖然實(shí)現(xiàn)簡單、使用方便,但由于檢測效果依賴于黑名單的規(guī)模,存在漏報(bào)率高的缺點(diǎn)。

基于啟發(fā)式規(guī)則的檢測方法。該方法是根據(jù)惡意網(wǎng)頁的相似性規(guī)則來判斷網(wǎng)頁是否為惡意的,雖然在檢測速度上具有較大優(yōu)勢,但僅使用基于規(guī)則匹配的檢測方法,無法應(yīng)對新類型的釣魚網(wǎng)頁[4]。

基于交互式主機(jī)行為的檢測方法。訪問惡意網(wǎng)頁時(shí),可能會出現(xiàn)惡意軟件安裝或惡意腳本執(zhí)行等情況,這時(shí)可以使用蜜罐技術(shù)檢測網(wǎng)頁。蜜罐技術(shù)本質(zhì)上是一種對攻擊方進(jìn)行欺騙的技術(shù),通過布置一些作為誘餌的主機(jī)、網(wǎng)絡(luò)服務(wù)或者信息,誘使攻擊方對它們實(shí)施攻擊,從而可以對攻擊行為進(jìn)行捕獲和分析[5]。

基于機(jī)器學(xué)習(xí)的檢測方法。機(jī)器學(xué)習(xí)方法通過選擇惡意網(wǎng)頁的特征,來生成訓(xùn)練數(shù)據(jù),構(gòu)造分類器進(jìn)行檢測。文獻(xiàn)[6]提出基于SVM 的輕量級惡意網(wǎng)頁檢測方法,作者僅提取了6 個(gè)URL 特征,包括URL 長度、數(shù)字的數(shù)目、是否包含IP 地址。由于提取的網(wǎng)頁特征少,模型檢測速度快。該方法的缺點(diǎn)之一是實(shí)驗(yàn)數(shù)據(jù)量小,泛化能力較弱。文獻(xiàn)[7]提出一種從URL 字符串中提取詞匯特征的方法,并使用自適應(yīng)正則化來檢測惡意網(wǎng)頁。該方法能較少訓(xùn)練數(shù)據(jù)的噪音,并提高檢測準(zhǔn)確率。文獻(xiàn)[8]首先從URL 地址入手,提取URL特征并采用改進(jìn)貝葉斯算法進(jìn)行檢測,對貝葉斯方法無法確定的可疑網(wǎng)頁,再提取該網(wǎng)頁的頁面特征,使用不平衡SVM 進(jìn)行檢測。該方法所需的檢測時(shí)間少且能達(dá)到較高的識別準(zhǔn)確率。文獻(xiàn)[9]首先過濾掉高度相似的惡意網(wǎng)頁和沒有登錄表單的網(wǎng)頁,然后從URL 詞匯表、HTML DOM、WHOIS 信息和搜索引擎信息中提取15 個(gè)高度差異化的特征,使用機(jī)器學(xué)習(xí)方法檢測。文獻(xiàn)[10]提出一種可擴(kuò)展的惡意網(wǎng)頁檢測方法,作者從URL 和HTML 中提取了212 個(gè)特征,同時(shí)使用Gradient Boosting 來檢測惡意網(wǎng)頁。

基于深度學(xué)習(xí)的檢測方法。深度學(xué)習(xí)方法使用神經(jīng)網(wǎng)絡(luò)模型,自動學(xué)習(xí)樣本特征,在處理大量數(shù)據(jù)集情況下表現(xiàn)良好。文獻(xiàn)[11]使用了循環(huán)神經(jīng)網(wǎng)絡(luò)中的LSTM 對URL 進(jìn)行檢測,使用兩百萬條URL 的數(shù)據(jù)集訓(xùn)練模型,準(zhǔn)確率能達(dá)到98.7%。相比隨機(jī)森林模型,LSTM 準(zhǔn)確率高出5%。

2 模型架構(gòu)設(shè)計(jì)

本文對網(wǎng)頁不同層次特征,采用不同的算法模型,綜合兩個(gè)模型的輸出得到最終的檢測結(jié)果。本文設(shè)計(jì)的檢測模型有兩個(gè)層級:CNN-GRU 檢測模型和隨機(jī)森林檢測模型。對URL 原始字符串,利用CNN 處理局部關(guān)聯(lián)性數(shù)據(jù)和特征提取的優(yōu)勢,以及GRU 神經(jīng)網(wǎng)絡(luò)捕獲數(shù)據(jù)時(shí)序性和長程依賴性的優(yōu)勢,構(gòu)建CNN 和GRU 混合模型,該模型能自動提取URL 字符串的特征。隨機(jī)森林檢測模型提取了16 個(gè)網(wǎng)頁特征,包括URL 字符串特征,DNS 信息、網(wǎng)頁HTML 等特征。該模型采用隨機(jī)森林算法進(jìn)行網(wǎng)頁檢測。

2.1 CNN-GRU檢測模型

由于訓(xùn)練數(shù)據(jù)為URL 字符串,而神經(jīng)網(wǎng)絡(luò)模型的輸入必須為數(shù)值,所以需要把字符型數(shù)據(jù)轉(zhuǎn)換成數(shù)值數(shù)據(jù)。如果數(shù)據(jù)集中URL 長度差異過大,將不利于神經(jīng)網(wǎng)絡(luò)快速收斂,因此需要統(tǒng)一所有樣本的URL 長度。假設(shè)選定的URL 長度為L,所有樣本需要進(jìn)行字符串截取和字符填充。長度大于或等于L 的字符串,只截取該URL 的前L 位,長度小于L 的字符串,從末尾開始填充到L 位,填充字符選擇特殊字符,L 的實(shí)驗(yàn)值為200。

實(shí)驗(yàn)采用one hot 編碼,把字符串?dāng)?shù)據(jù)轉(zhuǎn)換成矩陣。通過遍歷數(shù)據(jù)集生成字符映射表,表中每個(gè)字符都是唯一的,字符表的長度為96。單個(gè)字符用向量c→表示,→|c|=96。c→中只有一位是1,其余位都是0。一條URL 可以映射成尺寸為200×96 的矩陣U。用向量[0,1]標(biāo)記正常網(wǎng)頁,向量[1,0]標(biāo)記惡意網(wǎng)頁。

經(jīng)one hot 編碼后的矩陣包含大量0,會導(dǎo)致稀疏編碼和發(fā)散性,該問題可以通過詞嵌入降維解決。詞嵌入降維的作用是通過線性變換,把稀疏矩陣轉(zhuǎn)換成密集矩陣。G 為U 經(jīng)過Embedding 層降維生成的密集矩陣,其尺寸為200×64。

如圖2 所示,卷積層對G 進(jìn)行卷積運(yùn)算,抽取局部關(guān)聯(lián)特征。具體地說,卷積層設(shè)置多個(gè)卷積核Q,每個(gè)卷積核Q 對具有窗口大小k 的字符嵌入向量進(jìn)行卷積以產(chǎn)生新特征[12]。例如一個(gè)新特征ci通過下式生成:

其中σ( )x是表示卷積層的非線性激活函數(shù)的ReLU 激活函數(shù),Wf是卷積核的權(quán)重矩陣,bf是偏差。卷積層對應(yīng)一個(gè)池化層,使用最大池化方法,將同一個(gè)卷積核生成的特征集中最大的數(shù)值保留[13]。將最大池化層連接到GRU 神經(jīng)網(wǎng)絡(luò),GRU 作為LSTM 的變種,在保持了LSTM 效果的同時(shí)又精簡了結(jié)構(gòu),避免了梯度消失和梯度爆炸的問題[14],最后使用Softmax 作為模型的預(yù)測函數(shù)。

圖1 多層次檢測模型架構(gòu)圖

圖2 CNN-GRU檢測模型結(jié)構(gòu)圖

為了抑制過度擬合,本模型應(yīng)用了dropout 策略。在深度神經(jīng)網(wǎng)絡(luò)中,dropout 是一種防止過擬合的有效策略,它能夠在訓(xùn)練過程中以一定的概率丟棄網(wǎng)絡(luò)中的每個(gè)神經(jīng)網(wǎng)絡(luò)單元,實(shí)驗(yàn)設(shè)置丟包率為0.25。

訓(xùn)練模型的關(guān)鍵是確定目標(biāo)損失函數(shù)。本模型使用交叉熵?fù)p失函數(shù),其形式為:

損失函數(shù)的優(yōu)化方法是在模型迭代過程中不斷調(diào)整神經(jīng)網(wǎng)絡(luò)中的權(quán)值。實(shí)驗(yàn)采用優(yōu)化策略是Adam 算法,該算法能提供解決稀疏梯度和噪聲問題的優(yōu)化方案。

2.2 隨機(jī)森林檢測模型

隨機(jī)森林算法是集成的機(jī)器學(xué)習(xí)方法,可用于控制過度擬合。此外,憑借其森林結(jié)構(gòu),各個(gè)決策樹的不穩(wěn)定性可能會消失。因此對網(wǎng)頁特征,本實(shí)驗(yàn)采用隨機(jī)森林算法來檢測。該分類器首先提取網(wǎng)頁特征,生成訓(xùn)練集。然后隨機(jī)選擇若干訓(xùn)練子集,對訓(xùn)練子集構(gòu)造決策樹。最后獲取決策樹的輸出,并求取輸出的平均值,得到網(wǎng)頁的檢測結(jié)果。

如表1 所示,文章提取了網(wǎng)頁的16 個(gè)特征,包括URL 字符串特征、DNS 信息、網(wǎng)頁HTML 特征。

表1

2.3 閾值的設(shè)置

如圖1 所示,閾值α決定網(wǎng)頁是否進(jìn)行第二級檢測。如公式所示,若CNN-GRU 輸出的正常網(wǎng)頁概率p1 與惡意網(wǎng)頁概率p2 中最大值和最小值比值小于α,則需要提取網(wǎng)頁URL 特征、網(wǎng)頁HTML 特征、DNS 信息進(jìn)行第二級檢測;否則則由CNN-GRU 輸出結(jié)果直接進(jìn)行判定。α初始化為1,然后輸出多級檢測模型的識別準(zhǔn)確率,α進(jìn)行加1 操作,直到輸出最優(yōu)識別準(zhǔn)確率并收斂。

3 實(shí)驗(yàn)分析

3.1 評價(jià)指標(biāo)

本文采用準(zhǔn)確率(A)、查準(zhǔn)率(P)、查全率(R)和F1值評價(jià)模型的性能。其中準(zhǔn)確率是最重要的評價(jià)指標(biāo)。查準(zhǔn)率表示預(yù)測為正的樣例中實(shí)際為正的比例,查全率表示正樣本中被預(yù)測正確的比例,F(xiàn)1 值是查全率和查準(zhǔn)率的調(diào)和平均值。

上述公式中,TP 表示被預(yù)測為正樣本,實(shí)際上也

是正樣本的總數(shù),F(xiàn)P 表示被預(yù)測為正樣本,實(shí)際上是負(fù)樣本的總數(shù),TN 表示被預(yù)測為負(fù)樣本,實(shí)際上也是負(fù)樣本的總數(shù),F(xiàn)N 表示被預(yù)測為負(fù)樣本,實(shí)際上是正樣本的總數(shù)。

3.2 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集來源

本實(shí)驗(yàn)采用的編程語言為Python 3.6,CPU 為Intel Core i7 7700k@4.2Hz,RAM 為16G。數(shù)據(jù)集包含36400 個(gè)正常網(wǎng)頁和37175 個(gè)惡意網(wǎng)頁。設(shè)置batch為64,epoch 為20。實(shí)驗(yàn)過程中采用5 折交叉驗(yàn)證,保證檢測模型的穩(wěn)定性。

如表2 所示,與CNN、LSTM、CNN-LSTM 檢測模型相比,CNN-GRU 模型在準(zhǔn)確率、查全率、查準(zhǔn)率、F1 值上效果比前者要好。從圖3 看出,CNN-GRU 神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,最早收斂,具有更好的穩(wěn)定性。通過圖4對比得出,本文設(shè)計(jì)的多層次檢測模型在準(zhǔn)確率等指標(biāo)上表現(xiàn)更佳。如圖5 所示,當(dāng)α取值為215 時(shí),多層次檢測模型識別準(zhǔn)確率收斂,且明顯優(yōu)于CNN-GRU模型和RF 模型。

表2

圖3 神經(jīng)網(wǎng)絡(luò)訓(xùn)練圖

圖4 CNN-GRU、RF、多層次檢測模型對比圖

圖5 閾值α變化圖

4 結(jié)語

本文研究了卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林算法在惡意網(wǎng)頁檢測上的應(yīng)用和效果,設(shè)計(jì)了結(jié)合神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林算法的多層次檢測模型,并和單層次檢測模型進(jìn)行對比。實(shí)驗(yàn)證明,在準(zhǔn)確率、F1 值等指標(biāo)上,多層次檢測模型有更好的效果。惡意網(wǎng)頁種類較多,未來可以研究惡意網(wǎng)頁的多分類問題,有助于進(jìn)行針對性防御。

猜你喜歡
特征檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應(yīng)用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99re经典视频在线| 日韩小视频网站hq| 色妺妺在线视频喷水| 国产美女在线免费观看| 国产99免费视频| 国产女人18水真多毛片18精品| 人妻精品久久久无码区色视| 国产白浆在线观看| 国产理论精品| 国产毛片一区| 欧美一级99在线观看国产| 亚洲日韩图片专区第1页| 99精品免费欧美成人小视频| 久久青草视频| 99久久精品国产精品亚洲| 国产导航在线| 成人看片欧美一区二区| 成年女人18毛片毛片免费| 正在播放久久| 四虎永久在线| 婷婷激情五月网| 一本大道在线一本久道| 国产呦视频免费视频在线观看| 日本一区二区三区精品AⅤ| 一本大道东京热无码av| 国产精品一区二区在线播放| 亚洲码一区二区三区| 国产亚洲精品97AA片在线播放| 91视频免费观看网站| 欧美精品v| 国产91色在线| 亚洲精品天堂自在久久77| 人妻少妇久久久久久97人妻| jizz在线观看| 小说区 亚洲 自拍 另类| 18禁色诱爆乳网站| 欧美日韩亚洲国产主播第一区| 国产高清在线丝袜精品一区| 青青草国产一区二区三区| 四虎综合网| 久久不卡国产精品无码| 激情综合婷婷丁香五月尤物| 黄色网在线免费观看| 久久免费视频播放| 日韩人妻少妇一区二区| 亚洲日韩欧美在线观看| 伊人AV天堂| 国产黑丝视频在线观看| 久久国产高清视频| 亚洲欧美在线综合一区二区三区| 久青草免费视频| 亚洲第一区欧美国产综合| 亚洲二区视频| 欧美全免费aaaaaa特黄在线| 国产麻豆精品在线观看| 午夜人性色福利无码视频在线观看| 精品一区二区无码av| 亚洲Av激情网五月天| 在线无码九区| 国产成人精品免费视频大全五级| 亚洲中文字幕日产无码2021| 国产成人免费手机在线观看视频 | 特级毛片免费视频| A级全黄试看30分钟小视频| 九九热精品在线视频| 亚洲AV免费一区二区三区| 欧美精品xx| 日本免费精品| 亚洲色图欧美视频| 四虎在线观看视频高清无码| 久久婷婷国产综合尤物精品| 青青草国产一区二区三区| 免费在线色| 日本欧美午夜| 伊人色婷婷| 亚洲一区免费看| JIZZ亚洲国产| 亚洲区第一页| 国产精品九九视频| 国产男女XX00免费观看| 日韩精品一区二区三区swag| 在线国产毛片|