999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征融合的惡意網(wǎng)頁檢測方法研究

2021-04-02 05:16:02馮凱媛羅慶斌鄭明輝
關(guān)鍵詞:分類特征方法

馮凱媛,羅慶斌,2*,鄭明輝,李 超

(1.湖北民族大學(xué) 信息工程學(xué)院,湖北 恩施 445000;2.廣西民族大學(xué) 廣西混雜計算與集成電路設(shè)計分析重點實驗室,南寧 53006)

2019年,瑞星“云安全”系統(tǒng)在全球范圍內(nèi)共截獲惡意網(wǎng)址(URL)總量1.45億個,中國惡意URL總量為417.63萬個,北京就有55萬個[1].惡意網(wǎng)頁已經(jīng)成為不法分子互聯(lián)網(wǎng)犯罪最常用的攻擊手段之一,給用戶和企業(yè)都帶來了極大的安全隱患.盡管各類安全程序不斷更迭,但是不法分子總能抓住用戶的弱點,利用人們心理來進行欺騙(如網(wǎng)絡(luò)釣魚攻擊[2]).他們通常都有一個共同特點:偽裝成某種正常網(wǎng)頁的形式讓人們?yōu)g覽頁面內(nèi)容,同時非法獲取電腦里面的各種數(shù)據(jù)[3].以釣魚網(wǎng)站[4-5]、垃圾網(wǎng)頁[6]、網(wǎng)頁掛馬[7]等為代表.

經(jīng)典的惡意網(wǎng)頁檢測常用方法是黑名單技術(shù),比如Phishtank[8]、Fierce Phish[9].但其存在一定的滯后性[10],只能識別已經(jīng)發(fā)現(xiàn)的惡意網(wǎng)頁,容易引起漏判.針對傳統(tǒng)檢測方法還存在誤判率高,規(guī)則不易更新的特點.因此,基于機器學(xué)習(xí)的網(wǎng)頁識別方法進一步被提出,相比傳統(tǒng)檢測方法更加有效、安全.對于基于機器學(xué)習(xí)的檢測方法,選擇不同的網(wǎng)頁特征進行分類會直接影響到分類的結(jié)果[11].Prof等[12]論證了網(wǎng)頁特征提取在惡意網(wǎng)頁檢測中具有重要的意義.因此提取更具有代表性的特征,可以有效提高分類器學(xué)習(xí)的效率和分類的準(zhǔn)確率.Patgiri等[13]提取了URL的詞匯特征、基于網(wǎng)絡(luò)的特征和基于主機的特征建立分類器,有較好的準(zhǔn)確率.但其提取的網(wǎng)頁特征較為單調(diào),會有較高的假陽性率且穩(wěn)定性不足,在保證一定分類準(zhǔn)確率的情況下需要較大的特征維數(shù).Wang等[14]提取了URL特征、HTML特征和JavaScript代碼特征采用決策樹算法進行分類,比Avira和360安全分類真陽性要高.Bergholz等[15]提取了網(wǎng)頁中的內(nèi)容和URL特征的混合特征建立分類器,不但大大降低了假陰性率,而且假陽性率沒有明顯的增加.劉杰等[16]僅針對文本特征采用改進的特征選擇算法結(jié)合樸素貝葉斯分類器,在一定程度上提高了對文本類數(shù)據(jù)集的分類效果.這些文獻基于多種網(wǎng)頁特征的提取與分類取得了較好的效果,但其分類效果仍有很大的提升空間.

圍繞惡意網(wǎng)頁的檢測問題,找到具有較高識別性能的網(wǎng)頁特征,能夠進一步提高網(wǎng)頁分類的準(zhǔn)確率.基于現(xiàn)在較多提取的URL、HTML和JavaScript代碼特征進行分析,提出一種新的網(wǎng)頁特征類型(網(wǎng)頁文本內(nèi)容Text特征).采用3種分類算法分別針對不同類型特征集進行實驗,確定出最佳檢測模型.同時通過3種特征選擇算法驗證其有效性與提升效果.從而得出新的惡意網(wǎng)頁檢測方法,也為后續(xù)研究提供新的思路.

1 關(guān)鍵算法與技術(shù)

1.1 分類算法

采用3種常用的機器學(xué)習(xí)分類算法對惡意網(wǎng)頁數(shù)據(jù)集進行分析,這些算法[17]分別為:決策樹(Classification And Regression Tree,CART)、隨機森林(Random Forest,RF)、梯度提升迭代決策樹(Gradient Boosting Decision Tree,GBDT).

表1 幾種分類算法的特點Tab.1 The characteristics of several classification algorithms

1.2 惡意網(wǎng)頁檢測模型

主要采用有監(jiān)督學(xué)習(xí)的分類算法來訓(xùn)練模型.其中,惡意網(wǎng)頁檢測流程圖如圖1所示.

圖1 惡意網(wǎng)頁檢測流程Fig.1 Malicious Web page detection process

1)訓(xùn)練階段:

(a)通過采集的已知類別的網(wǎng)頁樣本構(gòu)建訓(xùn)練數(shù)據(jù)集;

(b)提取訓(xùn)練數(shù)據(jù)特征、并進行特征選擇;

(c)對數(shù)據(jù)集進行預(yù)處理,采用特征向量形式表示;

(d)添加樣本類別標(biāo)簽值(正常網(wǎng)頁標(biāo)簽值為0,惡意網(wǎng)頁標(biāo)簽值為1),形成符合模型數(shù)據(jù)輸入格式的特征矩陣;

(e)對模型進行訓(xùn)練,通過調(diào)整模型參數(shù)使分類模型達(dá)到最優(yōu)的狀態(tài).

2)測試階段:

(a)建立網(wǎng)頁測試數(shù)據(jù)集;

(b)提取數(shù)據(jù)特征;

(c)建立特征向量(不含樣本類別標(biāo)簽),構(gòu)建特征矩陣;

(d)將測試數(shù)據(jù)作為訓(xùn)練階段所建立分類模型的數(shù)據(jù)輸入,利用該模型預(yù)測網(wǎng)頁樣本,并輸出預(yù)測結(jié)果.

3)模型評估:通過測試數(shù)據(jù)的預(yù)測結(jié)果,驗證模型的有效性.利用混淆矩陣計算分類模型分類的準(zhǔn)確率、查準(zhǔn)率與查全率評價分析分類算法的性能與效果.

4)使用模型:通過測試與評估選出訓(xùn)練最優(yōu)的模型對新的網(wǎng)頁樣本進行輸出檢測.

1.3 網(wǎng)頁特征的提取與預(yù)處理

針對能夠為網(wǎng)頁識別提供有用信息的網(wǎng)頁URL特征和網(wǎng)頁內(nèi)容特征進行提取.其中,網(wǎng)頁內(nèi)容特征可細(xì)分為HTML特征和JavaScript特征.在此基礎(chǔ)上,融入了不同于以往研究的網(wǎng)頁內(nèi)容的文本特征(在下文中簡稱為Text特征).

1.3.1 URL特征 通過分析URL數(shù)據(jù)集發(fā)現(xiàn),惡意網(wǎng)頁中常會包含一些隨機字符串,其長度也遠(yuǎn)遠(yuǎn)長于正常網(wǎng)頁URL的長度.因此,惡意URL與正常URL在文本上有一定的區(qū)別.基于URL的特征共有7維,包括:URL長度(含http://)、點、數(shù)字、特殊字符、子域名的個數(shù)、路徑深度以及是否包含IP地址等.其中,URL總長度越長網(wǎng)站越可疑;“.”的個數(shù)越多代表了層數(shù)和路徑越深,網(wǎng)站很可能是惡意的;正常網(wǎng)頁的URL中通常較少含有“#、@、_、-、&、/、=”等特殊字符;惡意網(wǎng)頁的URL中會出現(xiàn)較多的子域名,或者含有連續(xù)重復(fù)字符的域名;若域名含有IP地址也很有可能會是釣魚網(wǎng)頁.

1.3.2 HTML特征 基于HTML的特征提取了可以用于隱藏的標(biāo)簽數(shù)量、可用于嵌套的iframe標(biāo)簽數(shù)量、URL出現(xiàn)的次數(shù)、HTML長度以及其他一些標(biāo)簽的數(shù)量等10維特征.其中,隱藏標(biāo)簽(如size、hidden、display、visible標(biāo)簽)可用于隱藏網(wǎng)頁中的文本或連接,使用戶看不見且無法預(yù)測其潛在行為,造成暗鏈攻擊.iframe標(biāo)簽提供了在網(wǎng)頁中內(nèi)嵌其他網(wǎng)頁的方法.這樣,惡意網(wǎng)頁可能會通過攻擊含有漏洞的正常網(wǎng)頁,向其中插入惡意的iframe標(biāo)簽進行攻擊.

1.3.3 JavaScript特征 對于JavaScript特征,主要分析代碼中額外嵌入的可執(zhí)行文件或者控件創(chuàng)建的數(shù)量和惡意攻擊常用的一些函數(shù)的調(diào)用等.基于JavaScript的特征包括:eval函數(shù)調(diào)用次數(shù)、長度大于30的字符串?dāng)?shù)量、JavaScript代碼長度、可疑文件出現(xiàn)次數(shù)(比如exe、.ini、.dll、.tmp等后綴文件)、setTimeout函數(shù)數(shù)量、setInterval函數(shù)數(shù)量、split()函數(shù)和replaoe()函數(shù)的個數(shù)等18維特征.

1.4 Text特征

Text特征主要是基于正常網(wǎng)頁與惡意網(wǎng)頁的頁面文本內(nèi)容來進行分析.針對惡意網(wǎng)頁樣本分析可以發(fā)現(xiàn),一些類似于不安全登錄、虛假支付等相關(guān)的敏感詞匯會被嵌入在HTML的錨文本屬性里面.在網(wǎng)頁源代碼中標(biāo)簽的文本內(nèi)容也會包含與網(wǎng)絡(luò)釣魚、垃圾郵件等明顯相關(guān)的關(guān)鍵詞.因此,對網(wǎng)頁文本內(nèi)容進行特征提取十分必要.Text特征提取流程如圖2所示.

圖2 Text特征提取流程Fig.2 Text feature extraction process

采用python中的BeautifulSoup庫,使用lxml解析器對網(wǎng)頁進行解析.通過對所指定的HTML標(biāo)簽元素及屬性來解析并抽取網(wǎng)頁文本內(nèi)容.再使用“jieba”分詞[18]模塊對文本進行分詞操作.之后去重并進行詞頻統(tǒng)計得到表2,該表顯示了部分不同類型惡意網(wǎng)頁中較多出現(xiàn)的詞匯.

表2 部分高頻詞匯Tab.2 Some high-frequency words

由于分詞后的詞匯太多,為了避免太多無用特征和冗余特征,需要對實驗中提取的文本特征進行降維操作.采用潛在語義分析(LSA)的方法對文本特征進行降維.經(jīng)過處理后最終獲取了150維的Text特征.然后通過詞頻-逆向文件頻率(TF-IDF)的方法將Text特征向量化.

1.5 數(shù)據(jù)預(yù)處理

依據(jù)以上網(wǎng)頁的URL、HTML與JavaScript代碼、Text等信息,共從中提取了185個網(wǎng)頁特征.依據(jù)需求采用不同的特征值計算方法進行計算.通過min-max的方法,將每個特征的特征值進行標(biāo)準(zhǔn)化處理,使得特征值縮放至區(qū)間[-1,1].將標(biāo)準(zhǔn)化后的數(shù)據(jù)均表示為一個185維的特征向量.

1.6 特征選擇

為了進一步提高分類的性能,可從原始特征中選出最有效的特征來降低數(shù)據(jù)集維度,避免低相關(guān)度的特征對分類結(jié)果造成影響.這里分別采用了封裝法中的遞歸特征選擇法[19]和過濾法中的互信息法[20]及F-檢驗法[21]來處理數(shù)據(jù).相比其他特征選擇方法可更快速更完整的選擇最優(yōu)特征和較相關(guān)特征,排除冗余特征.通過特征選擇來驗證本文所提取網(wǎng)頁特征的相關(guān)度與本文方法的有效性.

遞歸特征消除法:該方法給定一個外部的估計器,該估計器對特征賦予一定的權(quán)重,通過處理越來越少的特征集合來遞歸的選擇特征.首先,評估器在初始的特征集合上面進行訓(xùn)練并且每一個特征的重要程度是通過一個諸如sklearn庫里coef_屬性或者feature_importances_屬性來獲得.然后,從當(dāng)前的特征集合中移除最不重要的特征.在特征集合上不斷地重復(fù)遞歸這個步驟,直到最終達(dá)到所需要的特征數(shù)量為止.

互信息法:該方法估計類別特征與label之間的相關(guān)性,即變量間相互依賴性的量度.不同于相關(guān)系數(shù),互信息并不局限于實值隨機變量,它更加一般且決定著聯(lián)合分布p(x,y)和分解的邊緣分布的乘積p(x)p(y)的相似程度.當(dāng)且僅當(dāng)兩個特征是獨立的,它的互信息等于0.值越高意味著依賴性越高.公式為:

(1)

F-檢驗法:該方法主要用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗.與方差分析類似,依據(jù)方差分析的原理,以F-分布為概率分布的依據(jù),利用平方和自由度所計算的組間與組內(nèi)均方估計出F值,根據(jù)該值來刪除不重要的指標(biāo).公式為:

(2)

其中:QA為組間方差的均方;Qb為組內(nèi)方差的均方;SA為組間方差的平方和;Sb為組內(nèi)方差的平方和;a-1為組間方差的自由度;N-a為組內(nèi)方差的自由度.F值越大,預(yù)測能力也就越強,相關(guān)性就越大,從而基于此可以進行特征選擇.

2 實驗方法

基于對惡意網(wǎng)頁特征的研究,將提取的4類特征分別組合,形成4種混合特征集.第一種采用文獻[13]的方法,該方法構(gòu)建URL特征集(U);第二種采用本文方法構(gòu)建的HTML和JavaScript混合特征集(H_J);第三種采用文獻[14]的方法,該方法構(gòu)建的URL、HTML和JavaScript混合特征集(U_H_J);第四種采用本文方法,構(gòu)建URL、HTML、JavaScript和Text混合特征集(U_H_J_T).基于以上特征集首先采用分類算法進行分類,并對比分析其分類效;其次,通過結(jié)合特征選擇算法驗證分類效果.

2.1 數(shù)據(jù)集與實驗環(huán)境

從2017中國網(wǎng)絡(luò)安全技術(shù)對抗賽《惡意網(wǎng)頁分析》賽題的樣本數(shù)據(jù)集[22]以及GitHub提供的網(wǎng)頁數(shù)據(jù)集中共采集2 000條有效數(shù)據(jù),所用均為篩選后的真實URL及網(wǎng)源代碼.其中,正常網(wǎng)頁與惡意網(wǎng)頁各1 000條.實驗環(huán)境如表3所示.

表3 實驗環(huán)境Tab.3 Experimental environment

2.2 評價標(biāo)準(zhǔn)

混淆矩陣(confusion matrix):對于二分類問題我們考察TP(真正例);FP(假正例);FN(假反例);TN(真反例)四個指標(biāo)[23],并且有準(zhǔn)確率、精準(zhǔn)率、召回率、F1值四個參數(shù).取值0-1之間.公式為:

(3)

(4)

(5)

(6)

3 實驗與結(jié)果分析

3.1 不同網(wǎng)頁特征的識別效果與分析

該實驗采用CART、RF、GBDT 3種分類算法分別對所述的4種混合特征集進行實驗.按8∶2的比例拆分訓(xùn)練集和測試集來訓(xùn)練分類模型,取多次實驗的均值作為結(jié)果,得到表4至表6.

表4 CART算法對四個混合特征樣本集分類的準(zhǔn)確率、精準(zhǔn)率、召回率和F1值Tab.4 The accuracy,precision,recall,and F1-score of the CART algorithm for the classification of four mixed feature sample sets

表5 RF算法對四個混合特征樣本集分類的準(zhǔn)確率、精準(zhǔn)率、召回率和F1值Tab.5 The accuracy,precision,recall and F1-score of the RF algorithm for the classification of four mixed feature sample sets

表6 GBDT算法對四個混合特征樣本集分類的準(zhǔn)確率、精準(zhǔn)率、召回率和F1值Tab.6 The accuracy,precision,recall and F1-score of the GBDT algorithm for the classification of four mixed feature sample sets

結(jié)果表明:與其他3種方法相比,基于URL、HTML、JavaScript與Text混合特征來對網(wǎng)頁進行識別的方法,在3種分類器中的分類效果都是最好的,準(zhǔn)確率、精確率、召回率、F1值均可達(dá)到0.95以上.其中,準(zhǔn)確率與精準(zhǔn)率最高在RF分類器中可達(dá)到0.982 5與0.983 1.

與文獻[13,14]的檢測方法思路類似.對第一種特征集(U)同樣采用文獻[13]的方法建立隨機森林分類器,分類準(zhǔn)確率為0.882 5;而對本文構(gòu)建的第四種數(shù)據(jù)集(U_H_J_T)建立隨機森林分類器,分類準(zhǔn)確率為0.982 5.對第三種特征集(U_H_J)同樣采用文獻[14]的方法建立決策樹分類器,檢測模型的F1值為0.877 5;對本文構(gòu)建的第四種數(shù)據(jù)集(U_H_J_T)建立決策樹分類器,檢測模型的F1值為0.952 5.綜合對比分析,在所述的4種方法中,本文基于URL、HTML、JavaScript及Text 4種混合特征的網(wǎng)頁識別效果更優(yōu).

3.2 特征選擇后的實驗結(jié)果分析

為避免加入Text特征而造成“維數(shù)災(zāi)難”與過擬合,同時驗證Text特征的相關(guān)度與有效性,對4種特征集進行降維處理.實驗中,分別采用F-檢驗、遞歸特征消除和互信息法3種特征選擇算法對數(shù)據(jù)集進行特征提取.每種方法分別將數(shù)據(jù)特征提取至7維、28維、35維.通過RF算法進行訓(xùn)練與驗證,以準(zhǔn)確率與F1值作為主要評價標(biāo)準(zhǔn),得到表7.其中,未做特征提取的數(shù)據(jù)分別對應(yīng)為:7維的特征集(U),28維的特征集(H_J),35維的特征集(U_H_J)

表7 不同特征選擇方法隨機森林算法分類的準(zhǔn)確率和F1值Tab.7 Classification accuracy and F1-score of random forest algorithm with different feature selection methods

結(jié)果表明:同未加入Text特征的原始7維的特征集(U)、28維的特征集(H_J)、35維的特征集(U_H_J)的分類結(jié)果相比,本文提出的混合特征集(U_H_J_T)經(jīng)降維得到相同維數(shù)特征子集的準(zhǔn)確率與F1值都有明顯提升.由此說明,Text特征含有對惡意網(wǎng)頁分類識別更有效的特征,相比其他特征具有更大的識別信息量與相關(guān)性.同時,由實驗數(shù)據(jù)得出采用遞歸法降維后的分類準(zhǔn)確率與F1值達(dá)到最佳,在特征數(shù)降為35維時準(zhǔn)確率與F1值分別達(dá)到0.985 0與0.984 9.

4 結(jié)語

大數(shù)據(jù)環(huán)境下,面對惡意網(wǎng)頁日益增長這一網(wǎng)絡(luò)安全問題,本文針對網(wǎng)頁URL特征、HTML特征、JavaScript特征、Text特征4種網(wǎng)頁特征和所采用的互信息法、F-檢驗法、遞歸特征消除法3種特征選擇方法,分別進行實驗.實驗證明,使用URL、HTML、JavaScript、Text混合特征的RF算法對惡意網(wǎng)頁的識別效果最好,進一步采用遞歸特征消除法進行特征選擇的數(shù)據(jù)子集可再次提升RF算法的分類性能,并證明了Text的有效性,其對網(wǎng)頁分類的準(zhǔn)確率、精確率、召回率及F1值均高于已有的相關(guān)方法.通過實驗表明了本文方法具有較好的泛化能力,同時具有較高的準(zhǔn)確性與可靠性.由于本文只采用了一般的分類算法進行研究,下一步將對分類算法進行改進來研究更高效的檢測方法.

猜你喜歡
分類特征方法
分類算一算
如何表達(dá)“特征”
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产乱人伦偷精品视频AAA| 刘亦菲一区二区在线观看| 久久精品66| 天天综合网色| 欧美亚洲第一页| 一级不卡毛片| 久久一色本道亚洲| 亚洲无码视频一区二区三区| 色爽网免费视频| 亚洲最大福利网站| 国产一区成人| 国产欧美视频综合二区| 成人一级黄色毛片| 国产一级做美女做受视频| 中文字幕在线日韩91| 成年女人a毛片免费视频| 好紧好深好大乳无码中文字幕| 久久亚洲国产视频| 91青青视频| 久久久91人妻无码精品蜜桃HD| 综合色亚洲| 免费看a毛片| 日韩一区精品视频一区二区| 国内黄色精品| 日韩欧美中文亚洲高清在线| 久久99热这里只有精品免费看| 免费国产在线精品一区| 国产毛片高清一级国语| 激情无码字幕综合| 好吊妞欧美视频免费| 一级香蕉视频在线观看| 色噜噜狠狠狠综合曰曰曰| 国产在线精品99一区不卡| 久久青草免费91线频观看不卡| 国产精品第| 亚洲AV无码久久精品色欲| 99在线观看精品视频| 永久免费精品视频| 2021精品国产自在现线看| 国产丰满大乳无码免费播放 | 亚洲视频四区| av午夜福利一片免费看| 国产丝袜啪啪| 久久久久久久久18禁秘| 亚洲无码高清一区| 亚洲毛片网站| 无码一区二区波多野结衣播放搜索| 国产乱人伦AV在线A| 综合五月天网| 久久国产乱子伦视频无卡顿| 国产精品无码翘臀在线看纯欲| 高清欧美性猛交XXXX黑人猛交| 91po国产在线精品免费观看| www.亚洲色图.com| 国产成人凹凸视频在线| 色综合中文综合网| 国产精品成人一区二区不卡| 夜夜拍夜夜爽| 丁香婷婷在线视频| 99视频在线看| 国产精品私拍在线爆乳| 中文字幕亚洲第一| 亚洲欧美一区在线| 亚瑟天堂久久一区二区影院| 就去吻亚洲精品国产欧美 | 日韩精品高清自在线| 日韩精品视频久久| 国产美女丝袜高潮| 欧美va亚洲va香蕉在线| 精品在线免费播放| 亚洲国产成人久久精品软件 | 亚洲自拍另类| a网站在线观看| 91精品专区| 都市激情亚洲综合久久| 国产成人无码综合亚洲日韩不卡| 91麻豆精品国产高清在线| 国产精品成人一区二区不卡| 成人在线观看不卡| 91福利片| 日韩在线视频网| 国产亚洲欧美在线中文bt天堂|