999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

惡意URL多層過濾檢測模型策略研究

2016-11-18 07:55:49鄭運鵬
信息安全研究 2016年1期
關鍵詞:策略檢測模型

劉 健 趙 剛 鄭運鵬

(北京信息科技大學信息管理學院信息安全系 北京 100192) (liujianspace999126@126.com)

?

惡意URL多層過濾檢測模型策略研究

劉 健 趙 剛 鄭運鵬

(北京信息科技大學信息管理學院信息安全系 北京 100192) (liujianspace999126@126.com)

惡意URL檢測始終是Web安全領域的研究熱點.提出了惡意URL多級檢測過濾模型,共分成4層過濾器:黑白名單過濾器、樸素貝葉斯過濾器、CART決策樹過濾器和支持向量機過濾器.對多層過濾模型的幾個關鍵策略進行了討論,包括過濾器層的投票策略、過濾器順序策略以及過濾閾值的調優策略.過濾器投票策略中討論了單獨投票、并行投票和加權并行投票3種投票方法,過濾器順序策略討論了4種過濾器的先后順序,過濾器閾值策略討論了過濾閾值的確定方法.通過實驗驗證了多層過濾檢測模型中以上策略討論結果的有效性,根據實驗結果實現了Web應用.

惡意URL;投票策略;機器學習;分類算法;多層過濾模型

惡意網站[1]通常在用戶瀏覽網站時引導用戶將惡意程序安裝到用戶電腦,而用戶對此沒有察覺,甚至惡意軟件在被發現之前可能已經盜走用戶一些重要資料.國內外對惡意網址檢測的最初研究方法是基于URL黑白名單的檢測技術,其主要思想是檢索黑白名單是否保存了所檢測的URL地址來判定該URL是否指向惡意網站.其中黑名單存儲被確定為惡意網站的URL地址,白名單存儲被確定為合法網站的URL地址.目前大多數瀏覽器具有黑名單相關插件,如 Microsoft IE,Google Safe Browser等.Ludl等人[2]先后收集了3周內共10 000條惡意網站的URL 地址,用這些URL分別測試了IE瀏覽器以及谷歌安全瀏覽器的檢測正確率,分析表明這些插件能夠檢測約90%的惡意URL.Sheng等人[3]測試了8種常用釣魚防御工具中黑名單更新及識別的速度,結果表明只有不到20% 的防御工具能夠在較短的時間內識別出釣魚網站的URL.目前除黑白名單技術外,機器學習分類算法[4-9]是一種比較主流的惡意網址檢測技術,國內外將機器學習分類算法應用到惡意網址檢測技術的研究非常多.

圖1 多層過濾模型流程圖

惡意URL的檢測至關重要,而目前對惡意URL的檢測方法雖多,但是表現卻不盡如人意.惡意網站URL的檢測是一種典型的分類場景,分為“惡意URL”和“正常URL”2個類.機器學習中的分類算法[10-12]是實現其分類的一種優秀工具,但是分類器各有千秋,單獨使用一種分類器往往不能達到全能的效果.因此,本文在目前機器學習檢測惡意網址相關研究的基礎上,提出一種將若干種分類器串行起來的惡意網址多層過濾檢測模型,著重研究多過濾器中單獨投票、并行投票和加權并行投票等共同判定URL的投票策略.在深入分析投票策略特點的基礎上,確定了加權投票策略及相應的調優策略,利用相關參數的控制,將幾種分類器的優勢都發揮出來,更加有效地實現惡意網址檢測.

1 多層過濾模型概述

本文提出的多層過濾模型流程我們稱之為BW-NCS,如圖1所示.

依據多層過濾模型,進一步設計功能應用流程:用戶在Web頁面中輸入要檢測的URL,服務器經過匹配和計算返回該URL的判定結果,如圖2所示.

圖2中BW-NCS模型對URL的處理方法如下:

步驟1. 判斷該URL是否在黑白名單中,如果在直接返回判定結果給用戶;否則,執行下一步;

步驟2. 提取該URL特征向量;

步驟3. 將特征向量代入樸素貝葉斯過濾器,如果達到閾值,直接返回判定結果給用戶;否則記錄判定結果,執行下一步;

步驟4. 將特征向量代入CART決策樹過濾器中,如果達到閾值,直接返回判定結果給用戶;否則記錄判定結果,執行下一步;

步驟5. 將特征向量代入SVM過濾器中,記錄判定結果后和上層2個過濾器判定結果共同投票,并返回判定結果給用戶.

圖2 URL多層過濾檢測模型應用流程圖

2 投票策略研究

如果待檢測URL在BW-NCS模型的前3層沒有被判定,則說明該URL既不在黑白名單中,也不是樸素貝葉斯和CART樹的擅長數據.很可能是因為該URL的特征向量沒有明顯的類型偏向,屬于惡意URL和正常URL的概率相差不大.這種URL需要在最后一層進行判定.本文著重討論單獨投票、并行投票和加權并行投票3種投票策略.因為黑白名單過濾器已經沒有判定的能力,所以以下投票策略不考慮黑白名單過濾器.

2.1 單獨投票

單獨投票策略是指當URL過濾到最后一層時,只有SVM過濾器進行投票,即SVM過濾器對URL的判定結果即作為最終的判定結果.選取這種投票策略的原因主要有以下2點:

1) 待判定URL既然已經過濾到SVM層,說明該URL不是樸素貝葉斯過濾器和CART決策樹過濾器的擅長數據,這2個過濾器的分類結果不可信;

2) SVM過濾器并沒有設定擅長閾值,所以該URL有可能是SVM過濾器的擅長數據,尤其是單獨的SVM分類器要比其他2類單獨分類器的分類效果好的情況下.

單獨投票策略是對SVM過濾器充分信任的一種投票策略.

2.2 并行投票

并行投票策略是指當URL過濾到最后一層時,由樸素貝葉斯、CART決策樹和SVM 3種過濾器一起投票,每個過濾器投一票,根據投票結果判定URL類別.例如,當待檢測URL過濾到最后一層時,樸素貝葉斯、CART決策樹和SVM 3種過濾器分別將它判定成惡意URL、惡意URL和正常URL,即有2票投給了惡意URL、1票投給了正常URL.這樣對該URL的最終判定結果為惡意URL.選取這種投票策略的原因主要有以下2點:

1) 待判定URL既不是樸素貝葉斯過濾器擅長的數據,也不是CART決策樹過濾器擅長的數據,說明該URL的特征向量沒有明顯的趨向哪個類,則SVM過濾器也有很大概率不擅長處理該URL,3種過濾器綜合決定能夠更好地分擔風險;

2) 當單獨的SVM分類器要比其他2種單獨分類器的分類效果都要差時,要更加信任前2種過濾器.

并行投票策略是對SVM過濾器不太信任的一種投票策略.

2.3 加權并行投票

加權并行投票策略是指當URL過濾到最后一層時,和并行投票策略一樣,由樸素貝葉斯、CART決策樹和SVM 3種過濾器共同投票,但每個過濾器都投加權票,根據投票結果判定URL類別.各層過濾器的投票值計算方法如下:

1) 在樸素貝葉斯過濾器層中,αnbayes=max{P1P2,P2P1},閾值為,令樸素貝葉斯的加權投票值為αnbayes,因為該URL已經過濾到最后一層,說明αnbayes肯定沒有達到閾值,該投票值小于1;

2) 在CART決策樹過濾器層中,αcart=max{nm,mn},閾值為,令CART決策樹的加權投票值為αcart,同樣因為該URL已經過濾到最后一層,說明αcart沒有達到閾值,該投票值也小于1;

3) SVM過濾器的投票值為1.

例如,當待檢測URL過濾到最后一層時,樸素貝葉斯、CART決策樹和SVM 3種過濾器分別將它判定成惡意URL、惡意URL和正常URL,而αnbayes=0.6,αcart=0.35,因為將URL判定惡意URL的加權投票值為0.95,小于將URL判定成正常URL的加權投票值1,所以該URL會被判定為正常URL.

選取這種投票策略的原因主要有以下2點:

1) 既然待判定URL既不是樸素貝葉斯過濾器擅長的數據,也不是CART決策樹過濾器擅長的數據,還不確定SVM的判定效果如何,那么樸素貝葉斯和CART決策樹這2個過濾器就不能和SVM過濾器擁有一樣的投票權重;

2) 樸素貝葉斯過濾器和CART決策樹過濾器的閾值也只是訓練出來的一個界限,而這個界限往往是模糊的,可能有些URL在過濾器中計算出的α已經接近這個閾值α*,但是仍然被過濾到下一層,這顯然不合理.所以用αα*作為這2個過濾器的加權投票值.

加權并行投票策略是一種介于單獨投票策略和并行投票策略中間的一種平衡策略,在給SVM過濾器一定投票優勢的同時也不完全依賴SVM過濾器.

3 過濾器順序策略

本文提出的URL多層過濾檢測模型的過濾器順序為:黑白名單過濾器,樸素貝葉斯過濾器,CART決策樹過濾器和SVM過濾器.過濾器中黑白名單過濾器具有絕對權威,待檢測URL如果能被它判定,這個判定結果是被絕對信任的,也就不需要別的過濾器再去進行判定,所以將它放到第1層.SVM過濾器沒有擅長閾值的計算方法,沒辦法設定過濾條件,所以將它作為最后一層過濾器.而樸素貝葉斯和CART決策樹既不是絕對權威,也都有相似的擅長閾值計算方法,所以這2種過濾器是可以互換位置的.下面討論這2種順序策略.

我們稱樸素貝葉斯在上一層的策略為NBAYES-CART策略,CART決策樹在上一層的策略稱作CART-NBAYE策略.無論哪種策略,目標都是為了整個多層過濾檢測模型更準確地判定URL.這2層作為中間層能夠以盡可能高的準確率去處理盡可能多的URL,能夠幫助多層過濾檢測模型實現更好的URL判定效果.所以這里提出應用2個標準:一個是判定URL的數量,另一個是判定URL的準確率.

對于本文收集的URL數據集的檢測,在下述實驗中驗證了單獨的CART決策樹分類器效果要比單獨的樸素貝葉斯分類器效果好得多,因為這2個過濾器的準確率是可以通過閾值來調節的,也就是說在保證同樣的準確率的情況下,CART決策樹過濾器能夠直接判定的URL數目要比樸素貝葉斯過濾器多很多.在多層過濾檢測模型中,一般是越高層級的判定準確率要越高,所以如果選擇CART-NBAYES策略,在CART決策樹過濾器層為了保證準確率可能只處理小部分URL,這些URL可能判定準確率很高,但是過濾到樸素貝葉斯過濾器層的那些URL的判定準確率就會偏低;如果選擇NBAYES-CART策略,在樸素貝葉斯過濾器層也能以較高準確率處理小部分URL,過濾到CART決策樹過濾器層的URL也能以不錯的準確率被判定.因此,本文選取了NBAYES-CART策略,并且本文的模型為BW-NCS模型.

4 過濾閾值的調優策略

BW-NCS模型中共有2個過濾閾值:樸素貝葉斯過濾器的過濾閾值和CART決策樹的過濾閾值.這2個過濾閾值是BW-NCS模型中最重要的參數之一,它們的選取好壞直接影響模型的判定效果.這2個閾值的選取依賴于數據本身特點,并且沒有可以參考的相關的專家經驗.本文直接搜索多種閾值對組合,并用另一組樣本進行測試,最后選取效果最好的閾值對.本文在對BW-NCS多層過濾器模型的過濾閾值主要調優步驟如下:

5 實驗分析與應用

5.1 實驗結果與分析

本文的惡意URL數據集通過惡意網站實驗室獲取,正常URL數據集通過爬蟲程序從第1分類目錄網爬取.從惡意URL數據集和正常URL數據集各取10 000條數據作為本文的實驗數據.

本文作如下假設:有10%的URL在黑白名單過濾器中,并且這10%的URL是隨機選取的,對于不在這10%范圍內的URL,單獨的黑白名單分類器會進行隨機判斷.

實驗結果如表1所示:

表1 實驗測試結果 %

從表1中可以看出完整的BW-NCS模型表現優秀,明顯地超過4個單獨分類器模型表現,這也達到了本文的研究目的,使得多層過濾模型能夠處理各個分類器自己擅長的數據,充分發揮了每一層分類器的優勢,最終達到提高檢測惡意URL準確率的效果.具體來說,在BW-NCS模型中黑白名單過濾器判定在黑白名單之內的URL,樸素貝葉斯過濾器判定了那些計算出的2類概率差比較懸殊的URL,CART決策樹過濾器判定了那些計算出的葉子節點中2類數目比較懸殊的URL,SVM可以在擁有比較大投票權重的情況下和前2層過濾器共同投票判定前2層都不擅長的URL.而其他單獨模型必須處理所有URL,不管是否為自己的擅長數據,所以才出現表1的結果.

5.2 實驗結果應用

本文設計并實現了BW-NCS模型的Web應用,并在應用中將實驗測試結果作為證據支持.其中的判定結果的內容包括:

1) 該URL是惡意URL還是正常URL;

2) 該結果是由哪一層過濾器對它進行判定的;

3) 這次判定的準確率、召回率和精確率.

這些內容既給出URL判定結果,又詳細地給出了判定的相關參數.用戶在了解判定結果的同時,可以根據參數來指導自己是否相信這次判定.如一個用戶對安全性要求很高,而這次的返回結果雖然判定用戶輸入的URL是正常URL,但是這次判定的準確率比較低,那么該用戶就可能選擇不再訪問這個URL,本文稱這種用戶為謹慎型用戶;相反,如果一個用戶想瀏覽更多的網頁并對安全性要求較低,那么即使返回結果是惡意URL但是這次判定的準確率較低,該用戶也很有可能會繼續訪問,本文稱這種用戶為包容型用戶.

根據以上應用需求,在設計應用時需要提前做的工作有:黑白名單的收集和存儲;BW-NCS模型的建立和存儲;模型測試實驗結果的記錄和存儲.這些準備工作中,黑白名單和BW-NCS模型是為了方便Web應用直接調用,加快效率.而模型測試實驗結果的記錄是為了給用戶更多的參數:準確率、召回率和精確率.

在SVM過濾器層被判定的URL檢測場景如圖3所示.

圖3 SVM過濾器判定的URL截圖

其中,網址www.asdzxc.cc在SVM過濾器層中被判定成正常URL,而網址www.zscdas.tk在SVM過濾器層中被判定成惡意URL,所以在返回的指標中,準確率、召回率和精確率分別為65.19%,42.61%和73.28%,這3個指標的值同樣是依據上文實驗結果得出的.召回率為42.61%,說明仍有57.39%的惡意URL被判定成正常URL,那么謹慎型用戶會不信任網址www.asdzxc.cc是正常URL,包容型用戶可能會信任這次判定.準確率為73.28%,說明被判定成惡意的URL有26.72%的概率是正常URL,謹慎型用戶應該信任www.zscdas.tk是惡意URL的判定結果,而包容型用戶在比較信任這個URL的情況下會認為這次判定有誤,相信該URL為正常URL.

6 結 論

本文在提出URL多層過濾模型的基礎上,討論了多層過濾模型中關鍵策略的主要原理,重點分析了在SVM層中多個過濾器共同判定URL的投票策略,包括單獨投票策略、并行投票策略和加權并行投票策略,以及各投票策略的出發點和特點,進一步討論了過濾器順序策略.在深入分析的基礎上,確定了加權投票策略和從CART決策樹到樸素貝葉斯的策略順序,進一步討論CART決策樹和樸素貝葉斯過濾閾值的調優策略,并用一對衰減函數來生成2個候選閾值集,通過交叉這2個閾值集來測試,選取最優狀態下的閾值對作為模型的過濾閾值.通過實驗驗證了URL多層過濾檢測模型的有效性.

[1]何公道, 王江民. 我國惡意網站現狀及防治對策研究[J]. 中國人民公安大學學報:自然科學版, 2008, 14(3): 1-4

[2]Ludl C, Mcallister S, Kirda E, et al. On the effectiveness of techniques to detect phishing sites[C] //Proc of the 4th Int Conf on Detection of Intrusions and Malware, and Vulnerability Assessment. Berlin: Springer, 2007: 20-39

[3]Sheng S, Wardman B, Warner G, et al. An empirical analysis of phishing blacklists[C] //Proc of the 6th Conf on Email & Anti-spam. 2009: 59-78

[4]Witten I H, Frank E, Hall M A. Data Mining: Practical Machine Learning Tools and Techniques[M]. San Francisco: Morgan Kaufmann Publishers, 2005: 95-97

[5]郭亞寧, 馮莎莎. 機器學習理論研究[J]. 中國科技信息, 2010 (14): 208-209[6]何清, 李寧, 羅文娟,等. 大數據下的機器學習算法綜述[J]. 模式識別與人工智能, 2013, 27(4): 327-336

[7]王玨, 石純一. 機器學習研究[J]. 廣西師范大學學報: 自然科學版, 2004, 21(2): 1-15

[8]李運. 機器學習算法在數據挖掘中的應用[D]. 北京: 北京郵電大學, 2015

[9]米哈爾斯基. 機器學習與數據挖掘[M]. 北京: 電子工業出版社, 2004

[10]羅可, 林睦綱, 郗東妹. 數據挖掘中分類算法綜述[J]. 計算機工程, 2005, 31(1): 3-5, 11

[11]劉剛. 數據挖掘技術與分類算法研究[D]. 鄭州: 中國人民解放軍信息工程大學, 2004

[12]談恒貴, 王文杰, 李游華. 數據挖掘分類算法綜述[J]. 微型機與應用, 2005, 24(2): 4-6

劉 健

碩士研究生,主要研究方向為機器學習與信息安全.

liujianspace999126@126.com

趙 剛

副教授,博士,主要研究方向為人工智能與信息安全.

zhaogang@bistu.edu.cn

鄭運鵬

碩士研究生,主要研究方向為大數據與物流規劃.

zhengpeng911001@126.com

Research on Strategy of Malicious URL Multi-Layer Filtering Detection Model

Liu Jian, Zhao Gang, and Zheng Yunpeng

(InformationSecurityFaculty&SchoolofInformationManagement&BeijingInformationScienceandTechnologyUniversity,Beijing100192)

Malicious URL detection is always a hot research topic in the field of Web security. This paper proposes a malicious URL multi-level filtering detection model. This model contains 4 layers of filter: black and white list filter, Naive Bayesian filter, CART decision tree filter and Support Vector Machine filter. In this paper several key strategies of multilayer filtering model are discussed, including support vector machine filter layer voting strategy; filter order strategy and filtering threshold tuning strategy. Filter voting strategies are discussed in separate voting, parallel voting and weighted parallel voting three voting methods. The filter order strategy discusses the order of the four filters. Filter threshold strategy discusses the method of determining the threshold of the filter. The validity of the above methods is verified by experiments. According to the experimental results, this paper implements a Web application.

malicious URL; voting strategy; machine learning; classification algorithm; multi layer filtering model

2015-12-30

國家自然科學基金項目(61272513);北京市科委重大項目子課題(D151100004215003)

趙剛(zhaogang@bistu.edu.cn)

TP309

猜你喜歡
策略檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产激情在线视频| 欧美日韩在线成人| 亚洲综合精品香蕉久久网| 国产精女同一区二区三区久| 久久这里只有精品8| 亚洲成aⅴ人片在线影院八| 毛片网站免费在线观看| 成年片色大黄全免费网站久久| 九九九精品成人免费视频7| 亚洲国产成人无码AV在线影院L | 国产精品视频观看裸模| 亚洲国产成人精品青青草原| 青青久久91| 欧美日韩国产在线播放| 亚洲人成网站色7799在线播放| 91成人免费观看在线观看| 五月天福利视频| 国产欧美中文字幕| 亚洲国产av无码综合原创国产| 99国产精品国产| 91精品免费久久久| 日本草草视频在线观看| 伊人天堂网| 免费在线色| 日韩av无码精品专区| 刘亦菲一区二区在线观看| 噜噜噜久久| 国产精品福利在线观看无码卡| 亚洲成年人网| 国产午夜看片| 国产成人狂喷潮在线观看2345| 一级香蕉人体视频| 人妻丝袜无码视频| 亚洲美女视频一区| 国产成人8x视频一区二区| 欧美成人午夜视频| 亚洲综合狠狠| 夜夜操国产| 亚洲国产欧美自拍| 在线视频精品一区| 国产精品私拍99pans大尺度| 婷婷丁香色| 欧美亚洲国产精品第一页| 香蕉久久国产超碰青草| 香蕉视频在线精品| 午夜欧美在线| 亚洲性影院| 亚洲天堂首页| 日韩国产一区二区三区无码| 亚洲性视频网站| 国产精品原创不卡在线| 久久视精品| 亚洲swag精品自拍一区| 精品人妻系列无码专区久久| 久精品色妇丰满人妻| 国产精品护士| 亚亚洲乱码一二三四区| 少妇被粗大的猛烈进出免费视频| av在线手机播放| 国产欧美成人不卡视频| 亚洲国产成人超福利久久精品| 久久性视频| 麻豆a级片| 超碰91免费人妻| 精品久久蜜桃| 91在线播放免费不卡无毒| 国产一级一级毛片永久| 国产一二三区在线| 日本精品一在线观看视频| 亚洲欧洲天堂色AV| 刘亦菲一区二区在线观看| 激情综合五月网| 性视频久久| 无码精品国产dvd在线观看9久| 国产三区二区| 中文字幕久久亚洲一区| 五月婷婷欧美| 国产日韩久久久久无码精品| 亚洲日韩图片专区第1页| 婷婷五月在线| 亚洲中文字幕无码爆乳| 国产日产欧美精品|