高效的基于段模式的惡意URL檢測方法

2015-01-01 02:56:14林海倫李焱王偉平岳銀亮林政

通信學報 2015年1期

林海倫，李焱，王偉平，岳銀亮，林政

(1. 中國科學院信息工程研究所，北京 100093；2. 國家計算機網絡應急技術處理協調中心，北京 100029)

1 引言

隨著互聯網技術的飛速發展，網絡犯罪手段層出不窮，網絡威脅形式越來越多，導致識別網絡威脅的難度大大增加，成本呈上升趨勢。2014年，美國波萊蒙研究所（Ponemon institute）發布的報告[1]表明，2014年網絡攻擊導致美國的大公司損失1 270萬美元，同比增長9.7%。該報告顯示，網絡犯罪給大公司造成的損失當中，業務中斷和信息丟失占了近 75%；而一般企業或組織平均每周遭受到1.7次成功的網絡攻擊，平均修復一次網絡攻擊的周期為 31天，所需要花費的代價約為 64萬美元，這與2013年相比，修復周期延長了4天，花費代價增長了 23%。盡管網絡防御水平在不斷提高，但是網絡犯罪集團也在不斷增強其適應力，因此需要研究有效的方法來識別網絡威脅，預防網絡犯罪的發生。

Wikipedia將任何一種使用萬維網方便網絡犯罪的威脅都稱之為網絡威脅注1注1 https://en.wikipedia.org/wiki/Web_threat。網絡威脅使用不同類型的惡意軟件和詐騙手段，它們的共同點是使用HTTP或HTTPS協議，或是使用其他類型的協議或組件訪問 Web。因此，通過檢測惡意URL來判定網絡威脅（如釣魚網站等）是可行的。然而，惡意URL為了減少被檢測到的可能，可能會采用各種手段來隱藏自己。例如，Porras等[2,3]使用當前日期和時間作為種子每小時隨機生成250到50 000個域名，包含這種隨機域名的惡意URL難以被檢測到。除此之外，與網站正確的 URL具有較高相似度的惡意URL也很難被檢測到，這種URL也很容易誤導用戶，例如將login篡改為log1n或將index篡改為lndex等，用戶很可能誤入這些網址導致信息泄露。所以，為了避免信息泄露，預防網絡犯罪，這些惡意 URL需要在被訪問之前檢測出來。為此，有效的檢測惡意URL方法應滿足如下要求。

1) 實時性。檢測方法應能在短時間內檢測出惡意URL。在用戶訪問一個惡意URL時需要請求服務器，檢測方法應能在惡意網頁返回給用戶之前提示用戶該 URL具有不良目的，并將惡意網頁內容阻止在客戶端外。

2) 擴展性。檢測方法應能有效地檢測出新的惡意URL。攻擊者為了躲避正常的檢測，會使用算法來生成隨機域名增加檢測的難度，檢測方法應該能夠檢測出那些新的、不常見的惡意URL。

3) 準確性。檢測方法應具有較高的精度。目前惡意URL的數量遠不及網站正確的URL的數量，要能精確地檢測出惡意URL具有一定的挑戰；另外，有的惡意URL只篡改了網站正確的URL的一些關鍵詞，給惡意URL和正確URL的區分帶來了很大的挑戰。

為此，本文提出一種高效的基于段模式的檢測惡意 URL的方法，該方法首先解析已標注的惡意URL中的域名、路徑名和文件名3個語義段，然后通過建立以三元組為詞項的倒排索引計算惡意URL段的公共模式（TCP, tri-gram inverted index based common pattern computing），因此，將該方法簡記為TCP方法。TCP方法直接從組成惡意URL的字符串中提取惡意URL的段模式。TCP方法由于只使用 URL的詞匯特征，不需要額外特征，節省了計算開銷。根據 URL的標準規范[4]，URL字符串只包含字母、數字和一些特定的符號，例如“/”、“?”、“.”、“=”、“-”、“_”等，所以惡意 URL 段模式的提取過程只是對字符串進行處理。在目前的條件下，URL處理的速度可以達到每秒百萬量級。不僅如此，TCP基于倒排索引查找到的段模式，使用有限狀態自動機[5]來判定給定的 URL是否是惡意URL，避免了不存在公共模式的URL對之間的計算，提高了惡意URL判定的效率。

2 相關工作

惡意 URL檢測方法根據使用的信息不同，大致可以分為3類：基于黑名單的方法、基于網頁內容的方法和基于 URL的方法。接下來，介紹這幾類工作的典型代表。

基于黑名單的方法[6]主要是通過查找 URL黑名單來判斷給定的URL是否為惡意URL，如果命中，則該URL為惡意URL，否則為正確的URL。如 Google Safe Browsing、Netcraft Toolbar、eBay Toolbar等瀏覽器的黑名單機制都屬于這類方法[7]。這種方法主要通過人工標記、蜜罐、用戶反饋、爬蟲等方法來維護URL黑名單。通過分析可以看出，基于黑名單的方法簡單、直接、準確率高。然而，這種方法只能檢測已出現過的惡意URL，對于新的和包含隨機域名的惡意URL無法檢測出來。

考慮到惡意 URL的網頁內容具有某種特殊的目的或意義，因此另一種典型的檢測惡意 URL的方法是基于網頁內容的方法，該方法借助網頁包含的信息，如網頁標簽、文本等，判定給定的 URL是否是惡意URL。Provos等[8]提出了一種利用網頁標簽特征檢測惡意 URL的方法，例如某些特定JavaScript是否出現，iframe標簽是否越界等。Moshchuk等[9]提出一種利用反間諜軟件工具來分析 URL網頁內容中是否包含木馬可執行文件，以此來判定惡意URL。

Zhang等[10]通過計算網頁中每個詞語的TF-IDF值，從中選擇TF-IDF值最高的幾個詞語組成查詢，利用搜索引擎返回的檢索結果，判定待檢測網頁的合法性。許杰[11]提出一種基于TF-IDF余弦定理算法對網頁進行特征匹配的方法，對用戶正在訪問的惡意 URL進行檢測與攔截。通過對相關工作的分析可以看出，基于網頁內容的方法首先需要獲取網頁的內容，然后對網頁內容進行分析，這樣會帶來顯著延遲，不適合高速的在線檢測。

另一種比較流行的檢測惡意URL的方法是基于URL的方法，目前已有的工作基本都是通過提取URL中的特征，例如URL的長度信息、服務器地理位置信息、服務器IP信息等，訓練分類器對URL進行分類，從而判定給定的URL是否是惡意URL。例如，Garera等[12]通過分析釣魚網站的URL結構，總結出4種類型的URL結構，通過特征選擇算法，選取頁面特征、域名特征、類型特征和詞匯特征等18種特征，基于邏輯斯諦回歸（logistic）模型訓練分類器，對惡意URL進行檢測和攔截。

Ma等[13～15]則提出一種基于可疑 URL的詞匯特征和主機屬性訓練分類器，對惡意URL進行檢測的方法，該方法利用詞袋模型（BOW, bag of word）獲得成千上萬的特征。其中，詞匯特征包括主機名長度、URL長度、URL中點號數等信息以及URL中主機和路徑中每一個詞匯符號信息；在主機屬性中考慮 IP地址屬性、WHOIS屬性、域名屬性和地理位置屬性。通過分析可以看出，基于分類模型的惡意URL檢測方法，需要對大量的特征進行提取和計算，而特征選取的質量直接決定方法的有效性。

與現有的方法相比，本文提出的TCP方法只使用基于 URL字符串提取的段模式作為特征檢測URL是否是惡意 URL，大大減少了特征計算量；而且，該方法引入了信息檢索中的倒排索引技術，提高了URL模式的計算和匹配速度，進而提高TCP對惡意 URL的檢測速度；不僅如此，該方法還支持基于 Jaccard的隨機域名識別技術來判定包含隨機域名的惡意URL。

3 TCP方法的原理

本節將詳細介紹TCP方法的原理。為此，首先給出符號定義和惡意URL檢測問題的形式化定義，然后介紹TCP方法的框架。

3.1 符號和問題定義

根據 URL的標準規范[4]，URL字符串包含 3個不同的語義段：域名、路徑名和文件名，因此可以將URL解析成這3個語義段的形式，然后逐個段考慮。為了簡化運算，本文將 URL中的字母、數字和特定的符號，例如“?”、“=”、“-”、“_”等，都當作常規字符對待，字符“/”作為段連接符和路徑名分隔符，“.”作為域名和文件名分隔符，在提取語義段的公共模式時常規字符不區分考慮。下面則給出段的公共模式的定義。

定義1(段公共模式)。段公共模式（簡稱為段模式）是由常規字符組成的字符串，記為s=c1, L ,cl，其中，l是公共模式的長度；ci(1 ≤i≤l)是常規字符或是通配符“*”，通配符能匹配任意長度的常規字符串，但不包含“/”和“.”。對于任意的i( 1 ≤i＜l)，滿足以下條件：若ci=*，則ci+1≠*。規定只包含通配符的段模式是非法的。

基于段模式的定義，接下來將詳細介紹段模式與語義段匹配的判定規則。

規則1已知段模式s=c1, L ,cl，給定一個語義段u=c1′ ,L ,cm′ ，如果存在一個函數f: [1,m]→ [1 ,l]，滿足l≤m，對于 ?j∈ [1 ,m)，都有f(j)≤f(j+ 1 )；且對于 ?i∈ [1 ,l) ，若ci+1≠*，存在唯一的j∈[1,m)，使f(j) =i,c′j=ci，則稱段模式s與語義段u匹配。

本文分別使用sd、sp、sf表示域名、路徑名、文件名的段模式，由于域名、路徑名和文件名采用相同的常規字符集表示，因此，這3個語義段都可以基于規則1進行匹配判斷。

由于URL可以解析為域名、路徑名和文件名3個語義段的形式，因此URL公共模式可以通過這3個語義段的模式來表示，基于段模式的定義，下面給出URL公共模式的定義。

定義2(URL公共模式)。URL公共模式(簡稱為URL模式)是由對應的域名、路徑名和文件名3個段的模式通過字段連接符連接而成，記為P=sd/sp/sf。

通過定義2可以看出，URL模式匹配問題可以轉化為段模式匹配的問題進行求解，接下來介紹URL公共模式和URL匹配的判定規則。

規則 2已知 URL模式P=sd/sp/sf，給定一個URL，若P的每個段模式與都與待檢測URL的對應段匹配，則稱該URL模式與待檢測URL匹配。

下面將詳細論述TCP方法的處理流程。

3.2 TCP方法框架

TCP方法檢測惡意URL的處理框架如圖1所示。

圖1 TCP方法框架

該框架主要包括以下3個模塊。

1) 數據預處理模塊：該模塊解析URL中的域名、路徑名和文件名3個語義段。

2) 模式計算模塊：該模塊首先將每個語義段基于三元組模型（tri-gram）轉化為詞項集合表示，接下來基于詞項建立倒排索引，然后通過建立以三元組為詞項的倒排索引提取URL每個語義段的模式，最后基于段模式通過字段連接符連接得到URL公共模式。

3) URL判定模塊：該模塊基于惡意URL的公共模式判定被檢測URL是否是惡意URL。

下面則詳細介紹這3個模塊的處理流程。

3.2.1 數據預處理

考慮到 URL采用的協議一般都是 HTTP或HTTPS，因此，在解析URL時不考慮URL中的協議部分，在解析之前先將URL包含的“http(s)：//”部分從URL中分離；然后根據URL字符串的特點，解析 URL的剩余部分，從中提取域名、路徑名和文件名3個語義段，以如下URL為例。

URL="walmartmegablackout.com/include/wordp ress/login.htm"，對該 URL進行解析，可以從中解析出：域名="walmartmegablackout.com"、路徑名="include/wordpress"、文件名="login.htm"。

3.2.2 模式計算

本節將詳細介紹如何基于數據預處理模塊獲取的URL的3個語義段，生成URL的公共模式。URL公共模式計算主要分為以下幾個步驟。

1) 語義段三元組詞項表示。TCP基于自然語言處理中定義的三元組模型（tri-gram）將語義段表示成三元組集合的形式。由于 URL中的域名、路徑名和文件名采用相同的常規字符集合表示，因此這3個段的三元組詞項表示可以采用相同的方式生成。本節以域名段的詞項表示為例，將域名段表示為多個三元組的算法如算法1所示。

在該算法中，Count表示域名段中包含的三元組個數；TrigramArray是一個用于存儲域名段中三元組及其位置數組。算法首先根據域名分隔符“.”將域名段分解成子串的形式，然后將每個子串分別表示成三元組，這樣保證三元組中的字符來自同級域名。對于文件名，它的三元組表示方法與域名一致，而路徑名由于以“/”將不同級路徑分開，因此，在對路徑名進行三元組詞項表示時，需將域名表示算法中的域名分隔符“.”替換成路徑分隔符“/”。

值得注意的是，本文之所以采用tri-gram模型表示語義段，原因在于：據統計任意2個URL串之間具有相同二元組、三元組和四元組的概率分別為95.7%、75.8%和33.6%[16]。因此，為了降低模式計算的時間復雜度和詞項倒排索引存儲的空間復雜度、保證語義段切分的區分性和模式提取的合理性，本文采用tri-gram模型。在本文中，TCP規定2個URL之間至少有一個相同的tri-gram時，才計算它們之間的公共模式。

算法1SplitDomainIntoTrigrams

2) 倒排索引創建。TCP根據URL語義段的三元組詞項表示，基于三元組為每個語義段創建倒排索引。以域名段為例，創建的域名段的倒排索引（記為DomainInvertedIndex）如圖2所示。

圖2 TCP方法域名段倒排索引數據結構

在索引中，詞項鏈表中的每個節點包含3個字段：tri-gram、指向下一個tri-gram的指針和指向包含該tri-gram的倒排列表的指針。每個詞項對應的倒排鏈表的每個節點包含該tri-gram所屬的域名的編號、在域名中的位置和指向下一個包含該tri-gram的域名節點的指針。其中，倒排鏈表按域名編號遞增的方式存儲。與此相同，可以建立路徑名和文件名2個語義段的倒排索引。

3) 段模式提取。以域名段的段模式生成為例，為了生成域名段的段模式，TCP需要遍歷域名的倒排索引，查找可能存在公共模式的域名。具體地，對出現在同一倒排鏈表中的所有詞項進行比較，計算它們之間的公共模式，通過遍歷2個域名段對應的詞項列表提取2個域名段的公共模式，具體如算法2所示。

算法2ExtractDomainCommonPattern

在算法2中，對2個域名段，本文只提取它們之間的一個公共模式。據實驗統計，2個域名存在多于一個段模式的概率不超過2%[16]，因此2個域名之間只保留一個段模式是可行的。

段模式的提取是根據2個域名包含的tri-gram在域名中的位置進行計算，根據tri-gram在域名中出現的位置不同來判定是否將 tri-gram或 tri-gram中的字符或通配符寫入段的公共模式。例如，域名"walmartmegablackout.com"與"adamant-cable.ru"提取的段模式為"*abl*"。同樣，按照該方法生成路徑名和文件名2個語義段的段模式。

4) URL公共模式生成。基于URL中的域名、路徑名和文件名3個段的段模式，使用段連接符"/"將3個語義段的模式進行拼接，根據定義2生成URL的公共模式。例如，給定2個URL，"walmartmegablack out.com/include/wordpress/login.htm"和"adamantcable.ru/include/world/index.html"，它們的公共模式為"*abl*/include/wor*/*.htm*"。

將生成的所有的URL模式加載到0-1狀態有限自動機中，下面將詳細介紹如何利用該自動機判斷待檢測的URL是否是惡意URL。

3.2.3 惡意URL判定

惡意 URL判定本質上是一個分類問題：給定一個待檢測 URL，需要判斷其是屬于惡意 URL，還是屬于網站正確的URL。因此，惡意URL判定可以通過一個簡單的線性分類器來實現[17]。本文使用一個有限狀態自動機來實現惡意URL的判定。

具體地，TCP準備一個標注的URL訓練數據集，該數據集中惡意URL和正確的URL按1:2的規模組成。通過數據預處理和模式計算2個模塊對該數據集中的所有URL進行URL模式提取，然后將所有的 URL模式加載到自動機中，從而完成惡意URL判定的準備工作。

接下來，基于3.1節中定義的規則1和規則2將待檢測的URL與自動機中所有的URL模式進行匹配，記自動機中惡意URL模式與該待檢測URL匹配的個數為Mnum，正確URL模式與該URL匹配的個數為Nnum，根據標注的訓練數據的特點，若滿足條件：2Mnum≥Nnum，則判定該URL為惡意URL，否則為正確的URL。

值得注意的是，在本節介紹的都是包含固定域名的惡意 URL檢測方法，接下來將介紹包含隨機域名的惡意URL判定方法。

3.3 包含隨機域名的惡意URL

目前，有很多惡意 URL通過隨機生成域名的方式來躲避檢測與攔截[2,3]。因此，為了進一步提高惡意URL檢測的準確率，TCP在URL判定中引入隨機域名識別機制。

在隨機域名識別方面，Yadav等[18]提出了一種通過計算域名的一元組和二元組的 KL距離、Jaccard系數和編輯距離判定產生的隨機域名是否是惡意的方法，并且通過實驗說明基于 Jaccard系數的方式判定效果最好。因此，TCP引入 Jaccard系數來處理包含隨機域名的惡意URL的判定。

鑒于在計算URL公共模式時使用tri-gram作為詞項，對于隨機域名的表示繼續使用tri-gram表示。TCP針對無法用有限自動機判定的URL，則通過計算惡意（正確）URL的域名段模式與該URL的域名段的Jaccard系數進行判定，計算方式如下。

其中，A表示被檢測URL的域名段的tri-gram集合；B表示由TCP中所有惡意（正確）URL的域名段模式中的tri-gram組成的集合；AIB表示A與B之間相同的tri-gram集合；AUB表示A與B包含的所有的 tri-gram 集合；|·|表示集合的大小。sim表示集合A與B的Jaccard相似度。

記惡意URL的域名段模式與該URL的域名段的Jaccard相似度為JMsim，正確URL的域名段模式與該URL的域名段的Jaccard相似度為JNsim，若滿足：2JMsim≥JNsim，則判定該URL為惡意URL，否則為正確的URL。

4 實驗與分析

為了驗證本文提出的基于段模式的惡意 URL檢測方法（TCP）的有效性，本節將對TCP的有效性和擴展能力進行實驗分析。首先，測試TCP方法檢測惡意URL的準確率；然后，測試TCP方法的運行效率；最后測試TCP方法的擴展能力。本節所有實驗都是在一臺服務器上完成的，配置如下：64 bit Linux OS，16 core 2 GHz AMD Opteron(tm) 6128處理器，32 GB RAM。

4.1 實驗設置

1) 數據集：實驗中使用的惡意URL數據和正確的URL數據都來自網上的公開數據集，是通過使用開源軟件 Larbin注2注2 http://larbin.sourceforge.net/index-eng.htm注3 http://www.phishtank.com/注4 http://www.malware.com.br/從網站上抓取、去重獲得的。其中，惡意URL數據集由從2個著名的惡意URL 匯總網站 Phish Tank注3注2 http://larbin.sourceforge.net/index-eng.htm注3 http://www.phishtank.com/注4 http://www.malware.com.br/和 Malware Patrol注4注2 http://larbin.sourceforge.net/index-eng.htm注3 http://www.phishtank.com/注4 http://www.malware.com.br/網站上爬取的；正確的 URL數據集是從 Google和DMOZ網站上爬取的。數據集的分布情況如表1所示。

表1 數據集組成情況

2) 基準方法：為了驗證TCP方法對惡意URL檢測的有效性，在實驗中采用以下2種典型的方法作為基準方法。

黑名單方法：經典的檢測惡意URL的方法[6]，主要是通過查找URL黑名單來判斷給定的URL是否為惡意URL。

CW方法：CW方法[14]是一種在線學習的方法，它基于置信度加權（CW, confidence weighted）算法判斷惡意URL。

基于上述實驗設置，首先測試各個方法在惡意URL檢測上的準確率，然后進一步測試各個方法的運行效率，最后測試TCP方法的擴展能力。

4.2 實驗結果

4.2.1 準確率測試

為了測試 TCP方法檢測惡意 URL的準確率，本節分別比較TCP方法和CW方法對測試數據數據中惡意 URL檢測的誤判數和漏判數。其中，誤判數是指將 URL惡意性判斷錯誤的數量，漏判數是指方法沒有判斷出來的惡意 URL的數量。

誤判數和漏判數的實驗結果如圖3和圖4所示。

圖3 TCP與CW誤判數比較

圖4 TCP與CW漏判數比較

從圖3和圖4中可以看出，與基準方法CW相比，TCP方法的漏判數和誤判數都明顯低于CW，這說明TCP方法能夠有效檢測惡意URL。

4.2.2 運行效率測試

本節評估 TCP方法與基準方法 CW 在惡意URL檢測上的運行效率。

在實驗中，通過比較TCP和CW在相同數據集下檢測惡意 URL的時間開銷，來評價這些方法的運行效率，實驗結果如圖5所示。

圖5 TCP與CW運行效率比較

從圖5中可以看出，與CW方法相比，TCP方法的運行效率明顯優于CW方法，且增長速度也小于CW，這說明TCP方法在惡意URL判定的實時性好，原因在于，TCP采用倒排索引避免了冗余的計算，并按tri-gram將URL模式進行排列，在檢測URL時，根據倒排索引查找可能匹配的URL模式，減少了模式匹配的計算量。

4.2.3 擴展能力測試

本節將驗證TCP方法的擴展能力。

在實驗中，通過對比在檢測相同數量的惡意URL時，TCP方法所需的URL公共模式數量和黑名單方法所需的 URL數量來評價這些方法的擴展能力，實驗結果如圖6所示。

圖6 TCP與黑名單方法擴展能力比較

從圖 6中可以看出，在檢測相同規模的 URL時，TCP方法使用的URL模式數要遠遠小于黑名單方法使用的URL數。不僅如此，隨著檢測的URL數量的增加，TCP方法所需的URL公共模式的數量近似以對數的速度增長，而黑名單方法所需的URL數量則呈現線性增長。通過該組實驗可以說明，與黑名單方法相比，TCP方法具有良好的擴展能力，這是因為TCP方法采用段模式的思想：一個URL公共模式能夠有效匹配多個 URL，因此，在一定程度上，TCP可以用少量的URL模式即可檢測更多的惡意URL。

基于以上實驗分析可以看出，與基準測試相比，TCP方法在檢測惡意URL時，不僅可以獲得更高的準確率，而且在實時性和擴展能力方面也能獲得更好的效果，這些都表明TCP方法的有效性，這也說明在惡意 URL檢測中，采用段模式是一個非常有用的技術。

5 結束語

本文提出一種高效的基于段模式的惡意URL檢測方法，通過建立以三元組tri-gram為詞項的倒排索引快速計算惡意URL的段模式。不僅如此，該方法通過基于Jaccard的隨機域名識別技術來判定隨機域名產生的惡意URL。通過與最新的CW方法和黑名單方法的大量的實驗表明，該方法在檢測惡意URL時具有較好的實時性、擴展性和有效性。然而，TCP還存在一些問題。例如，只通過簡單的Jaccard指數檢測包含隨機域名的惡意URL的方式還不夠完善。因此，在下一步工作中將根據域名與IP地址之間的映射關系，檢測包含隨機域名的惡意URL。

[1] Ponenom Institute. 2014 Global Report on the Cost of Cyber Crime[R].2014.

[2] PORRAS P, SAIDI H. YEGNESWARAN V. Conficker C P2P Protocol and Implementation[R]. SRI International Tech. Rep. 2009.

[3] PORRAS P, SAIDI H, YEGNESWARAN V. An Analysis of Conficker’s Logic and Rendezvous Points[R]. SRI International Tech. Rep, 2009.

[4] https://url.spec.whatwg.org/[EB/OL]. 2015.

[5] HENZINGE T A, RASKIN J C C O. The equivalence problem for finite automata: technical perspective[J]. Communications of the ACM,2015, 58(2): 86-86.

[6] PRAKASH P, KUMAR M, KOMPELLA R R,et al. Phishnet: predictive blacklisting to detect phishing attacks[A]. Proceedings of IEEE International Conference on Computer Communications[C]. 2010. 1-5.

[7] LIKARISH P, JUNG E. Leveraging Google safe browsing to characterize Web-based attacks[A]. Association for Computing Machinery[C]. 2009.

[8] PROVOS N, MAVROMMATIC P, RAJAB M A,et al. All your iframes point to us[A]. Proceedings of the 17th Usenix Security Symposium[C]. 2008.1-16.

[9] MOSHCHUK A, BRAGIN T, GRIBBLE S D,et al. A crawler-based study of spyware in the Web[A]. Proceedings of the Network and Distributed System Security Symposium[C]. 2006.

[10] ZHANG Y, HONG J, CRANOR L. Cantina: a content-based approach to detecting phishing Web sites[A]. Proceedings of 16th International Conference on World Wide Web[C]. 2007. 639-648.

[11] 許杰. 云安全模式下惡意URL實時檢測系統的設計與測試[D]. 北京: 北京郵電大學, 2014.XU J. Design and Testing of Malicious URL Real-time Detecting System Working in the Mode of Cloud Security[D]. Beijing University of Posts and Telecommunications, 2014.

[12] GARERA S, PROVOS N, CHEW M. A framework for detection and measurement of phishing attacks[A]. Proceedings of 5th ACM Workshop on Recurring Malcode[C]. 2007. 1-8.

[13] MA J, SAUL L K, SAVAGE S,et al. Beyond blacklists: learning to detect malicious Web sites from suspicious URLs[A]. Proceedings of the 15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining[C]. 2009.1245-1254.

[14] MA J, SAUL L K, SAVAGE S,et al. Identifying suspicious URLs: an application of large-scale online learning[A]. Proceedings of the 26th International Conference on Machine Learning[C]. 2009. 681-688.

[15] THOMAS K, GRIER C, MA J,et al. Design and evaluation of a real-time url spam filtering service[A]. Proceedings of the 2011 IEEE Symposium on Security and Privacy[C]. 2011. 447-462.

[16] HUANG D, XU K, PEI J. Malicious URL detection by dynamically mining patterns without pre-defined elements[J]. World Wide Web,2014, 17(6): 1375-1394.

[17] HAN J W, KAMBER M, PEI J. Data Mining: Concepts and Techniques[M]. Beijing: China Machine Press.2012.

[18] YADAV S, REDDY A K, RANJAN S. Detecting algorithmically generated malicious domain names[A]. Proceedings of the 10th ACM SIGCOMM Conference on Internet Measurement[C]. 2010. 48-61.