999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多特征的網(wǎng)絡(luò)釣魚檢測算法研究

2018-05-22 07:19:06黃亦睿劉功申蔡逆水
計算機應(yīng)用與軟件 2018年5期
關(guān)鍵詞:頁面特征檢測

黃亦睿 劉功申 孟 魁 蔡逆水

1(上海交通大學(xué)電子信息與電氣工程學(xué)院 上海 200240)2(移動互聯(lián)網(wǎng)系統(tǒng)與應(yīng)用安全國家工程實驗室 上海 201315)

0 引 言

網(wǎng)絡(luò)釣魚(Phishing)或欺詐URL攻擊[1]是針對互聯(lián)網(wǎng)終端用戶的一種欺詐性攻擊。攻擊者通過偽裝成電子通信中值得信賴的人或業(yè)務(wù)來收集敏感信息和個人隱私,如密碼和信用卡信息。不同于中間人攻擊或其他網(wǎng)絡(luò)滲透攻擊,欺詐URL不需要攻破現(xiàn)有網(wǎng)絡(luò)協(xié)議或架構(gòu)的漏洞,只需要欺騙終端用戶即可達到攻擊目的。根據(jù)中國反釣魚網(wǎng)站聯(lián)盟統(tǒng)計,2017年2月聯(lián)盟共處理釣魚網(wǎng)站951個,累計認定并處理釣魚網(wǎng)站388 859個。銀行、電子、證券、通信、支付等行業(yè)均是重災(zāi)區(qū)。雖然近年來反網(wǎng)絡(luò)釣魚解決方案取得了很多進展,但網(wǎng)絡(luò)釣魚仍然每年都會造成巨大損失。

本文將釣魚網(wǎng)站定義為滿足以下條件的網(wǎng)頁:(1) 通過復(fù)制目標網(wǎng)站的全部或部分內(nèi)容來模擬一個知名網(wǎng)站,與其目標呈現(xiàn)出高度的視覺相似性。(2) 網(wǎng)頁中具有請求登錄并要求輸入密碼等敏感信息的表單。這類網(wǎng)頁由于其極為明顯的目的性和相應(yīng)較低成本構(gòu)建的性質(zhì),一系列敏感特征可以被提取、分析,以達到檢測、鑒別欺詐網(wǎng)站的目的。

目前主流的欺詐URL檢測技術(shù)主要有:

1) 基于黑名單的過濾技術(shù),即收集、記錄歷史上被確定為欺詐網(wǎng)站的URL或域名,構(gòu)成黑名單。這種檢測技術(shù)性能較高,對于已經(jīng)確定的釣魚網(wǎng)站,可以快速地檢測并提示用戶。但維護黑名單庫的成本較高,攻擊者可以輕易地更換域名或IP地址,即可繞過黑名單檢測,而收集、驗證釣魚網(wǎng)站的工作也是極為耗時耗力的。

2) 基于機器學(xué)習(xí)的檢測技術(shù)[2-3],針對基于黑名單過濾技術(shù)的缺點,對網(wǎng)站相應(yīng)特征進行提取,使用機器學(xué)習(xí)算法模型對其進行分類和檢測。Garera等[4]分析了已知欺詐 URL的特征,如域名特征、單詞特征等,并通過抓取網(wǎng)頁分析其敏感特征,得到特征向量,使用回歸濾波器進行分類。基于機器學(xué)習(xí)的特征檢測算法具有一定的適用性,可自動分類新的樣本,但相關(guān)文獻并未完全包括欺詐URL的本質(zhì)特征,如更多的交互性特征和深入的特征等。

針對現(xiàn)有欺詐URL檢測方案存在的局限性,本文提出了一種基于機器學(xué)習(xí)的多特征欺詐URL檢測算法。該算法不僅分析了URL,包括域名與端口特征,和Web頁面內(nèi)相關(guān)HTML標簽的靜態(tài)特征,更深入地分析了其表單提交響應(yīng)等交互情況下的動態(tài)特征,之后將這些特征使用機器學(xué)習(xí)模型進行訓(xùn)練與測試。由于網(wǎng)頁靜態(tài)和動態(tài)特征本質(zhì)性地反映了欺詐URL本身的竊取用戶賬號密碼的目的,使用這些特征訓(xùn)練的模型可以有效地檢測未知URL的攻擊行為。

1 多特征的網(wǎng)絡(luò)釣魚算法設(shè)計

本文提出算法的輸入是待檢測網(wǎng)站URL,通過提取URL特征、Web頁面特征和交互特征,得到該網(wǎng)站的特征向量。將特征向量輸入到經(jīng)過訓(xùn)練的分類檢測模型中,判斷其是否為欺詐URL。算法流程如圖1所示。

圖1 多特征網(wǎng)絡(luò)釣魚算法流程圖

多特征釣魚網(wǎng)站檢測系統(tǒng)由以下模塊組成:正負樣本收集模塊、特征提取和分析模塊、分類器訓(xùn)練和檢測模塊。

正負樣本收集模塊實時地收集正常站點和欺詐URL樣本集。所用的正例樣本由各分類信息網(wǎng)站收集而來,如開放式目錄網(wǎng)站DMOZ、國內(nèi)各類分類信息網(wǎng)站等。反例樣本來源于PhishTank提供的欺詐URL數(shù)據(jù)庫和電信研究院提供的欺詐URL數(shù)據(jù)。

在特征提取模塊中,將進行基于URL的特征提取和基于Web內(nèi)容的特征提取。URL特征是指根據(jù)樣本URL所表現(xiàn)的域名特征等與Web內(nèi)容無關(guān)的特征。這些特征提取較為快速,且不會因為網(wǎng)站的關(guān)閉而失效。Web頁面特征則需要對URL進行訪問,得到其HTML代碼,之后分析HTML內(nèi)容和表單提交行為等。

這些特征和分析結(jié)果,在數(shù)據(jù)預(yù)處理模塊中被轉(zhuǎn)換為分類模型所需要的特征向量。

訓(xùn)練模塊使用上述特征向量和已經(jīng)標記好的正負樣本值,進行有監(jiān)督訓(xùn)練。具體地,將正負樣本混合,并隨機切分為訓(xùn)練集和測試集,使用訓(xùn)練集進行模型訓(xùn)練,之后使用測試集對訓(xùn)練好的分類器進行檢查。若分類器的性能未達到一定的準確率,則需要調(diào)整分類器參數(shù),或更換分類算法進行訓(xùn)練。若達到相應(yīng)標準,即可作為敏感特征異常檢測的模型。

在檢測模型訓(xùn)練完畢后,即可使用模型進行分類,當用戶提交新的待測URL,重復(fù)上述特征提取過程,得到特征向量。最后使用分類器對其進行分類,得到檢測結(jié)果。

2 特征提取

對于特征提取,如果單純考慮URL本身的特征,如host信息、單詞特征等,則無法確定其是否為欺詐URL。因為 URL無法體現(xiàn)釣魚網(wǎng)站的本質(zhì)行為——引誘用戶輸入賬號、密碼等敏感信息。攻擊者能夠通過非常仔細地制作URL來逃避僅依賴于URL的檢測機制。釣魚網(wǎng)站的根本目的為誘導(dǎo)用戶輸入賬號、密碼等信息,只有使用表單交互分析其響應(yīng),才可以達到捕捉具體釣魚行為的目的。而單純考慮Web內(nèi)容的特征提取,會降低檢測效率,且難以提高檢測正確率。

本文的特征提取算法將上述兩種方案相結(jié)合,在保證效率的同時,獲得較高的檢測精度。

2.1 URL特征

基于URL可提取的特征分為文本特征和域名特征。文本特征是指URL本身的文本屬性,主要包括:

1) URL中是否包含IP地址。攻擊者往往使用IP地址作為URL中的主機地址,以逃避備案和降低攻擊成本;而合法網(wǎng)站為了用戶易于記憶,總是使用域名而不是IP地址。

2) URL端口是否是80端口。部分攻擊采用非80端口代替?zhèn)鹘y(tǒng)HTTP協(xié)議的80端口,以架設(shè)在被入侵的Web服務(wù)器上,或低成本的虛擬主機中。

3) URL的子域名個數(shù)是否大于2。由于普通用戶缺乏辨別域名真實性和域名層級的能力,使用子域名冒充真實網(wǎng)站的主域名情況屢見不鮮。形如http://login.taobao.com.0291445.com/login.html的URL就是典型的欺詐URL。用戶往往只關(guān)注URL的前半部分,認為是淘寶網(wǎng)的登錄頁面(login.taobao.com),而忽略后面的一長串內(nèi)容。此類URL具有很強的迷惑性。通過檢測URL的子域名個數(shù)是否大于2,能夠判斷是否為二級域名欺騙。

4) URL中是否含有@等異常字符。如www.ebay.com@www.12345.com將跳轉(zhuǎn)到www.12345.com,這是因為URL中的@符號導(dǎo)致左側(cè)的字符串作為HTTP Basic Auth被忽略,右側(cè)的字符串則是URL的實際域名。結(jié)合瀏覽器地址欄的大小有限,這使得可以在地址欄中編寫合法的URL,但實際上導(dǎo)致瀏覽器檢索不同的頁面。

5) URL的域名是否包含破折號(-)。釣魚網(wǎng)站的URL為了模仿合法站點,往往在目標機構(gòu)域名中加入破折號,而合法網(wǎng)站的域名通常不使用破折號。

6) URL中是否包含敏感單詞,如webscr、secure、banking、account、confirm、login、signin等。通常欺詐URL包含此類單詞的幾率比較高。

基于域名的特征主要包括:

1) Age of domain,域名注冊時間。由于域名注冊成本很低,攻擊者使用的域名往往是新注冊的域名,以逃避黑名單檢測手段。

2) Expiration of domain,域名有效期。釣魚網(wǎng)站存活時間較短,攻擊者也盡可能短時間地續(xù)費該域名;而正規(guī)網(wǎng)站為了防止過期被搶注,會提前續(xù)費一年以上。

上述域名特征可以通過對域名進行Whois查詢得到。Whois查詢可得到域名全部注冊信息,如域名所有者、注冊商、注冊日期和過期日期等信息。

2.2 Web內(nèi)容特征

基于Web內(nèi)容的特征[5]主要包括以下幾種:

1) 鏈接對象異常率。針對頁面DOM模型中的對象,計算異常鏈接占所有鏈接的比率。對于合法頁面, 對象往往指向同域名下的其他頁面,方便用戶在網(wǎng)站內(nèi)瀏覽。而欺詐URL頁面往往只模仿了登錄頁,而其他鏈接均指向官方網(wǎng)站,以達到擬真的目標。因此存在較多數(shù)量的對象指向不一致的域。

2) 表單對象異常率。針對頁面DOM模型中的

等可提交數(shù)據(jù)的對象,計算異常表單對象占所有表單對象的比率。合法頁面的元素幾乎總將提交數(shù)據(jù)提交至本頁面中。而在欺詐URL頁面中,存在較多數(shù)量的對象指向不一致的域。

5) Form元素內(nèi)是否存在type=password的input元素。欺詐URL的Web頁面一般都會存在輸入賬號、密碼的表單,以盜取其資料。

6) 如果表單元素內(nèi)存在密碼輸入框,則根據(jù)表單格式,嘗試構(gòu)造隨機的表單內(nèi)容,并向服務(wù)器提交。連續(xù)提交三次,比較原表單頁面和每次返回的HTML頁面,將內(nèi)容相似度作為特征值。通常,正常網(wǎng)站對于錯誤的表單提交,總會返回原頁面,同時附加錯誤提示。對于釣魚網(wǎng)站,它無法鑒別用戶提交的賬號密碼信息,則會將用戶提交的內(nèi)容進行記錄,并返回一個偽造的頁面并提示登錄成功,以放松用戶的警惕,拖延其修改密碼的時間。

7) Web頁面的title是否與主域名有關(guān)聯(lián)。正規(guī)網(wǎng)站的title除了包含頁面的具體功能信息之外,往往還包含主域名的信息,而欺詐網(wǎng)站為了模仿正規(guī)網(wǎng)站,往往需要模仿其title等信息,因而其title和主域名往往無關(guān)聯(lián)。

8) 將網(wǎng)站的title在搜索引擎中進行搜索,判斷搜索結(jié)果中是否有該網(wǎng)站域名。由于搜索引擎會按照權(quán)威性進行排序,而title往往是網(wǎng)站特有的。如果未在搜索結(jié)果的前列出現(xiàn)該域名,則說明該域名聲稱的title并不權(quán)威或不唯一,則該網(wǎng)站大概率是釣魚網(wǎng)站。

3 機器學(xué)習(xí)分類模型

3.1 隨機森林

隨機森林[6]模型是最早由Leo Breiman和Adele Cutler提出的基于決策樹的分類模型。它構(gòu)建了若干棵決策樹,每棵樹的構(gòu)建隨機選取了特征向量的一部分維度。在進行分類時,隨機森林中的每一棵決策樹都會對結(jié)果進行投票,最終選擇獲得票數(shù)最多的結(jié)果。其優(yōu)勢主要包括:能夠處理數(shù)據(jù)集中大量的特征維度;對訓(xùn)練數(shù)據(jù)的噪聲有較強的容忍能力,并且能夠有效地估計丟失的數(shù)據(jù);容易實現(xiàn)并行化并避免過擬合。

隨機森林基于決策樹算法[7],使用以下過程構(gòu)造每棵決策樹:

設(shè)訓(xùn)練用例或樣本個數(shù)為N,樣本的特征向量長度為M,即有M個特征。

從樣本庫中隨機選取N1個樣本,構(gòu)成訓(xùn)練集;其余N2個樣本作為測試集,用于測試分類效果。

配置每棵數(shù)的特征數(shù)目m,其中m<

由于隨機森林的投票特性,每棵決策樹構(gòu)建完成后不需要進行剪枝。

至于一棵決策樹的構(gòu)建,ID3、C4.5、C5.0等算法均以降低信息熵為目標構(gòu)建節(jié)點。

信息熵的定義為:

(1)

對于子節(jié)點分裂的條件,其原則是使得父節(jié)點的信息熵與所有子節(jié)點信息熵之和的差最大化。直至葉子節(jié)點的熵值為零。

3.2 支持向量機

支持向量機SVM[8-9]被廣泛認為是用于高維數(shù)據(jù)二元分類最先進的模型,是定義在特征空間上間隔最大的線性分類器,利用間隔求最優(yōu)分離超平面。

SVM具體的算法是在N維空間內(nèi),將點集P={pi}使用超平面劃分為兩個子集,超平面的方程可寫作:

w·x-b=0

(2)

式中:w為超平面的法向量。

如果訓(xùn)練數(shù)據(jù)中存在超平面可以完美地將數(shù)據(jù)分隔為對應(yīng)的兩部分,則可求得一個離兩部分點集距離最遠的超平面,該法向量稱為支持向量。

如果訓(xùn)練數(shù)據(jù)不是線性可分的,則需要引入鉸鏈損失函數(shù):

max(0,1-yi(w·xi-b))

(3)

當分割的點在正確的一側(cè),損失函數(shù)值為零;對于在錯誤一側(cè)的數(shù)據(jù),該函數(shù)與超平面的距離成正比。SVM平面的誤差函數(shù)為:

(4)

對于訓(xùn)練集劃分,可使用梯度下降算法對超平面進行擬合,以達到誤差函數(shù)最小的目標。

4 實驗結(jié)果與分析

4.1 數(shù)據(jù)來源與實驗環(huán)境

本實驗采用的正例樣本從開放分類目錄DMOZ中摘取而來,DMOZ中的所有條目由編輯者手動審核,確保實驗數(shù)據(jù)的權(quán)威性和可靠性。反例樣本的來源是PhishTank.com提供的已經(jīng)確認的欺詐URL數(shù)據(jù)庫和電信研究院提供的欺詐URL數(shù)據(jù)。由于反例樣本即釣魚網(wǎng)站的存活時間短,本次實驗在2017年1月至2017年3月期間內(nèi)實時收集PhishTank提供的欺詐站點數(shù)據(jù),隨機選取并進行驗證,確保了實驗數(shù)據(jù)來源的準確性和多樣性。

由于互聯(lián)網(wǎng)環(huán)境中,合法網(wǎng)站的比例遠高于釣魚網(wǎng)站,因此在構(gòu)建訓(xùn)練集和測試集時,將正負樣本的比例控制為9∶1,并進行隨機混合。本次實驗共收集正負樣本14 000例,其中包含正樣本12 600例,負樣本1 400例。系統(tǒng)采用Java語言實現(xiàn),選擇15個敏感特征,得到15維向量,作為分類器的輸入。為檢驗機器學(xué)習(xí)算法的性能,實驗將樣本分為5個數(shù)據(jù)集,每個數(shù)據(jù)集各有一部分正負樣本。具體組成如表1所示。

表1 樣本數(shù)據(jù)集組成

我們選取的分類模型有隨機森林和SVM。系統(tǒng)選用不同的數(shù)據(jù)集和機器學(xué)習(xí)模型,訓(xùn)練并測試相應(yīng)數(shù)據(jù)集的分類結(jié)果,分析該分類器的分類性能。本實驗中,采用檢測精度、誤判率和漏判率作為衡量欺詐URL檢測系統(tǒng)性能的3個指標。

4.2 實驗結(jié)果與分析

從表2-表3可以看出,隨機森林和支持向量機在樣本集中達到了較高的檢測精度。這說明實驗所提取的特征能較好地反應(yīng)正負樣本的特點,也體現(xiàn)出隨機森林和SVM卓越的分類效果。隨著實驗樣本集的擴大,兩者的檢測精度都有所提高并收斂, 誤判率和漏判率都逐步降低。然而相比誤判率,漏判率依然比較高,表明實驗中提取的特征還不足以全面反映正負樣本的特征,存在不少“漏網(wǎng)之魚”。另外,實驗中發(fā)現(xiàn)支持向量機相比隨機森林,在運行大規(guī)模數(shù)據(jù)集時,內(nèi)存消耗大,效率也不夠高。

表2 隨機森林算法檢測實驗結(jié)果 %

表3 支持向量機算法檢測實驗結(jié)果 %

5 結(jié) 語

本文研究并實現(xiàn)了一種基于URL和Web內(nèi)容敏感特征的釣魚網(wǎng)站檢測算法。在分類器的選擇上,采用了流行的隨機森林和SVM算法,達到了較好的分類效果。針對近年來新出現(xiàn)的使用圖片來構(gòu)造釣魚網(wǎng)站的攻擊,下一步將在算法上結(jié)合圖像相似性檢測技術(shù)[10]來提取此類攻擊的敏感特征,從而進一步降低實驗的漏判率,提高整體的檢測精度。

參 考 文 獻

[1] Jaison F,Francis S.Phishing Website Detection:A Review[J].IJCSMC,2014,3(2):696-699.

[2] Jain A K,Gupta B B.Comparative analysis of features based machine learning approaches for phishing detection[C]//International Conference on Computing for Sustainable Global Development.IEEE,2016:2125-2130.

[3] Nguyen H H,Nguyen D T.Machine learning based phishing web sites detection[M]//AETA 2015:Recent Advances in Electrical Engineering and Related Sciences.Springer International Publishing,2016:123-131.

[4] Garera S,Provos N,Chew M,et al.A framework for detection and measurement of phishing attacks[C]//Proceedings of the 2007 ACM workshop on Recurring malcode.ACM,2007:1-8.

[5] 郭敏哲,袁津生,王雅超.網(wǎng)絡(luò)釣魚Web頁面檢測算法[J].計算機工程,2008,34(20):161-163.

[6] Liaw A,Wiener M.Classification and regression by randomForest[J].R news,2002,2(3):18-22.

[7] Patel B R,Rana K K.A survey on decision tree algorithm for classification[J].International Journal of Engineering Development and Research,2014,2(1):1-5.

[8] Meyer D,Wien F H T.Support vector machines[J].R News,2001,1(3):23-26.

[9] Adankon M M,Cheriet M.Support vector machine[J].Encyclopedia of biometrics,2015:1504-1511.

[10] 盧康,周安民.基于圖像相似性的釣魚網(wǎng)站檢測[J].信息安全與通信保密,2016(3):115-117.

猜你喜歡
頁面特征檢測
大狗熊在睡覺
刷新生活的頁面
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應(yīng)用
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧洲精品视频在线观看| 2021亚洲精品不卡a| 2020国产免费久久精品99| 久久五月视频| 国产成人a在线观看视频| 国产国产人成免费视频77777| 国产91特黄特色A级毛片| 99re经典视频在线| 亚洲一区二区成人| 亚洲成年人网| 67194亚洲无码| 亚洲无线观看| 色综合久久88| 国产欧美另类| AV片亚洲国产男人的天堂| 亚洲AⅤ无码日韩AV无码网站| 视频一区亚洲| 亚洲天堂网站在线| 精品国产毛片| 亚洲性视频网站| 91久久精品日日躁夜夜躁欧美| 青青操视频在线| 波多野结衣爽到高潮漏水大喷| 深爱婷婷激情网| 色婷婷在线影院| 国产高颜值露脸在线观看| 欧美激情伊人| 国产白浆在线观看| 欧美 国产 人人视频| 日韩毛片在线播放| 丰满的少妇人妻无码区| 国产女人18水真多毛片18精品 | 色成人亚洲| 91啦中文字幕| 91年精品国产福利线观看久久| 国产特级毛片aaaaaa| 日韩A∨精品日韩精品无码| 一级毛片免费观看不卡视频| 国产精选小视频在线观看| 久久精品嫩草研究院| 91麻豆国产精品91久久久| 女人18一级毛片免费观看| 国产欧美综合在线观看第七页| 国产成人盗摄精品| 色欲色欲久久综合网| 日韩一区二区三免费高清| 亚洲国产成人超福利久久精品| 久久99精品久久久久纯品| 国产黑丝一区| 国产一级视频在线观看网站| 亚洲国产在一区二区三区| 免费国产小视频在线观看| 国产精品美女网站| 五月天综合婷婷| 九九九国产| 国产91丝袜在线播放动漫 | 久久精品国产精品青草app| 国产国模一区二区三区四区| 国产无码制服丝袜| 天天做天天爱天天爽综合区| 国产一级裸网站| 免费一级成人毛片| 成年片色大黄全免费网站久久| 99这里只有精品6| 婷婷在线网站| 亚洲AV无码精品无码久久蜜桃| 日韩国产综合精选| 91视频免费观看网站| 日本黄网在线观看| 欧美在线视频a| 91福利在线观看视频| 国产精品吹潮在线观看中文| 久久熟女AV| 国产精品任我爽爆在线播放6080| 久久国产黑丝袜视频| 亚洲精品卡2卡3卡4卡5卡区| AV熟女乱| 日韩成人在线网站| 国产精品开放后亚洲| 亚洲天堂啪啪| 97国产在线观看| 18禁影院亚洲专区|