999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于單詞匹配和編輯距離的釣魚貝葉斯檢測器研究

2015-05-30 10:48:04朱超群等
計算機時代 2015年5期

朱超群等

摘 要: 網絡釣魚是目前信息安全領域的一個研究熱點,基于域名信息的釣魚檢測是使用較為廣泛的一種方法。文章利用編輯距離尋找與已知正常域名相近的域名,根據域名信息提取域名單詞最大匹配特征、域名分割特征和URL分割特征,利用這些特征訓練貝葉斯分類器,根據給定特征屬于哪一類的概率來判斷此URL是否為釣魚URL,實驗結果表明該方法能有效提高判斷準確性。

關鍵詞: 釣魚檢測; 單詞匹配; 編輯距離; 貝葉斯分類器

中圖分類號:TP309 文獻標志碼:A 文章編號:1006-8228(2015)05-16-03

Abstract: Phishing is one of the research hotspot in the field of information security at present, and URL based phishing detection is a method used widely. This paper proposes a phishing detection method which searches approximate normal domain names by calculating edit distance firstly. Then domain name word maximum match features, domain name segmentation features and URL segmentation features are extracted according to the domain name information. Finally, a bayes binary classifier, which is trained by using these features, can distinguish whether a URL is phishing URL or not. The experimental results show that this method can effectively improve the judgment accuracy.

Key words: phishing detection; words matching; edit distance; bayes classifier

0 引言

目前電子商務、網絡銀行逐漸走入人們的日常生活,商務類應用呈上升趨勢,與此同時,互聯網絡安全問題十分嚴峻,其中網絡釣魚攻擊作為當今在線交易和電子商務所面臨的最危險的欺詐形式已越來越成為關注的焦點。

反釣魚技術涉及領域極廣,應用場景和問題領域多種多樣,目前并沒有統一的、權威的研究視角和方法。研究人員從多個層面出發,提出了反釣魚的方法和機制。

⑴ 基于人工判定和質量評價的黑名單技術

該類技術通過維護一個黑名單來阻止用戶對已發現的釣魚網站的訪問。黑名單的建立主要通過人工舉報和審查,或者用戶群對網站質量評價來完成,例如:Cloudmark的黑名單是由大量用戶對網站的評級來維護,IE和Firefox等瀏覽器通過用戶舉報實時更新釣魚網頁黑名單[1]。

⑵ 基于規則的啟發式檢測技術

利用釣魚網站的特征自動判斷網站真偽,如SpoofGuard分析釣魚網站啟發式特征,包括主機域名、網頁圖片、頁面鏈接等判斷真假;Zhang等人提出通過對網頁文本內容的特征定義網站身份,然后利用搜索引擎的結果來判斷網站真偽;Fu等人提出的EMS算法是通過計算兩個網頁的視覺相似性來判斷是否為釣魚網頁[2]。

⑶ 基于統計機器學習的模式分類技術

該類技術是將釣魚攻擊檢測視為一個二元分類問題,即如何判定未知網頁為正常網頁或釣魚網頁。一般采用統計學習的方法建立分類模型,如Likarish等人借鑒垃圾郵件的檢測方法,建立釣魚特征貝葉斯過濾器;Ma等人通過對 URL黑白名單的字符串特征的統計學習,形成基于URL的分類器[3]。

以上三類方法各有利弊。黑名單檢測結果準確可靠,但實時性差,并浪費大量人工資源;啟發式檢測方法可實時檢測釣魚網站,若檢測規則加入人工干預后準確性極高,但魯棒性稍差;基于機器學習的模式分類技術有很好的魯棒性,檢出率也較高,但是準確性不如啟發式檢測,且需要大量釣魚樣本訓練分類器。本文提出一種基于URL的貝葉斯二值分類方法,首先利用編輯距離尋找與已知域名相近的域名,提取域名單詞最大匹配特征、域名分割特征和URL分割特征,然后用上述特征訓練貝葉斯分類器,根據給定特征屬于哪一類的概率判斷是否為釣魚URL。

1 基于URL的釣魚檢測方法

基于URL的釣魚檢測主要分為兩種:一是根據URL檢索與之相似的域名,以發現潛在釣魚網站;二是用機器學習的方法判斷URL是否為釣魚URL。

1.1 基于域名分割的相似度判斷

許多釣魚網站采用混淆域名的方法蒙蔽用戶,如中國工商銀行(www.icbc.com.cn)的一個釣魚網站就是www.1cbc.com.cn。通過分析二者的相似度可判斷是否為釣魚網站。首先利用“.”對網站域名分割域名,如對www.icbc.com.cn分割為:“www”、“icbc”、“com”、“cn”;然后對各部分相似度匹配,匹配原則為判斷域名長度是否一致,并將各部分的相似度相加,結果若與分割后的部分越接近說明相似度越高。這種方法會造成一個域名可能產生大量相似域名,因而只能作為初步判斷之用[4]。

1.2 基于字符串編輯距離的相似度判斷

編輯距離表示一個字符串經過多少次增加、刪除及修改轉化為另一字符串,編輯距離越小,字符串越相似。如果2個字符串為空,則編輯距離為0;如果2個字符串中一個是空,則ed(ε,s)=|s|;其余情況用式⑴計算:

1.3 域名單詞最大匹配得到的單詞特征

一般地,釣魚網站的域名包含英文單詞,本方法是與中文切詞的最大匹配方法類似,其算法流程如圖1所示。其中,域名分割單元是指用“.”把一個域名分割的部分。

2 基于貝葉斯分類器的釣魚檢測方法

本文用貝葉斯分類器檢測釣魚URL。貝葉斯分類器的理論基礎是貝葉斯理論,它根據給定樣本屬于某個類的概率進行分類[6]。假設在給定類別的情況下,數據x服從一定的概率分布,如果類型為正,則x出現的概率為P(x|class=+1)。因此,后驗概率Pr(class=+1|x)可用下式計算:

其中,xj是向量x的第j個元素。

根據一個類別在訓練數據中出現的頻率計算先驗概率P(x|class=+1)和Pr(class=-1),對于x,P(x)是一個常數,樸素貝葉斯算法僅給出類型元素分布的估計,用以下兩種方式估計該分布。

⑴ 正規密度。給定一個類別,假定元素值趨于正態分布。對每個xj,P(xj|class=+1)和P(xj|class=-1)為帶均值和方差的正態分布,僅需估計均值和方差。由于已經訓練了樣本,可用訓練結果估計參數,用訓練數據的最大似然估計來獲得每個類型元素樣本的均值和方差。

⑵ 核密度。如果去除正態分布的假設,就可得到另一種估計P(xj|class=+1)和P(xj|class=-1)分布更強大的模型。

計算完P(xj|class=+1)和P(xj|class=-1)后,即可對x分類。如果Pr(class=+1|x)>Pr(class=-1|x),則x的類別為正,否則類別為負。

貝葉斯分類釣魚URL檢測流程如下:

具體步驟如下:

⑴ 獲取大量釣魚網站URL作為測試樣本;

⑵ 抽取URL特征;

⑶ 在抽取完特征值后生成訓練樣本,對貝葉斯分類器進行訓練;

⑷ 生成特征向量,用貝葉斯分類器作分類檢測,最終判斷是否為釣魚網站的URL地址。

3 實驗與結果分析

實驗所用數據中釣魚 URL數據來自安全聯盟和http://www.phishtank.com共計有19247個,而正常URL的個數是15145。通過編寫爬蟲程序,從網站下載網頁后把網頁解析為DOM樹,然后將網站中的URL信息提取出來。本文采用僅單詞匹配和單詞匹配與URL分割二者結合后,釣魚網站檢測的準確率對比圖如圖3所示,其中X坐標代表測試中URL數據所占百分數,Y坐標代表準確率,WM表示采用僅單詞匹配的實驗結果,WM+US表示單詞匹配與URL分割二者結合后的實驗結果。從圖3中可看出,采用WM+US的檢測準確率更高。

4 結束語

目前網絡釣魚檢測已是電子商務發展的需要,其科學意義和應用價值正受到世界各國學術界、工業界的普遍重視。本文介紹了當前釣魚檢測所涉及的相關技術,對基于編輯距離和單詞匹配的貝葉斯釣魚分類檢測技術進行了深入研究。該分類器根據編輯距離找出與給定域名的相似域名,從域名信息中提取域名單詞最大匹配特征、域名分割特征和URL分割特征訓練貝葉斯釣魚分類器,用來判定未知的URL是否為釣魚URL。實驗結果表明,該方法能有效提高判斷的準確性。

參考文獻:

[1] Cao Jiuxin, Dong Dan, Mao Bo, Wang Tianfeng,Phishing detection method based on URL features[J].Journal of Sourtheast University,2013.2(29):134-138

[2] Ma J, Saul L K, Savage S, et al. Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs[C]//Proc. of the 15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.Paris, France: [s. n.],2009:1245-1254

[3] Bilge L, Kirda E, Kruegel C, et al. EXPOSURE: Finding

Malicious Domains Using Passive DNS Analysis[C]//Proc. of the 18th Annual Network & Distributed System Security Symposium. California,USA: [s. n.],2011:1-17

[4] 鄭禮雄,李青山,李素科,袁春陽.基于域名信息的釣魚URL探測[J].計算機工程,2012.38(10):108-110

[5] 藺亞東.基于URL特征的釣魚網站檢測方式[J].電子測試,2014.3:70-72

[6] 鄒永斌,陳興蜀,王文賢.基于貝葉斯分類器的主題爬蟲研究[J].計算機應用研究,2009.26(9):3418-3421

主站蜘蛛池模板: 国产精品.com| 亚洲成人在线网| 蜜桃臀无码内射一区二区三区| 日韩无码一二三区| 人人妻人人澡人人爽欧美一区| 中文字幕乱妇无码AV在线| 天天操精品| 欧洲亚洲一区| 国产精品第页| 天天躁夜夜躁狠狠躁图片| 人妻无码中文字幕一区二区三区| 亚洲一级毛片在线播放| 美女毛片在线| 精品国产自在在线在线观看| 国产一区二区精品福利| 99re热精品视频国产免费| 91精品伊人久久大香线蕉| 色噜噜狠狠狠综合曰曰曰| 日本欧美在线观看| 亚洲精品va| 国产偷倩视频| 91在线精品麻豆欧美在线| 亚洲AV无码不卡无码| 亚洲色图另类| 亚洲视频在线网| 久久久久无码精品国产免费| 成人免费一级片| 九色国产在线| 亚洲成a∧人片在线观看无码| 国产美女叼嘿视频免费看| 亚洲人成网7777777国产| 亚洲综合精品香蕉久久网| 成·人免费午夜无码视频在线观看| 久久99国产综合精品1| 国产二级毛片| 夜夜操天天摸| 四虎永久在线| 无码 在线 在线| 国精品91人妻无码一区二区三区| 日本不卡在线视频| 色欲国产一区二区日韩欧美| 57pao国产成视频免费播放| 97se亚洲综合| 免费av一区二区三区在线| 在线播放国产一区| 免费视频在线2021入口| 国产精品区网红主播在线观看| 91在线无码精品秘九色APP| 国产91丝袜在线播放动漫| 中文字幕啪啪| 国产视频 第一页| 天天综合网色中文字幕| 色婷婷色丁香| 国产午夜福利亚洲第一| 亚洲精品无码av中文字幕| 狠狠v日韩v欧美v| 国产无码网站在线观看| 免费无码AV片在线观看国产| 欧美日韩一区二区在线免费观看 | 99在线观看精品视频| 亚洲制服中文字幕一区二区| 97超级碰碰碰碰精品| 伊人精品视频免费在线| 国产人成在线观看| a天堂视频| 午夜国产理论| 伊人久久大香线蕉影院| 亚洲伊人久久精品影院| 热久久综合这里只有精品电影| 五月婷婷中文字幕| 国产三级国产精品国产普男人| 欧美人人干| 米奇精品一区二区三区| 男女猛烈无遮挡午夜视频| 免费一级毛片| 精品無碼一區在線觀看 | a级免费视频| 免费三A级毛片视频| 玖玖精品在线| 免费看一级毛片波多结衣| 九九热精品免费视频| 日韩欧美国产三级|