999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯的釣魚網(wǎng)站檢測研究

2019-05-07 02:03:56張雙全
關(guān)鍵詞:檢測模型

黃 炎,張雙全

釣魚網(wǎng)站常常通過電子郵件,仿造和偽造正常網(wǎng)址來對(duì)用戶進(jìn)行欺詐.釣魚網(wǎng)站通常偽造用戶心中可信度較高的品牌網(wǎng)站,在欺詐過程中竊取用戶的個(gè)人信息、銀行卡賬戶及密碼等,釣魚網(wǎng)站的出現(xiàn)不僅對(duì)用戶的利益造成了損失,也對(duì)網(wǎng)絡(luò)金融和電子商務(wù)等領(lǐng)域發(fā)展造成了極大影響[1].

目前主要的釣魚網(wǎng)站檢測途徑有兩種,一種是“黑白名單”檢測,就是通過對(duì)待測URL與釣魚網(wǎng)站庫進(jìn)行對(duì)比,如果釣魚網(wǎng)站庫存在與待測URL相同的網(wǎng)址,則將該待測URL判定為釣魚網(wǎng)站,這種方法的時(shí)效性極差,釣魚網(wǎng)站的更新速度極快,且制作成本極低,“黑白名單”檢測顯然不適合現(xiàn)在的網(wǎng)絡(luò)環(huán)境,另一種就是基于啟發(fā)式的檢測方法,通過對(duì)URL進(jìn)行特征分解,并建立合適的檢測模型,通過模型的判定函數(shù)來檢測待測URL是否為釣魚網(wǎng)站[2].

2008年,Daisuke Miyamoto等采用9種機(jī)器學(xué)習(xí)方法對(duì)釣魚網(wǎng)站進(jìn)行分類研究,結(jié)果表明AdaBoost分類器在釣魚網(wǎng)站檢測中的效果最好,最小錯(cuò)誤率為14.15%.2015年,何禹德等利用決策樹和隨機(jī)森林方法構(gòu)建釣魚網(wǎng)站檢測模型,實(shí)驗(yàn)結(jié)果顯示隨機(jī)森林的準(zhǔn)確率達(dá)到96.5269%[3].本文不僅選取檢測準(zhǔn)確率和均方根誤差等常見指標(biāo)來對(duì)模型進(jìn)行評(píng)估,而且為了檢測模型的泛化能力引入了roc曲線,roc曲線是用來評(píng)估分類器泛化性能的工具之一,所謂泛化能力,是指通過訓(xùn)練樣本得到的分類模型能否很好的適用于測試樣本[4]

1 模型介紹

機(jī)器學(xué)習(xí)作為人工智能的一大分支,隨著大數(shù)據(jù)研究的興起,機(jī)器學(xué)習(xí)成為了人工智能的核心領(lǐng)域.機(jī)器學(xué)習(xí)是指通過算法使機(jī)器能夠從大量的歷史數(shù)據(jù)中學(xué)習(xí)到數(shù)據(jù)本身潛在的規(guī)律特征,并能夠建立適當(dāng)?shù)哪P停梢杂脕韺?duì)未來數(shù)據(jù)進(jìn)行預(yù)測分析[5].機(jī)器學(xué)習(xí)的這一特點(diǎn),使得它比“黑白名單”法更適用于釣魚網(wǎng)站的檢測研究.

1.1 KNN模型

K鄰近算法(K-Nearest Neighbor algorithm,KNN)是機(jī)器學(xué)習(xí)經(jīng)典算法之一,Cover和Hart在1968年首次提出,具有精度高和對(duì)離群點(diǎn)不敏感的優(yōu)點(diǎn).KNN算法的主要思想是通過給定測試樣本,尋找與待測樣本距離最近的K個(gè)訓(xùn)練樣本,并根據(jù)這K個(gè)訓(xùn)練樣本的類別,采取“投票法”來決定待測樣本的類別[6].KNN算法中常用的距離計(jì)算公式一般有三種,分別是曼哈頓距離、歐式距離和閔可夫斯基距離,本文采用的距離計(jì)算公式是歐氏距離,假定在n維實(shí)數(shù)空間中,有樣本X個(gè)則樣本之間距離為其中,t為屬性個(gè)數(shù)t=1,2,…,n,本文選取的最近鄰樣本的個(gè)數(shù)K為3.

1.2 樸素貝葉斯模型

樸素貝葉斯算法(Naive Bayes algorithm,NB)自20世紀(jì)50年代以來得到了廣泛的研究,NB算法與KNN算法一樣都是基于樣本集來構(gòu)造判別模型的,NB算法的基本思想是假設(shè)樣本集中屬性與屬性之間是獨(dú)立同分布的[7].根據(jù)先驗(yàn)概率與待測樣本屬于各個(gè)類別的條件概率來求得后驗(yàn)概率,選取后驗(yàn)概率最高的類別進(jìn)行決策.給定n維樣本空間X,x∈X,由貝葉斯定理我們可以得到:

其中,n為數(shù)據(jù)集中屬性個(gè)數(shù),xi表示樣本x所對(duì)應(yīng)第i個(gè)屬性上的取值,N為所有可能出現(xiàn)的類別D={c1,c2,…,cN},P(c)表示先驗(yàn)概率,P(xi|c)表示訓(xùn)練樣本中不同類別與各個(gè)屬性組合所出現(xiàn)的概率.對(duì)于給定樣本x,P(x)與類別標(biāo)記無關(guān),計(jì)算類別標(biāo)記c的所有可能取值,選擇輸出概率最大的結(jié)果,上述公式可以改寫成如下式子

令M表示訓(xùn)練集,Mc表示第c類樣本組成的集合,則P(c)的表達(dá)式可以寫為P(c)=由于本文采用的數(shù)據(jù)是離散型的,Mc,xi表示Mc中第i個(gè)屬性取值為xi樣本組成的集合,則條件概率P(xi|c)的表達(dá)式可以寫為

2 釣魚網(wǎng)站數(shù)據(jù)說明

2.1 數(shù)據(jù)來源

本文采用的數(shù)據(jù)來自于UCI中的Phishing Websites數(shù)據(jù)集,該數(shù)據(jù)集由哈德斯菲爾德大學(xué)提供,共有11055個(gè)網(wǎng)站信息,屬性個(gè)數(shù)為30個(gè),其中正常網(wǎng)站6157個(gè),釣魚網(wǎng)站4898個(gè).

2.2 主要數(shù)據(jù)屬性說明及規(guī)約

釣魚網(wǎng)站通常與正常網(wǎng)站的網(wǎng)頁內(nèi)容極其相似,但是網(wǎng)站地址中往往存在著釣魚網(wǎng)站中的某些特征,例如:

(1)是否存在外部鏈接指向該網(wǎng)站:正常網(wǎng)站通常有2個(gè)以上的外部鏈接.

(2)網(wǎng)站是否能在Google索引中找到:釣魚網(wǎng)站往往只能在短時(shí)間內(nèi)訪問,因此釣魚網(wǎng)站可能不在Google索引中.

(3)URL地址是否過長:釣魚網(wǎng)站制造者通常使用長URL來隱藏地址欄中的可疑部分.

(4)網(wǎng)站的重定向次數(shù):正常網(wǎng)站的重定向次數(shù)最多為1次,而釣魚網(wǎng)站的重定向次數(shù)往往多于一次.

(5)URL地址中是否存在“@”“//”“-”等符號(hào):正常網(wǎng)站的URL中很少出現(xiàn)這些符號(hào).

數(shù)據(jù)集中的主要屬性說明及規(guī)約方式如表1所示.

從表1可以看出,即使釣魚網(wǎng)站和正常網(wǎng)站的網(wǎng)頁內(nèi)容相似,但釣魚網(wǎng)站的URL地址與正常網(wǎng)站的地址是有很大區(qū)別的,我們可以利用URL地址的某些特征來建模,來對(duì)待測網(wǎng)站進(jìn)行檢測.

表1 主要屬性說明及規(guī)約方式

3 實(shí)驗(yàn)結(jié)果分析

本文選取90%的數(shù)據(jù)樣本作為訓(xùn)練樣本,10%的數(shù)據(jù)樣本作為測試樣本,分別使用NB模型和KNN模型進(jìn)行訓(xùn)練和測試,兩種模型的測試結(jié)果如表2所示.

表2 兩種模型的測試結(jié)果

均方根誤差可以用來衡量數(shù)據(jù)樣本待測值與真值之間的偏差,檢測模型對(duì)于異常數(shù)據(jù)樣本的敏感度,從表2可以看出,NB模型的均方根誤差小于KNN模型,NB模型對(duì)于異常數(shù)據(jù)樣本的敏感度要弱于KNN模型.NB模型的準(zhǔn)確率97.19%也高于KNN模型的92.94%.雖然NB模型和KNN模型在釣魚網(wǎng)站的檢測準(zhǔn)確率都高于90%,都可以應(yīng)用于釣魚網(wǎng)站檢測應(yīng)用中,但NB模型對(duì)于異常數(shù)據(jù)樣本的敏感度要弱于KNN模型,NB模型的準(zhǔn)確率也高于KNN模型,NB模型和KNN模型的roc曲線如圖1所示.

圖1 KNN和NB模型的roc曲線

在機(jī)器學(xué)習(xí)中通常使用roc曲線來描述模型的泛化性能,所謂泛化性能是指該模型能否適用具有同一規(guī)律的新數(shù)據(jù),曲線與橫軸圍成面積越大說明該模型的泛化性能越優(yōu).從圖1可以看出,KNN模型和NB模型的roc曲線與橫軸所圍成的面積都接近于1,都符合優(yōu)秀分類器的標(biāo)準(zhǔn),但KNN模型的roc曲線被NB模型roc曲線包裹,這也說明了NB模型的泛化能力要優(yōu)于KNN模型,更適合對(duì)未來釣魚網(wǎng)站數(shù)據(jù)進(jìn)行檢測.

4 結(jié)論

現(xiàn)今,網(wǎng)絡(luò)的發(fā)展速度日益加快,釣魚網(wǎng)站的存在影響著金融網(wǎng)絡(luò)的發(fā)展,對(duì)人們的財(cái)產(chǎn)安全造成了極大的威脅,釣魚網(wǎng)站更新速度快、制作成本極低,每年都有許多人被釣魚網(wǎng)站竊取個(gè)人信息或個(gè)人賬戶密碼,“黑白名單”的檢測方法已經(jīng)不適合現(xiàn)在的網(wǎng)絡(luò)環(huán)境,我們需要時(shí)效性和準(zhǔn)確性更優(yōu)的檢測方法,本文選取的KNN和NB模型來對(duì)釣魚網(wǎng)站進(jìn)行檢測研究,結(jié)果表明NB模型在釣魚網(wǎng)站檢測研究中具有更高的準(zhǔn)確性和泛化能力.

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應(yīng)用
主站蜘蛛池模板: 欧美成人午夜在线全部免费| 高清码无在线看| 91在线中文| 久久国产亚洲欧美日韩精品| 中文毛片无遮挡播放免费| 欧美中文字幕一区| 国产一级妓女av网站| 日本一本在线视频| 精品久久综合1区2区3区激情| 精品视频免费在线| 国产无码在线调教| 尤物特级无码毛片免费| 狠狠躁天天躁夜夜躁婷婷| 亚洲一区二区成人| 九色综合视频网| 亚洲视频无码| 国产毛片不卡| 欧美亚洲一二三区| 国内精品九九久久久精品| 色爽网免费视频| 亚洲欧美成人在线视频| 午夜人性色福利无码视频在线观看| 亚洲啪啪网| 97超级碰碰碰碰精品| 久久特级毛片| 啪啪啪亚洲无码| 极品av一区二区| 国模极品一区二区三区| 日韩区欧美区| 日韩美一区二区| 黄色在线网| 毛片大全免费观看| 亚洲午夜国产片在线观看| 亚洲精品在线观看91| 日本人妻丰满熟妇区| 亚洲区欧美区| 久久综合国产乱子免费| 亚洲日本在线免费观看| 亚洲激情99| 久久亚洲日本不卡一区二区| 亚洲欧美一级一级a| 五月激激激综合网色播免费| 国产区福利小视频在线观看尤物| 国产超碰一区二区三区| 国产精品成人AⅤ在线一二三四| www.精品国产| 亚洲男人天堂网址| 国产人碰人摸人爱免费视频| 在线精品欧美日韩| 亚洲色图另类| 久久青草精品一区二区三区| 91黄视频在线观看| 亚洲成在人线av品善网好看| 亚洲欧美日韩久久精品| 在线播放真实国产乱子伦| 亚洲精品视频在线观看视频| 在线免费a视频| 欧美五月婷婷| 久久精品国产91久久综合麻豆自制| 欧美福利在线播放| 成人国产精品一级毛片天堂 | 色婷婷成人网| 久久国产香蕉| 在线播放精品一区二区啪视频 | 国产精品一线天| 国国产a国产片免费麻豆| 5555国产在线观看| 美女被操91视频| 欧美亚洲激情| 91青青视频| 99久久精品久久久久久婷婷| 91丝袜乱伦| 久久综合色播五月男人的天堂| 影音先锋丝袜制服| 午夜福利在线观看入口| 免费看美女自慰的网站| 国产一区二区三区精品久久呦| 高清亚洲欧美在线看| 欧美日韩亚洲国产主播第一区| 91精品视频播放| 露脸一二三区国语对白| 国产最爽的乱婬视频国语对白 |