999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聯合特征的釣魚網頁分類方法

2018-03-21 09:07:44賈雪鵬容曉峰
電子技術與軟件工程 2018年2期
關鍵詞:機器學習

賈雪鵬 容曉峰

摘 要 本文系統地描述了一種基于聯合特征的釣魚網頁檢測方法。提取了41項特征作為基礎特征,結合信息增益和遞歸特征刪除兩種方法的排序結果計算特征重要度。引入聯合特征率R(0

【關鍵詞】機器學習 釣魚網頁檢測 聯合特征 最優分類模型

1 簡介

釣魚網頁攻擊指騙者制作的一個模仿合法組織網站的網頁,將引誘用戶訪問這個網頁,并在網頁上呈現出請求用戶私密信息的輸入字段,如登錄個人網上銀行賬戶的詳細信息。網絡釣魚攻擊危害嚴重,在全球范圍內,存在至少255,065次獨立的網絡釣魚攻擊。同比2015年發現的230,280次攻擊增加了超過10%。因此網絡釣魚防護和預測愈發成為網絡安全領域乃至整個互聯網發展的研究重點。綜上所述,論文主要針對釣魚網頁檢測研究一種基于聯合特征的機器學習分類方法,探究特征種類和數量對機器學習分類模型的影響。

為了提取最具網頁表示性的特征,從三種來源進行提取:

(1)URL鏈接特征。研究最多的是提取URL詞匯和主機特征;

(2)網頁內容特征。網頁內容決定了網頁的性質,對于網頁內容的特征分為兩個部分:頁面結構特征和頁面文本特征。

(3)第三方服務信息特征。例如WHOIS信息和網頁排名。大多數啟發式方法基于機器學習分類算法對釣魚網頁進行檢測。其中包括邏輯回歸、SVM、樸素貝葉斯、決策樹、隨機森林、提升算法等。第2章將介紹數據集和特征的構建、分類算法的選擇。第3章將通過實驗確定最優分類算法,同時對比使用基礎特征和聯合特征對模型分類能力的影響作用。第4章總結論文的實驗成果。

2 特征工程

2.1 特征選擇

本章將對特征選擇和特征評估、數據集構建和分類模型進行詳細的介紹。論文選擇的URL鏈接特征主要包括:URL結構特征和文本特征。論文提出的URL結構特征包括:

(1)URL、domain、path、query的總長度、最長token長度和token平均長度。

(2)URL中“.”,“/”,“@”,“-”和非字母的個數。

(3)URL中是否包含IP地址、敏感詞匯和目標組織。

(4)http 或https。

(5)URL各部分的n-gram。

(6)數字/字母比例。網頁內容特征包括:表單中的標簽的個數和是否包括圖標。第三方信息特征包括域名的注冊時間和基于Alexa排名的聯合得分。

2.2 聯合特征

引入聯合特征率R(0

3 實驗與結果

3.1 數據集

論文從PhishTank中提取釣魚網頁樣本, 從DMOZ中提取合法網頁樣本。將收集到的釣魚網頁和合法網頁數據拆分成訓練集(釣魚網頁15000;合法網頁20000)和測試集(釣魚網頁2000;合法網頁2000)兩部分。

3.2 最優分類模型

3.2.1 基于基礎特征的模型對比

邏輯回歸、隨機森林、Adaboost、神經網絡四種最優參數模型的ROC_AUC值,曲線覆蓋面積越大表明模型分類能力越強。各種模型對釣魚網頁的分類能力(F1值):隨機森林0.978> 神經網絡MLP 0.968> Adaboost 0.960> 邏輯回歸0.887。隨機森林和神經網絡MLP兩種非線性模型的表現明顯更加優秀;而屬于線性模型的邏輯回歸表現不佳。

3.2.2基于聯合特征的模型對比

測試上節中四種最優參數模型在不同聯合特征率R下的模型分類質量。表1為在選擇不同聯合特征率的情況下四種分類模型的F1值,其中橫坐標表示聯合特征率(0代表沒有做特征擴充),縱坐標表示模型的F1值。

由表1得四種分類模型能力(最大F1值):

(1)邏輯回歸模型0.903,基本不變。

(2)隨機森林模型0.983,是四種分類模型中的最優模型,隨機森林分類能力隨著聯合特征率的增加有小規模提升。

(3)Adaboost模型0.961,基本不變。

(4)神經網絡MLP 0.980,隨特征數的增加其分類能力逐步提升,說明特征數量和特征質量對神經網絡分類模型影響較大。

4 結論

論文主要通過三個主要階段:特征選擇、特征聯合、確定最優分類模型,研究了基于聯合特征的釣魚網頁分類問題。主要成果:

(1)根據已有研究成果選擇了41個具有代表性的基礎特征。

(2)使用特征交叉方法對基礎特征進行特征擴充,引入聯合特征率R,R越大,重組的特征越多。

(3)分別根據基礎特征和不同聯合特征對比四種最優參數模型,得出隨機森林分類能力最強,而神經網絡模型的分類能力隨特征數的增多而增強,模型潛力巨大。

作者單位

西安工業大學 陜西省西安市 710021

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产成人精品视频一区二区电影| 91精品最新国内在线播放| 久久综合伊人 六十路| 亚洲乱码在线播放| 欧美日韩资源| 97成人在线视频| 996免费视频国产在线播放| 97青草最新免费精品视频| 日本一本在线视频| 午夜视频www| 免费毛片全部不收费的| AV无码无在线观看免费| 亚洲综合婷婷激情| 97国产在线视频| 欧美综合区自拍亚洲综合天堂| 日韩国产高清无码| a级毛片毛片免费观看久潮| 国产在线拍偷自揄观看视频网站| 精品视频在线一区| 精品免费在线视频| 在线看片国产| m男亚洲一区中文字幕| a级毛片免费网站| 在线观看欧美精品二区| 久久久亚洲色| 香蕉久久永久视频| 日韩久草视频| 国产精品免费p区| 韩日免费小视频| 国产高清在线精品一区二区三区| 亚洲无码熟妇人妻AV在线| av手机版在线播放| 美女一级毛片无遮挡内谢| 国产日韩精品欧美一区喷| 免费 国产 无码久久久| 久久福利片| 99爱视频精品免视看| 欧美国产精品不卡在线观看| 亚洲综合色婷婷| 国产美女一级毛片| 亚洲成av人无码综合在线观看| 青青久久91| 国产黄在线免费观看| 99热国产这里只有精品9九| 国产成人啪视频一区二区三区| 国产精品xxx| 老司机精品久久| 国产无码在线调教| 国产欧美又粗又猛又爽老| 成人无码一区二区三区视频在线观看| 91www在线观看| 亚洲a级在线观看| 综合色婷婷| 毛片免费视频| 亚洲一区第一页| 亚洲成人动漫在线| 国内精品小视频在线| 狠狠色丁香婷婷| 亚洲国产成人精品无码区性色| 精品视频第一页| 最新国产网站| 精品亚洲麻豆1区2区3区| 日本亚洲国产一区二区三区| 沈阳少妇高潮在线| 亚洲欧美激情另类| 中文字幕首页系列人妻| 欧美精品亚洲二区| 日本欧美视频在线观看| 国产尤物在线播放| 丁香六月激情综合| 亚洲人成电影在线播放| 最新国产精品鲁鲁免费视频| 国产精品大尺度尺度视频| 在线观看91精品国产剧情免费| 日韩精品专区免费无码aⅴ| 欧美精品一区二区三区中文字幕| 国产亚洲欧美另类一区二区| 玖玖免费视频在线观看| 国产91蝌蚪窝| 久久亚洲日本不卡一区二区| 国产乱人激情H在线观看| 国产va视频|