賈雪鵬 容曉峰
摘 要 本文系統地描述了一種基于聯合特征的釣魚網頁檢測方法。提取了41項特征作為基礎特征,結合信息增益和遞歸特征刪除兩種方法的排序結果計算特征重要度。引入聯合特征率R(0 【關鍵詞】機器學習 釣魚網頁檢測 聯合特征 最優分類模型 1 簡介 釣魚網頁攻擊指騙者制作的一個模仿合法組織網站的網頁,將引誘用戶訪問這個網頁,并在網頁上呈現出請求用戶私密信息的輸入字段,如登錄個人網上銀行賬戶的詳細信息。網絡釣魚攻擊危害嚴重,在全球范圍內,存在至少255,065次獨立的網絡釣魚攻擊。同比2015年發現的230,280次攻擊增加了超過10%。因此網絡釣魚防護和預測愈發成為網絡安全領域乃至整個互聯網發展的研究重點。綜上所述,論文主要針對釣魚網頁檢測研究一種基于聯合特征的機器學習分類方法,探究特征種類和數量對機器學習分類模型的影響。 為了提取最具網頁表示性的特征,從三種來源進行提取: (1)URL鏈接特征。研究最多的是提取URL詞匯和主機特征; (2)網頁內容特征。網頁內容決定了網頁的性質,對于網頁內容的特征分為兩個部分:頁面結構特征和頁面文本特征。 (3)第三方服務信息特征。例如WHOIS信息和網頁排名。大多數啟發式方法基于機器學習分類算法對釣魚網頁進行檢測。其中包括邏輯回歸、SVM、樸素貝葉斯、決策樹、隨機森林、提升算法等。第2章將介紹數據集和特征的構建、分類算法的選擇。第3章將通過實驗確定最優分類算法,同時對比使用基礎特征和聯合特征對模型分類能力的影響作用。第4章總結論文的實驗成果。 2 特征工程 2.1 特征選擇 本章將對特征選擇和特征評估、數據集構建和分類模型進行詳細的介紹。論文選擇的URL鏈接特征主要包括:URL結構特征和文本特征。論文提出的URL結構特征包括: (1)URL、domain、path、query的總長度、最長token長度和token平均長度。 (2)URL中“.”,“/”,“@”,“-”和非字母的個數。 (3)URL中是否包含IP地址、敏感詞匯和目標組織。 (4)http 或https。 (5)URL各部分的n-gram。 (6)數字/字母比例。網頁內容特征包括:表單中的標簽的個數和是否包括圖標。第三方信息特征包括域名的注冊時間和基于Alexa排名的聯合得分。 2.2 聯合特征 引入聯合特征率R(0 3 實驗與結果 3.1 數據集 論文從PhishTank中提取釣魚網頁樣本, 從DMOZ中提取合法網頁樣本。將收集到的釣魚網頁和合法網頁數據拆分成訓練集(釣魚網頁15000;合法網頁20000)和測試集(釣魚網頁2000;合法網頁2000)兩部分。 3.2 最優分類模型 3.2.1 基于基礎特征的模型對比 邏輯回歸、隨機森林、Adaboost、神經網絡四種最優參數模型的ROC_AUC值,曲線覆蓋面積越大表明模型分類能力越強。各種模型對釣魚網頁的分類能力(F1值):隨機森林0.978> 神經網絡MLP 0.968> Adaboost 0.960> 邏輯回歸0.887。隨機森林和神經網絡MLP兩種非線性模型的表現明顯更加優秀;而屬于線性模型的邏輯回歸表現不佳。 3.2.2基于聯合特征的模型對比 測試上節中四種最優參數模型在不同聯合特征率R下的模型分類質量。表1為在選擇不同聯合特征率的情況下四種分類模型的F1值,其中橫坐標表示聯合特征率(0代表沒有做特征擴充),縱坐標表示模型的F1值。 由表1得四種分類模型能力(最大F1值): (1)邏輯回歸模型0.903,基本不變。 (2)隨機森林模型0.983,是四種分類模型中的最優模型,隨機森林分類能力隨著聯合特征率的增加有小規模提升。 (3)Adaboost模型0.961,基本不變。 (4)神經網絡MLP 0.980,隨特征數的增加其分類能力逐步提升,說明特征數量和特征質量對神經網絡分類模型影響較大。 4 結論 論文主要通過三個主要階段:特征選擇、特征聯合、確定最優分類模型,研究了基于聯合特征的釣魚網頁分類問題。主要成果: (1)根據已有研究成果選擇了41個具有代表性的基礎特征。 (2)使用特征交叉方法對基礎特征進行特征擴充,引入聯合特征率R,R越大,重組的特征越多。 (3)分別根據基礎特征和不同聯合特征對比四種最優參數模型,得出隨機森林分類能力最強,而神經網絡模型的分類能力隨特征數的增多而增強,模型潛力巨大。 作者單位 西安工業大學 陜西省西安市 710021