引言
網絡釣魚攻擊是當今信息安全領域中最常見的威脅之一。攻擊者通過偽造可信網站、電子郵件等方式,誘騙用戶泄露敏感信息,這不僅對個人隱私構成嚴重威脅,還可能造成企業數據泄露和金融損失。近年來,隨著技術的不斷進步,網絡釣魚攻擊的形式變得更加多樣化和隱蔽化,傳統的基于規則的檢測方法已難以應對新型攻擊
在此背景下,人工智能技術憑借其在海量數據處理、模式識別和異常檢測中的強大能力,為網絡釣魚攻擊檢測提供了新的解決思路。本文將圍繞人工智能技術在網絡釣魚攻擊檢測中的應用,以及如何通過基于深度學習的網絡釣魚檢攻擊測方法處理相關安全威脅開展研究。

1.網絡釣魚攻擊的現狀
當前,網絡釣魚攻擊正滲透到人們生產生活的方方面面。《基于報告分析的2024年全球網絡安全趨勢研究》顯示,在對21份全球權威報告進行綜合剖析后發現,網絡釣魚這一關鍵詞的出現比例高達17.28% (如圖1所示),凸顯了其在網絡安全領域的高發性。
隨著ChatGPT、DeepSeek等先進大語言模型的發展,以及移動設備、二維碼和深度偽造語音技術的普及,網絡釣魚誘餌的欺騙性與日俱增。通過生成高度逼真的文本、語音和圖像內容,釣魚郵件攻擊具備了強大的欺騙性。
2.網絡釣魚攻擊的特點與挑戰
2.1網絡釣魚攻擊的特點
2.1.1偽裝性強
釣魚網站與釣魚郵件在外觀設計上與合法的網站及郵件極為相似,常令用戶難以辨別真偽。例如,涉及中國香港郵政及銀行系統的“釣魚”詐騙案中,受害人均收到相關虛假電子郵件或手機短信,訛稱有包裹無法派遞要求支付郵費,或銀行賬戶有異樣,要求補充信用卡或網上銀行密碼等資料,乘機騙取金錢,近百人受騙,合計損失近300萬港元2]。
2.1.2多樣化的媒介
網絡釣魚攻擊廣泛借助各類通信平臺傳播。郵件是常見方式,攻擊者發送偽裝成官方通知、客服反饋或好友求助的郵件;短信也常被利用,以中獎信息、賬戶異常提醒等誘騙用戶;在社交媒體平臺上,虛假的促銷活動鏈接或好友推薦信息也可能隱藏釣魚陷阱;即時通信(IM)應用中,偽裝成群組消息或好友私聊的釣魚信息也常出現,全面滲透用戶的網絡社交空間3。
2.1.3攻擊規模廣
釣魚攻擊技術門檻和成本低,攻擊者借助自動化工具批量生成釣魚內容,并大量傳播。例如,Bleeping Computer網站披露了一項大規模網絡釣魚活動,針對這一事件,一家專注于人工智能的網絡安全公司PIXM對其展開研究,研究人員未經身份驗證,成功訪問了網絡釣魚活動統計頁面,經過對數據信息分析后發現,在2021年,有270萬用戶訪問了其中一個網絡釣魚門戶,這個數字在2022年上升到850萬,側面反映了釣魚活動在大規模增長
2.1.4快速變異
攻擊者為躲避檢測,動態生成釣魚頁面,變換域名、統一資源定位符(uniformresourcelocator,URL)結構、頁面內容和攻擊手法。例如,采用域名系統(domainnamesystem,DNS)解析快速切換域名指向,傳統黑名單難以追蹤;利用代碼混淆技術改變頁面腳本,給網絡安全防護帶來極大挑戰。
2.2網絡釣魚攻擊檢測的挑戰
2.2.1高誤報率
傳統檢測方法,如基于規則的過濾和簽名匹配,往往無法準確區分網絡釣魚攻擊的內容和正常內容,導致大量的誤報。
2.2.2數據多樣
網絡釣魚攻擊的形式和內容極具多樣性,包括使用不同的語言、內容、URL和偽裝手段等,難以制定統一且有效的檢測規則。
2.2.3實時性要求
網絡釣魚攻擊具有高度的時效性,一旦發現威脅,須迅速采取措施進行處置。
2.2.4對抗性攻擊
隨著網絡釣魚攻擊技術的不斷發展,攻擊者開始利用對抗樣本技術來繞過檢測系統,影響檢測系統的有效性。
3.人工智能技術的網絡釣魚攻擊檢測方法
3.1基于特征提取的機器學習方法
傳統機器學習在網絡釣魚攻擊檢測中依賴人工定義特征。例如,在URL特征上,會考量URL長度,通常的網絡釣魚攻擊URL較長且復雜,包含大量隨機字符或疑似惡意的參數;域名復雜度也是關鍵因素,如是否存在二級域名過多、域名與知名品牌相似但存在細微拼寫差異等情況。
在網頁內容特征上,會檢查是否有常見的網絡釣魚攻擊關鍵詞,如“立即登錄”“限時免費”“賬戶凍結需緊急處理”等具有誘導性和緊迫感的詞匯,以及是否存在可疑的外部鏈接。這些人工定義的特征構成訓練數據,輸入分類器中,常見的如支持向量機(support vector machine,SVM)、決策樹或隨機森林等。
3.2深度學習方法
深度學習是人工智能技術的重要分支,能夠從海量數據中提取高維特征,減少人工干預。在網絡釣魚攻擊檢測中,深度學習方法具有顯著的優勢。常用的模型包括卷積神經網絡(convolutionalneuralnetworks,CNN)、循環神經網絡(recurrentneuralnetwork,RNN)和基于自注意力機制的深度學習模型Transformer三種。其中,CNN用于提取郵件內容、URL或頁面截圖的視覺特征。通過卷積運算和池化操作,捕捉圖像中的局部特征,如顏色、紋理等,從而實現對釣魚頁面的有效識別。RNN用于處理時間序列數據,如URL字符流和郵件內容的語言模式。RNN通過循環連接的方式,捕捉數據中的時序依賴關系,從而對釣魚郵件進行準確分類。Transformer模型則能夠結合自然語言處理技術,理解郵件或頁面中的語義信息。該模型通過自注意力機制和位置編碼,插捉文本的全局依賴關系,實現對釣魚文本的深入理解。
3.3自然語言處理
自然語言處理(naturallanguageprocessing,NLP)技術在網絡釣魚攻擊檢測中發揮著關鍵作用,可深入分析文本的語義結構和語言特征。在關鍵詞分析方面,除了常見的“緊急”“賬號凍結”等詞匯外,還會關注如“安全驗證失敗”“系統升級需重新登錄”等關鍵詞組合。同時,檢測語法和拼寫錯誤也是重要環節。釣魚郵件因制作倉促或故意偽裝,可能存在較多語法錯誤、拼寫不規范或詞匯使用不當的情況。此外,NLP技術還能分析文本的情感傾向和語言風格,釣魚文本通常帶有較強的緊迫感或誘導性,通過與正常郵件的語言風格對比,可有效識別潛在的欺騙行為,為判斷郵件是否為釣魚內容提供有力依據。
3.4行為分析
行為分析結合用戶的歷史行為數據和正常操作習慣模型,利用機器學習算法建立異常行為檢測模型,如使用聚類分析將用戶行為劃分為不同的簇,當新的行為數據偏離正常簇時,即可判定為異常行為,發現并防范網絡釣魚攻擊。例如,正常瀏覽網頁時,對不同頁面的訪問時間通常呈現規律分布,在遭受網絡釣魚攻擊時,可能會在某個可疑頁面上停留過長時間或頻繁點擊來自未知來源的鏈接。對于攻擊者行為,重復訪問某一URL可能是其在測試釣魚頁面的有效性或準備發動大規模攻擊的前奏;點擊率異常高的鏈接往往是網絡釣魚攻擊的重要線索,表明該鏈接可能被大量用戶誤點擊或受到惡意推廣。
4.人工智能技術進行網絡釣魚檢測的流程
4.1數據收集與預處理
數據收集是構建有效網絡釣魚攻擊檢測系統的基礎。需要廣泛獲取相關的多源數據,包括釣魚網站的URL、網頁內容、源代碼、交互記錄以及相關的流量數據等。
收集到的數據通常存在噪聲和不完整性,需要進行清洗和預處理。清洗過程包括去除無關信息,這些信息可能干擾后續的特征提取和模型訓練。同時,對數據進行標準化處理,將文本數據轉換為統一的編碼格式,并進行歸一化操作,使不同特征的數據統一在同一量綱下,從而確保模型訓練的穩定性和準確性。
4.2特征提取
從收集到的網頁數據中提取出有助于判斷是否為釣魚網站的特征。這些特征可能包括:
(1)URL特征。如URL中是否包含可疑的域名、異常字符等。
(2)網頁內容特征。網頁的文本內容是否包含網絡釣魚攻擊常見的關鍵詞,如“立即登錄”“免費”“贈送”等,以及是否存在大量的外部鏈接。
(3)頁面布局特征。釣魚網站通常模仿真實網站的設計,但可能在布局上有所不同。機器學習模型可以通過分析頁面的CSS、HTML標簽等判斷是否為仿冒網站。
(4)交互行為特征。例如,釣魚網站可能通過彈窗、表單等方式誘導用戶輸入個人信息,這些行為可以被追蹤和分析。
4.3模型訓練
利用提取的特征,使用機器學習算法來訓練模型。這一過程通常需要有標注的訓練數據集,包括標明“釣魚”與“非釣魚”的數據。訓練的目標是讓模型能夠識別出釣魚網站的典型特征,從而在實際應用中進行有效的判斷8。
4.4模型評估與優化
在訓練完成后,需要通過測試集對模型進行評估。根據評估結果,可以進一步調整模型參數或選擇不同的算法來提高檢測性能[9]
4.5實時檢測
經過訓練和優化的模型可以集成到網絡安全防護工具中,進行實時檢測。當用戶訪問某個網站時,系統會根據該網站的特征與訓練模型進行比對,判斷該網站是否可能為釣魚網站。如果是釣魚網站,系統會及時警告用戶并阻止訪問。
4.6持續學習與更新
由于網絡釣魚攻擊的手法不斷演變,原有的釣魚網站特征可能不再適用。因此,基于人工智能的檢測系統需要定期更新訓練數據,重新訓練模型,確保檢測系統的有效性。
5.人工智能技術在網絡釣魚檢測中的實際應用
以PayPal為例,用戶所收到的電子郵件看似簡單,郵件以“Hallo”開頭,主要內容為:你的賬戶存在異常活動,需要你點擊郵件中的身份驗證鏈接,進行驗證。因此,郵件中包含一個鏈接,指向一個偽造的登錄頁面,網址為“www.paypal-security.com”。該域名中的“T”被替換為了數字“1”。如果用戶信以為真,點擊該鏈接后,進人幾乎與真實PayPal登錄頁面外觀一致的網頁,當用戶在這個假網站上輸入賬號密碼時,用戶的賬戶信息就落人了騙子的手中。
此時,人工智能技術在識別并檢驗釣魚網站方面發揮了巨大作用。首先,基于URL特征分析,人工智能技術會識別出該域名存在欺騙性拼寫(typosquatting),并且該網站的注冊信息顯示其歸屬于未知實體,而非PayPal官方。其次,通過網頁內容分析,人工智能技術發現該頁面包含諸如“您的賬戶存在安全風險,請立即驗證”之類的高危關鍵詞,同時,該頁面沒有安全套接層(secure sockets layer,SSL)證書或使用了低信譽的安全證書。再次,在頁面布局特征分析方面,人工智能技術通過超文本標記語言(hypertext mark language,HTML)和串聯樣式表(cascading stylesheets,CSS)代碼對比發現,該網站的頁面結構與PayPal官方頁面有所不同,如按鈕樣式、表單字段名稱等存在細微差異。此外,交互行為特征檢測顯示,該網站在用戶輸入登錄憑據后,立即嘗試重定向到一個非PayPal域名,并通過JavaScript代碼收集用戶輸入的信息,這種異常行為進一步加大了釣魚風險的可能性。最后,結合上述檢測方法,人工智能技術綜合判斷該網站為釣魚網站,并實時向用戶發出警告,阻止用戶提交任何敏感信息。人工智能技術的持續學習能力還允許其自動更新釣魚網站的特征數據庫,以應對不斷變化的攻擊手法。
結語
人工智能技術在網絡釣魚攻擊的檢測與防范領域展現出巨大潛力,通過深度學習和自然語言處理等技術的運用,不僅顯著提升了檢測的準確性和效率,還使檢測方法變得更智能、更精準、更全面。盡管目前人工智能技術在實施過程中還面臨諸多挑戰,但隨著技術的不斷進步與成熟,其在信息安全領域的應用前景將更加廣闊,未來有望為網絡安全提供更加全面、高效和智能的保障。
參考文獻:
[1]吳坤,陳蔓,鐘海濤.基于報告分析的2024年全球網絡安全趨勢研究[J].信息安全與通信保密,2024(7):1-11.
[2]界面新聞.“釣魚”郵件冒充郵政或銀行騙錢,香港警方:逾百人中招,已有9人被捕[EB/OL].(2021-03-10)[2025-03-05]https://news.sina.com.cn/c/2021-03-10/doc-ikknscsi0377634.shtml.
[3]巨騰飛,呂麗萍.高級網絡釣魚攻擊的研究與防范[J].網絡安全技術與應用,2023(12):22-23.
[4]安全圈.攻擊者利用Facebook進行網絡釣魚,獲取大量非法收益[EB/OL].(2022-06-10)[2025-03-05].https://www.163.com/dy/article/H9HC79JP0511A5GF.html.
[5]王輝,劉暢.機器學習在釣魚郵件識別中的應用分析[J].信息安全研究,2017,3(5):412-417.
[6]丁海杰.基于深度學習的文本關系分類與生成機制研究及系統構建[D].南京:南京郵電大學,2022.
[7]李陽,孫悅.融合自然語言處理與行為分析的網絡釣魚檢測系統[J].計算機科學,2020,47(11):143-148.
[8]陳浩.網絡釣魚攻擊的檢測和防御研究[D].南京:東南大學,2023.
[9]陳鵬,郭云飛,張建朋,等.一種面向未知攻擊檢測的深度神經網絡預處理方法[].信息工程大學學報,2021,22(2):200-207.
[10]德國吃喝玩樂.警惕!德國PayPal新 騙局:收到“Hallo”郵件要小心![EB/OL]. (2024-11-18)[2025-03-05].https://baijiahao. baidu.com/s?id
1816053240926655344amp;wfr= spideramp;for=pc.
作者簡介:康樂,碩士研究生,工程師,kangle@qianxin.com,研究方向:網絡安全體系與企業安全建設;尚杰,碩士研究生,研究方向:網絡安全體系與企業安全建設;通信作者:盛浩月,本科,shenghaoyueO1@qianxin.com,研究方向:網絡安全體系與企業安全建設。