999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習與特征工程的惡意鏈接檢測研究

2023-04-10 01:29:06何智帆姜和芳劉濤姚興博
科技風 2023年9期
關鍵詞:機器學習

何智帆 姜和芳 劉濤 姚興博

摘?要:隨著互聯網技術的飛速發展,人們對互聯網的需求日益增加,同時互聯網安全問題也逐漸引起人們的重視。其中,惡意URL(Malicious URLs)是網絡安全研究的重要內容,因此實現對惡意URL的有效偵測對網絡安全至關重要。本文介紹了惡意URL檢測的應用背景及實現步驟,根據其攻擊方式,歸納總結了兩種常用的攻擊方法,然后介紹了機器學習及特征工程在該領域中的應用情況,最后總結了現有方法不足之處,并對未來的研究方向做出了展望。

關鍵詞:互聯網安全;惡意URL檢測;機器學習;特征工程

Abstract:With the rapid development of Internet technology,people's demand for the Internet is increasing day by day,and at the same time,the Internet security problem has gradually attracted people's attention.Among them,malicious URL (Malicious URLs) is an important part of network security research,so it is very important to realize the effective detection of malicious URL for network security.This paper introduces the application background and implementation steps of malicious URL detection,and summarizes two common attack methods.Then this paper introduces the application of machine learning and feature engineering in this field,finally summarizes the shortcomings of the existing methods,and discusses the future research direction.

Keywords:Internet security;Malicious URL detection;Machine learning;Characteristic Engineering

1 概述

隨著互聯網以及移動互聯網的發展,越來越多的Web應用出現在應用市場上,人們利用鏈接便利地訪問網上資源。但與此同時,不法分子會尋找其中的漏洞進行違法行為,惡意URL(Malicious URLs)便是其中之一。惡意鏈接檢測任務[1-2]通常是對陌生的網絡鏈接進行檢測并判斷其是否屬于惡意鏈接。URL作為訪問網絡資源的入口,常常會被不法分子們通過某些手段所利用,如惡意URL中涉及惡意程序以及腳本等,惡意程序會在用戶的計算機上下載腳本或者執行命令,這極大地侵害了用戶計算機安全。除了在個人領域遭到威脅之外,近些年互聯網公司中也相繼發生各種安全威脅,惡意網站是網絡安全中重要的威脅,它是病毒、蠕蟲和其他惡意代碼在線傳播重要工具。惡意URL可以通過電子郵件鏈接、瀏覽器彈出窗口、文本消息、頁面廣告等進行形式傳遞,指向不可靠網站的鏈接,或者嵌入了非法下載內容。在當今的網絡安全態勢下,如何應對網絡攻擊與保障信息安全,必須納入網絡安全人員的考慮之中。這對人們日常生活、企業的經營發展以及政府的機密信息安防都有著重要的影響。

想要對惡意URL實現有效的檢測,首先需要了解其常見的攻擊形式,本部分整理了兩種常見的惡意URL攻擊形式,包括XSS攻擊和SQL注入。

1.1 XSS攻擊

XSS攻擊(Cross Site Scripting)[5]是另一種廣為人知的Web攻擊方式。XSS攻擊類型有三種,分為反射型XSS、存儲型XSS以及DOM型XSS,其中反射型XSS與存儲型XSS一般通過構造URL請求或者在服務器植入惡意腳本實現網絡攻擊,用戶訪問服務器時就會接收到惡意腳本。DOM型XSS攻擊其實是流量劫持,通過提供一個網關截取用戶信息,實現腳本攻擊。

1.2 SQL注入

SQL注入[5-7]通過修改SQL語句侵害數據庫信息。一般來說,互聯網企業會將用戶信息和自身提供的資源存放在服務器中。在B/S(Browser/Server)開發模式下出現的Web應用中,用戶獲取資源只需在瀏覽器端使用簡單點擊或填寫操作,就可以獲取服務器資源,而底層的實現原理就是利用SQL語句操作數據庫。

2 惡意URL檢測方法

URL是互聯網上資源的一種定位標志[8],一個完整URL的一般形式為:

[協議]://[主機號]:[端口號]/[文件路徑]?[查詢]

下表以一條URL為例,具體介紹其組成形式。

根據上表可以清晰地了解一般URL的組成成分,這是因為人腦可以對其進行分詞,并對各個部分的含義進行猜測,如上述鏈接中的“webclub”我們會理解為“網頁部門”。但是URL在機器中就是一串連續的字符串,機器也無法像人類一樣對其含義進行猜測。因此我們要在機器學習的過程中完成以下兩部分:URL分詞與其向量表示。

傳統的惡意URL檢測方法比如黑名單技術[9]、規則技術[10],它們的檢測能力已經呈現下降趨勢,難以應對新型的網絡攻擊手段。近年來,隨著人工智能研究的逐漸火熱,機器學習技術在眾多領域也能大放異彩,這為網絡安全的鞏固帶來了新的思考,研究者們也提出了許多相應的解決策略,其中基于機器學習[11]以及特征工程[12]的惡意URL檢測是一大研究方向,也是一項基礎而重要的技術。

2.1 基于機器學習的惡意URL檢測方法

基于機器學習的惡意URL檢測實現過程如下:

(1)獲取具有正常請求和惡意請求的數據集。

(2)對數據集進行預處理,包括劃分訓練集、測試集等。

(3)對原始數據集進行特征抽取,并轉化為向量形式,以輸入模型。

(4)選擇合適的機器學習的算法,使用特征矩陣訓練檢測模型。

(5)根據測試集計算模型的準確度,判斷是否需要繼續優化。

(6)將訓練完的模型導出并應用,輸入一條URL,判斷其是否為惡意URL。

以上步驟總結為流程圖如圖1所示:

2.2 基于特征工程的研究方法

在機器學習模型訓練的過程中,獲取優質的特征信息至關重要,特征工程模塊是使用專業背景知識和技巧處理數據,使得特征能在機器學習算法上發揮更好的作用的過程,特征工程的好壞會直接影響機器學習的效果。在惡意URL檢測中,該模塊的任務是將原始URL數據進行特征提取,并轉化成機器學習算法或模型能夠讀取的數據,即向量。一般的技術路線如圖2所示,其中特征抽取常用的方法包括字典特征提取(sparse矩陣、one-hot編碼等)、文本特征提取(CountVectorizer、TfidfVectorizer等),特征預處理主要是做無量綱化處理,包括歸一化、標準化,特征降維主要包括特征選擇(刪除低方差特征、相關系數)和主成分分析PCA等。

在此我們主要將現有的基于特征工程的方法分為三類:

2.2.1 基于URL分詞

在深度學習的自然語言處理(Natural Language Processing,NLP)領域,學者們根據分詞任務的不同,將現有工具分為三類。其一,在中文領域常見的工具有jieba、THULAC、pynlpi和snowNLP等;其二,在英文領域常見的工具有NLTK,Spacy等。其三,觀察URL不難發現URL中常出現一些特殊符號,因此可選用特殊符號作為分隔符來進行分詞,即調用re包。

2.2.2 基于文本的URL特征提取

周磊等[2]在研究時,建立了一個檢測模型,并設計了兩種URL數據形式:僅依靠URL文字特征和聯合URL文字特征與遠程主機信息,在實驗結論中,僅依靠URL文字特征就能達到97%的準確率,同時減少了訪問遠程主機的開銷,在計算和內存需求方面都很輕便。

2.2.3 基于特殊字符的特征提取

在Warner G和Solorio T[8,13]研究中,使用URL文本的特殊符號作為分詞標準,利用剩下的單詞構建語料庫詞典,然而這種分詞技術忽略了文本中特殊字符本身的重要意義。此外,惡意URL中出現特殊符號的數量和種類較多,頻率也比較高,所以這會成為URL分類的一個重要特征。

結語

本文主要分為兩部分對惡意URL檢測方法進行研究,分別是基于機器學習以及基于特征工程的方法。總體來看,現有的方法已經能解決絕大多數問題,但是仍然存在以下不足之處:

(1)目前絕大多數檢測方法仍基于原始字符串以及惡意網站的鏈接,缺乏對網頁內容的直接判斷。如果可以把網頁內容同樣作為判斷依據,則可大大提升對惡意網站的屏蔽效果。

(2)目前的分類指標較為單一,除了將某一鏈接定義為惡意鏈接之外,還可以對其所屬類型進行進一步分類,例如屬于仿冒網站或是黑客入侵等。

參考文獻:

[1]李澤宇,施勇,薛質.基于機器學習的惡意URL識別[J].通信技術,2020,53(02):427-431.

[2]周磊.基于深度學習的惡意URL檢測方法[D].長江大學,2021.

[3]賈雪鵬.釣魚網頁聯合特征與智能檢測算法研究與實現[D].西安工業大學,2018.

[4]鄒聯揚.基于深度學習的釣魚網頁檢測方法研究[D].西安科技大學,2020.

[5]羅超超.基于深度學習的SQL注入和XSS攻擊檢測技術研究[D].中國工程物理研究院,2020.

[6]張登峰.基于機器學習的SQL注入檢測[D].重慶郵電大學,2017.

[7]陳君新.基于機器學習的XSS攻擊檢測技術研究[D].浙江工業大學,2018.

[8]M.X,L.H,X.L.A Refined TF-IDF Algorithm Based on Channel Distribution Information for Web News Feature Extraction[C].In:2010 Second International Workshop on Education Technology and Computer Science,2010:15-19.

[9]Khan F,Ahamed J,Kadry S,et al.Detecting malicious URLs using binary classification through adaboost algorithm[J].International Journal of Electrical and Computer Engineering(IJECE),2020,10(1):997-1005.

[10]M.S K,B.I.Frequent rule reduction for phishing URL classification using fuzzy deep neural network model[J].Iran Journal of Computer Science,2021,2(4):85-93.

[11]Kumi S,Lim C,Lee S.Malicious URL Detection Based on Associative Classification[J].Entropy,2021,23(2):1-12.

[12]N.S G,Anjali M.Feature Engineering Framework to detect Phishing Websites using URL Analysis[J].International Journal of Advanced Computer Science and Applications(IJACSA),2021,12(7).

[13]X.P,J.C,Y.X,et al.Which Feature is Better? TF*IDF Feature or Topic Feature in Text Clustering[C].In:2012 Fourth International Conference on Multimedia Information Networking and Security,2012:425-428.

作者簡介:何智帆(1980—?),男,漢族,廣東興寧人,學士,會計師,研究方向:電力計量管理;姜和芳(1994—?),女,漢族,山東煙臺,學士,助理工程師,研究方向:電能量數據管理;劉濤(1980—?),男,漢族,湖北石首,博士,高級工程師,研究方向:電力計量自動化。

*通訊作者:姚興博(2004—?),男,漢族,江蘇徐州人,本科,研究方向:智能數據處理與信息安全。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 亚洲精品第一在线观看视频| 精品国产aⅴ一区二区三区| 亚洲人免费视频| 久久精品人人做人人| 国产精品久久自在自线观看| 亚洲人成网站在线播放2019| 国产精女同一区二区三区久| 萌白酱国产一区二区| 日韩黄色在线| 国产午夜人做人免费视频中文| 国产自在线拍| 亚洲精品色AV无码看| 99久久精品无码专区免费| 免费无码网站| 人妻无码AⅤ中文字| 亚洲无码一区在线观看| 欧美黄网在线| 丁香亚洲综合五月天婷婷| 国产91线观看| 久久黄色小视频| 久久精品无码一区二区国产区| 91精品网站| 全午夜免费一级毛片| 亚洲爱婷婷色69堂| 久久国产V一级毛多内射| 国产精品国产三级国产专业不 | 亚洲欧洲综合| 欧美无专区| 亚洲欧洲日韩国产综合在线二区| 四虎永久在线视频| 成人免费网站久久久| 亚洲天堂在线视频| 亚洲天堂2014| 国产高清国内精品福利| 91国内外精品自在线播放| 免费国产小视频在线观看 | 亚洲免费三区| 久久国产成人精品国产成人亚洲 | 亚洲高清日韩heyzo| 91精品国产无线乱码在线| 国产一区二区三区夜色| 婷婷亚洲最大| 久久亚洲精少妇毛片午夜无码| 永久成人无码激情视频免费| 精品无码国产一区二区三区AV| 亚洲 欧美 日韩综合一区| 亚洲国产综合精品一区| 少妇精品在线| 99精品在线视频观看| 国产精品任我爽爆在线播放6080| 毛片基地视频| 国产精品人莉莉成在线播放| 亚洲午夜综合网| 国产精品香蕉在线| 欧美成一级| 在线免费观看AV| 国产波多野结衣中文在线播放| 国产99免费视频| 国产精品九九视频| 中文精品久久久久国产网址| 欧美日韩成人| a毛片免费观看| 国产一区二区三区免费| 污污网站在线观看| 日韩亚洲综合在线| 综合网天天| 亚洲综合片| 无码精油按摩潮喷在线播放| 国产粉嫩粉嫩的18在线播放91| 国产精品污视频| 伊人久久婷婷五月综合97色| 波多野结衣久久高清免费| 狠狠色婷婷丁香综合久久韩国| a毛片在线| 国产青榴视频| 中文字幕伦视频| 欧美黑人欧美精品刺激| 无码专区国产精品第一页| 韩日午夜在线资源一区二区| 久久视精品| 亚洲欧州色色免费AV| 精品中文字幕一区在线|