王天棋,丁要軍
(甘肅政法大學,甘肅 蘭州 730070)
中國互聯網信息中心發布的第49次《中國互聯網發展狀況統計報告》顯示,截至2021年12月,中國互聯網普及率達73.0%[1]。互聯網中采用加密的流量呈逐年攀升的趨勢。在全球主要國家與地區,這一數據更是已經超過了90%。由數據統計機構Netmarketshare發布的統計數據可知,截至2019年10月2日,超文本傳輸安全協議(Hyper Text Transfer Protocol over Secure Sockets Layer,HTTPS)加密萬維網(World Wide Web,WWW)流量在全球范圍內被使用的比例已經超過90%[2];2019年12月,谷歌宣稱80%的Android應用程序默認使用傳輸層安全協議(Transport Layer Security,TLS)加密所有流量,且這一比例還會隨著時間的推移而繼續增大[3]。越來越多的惡意軟件隱匿在加密TLS流量中來傳輸惡意信息,對用戶、企業和國家的通信安全造成威脅。因此,對TLS惡意加密流量進行高效識別對網絡監管和打擊犯罪有著重要意義。
目前,已經有國內外研究人員對網絡惡意加密流量進行研究,并且取得了一定的成就。Canard等人[4]提出對加密流量進行深度包檢測(Deep Packet Inspection,DPI)而無需解密的技術,但在設置階段需要大量的計算和較長的檢測時間。Anderson等人[5]提出了一種TLS指紋識別系統,該系統利用目標地址、端口和服務器名精心構造的指紋串。近年來,半監督學習在圖像識別、自然語言處理等領域也取得了顯著成績。Rezaei等人[6]提出了一種半監督檢測模型,首先在大型未標記數據集上訓練,然后使用少量標記數據集重新訓練模型。谷歌的研發隊伍提出了MixMatch[7]和FixMatch[8]技術,利用集成方法,提高了模型準確率。
為解決網絡惡意加密流量識別方法中大量標記樣本獲取困難問題,本文提出一種基于FixMatch的網絡惡意加密流量識別方法。……