


摘要: 高速網絡數據龐大且高維度,網絡入侵檢測系統要面對流量數據約簡的問題。如何有效地實現流量數據約簡是網絡入侵檢測系統需要研究的一個重要問題。文中首先介紹網絡入侵檢測中流量數據抽樣和特征降維基礎;然后從網絡流量數據抽樣和網絡流量特征降維兩個方面總結了網絡流量數據約簡研究進展;最后闡述了網絡入侵檢測中流量數據約簡研究的未來發展趨勢和面臨的挑戰。文中所研究的流量數據約簡為進一步探索網絡流量測量和網絡空間安全提供參考和借鑒。
關鍵詞: 網絡入侵檢測; 流量數據約簡; 流量數據抽樣; 流量特征降維; 網絡安全; 發展趨勢
Abstract: The high?speed network data is huge and high?dimensional, so the traffic data reduction is of great concern to the network intrusion detection system. How to effectively implement the traffic data reduction is an important issue that needs to be studied for the network intrusion detection system. The traffic data sampling and feature dimension reduction basis in network intrusion detection are introduced. The research progress of network traffic data reduction is summarized in two aspects: network traffic data sampling and network traffic feature dimension reduction. The development trend of traffic data reduction research in the network intrusion detection and the challenges to it are described. The network intrusion detection researched in this paper? provides some references for further exploring network traffic measurement and network space security.
Keywords: network intrusion detection; traffic data reduction; traffic data sampling; traffic feature dimension reduction; network security; development trend
0? 引? 言
隨著通信技術的不斷發展,網絡已滲透到各個社會領域,互聯網上的攻擊手段更加隱蔽、更加智能。在高速網絡環境中,網絡入侵檢測過程需要獲取、處理和傳輸海量的網絡流量數據,如何實現在線實時地異常入侵檢測是網絡安全監控領域的一個熱點和難點。
網絡安全領域的分類問題由于數據量極其龐大且高維度,導致入侵檢測的分類器過于復雜,因此不少入侵模式并不能被準確檢測到,且網絡入侵檢測效率較低,無法滿足高速網絡環境下大規模異常入侵檢測的實時性要求[1]。為解決上述問題,需要對網絡數據流量進行實例抽樣約簡優化和特征降維約簡優化,從海量數據集中抽象出最相關的信息,降低復雜度以獲取更好的知識抽象[2]。減少攻擊檢測的存儲和計算壓力和提高攻擊檢測的檢測效率和精度。網絡流量數據約簡方法的好壞直接影響入侵檢測的結果[3]。如何有效地實現網絡流量數據約簡,以提高網絡入侵檢測系統的性能已成為許多研究的焦點。
1? 網絡入侵檢測中流量數據約簡
網絡入侵檢測通常包括四個步驟:數據抽樣、特征構造、模型構建和異常檢測[4]。數據約簡就是在盡可能保持原始數據完整性的前提下,最大限度地精簡數據量,去除冗余數據,保留有價值數據,縮小數據挖掘所需的數據集規模[5]。網絡入侵檢測中的流量數據約簡的常用方法包括流量數據抽樣和流量特征降維,分別通過網絡流量數據集中數據量的減少或維度的減少,來達到降低數據規模的目的。
1.1? 網絡流量數據抽樣
網絡流量數據抽樣是統計學方法在網絡流量測量領域的應用。無論是主動測量還是被動測量, 隨著流量速率的增加, 分析全部的網絡流量分組已經變得越來越困難,一種可行的解決辦法就是使用網絡流量抽樣技術。網絡流量抽樣是數據量縮減和保留原始數據細節的折衷。選擇合適的網絡流量抽樣方法可以減少工作量,并能在一定程度上反應網絡的全局特征[6]。高速網絡入侵檢測中,按照合理的抽樣規則,通過從整體網絡流量中抽取部分有代表性的網絡流量數據, 然后將抽取到的結果進行科學合理的分析,推斷原始網絡流量數據的特征,以此來估計整個網絡的特性,掌握整個網絡的行為特征,進而發現網絡攻擊[7]。因此,網絡入侵檢測中的流量數據抽樣是一種有效且值得研究的技術。
1.2? 網絡流量特征降維
特征是指一個對象的某方面性質或特性,一個對象是由若干個特征來描述的。高速網絡中網絡流量數據可由成百上千個特征來刻畫,其中某些特征可能是不重要的,或不相關的, 或已經包含在其他特征中, 甚至包含了錯誤的相互關系[8]。因此,需要對網絡流量數據進行特征降維約簡優化。網絡流量特征降維旨在減少網絡流量數據集的維度隨機變量的數量,有兩種眾所周知的方法,即網絡流量特征選擇和網絡流量特征提取。特征選擇通常是選出重要的特征的維度,并拋棄不重要的維度;而特征提取則是更廣泛意義上地把一個高維的向量映射為一個低維向量,得到的結果特征值已經不一定是原始的值。特征選擇保留了訓練樣本的原始物理意義,但是當數據間相似的依賴性很強時,檢測冗余信息對計算要求非常高;特征提取將原始高維特征空間映射到新的低維特征空間,可以有效地去除冗余和不相關特征[9?10]。
5? 結? 語
網絡流量數據約簡在網絡入侵檢測中應用非常廣泛且重要。本文對高速網絡環境下網絡入侵檢測中流量數據約簡的基本概念、研究進展和發展趨勢進行論述、總結和展望。面對新問題研究新方法,進一步探索高速網絡入侵檢測中流量數據約簡的理論和技術,對于網絡流量測量和網絡空間安全的研究和發展具有重要意義。
參考文獻
[1] 姜濱.基于特征選擇的網絡入侵檢測模型[J].現代電子技術,2019,42(1):87?90.
[2] 胡志剛,李佳,鄭美光.云環境下面向負載均衡的數據密集型工作流的數據約簡策略[J].計算機應用研究,2019,36(8): 2410?2414.
[3] 陳良臣,劉寶旭,高曙.網絡攻擊檢測中網絡流量數據抽樣技術研究[J].信息網絡安全,2019,19(8):22?28.
[4] WANG W, HE Y Z, LIU J Q, et al. Constructing important features from massive network traffic for lightweight intrusion detection [J]. IET information security, 2015, 9(6): 374?379.
[5] 杜嘉薇.網絡安全態勢感知:提取、理解和預測[M].北京:機械工業出版社,2019.
[6] 張忠琳.網絡質量探測應用的研究[D].北京:北京郵電大學,2015.
[7] SU Liya, YAO Yepeng. Hierarchical clustering based network traffic data reduction for improving suspicious flow detection [C]// 12th IEEE International Conference on Big Data Science and Engineering. New York: IEEE, 2018: 1?3.
[8] 郭春.基于數據挖掘的網絡入侵檢測關鍵技術研究[D].北京:北京郵電大學,2014.
[9] 曹杰.基于SVM的網絡流量特征降維與分類方法研究[D].長春:吉林大學,2017.
[10] YAO Yepeng, SU Liya, LU Zhigang. DeepGFL: deep feature learning via graph for attack detection on flow?based network traffic [C]// MILCOM 2018?Military Communications Conference. Los Angeles: IEEE, 2018: 579?584.
[11] 董書琴,張斌.一種面向流量異常檢測的概率流抽樣方法[J].電子與信息學報,2019,41(6):1450?1457.
[12] 劉珍.互聯網流量分類中流量特征研究[J].計算機應用研究,2017(1):8?14.
[13] DONGHWOON Kwon, HYUNJOO Kim, JINOH Kim, et al. A survey of deep learning?based network anomaly detection [J]. Cluster comput, 2019, 22(1): 949?961.
[14] ANUSHA K, SATHIYAMOORTHY E. Comparative study for feature selection algorithms in intrusion detection system [J]. Automatic control and computer sciences, 2016, 50(1): 1?9.
[15] 陳良臣,高曙,劉寶旭,等.網絡加密流量識別研究進展及發展趨勢[J].信息網絡安全,2019,19(3):12?25.