袁藝芳,李雁,陳緒,高永龍,席新



摘 ?要: 本文針對移動警務網絡復雜多變、數據量大的特點,提出一種基于孤立森林算法的網絡流量監測方法。該方法以網絡IP數據流為基礎,通過對IP數據流提取特征參數,并將特征參數作為輸入向量,利用孤立森林算法進行訓練以實現監測。這種方法能夠快速、有效地檢測出移動警務網絡中的異常流量,精確率高,在一定程度上對移動警務網絡的智能運維和安全防護起到重要作用。
關鍵詞: 孤立森林,算法,移動警務,網絡,流量監測
中圖分類號: TP391.0 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.12.051
本文著錄格式:袁藝芳,李雁,陳緒,等. 基于孤立森林算法的移動警務網絡流量監測方法研究[J]. 軟件,2019,40(12):229232
Research on Mobile Police Network Traffic Monitoring Method
Based on Isolated Forest Algorithm
YUAN Yi-fang1, LI Yan2, CHEN Xu2, GAO Yong-long2, XI Xin2
(1. Science and Technology Information Bureau of the Ministry of public security 100005, China;
2. Tianjin Public Security Bureau Science and Technology Information Office 300393, China)
【Abstract】: Mobile police network is complicated and changeable, and it has a very large amount of data to be handled. According to these characteristics, a network traffic monitoring method based on isolated forest algorithm is proposed in this paper. This method is based on the IP network data. Feature parameters are extracted for each IP data flow, and the feature parameters are taken as the input vectors for isolated forest algorithm to train isolated trees and achieve monitoring. This method can detect abnormal traffic in mobile police network quickly and effectively, which can play an important role in intelligent operation and security protection of mobile police network.
【Key words】: Isolated forest; Algorithm; Mobile police; Network; Traffic monitoring
0 ?引言
2002年以來,公安部對公安信息移動接入及應用系統安全建設進行不斷完善,全國公安系統信息化得到了很大的提升。2017年初,天津市公安局新一代移動警務系統開始建設,目前已建設完成投入運行。新一代移動警務平臺體系相對復雜、運維成本高且難度大,平臺中一旦出現問題,往往需要大量的專業人員參與,協同診斷問題,耗時長,代價高。為緩解以上問題,我們對移動警務平臺中網絡流量數據進行分析,利用一種基于孤立森林算法的網絡流量監測方法對網絡流量異常檢測。目的是可以及時發現網絡攻擊行為和網絡結構問題引起的異常流量,從而增強網絡態勢感知能力和安全防護能力,對移動警務平臺的智能化運維有重要推進作用。
網絡流量異常是指網絡的流量行為偏離正常行為的情形,引起的原因有網絡設備異常、網絡操作異常、閃現擁擠異常、網絡攻擊行為等。目前,國內外學者已經提出了多種網絡流量異常檢測方法,通常可分為基于分類、基于統計、基于聚類及基于信息論的網絡流量異常檢測方法等[1-4]。這些網絡流量異常檢測方法,通常首先需要對正常和異常的網絡行為、網絡流量模式分別進行定義和分析,其次通過特征分析、數據建模等方式對網絡流量數據進行檢測。大多方法局限性較強,對特定模式或者特定特征的網絡異常行為才有較好的檢測效果,而且前期數據分析和建模工作量大,部分方法復雜度也很高[5,6]。
移動警務網絡復雜多變、數據量大,未知的網絡結構或者網絡行為模式時有發生,而且在移動警務網絡流量分析中異常流量具有隨機性、孤立性和稀疏性,因此獲取網絡異常流量的難度較大。因此很多情況需要在無監督下進行檢測,在執行監測任務中,對時效性要求往往也比較高,這進一步對我們選擇的方法提出了更高的要求。孤立森林算法是一種基于集成的快速無監督異常檢測方法,具有線性時間復雜度和高精準度[7]。本文基于孤立森林算法提出了一種網絡流量監測方法,可以快速、有效地進行網絡流量異常檢測,對于未知網絡結構或者網絡行為的情況有較好的檢測效果,可適用于移動警務網絡流量監測中。
1 ?孤立森林(iForest,Isolation Forest)算法原理
3.2 ?性能度量
由于實驗使用的是移動警務網絡的實際數據,數據量大,無法對數據進行標記,因而采用精確度(Precision)作為性能評估參數。精確度是指所有判斷為異常的樣本中,真正為異常的樣本所占的比例,即P=TP/(TP+FP)。其中TP為判斷為異常的異常樣本數,FP為判斷為異常的正常樣本數,(TP+FP)即為判斷為異常的樣本總數。
3.3 ?實驗評估
在根據孤立森林算法訓練階段步驟進行訓練時,構建100棵樹,每棵樹的最大高度是8,使用有放回的抽樣構造每一棵孤立樹,采樣數為256個樣本。訓練完成后,對測試數據集進行檢測,得到實驗結果如表1所示。
表1 ?在五臺服務器上的實驗結果
Tab.1 ?Experimental results on five servers
測試數據集 異常比例 精確度
1號服務器 0.88% 90.3%
2號服務器 0.83% 89.9%
3號服務器 0.76% 90.0%
4號服務器 0.97% 90.9%
5號服務器 0.51% 91.7%
平均值 0.79% 90.6%
表2中是抽取的異常流參數示例。與未判定為異常的數據比較,可以看出,得到的異常流基本上都是傳輸數據量大、持續時間長、包重發數多的流。這與訓練數據的構成有關。在正常業務流中,這樣的流占極少數,因而被判定為異常。如表2所示。
表2 ?異常流參數示例
Tab.2 ?Exception flow parameter example
序號 1 2 3 4 5 6
包數 3910 632 2030 895 508 1991
平均包長 1297.88 1232.72 1168.18 1062.48 843.44 1170.33
最大包長 1500 1500 1500 1500 1500 1500
長包數 3401 523 1611 671 362 1623
短包數 501 107 390 199 134 356
總延時 109937 109918 52729 52715 149829 149829
包最大延時 65001 65002 26107 26123 65015 64999
平均延時 28.12 174.20 25.99 58.97 295.52 75.29
長延時包數 5 3 11 9 12 17
單向包數 532 110 448 256 216 439
包重發數 494 101 383 195 130 350
經對檢測出的異常流數據查看分析,該算法在保持檢測精確度的情況下,也達到了較高的查全率,有較好的檢測效果。
4 ?結論
新一代移動警務的網絡安全防護、態勢感知和智能運維面臨著多方面的挑戰,大數據分析和人工智能的發展則為移動警務網絡安全帶來更多的新技術、新方法,可以為移動警務平臺的安全性和穩定性起到重要支撐作用。本文提出了基于孤立森林算法的移動警務網絡流量監測方法,以對網絡IP數據流為基礎,通過IP數據流提取特征參數,利用孤立森林算法進行訓練以及異常檢測。該方法不需要預先進行大量的數據分析和建模,能得到較高的檢測精確度和查全率,而且運算速度快,能夠迅速、有效地檢測出移動警務網絡中的異常流量,使異常流量能夠得到及時的回溯、定位和排查,為及時解決或預防網絡安全問題奠定基礎,為移動警務網絡的智能運維和安全防護提供支持。
參考文獻
[1]Monowar H. Bhuyan, D.K. Bhattacharyya, J.K. Kalita, A Multi-step Outlier-based Anomaly Detection Approach to Network-wide Traffic, Information Sciences[J]. 2016 Volume 348, 20 June 2016, Pages 243-271.
[2]Hamamoto, Anderson Hiroshi, Carvalho, Luiz Fernando, Sampaio, Lucas Dias Hiera. Network Anomaly Detection System using Genetic Algorithm and Fuzzy Logic, Expert Systems with Applications[J]. Volume 92, February 2018, Pages 390-402.
[3]王偉. 基于深度學習的網絡流量分類及異常檢測方法研究[D]. 北京: 中國科學技術大學, 2018年.
[4]M Ahmed, AN Mahmood, J Hu. A survey of network anomaly detection techniques, Journal of Network & Computer Applications[J]. Volume 60, January 2016, Pages 19-31.
[5]Hamamoto, Anderson Hiroshi, Carvalho, Luiz Fernando, Sampaio, Lucas Dias Hiera.Network Anomaly Detection System using Genetic Algorithm and Fuzzy Logic, Expert Systems with Applications[J]. Volume 92, February 2018, Pages 390-402.
[6]Hui Xia, Bin Fang, Matthew Roughan, Kenjiro Cho, Paul Tune. A Basis Evolution framework for network traffic anomaly detection, Computer Networks[J]. 2018 (135), Pages 15-31.
[7]劉高. 基于Spark的孤立森林算法并行化研究[D]. 武漢: 華中科技大學, 2018.
[8]Fei Tony Liu , Kai Ming Ting , Zhi-Hua Zhou, Isolation Forest, Proceedings of the 2008 Eighth IEEE International Conference on Data Mining [C]. 2008, Pages 413-422.
[9]Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou. Isolation-based Anomaly Detection. ACM Transactions on Knowledge Discovery from Data (TKDD) [C]. 2012, 6(1): Article 3.
[10]張曉宇.基于流被動測量的時間測度的研究[D]. 南京: 東南大學, 2009.
[11]朱河清, 梁存銘, 胡雪焜. 深入淺出DPDK [M]. 北京機械工業出版社. 2016年.Pages 30-49.
[12]石金龍, 孫翼. 基于Libnids庫的Internet網絡協議還原系統研究. 電子技術[J]. 2014, 13-19.Pages 13-19.