杜冠瑤,郭勇杰,2,龍春*,趙靜,萬巍
1.中國科學院計算機網絡信息中心,北京 100083
2.中國科學院大學,北京 100190
隨著互聯網和大數據的快速發展,網絡異常檢測作為保護網絡安全和維護系統正常運行的手段變得越來越重要。網絡異常檢測往往依靠日志或流量等網絡數據,而這些數據發生概念漂移會對網絡異常檢測的準確性和可靠性產生較為嚴重的影響。因此,近年來針對網絡異常檢測領域的概念漂移檢測研究也引起了廣泛關注。概念漂移是指隨著時間推移,流數據的分布發生變化的情況,這種變化可能由外部或內部因素引起[1]。
網絡異常檢測領域常用到的數據有日志數據和流量數據等,本質上也是流數據。因此,已有的針對流數據的概念漂移檢測方法也適用于網絡異常檢測領域。為了解決網絡數據中的概念漂移問題,研究人員提出了各種檢測方法[2],主要可以分為監督學習和無監督學習兩大類。監督學習方法通過使用已標記的漂移樣本進行訓練,并通過分類器的輸出來檢測概念漂移。無監督學習方法不需要標記樣本,它們基于數據分布的統計特性來檢測概念漂移,通常使用聚類、密度估計和滑動窗口等技術來識別數據中的潛在模式變化。
盡管針對網絡數據異常檢測領域已經有許多概念漂移檢測方法被提出,但仍然面臨著一些挑戰。首先,概念漂移的定義本身缺乏統一標準,不同研究者對概念漂移的理解和定義存在差異[3],這導致了不同方法之間的比較以及評估困難。……