








摘 要:由于現存的電力通信網絡帶寬流量異常檢測方法檢測結果的召回率和F1值較低,導致無法準確解決網絡帶寬流量異常問題。因此,本次開展基于數據挖掘的電力通信網絡帶寬流量異常檢測方法研究。對原始流量進行分割與特征解析,設定時序、消耗、IP地址、資源占用和流向等指標的閾值界限,并結合流量切分技術判定異常結果。試驗結果表明,數據挖掘的電力通信網絡帶寬流量異常檢測方法結果的召回率均在99%以上,且F1值均在0.93以上,提高了帶寬流量異常檢測的準確性,有助于精準解決網絡問題。
關鍵詞:數據挖掘;異常檢測;帶寬流量;召回率;異常指標
中圖分類號:TP 393" " 文獻標志碼:A
隨著電力通信網絡不斷進步,其網絡安全十分重要,為了使電力通信網絡的實時性能得到保障,避免發生嚴重問題,對電力通信網絡帶寬流量進行實時檢測與處理至關重要。電力通信網絡帶寬流量異常檢測是對電力通信網絡中的大量帶寬流量數據進行分析,以識別與正常模式不符的異常流量[1]。通過判斷和識別流量,對網絡中網絡入侵、設備故障等異常行為進行識別和排查。電力通信網絡數據包括大量正常與異常行為信息。如果能及時發現并捕獲異常網絡帶寬流量并及時預警,可保障電力網絡系統的安全運行。數據挖掘方法是從大量的歷史數據中提取有價值的信息,對電力通信網絡帶寬流量異常情況進行檢測,從而減少網絡帶寬流量出現的問題。本文設計基于數據挖掘的電力網絡帶寬流量異常檢測方法,根據網絡異常引發的原因研究異常特征和流量數據分布范圍,提高對網絡異常情況發生的預防能力。同時,結合現有的理論知識,不斷改進方法,使電力網絡帶寬流量異常檢測方法在大量的不平衡網絡流量中快速準確地檢測流量異常原因,并提高數據中心防范網絡安全風險的能力。
1 電力通信網絡帶寬流量異常檢測方法
1.1 整理集成的電力通信網絡帶寬流量
在原有電力通信網絡帶寬流量數據庫中,按照隨機原則截取網絡帶寬流量數據段,對該原始流量進行多段分割,并以pcap文件的形式存儲。剝離流量數據段中的數據幀的信息,保留網絡層數據。在封閉的模擬現實通信環境中,對上述網絡層流量數據段的IP地址進行清洗,并將其轉換為S-ADSN可接受的輸入信息。提取pcap文件數據包信息并重構流量數據段,完成集成的電力通信網絡帶寬流量的整理工作。整理集成的電力通信網絡帶寬流量過程如圖1所示。
1.2 解析電力通信網絡帶寬流量異常關鍵指標
使用高斯混合模型對經過1.1整理后的流量數據進行聚類分析,處理不同大小和形狀的網絡帶寬流量數據簇,根據數據簇特性和分析需求,設置聚類算法的參數。其步驟如下。
初始化:在整理后的網絡帶寬流量數據庫中隨機選擇,將選擇的網絡帶寬流量數據庫的高斯分布作為初始聚類的參數。
E步驟:按照當前的高斯分布參數對初始化的參數進行計算,由此確定流量樣本的高斯分布后驗概率。
M步驟:根據E步驟中樣本的后驗概率,重新估計每個高斯分布的均值和協方差參數。
收斂判斷:檢查參數的變化或對數似然的變化是否達到預設的收斂條件。
通過上述步驟將相似的流量模式聚集成簇。異常流量被聚類為單獨的簇并遠離其他簇。從以下5個方面對異常流量進行分析,確定電力通信網絡帶寬流量異常的關鍵指標內容。1)針對異常流量的日、周、月等周期性變化,識別與正常模式不符的流量變化,從而提取網絡帶寬流量異常的時序指標。2)監測網絡中的實時流量數據,與正常情況下的流量水平進行比較。流量出現突然大幅增加情況,表明網絡帶寬流量存在異常,解析此時流量消耗的數量,從而提取異常網絡帶寬流量的消耗指標。異常流量消耗狀態如圖2所示。3)識別存在異常集中的流量來源或目標,對特定IP地址或地址段的流量情況進行監測,監測網絡中的突發流量事件,分析原因和影響,從而提取異常網絡帶寬流量的IP地址指標。4)解析數據包的發送和接收速率,對異常高的發送和接收速率進行針對性分析,同時關注網絡會話的持續時間,對異常長的狀況結合上述分析結果進行解析,從而提取其資源占用指標。5)解析流量在網絡中的流向變化,識別是否存在異常的流量路由或轉發行為,提取其流向指標。
1.3 通過數據挖掘方法設定流量異常檢測界限
使用數據挖掘方法對流量數據進行描述性統計和推斷性統計,從而根據網絡帶寬流量數據的分布特性和異常檢測的需求選擇歷史流量數據庫[2];使用歷史流量數據對檢測模型進行訓練[3-4],學習正常流量的模式和特征;根據模型訓練的結果以及1.2中所確定的異常指標設定網絡帶寬流量特征值的界限,采用閾值范圍表示網絡帶寬流量特征值的界限,其確定步驟如下。
首先,用N(μ,σ2)表示網絡帶寬流量狀態,其中μ代表均值,σ2代表方差。均值如公式(1)所示。
(1)
式中:n為流量點的數量;xi為每個流量點的數據。
方差如公式(2)所示。
(2)
可以對方差進行開方運算來求得標準差σ。
其次,根據3σ原則進行閾值計算。上界閾值常設置為均值加上3倍標準差,即μ+3σ,下界閾值通常設置為均值減去3倍標準差,即μ-3σ。
將計算的閾值應用于樣本網絡帶寬流量數據庫,驗證其是否準確識別異常值。
最后,通過交叉驗證法進行界限的調整,確保異常檢測的準確性和靈敏度達到最佳平衡。調整方法如下。
先計算異常流量數據的誤報率和漏報率,誤報率即為出現誤報情況的異常樣本數量與實際正常樣本數量的比值,而漏報率則為出現漏報情況的異常樣本數量與實際異常樣本總數的比值。然后對比其誤報率與漏報率,并根據結果調整閾值范圍,閾值范圍調整原則見表1。
完成閾值調整后,對網絡帶寬流量的各特征值進行比對,如果數值結果在閾值范圍內,那么該處網絡帶寬流量不存在異常,如果其數值結果在閾值范圍外,那么該處網絡帶寬流量存在異常[5]。
1.4 判定異常檢測結果
將第1.1節中整理的流量數據輸入訓練好的異常檢測模型中,對輸入的數據進行評估,并輸出異常概率、距離正常模式的距離等評估指標,將第1.3節中中異常檢測界限設置為網絡帶寬流量異常檢測模型的限制參數,將模型輸出的評估指標與上述參數進行比對,網絡帶寬流量比對過程如下。
根據數據集標簽對訓練集數據進行隨機采樣,獲取包括良性流量類別A和惡意流量類別B的流量數據集D。按照流量序列區間對D進行切分,并對切分點進行確定,如圖3所示。
圖3中圓形為正常流量,五角星為異常流量,箭頭所指為切分點。利用切分點對應的數值,將D分為集合D1和D2,根據切分點t的位置對集合數據進行多次比較,根據比較結果,在正常流量數據與異常流量數據間確定多個t值,選擇最優區間邊界值作為流量序列區間,重復以上步驟,直至確定t的最優值。
將最優t值位置對應的區間結果作為輸出結果,將該區間網絡帶寬流量數據作為異常輸出結果。
針對輸出的異常網絡帶寬流量數據進行數據檢測,并將異常結果與外部數據源進行比對。詳細記錄判定的異常結果,生成異常報告,從而完成異常檢測結果的判定工作[6]。
2 試驗論證分析
為檢驗本文研究的基于數據挖掘的電力通信網絡帶寬流量異常檢測方法的精準度,采用文獻[1]、文獻[2]方法及本文方法對電力通信網絡多段帶寬流量進行處理,并計算3種方法處理后的帶寬流量數據的召回率,通過對比召回率數值,分析3種方法的準確度。召回率的數值表示在實際為正的樣本中,該樣本被預測為正的概率值,它可以體現檢測方法能夠找出所有真實目標的能力。在完成召回率的對比后,對相同試驗樣本進行F1值的對比,F1值結合精確率和召回率指標的特點,從而衡量方法在保持精確率和召回率間的平衡時的性能。
2.1 試驗數據采集
本試驗模型的構建與訓練均在Windows 11系統上操作,使用lntcl i7-11800H處理器和NVIDIA RTX 3080顯卡進行試驗。該模型參數的設置見表2。
對電力通信網絡帶寬流量進行隨機抽取,抽取4個流量段作為試驗樣本,并對試驗樣本進行初步的數據處理。
2.2 試驗結果分析
本試驗通過3種方法處理后其召回率的數據來對比3種方法對流量異常檢測的準確度,召回率數值越接近100%,證明該方法對流量異常檢測的結果越準確。3種方法處理4個流量庫后其召回率數據見表3。
由上述結果可知,應用本文方法檢測的電力通信網絡帶寬流量數據在每一個流量庫中的召回率均在99%以上,而文獻[1]、文獻[2]中方法的召回率在不同流量庫中數據差值較大,且都在99%以下。
統計3種方法的FI值,得到的結果如圖4所示。
通過圖4可以看出,本文研究方法對4組流量庫檢測后的F1值范圍在0.93~0.98,數據均大于0.93,相比其他2種方法,本文方法流量檢測后F1值較大,表明該方法檢測后的精確率和召回率的平衡性能較高。因此,本研究方法檢測結果更準確。
3 結語
本文的基于數據挖掘的電力通信網絡帶寬流量異常檢測方法通過綜合運用聚類、分類、關聯規則挖掘和時間序列分析等多種技術手段,實現對電力通信網絡帶寬流量的全面監控和異常檢測。由于電力通信網絡中的數據來源廣泛且復雜,數據質量難以保證,這會影響異常檢測的準確性。而本文研究的這種方法具有高效、準確和自動化的特點,對保障電力通信網絡的安全穩定運行具有重要意義。
參考文獻
[1]霍帥,師智斌,竇建民,等.動態生成Shapelet的網絡流量異常檢測[J].計算機工程與設計,2024,45(5):1337-1342.
[2]高治軍,曹浩東,韓忠華.基于擴張卷積神經網絡的異常檢測模型[J].沈陽建筑大學學報(自然科學版),2024,40(4):738-744.
[3]馬劍波,左翔,叢小飛,等.基于深度學習的水利工控網絡流量異常檢測方法[J].水利水電技術(中英文),2020,4(6):1-14.
[4]鐘昱,黃振南,謝惠超,等.一種基于半監督學習的網絡異常流量檢測方法[J].廣西大學學報(自然科學版),2024,49(3):563-574.
[5]宗學軍,王潤鵬,何戡,等.優化隨機森林模型的工控網絡異常檢測[J].沈陽工業大學學報,2024,46(2):197-205.
[6]沈萍,陳俊麗.基于孤立森林評分擴展的流量異常檢測方法[J].電子測量技術,2024,47(8):157-163.