












摘要:由于電力通信網絡信息異常值的隱蔽性、多樣性和動態變化性,導致在挖掘過程中難以全面地識別出所有的異常值。因此,該文提出了一種基于模糊聚類的電力通信網絡信息異常值挖掘方法。采用該方案可對電力通信網絡信息進行數據填補缺失值、數據標準化處理與統一表示,構建一個包含異常值相關屬性的集合矩陣,使用Apriori算法識別出異常特征之間的強關聯規則,通過規則提取出異常值特征參數,基于模糊聚類算法,計算樣本與聚類中心的相似度并設置隸屬度閾值,挖掘出電力通信網絡中的異常值。實驗結果表明,該方法能夠更有效地根據異常值的特性,挖掘出更多的異常值,為保障電力通信網絡的安全提供有力的技術支撐。
關鍵詞:模糊聚類;電力;通信網絡;網絡信息異常值;異常值挖掘方法
doi:10.3969/J.ISSN.1672-7274.2024.11.021
中圖分類號:TM 73;TN 915.853;TP 393" " " " " " "文獻標志碼:A" " " " 文章編碼:1672-7274(2024)11-00-03
Research on Information Outlier Mining Method for Power Communication Network Based on Fuzzy Clustering
SHUI Mingxing
(Enshi Power Supply Company of State Grid Hubei Electric Power Co., Ltd., Enshi 445000, China)
Abstract: Due to the concealment, diversity, and dynamic variability of information outliers in power communication networks, it is difficult to comprehensively identify all outliers during the mining process. Therefore, this article proposes a method for mining information outliers in power communication networks based on fuzzy clustering. Fill in missing values, standardize data, and unify representation of power communication network information, construct a set matrix containing outlier related attributes, use Apriori algorithm to identify strong association rules between outlier features, extract outlier feature parameters through rules, calculate the similarity between samples and cluster centers based on fuzzy clustering algorithm, and set membership threshold to mine outliers in the power communication network. The experimental results show that this method can more effectively deal with the characteristics of outliers, thereby mining more outliers and providing strong technical support for ensuring the security of power communication networks.
Keywords: fuzzy clustering; electricity; communication network; abnormal values of network information; outlier mining method
隨著電力通信網絡的迅猛發展,保障其穩定運行和數據傳輸的可靠性變得尤為重要。在電力通信網絡中,異常值的存在可能會對網絡的正常運行造成嚴重影響,因此,及時發現這些異常值對于維護網絡的安全性和穩定性至關重要。
文獻[1]提出了基于關聯規則改進的網絡異常數據挖掘方法,對網絡數據進行預處理,消除噪聲和無關信息,利用關聯規則算法,通過計算項集的支持度和置信度來發現數據中的頻繁項集和關聯規則,基于設定的閾值,該方法能夠識別出與正常模式顯著不同的異常數據。文獻[2]采用支持向量機進行通信網絡異常流量數據挖掘,利用SVM對通信網絡流量進行特征選擇,并通過統計頻率法選擇特征子集,建立基于SVM的分類器,對通信網絡流量進行分類,識別異常流量。
但兩種方法難以準確捕捉數據中的模糊邊界和不確定性,導致異常值挖掘的準確率下降。因此,為了更有效地挖掘電力通信網絡信息中的異常值,本文提出一種基于模糊聚類的電力通信網絡信息異常值挖掘方法。
1" "預處理電力通信網絡信息數據
假設電力通信網絡中有一個一維時間序列數據,表示缺失值,位于和之間,并且與它們等距,且和的值已知[3]。利用線性差值填補的計算公式如下:
(1)
采用一種標準化的處理方法對原始數據進行處理,如式(2)所示:
(2)
式中,表示原始電力通信網絡信息數據中的某個特征值;表示該特征的均值;表示該特征的標準差。
鑒于電力通信網絡數據的多樣性和復雜性,采取特定的屬性轉換策略,將不同來源、不同格式的電力通信網絡數據轉換為統一的屬性表示[4]。假設電力通信網絡數據總量為,其中異常值數量為,針對這些數據定義個全局屬性和個與異常值緊密相關的特定屬性。基于這些屬性,構建一個異常值屬性集合矩陣,如式(3)所示:
(3)
式中,表示電力通信網絡數據屬性集合矩陣,其中,表示全局屬性的參數;表示異常數據屬性集合矩陣,大小也為;表示與異常值緊密相關的特定屬性的參數;、表示數據記錄的行號、列號。
2" "提取電力通信網絡信息異常值特征
首先,定義個差異性異常特征量項目,這些項目集合被標記為,其中每個代表一個特定的異常特征[5]。將電力通信網絡的異常值存放在一個事務數據庫中,每個事務都是一個非空的項集,包含一個或多個異常特征項目。為了發現異常特征之間的關聯,本文定義了兩個項集和,且,,如果和之間沒有交集,且,,此時,和之間存在某種關聯,并構成數據集中的一條關聯規則。該規則下的置信度,也就是在出現的條件下也出現的概率可以表示為
(4)
高置信度表明該規則在實際情況中具有較高的可信度。支持度是項集在數據集中出現的頻率,高支持度意味著該規則在數據集中普遍存在。使用Apriori算法計算電力通信網絡信息數據集中各個項集的支持度,篩選出支持度大于預設的最小支持度閾值的項集,將這些項集作為頻繁項集。獲得頻繁項集后,進一步計算它們的置信度,篩選出那些置信度大于預設的最小置信度閾值的關聯規則。
基于以上關聯規則,提取電力通信網絡信息數據中的異常值特征參數。假設電力通信網絡信息庫中異常值矩陣為,該矩陣的元素可以通過式(5)計算得出:
(5)
式中,表示電力通信網絡網絡中索引為的異常值在數據類別中的集合;表示異常值矩陣中索引為的異常值集合;表示與電力通信網絡信息相關的類別標識;表示一個函數,根據異常值和網絡數據類別的特性來計算描述值。
提取電力通信網絡信息異常值特征可以用公式(6)
(6)
式中,表示根據關聯規則集和異常值來計算特征參數;表示提取的電力通信網絡信息異常值特征。
3" "利用模糊聚類算法識別電力通信網絡信息異常值
(1)在開始聚類之前,基于數據的特性,確定聚類中心的數量為。對于每一個聚類中心,從數據集中隨機選擇一個樣本點作為初始中心。初始化聚類示意圖如圖1所示。
(2)計算歐氏距離。假設有個樣本,每個樣本擁有個特征。樣本可以表示為,聚類中心的特征向量可以表示為,則計算樣本到聚類中心的歐氏距離可以表示為
(7)
式中,表示樣本的第個特征值;表示聚類中心的第個特征值。
(3)由于本文模糊聚類算法將相似度作為輸入,而不是距離,因此使用反比例函數將歐氏距離轉換為相似度:
(8)
(4)計算每一個樣本對每一個聚類中心的隸屬度。隸屬度是一個介于0和1之間的值,表示樣本屬于某個聚類的程度。本文設定兩個條件來約束隸屬度的計算:一是每個樣本對所有聚類的隸屬度之和必須為1,確保樣本只能被分配到一個主要的聚類;二是每個聚類的隸屬度都是模糊的,即允許樣本同時屬于多個聚類,但程度不同。基于這兩個條件,利用迭代公式(9)來計算隸屬度:
(9)
在模糊聚類的每次迭代步驟中,根據當前的聚類中心和樣本特征重新計算隸屬度。設定一個閾值T,將重新計算的隸屬度值與預設的閾值T進行比較。如果某個樣本中所有聚類中心的隸屬度均低于閾值T,那么該樣本就被判定為異常值。相反,如果樣本至少對某一個聚類中心的隸屬度高于閾值T,那么該樣本就被認為是正常的。
4" "實驗
4.1 實驗準備
針對上述方法在電力通信網絡信息中進行異常值挖掘的可行性,筆者通過實驗的方式進行驗證。在進行實驗前,準備相應的實驗環境,并設置合理的參數。選擇Dell PowerEdge R740型號的服務器作為實驗平臺,配備256 GB DDR4 ECC REG內存。具體的實驗環境參數設置如表1所示。
此次實驗準備了包含近6個月電力通信網絡數據的10 TB數據集,數據格式為CSV和文本文件。該數據集涵蓋了正常流量和異常流量的數據,部分數據如表2所示。
4.2 實驗結果及分析
為了驗證本文方法的優越性,將本文方法與文獻[1]方法以及文獻[2]方法進行對比,分別使用三種方法對近6個月電力通信網絡數據集中的數據進行挖掘,對比三種方法挖掘到的異常流量,實驗結果如圖2所示。
由圖2可知,實驗中本文方法挖掘到的異常流量數量顯著多于文獻[1]和文獻[2]方法,這一結果表明,本文方法在處理電力通信網絡異常流量檢測時具有更高的敏感性和準確性。本文方法通過精心設計的特征選擇和提取步驟,能夠更全面、準確地捕捉電力通信網絡中的異常流量特征。相比之下,文獻[1]和文獻[2]方法可能在特征選擇上存在局限性,導致部分異常流量被忽略。
5" "結束語
本文設計了一種基于模糊聚類的電力通信網絡信息異常值挖掘方法,通過引入模糊聚類的概念,將模糊數學理論應用于電力通信網絡信息異常值的識別中,克服了傳統方法在處理具有模糊性和不確定性數據時的局限。在未來工作中,要進一步探索更先進的模糊聚類算法,以提高異常值挖掘的準確性和效率。
參考文獻
[1] 周一帆.基于關聯規則改進的網絡異常數據挖掘方法[J].湖南郵電職業技術學院學報,2024,23(1):41-44.
[2] 勞雪松.基于支持向量機的通信網絡異常流量數據挖掘方法[J].信息與電腦(理論版),2023,35(12):197-200.
[3] 張彤,沈倩,王瓊.基于模糊聚類與改進遺傳算法的異常電力工程數據識別技術[J].電子設計工程,2024,32(6):100-103,108.
[4] 常富紅,李麒,狄亞平,等.基于云計算的智能電網信息異常數據挖掘方法[J].信息與電腦(理論版),2022,34(24):177-179,202.
[5] 郭禹伶,左曉軍,崔景洋,等.基于模糊聚類的多類簇歸屬電力實體行為異常檢測算法[J].河北科技大學學報,2022,43(5):528-537.