劉 璐
(北京科東電力控制系統有限責任公司,北京 100192)
電力通信數據技術被廣泛應用于智能電網的設計中[1]。為了創造安全、高效的電力通信網絡運營環境,通信數據流量的異常監測技術已成為電力工作人員的研究重點[2]。姜丹等[3]首先采用大數據分析技術得到電力通信數據流量的最大似然值;然后構建數據流量異常監測模型,并通過子序列聚類處理最大似然值得到異常流量的特征;最后將特征輸入到異常監測模型中,從而完成電力通信數據流量的異常監測。周伯陽等[4]首先構建基于多尺度低秩序的電力數據異常監測模型;然后對電力通信數據流量作歸一化處理,并采用改進的遞歸特征選擇法得到流量的聚類結果;最后將聚類結果輸入到監測模型中進行分類,從而完成電力通信數據流量的異常監測。孫瀅濤等[5]首先根據趨勢性、動態性和變換性,分別提取電力通信數據流量的特征;然后對特征作降噪處理;最后采用支持向量數據構造一類分類器模型,并將特征輸入到模型中,從而完成電力通信數據流量的異常監測。數據流量的異常監測是電力通信網絡使用過程中不可缺少的環節。但該環節受不同信道流量冗余性、異常數據類型等問題的干擾,導致監測過程耗時長且誤差大。
為了進一步優化電力通信數據流量異常監測過程,本文設計電力通信數據流量異常的并行檢測方法。本文在對電力通信數據流量降維的基礎上:采用并行分解傳感算法,對多信道數據流量進行并行分解;采用并行檢測算法,實現了電力通信數據流量異常監測。試驗結果表明,本文方法具有較好的監測效果,有助于保證電力通信網絡運營環境的通信質量。
為了保證電力通信數據流量具有良好的并行分解效果,本文采用自適應鄰域法對數據流量作降維處理。具體步驟如下。
①通過自適應鄰域法選取所有電力通信數據流量樣本點的e個近鄰點,計算任意兩個樣本點間的歐式距離[6]。
(1)
式中:a、b均為電力通信數據流量的樣本點;D為數據流量樣本點之間的歐氏距離;M為樣本點的總數量,個。
②對歐氏距離作優化處理[7],并結合限制條件計算出數據流量的局部重建權值矩陣,將電力通信數據流量的降維過程轉換為尋找最優解問題。

(2)
式中:V為局部協方差矩陣;W為重建權值矩陣;U為限制條件;α為優化系數。
③引入拉格朗日乘子[8],解決式(2)中的限制條件。
(3)
式中:β為算法迭代次數,次;K為引入的拉格朗日乘子。
④通過尋找最優解問題,將高維度的電力通信數據流量映射到低維度空間,以完成數據流量的降維處理。這不僅使降維后的數據流量保留了原始的內部特征,還為后續的并行分解處理創造出更具體的可分性。

(4)
式中:minα(b)為最優求解結果;L為單位矩陣;s.t.bU為在bU=L的條件下進行尋優;bU為電力通信數據流量樣本點b在限制條件U下的降維處理過程中的特征參數。
針對降維后的電力通信數據流量,本文在變換矩陣的基礎上[9]采用并行分解傳感算法實現多信道數據流量的并行分解,從而有效地降低數據流量的冗余性。具體步驟如下。
①設降維后的電力通信數據流量維度為B、其對應的列向量為J、在變換矩陣的作用下系數向量的維度為P。則在維度為B×P的變換矩陣C下,數據流量為:
(5)
式中:Z為電力通信數據流量在變換矩陣中的系數向量。

③在電力通信數據流量滿足稀疏表達后,引入傳感矩陣T,將數據流量通過傳感矩陣進行投影[10]。
φ=TJ=TCZ
(6)
式中:φ為解壓后的電力通信數據流量,GB。
④獨特的數據流量分解由若干棵隨機二叉樹構成。
隨機二叉樹劃分過程如圖1所示。

圖1 隨機二叉樹劃分過程
通過隨機抽樣一致算法[11]從電力通信數據流量集合中選取m個樣本點構成子集I,并從其中隨機抽選一個屬性A與分離值z。
I=[I1,I2,…,Im],A,z∈Im
(7)
屬性A從電力通信數據流量樣本四類屬性中隨機選取。第一類屬性為基本特征,主要包括連續時間、協議類型和傳輸字節數等。第二類屬性為內容特征。第三類屬性為基于時間的網絡流量統計特征。第四類屬性為基于主機的網絡流量統計特征。
⑤考慮到基本特征屬性可以更好地判斷電力通信數據流量是否存在異常,本文將式(7)中隨機選取的屬性A定義為基本特征屬性。在隨機二叉樹中,根據基本特征屬性值和分離值對所有電力通信數據流量樣本點實行并行劃分。若Im(A) ⑥在隨機二叉樹的每次劃分過程中,本文采用隨機生成的超平面構造一個分離超平面,以保證分解的高效運行。 (8) 式中:u為隨機系數;Ai為第i個屬性值;d為分離超平面;ε為屬性之間的標準差;r為屬性指標。 本文針對并行分解后的電力通信數據流量,設計并行檢測算法,以完成數據流量的異常監測。 電力通信數據流量異常的并行檢測流程如圖2所示。 圖2 電力通信數據流量異常的并行檢測流程圖 并行檢測步驟如下。 ①確定電力通信數據流量的并行劃分粒度。假設在并行檢測過程中單個數據流量的檢測時間相同,則總耗時由并行任務的解壓耗時與衍生耗時構成。 (9) 式中:t為并行檢測過程的總耗時,s;E為并行分解的數據流量總數,GB;x為衍生耗時,s;G為單個并行檢測的消耗時間,s;N為檢測任務總量,個;R為并行分解數據流量的體積;Q為劃分粒度,維。 ②在并行檢測過程中,引入常量δ以表示Q與t之間的關聯,即可得到Q與t的關系。 (10) 式中:S為并行檢測算法的復雜度,%。 ③將經過劃分的電力通信數據流量傳輸到分布式計算框架中,同時成立節點協作傳輸策略,對所有劃分塊作檢測處理。 ④當分布式計算框架中所有節點完成檢測任務時,將結果匯總至框架的主節點中,從而完成電力通信數據流量的并行檢測輸出[12]。 (11) 式中:O為電力通信數據流量的并行檢測輸出。 本文將并行檢測處理后的電力通信數據流量輸入到孤立森林模型,通過尋找出與大部分數據流量不同的樣本點,并將這些樣本點視為異常點,從而完成數據流量的異常監測。 ⑤根據隨機二叉樹葉子節點到根節點的路徑長度來尋找電力通信數據流量中的異常值。路徑的數量由隨機二叉樹的根節點與葉子節點經過的邊的數量決定。 (12) 式中:φ為歐拉常數,φ≈0.577 2;g為路徑的數量,條;L′為路徑長度。 ⑥路徑長度可以反映數據流量樣本點的異常離群狀況。a的異常得分k為: (13) 式中:H為樣本點在隨機森林模型中的離群度。 ⑦當k值趨近于0.5時,表明電力通信數據流量樣本中不存在異常現象;當k值趨近于1時,表明此時對應的樣本點是一個異常值。 為了驗證電力通信數據流量異常的并行檢測方法的整體有效性,本文需要進行以下測試。 測試使用四組不同的電力數據流量樣本集作為試驗數據。這四組數據均來自遼寧省某電力公司2020年的分布式控制系統(distributed control system,DCS)運營數據。其編號分別為數據流量集1~4。試驗以均方誤差、時間消耗、召回率作為評價指標,采用所提方法、文獻[3]方法和文獻[4]方法完成對比測試。 通過所提方法對電力通信數據并行分解,并比較分解后的數據與原始數據的區別,判斷重構信號是否可以客觀地反映原始電力網絡異常數據信號的特征。異常數據并行分解試驗結果如圖3所示。 圖3 異常數據并行分解試驗結果 由圖3可知,所提方法重構后的異常數據基本上還原了原始數據原貌,只是在細節上的數據有所損失。由圖3(b) 、圖3(c)可知,在并行分解過程中,所提方法較為完整地保存了平緩區和突變區的信號,說明所提方法可以有效分解異常數據。 ①均方誤差。 均方誤差描述方法監測結果與真實結果之間的差距。其值越大,表明方法的擬合能力越弱、監測結果偏差越大;其值越小,表明方法的擬合能力越強、監測結果偏差越小。 (14) 式中:MSE為均方誤差;n為電力通信數據流量的數量;Xj為第j個輸入樣本;F(Yj)為各方法的監測結果。 不同方法的均方誤差測試結果如表1所示。 表1 不同方法的均方誤差測試結果 由表1可知,針對電力通信數據流量的監測,無論在哪組數據流量集中,所提方法的均方誤差均小于文獻[3]方法與文獻[4]方法。這表明所提方法的擬合效果更好、監測結果更精準。 ②時間消耗。 時間消耗指各方法在電力通信數據流量異常監測過程中所消耗的時間。時間消耗越大,說明方法的監測性能越低;時間消耗越小,說明方法的監測性能越高。在數據監測中,拉格朗日乘子用于處理帶有時間約束的電力通信數據流量異常監測問題。如果將拉格朗日乘子看作一個懲罰項,則拉格朗日乘子越高,對違反時間約束的數據的懲罰越嚴厲,因此監測時間越長。 不同方法的時間消耗測試結果如表2所示。由表2可知,針對電力通信數據流量的異常監測,所提方法的時間消耗在45 s附近波動,而文獻[3]方法與文獻[4]方法的時間消耗分別在75 s和56 s附近波動。不同拉格朗日乘子下,所提方法的時間消耗均小于文獻[3]方法與文獻[4]方法。這說明所提方法的監測性能高于文獻[3]方法與文獻[4]方法。 表2 不同方法的時間消耗測試結果 所提方法在對電力通信數據流量的異常監測過程中,采用自適應鄰域選擇法對數據流量作了降維處理,并采用并行分解傳感算法實現數據流量的并行分解。預處理后的數據流量便于傳輸與存儲,進一步降低了時間消耗。 ③召回率。 召回率用來衡量各方法監測出異常數據流量的能力。召回率越高,表明方法的異常監測能力越強;召回率越低,表明方法的異常監測能力越弱。 (15) 式中:R為召回率,%;K′為被監測錯誤的數據流量數量;T′為正確監測的數據流量數量。 不同方法的召回率測試結果如表3所示。 表3 不同方法的召回率測試結果 由表3可知,針對電力通信數據流量的異常監測,無論在哪組測試樣本集中,所提方法的召回率均高于89%。其相較于文獻[3]方法、文獻[4]方法的召回率更高。這是由于所提方法采用并行檢測方法處理數據流量,并將預處理后的電力通信數據流量輸入到構建的孤立森林異常監測模型,提高了數據流量異常監測能力。 電力通信數據流量監測過程中,受數據冗余的影響,產生了均方誤差大、時間消耗長、召回率高等問題。為此,本文提出電力通信數據流量異常的并行檢測方法。該方法首先采用自適應鄰域算法對電力通信數據流量作降維處理,并采用并行分解傳感算法實現數據流量的并行分解;其次采用并行檢測方法處理數據流量;最后將預處理后的電力通信數據流量輸入孤立森林異常監測模型中,從而完成電力通信數據流量的異常監測。試驗結果表明,該方法不僅降低了電力通信數據流量監測過程中的均方誤差和時間消耗,也在一定程度上提高了召回率。2 數據流量的并行檢測

3 試驗與分析
3.1 試驗設置
3.2 并行分解試驗

3.3 異常數據檢測試驗結果分析



4 結論