代 慶,陳耀沖,張 霞
(南方電網數字電網研究院有限公司,廣東廣州 510520)
為了實現電能數據的合理利用,必須保證電能數據的質量滿足應用要求[1],需要進行電能數據異常特征的提取[2]。
電能量數據維度較為顯著,且數據量龐大,這對電能量數據異常特征準確、高效提取存在一定影響,文獻[3]、文獻[4]分別提出了基于DBN-RF 的電網工控系統異常識別方法、基于KL 變換和KL 散度的電網數據特征提取與分類方法,這兩種方法對電能量數據異常特征的提取精度較高,但運算過程較為復雜,實時性得不到保證,對高維、海量的電能量數據應用的適用性較差。為此,該文提出基于數據挖掘的電能量數據異常特征提取方法,以期實現電能量數據異常特征的實時提取。
快速密度峰值聚類算法存在兩種假設:第一種是異常電能量數據聚類中心被密度較小的鄰居數據包圍[5];第二種是聚類中心和其他密度較小的數據點距離均十分顯著[6]。
此類情況下,針對異常電能量數據樣本點而言,必須運算兩種參數:局部密度qj與距離αj。局部密度qj的運算和另一個參數階段距離ec存在密不可分的關系,電能量數據集里隨機一個樣本點yj的局部密度qj為:

其中,電能量數據樣本點yj和yi的距離是eji;β是樣本數量。qj可描述電能量數據集Y里和yj距離低于ec的異常電能量數據樣本點數目。
距離αj描述為:

其中,qi是電能量數據樣本點i局部密度;αj是描述電能量數據樣本點yj與比其密度顯著的樣本點之間距離最小值,但電能量數據集里密度最高的樣本,存在αj=maxeji,此時,此樣本點將存在最大密度與最大距離,將被看作為聚類中心,但局部密度不大、距離顯著的數據點便屬于異常電能量數據。
在獲取電能量數據集Y里全部樣本點的(qj,αj)后,制作qj與αj的二維平面圖,簡稱決策圖,在決策圖里兼具qj與αj最大值的點,此類點能夠看作數據集Y的聚類中心。從異常數據檢測的角度分析,決策圖里能夠兼具qj與αj最小、最大的點,可初步看作為異常數據。在原始電能量數據集里[7-10],運算隨機樣本yj和其他樣本之間的歐式距離e(yj,yi),并把運算結果根據升序準則排序,將第h個距離的樣本設成Mh(yj),yj的H個最近鄰是:

通過M(yj)運算yj的局部密度:

其中,H為電能量數據樣本數,其局部百分比為w,且H=wM,若局部密度值較大,則隨機樣本yj的密度較大。

1.2.1 樣本屬性分類
異常電能量數據特征,可體現電能量數據的波動性與變異性,該文使用基于數據挖掘的異常電能量數據特征分類方法,通過數據挖掘技術中的聚類算法將異常電能量數據進行特征聚類[11-14]。設置所獲取的需要進行特征分類的異常電能量數據集合為N,N具有M個異常電能量數據樣本集合。異常電能量數據樣本權值是di(t),異常電能量數據聚類權值是對Ht個異常電能量數據樣本yi(1)設置H個聚類中心,那么異常電能量數據聚類中心為,異常電能量數據樣本相對聚類中心的模糊隸屬度為φji。假定具有m個b維異常電能量數據特征集合,描述成A=()a1,a2,…,am,那么各個特征aj相應的密度指標是:

其中,異常電能量數據特征aj的鄰域區間半徑是sa,將此區間里密度最大值設成a1,那么密度指標設 成E1。ai、aj依次 是 描 述 異 常 電能量數 據i、j的特征。如果第k次異常電能量數據聚類中心是ak,其密度指標是Ek,則式(6)變換為:

其中,異常電能量數據密度指標的鄰域區間半徑是sb。
1.2.2 特征提取優化
將異常電能量數據集合設成N={n1,n2,…,nn},異常電能量數據特征分類的個體最優解集合是Rj={rj1,rj2,…,rjb},全局最優解集合是Rg={rg1,rg2,…,rgb},此時異常電能量數據特征分類的更新方案是:
求解異常電能量數據特征分布聚類的最大值,則:

求解平均粒度,則:

其中,第i個采樣點j維中的分布聚類是gji(t);異常電能量數據維度是b;總樣本N里異常電能量數據數量是n。
將高階統計量的異常電能量數據特征聚類度設成v,則有:

將v值進行循環迭代,便能完成異常電能量數據特征參數優化選擇,獲取最終的異常電能量數據特征aj,實現電能量數據異常特征提取。
為測試該文方法對電能量數據異常特征的提取效果,在Windows10 系統中搭建實驗平臺,內存為16 GB,主要使用Python3.6 實現。實驗中所用電能量數據集源于某電力集團2020 年的電能量數據,在排除了356 條不可用數據后,以剩余的30 232 條電能量數據記錄為數據樣本,此樣本中分為正向有功總電量、反向無功總電量、四象限無功電量三種。
使用該文方法檢測該電力集團2020 年的電能量數據中正向有功總電量、反向無功總電量、四象限無功電量三種電能量數據樣本里的異常數據,檢測結果如表1 所示。
根據表1 測試結果顯示,檢測結果和異常數據樣本量記錄基本一致,可有效檢測異常電能量數據。

表1 異常電能量數據檢測效果
使用該文方法、文獻[3]方法、文獻[4]方法對正向有功總電量、反向無功總電量、四象限無功電量三種數據進行異常數據檢測,檢測結果如圖1-3 所示。

圖1 正向有功總電量數據中異常電能量數據檢測結果
根據圖1-3 顯示結果可知,該文方法、文獻[3]方法、文獻[4]方法對正向有功總電量、反向無功總電量、四象限無功電量三種數據進行異常數據檢測后,該文方法的檢測率均高于0.95,且均大于文獻[3]方法、文獻[4]方法。誤報率均小于0.02,且均小于對比方法。由此可證,在同類檢測方法中,該文方法對異常電能量數據的檢測效果最佳。

圖2 反向無功總電量數據中異常電能量數據檢測結果

圖3 四象限無功電量數據中異常電能量數據檢測結果
使用該文方法檢測正向有功總電量、反向無功總電量、四象限無功電量三種電能量數據樣本里的異常數據后,檢測結果和異常數據樣本量記錄基本一致,檢測偏差值最大值為1 條,在可接受范圍之內;對正向有功總電量、反向無功總電量、四象限無功電量三種數據進行異常數據檢測后,檢測率均高于0.95,誤報率均小于0.02,對電能量數據異常特征的提取效果最好。由此可知,該文方法可提升電能量數據異常特征提取效果。