張 彤,沈 倩,王 瓊
(1.國網上海市電力公司經濟技術研究院,上海 200233;2.國網上海電力設計有限公司,上海 200002)
在電力工程中需要收集海量數據來進行問題分析,但由于各類復雜因素的影響,所收集的數據通常會存在異常情況,因此需對其進行分析處理以識別出異常個體[1]。識別異常數據對電力工程造價的預算及核查均有重要作用,而快速、精準地識別則是提升工程造價準確性的有效保障[2-4]。
以往,此項工作由電力行業工作人員人工完成,不僅工作量大、成本高且效率低,還無法保證異常數據識別的快速性與準確性。為此,文中基于模糊聚類與改進遺傳算法(Improved Genetic Algorithm,IGA)提出了一種異常電力工程數據的自動識別方法。
模糊聚類算法[5-8]是一種依據對象間的相似特性,對相關對象進行分類的方法。該算法共包含三個步驟:規范化數據、建立模糊相似關系矩陣和聚類,具體如圖1 所示。

圖1 模糊聚類算法步驟
聚類過程的步驟如下:
步驟1:規范化數據,規范化操作可直接通過確立一個統一的量綱來完成。假設需要分析的數據樣本共有n個,用xi來表示(i=1,2,…,n),得到的數據集為X=[x1,x2,…,xn]。若每個樣本xi均有m個影響指標,可將xi表示為xi=[xi1,xi2,…,xim]T。
步驟2:建立模糊相似關系矩陣,首先得確定樣本到聚類中心的歐氏距離Dij,其可表示為:
式中,m為特征數,即特性影響指標數;xk為擬定的樣本中心。
根據式(1),可由式(2)得到個體xi的相似度αij,將每個個體的相似度排列成矩陣形式便可獲得模糊相似關系矩陣A={αij}:
步驟3:聚類,首先求出A的模糊等價矩陣A*=然后令λ=αij*,并將λ按由小到大的順序取值,再求出模糊等價矩陣A*的λ-截陣Aλ*;最終將矩陣中元素為1 時對應的樣本分為一類,且λ越大,合并項則越多。此外,當滿足式(3)的條件時,所有樣本將被歸為一類。λ的計算方式如下:
通過上述步驟,便可將n個數據按照需求加以分類。由于此次是對電力工程異常數據進行分析,故將其分為聚類邊界內的正常與異常數據兩類。
考慮到電力工程數據規模通常較為龐大,為了能在模糊聚類算法識別時充分利用數據,文中進一步將遺傳算法引入至數據識別中。同時還提出了一種改進策略,以實現數據搜索能力與效率的平衡。
遺傳算法[9-11]是一種基于自然選擇與遺傳機理的全局搜索尋優方法。典型遺傳算法的搜索流程如圖2 所示,主要包括個體適應度計算、選擇與交叉、變異等操作。

圖2 遺傳算法尋優搜索流程
1)適應度函數
在遺傳算法中,通常將數據實際與期望輸出的均方誤差倒數作為個體的適應度函數[12],即第i個個體的適應度fi可表示如下:
式中,Ei為數據實際與期望輸出的均方誤差。
2)選擇與交叉
遺傳算法一般通過輪盤賭法(Roulette Wheel Selection)[13]進行選擇,即讓上一代中適應度高的個體進入下一代,從而實現對低適應度個體的篩除。該方法不僅能防止出現振蕩,同時也提升了搜索速度。交叉操作可以加強全局搜索能力,通常采用的典型方法是設定一個固定的交叉率pc。
3)變異
通過變異操作獲取最優個體便可進行新一輪的操作,直至得到最優解為止。典型的變異率表達式如下:
式中,a是調節系數;G是持續并未出現最優個體的代數;H是總遺傳代數。
交叉率與變異率對遺傳算法的尋優搜索性能均有著重要影響。其中,交叉率是決定遺傳算法性能最為關鍵的環節,取值也較為重要:若取值過大,會降低算法的效率;而取值較小,則會降低全局搜索能力。因此為了克服這一矛盾,文中進一步提出一種基于自適應的交叉概率。該方式既擺脫了傳統固定交叉率方式的束縛,又實現了自適應調整。自適應交叉概率的表達式為:
式中,b是自適應系數;favg是當前代個體的平均適應度,fA、fB分別是兩個交叉個體的適應度。
而變異率則對算法的尋優能力影響較大。合適的變異率可實現精準尋優,并增強全局搜索的準確性。故進一步提出了一種基于自適應的變異概率。其與自適應交叉率類似,均是由個體變化的適應度形成自適應變化的過程,進而完成自適應調節。需要注意的是,應用于變異率的兩個個體適應度與交叉率相同,也為fA和fB,目的是為了保持自適應調節過程的一致性。自適應變異率的表達式為:
基于自適應交叉率及變異率的改進遺傳算法尋優搜索流程與圖2 類似[14-16],僅需將圖中的交叉、變異操作按式(6)-式(7)所示的自適應方式進行即可。
基于上述模糊聚類與改進遺傳算法,文中提出的異常電力工程數據識別流程,如圖3 所示。整個過程可由Matlab 編程實現,將所需識別處理的電力工程數據文件導入至Matlab 中并啟動運行。再利用模糊聚類與改進遺傳算法進行深度搜索,便可自動生成聚類文件,即識別結果。該流程無需投入大量人力進行手動識別,在降低成本的同時還提升了效率。

圖3 異常電力工程數據識別流程
為驗證所提方法的有效性與優越性,該文采用某電網公司所提供的電力工程造價歷史數據,并基于Matlab 編程進行了仿真分析。
根據上述理論分析,將造價數據用xi表示(i=1,2,…,n,n為數據總個數),得到的數據集為X=[x1,x2,…,xn]。造價數據主要受輸電設備參數(線路長度、導線材質、導線粗細)、變電設備參數(變壓器結構、變壓器容量)以及經濟因素(經濟限額)的影響。依次對這6個影響指標進行編號,獲得影響指標集為xi=[xi1,xi2,xi3,xi4,xi5,xi6]T。
仿真環境如下:處理器CPU 為i7-10750H;處理器GPU 為3060TI;軟件平臺的版本是Matlab R2019b;編程語言為M 語言。
首先檢驗將模糊聚類算法應用于電力工程異常數據識別的有效性,結果如圖4 所示。

圖4 模糊聚類算法識別效果檢驗
由圖4 可知,采用模糊聚類算法對電力工程數據進行聚類分析時,聚類特征明顯,并實現了較優的數據識別效果。圖中邊界圈內為正常數據,圈外則為異常數據。
進一步對比了使用模糊聚類算法(方法1)、采用模糊聚類結合典型遺傳算法(方法2)以及利用模糊聚類結合改進遺傳算法(方法3)這三種不同方法的效果。選取的歷史數據總量為1 000 條,其中正常數據700 條,異常數據300 條。不同方法的識別結果對比,如表1 所示。此外,誤識別個數包含未識別到的異常個數與誤識別的正常個數。
從表中可看出,僅采用模糊聚類算法時,誤識別個數為10 個,誤識別率為3.33%,識別時間則為8.5 min。結合傳統遺傳算法后誤識別個數降至4個,誤識別率為1.33%,說明識別能力得到了一定的提升,但對識別時間的改善較小,仍需7.2 min。而該文算法進一步降低了誤識別個數,且誤識別率為0.67%,在對比方法中為最優,同時識別時間也大幅減少,僅需2.7 min。
為探究不同數據規模下識別結果與上述結論的一致性,故增大數據規模繼續分別進行了2 000、3 000、4 000、5 000 以及6 000 個數據下的仿真。依據采用三種不同方法仿真結果繪制的對比曲線,如圖5 所示。其中,圖5(a)為誤識別率的對比曲線,圖5(b)為識別時間對比曲線。

圖5 不同數據規模下各方法識別結果對比
由圖5(a)表明,不同數據規模下,應用模糊聚類算法進行數據識別的誤識別率均保持穩定,證明了該算法識別的穩定性。同時還可以看到,基于模糊聚類與改進遺傳算法的方法3 誤識別率為最低,且均低于1%。而從圖5(b)則可看出,三種方法的識別時間均隨數據規模的增大而增加。其中,基于模糊聚類與改進遺傳算法的方法3 識別時間始終為最低。由此說明,通過采用所提改進的遺傳算法自適應交叉方式,在增大全局搜索能力的同時,還能大幅提升算法的識別效率。
文中圍繞電力工程中異常數據的識別問題,提出了一種基于模糊聚類與改進遺傳算法的異常電力工程數據識別方法。通過采用模糊聚類算法,對數據進行自動歸類并識別出異常數據,再進一步結合所提改進遺傳算法,增強了全局搜索能力和算法的識別效率。基于Matlab 平臺的仿真實驗,驗證了所提方法的正確性和有效性。表明該方法可以對電力工程中的異常數據進行有效識別,且識別準確度高、時間較短,實現了數據搜索能力與處理效率的平衡。