周松,李川,李英娜
基于改進PSO-SVM的電能計量裝置異常狀態識別研究
周松,李川,李英娜
(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)
電能計量裝置出現異常狀態后最終表現上傳的數據異常,利用計量系統自動化數據進行分析,盡早識別裝置異常有利于供電企業進行裝置檢修,提升運維能力。針對異常數據,人工使用判斷規則對其進行診斷需要大量時間,計量裝置出現問題后不能及時發現的問題,對已標記的異常數據進行研究,使用PSO-SVM模型對計量數據進行分析,判別裝置狀態異常。首先,針對粒子群算法易陷入局部最優的問題,將粒子移動的權重更新方式結合當前粒子的迭代次數和適應度值進行動態改變;其次,引入偏二叉樹結構的支持向量機分類模型,并且樹中每層的分類器使用改進后的粒子群算法尋找分類最佳超參數,增加分類準確率;最后,使用電能計量裝置對改進的PSO-SVM模型進行驗證,結果表明該方法能夠較好地識別出異常數據。
電能計量裝置;異常識別;自適應權重粒子群;二叉樹SVM
隨著中國電力行業智能化的發展,可上傳實時運行數據的智能電表被廣泛應用,由智能電表和電壓、電流互感器及其二次回路組成的電能計量裝置作為供電企業與用戶結算的儀表工具,其運行的穩定性和可靠性對保障供用電雙方貿易的公平性有重要意義。計量裝置中任何一個組成部件發生故障都會影響計量結果的準確性和可靠性[1-3],由于裝置本身故障和人為竊電故意破壞等原因,造成故障的多樣性,裝置計量異常。依靠人工巡檢的方式或通過一段時間的線損率,使用判斷規則發現并診斷故障需要大量的時間成本和人工成本,不能保證對裝置異常處理的及時性。隨著智能電網建設和智能電表技術的發展,越來越多的電能計量裝置運行數據上傳到供電企業的數據中心或計量自動化系統[4,5],由于電能計量裝置一旦出現異常狀態,會表現在該計量裝置上傳的電壓、電流和功率因數等數據的異常,通過對計量自動化系統中運行數據的分析,可迅速對出現異常數據的電能計量裝置作出反應,如故障檢修、電量追補等。
目前,電能計量裝置異常主要的診斷方法是通過一段時間內偏大的線損判斷該線路中的裝置是否異常;或利用數據可視化技術繪制用戶負荷曲線,通過對比歷史負荷曲線判斷裝置是否存在異常。以上兩種方法都存在時效性差和工作量大的缺點。已有許多研究通過電能計量裝置數據的異常對其進行分析,文獻[6]基于電能表、電壓互感器和電流互感器的歷史故障數據、運行環境數據等數據構造電能計量裝置,組建不同的評價指標,使用模糊分析法和層次分析法相結合的評估方法對計量裝置的運行狀態進行評估。文獻[7]使用營銷系統數據和計量生產調度平臺數據等數據,對電能表進行不同影響因素下的基礎測試,并以此建立評估模型對電能表進行狀態評估。文獻[8]對拆回的故障電能表使用關聯規則分析,確定電能表的故障類型與電能表故障影響因素之間的關系。文獻[9]通過聚類和云理論模型建立故障診斷模型,分析了電能表故障數據的不確定性和隨機性,實現電能表故障診斷。文獻[10,11]使用機器學習中的集成分類方法提升電能表故障診斷的準確率。但國內外大部分研究集中在智能電能表故障研究,沒有對電能計量裝置作為一個整體進行分析,忽略了由于電壓互感器、電流互感器及其二次回路的故障導致的電能計量數據異常。此外,對電能計量裝置的研究主要是基于廠家、和工況環境等影響計量的因素構建裝置運行評分矩陣,無法及時通過異常運行數據發現電能計量裝置運行過程中出現的問題。
針對以上問題,根據計量自動化系統中57.7 V、100 V、220 V等不同電壓等級各類計量數據的特點,建立改進的PSO-SVM模型,使用該模型對電能計量數據進行異常分類,得到表現在計量數據上的不同類型計量裝置異常。針對粒子群算法易陷入局部最小值的缺點,目前PSO優化方法大都集中在調整權重因子和增加種群多樣性避免局部最優[10-14],本文根據粒子迭代次數和適應度值改變算法中慣性權重的更新,并引入二叉樹SVM多分類方法,為得到更好的分類效果,使用改進的PSO算法對每層分類器進行尋找最優參數,并在公開數據集中進行驗證,最后應用于電能計量裝置異常數據分析上。
Kennedy和Eberhart最早在1995年提出粒子群優化算法[15](particle swarm optimization,PSO),PSO是受到鳥類群體覓食行為啟發的尋找最優解算法。在PSO算法中,每一個粒子都代表一個待優化函數的可行解,粒子的移動受到兩個方面的約束:速度和位置。其中,速度約束粒子移動的距離,位置約束粒子移動的方向,并且每一個粒子的移動都被賦予一個適應度函數評價粒子所在位置的優劣。在約束條件和評價函數的控制下,粒子移動過程中向著較好的區域進行搜索,經過多次迭代后在最優解附近聚攏。粒子速度和位置更新公式如下:


粒子群算法具有參數少、收斂快等優點,但存在容易過早收斂、容易陷入局部最優等缺點。由公式(1)(2)可知,粒子速度權重系數決定下一次飛行距離與本次飛行距離的關系,進一步影響飛行后所在的位置。越大,粒子在解空間上的飛行能力就越強,便于在全局范圍內搜索。越小,飛行步長越小,粒子在局部的搜索能力越強,有利于算法的收斂。但的值若過大則容易跳過最優解、在最優解附近震蕩或過早收斂;若過小則易陷入局部最優解。PSO算法權重應當在迭代初期選擇較大的權重,保證較強的全局搜索和跳出局部最優的能力,在迭代后期使用較小的權重進行較強的局部搜索,利于算法的收斂[16]。
針對以上問題,本文提出一種根據迭代次數和當前適應度值自適應改變權重的策略,公式如下:

式中:為當前迭代次數;+1為下次迭代次數;max為權重上限;min為權重下限;為某次迭代中其中一個粒子的適應度函數。在迭代初期,粒子的權重改變較大,隨著粒子迭代次數的增加,權重改變減小。同時,權重的改變由適應度函數決定,當粒子適應度小于等于平均適應度時,即分類模型準確度大于等于平均準確度時,慣性權重減小;當粒子適應度大于平均適應度時,分類模型準確度小于平均準確度,慣性權重增大。
慣性權重的增減幅度由迭代次數決定。迭代初期,權重增大或減小的幅度較大,便于在全局和最優解附近鄰域進行搜索。迭代后期,權重增大或減小的幅度較小,權重增加便于跳出局部最優解進行隨機搜索,權重減小便于局部進行精細搜索。
支持向量機(support vector machine,SVM)是一個建立在統計學習理論基礎上的有監督二元分類算法[17],基本思想是找到一個超平面使正負類別的所有樣本點到該平面距離最遠,而實際離平面足夠遠的點基本都能被正確分類,所以只要讓離超平面較近的點盡可能遠離這個超平面就會有較好的分類效果。在計量自動化系統中,正常運行數據電壓等級有57.7 V、100 V、220 V等,極大、極小的異常數據容易判斷,但距離標準電壓較近的異常數據不易判別,將SVM算法引入電能計量異常數據分析中能夠實現較高的準確率,同時在部分異常樣本較少的情況下也能實現較高的準確率。
設樣本集為{(x,y)|=1,2,3,···,},其中x?,?{+1,–1},線性可分時超平面為=0,支持向量到超平面的距離為T,?{+1,–1},即

SVM模型讓所有的分類點在各自類別的支持向量兩邊,同時要遠離這個超平面。由上式可以看出||||2最小時,間隔最大。加入錯誤分類的懲罰參數和允許錯誤分類的松弛因子后,目標函數就轉化為:

根據拉格朗日對偶化特性,將該優化目標轉換為等價的對偶問題來求解,原優化問題轉化為:

式中:(x–x)為核函數,本文使用徑向基核函數(x,x)–g||x–x||,為核函數參數,控制核函數的作用范圍,可得到決策函數:

在SVM多分類方法中,一種是直接求解法,但該方法時間復雜度高,實現困難,不適用于大量的計量數據中。另一種是將多個二分類SVM模型組成一個多分類SVM模型,本文選擇將多個二分類器組成一個多分類器的方法。將多個二分類模型組合為一個多分類器的方式有很多,常見方法有一對一,多對多,有向無環圖和二叉樹等方法[18]。在以上的方法中,由于需要構造的二分類器數量不同,二叉樹結構的多分類方法訓練的二分類器數目較少。該算法先將所有樣本分為兩個子類,訓練完成后,再將子類進一步劃分成兩個次級子類,如此反復,直至將所有類別單獨分成一個葉子節點。
在SVM分類算法中,優化問題中的懲罰參數0,越大表示對錯誤分類的懲罰越大,越小表示對錯誤分類的懲罰越小。松弛因子可以增加模型的泛化能力,若給定的松弛因子越小表示允許存在越多的錯誤分類樣本,此時模型的準確率較低;若給定的松弛因子越大表示不允許存在過多的分類樣本,此時模型的準確率較高。同時核函數中的參數也會影響分類模型的準確率,為提升每一個類別識別的準確率,本文使用改進后的粒子群算法對二叉樹中每一層的SVM二分類器參數進行尋找最優參數操作。
將標準PSO算法與自適應權重PSO算法進行對比,驗證PSO改進后算法的有效性。使用函數為Shaffer函數的6和7:


公式(8)(9)中函數只有一個最小值點(0,0)=0,優化前后的PSO算法皆設置為40個粒子迭代100次得到圖1結果。

圖1 優化前后PSO最優解與收斂速度對比
從圖中可以看出,改進后的粒子群算法能夠跳出局部最小值,找到全局最優值,且收斂速度較標準粒子群算法更快。
為驗證改進后算法的分類性能,分別從UCI公共數據集和KEEL公開數據集選擇6個公開數據集作為分類驗證對象,其中Seeds、Wine為UCI 公開數據集,Balance、Ecoli、Glass、Newthyroid為KEEL公開數據集。各數據集基本信息如表1所示。

表1 實驗所用公開數據集信息
驗證分類效果時,各數據集訓練數據與測試數據的比例為8∶2,劃分方式為隨機劃分,使用五折交叉驗證避免分類結果的隨機性。同時使用遺傳算法(GA)、模擬退火算法(SA)與原始PSO算法結合SVM分類算法進行對比,其中GA-SVM中種群大小為20,迭代次數為200,交叉率為0.9,變異率為0.035;SA-SVM中最高溫度為100,最低溫度為1e-9,鏈長為300;改進前后PSO的參數設置如下:粒子數為20,迭代次數為200,參數的范圍為[0.001,10],慣性權重最高和最低分別設置為0.9、0.4;本文所提算法使用SVM基分類器的個數隨樣本類別數改變。各組合分類器準確率如圖2所示。

圖2 各組合分類器分類準確率對比
由圖可以看出本文所提方法在多個公開數據集中分類準確率優于其他方法,同時引入Kappa系數[19]、海明距離[20]驗證分類的有效性,其中準確率為正確分類的樣本在總樣本數量中的比例;Kappa系數是統計學中的一種基于混淆矩陣的一致性評估方法,越接近1模型分類精度越高;海明距離表示分類結果與真實類別之間的距離,結果越接近0分類效果越好。6個公開數據集使用未改進的PSO-SVM多分類模型與改進后的PSO-SVM多分類模型的對比如表2所示。

表2 PSO-SVM分類模型改進前后效果比較