中國能源建設集團廣東省電力設計研究院有限公司 譚卓敏 姚 池 何智文 廖德芳 關秋楠
近年來,我國社會經濟出現跨越式發展,據專業人員統計發現,在2020年全國GDP總量超過100萬億,和1980年相比,增長幅度為4000%。在這種經濟奇跡增長背后,和我國電力工業提供的基礎保障能源有直接聯系,隨著電網規模不斷拓展,無形中提高了電網供電能力,但也增加了電網運行的安全風險。
目前,我國遼寧省有很多變電站均受到惡劣天氣影響,出現安全故障,導致很多區域發生停電事故,損失負荷為255.2MW,說明自然災害嚴重影響到電網運行。除了外在因素影響外,和電網結構、設備故障等因素有關聯,電網設備作為電力網絡的重要環節,一旦該環節出現安全事故,必然誘發嚴重的電網振蕩,甚至導致電網系統崩潰,嚴重影響到工農業生產效率[1]。
電網設備狀態量是指能直觀反映電網設備實際運行情況的信息。由于電網設備結構過于復雜,單個信息不能反映出設備實際健康狀況,但值得注意的是,要合理控制狀態量選擇數量。在故障診斷過程中,狀態量過多很容易影響到判斷的準確性,導致有用信息被無效數據埋沒,不利于工作人員判斷電網設備實際情況。因此,在選擇狀態量時,要嚴格遵循科學性、典型性等原則。其中典型性原則決定著設備健康評價質量,能準確反映出設備特征,狀態量選擇中并非依靠數量,如果其數量過多,不僅會提高數據收集難度系數,還會摻雜各種不相關狀態量,避免其對狀態評價造成負面影響。可見,典型性狀態量篩選是一個減法過程,要解決掉關聯性較低的狀態,加強模型搭建效率;科學性表示在選擇狀態量中要具有較強科學依據,通常利用儀器進行檢測,能充分體現出設備實際情況[2]。
為了避免受到上述因素影響,給建模流程打下堅實的基礎,工作人員要預處理數據資源:首先,數據清洗。第一,先識別數據中異常信息,主要包括重復信息、不完整信息、不正確信息等,再科學處理異常數據,形成完整的樣本集;第二,數據集成。其主要目的是整合各種數據信息,這里的整合不是直接集合過程,由于數據結構、名稱、定義等方面存在嚴重差異性,很容易影響到數據處理的準確性。工作人員要統一數據格式,將這些數據整合,刪除重復數據,保證數據使用質量;第三,數據轉換。將數據從一種格式轉變成其他格式的過程,對數據管理有重要作用,通常應用歸一化、規范化兩種方法。規范化是指統一數據單位、格式、順序等要素;歸一化是將狀態量數據由原本的絕對值向相對值方向轉變,是目前最常見的無量綱處理方法。但因為不同電網設備狀態數據單位差異性較強,這種處理方法能有效解決不同性質數據差異性,避免量綱給數據信息準確性造成嚴重影響;最后,數據歸約。在確保數據原始特征基礎上,合理控制數據集規模,加強算法效率的重要方法,其是由數據規約和數據降維兩種處理方式。其中數據降維是通過控制數據集中的屬性優化數據集,最常用線性判別分析、特征提取分析、主成分分析等;數值歸約控制數據集中數據,改善數據集內容[3]。
將收集到的1039組油中溶解氣體數據,嚴格按照8:2比例,分解到訓練集1378組,測試集345組,且進行建模作業。本文實驗仿真平臺采用Anaconda,編程語言Python 3.7(見表1)。

表1 故障樣本數據分布
調整參數主要目的是找到模型的最佳參數比,發現誤差和模型復雜度間的必然關聯。在挖掘數據過程中,工作人員通常采用衡量算法應用到泛化誤差方面,其泛化誤差值越低,說明模型泛化能力越強(如圖1所示)。

圖1 泛化誤差和模型復雜度關系圖
通過分析上述圖片內容,發現當模型復雜程度較低時,會影響到算法模型應用效果,產生較高的泛化誤差,即模型欠擬合;而如果模型復雜程度較高,算法模型易將噪聲數據特征應用到模型,增加泛化誤差,統稱模型過擬合;如果模型復雜程度適中,能合理控制泛化誤差,檢測精度最好。而調整參數主要目的是提高模型檢測精度,增加模型使用分數。基于此,本文采用Sklearn庫,調參對象為決策樹最高深度和數量,直到兩個參數數值能達到預期標準。結合自身多年工作經驗和數據內容,將參數決策樹數量設置為n_estimators= [5,10,15,20,25,30,35,40,45,50,55,60,65,70],最高深度值為max_depth_list =[5,6,7,8,9,10,11,12,13,14,15],準確檢測測試集準確率變化情況,如圖2所示。

圖2 RF 測試集的準確率
通過分析上圖,發現決策樹最高深度和數量經過160次迭代,變壓器故障診斷正確率在82次、58次、13次、102次時最高[4]。
2.3.1 不同模型性能對比
在故障診斷過程中,最常用支持向量機分類模型、邏輯回歸模型、最近領算法模型等方法。因此,工作人員要根據樣本集進行劃分,以無編碼數據為特征參量,應用到不同診斷模型中進行分析(見表2)。

表2 不同診斷模型的結果比較
通過分析上述表格,發現邏輯回歸模型診斷模型召回率、分類正確率、F1等分數均小于0.8,診斷效果未達到預期要求;隨機森林診斷模型中評價指標均超過0.9,表示其診斷效果較好。從整體角度分析,鄰算法模型、支持向量機分類模型正確率較低,隨機森林診斷模型能有效提高正確率8%~13%,判斷整體性能分數高于其他算法模型,說明本文診斷模型在故障診斷分類方面具有重要作用[5]。
2.3.2 不同故障集結果分析
為了分析各種故障樣本集對模型診斷正確率作用,根據不同故障類型,將樣本數據分成樣本1、樣本2、樣本3、樣本4、樣本5、樣本6,按照遵循8:2比例,合理規范訓練集和測試集,將15對氣體比值分別輸入到如下表格(見表3)。

表3 不同故障集診斷結果對比
高溫過熱、正常數據、高能發電、中低溫過熱等故障數據診斷精確度較高,F1分數超過0.8,具有良好的診斷性能。而低能發電故障數據精確率僅為0.72,通常是由于低能放電故障出現在電力變壓器故障前期,且不同放電類型產生的氣體比例存在嚴重影響,造成低能放電數據過于分散,給診斷效果造成嚴重影響。同時,各種因素影響局部放電故障數據準確性,工作人員要根據實際情況,合理提升樣本數量,全面加強診斷準確率。
2.3.3 不同特征量對結果的影響
本文采用15對氣體比值作為分類器的特征屬性,為了分析這些特征屬性對整體模型的重要程度,注重研究特征數據對模型評分的影響(如圖3所示)。可看到C10、C13、C14、C12、C11對整體模型影響程度在首位。但C11、C10、C13三組特征量也是行業標準中常用的三比值法的氣體數據,不僅檢驗了以往數據的正確性,還證明了該模型分類的準確性,對工作人員試驗有重要作用。

圖3 特征屬性對模型評分的影響度
綜上所述,政府部門要提高對電網設備安全故障的重視程度,分析既有設備工作情況和異常數據,提前預測故障問題,針對問題提出有效解決措施,制訂應急預案和運行方案,避免出現大規模停電現象,加強電網運行的穩定性。