胡福金,梁錦來
(廣東電網有限責任公司 佛山供電局,廣東 佛山 528000)
電力系統不出現異常運行模式即表明電力系統二次設備的正常運行,因電力行業發展速度逐漸提升,電網結構復雜度隨之日益增大。二次設備屬于電力系統的核心設備,直接影響電力系統的運行狀態[1]。因此,保證電力系統設備運行狀態不出現異常,成為電力部門運維人員關注的重點問題,相關學者研究表明,對二次設備缺陷數據挖掘與分析是判斷電力系統設備運行狀態是否正常的基礎。
目前,我國對二次設備缺陷數據挖掘與分析的研究僅處于探索與試驗的階段,即使某些研究資料對二次設備狀態分析進行了深層次分析,但因為理論基礎不足,資料信息與歷史數據欠缺,致使相關研究方法的適用性較差,可推廣性不足。文獻[2]方法雖然能夠實現變電站二次設備缺陷分析,但是該方法的分析過程較為煩瑣;文獻[3]方法的使用過程雖然操作簡單,但是評估結果的精度有待進一步優化。
為此,為了克服上文所述存在的種種問題,本文基于數據挖掘技術,研究電力系統二次設備缺陷分析方法,具體分析過程分為2步,并分別引入層次聚類算法、XGBoost模型,實現二次設備狀態的準確分析,在實驗中,此方法的使用效果被驗證優于文獻[2]、文獻[3]方法。
為了實現電力系統二次設備缺陷數據分析,在保證數據分析準確的基礎上降低分析耗時,設計二次設備缺陷分析方法,具體處理流程如圖1所示。
根據圖1所示流程,逐一分析處理過程。
基于層次聚類算法的電力系統二次設備缺陷數據挖掘方法操作流程如下。輸入:存在m個e維電力系統二次設備運行數據的數據集R;輸出:正常數據聚類結果與缺陷數據聚類結果。
①把電力系統二次設備運行數據集R設成q個數據組,各組存在多個數據目標;②在各個數據組中啟動原子聚類算法;③在原子簇集合中啟動原子簇合并算法;④缺陷數據挖掘完畢。
1.1.1 原子聚類算法
原子即為電力系統中隨機一個二次設備運行數據目標,原子聚類算法把數據組中的電力系統二次設備運行數據聚類設置為原子簇[4],原子聚類算法如圖2所示。

圖2 原子聚類算法示意Fig.2 Schematic diagram of atomic clustering algorithm
輸入:電力系統二次設備運行數據集合R中一個數據組,電力系統二次設備運行數據目標Q、原子距離參數dAC;輸出:原子簇集合∑BD。
(1)運算電力系統二次設備運行數據集合中數據目標q與另一數據目標p的距離D(q,p),如果D(q,p)小于原子距離參數dAC,2個數據目標則隸屬相同原子簇BD。
(2)原子簇集合得出中心點DBD設置為每個原子簇的形心。
原子聚類算法屬于一種分類算法,此算法和別的聚類算法之間差異是:原子聚類算法的參數不具有復雜性,主要參數是原子簇數值的距離閾值dAC,且該算法迭代次數僅需要一次,操作簡單。
電力系統二次設備運行數據目標和原子簇核心點間的距離通過曼哈頓距離運算:
(1)
式中,不同電力系統二次設備運行數據目標依次為qj、pj;j為第j個數據目標。
1.1.2 原子簇合并算法
原子聚類變成原子簇后,啟動原子簇合并算法,把原子簇合并后便可獲取聚類簇[5-7]。原子簇合并算法屬于凝聚聚類算法,可逐步合并近鄰原子簇。
輸入:根據上述原子聚類算法獲取的原子簇集合∑BD以及原子簇距離參數dGD;輸出:聚類簇集合∑GD。
(1)運算原子簇集合∑BD中不同原子簇GDj、GDi的距離D(GDj,GDi),如果D(GDj,GDi)不大于dGD,原子簇GDj、GDi則隸屬相同聚類簇GD。
(2)運算每個聚類簇的密度。原子簇合并算法在運行過程中,若2個聚類簇具有“鄰居”關系,便把這2個聚類簇相融為一體[8]。2個原子簇間距可看作兩者中心點的密度:
(2)
其中,DGDj、DGDi分別為兩個原子簇的簇心。
1.1.3 基于層次聚類算法的缺陷數據識別算法
根據上述分析,設計二次設備缺陷數據識別算法流程如下。輸入:不存在電力系統二次設備運行數據分類信息的聚類簇集合∑GD、標準聚類簇密度Es、電力系統二次設備正常運行數據Sm和電力系統二次設備缺陷數據比率參數Sa;輸出:存在電力系統二次設備運行數據分類信息的聚類簇集合∑GD。①將聚類簇集合∑GD中聚類簇按照從大至小的順序進行排列;②運算正常聚類簇的密度;③運算各個聚類簇密度和正常聚類簇密度之比,如果此比值不大于缺陷數據比率參數Sa,則隸屬為缺陷數據[9]。
1.2.1 特征指標集的建立
電力系統二次設備種類和數目具有多樣性,為此,在挖掘電力系統二次設備缺陷數據之后,為準確分類電力系統二次設備缺陷類型,需要提取缺陷數據中的具體數據特征,構建電力系統二次設備缺陷特征指標集[10]。電力系統二次設備缺陷分類指標集詳情見表1。

表1 電力系統二次設備缺陷分類指標集Tab.1 Details of defect classification index set of secondary equipment in power system
由表1可知,與電力系統二次設備缺陷存在關聯的特征量類型主要是種類特征、數值特征。
1.2.2 特征和缺陷級別標簽的設置
考慮到XGBoost模型的輸入僅支持數值,必須將二次設備缺陷數據的種類特征實施編碼,把種類特征變換成數值特征[11-13]。
圍繞輸入的種類特征,因為各個特征存在的屬性數目較少,本文使用獨熱編碼的模式實現二次設備缺陷數據的種類特征編碼:通過0與1描述此類種類特征,通過M位狀態寄存器編碼M個狀態、各個狀態均存在具有獨立性的寄存器位。
按照我國電力設備權限管理的相關標準,把電力系統二次設備缺陷根據嚴重程度依次設成A級缺陷、B級缺陷,C級缺陷(表2)。

表2 二次設備缺陷嚴重程度Tab.2 Defect severity of secondary equipment
1.2.3 缺陷分類模型
根據上文分析內容,在設置特征和缺陷級別標簽的基礎上,構建電力系統二次設備缺陷分類模型(圖3)。

圖3 缺陷分類模型示意Fig.3 Schematic diagram of defect classification model
根據圖3缺陷分類模型可知,構建模型實現過程如下:①在章節1.1挖掘的電力系統二次設備缺陷數據中提取缺陷特征設置為XGBoost模型的輸入數據;②去除所輸入電力系統二次設備缺陷數據中不完備特征[19];③將所輸入電力系統二次設備缺陷數據中的種類特征和缺陷級別標簽依次實施編碼;④按照比例把處理完畢的缺陷數據集設成訓練集與測試集;⑤把訓練數據集導入XGBoost模型實施訓練,以參數調節的形式,完成模型參數最優化[20];⑥通過調優后模型對測試集中數據實施缺陷級別分類。
實驗硬件運行環境:計算機的中央處理器是i5-5257U(2.7GHz),內存 58 GB;軟件運行環境為Windows 10,VC++6.0。
為測試本文方法的應用性能,在Matlab軟件中,以Gephi數據集為測試數據集,對本文方法的應用性能進行仿真測試。此數據集中存在50 000個二次設備運行數據目標,數據來源于某電力公司某年度的電壓表、電流表、功率表、繼電器、蓄電池組、直流發電機、高頻阻波器7種二次設備的缺陷數據。在實驗過程中本文將該電力公司某年度的二次設備缺陷數據進行預處理后,隨機提取2 000個數據目標作為本文方法挖掘與分析的數據。
(1)按照章節1.1提出的基于層次聚類算法的電力系統二次設備缺陷數據挖掘結果形成二次設備缺陷數據庫。
(2)補全缺失數據。由于電力系統二次設備具備高可靠性,二次設備缺陷類型具備分散性。在此情況下,盲目刪除部分屬性缺失的記錄會縮小樣本,易丟失一些小樣本包含的關聯規則,因此本文不刪除部分屬性缺失的記錄,而是通過查詢檢修報告補全缺失數據。
(3)統計缺陷原因。經統計,二次設備缺陷原因包括“調試質量不良”“制造質量不良”“設備老化”“運行維護不良”“其他缺陷原因分類”5種類型,以設備老化為主要測試指標,分別利用不同方法進行挖掘測試。
(4)輸出測試結果。
為測試本文方法對電力系統二次設備數據挖掘性能是否具有優勢,以文獻[2]、文獻[3]方法作為對比,測試3種方法在隨機提取的2 000個二次設備運行數據中對缺陷數據的挖掘效果。挖掘效果主要以缺陷數據樣本的挖掘量作為描述,對比結果見表3。分析表3數據后可知,本文方法、文獻[2]方法、文獻[3]方法對電壓表、電流表、功率表、繼電器、蓄電池組、直流發電機、高頻阻波器7種二次設備的缺陷數據挖掘結果存在差異。對比之下,本文方法的挖掘結果和實際缺陷數據樣本數一致,文獻[2]方法、文獻[3]方法的挖掘結果和實際缺陷數據樣本數分別存在1個、5個偏差,本文方法的挖掘結果最精準。

表3 對二次設備缺陷數據的挖掘結果對比Tab.3 Mining results of secondary equipment defect data
為測試本文方法對電力系統二次設備數據分析性能是否具有優勢,以文獻[2]方法、文獻[3]方法作為對比,測試3種方法在隨機提取的2 000個二次設備運行數據中對缺陷數據的分析效果。分析效果主要通過3種方法對7種二次設備的缺陷級別識別效果體現,識別效果需要通過準確率Q1、召回率Q2、F1值3種指標進行分析。
(3)
(4)
(5)
式中,MTP、MFP、MFN分別為真正類、真負類、假正類。
3種方法的準確率、召回率、F1值測試結果如圖4所示。分析圖4數據后可知,本文方法、文獻[2]方法、文獻[3]方法對電壓表、電流表、功率表、繼電器、蓄電池組、直流發電機、高頻阻波器7種二次設備的缺陷級別識別后,本文方法對電力系統二次設備缺陷的識別結果準確率、召回率、F1值高達0.99,均高于對比方法,由此可知代表本文方法對二次設備缺陷識別級別識別精度極高。

圖4 3種方法對二次設備缺陷級別識別效果Fig.4 Effect of three methods on defect level identification of secondary equipment
識別耗時主要體現了3種方法的操作難度,操作難度小,則識別耗時短。3種方法對7種二次設備的缺陷級別識別耗時測試結果如圖5所示。分析圖5數據后可知,本文方法、文獻[2]方法、文獻[3]方法對7種二次設備的缺陷級別識別耗時差異較為明顯,本文方法的識別耗時低于400 ms,文獻[2]方法、文獻[3]方法的識別耗時均大于500 ms,對比之下,本文方法的識別耗時最短,表示本文方法在識別電力系統二次設備缺陷級別時操作難度最小。

圖5 對7種二次設備的缺陷級別識別耗時測試結果Fig.5 Test results for defect level identification of seven kinds of secondary equipment
綜上所述,本文方法對電力系統二次設備缺陷數據的挖掘與分析性能占有優勢。
文章以電力系統二次設備缺陷數據挖掘與分析為研究內容,提出利用缺陷數據挖掘的方法,實現高精準度快速的缺陷數據挖掘與分析。在實驗測試中,本文研究方法對電壓表、電流表、功率表、繼電器、蓄電池組、直流發電機、高頻阻波器7種二次設備缺陷數據挖掘并分析后,挖掘的缺陷數據樣本數量和實際樣本數量一致,挖掘精度高于對比方法,對7種二次設備缺陷級別的識別精度也大于對比方法,可優化電力系統二次設備缺陷問題的分析效果。