趙國杰, 劉成浩
(南方電網深圳數字電網研究院有限公司,廣東,深圳 518055)
各種遠程供電技術相繼問世,如何提高電網的運行穩定性是電網發展的主要問題,特別是電網一次設備的故障診斷與預測,成為智能電網建設的首要目標[1-2]。
關于設備缺陷預測的研究方向與成果眾多,文獻[3]針對現有的設備缺陷預測方法存在的不足之處,以數據挖掘技術為核心,結合監控設備完成電網設備缺陷的預測,根據近期監控設備內的數據,提取出主要數據內容,并與設備歷史典型缺陷數據相比較,通過量化指標的方式,可以獲得設備缺陷預測結果。文獻[4]根據設備缺陷特征多、判斷難度大的特點,以指標集為基礎,通過XGBoost算法建立預測模型,確定設備缺陷類型。文獻[5]提出的設備狀態分析方法,依托于海量多源異構數據,將人工智能技術應用于電網設備觀測中,以達到預測設備缺陷的目的,但是隨著數據量的增長,預測準確度大幅下降。文獻[6]構建測試用例和代碼關聯矩陣,將缺陷預測應用到聚類優先排序中,未能獲取最佳類簇數和特征子集時,將缺陷探測能力強的測試用例優先執行,提高回歸測試效率。
綜合以往研究經驗,提出以數據挖掘與相關性分析為核心的電網一次設備缺陷預測方法。
在電網一次設備缺陷預測過程中,缺陷數據庫的建立是預測準確度提升的關鍵,只有總結詳細且準確的缺陷案例,才可以提高缺陷預測準確率。建立設備缺陷數據庫需要從3個方面入手,分別是利用數據挖掘技術采集融合設備缺陷數據、清洗缺陷數據內不符合要求的信息、將電網一次設備缺陷產生的原因與應對措施標注在相對應的位置。
數據庫建立流程如圖1所示。

圖1 缺陷案例庫的構建流程
圖1所示缺陷案例庫的建立,實質上是利用數據挖掘方法對當前采集數據的特征進行挖掘,數據挖掘的核心內容是數據處理。在數據處理過程中,去除異常、重復數據以達到格式標準化的目的[6-7]。
(1)清洗不精確記錄
若數據集S中至少有a部分與對象Q的距離大于b,則對象Q為參數a和b基于距離的孤立點,即Qb(a,b)。即將基于距離的異常點看作缺乏足夠多鄰居的對象。
采用索引算法的多維索引結構,查找每個對象Q在半徑b范圍內的鄰居。設M是一個孤立點的b領域內的最大對象數目,若對象Q不足M+1個鄰居,則Q為孤立點,即異常數據。
(2)清洗重復數據記錄
清洗數據集中的相似重復數據需判斷兩條數據是否相似或相同,即有關字段的比較。如果兩條記錄在某些字段上的值相等或足夠相似,則認為這兩條記錄近似重復,簡稱重復記錄元組。
采用Python機器學習技術中的貝葉斯網絡算法清理重復記錄元組。
設Z=T1,T2,…,Tn為屬性值含有重復數據的元組。使用用戶Q*找到元組Z的置信度:
(1)
式(1)中,R(T*|Q*)表示關聯函數,若重復元組T與用戶的查詢Q*匹配,則關聯度為1,否則為0。若根據需要指定閾值E(T)。
(2)
根據需求設定E(T)在0和1之間的取值,若上述結果超過這個閾值即認為是重復記錄。利用輔助工具Scikit learn進行清洗操作。
在分析電網一次設備缺陷特征的基礎上,根據季節性、設備型號等指標對電網一次設備缺陷進行了預測。采用X-11算法,構建設備缺陷預測模型。
設備缺陷可以分為機械、電氣、絕緣、發熱、滲漏、誤動、拒動、儀表、指示等設備自身因素和銹蝕、化學、等外界影響因素,其中,季節性負荷影響著設備運行態勢的安全性,季節性環境要素如溫度變化、深度變化等,影響著設備銹蝕程度,由此可知,需要多角度擬合分析設備缺陷的季節性屬性,同時向前、向后擴展序列,從而得出如下所示的設備缺陷預測模型:
(3)
式(1)中,L表示滯后算子,主要計算數據包括非季節自回歸算子α(L)、季節自回歸算子A(L)、非季節移動平均算子θ(L)、季節移動平均算子B(L)。并且,在計算過程中需要考慮,差分次數d、D與自回歸最大滯后階數p、q,結合差分算子Δ、季節差分的步長s、原始時間序列Y、設備缺陷數據噪聲ε、設備檢測時間t獲得計算結果。除此之外,在計算過程中第i個回歸系數βi,與第i個回歸變量xi表示兩個擴展影響因素。
通過上述計算,去除了模型中無意義的季節性項,時間序列表示趨勢項和不規則項之和。在預測電網一次設備缺陷時,季節性調整可以通過加法和乘法兩種模型來完成。加法模型的計算公式如下所示:
Yt=TCt+St+It
(4)
而乘法模型為
Yt=TCt×St×It
(5)
在式(4)、式(5)的計算中,不包含奇異值的月度時間序列Yt受到趨勢循環項TCt、季節項St與不規則要素It三種因素的影響。
趨勢周期項代表設備時間序列的瞬時變化,季節性項代表同一季節設備缺陷的周期性特征。最終的不規則元素指一些影響設備缺陷預測結果的不可預測元素。
應用自下而上的聚類方法,結合皮爾遜相關系數,得出電網缺陷設備數據的相關性,根據數據相關性分析結果進行聚類操作。
皮爾遜相關系數σ(X,Y)的計算公式為:
(6)
式(6)中,通過兩組設備缺陷數據X,Y,和數據的樣本數量N的計算,得出皮爾遜相關系數的具體值。即獲取皮爾遜相關系數的計算結果,即采集某一種度量內兩個變量的相關性特點,當計算結果為0時,兩組設備缺陷數據沒有聯系。當相關系數計算結果為(0~1),可以判斷兩組數據存在正相關聯系,相反,計算結果在(-1~0)則是負相關聯系。
在對多組歷史電網一次設備缺陷數據進行相關性分析時,為了直接反映設備缺陷數據的相關性,在時間窗口的作用下,將最近一段時間內的設備缺陷數據整合,將多元線性模型表示為
rk=a1r1+a2r2+…+ak-1rk-1+b
(7)
式(7)中,k個的設備缺陷數據的多元線性相關系數表示為rk,此外模型的構建還需要考慮到變量系數a與常數b。
對于給定的一組設備缺陷數據,獲得組中每兩個缺陷數據的皮爾遜相關系數,并將相關系數的計算結果與給定閾值進行比較,以獲得數據相關性分析結果,隨著時間的不斷推移,設備缺陷數據會隨之更新,當數據更新后,使得訓練樣本發生變化,從而完成多元線性模型的重新訓練,從中選定擬合度最佳的訓練結果,當相關系數大于閾值時,表明兩臺設備缺陷數據具有較強的相關性,可以將兩臺設備劃分為一組。
由于電網運行過程具有高度復雜性,在獲得設備缺陷預測結果前,有必要對相關性分析結果的分類程度進行評估,過程如下:
在風險評估過程中,需要將預測結果中設備缺陷的發生概率乘以設備缺陷的嚴重程度作為風險指標。即分析時間的可能性和嚴重性的乘積。具體計算公式為
R(Ei)=P(Ei)×C(Ei)
(8)
式(8)中,事件風險指標R的值,需要計算事件Ei發生概率P,與事件Ei發生結果C的乘積。
除此之外,還需要定義在線風險評估,提出潛在的不確定因素,整合相關分析結果,將設備健康度H、設備重要程度I作為重要指標,明確設備缺陷造成的全方位影響,以影響程度為對照組,將電網一次設備風險定義為
R(Ei)=H(Ei)×I(Ei)
(9)
上述公式計算過程中,考慮到電網一次設備運行過程中所涉及的各種參數,將預測結果中設備缺陷的發生概率乘以設備缺陷的嚴重程度作為風險指標,即將上述獲取的相關設備缺陷數據繼續歸類為一個類別,在多元線性相關系數rk計算過程中,依托于最小二乘法將部分變量作為模型的因變量,剩余的作為線性回歸操作的自變量,依托于每一個回歸模型的相關系數計算結果,將該模型的因變量設置為該組內最終確定的因變量,
(10)

所有歷史設備缺陷數據通過連續迭代計算進行劃分,當所有風險值的合成相關性小于閾值時,終止迭代計算,以保證設備缺陷預測過程的可迭代性和準確性。
根據設備缺陷特征曲線獲得缺陷預測結果的轉換概率,根據已發生的設備缺陷數據、預測的設備缺陷情況以及一段時間內的缺陷變化情況,以獲取電網一次設備在維護期間是否會產生其他缺陷。并以量化計算的方式將設備風險評估結果呈現出來,從而判斷是否發布異常預警,當風險水平超過安全范圍時,需要發出預警,以確保員工能夠快速完成設備檢查和維護。
針對文中設計的電網一次設備缺陷預測方法,進行實例應用測試。選定某省5個電網一次設備作為測試對象,由 a至 e依次為發電機,變壓器,高壓斷路器,負荷開關,電抗器。在實驗中,以500張照片為特征抽取與歸類,各類別選取50張影像進行訓練,所選設備如圖2所示。

(a) 發電機
測試過程中,基于Python機器學習的輔助工具Scikit learn,結合分類、聚類等數據挖掘方法,完成電網一次設備缺陷的數據分析和挖掘,為設備缺陷預測提供數據支持。獲取上述設備2020年1月至2021年5月的缺陷數據,作為原始數據使用,5個設備的缺陷數據關聯性因素,如表1所示。

表1 缺陷數據關聯性因素
步驟一,當圖像數據入庫后,應用缺陷案例庫的構建流程能直接從圖像對應的特征文件中提取訓練數據和測試數據。
步驟二,應用第二類 SVM器利用皮爾遜相關系數,將所知道的圖像特征集進行相關性的分析和歸類,將其分為k個不相交且大小大致相等的k個子集,以k-1個子集為培訓集合,依據一系列的參量構造出一套新的分類法,然后使用剩余的子集進行檢測正確性,以驗證該模式的分類正確性。
步驟三,將上述步驟反復k遍,每一次保留一個作為測試的一個子集合,這樣就可以讓每一個子集合都有一個測試的可能。
在進行了交叉驗證之后,將其余的樣本輸入Scikit學習工具中,分析上述關聯性數據,生成數據效果圖,如圖3所示。

圖3 原始數據效果圖
圖3中的A、B、C、D、E分別表示發電機、變壓器、高壓斷路器、負荷開關與電抗器設備的缺陷數據變化情況,以此,生成5個相應的數據集。
將本文設計的缺陷預測方法應用于預測6月份不同設備的缺陷數量。并與實際缺陷數進行比較,從而闡明預測方法的應用性能。
為了保證缺陷預測誤差較低,需要設置缺陷預測模型的迭代次數,降低對預測準確性的影響。獲取預測模型訓練的誤差曲線,如圖4所示。

圖4 誤差曲線圖
由圖4可知,模型訓練誤差隨著訓練次數的增長而不斷降低,尤其在訓練次數超過1500次后,模型預測誤差達到了標準值,幾乎不會干擾設備缺陷的預測結果。因此,在測試中,將模型迭代次數設置為1500次。應用文獻[3]、文獻[4]所提出的預測方法完成設備缺陷預測,通過測試結果的對比,加強測試結果的合理性。
測試過程中,采用F-measure值作為主要評估指標,F-measure值是一種統計量,計算公式表示為
(8)
式(8)中,F-measure值的計算結果取決于查準率P和召回率R,通過計算結果體現測試方法的準確性。
AUC值指ROC曲線下的面積,可以直觀反映預測方法的精確性。通常情況下,AUC值在0.5到1之間,越接近1表明該方法的預測結果更加準確。
根據文中設計的缺陷預測方法,將不同方法與實際缺陷情況相比較,得出不同方法的F-measure值對比情況,如圖5所示。

圖5 不同預測方法的F-measure值對比圖
圖6中,文中設計的預測方法所得出的F-measure值整體高于其他兩種方法,且文中設計預測方法的平均F-measure值,達到了為0.41,文獻[3]、文獻[4]方法的平均F-measure值分別為0.37、0.38。

圖6 不同方法的ROC曲線對比圖
在深入分析三種預測方法后,得出預測方法的ROC曲線,如圖6所示。
根據圖6 ROC曲線對比結果可知,文中設計預測方法AUC值大于其他兩種方法,進一步計算后,得出3種方法的具體AUC值,如表1所示。

表1 三種方法的AUC值對比
通過表1可知,文中設計的電網一次設備缺陷預測方法AUC值為0.92,相比文獻[3]、文獻[4]方法,AUC值提升了0.07、0.11,保證其擁有更高的精確度。
本文以數據挖掘和相關分析為核心,完成了設備缺陷預測方法的設計,構建設備缺陷預測模型,根據設備缺陷特征曲線獲得缺陷預測結果的轉換概率,結合皮爾遜相關系數,分析電網缺陷設備數據間的相關性,將最近一段時間內的設備缺陷數據整合,聯合多元線性模型,分析時間的可能性和嚴重性的乘積,得到電網一次設備缺陷的預測結果,有效地提高了F-measure值和AUC值,提高了預測結果的準確性。