孫 勇,宋 銳,孟德霞,魏 敏,楊 晨,曹哲銘
(1. 國網新源控股有限公司,北京 100053;2.太極計算機股份有限公司,北京 100102)
在當下綠色能源大發展的背景下,抽水蓄能電站對于提高電網供電質量和電網靈活性及可靠性發揮著不可替代的作用。由于抽水蓄能機組運行復雜,啟動繁雜,水力、機械、電力共同作用,極有可能引起機組溫度過高、并網故障、甩油故障等,從而影響整個機組的正常運行。在電力系統中,抽水蓄能機組是非常重要的組成模塊,也是電力穩定、持續不間斷供應的基礎。因此,基于數據挖掘技術對抽水蓄能電站機組狀態進行預測和判斷具有重要的現實意義[1-7]。
目前,對于抽水蓄能機組狀態監測和故障診斷系統的研究大多基于傳統的信號處理方法,它是以機組的狀態監測為基礎,根據所獲得的監測數據,提取反映水輪機運行狀態的特征值,并對這些特征值進行分析診斷,判斷水輪機是否存在故障[8]。這種方法只能對故障進行事后分析,無法實現預測,而且由于故障樣本數據有限,導致其適應性差,只能用于特定故障的分析診斷。國內外已有一些基于數據挖掘技術的抽水蓄能電站設備故障診斷和狀態檢修方面的研究,為機組狀態監測分析和故障診斷提供了有益探索[6-7]。文獻[5]運用數據挖掘關聯規則對抽水蓄能機組的歷史故障信息進行分析,頻繁模式增長算法分析故障樣本事務,提取了機組有效故障信息,為電站運維人員提供了檢修指導意見[5]。故障診斷與預測實質上就是建立一套設備的運行狀態分析系統來提前預判機組的健康狀況,從而對是否需要檢修做出決定,實現預測性維修策略,避免被動維修造成的巨大損失。對機組狀態進行預測建模,首先要收集機組的相關信息,包括設備的基礎信息、歷史運行數據及設備故障信息等。通過對設備歷史數據進行清洗、特征工程、打標簽、數據挖掘和預測建模、模型性能測試驗證,最終得出抽水蓄能機組故障預測模型。模型部署后對機組當前監測值進行對比分析,判斷當前設備運行狀態是否正常。
數據挖掘的主要過程如圖1所示[4]。數據挖掘技術和算法多種多樣,主要是嘗試使用分類算法對抽水蓄能機組的狀態進行分類,也就是說給定機組的運行狀態值x,找到一個分類器模型f(·), 能夠通過模型計算得出機組狀態y=f(x),y為0-1變量,0代表無故障,1代表有故障。
本文使用三種典型的數據挖掘分類算法進行機組狀態預測建模。數據挖掘過程模型如圖1所示。
(1)決策樹(Decision Tree,簡稱DT)是一種最常用的呈樹狀結構的分類算法,其創建的過程主要包括變量選擇、決策樹生成以及決策樹修剪。首先對原始數據進行處理,并歸納生成可讀規則,然后使用決策樹對新數據進行分析。本質上決策樹是通過一系列規則對數據進行分類的過程。
(2)BP神經網絡是一種應用十分廣泛的神經網絡,按照誤差反向傳播的方法對其進行訓練,從而不斷對權值和偏差進行反復調整,從而使算法的正確率不斷上升。
(3)支持向量機(Support Vector Machines,簡稱SVM)是一種二分類模型,它的目的是尋找一個超平面來對樣本進行分割,分割的原則是間隔最大化,最終轉化為一個凸二次規劃問題來求解[1-3]。

圖1 數據挖掘過程模型
對于分類模型而言,模型的評價指標主要有混淆矩陣和接收者特征(Receiver Operating Characteristic,簡稱ROC)曲線[2]。ROC曲線是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線,對于評價不平衡性數據分類器性能具有很好的參考價值。ROC曲線越靠近左上角則其對應的分類器性能越好,若一個分類器的ROC曲線總是在另一個分類器的ROC曲線上方,則說明前者分類性能優于后者。若不同的ROC曲線有交叉情況或要量化分類器性能,則可以由ROC曲線下的面積得出模型的總體準確度。AUC(Area under ROC curve)是一種常用的分類指標(如圖2所示),具有統計意義,其優點是受不平衡分類的影響小。AUC值為0.5代表隨機分類器,理想模型的AUC值為1,因此通常情況下分類器的AUC值越接近1越好。

圖2 ROC曲線與AUG面積
本文數據挖掘計算試驗數據來自于國網新源泰山抽水蓄能機組。原始數據收集了“導葉開度”、“轉速”、“負荷”三個參數的歷史運行數據。時間跨度為2019年11月1日至30日,110多次的機組開機發電數據。通過數據清洗(刪除掉缺失值和采集時間不匹配的記錄)得到12萬多條有效記錄。這12萬多條數據的描述性統計值如表1所示。

表1 計算試驗的數據描述性統計分析
在數據挖掘過程當中,把原始特征(導葉開度、轉速、負荷)進行加工生成新特征,利用新特征對機組運行狀態進行標簽,區分每條記錄是處于故障狀態還是健康狀態。依據行業專家知識,本文從三個維度來判斷抽水蓄能機組是否存在潛在的故障:首先是計算機組開機負荷不穩定性與不穩定時長兩個特征,將負荷數據從不穩定擺動時長與擺動的不穩定程度兩個方向進行量化,其中不穩定擺動時間越長,則證明故障程度越大,擺動的不穩定度越大,則證明調速器故障越明顯;其次是計算導葉開度不穩定性與不穩定時長兩個特征,將導葉開度數據從不穩定擺動時長與擺動的不穩定程度兩個方向進行量化,其中不穩定擺動時間越長,則證明故障越嚴重,擺動的不穩定度越大,則證明調速器故障越嚴重;最后計算出轉速超限度特征,將轉速實際設定超出100%的幅度進行量化,超出100%的幅度越大則證明機組潛在的故障越嚴重。34 000多條記錄標記為故障狀態y=1;85 000多條記錄標記為正常狀態y=0。
本文采用了三種常見的分類算法,決策樹、神經網絡和SVM(支持向量機)對近12萬條數據進行訓練和測試,通過10-fold交叉試驗來評估預測模型的準確性[1]。表2羅列三種分類算法的績效??傮w來看,三種分類算法都能夠準確地預測機組故障和非故障狀態,10-fold準確性和AUC指標都比較滿意,其中神經網絡和決策樹都取得了類似AUC,略高于支持向量機SVM的績效。這也充分證明前面依據行業專家選擇的機組狀態監測特征“導葉開度”、“轉速”和“負荷”能夠很好地用于故障狀態預測建模,具有較強的解釋力度。

表2 分類算法準確性
由于抽水蓄能電站擁有獨特的運行特性和機組的優越技術性能,使其在我國大規模的建成與投運,十分有利于保障我國電力系統的安全穩定和優質經濟運行。通過數據挖掘流程,把抽水蓄能電站的歷史運行數據進行清洗、特征變換和打故障狀態標簽,形成訓練數據;然后采用決策樹、BP神經網絡和支持向量機等三種分類算法進行抽水蓄能電站故障狀態分類預測計算試驗,對抽水蓄能電站機組可能發生的故障狀態進行了預測。研究結果表明通過數據挖掘方法能夠建立比較準確的故障狀態預測模型,提前判斷機組運行狀態,從而實施預測性維護策略來促進電站的安全穩定運行。