國電電力河北新能源開發有限公司 孫立志 王 健 趙 鵬 馬亞楠
由于風力發電可以做到節能減排,因此世界各國出臺了許多風電相關政策,風場效益每年的增幅維持在20%左右,同時越來越注重海上風電的發展,能源供給不足與環境破壞嚴重是我國目前較為嚴重的問題,風力發電清潔環保,資源豐富可以長期使用,大力發展風力發電可以解決上述問題[1-2]。隨著風電場的規模和風機的數量均不斷增大,部分裝機時間較早的風機,不斷增加的故障次數,也造成了發電效率的下降,如何采用采集到的多元數據對機組故障進行故障預警和判斷具有十分重要的現實意義和價值。
近年來我國對風電發展的期望值越來越高,2013~2020年中國風電裝機容量(萬千瓦)分別為7652/9657/13075/14747/16400/18426/20070/2 3585,全球風電裝機容量(吉瓦)分別為312/362/421/473/522/568/612/674。風電系統工作人員通過SCADA 系統獲得關于風機故障的多元數據可以反映出風機的發電性能和運行狀態,對多元數據進行發掘并加入人工智能等手段對風機進行故障預警與發電性能評估勢在必行。
發電機組運行工況惡劣,風機長時間工作在這種環境下其各個部件性能會之間下降,當下降到一定程度時風機便會出現故障,隨之影響到風機發電效率。使風機運行的關鍵部位有輪轂,漿距系統,齒輪箱,發電機,偏航系統等,其中漿距系統與偏航系統主要使風機能最大化的獲取風能,從而提升發電性能,制動系統,傳動系統,齒輪箱與發電機主要可以將風產生的機械能轉化為電能,從而輸入電網,塔架的主要作用是撐葉片和機艙。
基于已有的風機全息化狀態監測系統和SCADA記錄,針對風機運行技術數據量大,在故障診斷時有一定困難,在此提出了一種基于ReliefF、主成分分析(PCA)與深度神經網絡(DNN)的風機故障診斷方法。首先,對故障相關特征進行提取,使用ReliefF 方法選擇與故障相關的特征,降低數據維度;并使用PCA 算法進一步對數據進行降維,降低數據間的冗余性,提高故障診斷的準確性;最后使用優化后的DNN 建立多故障診斷模型。風機故障診斷流程為:數據預處理;數據降維;故障診斷。
SCADA 系統記錄并存儲的大量風機數據,如不對數據進行處理,則會產生故障判斷時間長且準確率低的問題,因此需要進行數據挖掘,提取故障數據的敏感特征。主成分分析(PCA)是一種較為常見的特征降維算法,主成分分析(PCA)是一種較為常見的特征降維算法,通過PCA 可以降低特征集的維數,并且仍包含數據的原始信息。
算法流程如下:將矩陣x 集中起來(去掉每個維度的平均數):C=VTx,計算樣本的協方差矩陣:,把協方差矩陣的特征值分解,選取前n 個最大的特征值對應的的特征向量構成特征向量矩陣W。其中:x 為特征向量;V 為去平均化向量;C 為降維矩陣;S 為樣本數;Ψ 為特征矩陣中數值每列平均值后的新矩陣;ψ 的協方差矩陣定義為B。
PCA 保留了原始數據中較為重要的內容并且讓數據的維度降低,并且數據映射到新空間中使坐標系發生變換,減少了數據間的相關性。ReliefFPCA 算法具體流程為:第一步使用ReliefF 算法對原始SCADA 數據進行特征選擇,第二步將數據帶入初始化后的ReliefF 算法,第三步將數據輸入到PCA 算法中進行特征降維,將90%以上主成分的數據最為最終的輸入數據。將隱層數量多的神經網絡稱之為深度神經網絡(DNN),將神經網絡的輸入得到權重求和后輸入到激活函數中,通過激活函數得到下一層的輸出。目前在學術界與工程上使用最為廣泛的激活函數有sigmoid、tanh、ReLU。
DNN 故障診斷模型搭建具體流程為:
第一步根據數據的來源風機情況,將通過ReliefF-PCA 降維后的數據賦予標簽,構建出故障診斷數據集,以6:1:3的比例劃分為訓練集、測試集、驗證集,使用訓練集完成對模型的訓練,通過測試集調整模型超參數,最后使用驗證集驗證模型性能;第二步初始化模型參數,包括隱藏層層數、隱藏層神經元個數、激活函數、優化函數、指定輸入輸出的神經元個數等。
第三步通過訓練集訓練模型,當達到迭代次數后模型訓練完成,此時神經元之間的權重固定,通過分類器softmax 輸出結果,權重最大的就屬于哪一類,分類器softmax 的loss 函數如為Loss=∑yilnai;第四步通過測試集的loss 曲線進行參數調整,調整到效果最佳后使用驗證集驗證模型效果。
數據來源:試驗數據均采用某風場場數據,數據間隔為10秒鐘記錄一次,風機選擇5臺風機,2018年11月其故障次數分別為98/207/296/517/172,發生故障時風機狀態由0變為1,將故障最少的2號風機作為正常風機,剔除故障時間段后的數據為正常數據。本文主要對風機幾種常見故障進行診斷,分為5種狀態:正常狀態、齒輪箱油溫超溫故障、齒輪箱NDE 端軸承溫度超溫故障、主軸剎車抱閘故障、機艙溫度故障。
特征降維與優化:原始數據量龐大,各參數之間相關性高,對原始數據進行特征降維就變的十分必要。對閾值大小進行討論,分為平均值、中位數與標準差。將A1稱為平均數為閾值進特征選擇后的特征,A2稱為中位數為閾值進行特征選擇后的特征,A3稱為標準差為閾值進行特征選擇后的特征,對應于不同閾值的所選特征數量如表1所示。

表1 對應于不同閾值的所選特征數量
DNN 優化算法選擇:在DNN 中參數的更新算法一定程度影響著網絡的訓練速度以及診斷準確率,對于這個缺點,提出了許多較為新穎的優化器:RMSProp 優化器、Adagrad 優化器、Adadelta優化器,Adam 優化器。優化算法訓練誤差中,Adagrad 優化算法收斂速度最慢,并且收斂后誤差較大;SGD 優化算法與Adadelta 優化算法收斂速度較慢,收斂后誤差波動較大;RMSProp 優化算法與Adam 優化算法在收斂速度上較為接近,但Adam優化算法收斂后誤差最小,最為平穩,因此選擇Adam 優化算法作為模型的優化算法。
模型仿真情況對比:為了驗證ReliefF-PCA 降維算法對故障診斷準確率與泛化性,與其他降維算法進行對比驗證,各降維算法故障診斷準確率如表2所示。其次,ReliefF-DNN 模型和Pearson-DNN 模型由于對多故障或多風機的泛化能力差,不能有效診斷故障。基于Pearson 相關系數的模型具有良好的降維效果,當只有一個風機齒輪箱油溫超標時,相關參數較少。當風機數量增加時,降維效果會變差。

表2 各降維算法故障診斷準確率(%)