基于樸素貝葉斯的閥門關閉不合格原因評估

2022-08-02 10:03:20杜勝東

自動化儀表 2022年6期

杜勝東

(大唐西北電力試驗研究院，陜西西安 710018)

0 引言

隨著科技進步和產業發展，風電、光伏成本逐漸降低。近年來，新能源發電裝機容量快速提升。根據國家能源局發布的2020年全國電力工業統計數據，2020年全國新增裝機容量19 087萬千瓦。其中，太陽能發電4 820萬千瓦、風電7 167萬千瓦、水電1 323萬千瓦，占新增裝機容量的69.7%。新能源消納壓力的增加進一步要求火電機組提供調峰服務，出讓發電空間[1]。因此，為了提高能源與資源的綜合利用率、方便污染集中處理，以超臨界、超超臨界機組為代表的大型汽輪機承擔著不可或缺的作用[2]。汽輪機閥門總關閉時間作為評價大小汽輪機組安全性的重要指標之一，在機組調節系統的動態性特征方面扮演著重要的角色[3]。

進行閥門關閉時間試驗時，如果閥門關閉時間不合格，會受到多種因素的影響[4-5]。發電企業一般委托其他單位進行測試。在出具測試報告的過程中，處理結果需要消耗大量的時間。面對可能造成閥門關閉時間不合格的多種原因，處理問題緩慢且棘手。為了保證機組啟動計劃不受影響，需盡快評估閥門關閉時間不合格的原因并進行處理。通過將某電科院的所有閥門關閉試驗報告中閥門關閉時間不合格原因進行整理后發現，可以將分析過程歸結為對不合格原因的文本分類問題。

由于現場環境復雜，個人的評估具有局限性，判斷標準不太明確。大數據及貝葉斯分類器憑借其優勢，為閥門不合格原因評估提供了新的解決路徑。貝葉斯網絡在系統故障診斷[6]、疾病的判別與診斷、機器故障診斷[7-8]等方面的有效性已被證明。因此，本文基于貝葉斯網絡的一種模型——樸素貝葉斯模型，通過對歷史報告中的信息進行語義分割，構建一種汽輪機閥門關閉不合格原因評估模型，實現對不合格原因的快速判斷。

1 閥門關閉時間原理

汽輪機跳閘保護系統(emergency trip system，ETS)跳閘回路如圖1所示。

圖1 汽輪機ETS跳閘回路示意圖

當閥門關閉試驗時，運行人員按下盤前打閘按鈕，電磁閥失電動作，高壓安全油迅速泄除，卸荷閥打開，主汽門、調門在彈簧的作用下快速關閉。參照《汽輪機調節保安系統試驗導則》(DL/T 711—2019)進行測試。對于高中壓主汽門、調門以及抽汽逆止門，采用汽輪機數字電液(digital electro hydraulic，DEH)控制系統、分布式控制系統(distributed control system，DCS)機柜內卡件上的位移反饋輸出電壓作為輸入量，并以運行控制室緊急打閘按鈕動作信號作為觸發信號。

測試原理如圖2所示。

圖2 測試原理示意圖

閥門總關閉時間包含控制回路延時、機械延時及閥門純關閉時間[9]。延遲時間為汽輪機閥門跳閘發出的時刻至閥門全開信號消失時刻。動作時間為閥門全開信號消失至閥門全關信號出現的時刻。總關閉時間為動作時間與延遲時間之和。按照規定，對于200～600 MW汽輪機組：從跳閘指令發出到主汽門全關的時間須小于300 ms；從跳閘指令發出到調節汽門全關的時間須小于400 ms；抽汽逆止門關閉時間(包括延遲)一般應小于1 s。

2 樸素貝葉斯算法

樸素貝葉斯方法屬于古典數學理論的重要分支，是數據挖掘和機器學習中的重要算法之一[10]。該算法具有分類效率穩定、訓練和查詢速度快、能處理多分類任務、算法簡單、數據不敏感、結果易理解等特征[11]。在實際應用中，該算法引入“特征條件獨立性假設”，簡化了聯合類條件概率的計算[12]。其模型分類原理如下。

(1)數據樣本由n維特征向量X={x1,x2,…,xn}表示，描述了具有n個屬性A1,A2,…,An樣本的n維向量。

(2)已知有m個類C1,C2,…,Cm?；跇闼刎惾~斯分類算法,對于一個特定的未知標號的數據樣本，其會被該算法預測為給定X條件下后驗概率最高的類別。該分類算法將X分配給類Ci的條件為：

P(Ci|X)>P(Cj|X),1≤j≤m,j≠i

(1)

式中:P為概率;X為特征向量;C為類向量;m為類的數量。

最大化P(Ci|X)，與之對應的類Ci即為最大后驗假定。根據貝葉斯定理：

(2)

(4)當數據集包含過多的屬性時，則會提高計算P(X|Ci)的時間復雜度。此時，假定不同屬性之間相互獨立，即屬性之間不存在依賴關系，可以有效地降低計算P(X|Ci)的時間復雜度。相應地，P(X|Ci)可表示為:

(3)

概率P(X1|Ci),P(X2|Ci),…,P(Xn|Ci)可以由訓練樣本計算得到。

②當Ak為連續值屬性時，假設Ak服從正態分布，可以得到：

(4)

式中：μCi為類Ci的均值；σCi為類Ci的標準差；g(Xk,μCi,σCi)為Ak的高斯密度函數。

(5)對未知樣本X分類，計算每個類的P(X|Ci)P(Ci)。樣本X被分到類Ci的條件如下：

P(X|Ci)P(Ci)>P(X|Ci)P(Cj)

(5)

式中：1≤j≤m,j≠i。

也就是說，X被劃分到P(X|Ci)P(Ci)值最大的類Ci。

3 應用研究

3.1 選取數據與預處理

為了保證電廠機組運行的安全、穩定，防止由于汽輪機超速而導致的重大安全生產事故，根據《并網運行汽輪機調節系統技術監督導則》(DL/T 338—2010)要求，有必要對汽輪發電機組閥門快關特性進行定期測試。在進行閥門關閉測試中，相關單位會產生大量的閥門關閉時間報告。本文從某電科院收集6年內實際的閥門關閉報告，對報告中的閥門關閉不合格原因的描述及數據進行整理并組成數據集。在整理了所有報告中177條不合格閥門關閉時間結果和對應的原因后，通過分析將其分為8類：閥門卡澀、控制油油壓低、控制油油溫低、控制器掃描周期長、跨控制器網絡變量傳輸、線性可變差動變壓器(linear variable differential transformer，LVDT)安裝位置過高或過低、LVDT反饋雜波和其他。根據數據樣本計算得到各類不合格原因的先驗概率如表1所示。

表1 不合格的原因分類及其先驗概率

3.2 建立特征屬性

通過使用自然語言的分詞處理工具對閥門關閉不合格現象的描述進行碎片化處理，得到數據集的特征屬性。本文使用由北京大學語言計算與機器學習研究組研發的PkuSeg工具包進行閥門關閉不合格現象的描述分詞處理。該工具包具有以下特點。

①高分詞準確率。相比于通常使用的JieBa等分詞工具包，PkuSeg工具包在不同行業的分詞結果準確度都有所提高。

②多領域分詞。技術人員訓練了多種不同行業的分詞模型。用戶可以根據自己需要分詞的行業自由地選擇不同的模型。

③支持用戶自訓練模型。在分詞訓練中PkuSeg工具包支持用戶添加全新的標注數據并進行訓練。

在閥門關閉不合格現象的描述中，每種不合格原因對應的現象描述并不相同。研究發現，某些描述對不合格原因的判定貢獻很大，而其他描述則沒有貢獻。使用PkuSeg工具選取特征詞匯分為以下2步。

①集中某類原因的描述，將其組成1個集合，盡可能包含對該不合格現象的描述。

②收集出現的特征詞匯，組成數據集(隨著特征詞數量的增加，分類的準確性越容易提高；特征詞收集應同時包含高頻詞匯和指向性強的低頻詞匯)。

建立特征屬性時：首先，使用PkuSeg工具對分類后的數據進行分詞；然后，對詞匯進行篩選，主要包括剔除語氣詞、停用詞等；最后，分別找出每種不合格原因對應的高頻詞匯和指向性詞匯，相應地把各類不合格原因特征詞進行匯總，從而得到總體特征序列。

特征詞匯詞頻統計如表2所示。

表2 特征詞匯詞頻統計

3.3 建立模型

建立模型的過程為：首先，對不合格原因進行分類，并建立特征序列；然后，根據樸素貝葉斯定理建立分類器。各類不合格原因的先驗概率P(Ci)如表1所示。不同特征屬性的條件概率P(X|Ci)根據特征詞匯頻率計算而得。研究中使用Python程序實現模型的各個部分。各類原因通過建立字典類型實現。字典類型包括特征序列及其數量結構，如{‘控制器掃描周期長’：‘DCS’：54，‘DEH’：42，‘卡件’：28，‘網絡’：0，‘硬接線’：0，‘測點’：0，‘儀器’：0，‘雜波’：0，‘LVDT’：0，‘油溫’：0，‘油壓’：0，‘閥門’：0}、{‘跨控制器網絡變量傳輸’：‘DCS’：41，‘DEH’：59，‘卡件’：31，‘網絡’：23，‘硬接線’：27，‘測點’：0，‘儀器’：0，‘雜波’：0，‘LVDT’：0，‘油溫’：0，‘油壓’：0，‘閥門’：0}等基于P(Ci)、P(X|Ci)和式(5)構建分類器的模型，即基于樸素貝葉斯的汽輪機閥門關閉不合格原因評估模型。

閥門關閉不合格原因評估模型是1個文本分類過程，利用樸素貝葉斯算法進行不合格原因的分類。模型工作流程為：首先，對不合格的現象描述進行處理，提取待判斷不合格的特征序列；然后，用樸素貝葉斯分類器計算各類別的概率；最后，比較分類器已經計算完成的概率。每個概率值對應1種原因類別。概率中的最大值對應的原因類別就是評估結果。

3.4 結果測試

模型的準確性驗證分為模型訓練數據集測試和新增不合格數據集測試。首先，對模型數據集進行測試。測試結果顯示，控制器掃描周期長，跨控制器網絡變量傳輸2種不合格原因的準確率極高，均高于90%；其余有4種高于80%，2種偏低，最低的1種不到75%。根據測試結果，對模型進行調整：①基于出現概率偏低的不合格原因的現象描述，增加模型特征序列中的特征詞；②人為提高特征詞的出現頻率。

經過增加特征詞匯改進模型后，選取116項歷史和新增不合格原因及其描述進行測試。測試結果統計如表3所示。從表3可以看出，測試的準確率均得到了顯著提高，都達到了80%以上。

表3 測試結果統計

模型改進前后結果對比如圖3所示。圖3中，橫軸為不合格原因的類型，分別為控制器掃描周期長(SMQZL)、跨控制器網絡變量傳輸(SMQBL)、閥門卡澀(FMKS)、控制油油壓低(KZYYL)、控制油油溫低(KZYWL)、LVDT安裝位置過高或過低(LVDTHOL)、LVDT反饋雜波(LVDTZB)以及其他(QT)。縱軸為各不合格原因的測試準確率。

圖3 模型改進前后結果對比

通過對比改進前后的測試結果以及結合模型原理進行分析，得到提高模型性能的主要方法為：在創建閥門關閉不合格原因評估模型之初，選擇數據集時需要滿足樣本容量大且全面的要求；在構建特征序列組合時，應將盡可能多的詞匯包含在其中，使得特征序列能夠包含指向性高的特征詞。對于實際運行中出現頻率較低的不合格原因，其對應的特征序列可以人為指定，且可人為提高其特征詞出現的頻率，進而提高樣本容量少的不合格原因分類的準確性。

4 結論

本文基于樸素貝葉斯的汽輪機閥門關閉不合格原因評估方法，對某電科院報告中的歷史不合格數據進行挖掘，完成不合格原因的判斷。在對已建立模型的準確性測試中，發現模型分類無法實現100%的準確，準確率有待進一步提高，評估方法也有待改進。在以后的工作中，除了可以結合決策樹、隨機森林、支持向量機等分類算法，也可以結合知識圖譜等智能算法，通過給現有模型增加自學習功能，不斷提高判斷的準確性。研究人員還可以將此方法應用于電廠就地設備和儀表故障的判斷，提高電廠檢修效率與管理水平。本文結合某電科院歷史試驗數據及結論，給出了樸素貝葉斯分類器在閥門關閉不合格原因評估領域的實現流程和測試結果，為實際生產中汽輪機故障診斷應用以及相關領域的學術研究提供了參考。