基于DDPG深度強化學習的電站脫硝過程優化控制

2022-10-27 03:12:38林康威姜文超楊建仁熊廣思黃冠儒

計算機測量與控制 2022年10期

林康威，肖紅，姜文超，楊建仁，熊廣思，黃冠儒

(1.廣東工業大學計算機學院，廣州 510006；2.廣州云碩科技發展有限公司，廣州 511458)

0 引言

近年來，隨著新能源產業迅速發展，我國能源結構不斷發生調整，煤在能源消耗中所占的份額有所減少，但預計在未來很長的一段時間內，燃煤發電產業仍占據著主導地位[1]。燃煤發電會產生污染有害氣體，其中含有SO2、NO、NO2等。因此，目前在火力發電廠實現控制NOX排放含量，常采用的成熟技術手段有SCR(選擇性催化還原法)和采用傳統的PID控制來實現噴氨以達到脫硝優化的目的[2-4]。而實現精準建立SCR脫硝過程參數與SCR脫硝出口NOX排放濃度之間的映射關系是優化脫硝控制系統的關鍵基礎。隨著近年來人工智能算法技術的成熟，在現有的電站SCR脫硝系統出口NOX排放濃度的預測研究中，大多學者分別從機理建模與數據驅動的方法進行探究。其中，姚楚等[5]通過SCR脫硝系統的化學反應機理建立SCR動態預測模型，最終實驗結果表明機理建模實現對脫硝系統的噴氨量控制效果優于傳統的PID控制器的方法。但是，通過機理建模的方式，需要以研究對象為核心，根據化學反應建立數學守恒關系式，而燃煤電廠脫硝過程是一個復雜、非線性和多變量耦合的系統，導致機理建模很難精準描述。而相對于機理建模的方法，通過數據驅動建模的方式，不需要深入研究對象機理反應過程，只需以數據為驅動，通過建立人工智能算法構建預測模型。鉉佳歡等[6]利用BP神經網模型應用在SCR脫硝系統中，實現預測SCR脫硝出口NOX濃度，從而使噴氨量得到精準控制，與傳統PID控制器方式相比，BP神經網絡能夠很好對脫硝系統進行有效地控制，但是其模型的泛化性有待提高。溫鑫等[7]通過構建深度雙向LSTM神經網絡模型，實現電站SCR脫硝系統的出口NOX排放預測，實驗結果顯示與傳統的BP神經網絡模型相比較，誤差精度下降了約5%，但是雙向LSTM神經網絡模型結構復雜，且模型需要優化的超參數較多。丁續達等[8]基于最小二乘支持向量機LSSVM模型，實現SCR脫硝系統在線NOX預測，但是模型的預測精度和泛型性上還未能達到實際工業生產的需求。雖然上述的方法不依賴于過程的結構與機理，適合非線性強，過程復雜的預測對象，但針對火力發電站SCR系統中普遍存在著多參數耦合、調負荷、多工況等情形，單一模型的預測精度很難達到實際應用于工業領域生產的需求。因此，針對電站脫硝系統在多參數、多變工況條件下NOX排放預測精度較低的問題，提出基于MiniBatchKMeans聚類與Stacking模型融合的SCR脫硝過程NOX預測方法。首先對SCR脫硝系統的各運行工況進行聚類分析，然后在聚類劃分基礎上，在多工況樣本集以及在同工況樣本集上，利用Stacking-XRLL多模型融合預測模型對電站脫硝系統出口NOX濃度進行預測。實驗研究結果顯示，該模型在多工況下預測精度遠優于BP、LSTM、GRU神經網絡模型，平均精度達到99%。

另外，實現脫硝系統出口氮氧化物超低排放是電站優化控制的重要手段。由于燃煤電廠脫硝過程的NOX排放受機組負荷、噴氨質量流量、SCR入口煙氣O2量、SCR入口煙氣溫度等運行參數影響。因此，要實現SCR脫硝系統的NOX超低排放控制，首先需構建SCR脫硝系統可控運行參數與SCR出口NOX排放的映射關系模型[9-11]，然后再建立含有約束條件的目標優化函數，最后基于遺傳或粒子群優化算法對目標函數進行尋優[12-15]，在滿足國家要求NOX排放濃度低于50 mg·m-3約束條件下，以獲取SCR脫硝過程各可控運行參數的最優值。但是，采用傳統遺傳和PSO優化算法存在收斂性不足以及局部最優解。符基高等[16]基于LSTM時間循環神經模型結合深度強化學習A3C算法，實現燃煤電廠SCR脫硝效率的控制策略。但是LSTM神經網絡模型與A3C深度強化學習算法相結合之后，存在模型訓練速度慢，且優化得到的是局部最優解，并且評價策略通常不是非常高效，并且有很高的偏差。因此，在同時兼顧考慮煙氣NOX超低排放與脫硝效率之間的關系，基于MiniBatchKMeans聚類與Stacking模型融合的SCR脫硝過程建模方法，并利用深度確定性策略梯度DDPG算法對參數尋優，為實現現場實時優化控制奠定重要的理論基礎。

1 基于MiniBatchKMeans聚類與Stacking的多模型融合算法設計

1.1 算法理論介紹

1.1.1 MiniBatchKMeans聚類算法

MiniBatchKMeans算法是K-Means算法的變種，采用隨機產生的小批量數據子集進行聚類，大大減少了計算時間，因此當運用在大數據集樣本上時，MiniBatchKMeans能夠保持聚類準確性并可以大幅度降低計算時間。

MiniBatchKMeans算法流程偽代碼如下：

function MiniBatchKMeans(輸入數據，中心點個數K){

獲取輸入數據的維度D和個數N;

隨機生成K個D維的初始質心;

while(算法未收斂){

從原始集隨機抽取N個樣本構建小批量樣本集;

對N個點：計算每個點屬于哪一類;

對于K個數據中心點：

(1)找出所有屬于自己這一類的所有數據點;

(2)將自己的坐標值修改為這些數據點的中心點坐標;

}

輸出結果;

}

兩個樣本點a=(a1,a2,a3,…,an)和b=(b1,b2,b3,…,bn)之間距離計算如式(1)所示：

(1)

第i個類中心計算公式如式(2)：

(2)

其中:ciq表示第i個類的類中心，Ni表示第i個類中的元素個數，Ci表示第i個類。

加入批量大小為batch的小批量樣本集X={X1,X2,X3,…,Xbatch}后的類中心為ciq，計算方式如式(3)：

(3)

另外，使用誤差的平方和作為度量聚類質量的目標函數func，定義如式(4)：

(4)

1.1.2 XGBoost算法

極端梯度提升(XGBoost, extreme gradient boosting)是Tianqi Chen在2016年提出的基于Boosting Tree模型的分布式學習框架，該模型的基礎學習器為決策樹。與傳統的Boosting樹模型不同的是，傳統樹模型只使用一階導數信息，當訓練n棵樹時，由于使用前n-1棵樹的殘差，因此很難實現分布式訓練，而XGBoost對損失函數進行了二階泰勒展開，它可以自動使用CPU的多線程進行分布式計算。另外，在目標函數中引入正則項，以避免模型過擬合，提高泛化性。假設有一個數據集D，D={(xi,yi):i=1…n,xi∈Rm,yi∈R}，則可以得到n個觀測值，每個觀測值有m個特征以及相應的變量y。因此，廣義模型定義如下：

(5)

在式(5)中，fk表示的是一個回歸樹，fk(xi)表示第k棵樹對數據中的第i個觀察值給出的分數。為實現目標函數fk，應最小化以下正則項目標函數。

(6)

其中:l是損失函數，為防止模型過擬合，懲罰項中Ω應包括以下項：

(7)

其中:γ和λ分別表示葉子數量T和葉子權重w的懲罰參數。Ω(fk)目的是為了防止模型過擬合而簡化該算法生成的模型。

為使目標函數最小化，采用迭代法。在第j次迭代中添加fk，以最小化以下目標函數：

(8)

使用泰勒展開式來簡化上述函數，并推導出從給定節點分割樹后的損失函數：

(9)

其中:I是當前節點中可用觀測值的子集，IL，IR是分割后左右節點中可用觀測值的子集。函數gi和hi的定義如下：

(10)

(11)

1.1.3 Light GBM算法

Light GBM算法是基于GBDT(gradient boosting decision tree,梯度提升決策樹)模型提出的[17]。雖然GBDT在很多機器學習任務上都取得了較好的學習效果，但近年來隨著數據量的增長，傳統的GBDT算法在構建決策樹時需要找到最優的分割點，一般的方法是對特征值進行排序，然后枚舉所有可能的特征點。但是此種方法不僅在時間性能上表現較差，而且需要很大的內存。因此，GBDT算法面臨著精度和效率性能的問題急需解決。

Light GBM算法使用了改進的直方圖算法，它將連續的特征值劃分為k個區間，在k個值中選擇劃分點。因此，Light GBM算法在訓練速率和內存占用率上都優于傳統的GBDT樹模型。同時，決策樹是一個弱分類器，使用直方圖算法會有正則化效果，可以有效防止過擬合。在減少更多誤差方面，Light GBM算法采用leaf-wise生成策略。另外，在減少特征數量方面，傳統采用的方法是PCA，PCA一般用于特征冗余的情況下，因此有一定的局限性。Light GBM算法使用的EFB算法將高維數據的特征放在一個稀疏的特征空間中，以避免計算冗余特征，并根據算法構造直方圖，可以加快計算的速度。綜合所述，Light GBM算法在不降低預測準確率的同時，加快預測速度，并降低內存占用。

1.1.4 線性回歸算法

線性回歸分析是機器學習中的一種統計方法，可分為簡單線性回歸和多元線性回歸，用于估計一個或多個輸入變量和輸出變量之間的關系。線性回歸用直線模擬輸入變量x和輸出變量y之間的關系。

一次方程定義如式(12)：

y=β0+β1x

(12)

其中:參數β0和β1是回歸系數。而模型的擬合度衡量標準，即它對輸出變量y的在n個數據點上εi的誤差大小。

(13)

為評估回歸模型的回歸預測精度與真實值之間的誤差，回歸模型常用最小二乘法(LSM, the least square method，)估計進行擬合，找到誤差平方和最小時的最佳擬合曲線或直線，即最小化。

(14)

(15)

(16)

對上述兩個方程進行化簡，可以得到：

(17)

(18)

1.2 Stacking模型融合

Stacking是一種分層模型集成框架，在基于Stacking的集成學習模式下，通過融合多個機器學習算法的方式來提高整體模型的預測精度[18]。因此，在綜合考慮Stacking模型融合算法的預測精度與訓練性能，將Stacking模型融合框架劃分為兩層：第一層選擇預測精度較高的XGBoost、RandomForest算法以及性能優異且時間復雜度較低的LightGBM算法模型作為基學習器；第二層，采用泛化性能力較強和穩健性較好的線性回歸算法作為元學習器，如圖1所示。

圖1 Stacking模型融合架構圖

針對電站鍋爐脫硝系統在多變的工況環境條件下往往呈現出復雜的、大幅度滯后等特性，而單一模型在一定程度上很難準確地描述具有復雜的、非線性的火力發廠電站鍋爐脫硝系統NOX排放問題，導致模型預測精度不高。因此，為了提高電站鍋爐脫硝系統在多變的工況條件下NOX排放預測的精度，提出了一種基于MiniBatchKMeans聚類與Stacking多模型融合框架的電站脫硝過程建模方法，如圖2所示，其建模步驟如下：1)將從DCS采集的數據集進行預處理，其中包括剔除異常值樣本和篩選穩態工況，并按照一定比例(4:1)來劃分訓練集與測試集；2)利用MiniBatchKMeans算法對訓練集參數進行工況聚類和劃分，保存最優的輪廓系數和聚類中心，得到Ci個聚類樣本；3)對這些聚類樣本，利用如圖1所示的融合方法，采用XGBoost、RandomForest、LightGBM機器學習算法作為Stacking模型融合框架的第一層(基學習器)，以線性回歸作為第二層(元學習器)，構建嵌入多個機器學習模型的Stacking模型融合框架預測算法，用于處理多工況下NOX的預測問題。

圖2 基于MiniBatchKMeans與Stacking多模型融合框架的建模流程圖

2 基于深度強化學習DDPG算法的脫硝效率控制策略模型

2.1 DDPG算法理論

2.1.1 基于Actor-Critic的深度策略梯度方法

Actor-Critic是由Actor和Critic兩個神經網絡構成。Actor負責針對Critic網絡評價來糾正動作的偏向。Critic負責對Actor生成的動作進行評分。它們整個網絡的工作流程大致如下：1)首先Actor依據當前的環境生成action;2)環境依據Action給與相應的回報r;3)Critic會對action進行評價;4)Actor會依據Critic的評價來調整策略，輸出新的action;5)Critic會依據回報r來糾正評價規則。不斷循環(1)～(5)，直至所有的網絡收斂或達到設定訓練周期的閾值。

在Actor-Critic網絡中，通常情況下，Critic是一個狀態值函數，在每次動作選擇之后，Critic會評估新的狀態以確定事件是否比預期的好還是壞，這個評價就是時間差分法(temporal difference,TD)，數學表達式如式(19)所示:

V(st)←V(st)+α[rt+1+γV(st+1)-V(st)]

(19)

其中:V是有評判者(Critic)實現的值函數。TD誤差用來評估所選擇動作，即在某狀態下所采取的行動。如果TD誤差是正的，表示未來應加強選擇的傾向，而如果TD是負的，表明未來應減弱這種傾向。這種假設動作是由Gibbs Softmax方法產生的，如式(20)所示:

(20)

式中，p(s,a)是行為者(Actor)在時間t的可修改策略參數，表示在每個狀態s時選擇每個動作a的傾向。對上述的加強與減弱可通過調整p(s,a)來實現，如式(21)所示：

p(st,at)←p(st,at)+βδt

(21)

式中，β是一個正的步長參數，這是一個獎賞懲罰方法。無論TD誤差δ是正還是負，都會對策略進行更改。當δ為正時，增加動作的概率，δ為負時，減少動作的概率。

2.1.2 基于DDPG深度確定策略梯度方法

DDPG算法一種強化學習框架，基于策略梯度與DQN算法，DDPG能夠解決Actor-Critic在連續動作空間的問題。例如在Gym和TORCS領域中，DDPG可以直接使用原始狀態來學習，并且在Atari領域比DQN使用更少的經驗學習步驟[19]。

DDPG的核心是使用一種隨機的方法來探索好的行為，但估計一個確定性的行為策略(如式(22)所示)。只需在狀態空間上進行整合，使得學習策略變得更加容易，但它也有可能無法探索完整狀態和動作空間的局限性，為克服這個局限性，在隨機探索的加入一個噪聲Nt。

at=μ(st|θμ)

(22)

at=μ(st|θμ)+Nt

(23)

DDPG中的Actor和Critic是由神經網絡設計的。Actor網絡根據確定性策略梯度規則進行更新，而Critic網絡則根據TD誤差中獲得梯度進行更新，如式(24)所示：

θμμ≈Εμ[αQ(s,a|θQ)|s=st,a=μ(st)θμμ(s|θμ)|s=st]

(24)

式中，為得到期望值，需要Critic網絡在行動方面的梯度(w,r,t)以及Actor網絡(w,r,t)和其它參數。DDPG網絡參數的更新規則，采用小批量(mini-batch)數據樣本，通過最小化式(25)中的損失來更新Critic網絡，Actor網絡使用采樣策略梯度更新，如式(26)所示:

(25)

其中:yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)。

(26)

而目標Actor網絡和Critic網絡的參數更新如式(27)和(28)所示:

θQ′←τθQ+(1-τ)θQ′

(27)

θμ′←τθμ+(1-τ)θμ′

(28)

其中:τ是更新參數，將其設置為τQ1。

2.2 深度強化學習模型的建立

構建基于DDPG算法的SCR脫硝效率深度強化學習模型的整體框架如圖3所示。在網絡結構的設計中，Actor網絡(主網絡和目標網絡)和Critic網絡(主網絡和目標網絡)都包含兩個隱藏層網絡，每層神經元個數分別設置為256和128。Actor網絡最后一層的激活函數為tanh函數，使得每一層的動作輸出控制在[-1,1]之間，最終依據脫硝效率狀態值限定范圍得到脫硝系統各運行參數可控值。Critic網絡對Actor網絡得到的脫硝系統可控參數進行評估，采用relu激活函數。經過反復實驗調試，DDPG模型的學習訓練周期設置為500，Actor網絡學習率設置為0.001，Critic網絡學習率設置為0.002。

圖3 基于深度強化學習DDPG模型的脫硝過程優化控制架構

DDPG算法模型選取機組負荷、噴氨質量流量、SCR入口煙氣O2量、SCR入口煙氣溫度、SCR入口NOX質量濃度5個變量作為action動作值，脫硝效率(計算方式如式(29)所示)作為state狀態值，且各參數變量取值范圍設置如表1所示。

表1 電站鍋爐各參數運行范圍

(29)

式(29)中，η為脫硝效率，Inox＿in為SCR入口NOX質量濃度，Inox＿out為SCR出口NOX質量濃度。在SCR脫硝系統中，加大噴氨量，可以提高脫硝效率，但是過多的噴氨，另外會造成脫硝成本的提高。而噴氨量是衡量脫硝成本的重要指標，脫硝成本計算結果等于單位機組負荷下的噴氨量乘以相應單價。通常情況下，一般每臺鍋爐配備兩臺脫硝設備，因此脫硝成本計算公式如式(30)所示:

(30)

式(30)中，T為總成本，PNH3為噴氨量的單價(按市場價約3 500元/t)，MNH3為總噴氨量，L為機組負荷。

因此，在設置模型的獎勵函數時，應兼顧噴氨量與脫硝效率之間的平衡關系。根據專家經驗，當脫硝效率(η)處在85%～95%的合理范圍區間，并同時滿足總脫硝成本T是最小化時，應當給與獎勵(reward=10)。其余情況下，都認為是不合理的，應當給與懲罰(reward=-20)。

DDPG模型的偽代碼流程如下：

隨機初始化Critic Q(s,a|θμ)和Actorμ(s|θμ)主網絡參數，初始權重為υQ和θμ；

初始化目標網絡Q′和μ′，初始權重為θQ′←θQ，θμ′←θμ；

初始化記憶庫緩沖區大小為b；

for episode =1,...,M do

接收一個狀態值st；

for t =1,...,T do

基于ε貪婪算法選擇一個動作值at：以概率ε選擇隨機選擇一個動作，否則以at=μ(st|θμ)的當前策略進行選擇；

執行動作at，輸入到Stacking-XRLL模型中，預測SCR出口NOx濃度，然后計算的脫硝效率η，最后再根據設定獎勵規則，生成回報rt和新的狀態值st+1；

將t時刻樣本數據(st,at,rt,st+1)存儲到記憶庫b中；

當記憶庫的數據存滿，隨機采樣N個轉換數據(si,ai,ri,si+1)，作為Actor、Critic目標網絡的一個單位輸入組數據集進行訓練；

設置yi=rj+γQ′(sj+1,μ′(sj+1|θμ′)|θQ′)；

使用策略梯度更新Actor網絡參數：

最后更新目標網絡參數：

QQ′←νθQ+(1-ν)θQ′

θμ′←νθμ+(1-ν)θμ′)；

end for

根據上述的DDPG算法偽代碼流程，迭代訓練500個周期，即過程通過不斷調整評判者網絡參數以修正行為網絡的參數，直至Actor網絡和Critic網絡趨于穩定，進而優化燃煤電廠電站鍋爐脫硝過程可控運行參數，使得基于Stacking-XRLL的多模型建模的SCR脫硝過程氮氧化物預測模型輸出滿足SCR脫硝出口NOX排放濃度(低于50 mg·m-3)、脫硝效率處于合理范圍區間內(85%≤脫硝效率≤95%)以及總脫硝成本T最小化時，最終可以獲得滿足條件的最優可控動作參數集。

3 實驗結果與分析

3.1 實驗環境與數據

本文進行實驗所需的硬件設備(計算機)配置如下：中央處理器：Intel(R)Core(TM)i7-9750H CPU @2.60 GHz 2.59 GHz；計算機內存：16 GB RAM；操作系統：Windows10-64位；圖形處理器：NVIDIA GeForce GTX1660Ti 6 GB。

本文進行實驗所需的軟件平臺包括：運用Python編程語言；編程環境：Python v3.7、Python IDEA：Pycharm v2020.1；Scikit-learn庫：v0.22.1；numpy：1.19.4；pandas：1.1.4；matplotlib：3.3.2。

在進行實驗時所需數據集是以廣東某電廠1 000 MW電站SCR脫硝系統為研究對象，根據SCR系統運行狀況和專家經驗分析，從DCS信息數據采集系統中選取機組負荷、噴氨質量流量、SCR入口煙氣O2量、SCR入口煙氣溫度、SCR入口NOX質量濃度、SCR出口NOX質量濃度等一共6個特征，數據如表1所示。其中可控變量：噴氨質量流量。狀態變量：機組負荷、SCR入口煙氣O2量、SCR入口煙氣溫度和SCR入口NOX質量濃度。輸出變量：SCR出口NOX質量濃度。選取2018年4月1日-2018年4月30日時段內SCR脫硝系統機組穩態運行狀態數據，每間隔為60 s采集一次數據，最終取10 000條樣本作為模型的數據集。對從DCS系統采集到的樣本數據集進行數據預處理，其中包括剔除異常值樣本和篩選穩態工況。穩態工況可以利用滑動窗口法進行判斷，如式(31)所示[20]：

(31)

在式(31)中，其中n=35為窗口寬度，xj為歸一化后的特征變量參數，可以選擇機組負荷，σc=0.65為穩態工況的閾值。

3.2 MiniBatchKMeans工況聚類劃分

從DCS系統采集10 000條穩態工況數據樣本，按照4:1的比例劃分訓練集與測試集，同時保證訓練集和測試集涵蓋SCR系統各運行工況。經過與電廠專家交流分析后，將從DCS系統采集的6個特征變量作為模型的輸入變量，SCR出口氮氧化物濃度作為模型的輸出變量。設定初始聚類簇數值在[2,11]范圍內，分別計算相應值下的輪廓系數，當聚類簇個數Cf=7時，總的輪廓系數最大，此時聚類效果最好，最終將訓練集按機組負荷聚類為7個子簇。經過MiniBatchKMeans聚類所得工況聚類劃分結果如表2所示。

表2 工況聚類劃分結果

3.3 多模型融合建模預測

對7個子集分別利用基于Stacking-XRLL多模型融合算法進行建模，將獲得的10 000條樣本數據，8 000條作為訓練集，2 000條作為測試集。最后利用所建立的模型在測試集上進行預測，得到SCR脫硝出口NOX排放濃度預測結果如圖4所示。采用模型評估指標：平均絕對誤差(MAE)、均方誤差(MSE)和決定系數R2對模型進行評價如表3所示。

表3 不同工況模型預測結果性能對比

由圖4與表3可知，對SCR系統的運行工況進行聚類劃分之后，在每一個子集工況下分別利用基于Stacking-XRLL模型進行預測，實驗結果表明，未進行工況劃分之前，模型預測精度MSE(均方誤差)=16.890 3、MAE(平均絕對誤差)=1.740 4和R2(決定系數)=0.997 4。而鍋爐運行工況進行聚類劃分之后，在各個工況下進行預測，每一類工況下預測的精度都得到了提升，其中每個工況下總的均方誤差MSE=0.642 0、平均絕對誤差MAE=0.193 3和R2=0.999 4。

圖4 不同工況下模型的預測結果

為了充分驗證本文所提出的基于Stacking-XRLL多模型融合算法的有效性，從7個工況中隨機選取工況2下的數據集，將其分別與單模型最優模型參數條件下的BP神經網絡、LSTM神經網絡模型、GRU神經網絡模型進行對比實驗，如圖5所示。其中，BP神經網絡為3層網絡架構，第一層有256個神經元，relu為激活函數，dropout率為0.2；第二層有128個神經元，relu為激活函數，dropout率為0.3；第三層為全連接層。LSTM循環神經網絡總共建立四層LSTM層，神經元個數分別為128、128、64和32，dropout率為0.3，tanh為激活函數，最后一層為全連層。GRU神經網絡總共建立5層GRU層，神經元個數分別為128、64、256、256和128，dropout率為0.3，tanh為激活函數，最后一層為全連接層。

由圖5與表4可知：在同一工況條件下，單模型BP神經網絡要優于單模型GRU神經網絡，而單模型GRU神經網絡要優于單模型LSTM神經網絡，但是基于Stacking-XRLL多模型融合算法，無論是精度上還是泛化性能上都優于BP神經網絡、GRU神經網絡、LSTM神經網絡，其中MSE=0.110、MAE=0.030和R2=0.999。因此，實驗結果表明：Stacking-XRLL多模型融合算法，能夠有效且精準地預測電站SCR系統脫硝出口NOX濃度。

表4 同工況下不同算法之間的預測結果性能對比

圖5 同工況下不同算法之間預測結果對比

3.4 DDPG優化控制的結果

由4.3小節的實驗結果，得出Stacking-XRLL模型預測的精度最優。因此，將Stacking-XRLL預測模型作為深度強化學習DDPG模型中的環境(ENV,Environment)，以工況1作為實驗的數據集，經過反復實驗調試，最終確定強化學習周期設置在500，每個周期100回合時，實驗的收斂效果最明顯，每回合取一個預測結果。當模型迭代訓練穩定時，得到實驗結果如圖6中(a)～(d)所示。

圖6 硝過程參數優化控制結果圖

從圖6(a)～(d)實驗結果可以看出，DDPG深度學習優化控制模型的總獎勵值在200回合后趨于穩定。即當DDPG深度學習模型穩定時，模型的總獎勵值由一開始懲罰到獎勵，不斷迭代訓練，最終趨于最優值穩定。此時，脫硝效率值穩定在86%左右，處在合理范圍區間之內，且可控參數噴氨質量流量穩定在35.657 kg/h，且經過優化之后，脫硝成本總價格降低了27.56%。

4 結束語

脫硝效率作為衡量SCR脫硝系統主要指標，對脫硝系統乃至整個發電機組都有著重大影響。實現準確預測脫硝效率，能夠對機組的穩定運行和優化控制起到推動作用。將機組負荷、SCR入口煙氣溫度、SCR入口煙氣O2量、SCR入口NOX質量濃度和噴氨質量流量等參數作為輸入，基于Stacking-XRLL模型融合算法，構建深度確定性策略梯度網絡優化控制模型，實現對可調運行參數的優化，得到不同工況下的最優操作參數值。基于某1 000 MW燃煤電廠機組實際運行數據進行仿真，結果表明通過優化后機組的脫硝效率穩定在86%左右，同時能滿足脫硝出口NOX排放濃度要求以及總脫硝成本相比未優化之前降低了27.56%。