基于深度強(qiáng)化學(xué)習(xí)的多能互補(bǔ)發(fā)電系統(tǒng)負(fù)荷頻率控制策略

2022-04-09 03:36:30梁煜東張國(guó)洲任曼曼胡維昊

電工技術(shù)學(xué)報(bào) 2022年7期

梁煜東陳巒張國(guó)洲任曼曼胡維昊

梁煜東1陳巒1張國(guó)洲1任曼曼2胡維昊1

（1. 電子科技大學(xué)電力系統(tǒng)廣域測(cè)量與控制四川省重點(diǎn)實(shí)驗(yàn)室成都 611731 2. 國(guó)網(wǎng)安徽省電力有限公司電力科學(xué)研究院合肥 230000）

針對(duì)大規(guī)模可再生能源接入電網(wǎng)引發(fā)的系統(tǒng)調(diào)頻性能下降的問(wèn)題，該文提出一種基于數(shù)據(jù)驅(qū)動(dòng)的風(fēng)火儲(chǔ)多能互補(bǔ)發(fā)電系統(tǒng)負(fù)荷頻率控制方法。首先，通過(guò)機(jī)理分析建立多區(qū)域混合發(fā)電系統(tǒng)的數(shù)學(xué)模型；其次，構(gòu)建含控制性能標(biāo)準(zhǔn)（CPS）、風(fēng)電機(jī)組棄風(fēng)(icast)和動(dòng)態(tài)性能指標(biāo)的獎(jiǎng)勵(lì)函數(shù)，將負(fù)荷頻率控制問(wèn)題轉(zhuǎn)換為最大化獎(jiǎng)勵(lì)函數(shù)問(wèn)題，并引入深度確定性策略梯度算法進(jìn)行求解，通過(guò)預(yù)學(xué)習(xí)和在線應(yīng)用，獲得風(fēng)電機(jī)組實(shí)際出力情況下的最優(yōu)自適應(yīng)協(xié)調(diào)頻率控制策略；最后，從中長(zhǎng)期控制性能入手進(jìn)行分析，通過(guò)加入連續(xù)階躍擾動(dòng)或?qū)嶋H風(fēng)速擾動(dòng)仿真，驗(yàn)證所提出方法在改進(jìn)負(fù)荷頻率控制性能上的有效性和可行性。仿真結(jié)果表明，系統(tǒng)發(fā)生擾動(dòng)時(shí)，儲(chǔ)能設(shè)備的引入及所提的深度確定性策略梯度算法不僅能夠更加有效地抑制波動(dòng)，而且能夠在縮短完成負(fù)荷頻率控制所需調(diào)節(jié)時(shí)間的同時(shí)最大限度地減少棄風(fēng)，提高風(fēng)電消納的比例。

多能互補(bǔ)發(fā)電系統(tǒng) 負(fù)荷頻率控制深度確定性策略梯度算法控制性能標(biāo)準(zhǔn)（CPS）指標(biāo)

0 引言

近年來(lái)，為了解決日益突出的能源和環(huán)境問(wèn)題，風(fēng)火互補(bǔ)發(fā)電系統(tǒng)、光水互補(bǔ)發(fā)電系統(tǒng)等多能互補(bǔ)發(fā)電系統(tǒng)得到快速發(fā)展。然而，由于可再生能源具有很強(qiáng)的波動(dòng)性，隨著新能源的大規(guī)模接入，其在電網(wǎng)中的滲透率不斷提高，隨之而來(lái)的是傳統(tǒng)能源調(diào)頻能力弱化、電網(wǎng)頻率質(zhì)量急速下降等問(wèn)題[1-3]。多區(qū)域電力系統(tǒng)的負(fù)荷頻率控制（Load Frequency Control, LFC）是解決負(fù)荷變化導(dǎo)致的電網(wǎng)頻率問(wèn)題的重要手段之一，其有助于恢復(fù)系統(tǒng)頻率并消除聯(lián)絡(luò)線間的功率偏差[4]。

常規(guī)的LFC方法均基于系統(tǒng)詳細(xì)模型，其中PID控制器由于其簡(jiǎn)單高效的控制結(jié)構(gòu)而被廣泛使用。文獻(xiàn)[5]提出一種基于灰狼優(yōu)化算法的控制器參數(shù)正定設(shè)計(jì)方案，并采用所提的優(yōu)化算法獲取PI/ PID型負(fù)荷頻率控制器參數(shù)。文獻(xiàn)[6]提出一種面向抽水蓄能電站區(qū)域負(fù)荷頻率的分?jǐn)?shù)階PID控制策略，深入研究了含非線性環(huán)節(jié)的兩區(qū)域再熱式汽輪機(jī)組LFC方法。文獻(xiàn)[7]提出一種基于模型預(yù)測(cè)控制的設(shè)計(jì)方法，仿真結(jié)果表明該方法能夠提高負(fù)載變化時(shí)系統(tǒng)的頻率響應(yīng)能力。上述研究都是通過(guò)調(diào)節(jié)系統(tǒng)控制器參數(shù)來(lái)實(shí)現(xiàn)優(yōu)化的目的，其本質(zhì)上屬于PI控制。然而，這些方法通常會(huì)在控制器參數(shù)的估計(jì)和調(diào)整方面帶來(lái)極大的實(shí)時(shí)計(jì)算負(fù)擔(dān)，同時(shí)忽略了各個(gè)區(qū)域之間的協(xié)調(diào)控制，限制了互聯(lián)區(qū)域電力系統(tǒng)的LFC性能。

目前，較少有文獻(xiàn)采用先進(jìn)的連續(xù)型深度強(qiáng)化學(xué)習(xí)算法來(lái)解決互聯(lián)區(qū)域電網(wǎng)的負(fù)荷頻率控制問(wèn)題，尤其是針對(duì)含可再生能源和儲(chǔ)能設(shè)備的多能互補(bǔ)發(fā)電系統(tǒng)。文獻(xiàn)[16]提出了一種基于連續(xù)動(dòng)作域的深度強(qiáng)化學(xué)習(xí)方法來(lái)提高單區(qū)域電力系統(tǒng)的LFC性能，在一定程度上可以最小化頻率偏差，提高控制器響應(yīng)速度。文獻(xiàn)[17]在文獻(xiàn)[16]的基礎(chǔ)上，針對(duì)多區(qū)域電力系統(tǒng)提出一種數(shù)據(jù)驅(qū)動(dòng)協(xié)同LFC的方法，以最小化所有區(qū)域的區(qū)域控制誤差信號(hào)為目的設(shè)置獎(jiǎng)勵(lì)函數(shù)，并在英格蘭39節(jié)點(diǎn)電力系統(tǒng)上仿真測(cè)試所提方法的性能。但上述研究都忽略了從中長(zhǎng)期角度對(duì)電力系統(tǒng)的CPS指標(biāo)進(jìn)行分析。此外，考慮到負(fù)荷波動(dòng)的隨機(jī)性和長(zhǎng)期性，這部分內(nèi)容需要在分析建模中得到妥善處理。

鑒于此，本文提出了一種基于智能體深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)負(fù)荷頻率協(xié)調(diào)優(yōu)化控制方法，以最大程度地減少區(qū)域間的頻率偏差、計(jì)劃外的功率交換及提高可再生能源發(fā)電消納為目標(biāo)。針對(duì)僅通過(guò)改進(jìn)控制器和算法提高LFC性能存在的局限性，考慮引入儲(chǔ)能設(shè)備以進(jìn)行輔助調(diào)頻。此外，針對(duì)負(fù)荷波動(dòng)長(zhǎng)期性和隨機(jī)性的問(wèn)題，考慮從中長(zhǎng)期角度進(jìn)行分析，在構(gòu)造獎(jiǎng)勵(lì)函數(shù)時(shí)加入CPS指標(biāo)。最后，通過(guò)仿真計(jì)算，驗(yàn)證系統(tǒng)發(fā)生長(zhǎng)期擾動(dòng)時(shí)本文所提出數(shù)據(jù)驅(qū)動(dòng)LFC方法的可行性和有效性。

1 多能互補(bǔ)發(fā)電系統(tǒng)模型

本文在分析三種電源運(yùn)行特性的基礎(chǔ)上，通過(guò) 圖1展示了具有火電機(jī)組、可再生能源風(fēng)電機(jī)組和儲(chǔ)能設(shè)備的多能互補(bǔ)發(fā)電系統(tǒng)模型框架。該電力系統(tǒng)各主要環(huán)節(jié)的傳遞函數(shù)會(huì)在下文進(jìn)行簡(jiǎn)要說(shuō)明。

圖1 多能互補(bǔ)發(fā)電系統(tǒng)的模型框架

1.1 負(fù)荷頻率模型

1.2 儲(chǔ)能系統(tǒng)模型

儲(chǔ)能系統(tǒng)模塊包括充放電部分和功率限制部分，動(dòng)態(tài)物理模型為

1.3 火電機(jī)組模型

1.4 風(fēng)電機(jī)組模型

1.5 聯(lián)絡(luò)線功率模型

區(qū)域一、二之間的聯(lián)絡(luò)線功率偏差動(dòng)態(tài)物理模型為

1.6 區(qū)域控制誤差模型

2 控制原理

2.1 DDPG自適應(yīng)控制策略

深度確定性策略梯度算法（Deep Deterministic Policy Gradient, DDPG）是一種基于深度Q學(xué)習(xí)算法（Deep Q-lenrning, DQN）的改進(jìn)算法，有效解決了多維連續(xù)動(dòng)作輸出的問(wèn)題。這種優(yōu)化算法可以在連續(xù)的動(dòng)作空間中運(yùn)行。此外，類(lèi)似于其他無(wú)模型強(qiáng)化學(xué)習(xí)算法，DDPG算法可以完成黑盒學(xué)習(xí)，無(wú)需系統(tǒng)的詳細(xì)數(shù)學(xué)模型，在運(yùn)行時(shí)只關(guān)注狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)值三個(gè)部分。

強(qiáng)化學(xué)習(xí)系統(tǒng)簡(jiǎn)化框圖如圖2所示，在學(xué)習(xí)過(guò)程中，智能體和它周?chē)沫h(huán)境之間存在一個(gè)交互過(guò)程，可以解釋如下：智能體在執(zhí)行一個(gè)動(dòng)作后，不僅能夠從環(huán)境中獲得瞬時(shí)獎(jiǎng)賞，也使環(huán)境的狀態(tài)發(fā)生了轉(zhuǎn)移。為了獲得最優(yōu)的策略，智能體需要考察一系列狀態(tài)轉(zhuǎn)移所帶來(lái)的長(zhǎng)期獎(jiǎng)賞，這里長(zhǎng)期獎(jiǎng)賞一般由無(wú)限折扣獎(jiǎng)賞模型來(lái)計(jì)算。智能體的強(qiáng)化學(xué)習(xí)過(guò)程就是不斷地與環(huán)境交互，通過(guò)動(dòng)作的執(zhí)行從

圖2 環(huán)境與智能體的交互過(guò)程

一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)，并根據(jù)環(huán)境的瞬時(shí)獎(jiǎng)賞來(lái)計(jì)算長(zhǎng)期獎(jiǎng)賞。

所以式（13）可以表示為

因此，可以將深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化目標(biāo)定義為

式中，為維數(shù)。本文使用隨機(jī)梯度下降法交替優(yōu)化兩個(gè)優(yōu)化目標(biāo)，參數(shù)更新方法為

表1 DDPG算法網(wǎng)絡(luò)結(jié)構(gòu)

Tab.1 The network structure of DDPG

2.2 基于DDPG算法的控制器設(shè)計(jì)

本文通過(guò)采用DDPG算法來(lái)解決兩區(qū)域多能電力系統(tǒng)的機(jī)組功率分配問(wèn)題。所提出控制方法的結(jié)構(gòu)模型如圖3所示，圖中的智能體是一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的智能體，該LFC控制器的環(huán)境是第1節(jié)中的式（1）～式（8）。智能體將接收控制區(qū)域中的ACE信號(hào)輸入，來(lái)合理調(diào)整發(fā)電命令，以減少區(qū)域間的頻率偏差、計(jì)劃外的功率以及風(fēng)電機(jī)組的棄風(fēng)。

該方法包括離線預(yù)學(xué)習(xí)和在線應(yīng)用兩個(gè)階段。離線預(yù)學(xué)習(xí)階段，預(yù)學(xué)習(xí)過(guò)程將迭代更新智能體的所有參數(shù)。在每次自學(xué)習(xí)迭代過(guò)程中，智能體將進(jìn)行動(dòng)作探索（即生成不同的命令）以與環(huán)境（即兩區(qū)域多能電力系統(tǒng)）進(jìn)行交互。經(jīng)過(guò)探索，智能體的參數(shù)將根據(jù)系統(tǒng)區(qū)域控制誤差和LFC控制器的獎(jiǎng)勵(lì)函數(shù)進(jìn)行更新。在有適當(dāng)?shù)莫?jiǎng)勵(lì)函數(shù)并考慮環(huán)境約束（式（1）～式（8））的情況下，actor的梯度（即控制目標(biāo)相對(duì)于智能體參數(shù)的梯度）將被計(jì)算和用于更新智能體的所有參數(shù)。

式中，、、、、、為優(yōu)化權(quán)重值。

基于提出的DDPG算法框架和控制器參數(shù)更新規(guī)則，本文采用的算法流程如圖4所示。

3 算例分析

3.1 基本參數(shù)

本文采用的算例是一個(gè)兩區(qū)域多能互補(bǔ)電力系統(tǒng)，為驗(yàn)證所設(shè)計(jì)控制器的控制效果，在Matlab平臺(tái)進(jìn)行仿真試驗(yàn)。這兩個(gè)區(qū)域相互連接，結(jié)構(gòu)框圖如圖5所示，包括火電機(jī)組、風(fēng)電機(jī)組慣性時(shí)間系數(shù)1、2以及負(fù)荷的頻率調(diào)節(jié)效應(yīng)系數(shù)1、2的系統(tǒng)模型控制相關(guān)參數(shù)選擇參考文獻(xiàn)[25]，見(jiàn)表2。其中，火電機(jī)組的出力限制大于或等于30%，風(fēng)電和儲(chǔ)能的容量配比為10:1。

圖4 負(fù)荷頻率優(yōu)化控制方法的流程

圖5 兩區(qū)域互聯(lián)系統(tǒng)負(fù)荷頻率控制模型

表2 多能互補(bǔ)發(fā)電系統(tǒng)的標(biāo)稱(chēng)參數(shù)

Tab.2 Nominal parameters of hybrid power generation system

3.2 儲(chǔ)能容量配置對(duì)系統(tǒng)的影響

=5s時(shí)，在區(qū)域一中設(shè)置幅值為0.1(pu)，持續(xù)時(shí)間為1s的擾動(dòng)以模擬負(fù)載突變的工況仿真。圖6中比較了PID控制方式下，不同風(fēng)電儲(chǔ)能容量配比的系統(tǒng)動(dòng)態(tài)響應(yīng)。

從圖6中可以看出，隨著儲(chǔ)能設(shè)備容量配比的增加，系統(tǒng)各類(lèi)型指標(biāo)的超調(diào)量不斷減小，而調(diào)節(jié)時(shí)間隨著儲(chǔ)能配比的升高先減少后增加。

表3中給出了七種容量配比情況下的數(shù)值比較，可以得出當(dāng)風(fēng)電儲(chǔ)能容量配比為10:1時(shí)，系統(tǒng)的超調(diào)量相對(duì)較小，同時(shí)能夠在波動(dòng)后迅速恢復(fù)穩(wěn)定，兼顧了超調(diào)量和調(diào)節(jié)時(shí)間，總體來(lái)說(shuō)是比較好的選擇。

表3 負(fù)載突變時(shí)七種容量配比情況下的效果對(duì)比

Tab.3 Comparison of the effect of seven capacity ratios under load mutation

3.3 中長(zhǎng)期控制性能的分析

本文控制器首先采用離線模式的預(yù)學(xué)習(xí)方法, 如圖7所示，利用四川小金縣某風(fēng)機(jī)的一年實(shí)際風(fēng)機(jī)出力數(shù)據(jù)[26]對(duì)模型進(jìn)行一定次數(shù)的訓(xùn)練。目的是使actor和critic網(wǎng)絡(luò)根據(jù)訓(xùn)練函數(shù)的邏輯更新其內(nèi)部參數(shù)，以適應(yīng)整個(gè)系統(tǒng)，并且得到控制器在風(fēng)電機(jī)組實(shí)際出力情況下的控制效果，同時(shí)能夠應(yīng)對(duì)千變?nèi)f化的實(shí)際風(fēng)電場(chǎng)出力的隨機(jī)波動(dòng)。

其次，考慮到電力系統(tǒng)中負(fù)荷波動(dòng)的長(zhǎng)期性與隨機(jī)性，本文從中長(zhǎng)期控制性能入手，通過(guò)引入階躍擾動(dòng)和實(shí)際風(fēng)速擾動(dòng)兩種擾動(dòng)方式來(lái)檢驗(yàn)所提出數(shù)據(jù)驅(qū)動(dòng)LFC方法的可行性。

圖7 風(fēng)電機(jī)組的實(shí)際出力

3.3.1 階躍響應(yīng)擾動(dòng)

本文在模型區(qū)域一采用幅值為0.05(pu)，周期為250s的連續(xù)階躍擾動(dòng)信號(hào)，擾動(dòng)波形如圖8所示。測(cè)試結(jié)果如圖9和表4所示。

圖8 負(fù)荷的階躍擾動(dòng)

圖9提供了四種功率分配協(xié)調(diào)控制方法（圖9c～圖9e三張動(dòng)態(tài)性能仿真圖截取了仿真時(shí)間4 000～ 5 000s）：現(xiàn)有自動(dòng)發(fā)電控制（Automation Generation Control, AGC）（無(wú)儲(chǔ)能PID）、含儲(chǔ)能PID、含儲(chǔ)能DQN和含儲(chǔ)能DDPG。

表4 擾動(dòng)下的仿真結(jié)果

Tab.4 Simulation results under disturbance

綜合上述分析及表4，多區(qū)域電力系統(tǒng)在發(fā)生連續(xù)階躍擾動(dòng)的情況下，儲(chǔ)能設(shè)備的引入和所提出的DDPG算法無(wú)論是在CPS控制指標(biāo)、可再生能源發(fā)電消納還是在動(dòng)態(tài)性能方面都較其他三種控制方法更優(yōu)。

3.3.2 實(shí)際風(fēng)速擾動(dòng)

考慮到風(fēng)電場(chǎng)出力的間歇性和波動(dòng)性，本文采用如圖7所示的風(fēng)電機(jī)組實(shí)際風(fēng)速擾動(dòng)來(lái)對(duì)系統(tǒng)進(jìn)行仿真，以驗(yàn)證所提方法的有效性。測(cè)試結(jié)果如圖10和表4所示。

圖10提供了四種功率分配控制方法（圖10c～圖10e三張動(dòng)態(tài)性能仿真圖截取了仿真時(shí)間 4 000～5 000s）：現(xiàn)有AGC控制（無(wú)儲(chǔ)能PID）、含儲(chǔ)能PID、含儲(chǔ)能DQN和含儲(chǔ)能DDPG。

綜合上述分析及表4，多區(qū)域電力系統(tǒng)在實(shí)際風(fēng)速擾動(dòng)的情況下，總體來(lái)說(shuō)儲(chǔ)能設(shè)備的引入和所提出的DDPG算法無(wú)論是在CPS控制指標(biāo)、可再生能源發(fā)電消納還是在動(dòng)態(tài)性能方面都較其他三種控制方法更優(yōu)。

4 結(jié)論

1）提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的兩區(qū)域多能電力系統(tǒng)負(fù)荷頻率控制方法。該方法基于深度強(qiáng)化學(xué)習(xí)算法，包括離線預(yù)學(xué)習(xí)和在線應(yīng)用兩部分，可直接通過(guò)自學(xué)習(xí)生成控制命令。

2）考慮引入儲(chǔ)能設(shè)備來(lái)克服僅改進(jìn)控制器控制策略帶來(lái)的局限性。仿真結(jié)果表明儲(chǔ)能設(shè)備的引入在一定程度上改善了系統(tǒng)的LFC性能和可再生能源的發(fā)電消納能力。

3）考慮所提方法在風(fēng)電實(shí)際出力情況下的控制效果，并且從中長(zhǎng)期控制性能入手進(jìn)行仿真，證明了在電力系統(tǒng)發(fā)生連續(xù)階躍擾動(dòng)或?qū)嶋H風(fēng)速擾動(dòng)的情況下，所提DDPG算法比現(xiàn)有AGC控制和DQN算法都能顯著降低電力系統(tǒng)的CPS1、風(fēng)電機(jī)組棄風(fēng)、頻率偏差、聯(lián)絡(luò)線功率偏差以及區(qū)域控制誤差等指標(biāo)，實(shí)現(xiàn)了動(dòng)態(tài)性能最優(yōu)并且能夠應(yīng)對(duì)千變?nèi)f化的實(shí)際風(fēng)電機(jī)組出力的隨機(jī)波動(dòng)。

本文的仿真模型忽略了各機(jī)組的調(diào)節(jié)死區(qū)以及速率限制等問(wèn)題，這些方面是今后研究更多不同特性新能源接入?yún)^(qū)域電網(wǎng)需要重點(diǎn)考慮的。

[1] 彭思敏, 竇真蘭, 凌志斌, 等. 并聯(lián)型儲(chǔ)能系統(tǒng)孤網(wǎng)運(yùn)行協(xié)調(diào)控制策略[J]. 電工技術(shù)學(xué)報(bào), 2013, 28(5): 128-134.

Peng Simin, Dou Zhenlan, Ling Zhibin, et al. Cooperative control for parallel-connected battery energy storage system of islanded power system[J]. Transactions of China Electrotechnical Society, 2013, 28(5): 128-134.

[2] 趙晶晶, 李敏, 何欣芹, 等. 基于限轉(zhuǎn)矩控制的風(fēng)儲(chǔ)聯(lián)合調(diào)頻控制策略[J]. 電工技術(shù)學(xué)報(bào), 2019, 34(23): 4982-4950.

Zhao Jingjing, Li Min, He Xinqin, et al. Coordinated control strategy of wind power and energy storage in frequency regulation based on torque limit control[J]. Transactions of China Electrotechnical Society, 2019, 34(23): 4982-4950.

[3] 陳文倩, 辛小南, 程志平. 基于虛擬同步發(fā)電機(jī)的光儲(chǔ)并網(wǎng)發(fā)電控制技術(shù)[J]. 電工技術(shù)學(xué)報(bào), 2018, 33(2): 538-545.

Chen Wenqian, Xin Xiaonan, Cheng Zhiping. Control of grid-connected of photovoltaic system with storage based on virtual synchronous generator[J]. Transactions of China Electrotechnical Society, 2018, 33(2): 538-545.

[4] 常燁骙, 李衛(wèi)東, 巴宇, 等. 基于運(yùn)行安全的頻率控制性能評(píng)價(jià)新方法[J]. 電工技術(shù)學(xué)報(bào), 2019, 34(6): 1218-1229.

Chang Yekui, Li Weidong, Ba Yu, et al. A new method for frequency control performance assessment on operation security[J]. Transactions of China Electrotechnical Society, 2019, 34(6): 1218-1229.

[5] 左劍, 謝平平, 李銀紅, 等. 基于智能優(yōu)化算法的互聯(lián)電網(wǎng)負(fù)荷頻率控制器設(shè)計(jì)及其控制性能分析[J]. 電工技術(shù)學(xué)報(bào), 2018, 33(3): 478-489.

Zuo Jian, Xie Pingping, Li Yinhong, et al. Intelligent optimization algorithm based load frequency controller design and its control performance assessment in interconnected power grids[J]. Transactions of China Electrotechnical Society, 2018, 33(3): 478-489.

[6] 單華, 和婧, 范立新, 等. 面向抽水蓄能電站區(qū)域負(fù)荷頻率的分?jǐn)?shù)階PID控制研究[J]. 電網(wǎng)技術(shù), 2020, 44(4): 1410-1418.

Shan Hua, He Jing, Fan Lixin, et al. Research on fractional order PID control of regional load frequency of pumped storage power station[J]. Power System Technology, 2020, 44(4): 1410-1418.

[7] Wang Haixin, Yang Junyou, Chen Zhe, et al. Model predictive control of PMSG-based wind turbines for frequency regulation in an isolated grid[J]. IEEE Trans actions on Industry Applications, 2018, 54(4): 3077-3089.

[8] 程樂(lè)峰, 余濤, 張孝順, 等. 機(jī)器學(xué)習(xí)在能源與電力系統(tǒng)領(lǐng)域的應(yīng)用和展望[J]. 電力系統(tǒng)自動(dòng)化, 2019, 43(1): 15-31.

Cheng Lefeng, Yu Tao, Zhang Xiaoshun, et al. Application and prospects of machine learning in the field of energy and power systems[J]. Automation of Electirc Power Systems, 2019, 43(1): 15-31.

[9] 余濤, 周斌, 陳家榮. 基于Q學(xué)習(xí)的互聯(lián)電網(wǎng)動(dòng)態(tài)最優(yōu)CPS控制[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2009, 29(19): 13-19.

Yu Tao, Zhou Bin, Chen Jiarong. Q-learning-based dynamic optimal CPS control methodology for interconnected power systems[J]. Proceedings of the CSEE, 2009, 29(19): 13-19.

[10] 余濤, 甄衛(wèi)國(guó), 葉文加, 等. 基于多步回溯Q學(xué)習(xí)的自動(dòng)發(fā)電控制指令動(dòng)態(tài)優(yōu)化分配算法[J]. 控制理論與應(yīng)用, 2011, 28(1): 58-64.

Yu Tao, Zhen Weiguo, Ye Wenjia, et al. Multi-step backtrack Q-learning based dynamic optimal algorithm for auto generation control order dispatch[J]. Control Theory&Applications, 2011, 28(1): 58-64.

[12] 李濤, 胡維昊, 李堅(jiān), 等. 基于深度強(qiáng)化學(xué)習(xí)算法的光伏-抽蓄互補(bǔ)系統(tǒng)智能調(diào)度[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(13): 2757-2768.

Li Tao, Hu Weihao, Li Jian, et al. Intelligent economic dispatch for PV-PHS integrated system: a deep reinforcement learning -based approach[J]. Transactions of China Electrotechnical Society, 2020, 35(13): 2757-2768.

[13] Mocanu E, Mocanu D C, Nguyen P H, et al. On-line building energy optimization using deep reinfocement learning[J]. IEEE Transactions on Smart Grid, 2019, 10(4): 3698-3708.

[14] 汪波, 鄭文迪. 基于改進(jìn)Q學(xué)習(xí)算法的儲(chǔ)能系統(tǒng)實(shí)時(shí)優(yōu)化決策研究[J]. 電氣技術(shù), 2018, 19(2): 54-60, 65.

Wang Bo, Zheng Wendi. Research on real-time optimization decision of energy storage system based on improved Q-learning algorithm[J]. Electrical Engineering, 2018, 19(2): 54-60, 65.

[15] 鄒曉敏, 肖曦, 何琪, 等. 基于在線附加Q學(xué)習(xí)的伺服電機(jī)速度最優(yōu)跟蹤控制方法[J]. 電工技術(shù)學(xué)報(bào), 2019, 34(5): 917-923.

Zou Xiaomin, Xiao Xi, He Qi, et al. Optimal tracking control of servo motor speed based on online supplementary Q-learning[J]. Transactions of China Electrotechnical Society, 2019, 34(5): 917-923.

[16] Yan Ziming, Xu Yan. Data-driven load frequency control for stochastic power systems: a deep reinforcement learning method with continuous action search[J]. IEEE Transactions on Power Systems, 2019, 34(2): 1653-1656.

[17] Yan Ziming, Xu Yan. A multi-agent deep reinforcement learning method for cooperative load frequency control of a multi-area power system[J]. IEEE Transactions on Power Systems, 2020, 35(6): 4599-4608.

[18] 吳云亮, 孫元章, 徐箭, 等. 基于多變量廣義預(yù)測(cè)理論的互聯(lián)電力系統(tǒng)負(fù)荷-頻率協(xié)調(diào)控制體系[J]. 電工技術(shù)學(xué)報(bào), 2012, 27(9): 101-107.

Wu Yunliang, Sun Yuanzhang, Xu Jian, et al. Coordinated load-frequency control system in interconnected power system based on multivariable generalized predictive control theory[J]. Transactions of China Electrotechnical Society, 2012, 27(9): 101-107.

[19] Wei Xu, Dong Hu, Gang Lei, et al. System-level efficiency optimization of a linear induction motor drive system[J]. CES Transactions on Electrical Machines and Systems, 2019, 3(3): 285-291.

[20] 張冠鋒, 楊俊友, 孫峰, 等. 基于虛擬慣量和頻率下垂控制的雙饋風(fēng)電機(jī)組一次調(diào)頻策略[J]. 電工技術(shù)學(xué)報(bào), 2017, 32(22): 225-232.

Zhang Guanfeng, Yang Junyou, Sun Feng, et al. Primary frequency regulation strategy of DFIG based on virtual inertia and frequency droop control[J]. Transactions of China Electrotechnical Society, 2017, 32(22): 225-232.

[21] 章艷, 高晗, 張萌. 不同虛擬同步機(jī)控制下雙饋風(fēng)機(jī)系統(tǒng)頻率響應(yīng)差異研究[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(13): 2889-2900.

Zhang Yan, Gao Han, Zhang Meng. Research on frequency response difference of doubly-fed induction generator system controlled by different virtual synchronous generator controls[J]. Transactions of China Electrotechnical Society, 2020, 35(13): 2889-2900.

[22] 顏湘武, 崔森, 常文斐. 考慮儲(chǔ)能自適應(yīng)調(diào)節(jié)的雙饋感應(yīng)發(fā)電機(jī)一次調(diào)頻控制策略[J]. 電工技術(shù)學(xué)報(bào), 2021, 36(5): 1027-1039.

Yan Xiangwu, Cui Sen, Chang Wenfei. Primary frequency regulation control strategy of doubly-fed induction generator considering supercapacitor SOC feedback adaptive adjustment[J]. Transactions of China Electrotechnical Society, 2021, 36(5): 1027-1039.

[23] 余濤, 王宇名, 劉前進(jìn), 等. 互聯(lián)電網(wǎng)CPS調(diào)節(jié)指令動(dòng)態(tài)最有分配Q-學(xué)習(xí)算法[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2010, 30(7): 62-69.

Yu Tao, Wang Yuming, Liu Qianjin, et al. Q-learning-based dynamic optimal allocation algorithm for CPS order of interconnected power grids[J]. Proceedings of the CSEE, 2010, 30(7): 62-69.

[24] 席磊, 余濤, 張孝順, 等. 基于狼爬山快速多智能體學(xué)習(xí)策略的電力系統(tǒng)智能發(fā)電控制方法[J]. 電工技術(shù)學(xué)報(bào), 2015, 30(23): 93-101.

[25] Elgerd O I, Fosha C E. Optimum megawatt-frequency control of multi-area electric energy systems[J]. IEEE Transactions on Power Apparatus and Systems, 1970, PAS-89(4): 556-563.

[26] Zhang Guozhou, Hu Weihao, Cao Di, et al. Data-driven optimal energy management for a wind-solar-diesel-battery-reverse osmosis hybrid energy system using a deep reinforcement learning approach[J]. Energy Conversion and Management, 2021, 227: 113608.

Load Frequency Control Strategy of Hybrid Power Generation System: a Deep Reinforcement Learning—Based Approach

Liang Yudong1Chen Luan1Zhang Guozhou1Ren Manman2Hu Weihao1

（1. Key Laboratory of Wide-area Mearsurement and Control on Power System of Sichuan Province University of Electronic Science and Technology of China Chengdu 611731 China 2. State grid Anhui Electric Power Co. Ltd Electric Power Research Institute Hefei 230000 China）

To solve the problem of frequency modulation performance degradation caused by large-scale renewable energy access to the power grid, this paper proposes a data-driven load frequency coordinated optimization control method for hybrid energy system consisted of wind, thermal power and energy storage. Firstly, this paper establishes a mathematical model of the multi-area hybrid energy system through mechanism analysis. Secondly, a reward function with control performance standard (CPS), wind power casting and dynamic performance index is established. The load frequency control problem is transformed into a maximum reward function problem, and the deep deterministic policy gradient (DDPG) algorithm is introduced to solve this problem. Through pre-learning and online application, the optimal adaptive coordinated control strategy can be obtained under acturl output of wind turbine. Finally, the performance of the proposed method in improving the performance of load frequency control (LFC) is verified by stepped disturbance and actual wind speed disturbance. Simulation results show that when the power system is disturbed, the introduction of energy storage equipment and the proposed method can not only suppress fluctuations effectively, but also shorten the adjustment time required by LFC and increase the proportion of wind power consumption.

Hybrid energy system, load frequency control, deep deterministic policy gradient, control performance standard(CPS) index

10.19595/j.cnki.1000-6753.tces.210309

TM744

梁煜東男，1997年生，碩士研究生，研究方向?yàn)榭稍偕茉窗l(fā)電及其并網(wǎng)技術(shù)。E-mail：lydddace@163.com

胡維昊男，1982年生，教授，博士生導(dǎo)師，研究方向?yàn)槿斯ぶ悄茉陔娏ο到y(tǒng)中的應(yīng)用、可再生能源發(fā)電技術(shù)。E-mail：whu@uestc.edu.cn（通信作者）

2021-03-11

2021-07-06

國(guó)家重點(diǎn)研發(fā)計(jì)劃（2018YFE0127600）和四川省科技計(jì)劃（2018HH0146）資助項(xiàng)目。

（編輯赫蕾）