勞文潔,史林軍,李 楊,吳 峰,林克曼
(河海大學能源與電氣學院,南京 210098)
隨著雙碳目標的提出,推動構建新型電力系統(tǒng)已經(jīng)成為必然趨勢。然而,多區(qū)域互聯(lián)及多能互補系統(tǒng)的構建使得電網(wǎng)復雜程度顯著增加,風、光等新能源出力及負荷所具有的隨機性,也使得不確定性大大提升[1-3]。為此,迫切需要尋找更加靈活的調(diào)頻手段,以及有效的頻率控制策略來改善新型電力系統(tǒng)的頻率動態(tài)特性。
近年來,基于雙饋感應電機DFIM(doubly-fed induction machine)的抽水蓄能PSH(pumped storage hydro)機組,即雙饋抽水蓄能DFIM-PSH(doublyfed induction machine pumped storage hydro)逐漸興起,其可變速運行,具有更寬的調(diào)節(jié)范圍與更快的響應速度。尤其在抽水工況下,DFIM-PSH 能夠通過控制轉(zhuǎn)速實現(xiàn)對機組輸入有功功率的快速大幅調(diào)整[4-5],打破了傳統(tǒng)PSH在抽水工況下無法參與電網(wǎng)調(diào)頻的限制。然而,目前有關DFIM-PSH 在抽水工況下考慮機組運行特性構建相應頻率控制策略的研究仍然較少,且主要集中在機組級控制層面[6-7],鮮有對DFIM-PSH 在電力系統(tǒng)中與其他機組協(xié)調(diào)控制的研究。
在區(qū)域電網(wǎng)中,一般采用自動發(fā)電控制AGC(automatic generation control)來實現(xiàn)頻率調(diào)整,通常是采用比例-積分PI(proportional-integral)控制,根據(jù)區(qū)域控制誤差ACE(area control error)信號來計算各機組的調(diào)頻控制指令[8]。但傳統(tǒng)PI控制的動態(tài)性能較差且固定的PI參數(shù)不能適應系統(tǒng)變化[9]。為此,文獻[10]提出了基于深度強化學習DRL(deep reinforcement learning)的頻率控制方法,利用DRL不需要依賴精準的系統(tǒng)模型就可以實現(xiàn)自主學習且能夠根據(jù)環(huán)境變化進行自適應調(diào)整的優(yōu)勢,通過智能體與頻率控制模型的交互來優(yōu)化頻率控制策略。在諸多DRL 算法中,深度確定性策略梯度DDPG(deep deterministic policy gradient)算法因其動作空間連續(xù),在計算AGC指令方面得到了廣泛應用[11-12]。為適應多區(qū)域互聯(lián)電網(wǎng)的控制需求,余濤等[13]進一步引入了基于多智能體的DRL 算法。文獻[14-16]則將其拓展應用到多區(qū)域微網(wǎng)等場景中,并對系統(tǒng)的控制性能標準CPS(control performance standard)指標進行優(yōu)化。為提升基于DRL 的頻率控制策略的魯棒性,需要在其訓練階段充分模擬系統(tǒng)可能遭受的擾動,并提升算法挖掘系統(tǒng)特征信息的能力,但已有研究在訓練時對于新型電力系統(tǒng)特性的考慮仍不充分,也鮮有針對含可再生能源機組與儲能設備的多能互補系統(tǒng),以充分發(fā)揮儲能調(diào)頻作用并且考慮中長期控制性能指標的控制優(yōu)化。
為此,本文針對含DFIM-PSH 的多能互補系統(tǒng)頻率控制展開研究,在充分挖掘抽水工況下DFIMPSH調(diào)頻能力的基礎上,基于多智能體深度確定性策略梯度MADDPG(multi-agent deep deterministic policy gradient)算法構建兩區(qū)域系統(tǒng)的頻率控制策略,用以提升新型電力系統(tǒng)面對不同擾動時的頻率穩(wěn)定性。首先,基于DFIM-PSH 的運行特性與頻率控制策略構建其頻率控制模型,并結(jié)合傳統(tǒng)火電與風電機組模型形成多能互補系統(tǒng),進一步通過仿真驗證抽水工況下DFIM-PSH在提升系統(tǒng)頻率水平與改善系統(tǒng)控制性能方面的優(yōu)勢。其次,提出一種基于MADDPG 算法的系統(tǒng)頻率控制方法,采用“集中訓練、分散執(zhí)行”的協(xié)調(diào)模式,以充分發(fā)揮DFIMPSH 調(diào)頻能力來提升系統(tǒng)整體調(diào)頻控制性能為目標,對各機組的AGC 指令進行優(yōu)化。同時,通過對網(wǎng)絡結(jié)構及預學習等環(huán)節(jié)進行改進設計,確保訓練所得控制策略在不同擾動場景下的適應性。最后,通過仿真分析驗證了本文所提控制策略的魯棒性和可靠性。
為適應DFIM-PSH在抽水工況下的運行控制特性,使其參與系統(tǒng)調(diào)頻,并充分利用變流器的靈活調(diào)節(jié)能力來保證調(diào)頻響應速度,本文參考文獻[7]構建了頻率控制模型,包括頻率控制與機組控制。
1.1.1 機組控制模塊
在抽水工況下,DFIM-PSH 采用轉(zhuǎn)速優(yōu)先控制策略,即由變流器實現(xiàn)對機組轉(zhuǎn)速的快速控制,相應的調(diào)頻出力則由水泵水輪機控制模塊根據(jù)轉(zhuǎn)速變化計算獲得。
轉(zhuǎn)子側(cè)變流器通過調(diào)節(jié)勵磁電流實現(xiàn)對轉(zhuǎn)速的靈活快速控制,可采用一階慣性環(huán)節(jié)簡化表示[7],即
式中:s為微分算子;Gc(s) 為變流器的傳遞函數(shù);ir、分別為勵磁電流的實際值和指定值;τc為變流器的響應時間常數(shù)。
抽水工況下水泵水輪機模型是由不同轉(zhuǎn)速ω下的揚程H-流量Q曲線及功率P-流量Q曲線來描述,其運行點取決于H-Q曲線與管路特性Hneed-Q曲線的交點,其中Hneed為水泵所需揚程。水泵運行特性及狀態(tài)轉(zhuǎn)換示意如圖1所示[6]。此時可以通過調(diào)節(jié)ω來改變水泵的運行點,進而使得H與Q做出相應變化,同時由P-Q曲線得到機組的輸入功率也隨之改變。據(jù)此,可以將P-Q曲線映射為P-ω曲線,從而得到功率P的表達式為

圖1 水泵運行特性及狀態(tài)轉(zhuǎn)換示意Fig.1 Schematic of operation characteristics of reversible pump and its state conversion
式中,ki為擬合系數(shù),i=0,1,2,3。
1.1.2 頻率控制策略
由式(2)可知,水泵輸入功率與轉(zhuǎn)速的3 次方成正比,故DFIM-PSH 可以通過改變轉(zhuǎn)速實現(xiàn)機組有功功率的大幅調(diào)整。為保證調(diào)頻響應速度,將調(diào)頻模塊構建在變流器的轉(zhuǎn)速控制通道處,具體為利用比例-微分PD(proportional-differentia)控制器將頻率偏差Δf轉(zhuǎn)換為附加轉(zhuǎn)速指令Δωf,二次調(diào)頻指令ΔfD給定為轉(zhuǎn)速指令ΔωACE,將ΔωACE與Δωf疊加形成總控制指令Δωcmd,然后由變流器實現(xiàn)轉(zhuǎn)速的直接調(diào)節(jié),進而快速調(diào)整機組的調(diào)頻出力。
抽水工況下DFIM-PSH 的頻率控制框圖如圖2所示。其中,Tt為頻率檢測時間常數(shù);Tf為低通濾波器時間常數(shù);Kωp、Kωd分別為調(diào)頻模塊的比例、微分系數(shù);ΔPD為DFIM-PSH的調(diào)頻出力。

圖2 抽水工況下DFIM-PSH 的頻率控制框圖Fig.2 Frequency control block diagram of DFIM-PSH in pumping mode
1.2.1 火電機組模型
傳統(tǒng)火電機組通過控制汽輪機的氣門開度實現(xiàn)出力調(diào)整,其頻率控制模型包括調(diào)速器和汽輪機兩個部分[12],即
式中:ΔfT為火電機組的頻率控制指令;Rg為調(diào)差系數(shù);Tg為調(diào)速器時間常數(shù);TT為汽輪機時間常數(shù);ΔPV為調(diào)速器功率偏差;ΔPT為火電機組的調(diào)頻出力。
1.2.2 風電機組模型
雙饋風電機組在預留一定功率容量時可以通過轉(zhuǎn)子動能控制來參與系統(tǒng)調(diào)頻,但考慮到應盡可能減少棄風率,本文僅考慮風機參與一次調(diào)頻。為充分利用風力發(fā)電快速注入功率的特性,使其可以對外部負荷變化迅速做出響應,參考文獻[12,17]構建其頻率控制模型,包括下垂控制環(huán)節(jié)、濾波器及變流器環(huán)節(jié),即
式中:RW為風電機組的下垂控制系數(shù);Tω為washout 濾波器的時間常數(shù);τW為變流器的響應時間常數(shù);ΔPW為風電機組的調(diào)頻出力。
1.2.3 發(fā)電機-負荷及聯(lián)絡線模型
互聯(lián)區(qū)域i的發(fā)電機-負荷模型由區(qū)域中各類調(diào)頻機組出力總和ΔPm與負荷擾動ΔPL決定[8],即
式中:下標i和j表示不同區(qū)域;Δfi為區(qū)域i的頻率偏差;M為等效慣性時間常數(shù);D為負荷的頻率調(diào)節(jié)效應系數(shù);ΔPtie為聯(lián)絡線功率偏差,可表示為
其中
式中,Tij為區(qū)域間的同步系數(shù),可由區(qū)域端電壓的幅值U、相角φ及聯(lián)絡線電抗Xij計算得到。
為分析抽水工況下DFIM-PSH在系統(tǒng)中能夠起到的調(diào)頻作用并構建相應的負荷頻率控制策略,本文搭建了如圖3 所示的兩區(qū)域頻率控制模型。其中ΔfT1和ΔfT2分別為區(qū)域1和區(qū)域2中火電機組的頻率控制指令,ΔPT1和ΔPT2分別為區(qū)域1和區(qū)域2中火電機組的調(diào)頻出力,ΔPL1和ΔPL2分別為區(qū)域1和區(qū)域2中的負荷擾動。DFIM-PSH的一次調(diào)頻和機組控制環(huán)節(jié)如圖2 所示,其中區(qū)域1 含有傳統(tǒng)火電與風電機組,用于模擬含高比例可再生能源的電源中心,風電滲透率設置為20%;區(qū)域2則是在火電機組的基礎上加入了占比為10% 的儲能設備DFIM-PSH[18]。設置頻率調(diào)節(jié)死區(qū)為±0.03 Hz,并選用區(qū)域頻率控制模式為聯(lián)絡線功率-頻率偏差模式,即ACE信號由頻率偏差Δf和ΔPtie兩部分組成,其余參數(shù)見表1。ACE可表示為

表1 含DFIM-PSH 的電力系統(tǒng)區(qū)域頻率控制模型參數(shù)Tab.1 Parameters for regional frequency control model of power system with DFIM-PSH
式中,B為頻率響應系數(shù),由區(qū)域的等效調(diào)差系數(shù)與負荷的頻率調(diào)節(jié)效應系數(shù)決定。
為對大規(guī)模風電接入給系統(tǒng)帶來的影響進行表征,除風電機組自身的調(diào)頻作用外,本文還進一步考慮了風電接入給系統(tǒng)帶來的不確定擾動影響。為此,引入常規(guī)同步機組發(fā)電系數(shù)K[2],即常規(guī)同步發(fā)電機組容量和系統(tǒng)總?cè)萘康谋戎担瑏砜坍嬶L電滲透率提高對系統(tǒng)模型參數(shù)的影響,同時將風功率出力波動作為負的負荷擾動加入到頻率控制模型中,用于描述因風電接入帶來的有功功率波動。
MADDPG將適用于單智能體控制的DDPG算法拓展到多智能體控制系統(tǒng)中,通過多個智能體之間的信息交互與協(xié)調(diào)合作來獲得更優(yōu)的全局解,因而更加適用于求解多區(qū)域多調(diào)頻機組的頻率控制問題[19]。
MADDPG 與DDPG 均是在利用評價網(wǎng)絡(critic network)Qw進行動作價值評估的基礎上,采用動作網(wǎng)絡(actor network)πθ來獲得最優(yōu)策略與動作[20]。其中,評價網(wǎng)絡的訓練基于Q 學習的思想,即以最小化損失函數(shù)L1(w) 為目標更新參數(shù)w;而動作網(wǎng)絡參數(shù)θ的更新則基于確定性策略梯度算法,通過最大化動作價值函數(shù)Q(σt,at) 的期望L2(θ) 來獲得[21]。為增強學習的穩(wěn)定性,MADDPG還引入了目標網(wǎng)絡機制,在當前網(wǎng)絡的基礎上增加可以提供相對固定網(wǎng)絡更新目標的同參數(shù)網(wǎng)絡,即目標評價網(wǎng)絡和目標動作網(wǎng)絡,在當前網(wǎng)絡更新達到一定次數(shù)后,再以“軟更新”的方式對目標網(wǎng)絡進行調(diào)整[22]。具體的網(wǎng)絡優(yōu)化目標及參數(shù)更新方法可表示為
其中
式中:σt、at、rt分別為系統(tǒng)的狀態(tài)、動作與獎勵,以下標t和t+1 區(qū)分不同迭代次數(shù);L1(w) 為評價網(wǎng)絡的損失函數(shù);L2(θ) 為動作價值函數(shù)的期望;E() 表示數(shù)學期望;ρ為策略服從的行為分布;yt為動作價值函數(shù)的估計值;γ為折扣系數(shù);w和θ分別為當前評價網(wǎng)絡和動作網(wǎng)絡的參數(shù);w′和θ′分別為目標評價網(wǎng)絡和目標動作網(wǎng)絡的參數(shù);αw和αθ分別為評價網(wǎng)絡和動作網(wǎng)絡的學習率;β為軟更新系數(shù)。
然而,不同于DDPG 采用集中決策式控制,MADDPG采用的是“集中訓練、分散執(zhí)行”的協(xié)調(diào)模式,利用全局信息來學習集中的評價網(wǎng)絡,但為每個智能體設計不同的動作網(wǎng)絡,使其可以根據(jù)局部狀態(tài)采取合適的動作。對于評價網(wǎng)絡,采用所有智能體的狀態(tài)和動作作為輸入量來擬合Q值;而對于動作網(wǎng)絡,每個智能體僅以自身狀態(tài)作為輸入,并基于自身情況設計獎勵函數(shù)來訓練得到各自的動作輸出。上述控制模式使得各智能體能夠在優(yōu)先保證自身優(yōu)化目標的基礎上,實現(xiàn)各智能體之間的協(xié)調(diào)以提高全局優(yōu)化效果[15]。
考慮到傳統(tǒng)負荷頻率控制策略的動態(tài)性能較差,在具有強不確定性環(huán)境中的調(diào)頻效果無法得到保證,提出了基于MADDPG 的系統(tǒng)頻率控制策略,具體流程見圖4。基于MADDPG 的頻率控制本質(zhì)上是使用智能體作為AGC控制器,并通過對網(wǎng)絡結(jié)構、獎勵函數(shù)及預學習等環(huán)節(jié)進行改進設計,保證訓練所得頻率控制策略可以充分發(fā)揮DFIM-PSH的調(diào)頻能力,且在不同場景下均具有魯棒性。

圖4 基于MADDPG 的頻率控制優(yōu)化Fig.4 Frequency control optimization based on MADDPG
2.2.1 算法接口設置
針對兩區(qū)域負荷頻率控制問題,本文在區(qū)域1和區(qū)域2 分別設置一個智能體作為對應區(qū)域的AGC控制器。其中,區(qū)域i的觀測量σi設置為ACE的比例、微分、積分信號,即σi=[ACEi,sACEi,ACEi/s],i= 1,2 。對于區(qū)域1的智能體1,其動作指令a1為該區(qū)域火電機組的調(diào)頻控制指令ΔfT1;而對于區(qū)域2的智能體2,則是根據(jù)本區(qū)域的ACE信號確定火電與DFIM-PSH機組的調(diào)頻控制指令,即a2=[ΔfT2,ΔfD] 。具體的算法接口設置與信息交互如圖5所示。

圖5 MADDPG 算法的接口設置Fig.5 Interface setup of MADDPG algorithm
2.2.2 網(wǎng)絡結(jié)構設置
考慮到電力系統(tǒng)調(diào)頻屬于時序問題,即當前狀態(tài)也會受到上一狀態(tài)影響,同時多智能體系統(tǒng)需要觀測整個系統(tǒng)的狀態(tài),導致狀態(tài)量較多且含有復雜的非線性環(huán)節(jié)。為此,本文在設計評價與動作網(wǎng)絡時,將狀態(tài)向量作為輸入序列先經(jīng)過長短期記憶LSTM(long short-term memory)[15]網(wǎng)絡進行處理,以避免產(chǎn)生梯度爆炸或消失問題,進而提高訓練效率。相應的網(wǎng)絡結(jié)構如圖6 所示,其中m和n分別為評價網(wǎng)絡與動作網(wǎng)絡中全連接層的層數(shù)。改進前后訓練的收斂情況如圖7所示。

圖6 MADDPG 算法中的神經(jīng)網(wǎng)絡結(jié)構Fig.6 Structure of neural networks in MADDPG algorithm

圖7 網(wǎng)絡改進前后MADDPG 的收斂情況Fig.7 Convergence of MADDPG before and after network improvement
2.2.3 獎勵函數(shù)設置
基于MADDPG 算法的控制器在訓練過程中,會根據(jù)試錯探索機制朝著使獎勵函數(shù)值最大的方向進行策略優(yōu)化,因而獎勵函數(shù)最終決定了訓練所得控制器的控制效果。本文設置區(qū)域i的獎勵函數(shù)包含調(diào)頻技術性能和調(diào)頻經(jīng)濟性能兩部分。
調(diào)頻技術性能依據(jù)考察頻率控制質(zhì)量的CPS指標[13]構建如下分段函數(shù)。
(1)當CPS1i≥200時,電網(wǎng)的CPS指標合格,直接賦予最大獎勵0。
(2)當100≤CPS1i<200時,電網(wǎng)的CPS1指標合格,希望ACE盡可能小以確保CPS2指標也滿足要求。
(3)當CPS1i<100 時,電網(wǎng)的CPS1 指標不合格,希望Δf與ACE 的乘積盡可能小以保證較大的CPS1指標。
分段函數(shù)可表示為
式中:Rai為區(qū)域i獎勵函數(shù)中的調(diào)頻技術性能部分;μi為權重系數(shù),i= 1,2 。
調(diào)頻經(jīng)濟性能主要是應盡可能減小各機組的調(diào)頻出力,以保證較好的經(jīng)濟性。對于區(qū)域1,希望火電出力盡可能小以減小調(diào)節(jié)成本,同時風電調(diào)頻出力盡可能小以減小棄風量;而對于區(qū)域2,則是要盡可能發(fā)揮DFIM-PSH 的靈活調(diào)節(jié)作用而減小火電機組的調(diào)頻出力。由此確定該部分獎勵函數(shù)為
式中:Rei為區(qū)域i獎勵函數(shù)中的調(diào)頻經(jīng)濟性能部分;λj為權重系數(shù),j= 1,2,3,4 。
為進一步提升學習速度并排除不合理的訓練結(jié)果,除描述主要優(yōu)化目標的基本項外,本文還設置了仿真提前終止的懲罰項F及控制滿足要求的正獎勵項A。其中,F(xiàn)包含確保DFIM-PSH正常運行的轉(zhuǎn)速限制及控制有效的頻率偏差限制,在機組轉(zhuǎn)速變化超出允許范圍[-0.1 p.u.,0.1 p.u.]或Δf超出范圍[-0.5 Hz,0.5 Hz]時,設定F為一個數(shù)值很大的負數(shù);A則是在Δf能夠維持在較小范圍[-0.03 Hz,0.03 Hz]內(nèi)時,給獎勵函數(shù)賦予的正值獎勵。
綜上所述,本文構建的區(qū)域i的獎勵函數(shù)Ri可表示為
2.2.4 預學習設置
為使訓練所得AGC 控制器在不同場景下均具有魯棒性,應盡可能考慮新型電力系統(tǒng)所呈現(xiàn)的不確定擾動特性,設置相應的擾動來制造頻率波動環(huán)境。然而,目前常見的擾動場景通常僅考慮負荷波動的隨機性,通過設置連續(xù)階躍擾動[10-12]和正弦擾動[9]對其進行模擬。考慮到新型電力系統(tǒng)因大規(guī)模風電接入造成的系統(tǒng)模型參數(shù)變化與不確定擾動,本文設置圖8 所示的周期與幅值隨機變化的擾動形式,涵蓋了負載階躍擾動的突變特性和可再生能源的連續(xù)隨機波動特性。同時,在預學習過程中引入隨機變化的K值來改變系統(tǒng)模型參數(shù),進而模擬不同風電滲透率場景。

圖8 訓練所用隨機擾動Fig.8 Random disturbance for training
為驗證DFIM-PSH 參與系統(tǒng)調(diào)頻時基于MADDPG 的頻率控制策略(以下簡稱MADDPG 控制)的優(yōu)勢,本節(jié)首先分析抽水工況下DFIM-PSH 的調(diào)頻優(yōu)勢,其次通過對比不同擾動及故障場景下采用不同頻率控制方法的控制效果,驗證所提MADDPG控制的魯棒性及可靠性。DFIM-PSH的調(diào)頻參數(shù)通過模擬同步發(fā)電機的調(diào)頻特性設置[7],MADDPG 算法的參數(shù)如表2所示。

表2 MADDPG 算法的參數(shù)Tab.2 Parameters for MADDPG algorithm
本節(jié)基于圖3 所示的頻率控制模型,對系統(tǒng)采用傳統(tǒng)PSH 和DFIM-PSH 機組時的調(diào)頻效果進行對比,其中AGC采用傳統(tǒng)PI控制,控制指令在各機組之間按照功率可調(diào)容量進行分配。設置兩區(qū)域均在t= 5 s 時受到幅值為0.02 p.u. 的單個階躍擾動,所得系統(tǒng)兩區(qū)域的Δf、ΔPtie及各機組調(diào)頻出力如圖9所示。

圖9 單個階躍擾動下不同PSH 的調(diào)頻效果Fig.9 Frequency regulation effects of different PSH units under single step disturbance
從圖9 可以看出,相比于傳統(tǒng)PSH 在抽水工況下無法調(diào)節(jié)功率,DFIM-PSH 可以通過改變轉(zhuǎn)速來實現(xiàn)對輸入功率的連續(xù)快速控制,進而作為可變負荷參與調(diào)頻,這樣可以有效緩解火電機組的調(diào)頻壓力。由于DFIM-PSH 的調(diào)頻控制由變流器實現(xiàn),響應速度很快,整個系統(tǒng)的頻率特性都得到了有效改善。
采用文獻[23]介紹的慣量評估方法計算系統(tǒng)含PSH 時的等效慣量,如圖10 所示。可見,在PSH 處于抽水工況時,系統(tǒng)含傳統(tǒng)PSH 時的等效慣量為5.061 s,而在采用DFIM-PSH 時等效慣量則增加到5.369 s,提升約6.09%,且該數(shù)值會隨著所選調(diào)頻參數(shù)的增大而增大。

圖10 系統(tǒng)等效慣量的變化曲線Fig.10 Curve of system equivalent inertia time constant
為驗證MADDPG 控制的魯棒性,除訓練所用的由隨機負荷擾動組成的極端擾動場景(場景1)外,還設置了由風功率波動和隨機負荷波動組成的實際擾動場景(場景2),并引入傳統(tǒng)PI控制及模糊控制進行對比。其中,模糊控制的具體設計規(guī)則參照文獻[24],在調(diào)頻過程中隨著ACE信號的變化,模糊控制可以自適應調(diào)整各機組的出力。
下面對比不同場景下采用不同控制方法得到的各區(qū)域Δf和ΔPtie、各機組出力響應及包含CPS1指標和ACE信號在內(nèi)的頻率性能指標,并計算各場景下的中長期頻率響應指標,包括最大頻率偏差Δfmax、平均頻率偏差| Δf|ave和頻率優(yōu)秀率η、CPS1 指標的最小值CPS1min、CPS1指標的平均值CPS1ave,以及用于表征CPS2指標的ACE信號平均值 |ACE |ave,其中η為Δf處于[-0.03 Hz,0.03 Hz]調(diào)頻死區(qū)的占比。
3.2.1 場景1:訓練場景
在訓練過程中設置兩區(qū)域同時遭受圖8 所示的隨機負荷擾動,得到不同控制下系統(tǒng)的響應情況如圖11 所示,對應的中長期頻率響應指標如圖12所示。

圖11 不同控制下的調(diào)頻效果(場景1)Fig.11 Frequency regulation effects under different controls (Scenario 1)

圖12 不同控制下的調(diào)頻性能指標(場景1)Fig.12 Frequency regulation performance indicators under different controls (Scenario 1)
由圖11 可知,傳統(tǒng)PI 控制由于按照機組可調(diào)容量進行總AGC指令的分配,主要依靠火電機組來參與調(diào)頻,未能充分利用DFIM-PSH 所提供的額外調(diào)頻容量及其靈活快速的功率調(diào)節(jié)能力,因而兩區(qū)域的總體調(diào)頻效果較差。在系統(tǒng)遭遇幅值較大的功率擾動時(例如t= 240~300 s),CPS1指標甚至下降為負值,不符合控制要求。而由于模糊控制可以按照專家經(jīng)驗隨調(diào)頻過程自適應調(diào)整各機組輸出,其調(diào)頻效果相比于傳統(tǒng)PI控制有顯著提升,兩區(qū)域|Δf|ave減小均達到47.67%,η也由69%升高到85%。雖然模糊控制考慮了調(diào)頻過程中ACE 信號變化對調(diào)頻效果的影響,但難以將各機組調(diào)頻特性及更復雜的優(yōu)化目標融入到調(diào)整規(guī)則中。從圖11(b)可以看出,模糊控制下機組仍然未能充分利用DFIMPSH的調(diào)頻能力,因而對于調(diào)頻效果的提升比較有限。而MADDPG 控制可以在監(jiān)測環(huán)境狀態(tài)實現(xiàn)自適應調(diào)整的同時,通過獎勵函數(shù)的設置實現(xiàn)更為復雜的多目標優(yōu)化。由于MADDPG 控制的獎勵函數(shù)考慮了調(diào)頻成本,并通過設置不同的權重系數(shù)來保證DFIM-PSH作為主調(diào)頻機組,故MADDPG控制下DFIM-PSH 的出力獲得了顯著提升,而各火電機組的出力則明顯下降。此時,兩區(qū)域的Δf和ΔPtie都得到了快速平抑,相應的頻率調(diào)節(jié)性能指標提升明顯。兩區(qū)域的CPS1min已經(jīng)可以穩(wěn)定在100%以上,CPS1ave也達到了180%以上。相比于采用傳統(tǒng)PI控制,區(qū)域2 的CPS1ave提升約20 倍,| A CE |ave減小了75.32%。
3.2.2 場景2:實際擾動場景
考慮到區(qū)域1含有風電機組,設置其遭受圖13所示的實際風功率波動與隨機負荷擾動,而區(qū)域2仍然遭受隨機負荷擾動,得到不同控制下系統(tǒng)響應如圖14所示,中長期頻率響應指標如圖15所示。

圖13 實際擾動Fig.13 Actual disturbance

圖14 不同控制下的調(diào)頻效果(場景2)Fig.14 Frequency regulation effects under different controls (Scenario 2)

圖15 不同控制下的調(diào)頻性能指標(場景2)Fig.15 Frequency regulation performance indicators under different controls (Scenario 2)
在場景2 下,模糊控制仍然可以獲得優(yōu)于傳統(tǒng)PI控制的調(diào)頻效果,但各項中長期頻率響應指標的提升已經(jīng)不明顯。而MADDPG 控制能夠更好地適應具有連續(xù)變化特性的風電機組出力波動,通過充分利用DFIM-PSH的調(diào)頻能力來顯著改善系統(tǒng)的頻率特性,具有較強的魯棒性。以區(qū)域1 為例,相比于模糊控制,MADDPG控制下Δfmax減小了36.83%,|Δf|ave減小了32.56%。
由于兩區(qū)域所遭受負荷擾動的特點不同,且其調(diào)頻效果會相互影響,故MADDPG 控制中的兩個智能體將會形成合作博弈關系,在某些時段可能會出現(xiàn)配合不佳的情況。例如在t= 180~240 s,為應對區(qū)域1 中較大的風電出力正向波動,區(qū)域2 大幅改變DFIM-PSH的功率并通過聯(lián)絡線向區(qū)域1進行支撐,使得這一時段區(qū)域1的CPS1指標獲得了大幅提升,但相應地也導致了區(qū)域2的CPS1指標明顯下降。雖然在MADDPG 控制下有時會出現(xiàn)合作博弈,即某區(qū)域犧牲自身來協(xié)助其他區(qū)域的情況,但系統(tǒng)整體的調(diào)頻性能還是得到了穩(wěn)定提升。相比于模糊控制,MADDPG控制下區(qū)域2的CPS1min提升了39.91%,且CPS1ave能夠穩(wěn)定維持在190%以上。
為進一步驗證MADDPG 控制的可靠性,設置系統(tǒng)中某一智能體故障(即場景3),并將使用單智能體的DDPG 控制與MADDPG 控制進行對比。不同控制下系統(tǒng)兩區(qū)域的Δf、ΔPtie及頻率性能指標如圖16所示。其中,DDPG控制在訓練時所設置的獎勵函數(shù)為MADDPG 控制中兩智能體獎勵函數(shù)之和,因而在智能體均正常運行時,兩者控制效果基本一致。


圖16 不同控制下的調(diào)頻效果(場景3)Fig.16 Frequency regulation effects under different controls (Scenario 3)
對于DDPG 控制,系統(tǒng)中唯一的智能體故障將會導致各機組無法接收AGC調(diào)頻指令,僅能通過一次調(diào)頻來進行功率支撐,因而造成系統(tǒng)的頻率特性顯著惡化。而在MADDPG 控制下,某一區(qū)域的智能體故障后,另一區(qū)域的智能體仍然能夠正常工作,可以在優(yōu)先保證自身區(qū)域調(diào)頻效果的基礎上改善系統(tǒng)整體的頻率特性。以區(qū)域1 中智能體故障為例,此時MADDPG控制下區(qū)域2中智能體仍然能夠以提高自身調(diào)頻效果為目標進行決策,相應的CPS1指標不僅沒有下降,反而因為不用與區(qū)域1的調(diào)頻效果相協(xié)調(diào)而顯著提升,甚至高于無故障情況。同時,區(qū)域1的頻率特性雖然因火電機組不參加二次調(diào)頻而有所惡化,但因區(qū)域2向其提供功率支撐,CPS1指標仍然能夠維持在較高水平。
針對新型電力系統(tǒng)存在的頻率特性惡化問題,本文在充分挖掘抽水工況下DFIM-PSH機組調(diào)頻能力的基礎上,提出了一種基于MADDPG 算法的系統(tǒng)頻率控制方法。通過構建抽水工況下DFIM-PSH機組的頻率控制策略,利用含DFIM-PSH 的系統(tǒng)頻率控制模型分析其在新型電力系統(tǒng)中所能發(fā)揮的調(diào)頻優(yōu)勢。在此基礎上,引入MADDPG 算法以兼顧系統(tǒng)調(diào)頻性能指標與成本指標為目標對兩區(qū)域內(nèi)各機組的調(diào)頻指令進行協(xié)調(diào)優(yōu)化。對MADDPG算法中網(wǎng)絡結(jié)構、獎勵函數(shù)及預學習等環(huán)節(jié)進行改進設計,保證訓練所得頻率控制策略可以充分發(fā)揮DFIM-PSH 的調(diào)頻能力,并且在不同擾動場景下均具有魯棒性與可靠性。根據(jù)仿真結(jié)果所得主要結(jié)論如下。
(1)區(qū)別于傳統(tǒng)PSH,DFIM-PSH因可實現(xiàn)變速運行,在抽水工況下也具備一定的調(diào)頻容量,能夠有效緩解傳統(tǒng)火電機組的調(diào)頻壓力。同時,在所設計的頻率控制策略下,DFIM-PSH 能夠利用變流器實現(xiàn)快速響應,通過調(diào)節(jié)轉(zhuǎn)速來提供大額功率支撐,進而有效提升系統(tǒng)的慣量水平。因此,在區(qū)域頻率控制中,DFIM-PSH 可以在快速抑制本區(qū)域頻率變化的基礎上,通過聯(lián)絡線向互聯(lián)區(qū)域進行功率支撐,使得整個系統(tǒng)的調(diào)頻性能指標獲得顯著提升。
(2)考慮到新型電力系統(tǒng)存在的復雜性與不確定性,引入具有自適應能力的MADDPG 算法對各機組的調(diào)頻指令進行協(xié)調(diào)優(yōu)化,所得調(diào)頻效果優(yōu)于傳統(tǒng)PI 控制與模糊控制。在通過獎勵函數(shù)設計獲得預期控制效果的基礎上,在預學習過程中引入隨機的參數(shù)變化與負荷擾動,MADDPG算法在不同擾動場景下均可以有效改善系統(tǒng)的頻率特性,具有很強的魯棒性。同時,基于“集中訓練,分散執(zhí)行”模式的MADDPG 控制在提升系統(tǒng)整體性能時,優(yōu)先保證各智能體滿足自身控制目標,因而在某一智能體故障時仍然能夠發(fā)揮作用,相比于單智能體的DDPG控制具有更強可靠性。
對于復雜的多區(qū)域電力系統(tǒng),智能體之間信息傳遞及指令下達存在通訊延遲的問題將會對系統(tǒng)的調(diào)頻效果產(chǎn)生影響,后續(xù)將著重對該問題進行研究。