張華強,牟晨東,趙玫,姚統
(哈爾濱工業大學(威海)新能源學院,山東威海264209)
目前,大量的光伏電源采用PQ控制方式接入到微電網,由于其缺乏傳統同步發電機的轉動慣量,導致微電網應對功率擾動的能力較差,同時光伏電源不能自主參與微電網的電壓、頻率調節過程,使得微電網運行的穩定性受到了很大挑戰[1-3]。
為了從源頭解決這些問題,眾多學者借鑒傳統同步發電機的轉子運動方程、調速器以及勵磁器原理,將虛擬同步機(virtual synchronous genera?tor,VSG)技術引入逆變器控制策略中[4],使得分布式電源能提供慣性響應以及自主參與微電網調頻。傳統的分布式光伏電源由于不配備儲能裝置,在微電網的頻率控制與功率調度中通常將其作為不可控電源進行處理。隨著儲能裝置的不斷發展以及VSG技術在光伏發電領域的不斷應用,光伏電源可通過配備儲能裝置實現由不可控電源向可控電源的轉變。文獻[5]對采用下垂與虛擬慣量控制的光伏電源參與電網頻率調整的機電暫態過程進行了詳細分析,光伏電源做減載運行,進而具有有功備用;文獻[6]在文獻[5]的基礎上提出了多光伏電源參與系統頻率調節的協調控制策略,驗證了多光伏電源參與頻率調整的可行性與有效性;文獻[7-8]通過為光伏電源配備儲能的方式將其視為可控電源,光儲發電系統可以根據微電網的頻率控制與調度需求輸出指定功率。以上文獻將光儲發電系統的發電運行成本擬合成關于輸出功率的多項式形式,可定量計算光儲的發電成本,為本文實現多光儲VSG頻率協調控制提供了理論基礎。
由于VSG一次調頻屬于有差調頻,為了保證微電網供電的電能質量,需對微電網的頻率進行二次調整[9]。文獻[10]結合集中式與分散式頻率調控的優點,通過定義最大出力因子實現各電源按照發電容量輸出功率進行二次調頻,但其沒有考慮各發電單元的發電成本,不利于微電網經濟運行。文獻[11]討論了微電網頻率集中控制的可行性,中央控制器按照一定的規則對計劃外的負荷進行再分配,但其計劃外負荷的計算仍然采用積分控制,存在相關參數難以整定以及與微電網具體環境聯系較大的問題,一旦微電網結構發生變化,其控制參數需要進行相應的調整,通用性較差。
為了解決以上問題,基于強化學習的控制策略不斷得到應用。文獻[12]將強化學習策略應用至風儲合作決策過程中,在緩解電網調控壓力的同時提高風儲合作的效率。文獻[13]針對下垂控制存在頻率與電壓誤差的問題,利用強化學習算法中的Q學習實現分布式頻率與電壓二次優化控制。文獻[14]針對傳統的PI控制參數整定困難以及結構拓展性差的問題,提出了一種基于Q學習的微電網頻率自適應控制策略。
本文在此基礎上,借鑒文獻[15]的兩級控制方式,提出了多光儲虛擬同步機的頻率協調控制策略。以光儲虛擬同步機為研究對象,在光伏電源直流側配備儲能裝置使其在一定程度上成為可調度單元;上層中央控制器實時檢測系統的頻率,采用強化學習控制策略根據以往決策歷史與經驗計算功率缺額,然后按照各光儲電源的發電運行成本利用拉格朗日乘子法進行功率分配,動態調整各光儲VSG的輸出功率,實現多光儲虛擬同步機的頻率協調控制。
圖1所示為光儲VSG的電路結構。光伏電源與儲能裝置通過DC/DC電路與直流母線相連。通常情況下光伏電源處于MPPT狀態下,儲能裝置維持直流母線電壓恒定,逆變器采用VSG控制策略,儲能裝置負責提供光儲VSG所需的慣性響應以及調頻所需的能量,同時應對光伏的出力波動。

圖1 光儲VSG電路結構Fig.1 Structure of PV-BA VSG
VSG控制主要包括有功—頻率(P—f)控制器以及無功—電壓(Q—U)控制器。P—f控制器主要根據發電機轉子方程建立,其表達式如下:

式中:J為虛擬轉動慣量;D為阻尼系數;PT,Pe為輸入機械功率與VSG輸出功率;ωn,ω為額定角頻率與角頻率。
為使VSG能自主參與微電網的頻率調整,借鑒同步機調速器原理,其輸入的虛擬機械功率表達式為

式中:Pset為VSG有功功率設定值;kf為VSG頻率調差系數。
通過式(1)、式(2)可知VSG穩態時輸出功率為

VSG的輸出電勢eabc為

其中

式中:θ為輸出電壓的虛擬相角,可由虛擬角速度ω積分得到;E為電勢幅值,可由Q—U控制器得到;Qset為無功功率設定值;Q為無功功率;E0為VSG虛擬空載電壓;δ為電壓調差系數。
本文重點研究光儲VSG的頻率控制,電壓控制部分不做詳盡分析。VSG控制策略如圖2所示。

圖2 VSG控制框圖Fig.2 Control block diagram of VSG
由于微電網的線路阻抗呈現阻感性,導致逆變器輸出的有功功率與無功功率存在耦合,不利于逆變器的功率控制與參數整定。本文在逆變器底層控制中加入虛擬電感,使得逆變器等效輸出阻抗呈感性,實現有功功率與無功功率的解耦。
光儲VSG直流側控制主要包括光伏與儲能控制。光伏電源采用雙級式電路結構,通過Boost電路實現光伏的最大功率追蹤,其控制策略采用電壓電流雙閉環控制方式,電壓環參考電壓通常為光伏電源最大功率點所對應的直流電壓。
為實現光儲VSG,可根據微電網調度需求輸出指定功率,儲能裝置需要根據光伏電源的出力與調度指令進行充電或放電,用以彌補光伏電源以及逆變器輸出的功率差額。儲能裝置可通過雙向DC/DC電路(Buck-Boost)與直流母線連接,其控制方式如圖3所示。

圖3 儲能裝置控制策略Fig.3 Energy storage device control strategy
為增強光儲VSG的可調度性,當儲能電池可用充電容量較小而光伏電源的最大輸出功率大于微電網的功率調度指令時,此時光伏應運行在減載狀態,需要附加額外的控制,其具體控制方式參考文獻[16]。
若微電網頻率處于額定頻率,當微電網發生功率波動時,光儲VSG會自主參與系統一次調頻,VSG輸出頻率與負荷變化ΔPload的關系為

當系統的負荷波動較大,一次調頻后系統頻率不能夠滿足系統頻率的要求,同時為了保證微電網供電的電能質量,需要進行二次調頻。圖4所示為VSG二次調頻示意圖。

圖4 VSG二次調頻示意圖Fig.4 Secondary frequency regulation of VSG
若光儲VSG功率設定值為Pset1,微電網負荷為PL1,兩直線交于a點,系統的頻率為額定值。假定負荷不參與頻率調節,當負荷變至PL2時,由于VSG具備一次調頻,微電網頻率下降至f1。若光儲VSG功率設定值抬升至Pset2,頻率調節系數保持不變,VSG的P—f曲線斜率保持不變,此時與負荷曲線交至c點,系統頻率恢復至額定值。所以光儲VSG可以通過改變功率給定值Pset來進行二次調頻,不需要添加額外控制。通過圖4可知,當只有單臺VSG進行二次調頻時,其功率設定值應為

式中:P*set為二次調頻后的功率設定值;Pset為調整前的功率設定值;ΔPL為負荷波動值。
傳統電力系統通常有負責二次調頻的調頻廠,但微電網情況與電力系統不同的是單個VSG的容量相對較小,僅靠單臺VSG不能滿足系統頻率調整的需求,會造成單臺VSG過載而其他VSG的調頻能力沒有最大限度地利用,所以微電網中需要多臺光儲VSG共同承擔調頻任務。
根據式(7)可知,當多臺光儲VSG參與頻率調整時需要滿足以下條件:

式中:n為參與二次調頻的光儲VSG個數。
通過分析可知,多光儲VSG頻率協調控制的本質是多光儲VSG功率協調分配問題。
為了保證微電網運行的經濟性,需要按照各光儲電源的發電運行成本實現多光儲VSG功率協調分配。光儲電源的運行成本主要由光伏電池板與儲能電池維護、置換成本等費用組成,根據文獻[17]可知,光儲發電成本可擬合成如下式所示的函數形式:

式中:ai,bi,ci為電源 i的擬合運行成本系數。
根據式(9)可知,光儲電源與傳統火電機組的發電運行成本函數形式相同,所以可以借鑒等耗量微增率的概念對負荷進行經濟性的分配。根據拉格朗日乘子法可知,在不考慮功率約束的情況下,當各光儲VSG的功率給定值P*set對應邊際成本相等時,此時負荷分配方案是最經濟的,其邊際成本的表達式為

據此,中央控制器計算各光儲VSG的最優功率給定值的流程如下:
1)中央控制器根據系統頻率計算功率波動值ΔPload;調取各光儲VSG的功率極限值,設定邊際成本初值ξ0與邊際成本更新步長Δξ;
2)根據邊際成本值ξ按照式(10)求取對應的各VSG功率設定值,若對應的功率值越界則取上界或下界i;
3)計算調頻機組功率設定調節值是否滿足等式約束,如下式:

4)不斷更新邊際成本ξ,直至滿足步驟3)的約束條件,輸出最終的功率設定值P*set_i。
隨著通訊技術的不斷發展,信息傳輸的容量、速度以及準確性都有了很大的提升,微電網采用集中式控制的優點逐漸顯現。通過第2節的分析可知,多光儲VSG頻率協調控制的關鍵是如何計算得到微電網內的功率缺額。傳統集中式控制方法通常是中央控制器采集頻率偏差通過PI控制器計算出頻率積差,但存在PI參數整定困難的缺點,當微電網的結構發生變化時其參數需重新整定,而且不能充分利用以往的決策歷史,缺乏一定的智能性。
為了擺脫控制器對于微電網具體結構的依賴以及充分利用以往調控的經驗與教訓,本文采用基于強化學習(reinforcement learning,RL)的多光儲VSG頻率協調控制策略。
在RL中,智能體(Agent)會根據環境(Envi?ronment)當前的狀態、以往的學習經驗與學習策略執行某個動作,當環境執行完該動作后將反饋信號送回智能體,智能體按照學習目標對剛執行的動作進行評價,根據評價結果確定今后執行該動作的概率增加或減少。
在RL算法的決策算法中,Q學習作為一種無模型學習算法被廣泛應用。Q學習是基于值函數的強化學習算法,利用Q值來衡量智能體在狀態st下執行動作a的好壞。
Q學習算法根據以往的決策經驗與教訓建立Q值表,Q值表為一個n×m的矩陣。m為系統動作集A的離散區間個數;n為系統狀態集S的離散區間個數。Q值表中Q值更新規則表達式為[13]

式中:sk,sk+1為當前環境狀態與執行完動作ak后的環境狀態;r(sk,sk+1,ak)為智能體執行動作ak的獎勵值;α為學習因子;γ為折扣因子;a'為狀態sk+1下的所有可能動作值;Q(sk,ak)為在狀態sk執行ak的值函數。
在Q學習的學習過程中根據狀態sk選擇動作ak的策略為學習策略,本文采用ε-greedy學習策略,其表達式為

式中:ε為貪婪值,其取值為0~1之間,當其值較大時表明學習策略更傾向于按照最大Q值選擇動作;δ為0~1之間隨機數;argmaxQ(s,a)為Q(s,a)最大時的動作取值;arand為隨機選擇的動作值。
在滿足某些條件下通過隨機選擇動作值可以在一定程度上防止Q學習算法陷入局部最優。
Q學習算法在進行決策時只涉及本時刻狀態以及下一狀態對應的Q值,同時在進行Q值更新時只更新Q(sk,ak),Q值表中其它的狀態-動作對均保持原值不變,其計算量不是很大,不會過多增加控制器的計算量以及控制成本。
通過以上分析可知,Q學習參數主要包括輸入狀態集S、輸出動作集A以及獎勵函數R。中央控制器通過檢測微電網的頻率偏差Δf,根據以往的決策經驗估計二次調頻功率,所以狀態量為微電網頻率偏差Δf,動作量為功率缺額ΔP。
狀態集S與動作集A均是有限的非空集合,微電網頻差Δf可以根據系統的調頻需求劃分為一定的離散區間。本文二次頻率調整目標為(50±0.005)Hz,設計狀態集S的離散區間為{(-∞,-0.1),[-0.1,-0.08),[-0.08,-0.05),[-0.05,-0.02),[-0.02,-0.005),[-0.005,0.005),[0.005,0.02),[0.02,0.05),[0.05,0.08),[0.08,0.1),[0.1,+∞)},其對應的狀態集S為{s1,s2,…,s11}。
為了增強Q學習動作集的通用性,動作集A中的元素選取為功率標幺值,基準值選取當前微電網最大可調功率[13-14]。當微電網可調功率發生變化時,僅改變功率基準值即可,無需改變動作集A。本文設計的動作集為{-1,-0.6,-0.3,-0.1,-0.08,-0.06,-0.04,-0.03,-0.02,-0.015,-0.01,-0.005,0,0.005,0.01,0.015,0.02,0.03,0.04,0.06,0.08,0.1,0.3,0.6,1},其對應動作集為{a1,a2,…,a25}。
值得注意的是,當動作集與狀態集元素個數較多時,其控制精度較高。但由于Q值表維度過高,算法的收斂速度會變慢,所以在進行參數設計時需要統籌考慮控制精度與決策速度。
本文選取獎勵函數R為[13-14]

其中,rf(s)為頻率獎勵函數,其表達式為

式中:λ1~λ5為頻率獎勵系數,本文選為 10,20,30,40,50。
為了防止在頻率調節過程中造成微電網電壓發生越界,所以在獎勵函數R中加入電壓懲罰項ru(s),其表達式為

式中:Δu為微電網重要節點的電壓偏差;un為該節點的額定電壓。
將Q學習的狀態集、動作集以及獎勵函數設計完之后,基于Q學習的頻率控制器還應該進行離線的預學習,通過不斷的試錯與探索,預學習之后的Q值表便可以應用到實際的微電網頻率控制中,本文不再詳細敘述。
基于Q學習的頻率調節流程如圖5所示,其具體頻率控制流程如下:

圖5 基于Q學習的頻率控制流程圖Fig.5 Frequency control based on Q-learning
1)檢測微電網當前頻率偏差,中央控制器根據ε-greedy學習策略選擇動作ak(ΔPLk);
2)利用等邊際成本原則對各光儲VSG有功功率設定值進行調整;
3)檢測下一時刻的頻率偏差,計算執行動作ak(ΔPLk)的獎勵函數值;
4)根據式(12)更新Q值表;
5)判斷頻率偏差是否滿足頻率調整目標,不滿足二次頻率調整目標則返回至步驟1),否則Q學習的學習過程結束。
本文利用Matlab/Simulink搭建的光伏微網結構如圖6所示,控制器利用S-function函數進行編寫,系統中有4組光伏電源。分布式光儲電源發電運行成本系數如表1所示,微電網系統參數以及光儲VSG控制參數如表2所示,Q學習獎勵函數R中電壓懲罰項選取負載4的節點電壓值。

圖6 微電網仿真模型結構Fig.6 Microgrid simulation model structure

表1 光儲成本系數Tab.1 Cost coefficient of PV-BA

表2 微網與VSG控制參數Tab.2 Microgrid and VSG control parameters
0 s時微電網處于孤島狀態,根據光儲VSG光照強度、溫度以及儲能裝置的SOC狀態,各PV-VSG的最大輸出功率分別為:30 kW,15 kW,20 kW以及15 kW,微電網內的4個負荷分別為8 kW,13 kW,9 kW以及10 kW。VSG1~VSG4的有功功率設定值分別為:12.9 kW,9.1 kW,10.1 kW以及7.9 kW。在1 s時負荷4由10 kW變化為15 kW,1.2 s時投入基于Q學習(已完成預學習)的二次頻率控制策略,中央處理器每0.2 s采集1次微電網頻率。
圖7所示為采用Q學習與PI控制時的微電網頻率仿真結果,通過分析可知,當采用Q學習后微電網頻率可以快速恢復,而且不需要復雜的控制參數調試。圖8所示為采用Q學習控制策略時光儲VSG輸出功率。

圖7 微電網頻率Fig.7 Microgrid frequency

圖8 VSG輸出功率Fig.8 Output power of VSG
通過圖7可知,在1 s之前雖然各VSG的有功功率給定值之和等于負荷總和,但由于微電網電壓等級較低,線路阻抗中電阻分量較大,微電網中有功損耗較大,所以各VSG的輸出功率均略大于給定值,造成微電網的頻率略低于額定值,側面證明了VSG一次調頻屬于有差調頻。
在1 s時負荷突增5 kW,各光伏電源逆變器均采用VSG控制策略,具備一次調頻功能,各光伏電源頻率調差系數相同,突增的負荷由各光儲VSG均攤。微電網的頻率大幅度下降。在1.2 s時觸發本文所設計的二次調頻策略。中央控制器在各時刻檢測的微電網頻率偏差以及輸出動作選擇情況如圖9所示。

圖9 Q學習數據Fig.9 Data of Q-learning
通過圖9可知,在1.2 s時中央控制器檢測微電網的頻率偏差為-0.067 4 Hz,根據Q值表采用ε-greedy學習策略選取動作0.06,此時微電網最大可調度功率為40 kW,中央控制器根據等邊際成本原則對各VSG的有功功率設定值進行動態調整,VSG1~VSG4的有功功率設定值調整為:13.7 kW,9.6 kW,10.6 kW以及8.5 kW。0.2 s后(1.4 s)中央控制器再次檢測微電網頻率偏差為-0.042 1 Hz,并根據式(14)對剛才的動作選擇情況進行評價,同時根據式(12)對Q值表中的Q(s3,a20)進行更新,然后根據檢測到的頻率差值按照ε-greedy學習策略再次選擇動作,輸出功率缺額,各VSG繼續動態調整有功功率給定值,直至系統頻率偏差滿足調頻目標。通過圖9可知,在2.6 s時系統頻率偏差為-0.004 Hz,滿足二次頻率調整的目標,頻率調整結束。通過仿真結果可知,Q學習通過7次學習完成了頻率的二次調節,同時保證了微電網的經濟運行,實現了多光儲VSG的頻率協調控制。
為解決光伏發電控制方式缺乏轉動慣性以及集中式PI控制方式存在參數難以整定等問題,本文提出了基于強化學習算法的多光儲VSG的頻率協調控制策略。光儲發電底層控制采用VSG控制技術,使得光儲具備慣性響應以及調頻能力;中央控制器采用強化學習算法根據頻率偏差量在線計算微電網的功率缺額,不依賴具體的微電網網架結構與電源分布情況,具備良好的通用性,同時在Q學習的獎勵函數R中加入電壓懲罰項,防止在頻率調整過程中造成電壓發生越界;為保證頻率調整過程中的經濟性,中央控制器依據在線計算出的功率缺額根據等邊際成本原則動態調整各VSG的有功功率給定值,實現多光儲VSG的頻率協調二次控制。仿真結果表明,基于強化學習的頻率控制相比于傳統的控制策略具備較好的頻率調控作用。