王 洲,張 軍,賈春蓉,彭 婧,孫亞璐
(1.國網甘肅省電力公司經濟技術研究院,甘肅 蘭州 730050;2.國網甘肅省電力公司,甘肅 蘭州 730030)
近年來,大量太陽能、風能等新能源發電系統滲透率不斷提高[1],[2],使得電網頻率、電壓穩定性難以控制[3]。已有學者針對性地提出了虛擬同步發電機(Virtual Synchronous Generator,VSG)技術,在新能源電源并網逆變控制環路中,引入虛擬的慣性與阻尼系數,模擬常規發電機組的機械特性與調頻調壓特性,實現新能源分布式電源更優的并網運行控制特性[4]~[6]。
現階段,針對分布式電源的VSG控制研究主要集中在并、離網控制相關技術方面,特別是在微網中的靈活應用[7]~[10]。微網中多臺VSG并聯運行協調控制困難[11],微網不可避免地存在非線性負荷,從而引起低階諧波電流,難以通過常規無源濾波手段進行濾除,嚴重影響了微網電能質量,亦會造成VSG功頻振蕩[12],[13]。文獻[14]研究了多VSG并網系統的P/ω導納建模與功頻振蕩特性,推導了多VSG并網節點導納矩陣,分析了VSG數量、電網等效阻抗與慣性對其功頻振蕩的影響特性。文獻[15]研究了同步頻率諧振引發VSG功率振蕩的問題,提出了基于暫態虛擬電阻的阻尼控制策略。文獻[16]將有源濾波(Active Power Filter,APF)引入VSG中,提升了微網電能質量,實現了APF與VSG的協調控制。然而,目前工作未深入研究氣象環境變化下新能源電源功率波動及其對微網頻率與諧波治理性能的影響。
為此,本文提出了一種基于Q學習(Q-learning)算法的光伏儲能微網VSG與APF協調優化方法。通過Q學習算法對VSG虛擬慣性、阻尼等參數進行迭代訓練,在提升VSG功頻特性的同時,盡可能地合理分配VSG與含APF的光伏電源無功配比,在環境氣象條件變化時實現光儲微網VSG與APF的協調控制。
圖1為本文的光伏儲能微網系統結構圖。微網采用主從控制模式,其中儲能系統較光伏系統更穩定,不易受環境條件影響,選取其作為微網電壓與頻率支撐的主逆變電源;儲能逆變器采用基于VSG的控制方式;光伏逆變器采用了基于瞬時無功功率理論的ip-iq諧波檢測法提取諧波電流分量[17],再將逆變器有功電流分量與諧波電流疊加后得到含諧波分量的三相電流信號iah,ibh,ich,通過電流環控制實現VSG并網與APF功能。圖中:UPV,IPV分別為光伏陣列電壓、電流;ia,ib,ic為網側三相電流;ed,eq為在dq坐標系下三相電壓的分量;id,iq為dq坐標系下光伏逆變器電流分量;Uo,Um分別為VSG輸出端電壓與幅值;Io為VSG輸出端電流;f為VSG頻率;Un為VSG額定電壓幅值;fn為VSG額定頻率;Pn,Qn分別為系統額定有功與無功值;PPV,QPV分別為光伏逆變器有功與無功功率;PVSG,QVSG分別為儲能逆變器有功與無功功率;Pload,Qload分別為非線性負荷有功與無功功率;Pgrid,Qgrid分別為電網側有功與無功功率。

圖1 光伏儲能微網系統控制框圖Fig.1 Block diagram of photovoltaic energy storage micro-gird system
光伏儲能微網系統中,VSG控制主要包括轉子機械方程、定子電氣方程[13],[16],即:

式中:J,D分別為VSG轉動慣量、阻尼;Pm,Pe分別為VSG額定功率與電磁功率;ω,ωn分別為實際角速度與額定角速度;Eo,Uo,Io分別為VSG感應電動勢、定子機端電壓、定子電流;Rf,Lf分別為定子電樞等效電阻與電感。
本文采用Q學習算法對上述參數進行整定與優化。計及光伏電源有功功率的VSG功頻控制框圖如圖2所示[16],其中Kd為功頻特性系數。

圖2 VSG功頻控制框圖Fig.2 Active power-frequency control block diagram of VSG
VSG勵磁控制器框圖如圖3所示。

圖3 VSG勵磁控制框圖Fig.3 Excitation control block diagram of VSG
圖中:Kq為無功-電壓下垂系數;Uref為下垂控制后VSG電壓參考值。由于VSG具備一定的無功支撐能力,定義VSG無功分配比例pQ為

由于合并APF的光伏電源有功輸出直接受其環境輻照等氣象參數影響,當環境氣象條件變化時,微網有功功率可由VSG補償,但其無功與VSG無功配比需要主動協調控制。因此,將pQ作為Q學習算法待整定參數之一,以實現環境氣象條件變化下光伏APF與VSG的無功協調控制。
當環境氣象條件突變時,合并APF的光伏電源有功與無功支撐能力可能受到較大影響。由于平衡微網負荷、調整VSG有功無功出力,VSG頻率也將相應變化,但受VSG虛擬慣性與阻尼影響,有必要改善調頻特性。因此,本文選取了VSG自啟動時刻t0~穩定時刻ts頻率調節誤差隨時間積分值ef與頻率波動峰值ef,max作為性能評估指標。其中ef定義為

顯然,更短的調節時間可能引起較大的頻率波動,為降低頻率波動,相應的調節時間可能需要更長。因此,需要更為智能的參數整定算法。
此外,當環境輻照變化時,合并APF的光伏電源與VSG之間存在較明顯的無功波動,若不對其進行主動分配,在二者間可能引發一系列的無功振蕩過程。因此,還須判斷輻照波動后合并APF的光伏電源無功波動程度,并作為控制性能指標,采用運行過程中t時刻無功功率與其均值的偏差在t0~ts時刻的積分,即無功能量變化量ΔEQ進行描述:

以此對前述VSG虛擬慣性、阻尼、無功分配比例參數進行整定。
Q學習算法是強化學習算法中較為成熟的算法之一,目前已應用于風電系統自適應頻率控制、電網薄弱線路辨識等電力系統控制問題中[18],[19]。通過建立智能體強化學習的虛擬或實際訓練環境,在線訓練學習,實現其行為的最優化,從而使智能體適應環境并獲得最大獎勵值。基本原理如圖4所示,智能體依據環境在t時刻的狀態St與獎勵值Rt,通過epsilon貪心算法與當前最大Q值獲取對應的行為,確定當前行為At,將其作用于學習環境,獲得下一時刻環境狀態值St+1與獎勵值Rt+1。

圖4 強化學習算法框圖Fig.4 Diagram of reinforcement learning algorithm
其中,Q值更新方法為[19]

式中:α為智能體學習率;Rt+1為下一時刻環境反饋的獎勵值;maxAt+1Qt+1為t+1時刻行為At+1對應的Q表格中最大Q值;γ為折扣系數,用于降低歷史獎勵值對當前時刻更新Q值的影響[19]。
圖5為本文提出的Q學習算法訓練流程,圖6為相應的訓練框圖。首先由智能體輸出前述光儲微網VSG與APF協調控制待整定參數增量,各智能體具有3種行為:即控制VSG的J,D,pQ增大、不變或減小;再由各控制參數的積分器對此增量進行積分,獲得J,D,pQ組成的控制參數向量,并輸入MATLAB/Simulink中建立的光伏儲能微網系統及其控制器仿真模型,由當前仿真結果計算ef,ef,max,ΔEQ3個性能指標。對比當前仿真結果與上一輪訓練結果,將各個性能指標值降低1%,2%,5%,10%,50%,80%和80%以上(即值未明顯降低或增長),劃分為多個不同的訓練環境狀態;此外,若當前仿真結果中ef,ef,max,ΔEQ相比于上一輪訓練結果降低,則環境反饋的獎勵值為正激勵1,否則為負向激勵-1。基于上述設計的強化學習訓練行為、狀態、獎勵,經過數輪迭代訓練,最終可獲得滿足光儲微網VSG與APF協調控制的控制參數。

圖5 Q學習算法訓練流程圖Fig.5 Flow chart of Q-learning algorithm

圖6 基于Q學習算法的訓練框圖Fig.6 Block diagram of training based on Q-learning algorithm
本文選取Q學習算法中α為0.01,γ為0.9,在虛擬仿真環境中訓練智能體,獲得整定的J,D,pQ。圖7為訓練過程中各個待整定參數變化趨勢,其中,VSG的J波動性地下降,而D逐漸增大,pQ波動較大,但隨著訓練過程整體呈現下降趨勢。

圖7 訓練過程中待整定參數變化趨勢Fig.7 Trend of turned parameters during training
在MATLAB/Simulink仿真環境下,將Q學習算法訓練所得的J,D,pQ與訓練前模型參數控制的光儲微網性能進行對比驗證。
首先分析環境輻照變化時光伏儲能微網控制效果,設置仿真起始時微網有功負荷為20 kW,仿真過程中在0.5 s時加入三相整流帶阻感負載的非線性負荷。圖8為VSG頻率調節過程曲線,由于負載有功功率突變,VSG頻率不可避免地出現一定下降,相比于Q學習算法訓練前VSG頻率曲線,訓練后VSG頻率波動更小,且頻率可更平穩地調節至穩態。表明通過Q學習算法訓練后的VSG虛擬慣性和阻尼達到了更佳的控制效果。

圖8 Q學習算法訓練前后負載突變時VSG頻率曲線Fig.8 Frequency curves of VSG when the load suddenly changes before and after Q-learning
其次,在仿真0.8 s時設置環境輻照從1 000 W/m2瞬間降低至400 W/m2,圖9、圖10分別為Q學習算法訓練前后VSG有功與無功功率變化曲線,當環境輻照階躍性降低后,光伏電源有功功率逐漸降低,VSG有功功率逐漸升高,有功功率波動由非線性負荷引起。由圖10可見,在Q學習算法訓練后,光儲微網無功功率主要由VSG支撐,合并APF的光伏電源補償了諧波電流,當輻照降低時,通過Q學習算法訓練后的VSG無功功率波動更小、更穩定。

圖9 Q學習算法訓練前后VSG有功功率曲線Fig.9 Active power curves of VSG before and after Q-learning

圖10 Q學習算法訓練前后VSG無功功率曲線Fig.10 Reactive power curves of VSG before and after Q-learning
圖11顯示了Q學習算法訓練后合并APF的光伏電源A相電流與VSG的A相電流波形。圖12為通過Q學習算法訓練后非線性負荷與電網電流FFT分析結果,非線性負荷總諧波畸變率(Total Harmonic Distortion,THD)為7.44%,電網電流THD為2.56%。可見,諧波電流由合并APF的光伏電源補償,降低了電網電流THD,采用Q學習算法訓練后的VSG與APF協調優化方法保證了電網較好的電能質量。

圖11 Q學習算法訓練后非線性負荷、光伏APF電源、VSG、電網電流波形Fig.11 Current curves of nonlinear loads,PV-APF source,VSG,and grid after Q-learning

圖12 Q學習訓練后非線性負荷與電網電流FFTFig.12 FFT results of nonlinear loads and grid current after Q-learning
針對光伏儲能微網VSG功頻調節性能及其與合并APF的光伏電源無功配比協調控制問題,本文提出了基于Q學習算法的光伏儲能微網VSG與APF協調優化方法。在虛擬環境中,通過對VSG中虛擬慣性、阻尼以及微網中VSG無功分配比例進行訓練,由虛擬環境仿真結果評估Q學習算法的智能體行為,最終得到Q學習算法訓練后的模型控制參數。仿真驗證結果表明,Q學習算法訓練后的光儲微網中VSG頻率調節性能更優,當環境輻照變化后,VSG無功波動更小,系統整體更為穩定,光儲微網仍可有效補償非線性負荷的諧波電流,提高了電網電能質量。