董 雷 楊子民 喬 驥 陳 盛 王新迎 蒲天驕
基于分層約束強(qiáng)化學(xué)習(xí)的綜合能源多微網(wǎng)系統(tǒng)優(yōu)化調(diào)度
董 雷1楊子民1喬 驥2陳 盛2王新迎2蒲天驕2
(1.華北電力大學(xué)電氣與電子工程學(xué)院 北京 102206 2. 中國電力科學(xué)研究院有限公司 北京 100192)
構(gòu)建多微網(wǎng)系統(tǒng)是消納可再生能源、提升電網(wǎng)穩(wěn)定性的有效方式。通過各微網(wǎng)的協(xié)調(diào)調(diào)度,可有效提升微網(wǎng)的運(yùn)行效益以及可再生能源的消納水平。現(xiàn)有多微網(wǎng)優(yōu)化問題場景多元,變量眾多,再加上源荷不確定性及多微網(wǎng)主體的數(shù)據(jù)隱私保護(hù)等問題,為模型的高效求解帶來了巨大挑戰(zhàn)。為此,該文提出了一種分層約束強(qiáng)化學(xué)習(xí)優(yōu)化方法。首先,構(gòu)建了多微網(wǎng)分層強(qiáng)化學(xué)習(xí)優(yōu)化框架,上層由智能體給出各微網(wǎng)儲(chǔ)能優(yōu)化策略和微網(wǎng)間功率交互策略;下層各微網(wǎng)以上層策略為約束,基于自身狀態(tài)信息采用數(shù)學(xué)規(guī)劃法對(duì)各微網(wǎng)內(nèi)部的分布式電源出力進(jìn)行自治優(yōu)化。通過分層架構(gòu),減小通信壓力,保護(hù)微網(wǎng)內(nèi)部數(shù)據(jù)隱私,充分發(fā)揮強(qiáng)化學(xué)習(xí)對(duì)源荷不確定性的自適應(yīng)能力,大幅提升了模型求解速度,并有效兼顧了數(shù)學(xué)規(guī)劃法的求解精度。此外,將拉格朗日乘子法與傳統(tǒng)強(qiáng)化學(xué)習(xí)方法相結(jié)合,提出一種約束強(qiáng)化學(xué)習(xí)求解方法,有效地解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法難以處理的約束越限問題。最后通過算例驗(yàn)證了該方法的有效性和優(yōu)勢。
多微網(wǎng)系統(tǒng) 分層約束強(qiáng)化學(xué)習(xí) 不確定性 數(shù)據(jù)隱私保護(hù)
在“雙碳”目標(biāo)背景下,新能源滲透率逐漸升高。多微網(wǎng)系統(tǒng)作為一種包含可再生能源、多能負(fù)荷、分布式儲(chǔ)能等的綜合集成單元,可以通過微網(wǎng)內(nèi)多能互補(bǔ)和微網(wǎng)間協(xié)調(diào)優(yōu)化,在增強(qiáng)配電網(wǎng)系統(tǒng)供電可靠性和促進(jìn)可再生能源就地消納等方面發(fā)揮顯著作用[1-4]。然而多微網(wǎng)系統(tǒng)規(guī)模較大,同時(shí)由于可再生能源出力的波動(dòng)性、不同能源形式之間的耦合性等,其調(diào)度優(yōu)化問題面臨著重大挑戰(zhàn),因此尋找能夠?qū)崿F(xiàn)高效能量管理的優(yōu)化策略對(duì)于提高系統(tǒng)性能十分必要。
針對(duì)多微網(wǎng)系統(tǒng)的優(yōu)化調(diào)度問題,文獻(xiàn)[5]計(jì)及微網(wǎng)間的功率交互,建立了多微網(wǎng)系統(tǒng)經(jīng)濟(jì)調(diào)度模型,并驗(yàn)證了多微網(wǎng)協(xié)調(diào)運(yùn)行相較于獨(dú)立運(yùn)行可有效減少運(yùn)行成本;文獻(xiàn)[6]則建立了光伏余電上網(wǎng)的微網(wǎng)決策模型,采用序列二次規(guī)劃算法進(jìn)行求解,并通過算例驗(yàn)證了模型及算法的有效性。此外,其他常用算法如遺傳算法[7-8]、粒子群算法[9-10]、差分進(jìn)化算法[11]、目標(biāo)級(jí)聯(lián)法[12]及交替方向乘子法[13-14]等也已應(yīng)用于多微網(wǎng)優(yōu)化問題中。然而以上方法均依賴系統(tǒng)的精細(xì)建模及源荷的精準(zhǔn)預(yù)測,難以針對(duì)源荷隨機(jī)變化動(dòng)態(tài)響應(yīng),當(dāng)源荷隨機(jī)波動(dòng)時(shí),相應(yīng)的模型、預(yù)測器和求解器均需要進(jìn)行重設(shè)。
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)通過與環(huán)境的交互試錯(cuò)尋找最優(yōu)策略,不依賴源荷的精準(zhǔn)預(yù)測,而且對(duì)于源荷的不確定性具有良好的自適應(yīng)能力[15-16]。因此近期有學(xué)者開始關(guān)注基于數(shù)據(jù)驅(qū)動(dòng)的DRL方法,并將其應(yīng)用于微電網(wǎng)的優(yōu)化問題中。文獻(xiàn)[17-18]采用了Q-learning算法有效求解微網(wǎng)系統(tǒng)調(diào)度優(yōu)化問題,然而當(dāng)特征量增多時(shí),該方法將面臨維數(shù)災(zāi)難的問題[19];文獻(xiàn)[19]則提出一種改進(jìn)的競爭Q網(wǎng)絡(luò)算法,基于多參數(shù)動(dòng)作探索機(jī)制以解決原算法穩(wěn)定性低和維度災(zāi)難等問題,但該算法需要對(duì)動(dòng)作空間進(jìn)行離散化處理,繼而影響求解精度。文獻(xiàn)[20-22]則將連續(xù)空間的強(qiáng)化學(xué)習(xí)算法應(yīng)用于綜合能源微網(wǎng)優(yōu)化問題中,詳細(xì)設(shè)計(jì)了智能體的動(dòng)作空間、狀態(tài)空間和獎(jiǎng)勵(lì)函數(shù),并通過算例驗(yàn)證了算法的有效性。文獻(xiàn)[23]建立了基于博弈論的多微網(wǎng)系統(tǒng)協(xié)同優(yōu)化模型,并將博弈論與強(qiáng)化學(xué)習(xí)算法相結(jié)合,通過Nash-Q算法求得博弈均衡解,實(shí)現(xiàn)各微網(wǎng)的電能互補(bǔ)和在線優(yōu)化。文獻(xiàn)[24]為了縮減強(qiáng)化學(xué)習(xí)的動(dòng)作空間,對(duì)微網(wǎng)優(yōu)化調(diào)度進(jìn)行分層處理,通過上層強(qiáng)化學(xué)習(xí)智能體求解儲(chǔ)能策略,下層求解器求解其余分布式電源出力的方法簡化動(dòng)作空間,從而提升收斂速度,但只針對(duì)單微網(wǎng)優(yōu)化問題,且采用離散空間無法實(shí)現(xiàn)連續(xù)控制。此外,上述基于強(qiáng)化學(xué)習(xí)的微網(wǎng)系統(tǒng)優(yōu)化中,將強(qiáng)化學(xué)習(xí)問題描述為馬爾科夫決策過程(Markov Decision Process, MDP),優(yōu)化問題中的約束條件,均通過向獎(jiǎng)勵(lì)函數(shù)中添加懲罰項(xiàng)實(shí)現(xiàn)。這種方法屬于“軟約束”施加方式,模糊了目標(biāo)和約束之間的界限,收斂速度較慢,且需要人工反復(fù)調(diào)試懲罰系數(shù)以保證訓(xùn)練效果。若懲罰系數(shù)過大,則會(huì)導(dǎo)致策略過于保守,難以學(xué)習(xí)到最優(yōu)策略;反之,則導(dǎo)致約束難以得到嚴(yán)格滿足,影響系統(tǒng)安全運(yùn)行。
針對(duì)以上問題,本文提出一種面向多微網(wǎng)的分層約束強(qiáng)化學(xué)習(xí)優(yōu)化方法。首先,提出一種多微網(wǎng)系統(tǒng)分層強(qiáng)化學(xué)習(xí)優(yōu)化框架,將多微網(wǎng)優(yōu)化問題分為上下兩層求解,上層無需獲取各微網(wǎng)的所有運(yùn)行狀態(tài)信息,由智能體基于凈負(fù)荷預(yù)測信息和儲(chǔ)能狀態(tài)信息,給出各微網(wǎng)內(nèi)儲(chǔ)能優(yōu)化策略和微網(wǎng)間功率交互策略;下層各微網(wǎng)以上層策略為約束,基于自身狀態(tài)信息通過數(shù)學(xué)規(guī)劃法對(duì)微網(wǎng)內(nèi)部設(shè)備出力進(jìn)行自治優(yōu)化。該框架利用上下層之間的協(xié)同實(shí)現(xiàn)多微網(wǎng)系統(tǒng)的整體優(yōu)化,充分發(fā)揮了強(qiáng)化學(xué)習(xí)基于數(shù)據(jù)驅(qū)動(dòng)原理可自適應(yīng)源荷隨機(jī)性的優(yōu)勢,并有效兼顧了數(shù)學(xué)規(guī)劃法的求解精度。并基于該分層框架提出一種約束強(qiáng)化學(xué)習(xí)求解方法,該方法融合了深度強(qiáng)化學(xué)習(xí)方法和拉格朗日乘子法,將約束優(yōu)化問題轉(zhuǎn)換為無約束優(yōu)化問題,驅(qū)使智能體在嚴(yán)格滿足約束的前提下尋找最優(yōu)策略。相比于傳統(tǒng)集中式優(yōu)化方法,本文方法不僅可根據(jù)源荷波動(dòng)動(dòng)態(tài)響應(yīng),滿足在線優(yōu)化的要求,同時(shí)也無需聚合所有微網(wǎng)狀態(tài)信息,保護(hù)了微網(wǎng)數(shù)據(jù)隱私;相比于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法,有效地解決了難以處理的約束越限問題,且收斂速度和精度均顯著提升。最后,通過算例分析驗(yàn)證了本文方法的有效性以及其較傳統(tǒng)集中式優(yōu)化和DRL方法的優(yōu)勢。
本研究面向多微網(wǎng)系統(tǒng),以含多種能源形式耦合的冷熱電聯(lián)供型微網(wǎng)為例,其內(nèi)部能源形式包括冷、熱、電和氣。圖1展示了微網(wǎng)內(nèi)的能量流向及多微網(wǎng)系統(tǒng)的結(jié)構(gòu)。

圖1 多微網(wǎng)系統(tǒng)結(jié)構(gòu)示意圖
微網(wǎng)(Microgrid)用MG表示,為不失一般性,圖1中給出了較普遍的冷熱電聯(lián)供型微網(wǎng)能量流動(dòng)關(guān)系,實(shí)際不同微網(wǎng)的組成并非完全相同。微網(wǎng)內(nèi)電負(fù)荷除了由微型燃?xì)廨啓C(jī)(Micro-Turbine, MT)消耗天然氣供給,還可由分布式可再生能源、配電網(wǎng)、鄰近微網(wǎng)和蓄電池(Battery, BT)供給,其中與配電網(wǎng)、鄰近微網(wǎng)和蓄電池之間的能量為雙向交互;熱負(fù)荷部分由燃?xì)忮仩t(Gas Boiler, GB)、燃?xì)夂蛢?chǔ)熱槽(Heat Storage, HS)供給,同時(shí)溴化鋰機(jī)組吸收MT發(fā)電產(chǎn)生的高溫余熱煙氣制熱供給;冷負(fù)荷部分由溴化鋰機(jī)組吸收高溫余熱煙氣制冷供給,部分由電制冷機(jī)(Electric Cooler, EC)消耗電能制冷供給。在同一區(qū)域內(nèi),鄰近的微網(wǎng)可以互聯(lián)形成多微網(wǎng)系統(tǒng),微網(wǎng)之間通過聯(lián)絡(luò)線進(jìn)行能量交互。微網(wǎng)內(nèi)設(shè)備模型見附錄。

為簡化強(qiáng)化學(xué)習(xí)動(dòng)作空間及獎(jiǎng)勵(lì)函數(shù)的復(fù)雜設(shè)計(jì),保證算法的可靠收斂,本文提出一種多微網(wǎng)系統(tǒng)分層強(qiáng)化學(xué)習(xí)優(yōu)化框架,將多微網(wǎng)優(yōu)化問題分解為上下兩層求解,上層智能體模型充分考慮時(shí)間相關(guān)性及整個(gè)決策周期的綜合累計(jì)回報(bào),僅需基于各微網(wǎng)的預(yù)測凈負(fù)荷和儲(chǔ)能(含儲(chǔ)電和儲(chǔ)熱)狀態(tài)信息,制定微網(wǎng)間的交互策略及儲(chǔ)能優(yōu)化策略并下發(fā)至下層;下層各微網(wǎng)則以上層策略為約束采用數(shù)學(xué)規(guī)劃法求解內(nèi)部設(shè)備的最優(yōu)出力,同時(shí)向上層反饋獎(jiǎng)勵(lì)信號(hào)值指導(dǎo)上層策略更新,避免了上層智能體的無效探索。利用上下層的協(xié)同實(shí)現(xiàn)多微網(wǎng)系統(tǒng)的全局優(yōu)化,不僅充分發(fā)揮了強(qiáng)化學(xué)習(xí)可自適應(yīng)源荷隨機(jī)性的優(yōu)勢,同時(shí)也有效兼顧了數(shù)學(xué)規(guī)劃法的求解精度。多微網(wǎng)系統(tǒng)分層強(qiáng)化學(xué)習(xí)框架示意圖如圖2所示。

圖2 多微網(wǎng)系統(tǒng)分層強(qiáng)化學(xué)習(xí)框架示意圖
通過分層優(yōu)化架構(gòu),大大簡化了智能體動(dòng)作空間維度和獎(jiǎng)勵(lì)函數(shù)的復(fù)雜設(shè)計(jì)。而且上層策略給定后,多微網(wǎng)優(yōu)化任務(wù)被分解為多個(gè)子微網(wǎng)自治優(yōu)化問題,各微網(wǎng)可基于上層策略快速得出各時(shí)間斷面的設(shè)備最優(yōu)出力,因此大大縮小了下層優(yōu)化問題的規(guī)模,從而實(shí)現(xiàn)下層模型的快速求解。此外,在通信方面,上層僅需獲取各微網(wǎng)的凈負(fù)荷預(yù)測信息、儲(chǔ)能狀態(tài)信息及各微網(wǎng)反饋的獎(jiǎng)勵(lì)信號(hào),無需額外的微網(wǎng)內(nèi)部狀態(tài)信息。而下層各微網(wǎng)之間不進(jìn)行信息交互,僅基于自身狀態(tài)信息進(jìn)行優(yōu)化,有效地減小了通信壓力并保護(hù)了各微網(wǎng)內(nèi)部數(shù)據(jù)隱私,在穩(wěn)態(tài)和故障等不同情況下,也能實(shí)現(xiàn)與其他微網(wǎng)的交互與應(yīng)急處置。訓(xùn)練完成的模型通過讀取當(dāng)前狀態(tài)空間即可給出優(yōu)化策略。
2.2.1 智能體狀態(tài)空間
智能體的狀態(tài)空間用于表征環(huán)境的狀態(tài)信息,狀態(tài)空間包含了智能體決策所需的信息,智能體基于當(dāng)前狀態(tài)做出相應(yīng)動(dòng)作并與環(huán)境進(jìn)行交互。本文模型的狀態(tài)空間如式(1)所示,包括各微網(wǎng)的儲(chǔ)能荷電狀態(tài)、儲(chǔ)熱狀態(tài)、分時(shí)電價(jià)信息以及冷、熱、電凈負(fù)荷功率,其中凈負(fù)荷信息由各微網(wǎng)上傳,通過負(fù)荷預(yù)測值減去新能源出力預(yù)測值得到。通過分層設(shè)計(jì),智能體僅需要獲取基本的狀態(tài)信息用于輔助決策,無需獲得微網(wǎng)內(nèi)設(shè)備的詳細(xì)運(yùn)行狀態(tài)信息。

2.2.2 智能體動(dòng)作空間
智能體的動(dòng)作空間為上層模型中的相關(guān)控制變量,包括各微網(wǎng)間的交互功率、各微網(wǎng)的儲(chǔ)電充放功率和儲(chǔ)熱吸收、釋放的熱功率,即

2.2.3 智能體獎(jiǎng)勵(lì)函數(shù)
獎(jiǎng)勵(lì)函數(shù)是智能體基于當(dāng)前環(huán)境狀態(tài)選擇對(duì)應(yīng)動(dòng)作并作用于環(huán)境后反饋的獎(jiǎng)勵(lì)信號(hào)。獎(jiǎng)勵(lì)函數(shù)用于指導(dǎo)智能體策略的趨優(yōu)更新,通過持續(xù)的學(xué)習(xí)使得策略的累計(jì)獎(jiǎng)勵(lì)最大化。本文的優(yōu)化目標(biāo)選取為最小化運(yùn)行成本和環(huán)境污染物排放(通過折算成本計(jì)算),因此獎(jiǎng)勵(lì)函數(shù)即為多微網(wǎng)系統(tǒng)的綜合優(yōu)化目標(biāo),由于強(qiáng)化學(xué)習(xí)目標(biāo)是累計(jì)獎(jiǎng)勵(lì)最大化,故添加負(fù)號(hào)。

2.2.4 智能體動(dòng)作約束
智能體動(dòng)作約束包括荷電量狀態(tài)約束式(4)、充放電功率約束式(5)、調(diào)度周期始末能量平衡約束式(6)、充放電轉(zhuǎn)換約束式(7)及各微網(wǎng)的功率交互約束式(8)。儲(chǔ)熱作為儲(chǔ)能設(shè)備同樣需要滿足容量、功率、工作狀態(tài)約束。與蓄電池類似,此處不再贅述。





為保證輸出動(dòng)作的上、下限約束,本文將輸出動(dòng)作經(jīng)過tanh函數(shù)限制在[-1,1]之間,再通過線性變換即可滿足式(4)、式(8)的上、下限約束。對(duì)于式(5)~式(7),傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法通過向獎(jiǎng)勵(lì)函數(shù)中添加懲罰項(xiàng)的形式處理約束,但這種將獎(jiǎng)勵(lì)和約束統(tǒng)一建模為獎(jiǎng)勵(lì)函數(shù)的方式模糊了目標(biāo)和約束的界限,需要人為設(shè)置懲罰系數(shù)。若懲罰系數(shù)過大,則會(huì)導(dǎo)致智能體難以學(xué)習(xí)到最優(yōu)策略;若系數(shù)太小,則易使得策略難以滿足安全約束。因此,為避免上述問題,本文將拉格朗日乘子法與傳統(tǒng)強(qiáng)化學(xué)習(xí)方法相結(jié)合,將約束優(yōu)化問題轉(zhuǎn)換為無約束問題進(jìn)行求解,在滿足安全約束的前提下尋找最優(yōu)策略,從而避免將約束以懲罰項(xiàng)的形式加入獎(jiǎng)勵(lì)中,該部分內(nèi)容將在第3節(jié)進(jìn)行詳細(xì)介紹。
2.3.1 目標(biāo)函數(shù)





2.3.2 能量平衡約束
多微網(wǎng)系統(tǒng)內(nèi)的冷、熱、電負(fù)荷與出力應(yīng)滿足實(shí)時(shí)平衡約束,即

2.3.3 運(yùn)行約束
除了微網(wǎng)內(nèi)的能量平衡約束,為保證多微網(wǎng)系統(tǒng)的安全運(yùn)行,還需滿足設(shè)備運(yùn)行約束及功率交互約束,由于各微網(wǎng)距離較近,因此不考慮線路損耗。
1)微型燃?xì)廨啓C(jī)運(yùn)行約束

2)燃?xì)忮仩t運(yùn)行約束

3)電制冷機(jī)運(yùn)行約束

4)功率交互約束


在本文模型的信息交互中,上層智能體僅獲取各微網(wǎng)的凈負(fù)荷預(yù)測信息、儲(chǔ)能狀態(tài)信息及各微網(wǎng)反饋的獎(jiǎng)勵(lì)信號(hào),并向下層傳遞儲(chǔ)能策略和微網(wǎng)交互策略。而下層各微網(wǎng)之間不進(jìn)行信息交互,僅通過上層給定策略進(jìn)行功率交互,并基于自身狀態(tài)信息進(jìn)行優(yōu)化。因此有效地減少了多微網(wǎng)設(shè)備眾多造成的通信壓力,并保護(hù)了各微網(wǎng)內(nèi)部數(shù)據(jù)隱私。
采用強(qiáng)化學(xué)習(xí)方法解決多微網(wǎng)系統(tǒng)優(yōu)化問題的一個(gè)難點(diǎn)就是如何處理運(yùn)行約束。在傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法中,通常采用罰函數(shù)法將約束建模為馬爾科夫決策過程(Constraint Markov Decision Process, CMDP)中的負(fù)獎(jiǎng)勵(lì),然而如何設(shè)計(jì)合適的罰函數(shù)是該方法的難點(diǎn)。此外,這種方法模糊了目標(biāo)與約束之間的界限,難以確定合適的懲罰系數(shù)平衡目標(biāo)和約束之間的關(guān)系。若懲罰系數(shù)過小,智能體給出的動(dòng)作難以滿足運(yùn)行約束;若系數(shù)過大,則可能導(dǎo)致智能體對(duì)約束的過度懲罰,難以學(xué)習(xí)到較好的調(diào)度策略,而且即使設(shè)置較大的懲罰系數(shù),也無法保證策略嚴(yán)格滿足約束。



通過CMDP框架,充分考慮了強(qiáng)化學(xué)習(xí)過程中的約束問題,避免了獎(jiǎng)勵(lì)函數(shù)的復(fù)雜設(shè)計(jì)及懲罰系數(shù)的反復(fù)調(diào)整,最大程度減少了人為干預(yù),有效地解決了傳統(tǒng)MDP難以平衡目標(biāo)和安全約束的問題。為了求解CMDP,可采用拉格朗日松弛技術(shù),將帶約束的優(yōu)化問題轉(zhuǎn)換為無約束優(yōu)化問題。具體來說引入以下拉格朗日函數(shù)。



3.2.1 算法目標(biāo)
SAC算法的最終目標(biāo)為使累計(jì)獎(jiǎng)勵(lì)最大的同時(shí),保證策略的熵最大化,以增強(qiáng)算法的尋優(yōu)能力和魯棒性,即


在LSAC算法中,為保證系統(tǒng)安全,需要在滿足約束的前提下尋找策略以最大化算法目標(biāo),因此采用拉格朗日乘子法將約束優(yōu)化問題轉(zhuǎn)換為無約束優(yōu)化問題(如3.1節(jié)所述),算法目標(biāo)變?yōu)?/p>

其中


在本文中,相關(guān)動(dòng)作約束即為式(5)~式(7)和儲(chǔ)熱約束,因此,將輔助成本函數(shù)定義為
3.2.2 智能體迭代策略
SAC算法中的柔性策略迭代分為柔性策略評(píng)估和柔性策略改進(jìn)兩部分,可參考文獻(xiàn)[29],此處不再贅述。




3.2.3 智能體網(wǎng)絡(luò)構(gòu)建





其中動(dòng)作采用了再參數(shù)化以減少梯度估計(jì)的方差,有



此外,由于SAC算法可處理離散動(dòng)作空間問題[31],通過將連續(xù)動(dòng)作空間離散化或在神經(jīng)網(wǎng)絡(luò)輸出層中將連續(xù)動(dòng)作和離散動(dòng)作分別輸出,本文方法也可解決混合動(dòng)作空間策略生成問題[32],只需對(duì)網(wǎng)絡(luò)更新過程進(jìn)行相應(yīng)修改即可。而由于本文研究的多微網(wǎng)優(yōu)化問題涉及的均為連續(xù)動(dòng)作空間,因此在算法設(shè)計(jì)上均是基于連續(xù)空間。


圖3 LSAC算法網(wǎng)絡(luò)結(jié)構(gòu)

分層約束強(qiáng)化學(xué)習(xí)模型將多微網(wǎng)系統(tǒng)的優(yōu)化任務(wù)進(jìn)行分解,實(shí)現(xiàn)多微網(wǎng)優(yōu)化任務(wù)的簡化求解,利用上下層的協(xié)同完成模型的訓(xùn)練,并通過LSAC算法解決傳統(tǒng)強(qiáng)化學(xué)習(xí)方法難以處理約束的問題。其具體步驟如下:



9)若還未到達(dá)末時(shí)間斷面,則進(jìn)入下個(gè)時(shí)間斷面,令1,轉(zhuǎn)至步驟3)。
10)若算法收斂或已到最大訓(xùn)練回合數(shù),則輸出模型;否則,轉(zhuǎn)至步驟2),進(jìn)入下一訓(xùn)練回合。
多微網(wǎng)系統(tǒng)分層約束強(qiáng)化學(xué)習(xí)流程如圖4所示。

圖4 多微網(wǎng)系統(tǒng)分層約束強(qiáng)化學(xué)習(xí)流程

針對(duì)上述多微網(wǎng)系統(tǒng)優(yōu)化問題采用分層約束強(qiáng)化學(xué)習(xí)算法(Bi-LSAC)進(jìn)行模型訓(xùn)練,將訓(xùn)練過程中的累積獎(jiǎng)勵(lì)函數(shù)繪制曲線如圖5所示。從圖5中可看出,訓(xùn)練過程初期,由于智能體探索的隨機(jī)性較強(qiáng),易產(chǎn)生較不合理的調(diào)度結(jié)果,獎(jiǎng)勵(lì)值較小。隨著訓(xùn)練的進(jìn)行,智能體與環(huán)境的交互經(jīng)驗(yàn)逐漸增加,其給出的動(dòng)作所產(chǎn)生的獎(jiǎng)勵(lì)值也逐漸升高,并于1 700輪左右收斂,獎(jiǎng)勵(lì)值不再上升,由于訓(xùn)練過程中源荷的隨機(jī)波動(dòng)存在小幅振蕩。從圖5中獎(jiǎng)勵(lì)函數(shù)曲線的變化趨勢可以看出模型收斂性較好,且收斂較快。

圖5 獎(jiǎng)勵(lì)函數(shù)曲線
訓(xùn)練過程中智能體決策動(dòng)作的約束越限曲線如圖6所示。可以看出,除訓(xùn)練初期由于智能體隨機(jī)探索造成的約束越限以外,動(dòng)作的約束越限值始終為0,表明本文方法可良好應(yīng)對(duì)強(qiáng)化學(xué)習(xí)的動(dòng)作約束問題,保證智能體在滿足約束的前提下尋找最優(yōu)策略。

圖6 約束越限曲線
為進(jìn)一步驗(yàn)證本文所提方法的有效性,本文采用Bi-LSAC算法針對(duì)多微網(wǎng)協(xié)同運(yùn)行場景、多微網(wǎng)獨(dú)立運(yùn)行場景及聯(lián)絡(luò)線故障斷開場景進(jìn)行求解,并對(duì)相應(yīng)的優(yōu)化結(jié)果進(jìn)行分析比較。
4.3.1 多微網(wǎng)協(xié)同運(yùn)行模式
在多微網(wǎng)協(xié)同運(yùn)行模式下,微網(wǎng)1內(nèi)的冷、熱、電能流動(dòng)情況如圖7所示。從圖7a中可以看出,微網(wǎng)1內(nèi)的冷負(fù)荷主要由電制冷機(jī)及微型燃?xì)廨啓C(jī)余熱煙氣制冷供給,在0:00—7:00和23:00—24:00兩個(gè)電價(jià)低谷時(shí)段,通過電制冷機(jī)將富余的可再生能源及從配電網(wǎng)購買的電能轉(zhuǎn)換供給冷負(fù)荷。而在7:00—23:00時(shí)段電價(jià)升高,微型燃?xì)廨啓C(jī)啟動(dòng),部分冷負(fù)荷由微型燃?xì)廨啓C(jī)燃?xì)庥酂嶂评涔┙o。從圖7b可以看出,微網(wǎng)1內(nèi)的熱負(fù)荷由燃?xì)忮仩t和微型燃?xì)廨啓C(jī)交替供給,在0:00—7:00和23:00—24:00時(shí)段,熱負(fù)荷均由燃?xì)忮仩t供給,微型燃?xì)廨啓C(jī)處于停機(jī)狀態(tài),這是由于此時(shí)電價(jià)較低,相比采用微型燃?xì)廨啓C(jī)進(jìn)行冷熱電聯(lián)供,通過可再生能源及從配電網(wǎng)購電供電制冷,采用燃?xì)忮仩t制熱收益更高;而在7:00—23:00時(shí)段,隨著電價(jià)升高,通過微型燃?xì)廨啓C(jī)消耗天然氣對(duì)系統(tǒng)內(nèi)的冷熱電負(fù)荷聯(lián)供以減少系統(tǒng)購電,從而降低系統(tǒng)運(yùn)行成本。同時(shí)當(dāng)微型燃?xì)廨啓C(jī)供熱大于微網(wǎng)內(nèi)熱負(fù)荷時(shí),熱儲(chǔ)能將剩余熱量進(jìn)行儲(chǔ)存,在系統(tǒng)供熱不足時(shí)補(bǔ)充供給熱負(fù)荷。

圖7c、圖7d給出了微網(wǎng)1和微網(wǎng)2內(nèi)的電能流動(dòng)情況。可以看出,電能的供需兩端實(shí)現(xiàn)了實(shí)時(shí)平衡。不論是微網(wǎng)1還是微網(wǎng)2,其儲(chǔ)能跟隨電價(jià)引導(dǎo)進(jìn)行充放電,在谷電價(jià)時(shí)段充電作為備用,在峰電價(jià)時(shí)段放電以減少系統(tǒng)運(yùn)行成本。在谷電價(jià)時(shí)段,兩微網(wǎng)主要通過可再生能源及向配電網(wǎng)購電供給電負(fù)荷;而在7:00—23:00時(shí),電價(jià)升高,燃?xì)廨啓C(jī)開始工作,用于供給電負(fù)荷以減少用電成本。此外,微網(wǎng)1內(nèi)的可再生能源在大多數(shù)時(shí)段均大于系統(tǒng)內(nèi)負(fù)荷需求,是典型的多電型微網(wǎng);而微網(wǎng)2與之相反,是典型的缺電型微網(wǎng)。因此微網(wǎng)1消納富余可再生能源的方式除了供儲(chǔ)能充電、通過電制冷機(jī)轉(zhuǎn)冷及向配電網(wǎng)售電以外,還可通過聯(lián)絡(luò)線向微網(wǎng)2輸送電能用于供給微網(wǎng)2內(nèi)缺額電量;而微網(wǎng)2為減少系統(tǒng)運(yùn)行成本,當(dāng)自身用電需求無法滿足時(shí),優(yōu)先從相鄰微網(wǎng)購電,再考慮向配電網(wǎng)購電。
本文方法得到的運(yùn)行成本與基于完美預(yù)測信息的集中式優(yōu)化結(jié)果比較見表1。基于完美預(yù)測信息的集中式優(yōu)化結(jié)果,是指源荷預(yù)測出力與實(shí)際值無偏差的理想條件下,收集各微網(wǎng)全局狀態(tài)信息進(jìn)行集中優(yōu)化求解得到的結(jié)果(即基于實(shí)際值得到的集中式優(yōu)化最優(yōu)解)。為保證條件一致進(jìn)行驗(yàn)證,本文方法也基于預(yù)測值直接進(jìn)行測試,差距在0.03%左右,驗(yàn)證了本文所提方法的有效性。
表1 最優(yōu)解與Bi-LSAC結(jié)果比較

Tab.1 Results comparison between the optimal solution and Bi-LSAC
4.3.2 協(xié)同運(yùn)行與獨(dú)立運(yùn)行模式對(duì)比分析
為驗(yàn)證多微網(wǎng)協(xié)同優(yōu)化相比獨(dú)立運(yùn)行的優(yōu)勢。設(shè)置各微網(wǎng)通過聯(lián)絡(luò)線交互協(xié)同優(yōu)化和各微網(wǎng)間聯(lián)絡(luò)線斷開獨(dú)立運(yùn)行兩種場景進(jìn)行對(duì)比。圖8給出了在兩種場景下多微網(wǎng)系統(tǒng)與配電網(wǎng)的交互電量水平。從圖8中可以直觀看出,多微網(wǎng)協(xié)同運(yùn)行場景下,通過各微網(wǎng)互為備用,有效減少與配電網(wǎng)的交互功率水平,從而降低高可再生能源滲透率對(duì)配電網(wǎng)的影響。且通過微網(wǎng)間交互,可有效減少多微網(wǎng)系統(tǒng)的購電成本及污染物排放,相關(guān)結(jié)果見表2。無交互場景下的運(yùn)行成本為921.963 8元,相比協(xié)同運(yùn)行增加了9.72%,而污染排放量則相比增加了46.24%。

圖8 協(xié)同運(yùn)行和獨(dú)立運(yùn)行模式的配電網(wǎng)交互水平

表2 協(xié)同運(yùn)行和獨(dú)立運(yùn)行模式結(jié)果比較
4.3.3 聯(lián)絡(luò)線故障場景分析
為驗(yàn)證模型的拓展性,考慮微網(wǎng)1與微網(wǎng)2之間聯(lián)絡(luò)線因故障斷開的場景。在該場景下,兩微網(wǎng)交互功率值即為0,下層模型同樣可通過自治優(yōu)化完成微網(wǎng)內(nèi)的優(yōu)化調(diào)度,圖9給出了在該場景下微網(wǎng)1的電能流動(dòng)情況,在該種情況下由于聯(lián)絡(luò)線斷開,無法通過向相鄰微網(wǎng)供電消納微網(wǎng)1內(nèi)的富余電量,因此富余電量轉(zhuǎn)由向配電網(wǎng)售出,所提模型在該場景下同樣可完成系統(tǒng)的調(diào)度優(yōu)化。此外,針對(duì)孤網(wǎng)運(yùn)行場景,與上述聯(lián)絡(luò)線故障場景類似,只需將下層模型參數(shù)進(jìn)行調(diào)整,將配電網(wǎng)的交互功率設(shè)置為0,即可完成多微網(wǎng)系統(tǒng)孤網(wǎng)運(yùn)行的調(diào)度優(yōu)化。

圖9 聯(lián)絡(luò)線故障情況下微網(wǎng)1電能流動(dòng)情況
4.4.1 優(yōu)化效果對(duì)比分析
本文利用所提基于分層約束強(qiáng)化學(xué)習(xí)模型的多微網(wǎng)系統(tǒng)優(yōu)化方法對(duì)優(yōu)化變量進(jìn)行了分層處理,在下層采用數(shù)學(xué)規(guī)劃法求解部分不具有時(shí)間關(guān)聯(lián)性的動(dòng)作變量,降低了強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)及動(dòng)作空間的復(fù)雜性。為驗(yàn)證該方法(Bi-LSAC)相比單層強(qiáng)化學(xué)習(xí)方法在收斂速度和精度方面的優(yōu)越性,采用SAC方法解決上述多微網(wǎng)系統(tǒng)優(yōu)化調(diào)度問題,并與本文方法進(jìn)行對(duì)比,兩種方法訓(xùn)練過程中的運(yùn)行成本曲線如圖10所示。從圖10中可以看出,采用DDPG(deep deterministic policy gradient)和SAC方法收斂速度較慢且波動(dòng)性相對(duì)較大,分別在大約7 500和7 000輪左右時(shí)運(yùn)行成本曲線收斂,而本文方法收斂迅速,大約在1 700輪左右即可收斂;而且DDPG和SAC方法最終收斂到的運(yùn)行成本也明顯高于本文方法。三種方法的結(jié)果對(duì)比見表3,Bi-LSAC方法相比于DDPG和SAC方法給出的調(diào)度成本分別降低了18.12%和12.42%,驗(yàn)證了本文方法在收斂速度及優(yōu)化能力方面的優(yōu)越性。

圖10 傳統(tǒng)強(qiáng)化學(xué)習(xí)方法和Bi-LSAC的運(yùn)行成本曲線

表3 SAC與Bi-LSAC方法比較
4.4.2 策略約束越限對(duì)比分析
除了采用分層優(yōu)化框架,本文提出的Bi-LSAC方法通過將傳統(tǒng)強(qiáng)化學(xué)習(xí)算法與拉格朗日乘子法相結(jié)合,將約束問題轉(zhuǎn)換為無約束問題,避免了將約束以懲罰項(xiàng)的形式加入獎(jiǎng)勵(lì),使智能體在滿足約束的前提下尋找最優(yōu)策略。圖11給出了本文方法與傳統(tǒng)方法在訓(xùn)練過程中的約束越限情況。從圖11中可以看出,傳統(tǒng)方法將約束以懲罰項(xiàng)的形式加入獎(jiǎng)勵(lì)中,使得目標(biāo)與越限懲罰的界限模糊,收斂較為困難,盡管越限程度隨著訓(xùn)練進(jìn)行有所減少,但始終無法保證約束完全得到滿足;而本文方法除在智能體隨機(jī)探索初期有一定約束越限行為,后續(xù)訓(xùn)練過程中智能體動(dòng)作越限值始終為0,驗(yàn)證了本文方法可有效處理強(qiáng)化學(xué)習(xí)約束問題。

圖11 傳統(tǒng)強(qiáng)化學(xué)習(xí)方法和Bi-LSAC的約束越限情況
4.5.1 計(jì)算結(jié)果和效率對(duì)比分析
本文方法通過靈活調(diào)整訓(xùn)練過程中與環(huán)境交互的步長,可應(yīng)用于不同時(shí)間尺度的優(yōu)化調(diào)度問題。為驗(yàn)證本文所提方法的優(yōu)越性,調(diào)度周期選取24 h,相鄰時(shí)間斷面間隔為5 min,采用集中式優(yōu)化方法解決上述多微網(wǎng)優(yōu)化問題,將多微網(wǎng)優(yōu)化問題轉(zhuǎn)換為混合整數(shù)線性規(guī)劃問題,利用CPLEX求解器進(jìn)行求解并與本文方法進(jìn)行比較。本文方法基于數(shù)據(jù)驅(qū)動(dòng),可根據(jù)實(shí)際數(shù)據(jù)在s級(jí)內(nèi)給出調(diào)度結(jié)果,滿足在線優(yōu)化要求。兩種方法的對(duì)比見表4。可以看出,本文方法在基于不完全信息的情況下,即可得到與基于全局信息的集中式優(yōu)化趨于一致的結(jié)果,差距僅為0.023%,且決策時(shí)間為ms級(jí)別,相比于集中式min級(jí)的決策時(shí)間,可有效滿足在線優(yōu)化的要求。同時(shí),圖12給出了隨著微網(wǎng)數(shù)量增加兩種方法在決策時(shí)間上的變化情況。從圖12中可以看出,隨著微網(wǎng)數(shù)量增加,本文方法仍可在s級(jí)內(nèi)給出調(diào)度結(jié)果,而集中式優(yōu)化隨著微網(wǎng)數(shù)量增加計(jì)算復(fù)雜度呈指數(shù)增長,計(jì)算效率大幅下降。
表4 集中式優(yōu)化與Bi-LSAC方法比較

Tab.4 Comparison of centralized optimization and Bi-LSAC

圖12 集中式優(yōu)化和Bi-LSAC方法決策時(shí)間對(duì)比
4.5.2 數(shù)據(jù)傳輸對(duì)比分析
在數(shù)據(jù)傳輸和信息交互方面,本文所提方法只需由各微網(wǎng)向上層智能體傳遞少量關(guān)鍵狀態(tài)信息(即凈負(fù)荷及儲(chǔ)能狀態(tài))進(jìn)行決策,無需上傳微網(wǎng)內(nèi)的其余狀態(tài)信息;各微網(wǎng)之間則不進(jìn)行任何信息交互,其交互功率由上層智能體自適應(yīng)決策給出,因而可有效降低通信壓力,并保護(hù)各微網(wǎng)內(nèi)部的數(shù)據(jù)隱私。圖13給出了集中式優(yōu)化與本文方法數(shù)據(jù)傳輸量的對(duì)比。集中式優(yōu)化需聚合多微網(wǎng)系統(tǒng)全局信息用于決策,而本文方法相比于集中式優(yōu)化通信量減少約93.46%,基于局部信息即可完成多微網(wǎng)系統(tǒng)的全局優(yōu)化,大大降低了通信壓力,同時(shí)有效保護(hù)了數(shù)據(jù)隱私。

圖13 集中式優(yōu)化和Bi-LSAC方法信息傳輸量對(duì)比
強(qiáng)化學(xué)習(xí)模型可以自適應(yīng)源荷的隨機(jī)性波動(dòng),在源荷波動(dòng)時(shí),無需重新對(duì)模型進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練好的模型即可實(shí)時(shí)給出調(diào)度結(jié)果。為驗(yàn)證本文所提方法應(yīng)對(duì)源荷不確定性的能力,選取不同場景對(duì)模型進(jìn)行隨機(jī)性測試。固定隨機(jī)變量中冷熱電負(fù)荷的波動(dòng)性水平不變,其標(biāo)準(zhǔn)差為期望值的5%,而風(fēng)、電和光伏出力的標(biāo)準(zhǔn)差分別為期望值的10%、15%、20%,基于可再生能源和負(fù)荷的基準(zhǔn)功率,從每一種波動(dòng)性水平的概率分布中抽樣生成150個(gè)場景集,隨機(jī)選取20個(gè)場景進(jìn)行測試。圖14給出了微網(wǎng)1風(fēng)電波動(dòng)性水平為20%時(shí)所生成的150個(gè)場景。
圖15給出了新能源出力波動(dòng)性為10%時(shí),測試結(jié)果與傳統(tǒng)優(yōu)化求解結(jié)果的比較情況,三種波動(dòng)性水平下的平均測試結(jié)果見表5。從測試結(jié)果中可以看出,面對(duì)不同波動(dòng)性水平的場景,傳統(tǒng)優(yōu)化受求解速度限制,難以滿足在線優(yōu)化的實(shí)時(shí)性要求,對(duì)于源荷的隨機(jī)波動(dòng),需通過實(shí)時(shí)市場向配電網(wǎng)購售電滿足實(shí)時(shí)平衡。而本文所提方法能在線給出優(yōu)化調(diào)度策略,在波動(dòng)性水平分別為10%、15%、20%時(shí),傳統(tǒng)優(yōu)化求解得到的平均成本與本文方法求解結(jié)果的差距分別在7.82%、10.33%、13.53%左右,驗(yàn)證了本文方法在應(yīng)對(duì)源荷隨機(jī)性方面的優(yōu)越性。

圖14 波動(dòng)性水平為20%時(shí)的風(fēng)電場景

圖15 Bi-LSAC和傳統(tǒng)優(yōu)化在不同隨機(jī)場景的成本比較
表5 不同源荷波動(dòng)性水平下測試結(jié)果比較

Tab.5 Comparison of test results under different volatility levels of power and loads
本文以多微網(wǎng)系統(tǒng)為研究對(duì)象,設(shè)計(jì)了一種分層優(yōu)化框架,基于該框架,將數(shù)據(jù)驅(qū)動(dòng)方法與數(shù)學(xué)規(guī)劃法結(jié)合,構(gòu)建了一種分層強(qiáng)化學(xué)習(xí)求解方法;并將拉格朗日乘子法與傳統(tǒng)強(qiáng)化學(xué)習(xí)方法SAC算法結(jié)合設(shè)計(jì)了LSAC算法,以解決傳統(tǒng)強(qiáng)化學(xué)習(xí)難以處理約束的問題,最終通過算例得到以下結(jié)論:
1)通過分層設(shè)計(jì)實(shí)現(xiàn)多微網(wǎng)優(yōu)化任務(wù)的簡化求解,各微網(wǎng)之間不進(jìn)行信息交互,僅需上傳凈負(fù)荷及儲(chǔ)能關(guān)鍵狀態(tài)信息,并基于自身狀態(tài)信息獨(dú)立并行求解,然后利用上下層的協(xié)同實(shí)現(xiàn)多微網(wǎng)系統(tǒng)的整體優(yōu)化。通過算例驗(yàn)證了本文所提方法在基于局部狀態(tài)信息的情況下,可即時(shí)給出與最優(yōu)解趨于一致的調(diào)度結(jié)果。
2)本文所提方法將數(shù)據(jù)驅(qū)動(dòng)與傳統(tǒng)方法相結(jié)合,簡化了強(qiáng)化學(xué)習(xí)動(dòng)作空間及獎(jiǎng)勵(lì)設(shè)計(jì)的復(fù)雜性。在充分發(fā)揮強(qiáng)化學(xué)習(xí)快速求解能力的同時(shí),有效地兼顧了數(shù)學(xué)規(guī)劃法的求解精度,可針對(duì)多微網(wǎng)優(yōu)化問題實(shí)現(xiàn)高效求解。算例結(jié)果表明,相比于傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在收斂速度和精度上均有較大提升。
3)本文構(gòu)建了基于拉格朗日乘子法的約束強(qiáng)化學(xué)習(xí)算法,通過將約束問題轉(zhuǎn)換為無約束問題,避免了將約束以懲罰項(xiàng)的形式加入獎(jiǎng)勵(lì)函數(shù)中,解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)難以處理約束的問題。算例表明,所提方法可保證智能體在滿足約束的前提下尋找最優(yōu)策略,避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法由于人工設(shè)置懲罰系數(shù)造成的難以滿足約束及收斂困難等問題。
4)模型具有良好的魯棒性,可有效應(yīng)對(duì)源荷隨機(jī)性,并自適應(yīng)快速?zèng)Q策各微網(wǎng)的功率交互,不依賴于源荷的精確建模,相較于傳統(tǒng)優(yōu)化方法避免了反復(fù)的迭代過程,根據(jù)源荷狀態(tài)即可實(shí)時(shí)給出調(diào)度結(jié)果。
1. 微型燃?xì)廨啓C(jī)
MT是實(shí)現(xiàn)冷熱電氣多種能源形式耦合的核心設(shè)備,其耗氣量及排出的余熱煙氣熱量均與發(fā)電功率成正比,模型為


2. 溴化鋰機(jī)組(Lithium Bromide unit, LB)
MT排出的部分高溫余熱煙氣經(jīng)溴化鋰機(jī)組收集后可用于制冷和供熱。


3. 燃?xì)忮仩t
燃?xì)忮仩t通過燃燒天然氣向系統(tǒng)供熱,其模型為

4. 電制冷機(jī)
電制冷機(jī)通過消耗電能進(jìn)行制冷,其制冷功率與輸入電功率有關(guān),即

5. 蓄電池模型
蓄電池可通過充放電消納微網(wǎng)內(nèi)出力或供給微網(wǎng)內(nèi)電負(fù)荷,其模型為





6. 儲(chǔ)熱槽模型




7. 分布式可再生能源
本文研究的微網(wǎng)內(nèi)分布式電源包括風(fēng)力發(fā)電和光伏發(fā)電,風(fēng)力發(fā)電和光伏發(fā)電的出力可表述為預(yù)測出力疊加預(yù)測誤差,其中風(fēng)、光出力的預(yù)測誤差符合正態(tài)分布。




附表1 分時(shí)電價(jià)
App.Tab.1 Time-of-use electricity price

時(shí)段購電/[元/(kW·h)]售電/[元/(kW·h)] 谷23:00—7:000.250.17 平7:00—10:0015:00—18:0021:00—23:000.650.45 峰10:00—15:0018:00—21:001.10.77
附表2 微網(wǎng)設(shè)備參數(shù)
App.Tab.2 Parameters of microgrid equipment

參數(shù)數(shù)值 微型燃?xì)廨啓C(jī)最大發(fā)電功率/kW120 微型燃?xì)廨啓C(jī)發(fā)電效率0.35 微型燃?xì)廨啓C(jī)熱損失系數(shù)0.05 溴化鋰機(jī)組煙氣回收率0.75 溴化鋰機(jī)組制冷系數(shù)1.45
(續(xù))

參數(shù)數(shù)值 溴化鋰機(jī)組制熱系數(shù)1.17 燃?xì)忮仩t最大輸出功率/kW50 燃?xì)忮仩t制熱效率0.9 電制冷機(jī)最大輸入功率/kW100 電制冷機(jī)制冷能效比4.24 蓄電池容量/(kW·h)100 蓄電池荷電狀態(tài)0.1~0.9 蓄電池自放電系數(shù)0 蓄電池充放電效率0.9 蓄電池最大充放電功率/kW20 儲(chǔ)熱槽最大儲(chǔ)熱量/(kW·h)50 儲(chǔ)熱槽自散熱系數(shù)0.005 儲(chǔ)熱槽充放熱效率0.9 儲(chǔ)熱槽最大充放熱功率/kW5 與配電網(wǎng)最大交互功率/kW300 與微網(wǎng)最大交互功率/kW100
附表3 神經(jīng)網(wǎng)絡(luò)超參數(shù)
App.Tab.3 Neural network hyperparameters

超參數(shù)數(shù)值 折扣因子學(xué)習(xí)率軟更新系數(shù)經(jīng)驗(yàn)回放單元容量采樣樣本數(shù)0.993×10-40.00520 00064
[1] 蔡瑤, 盧志剛, 孫可, 等. 計(jì)及源荷不確定性的獨(dú)立型交直流混合微網(wǎng)多能源協(xié)調(diào)優(yōu)化調(diào)度[J]. 電工技術(shù)學(xué)報(bào), 2021, 36(19): 4107-4120. Cai Yao, Lu Zhigang, Sun Ke, et al. Multi-energy coordinated optimal scheduling of isolated AC/DC hybrid microgrids considering generation and load uncertainties[J]. Transactions of China Electrotechnical Society, 2021, 36(19): 4107-4120.
[2] 靳小龍, 穆云飛, 賈宏杰, 等. 融合需求側(cè)虛擬儲(chǔ)能系統(tǒng)的冷熱電聯(lián)供樓宇微網(wǎng)優(yōu)化調(diào)度方法[J]. 中國電機(jī)工程學(xué)報(bào), 2017, 37(2): 581-591. Jin Xiaolong, Mu Yunfei, Jia Hongjie, et al. Optimal scheduling method for a combined cooling, heating and power building microgrid considering virtual storage system at demand side[J]. Proceedings of the CSEE, 2017, 37(2): 581-591.
[3] 張釋中, 裴瑋, 楊艷紅, 等. 基于柔性直流互聯(lián)的多微網(wǎng)集成聚合運(yùn)行優(yōu)化及分析[J]. 電工技術(shù)學(xué)報(bào), 2019, 34(5): 1025-1037. Zhang Shizhong, Pei Wei, Yang Yanhong, et al. Optimization and analysis of multi-microgrids integration and aggregation operation based on flexible DC interconnection[J]. Transactions of China Electrotechnical Society, 2019, 34(5): 1025-1037.
[4] 劉志堅(jiān), 劉瑞光, 梁寧, 等. 含電轉(zhuǎn)氣的微型能源網(wǎng)日前經(jīng)濟(jì)優(yōu)化調(diào)度策略[J]. 電工技術(shù)學(xué)報(bào), 2020, 35(增刊2): 535-543. Liu Zhijian, Liu Ruiguang, Liang Ning, et al. Day-ahead optimal economic dispatching strategy for micro energy-grid with P2G[J]. Transactions of China Electrotechnical Society, 2020, 35(S2): 535-543.
[5] 王守相, 吳志佳, 莊劍. 考慮微網(wǎng)間功率交互和微源出力協(xié)調(diào)的冷熱電聯(lián)供型區(qū)域多微網(wǎng)優(yōu)化調(diào)度模型[J]. 中國電機(jī)工程學(xué)報(bào), 2017, 37(24): 7185-7194, 7432. Wang Shouxiang, Wu Zhijia, Zhuang Jian. Optimal dispatching model of CCHP type regional multi-microgrids considering interactive power exchange among microgrids and output coordination among micro-sources[J]. Proceedings of the CSEE, 2017, 37(24): 7185-7194, 7432.
[6] 肖浩, 裴瑋, 孔力, 等. 考慮光伏余電上網(wǎng)的微網(wǎng)出力決策分析及經(jīng)濟(jì)效益評(píng)估[J]. 電力系統(tǒng)自動(dòng)化, 2014, 38(10): 10-16. Xiao Hao, Pei Wei, Kong Li, et al. Decision analysis and economic benefit evaluation of microgrid power output considering surplus photovoltaic power selling to grid[J]. Automation of Electric Power Systems, 2014, 38(10): 10-16.
[7] Dehghanpour K, Nehrir H. Real-time multiobjective microgrid power management using distributed optimization in an agent-based bargaining framework[J]. IEEE Transactions on Smart Grid, 2018, 9(6): 6318-6327.
[8] 趙波, 汪湘晉, 張雪松, 等. 考慮需求側(cè)響應(yīng)及不確定性的微電網(wǎng)雙層優(yōu)化配置方法[J]. 電工技術(shù)學(xué)報(bào), 2018, 33(14): 3284-3295. Zhao Bo, Wang Xiangjin, Zhang Xuesong, et al. Two-layer method of microgrid optimal sizing considering demand-side response and uncertainties[J]. Transactions of China Electrotechnical Society, 2018, 33(14): 3284-3295.
[9] 許志榮, 楊蘋, 張育嘉, 等. 考慮不平衡度約束的單三相混聯(lián)多微網(wǎng)日前經(jīng)濟(jì)優(yōu)化[J]. 電網(wǎng)技術(shù), 2017, 41(1): 40-47. Xu Zhirong, Yang Ping, Zhang Yujia, et al. Day-ahead economic optimized dispatch of single and three phase hybrid multi-microgrid considering unbalance constraint[J]. Power System Technology, 2017, 41(1): 40-47.
[10] 李長云,徐敏靈,蔡淑媛.計(jì)及電動(dòng)汽車違約不確定性的微電網(wǎng)兩段式優(yōu)化調(diào)度策略[J].電工技術(shù)學(xué)報(bào), 2023, 38(7): 1838-1851. Li Changyun,Xu Minling,Cai Shuyuan.Two-stage optimal scheduling strategy for micro-grid considering EV default uncertainty[J].Transactions of China Electrotechnical Society, 2023, 38(7): 1838-1851.
[11] 滕云, 孫鵬, 羅桓桓, 等. 計(jì)及電熱混合儲(chǔ)能的多源微網(wǎng)自治優(yōu)化運(yùn)行模型[J]. 中國電機(jī)工程學(xué)報(bào), 2019, 39(18): 5316-5324, 5578. Teng Yun, Sun Peng, Luo Huanhuan, et al. Autonomous optimization operation model for multi-source microgrid considering electrothermal hybrid energy storage[J]. Proceedings of the CSEE, 2019, 39(18): 5316-5324, 5578.
[12] 武夢景, 萬燦, 宋永華, 等. 含多能微網(wǎng)群的區(qū)域電熱綜合能源系統(tǒng)分層自治優(yōu)化調(diào)度[J]. 電力系統(tǒng)自動(dòng)化, 2021, 45(12): 20-29. Wu Mengjing, Wan Can, Song Yonghua, et al. Hierarchical autonomous optimal dispatching of district integrated heating and power system with multi-energy microgrids[J]. Automation of Electric Power Systems, 2021, 45(12): 20-29.
[13] 馬騰飛, 裴瑋, 肖浩, 等. 基于納什談判理論的風(fēng)-光-氫多主體能源系統(tǒng)合作運(yùn)行方法[J]. 中國電機(jī)工程學(xué)報(bào), 2021, 41(1): 25-39, 395. Ma Tengfei, Pei Wei, Xiao Hao, et al. Cooperative operation method for wind-solar-hydrogen multi-agent energy system based on Nash bargaining theory[J]. Proceedings of the CSEE, 2021, 41(1): 25-39, 395.
[14] 歐陽聰, 劉明波, 林舜江, 等. 采用同步型交替方向乘子法的微電網(wǎng)分散式動(dòng)態(tài)經(jīng)濟(jì)調(diào)度算法[J]. 電工技術(shù)學(xué)報(bào), 2017, 32(5): 134-142. Ouyang Cong, Liu Mingbo, Lin Shunjiang, et al. Decentralized dynamic economic dispatch algorithm of microgrids using synchronous alternating direction method of multipliers[J]. Transactions of China Electrotechnical Society, 2017, 32(5): 134-142.
[15] 顧雪平, 劉彤, 李少巖, 等. 基于改進(jìn)雙延遲深度確定性策略梯度算法的電網(wǎng)有功安全校正控制[J]. 電工技術(shù)學(xué)報(bào), 2023, 38(8): 2162-2177. Gu Xueping, Liu Tong, Li Shaoyan, et al. Active power correction control of power grid based on improved twin delayed deep deterministic policy gradient algorithm[J]. Transactions of China Electrotechnical Society, 2023, 38(8): 2162-2177.
[16] Mocanu E, Mocanu D C, Nguyen P H, et al. On-line building energy optimization using deep reinforcement learning[J]. IEEE Transactions on Smart Grid, 2019, 10(4): 3698-3708.
[17] Kofinas P, Dounis A I, Vouros G A. Fuzzy Q-learning for multi-agent decentralized energy management in microgrids[J]. Applied Energy, 2018, 219: 53-67.
[18] Xu Xu, Jia Youwei, Xu Yan, et al. A multi-agent reinforcement learning-based data-driven method for home energy management[J]. IEEE Transactions on Smart Grid, 2020, 11(4): 3201-3211.
[19] 黎海濤, 申保晨, 楊艷紅, 等. 基于改進(jìn)競爭深度Q網(wǎng)絡(luò)算法的微電網(wǎng)能量管理與優(yōu)化策略[J]. 電力系統(tǒng)自動(dòng)化, 2022, 46(7): 42-49. Li Haitao, Shen Baochen, Yang Yanhong, et al. Energy management and optimization strategy for microgrid based on improved dueling deep Q network algorithm[J]. Automation of Electric Power Systems, 2022, 46(7): 42-49.
[20] 喬驥, 王新迎, 張擎, 等. 基于柔性行動(dòng)器-評(píng)判器深度強(qiáng)化學(xué)習(xí)的電-氣綜合能源系統(tǒng)優(yōu)化調(diào)度[J]. 中國電機(jī)工程學(xué)報(bào), 2021, 41(3): 819-833. Qiao Ji, Wang Xinying, Zhang Qing, et al. Optimal dispatch of integrated electricity-gas system with soft actor-critic deep reinforcement learning[J]. Proceedings of the CSEE, 2021, 41(3): 819-833.
[21] 董雷, 劉雨, 喬驥, 等. 基于多智能體深度強(qiáng)化學(xué)習(xí)的電熱聯(lián)合系統(tǒng)優(yōu)化運(yùn)行[J]. 電網(wǎng)技術(shù), 2021, 45(12): 4729-4738. Dong Lei, Liu Yu, Qiao Ji, et al. Optimal dispatch of combined heat and power system based on multi-agent deep reinforcement learning[J]. Power System Technology, 2021, 45(12): 4729-4738.
[22] 張津源, 蒲天驕, 李燁, 等. 基于多智能體深度強(qiáng)化學(xué)習(xí)的分布式電源優(yōu)化調(diào)度策略[J]. 電網(wǎng)技術(shù), 2022, 46(9): 3496-3504. Zhang Jinyuan, Pu Tianjiao, Li Ye, et al. Multi-agent deep reinforcement learning based optimal dispatch of distributed generators[J]. Power System Technology, 2022, 46(9): 3496-3504.
[23] 劉俊峰, 王曉生, 盧俊菠, 等. 基于多主體博弈和強(qiáng)化學(xué)習(xí)的多微網(wǎng)系統(tǒng)協(xié)同優(yōu)化研究[J]. 電網(wǎng)技術(shù), 2022, 46(7): 2722-2732. Liu Junfeng, Wang Xiaosheng, Lu Junbo, et al. Collaborative optimization of multi-microgrid system based on multi-agent game and reinforcement learning[J]. Power System Technology, 2022, 46(7): 2722-2732.
[24] 聶歡歡, 張家琦, 陳穎, 等. 基于雙層強(qiáng)化學(xué)習(xí)方法的多能園區(qū)實(shí)時(shí)經(jīng)濟(jì)調(diào)度[J]. 電網(wǎng)技術(shù), 2021, 45(4): 1330-1336. Nie Huanhuan, Zhang Jiaqi, Chen Ying, et al. Real-time economic dispatch of community integrated energy system based on a double-layer reinforcement learning method[J]. Power System Technology, 2021, 45(4): 1330-1336.
[25] Sutton R S, Barto A G. Reinforcement learning: an introduction[M]. Cambridge, Mass.: MIT Press, 1998
[26] 沈儒茹. 多微網(wǎng)系統(tǒng)的優(yōu)化調(diào)度策略研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2020.
[27] Altman E. Constrained Markov Decision Processes[M]. Boca Raton: CRC Press, 2021.
[28] Bertsekas D P. Constrained Optimization and lagrange Multiplier Methods[M]. New York: Academic Press, 1982
[29] Haarnoja T, Zhou A, Abbeel P, et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[EB/OL]. 2018: arXiv: 1801.01290. https://arxiv.org/abs/1801.01290.
[30] Lin Longxin. Reinforcement learning for robots using neural networks[D]. Pittsburgh: Carnegie Mellon University, 1992.
[31] Christodoulou P. Soft actor-critic for discrete action settings[EB/OL]. 2019: arXiv: 1910.07207. https:// arxiv.org/abs/1910.07207.
[32] 葉宇劍, 王卉宇, 湯奕, 等. 基于深度強(qiáng)化學(xué)習(xí)的居民實(shí)時(shí)自治最優(yōu)能量管理策略[J]. 電力系統(tǒng)自動(dòng)化, 2022, 46(1): 110-119. Ye Yujian, Wang Huiyu, Tang Yi, et al. Real-time autonomous optimal energy management strategy for residents based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2022, 46(1): 110-119.
Optimal Scheduling of Integrated Energy Multi-Microgrid System Based on Hierarchical Constraint Reinforcement Learning
Dong Lei1Yang Zimin1Qiao Ji2Chen Sheng2Wang Xinying2Pu Tianjiao2
(1. School of Electrical and Electronics Engineering North China Electric Power University Beijing 102206 China 2. China Electric Power Research Institute Beijing 100192 China)
The optimization of the integrated energy multi-microgrid system is a complex task, with numerous variables and challenges including data privacy protection and uncertainties of power generation and load, posing significant challenges for the efficient implementation of traditional mathematical optimization methods. Recently, many scholars have turned their attention to deep reinforcement learning (DRL) methods, which rely on data-driven principles and exhibit strong adaptability to uncertainties of power generation and load. Nevertheless, the difficulty of convergence persists with increasing system scale, and traditional DRL methods that handle constraints by adding penalty terms to the reward function may obscure the boundary between objectives and constraints, making it difficult to ensure that constraints are fully satisfied and resulting in excessively conservative learning strategies or suboptimal solutions. To address these issues, this paper proposed a hierarchical constraint reinforcement learning optimization method.
Firstly, this paper proposed a hierarchical DRL optimization framework for multi-microgrid systems. The proposed framework divides the optimization problem into two layers: an upper layer and a lower layer. The upper layer does not require obtaining all the operating status information of each microgrid. Instead, it utilizes net load prediction information and energy storage state information to provide energy storage optimization strategies and power interaction strategies. On the other hand, the lower layer enables each microgrid to autonomously optimize the output of its internal devices based on its own status information through mathematical programming, with the upper layer strategy as a constraint. The proposed framework leverages cooperation between the upper and lower layers to achieve overall optimization of the multi-microgrid system. This framework fully utilizes the advantages of DRL based on data-driven principles and effectively considers the solution accuracy of mathematical programming. Based on this hierarchical framework, a constraint DRL method is proposed that combines DRL methods with Lagrange multiplier methods. This method transforms the constraint optimization problem into an unconstrained optimization problem, enabling the agent to find the optimal strategy while strictly satisfying the constraints. Compared to traditional centralized optimization methods, the proposed method dynamically responds to the fluctuations of power generation and load to meet online optimization requirements and protects microgrid data privacy by not requiring the aggregation of all microgrid status information. Compared to general DRL methods, our approach effectively solves the problem of constraint violation and significantly improves both the convergence speed and accuracy.
The following conclusions can be drawn from the case studies: (1) A hierarchical design approach is proposed to simplify the optimization of multi-microgrid systems. The approach does not require information exchange between microgrids and only necessitates uploading net load and energy storage state information. Microgrids can independently and parallelly solve the optimization problem based on their own status information. This approach can provide scheduling results in real-time consistent with the optimal solution when local status information is available. (2) The proposed approach combines data-driven principles with traditional methods, simplifying the complexity of action space and reward design. It effectively balances the rapid solving ability of DRL and the solution accuracy of mathematical programming. Compared to traditional DRL methods, the proposed approach significantly improves both convergence speed and accuracy. (3) The approach combines DRL methods with Lagrange multiplier methods to transform the constrained optimization problem into an unconstrained one. This ensures that the agent can find the optimal strategy while strictly satisfying the constraints. The approach avoids convergence difficulties and constraint violation issues caused by manually setting the penalty coefficient in traditional DRL methods. (4) The model exhibits robustness and can effectively adapt to the fluctuations of power generation and load, making rapid decisions on power interactions of each microgrid.
Multi-microgrid, hierarchical constraint reinforcement learning, uncertainty, data privacy protection
10.19595/j.cnki.1000-6753.tces.230015
TM73
國家重點(diǎn)研發(fā)計(jì)劃(2020YFB0905900)和國家自然科學(xué)基金(52277098)資助項(xiàng)目。
2023-01-06
2023-03-22
董 雷 女,1967年生,副教授,研究方向?yàn)殡娏ο到y(tǒng)分析、運(yùn)行與控制。E-mail:hbdldl@126.com
楊子民 男,1998年生,碩士研究生,研究方向?yàn)殡娏ο到y(tǒng)分析、運(yùn)行和控制。E-mail:yzm@ncepu.edu.cn(通信作者)
(編輯 赫 蕾)