999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多智能體深度強化學習的分布式園區綜合能源系統經濟調度策略

2023-01-09 03:18:02武東昊陳玉萍馮文波張有兵張雪松
電力系統及其自動化學報 2022年12期
關鍵詞:動作智能

張 帆,武東昊,陳玉萍,馮文波,張有兵,張雪松

(1.浙江華云電力工程設計咨詢有限公司,杭州 310026;2.浙江工業大學信息工程學院,杭州 310023;3.國網浙江省電力有限公司電力科學研究院,杭州 310014)

隨著環境壓力的增加和可再生能源技術的發展,以化石能源為主的傳統電力系統正逐漸被化石能源與可再生能源協調使用的綜合能源系統IES(integrated energy system)所替代。而IES內的多種類能源在提升系統靈活性、供能多樣性的同時,也為系統提高整體的能源利用率及實現經濟運行帶來了困難。因此,研究IES內的多能協調優化調度策略對于促進可再生能源消納、提高系統經濟性具有重要意義[1-3]。

針對IES的多能互補與經濟運行問題,文獻[4]研究了含風電設備的熱-電-氣IES經濟調度問題,并采用列約束生成算法進行迭代求解;文獻[5-6]在配電網中可再生能源占比不斷提高的背景下,對考慮風電消納的IES日前經濟最優調度策略進行了研究;文獻[7]通過隨機規劃處理系統中可再生能源、負荷及實時電價帶來的波動,用以解決微電網經濟調度問題;文獻[8]以區間形式描述風電出力,利用混合整數規劃方法將IES中的非線性問題轉化為線性問題,然后經CPLEX求解器對問題進行求解。以上文獻對IES的研究主要集中在日前調度,依賴于對可再生能源出力、負荷需求等數據的預測,受限于固定的調度計劃,不能動態地對源和荷的隨機變化做出響應。

為解決上述問題,近年來隨著人工智能技術的發展,強化學習RL(reinforcement learning)算法受到越來越多的關注。已有研究將RL用于電力能源系統的經濟調度和能量管理中[9-11],但是傳統的RL算法在面對IES的復雜環境時,無法合理地從環境中讀取狀態變量,易發生維數災難,難以實現在綜合能源場景下的應用與推廣。因此,同時具備環境感知能力和決策能力的深度強化學習DRL(deep reinforcement learning)算法,逐漸被研究者們關注。已有文獻開展了關于DRL算法在電力系統中的應用研究,文獻[12]構建了一種考慮孤島運行的IES,并采用DRL來對所提出的孤島IES進行控制,使所考慮的IES能合理運行;文獻[13]根據負荷及光伏出力結合儲能設備供能,采用DRL算法對微電網系統進行最優能量調度;文獻[14]借助貝葉斯神經網絡對不確定的學習環境建模,將微電網優化運行問題轉變為馬爾可夫決策問題,并對微能源網進行建模,通過DRL算法尋找最優運行策略。但是,以上研究DRL在IES中應用的文獻,大多為集中式決策,這種結構的IES需要控制中心預先建立精確的網絡架構,并實時采集IES內各設備運行工況,這對于結構復雜多變的IES來說難以實現。單個主體統一運營的情況也與目前IES內多個能源子系統相對獨立運營的現狀不相符,在當下的市場機制內存在信息隱私的問題。

在已有的研究基礎上,為實現含多個能源子系統的IES優化調度,本文的主要貢獻如下。

(1)提出了一種以最優經濟運行為目標的分布式園區IES優化調度架構,并對各園區之間的能源交互進行設計。在促進各園區內光伏消納的同時,提高了IES經濟運行的有效性。

(2)在所提架構的基礎上,采用基于多智能體的DRL算法解決IES的動態調度問題。以實時獎勵函數代替目標函數,利用各園區內的智能體與環境互動,尋找IES最優調度策略,避免了傳統能源調度方式中無法實時響應源荷隨機變動的問題。

(3)將所提算法與基于IES線性化模型的優化算法進行結果比較,證明了所提算法的有效性。

1 分布式園區IES建模

IES運行優化的目標是在滿足用戶用能多樣性的同時,提高系統整體的能源利用率,實現系統的經濟運行。為此,本文提出了一種以最優經濟運行為目標的分布式園區IES優化調度架構,通過合理地安排不同時間段園區內設備的出力,促進園區間能源共享,保證了IES的經濟運行。

1.1 多園區共享模型

本文研究的分布式園區IES架構如圖1所示,包含多園區共享層和單園區消納層。

圖1 分布式園區IESFig.1 IES in distributed parks

在多園區共享層中,不同的多能源園區之間可進行信息交流,并通過電壓等級為10 kV的配電線路進行園區間的能源協調互補。園區間進行能源交互時,能源富余的園區優先考慮將多余的能源供給其他園區,若在供給結束后仍有余能,則考慮將余能賣給外部能源供應商;能源不足的園區優先考慮園區間的內部能源互濟,若園區間的內部供能仍無法滿足用能需求,則考慮向外部能源供應商購能。因為各園區進行能源交互時,熱能傳遞損耗率大、成本高,所以本文提及的園區間能源交互仍以電能交互為主,熱能僅用于滿足各園區內的能源消耗,其園區間的電能交互可表示為

式中:E為實際獲得的其他園區供能;Ei,j為園區i向園區j的供給能源;η為園區間進行電能交互時的能源損耗參數,其由園區間的電壓等級和線路參數共同決定。

所提模型中各園區不需要清楚其他園區內的設備運行情況,僅通過本地的信息數據,即可決定調度策略。在保護園區信息隱私的前提下,降低了各園區的運行成本。

1.2 單園區消納層模型

單園區能源消納模型如圖2所示。單個多能源園區平穩運行所需要的能源由其他園區、上級電網、天然氣源共同提供。園區內包含電、熱兩種類型的負荷和燃氣輪機、燃氣鍋爐、光伏、電鍋爐、儲能電池等設備,各單元按照能量傳輸介質用電、熱兩條能量總線連接。

圖2 單園區能源消納模型Fig.2 Energy absorption model of single park

1.2.1 目標函數

多能源園區優化調度的目標函數是園區運行總成本,主要是從上級電網購電的成本及從燃氣供應商處購買天然氣的成本之和。目標成本的函數為

式中:C為園區運行總成本;Ce為向電網購電的成本;Cf為向燃氣供應商購買天然氣的成本;T為系統調度的總時間段數;Δt為時隙長度;εgrid(t)為t時段內園區向電網的購售電價格;Pgird為t時段內園區與電網的交互功率,Pgird為正表示向電網購電,Pgird為負表示向電網售電;εgas(t)為t時段內天然氣的單位熱值價格;γ(t)為天然氣消耗速率。

1.2.2 約束條件

單園區優化調度的約束包括功率平衡約束、電網交互功率約束和設備運行約束。

1)功率平衡約束

多能源園區內包含多種能源類型,但其主要考慮的功率平衡約束包括電功率平衡約束、熱功率平衡約束兩類,可表示為

式中:Pop(t)為t時段內其他園區供能,Pop(t)為正時表示接受其他園區能量,Pop(t)為負時表示將能量供給其他園區;Ppv(t)為t時段內光伏設備輸出功率;Pgt(t)為t時段內燃氣輪機輸出功率;Peb(t)為t時段內電鍋爐需求功率;Pbes(t)為t時段內儲能電池的充放電功率,Pbes(t)為正時表示儲能電池的放電功率,Pbes(t)為負時表示儲能電池的充電功率;heb(t)為t時段內電鍋爐輸出熱功率;hgt(t)為t時段內燃氣輪機回收熱功率;hbt(t)為t時段內燃氣鍋爐輸出功率;Pload(t)、hload(t)分別為t時段內需求側電、熱負荷。

2)電網交互功率約束

考慮到電網側的穩定運行,上級電網對多能源園區的功率交互有上下限約束要求,可表示為

3)設備運行約束

多能源園區中各設備均有設備運行上限、下限約束,對于燃氣鍋爐、燃氣輪機、電鍋爐的輸出功率及儲能電池充放電功率存在如下約束:

對于儲能電池,還需避免深度充放電對儲能電池的損害,因此儲能電池的荷電狀態需要被限定在一定范圍內,即

此外,為保證儲能電池能持續穩定運行,1個調度周期始末應保持儲能容量相等,所以儲能電池充放電應滿足

2 分布式園區IES的多智能體DRL框架

在分布式園區IES的優化調度問題中,每時刻的光伏產能、儲能設備、用戶需求等環境信息都在發生變化,故其是一種具有時變性的動態調度問題。針對這一問題,本文采用一種基于多智能體深度Q網絡的DRL算法進行求解。該算法將深度Q網絡中的神經網絡模型看作智能體,通過神經網絡對環境的強大表征能力,讀取IES的環境信息作為多智能體的輸入;然后,每個智能體根據所得到的環境信息輸出對應動作,并根據執行動作獲得獎勵;最后,通過采取的動作實現IES的優化調度。本節對具體的多智能體DRL設計進行描述。

2.1 狀態空間與動作空間設計

IES環境提供給各智能體的信息一般為園區內的光伏設備出力、儲能電池的荷電狀態及熱、電負荷需求。因此IES園區內的狀態空間可以定義為

智能體觀測到IES園區內的狀態信息后,根據自身策略在動作空間A中選擇1個動作。本文所考慮園區內的動作設備,包括燃氣輪機、儲能電池和電鍋爐。對于燃氣輪機,其動作是t時段內燃氣輪機的輸出功率Pgt(t);對于儲能電池,其動作是t時段內儲能電池的充放電功率Pbes(t);對于電鍋爐,其動作是t時段內電鍋爐的輸出功率Peb(t)。因此IES的動作空間為

考慮到深度Q網絡算法無法輸出連續動作,所以對IES的動作空間做離散化處理,離散后的動作空間為

式中,g為離散化的粒度,粒度越大動作空間包含的動作越少,粒度越小動作空間可以描述的動作越多。

2.2 獎勵函數

在DRL中獎勵負責引導智能體挖掘狀態信息中的決策相關因素并經過提煉后用于動作空間中動作的選取。

在本文考慮的IES模型中,系統運行成本來自于向電網購電的成本和購買天然氣的成本。根據式(2)將系統總成本最小化問題轉化為RL經典的獎勵最大化形式。因此智能體在t時段內獎勵rt可以定義為

在智能體學習IES優化調度策略時,有可能會選擇不符合系統運行約束條件的動作。面對這種情況需要定義智能體在采取越限動作時的懲罰,通過在獎勵函數中增加懲罰項來引導智能體做出正確的決策。

在第1節搭建的IES框架中存在各種設備運行功率上下限約束、儲能電池的荷電狀態約束,以及儲能電池在1個調度周期始末需要保持荷電狀態相等的約束條件。在這些約束條件中,燃氣輪機的輸出功率約束、儲能電池的的充放電功率約束及電鍋爐的出力約束在設置智能體動作空間時就已經進行過考量,無需再對其額外處理。在面對其他約束條件時,本文通過在獎勵函數中增加懲罰項以使智能體學會合理的調度策略。懲罰項可以定義為

式中:d0為各設備出力功率越限時的懲罰,其數值設置為M,M為1個較小的負數;d1為儲能電池出現過充或過放時的懲罰,其數值同樣設置為M;d2為儲能電池在1個調度周期始末保持荷電狀態相等的約束的懲罰項。由于深度Q網絡所能設定的動作空間內只有離散動作,且儲能電池在進行充放電動作時受充放電效率影響,所以在1個調度周期始末儲能電池荷電狀態無法達到完全相等,因此懲罰項d2可以定義為

若調度周期始末電荷狀態存在一定誤差,則d2=0,否則d2為1個遠小于M的負數。根據以上獎勵與懲罰項,獎勵函數R可以定義為

3 基于多智能體深度Q網絡的求解方法

在多智能體深度Q網絡算法中各智能體的神經網絡結構如圖3所示,其中輸入為狀態s,輸出為該智能體要采取的動作a?;谏窠浘W絡的智能體通過最大化獎勵來學習狀態和動作之間的映射,即動作-獎勵Q函數。

圖3 單智能體神經網絡結構Fig.3 Neural network structure of single agent

3.1 多智能體訓練過程

多智能體深度Q網絡算法能夠通過各智能體間的協作有效地解決復雜任務。在第2節構建的DRL框架中,智能體的訓練過程可以概括為“集中學習、分散執行”,屬于多智能體訓練方案中的并行學習范疇,具有較高的計算效率。此外,多智能體深度Q網絡通過探索共享環境,將全局控制動作分配給IES各個分布式園區內執行協調動作的智能體。在這一環節中,每個園區內的智能體不需要知道其他園區的具體信息,僅根據自己局部觀察的狀態信息即可選取動作,在園區間進行信息交互時,保護了各園區的隱私。

多智能體訓練循環如圖4所示。在多智能體訓練過程中,智能體之間通過共享當前觀察到的狀態s和動作a來選擇最優行動組合。在每條經驗軌跡的訓練中,各智能體都會根據當前共享得到的環境信息,選取動作組合。在動作確定后,IES將會得到新的獎勵與環境信息,并對各園區內智能體進行局部更新。然后,以新的環境信息為基礎進行下一輪的動作選擇,重復這一循環直至訓練結束。

圖4 多智能體訓練循環Fig.4 Multi-agent training cycle

3.2 各智能體神經網絡訓練過程

各智能體中神經網絡的作用是對在狀態s下采取動作a的價值(即動作值函數Q(s,a))進行近似,可表示為

深度Q網絡通過Q-learning算法獲得神經網絡可學習的目標函數,即構建神經網絡可優化的損失函數L(θ)為

式中:θ為神經網絡的權重參數;QPredict為預測網絡輸出的預測Q值;QTarget為目標神經網絡輸出的目標Q值。

QPredict可表示為

式中:θi為智能體i的預測神經網絡權重參數;st為t時段的IES環境狀態,即各園區內的光伏設備出力、儲能電池的荷電狀態及熱、電負荷需求;at為預測神經網絡根據t時段的狀態從動作空間A中選取的調度動作。當IES執行動作at時,獲得獎勵rt,同時系統進入下一時段的環境狀態。

QTarget可表示為

在獲得損失函數后,采用自適應矩估計算法Adam(adaptive moment estimation)對神經網絡損失函數模型L(θ)的權重參數θ進行求解,并將更新后的權重參數θ復制給預測神經網絡。經過固定輪次迭代后,將預測神經網絡的相關參數復制給目標網絡,保持一段時間內目標Q值不變,降低預測Q值和目標Q值的相關性,提高算法穩定性。

深度Q網絡算法具有獨特的經驗池回放機制,在進行每步循環操作時會將神經網絡和微能源網環境交互得到的樣本數據(即當前狀態、當前選取動作、當前動作獲得獎勵、下一時刻狀態及布爾值)存儲于經驗池中。當需要對預測網絡和目標網絡訓練時,從經驗池中隨機抽取小批量的歷史經驗樣本數據來對神經網絡參數進行訓練。

每個經驗樣本以(st,at,rt,st+1,done)5元組的形式存儲到經驗池中,其中done為布爾值類型,表示新的狀態st+1是否為終止狀態。微能源網環境每執行1步后,需要把執行該步所獲得的經驗信息存儲于經驗池。在執行數步后,從經驗池中隨機抽小批量經驗樣本數據,輸入到預測網絡和目標網絡中。基于抽樣的經驗樣本數據執行式(25),對預測網絡和目標網絡中的參數θ、進行更新。預測網絡和目標網絡的具體更新訓練流程如圖5所示。

圖5 基于數據驅動的智能體神經網絡參數訓練過程Fig.5 Data-driven parameter training process of agent neural network

4 實驗驗證與分析

4.1 設備參數

為了驗證所提基于DRL的分布式園區IES調度策略的有效性,本文以圖1所示的分布式園區IES為算例進行仿真。本文設定分布式園區數量為3,各園區配有光伏設備、儲能電池、燃氣輪機和燃氣鍋爐等設備參數見表1。實時電價為某小型產業園區實際電價數據,天然氣價格固定為0.4¥/(kW·h)。仿真基于Python實現算法編寫,計算機配置為CPU Intel Core i5、內存8 GB。

表1 微能源網系統設備相關參數Tab.1 Related equipment parameters of micro energy grid system

4.2 訓練數據與多智能體網絡超參數設置

本文設計的各智能體在應用于IES前,需要先通過歷史數據對其神經網絡進行訓練,以得到適配于IES環境的網絡參數。訓練采用的歷史數據為某工業園區1月—12月每15 min變動1次的實際光伏設備出力和電、熱負荷需求,部分歷史樣本數據如圖6所示。

圖6 智能體訓練樣本數據Fig.6 Agent training sample data

以1月1日00:00為起始,智能體接收來自IES環境的狀態信息,然后根據第3節所述的學習過程進行循環迭代,更新神經網絡參數,直至訓練結束。訓練時采用的電價數據如圖7所示。

圖7 各時段能源價格曲線Fig.7 Energy price curves in each period

經過多次嘗試,本文設定多智能體DRL中經驗回放的樣本存儲量為480 000,每次小批量采樣規模為32,初始探索率為0.1,最終探索率為0.001,探索步數為1 600 000,學習率為0.01,每訓練10次更新一次神經網絡網絡參數。

4.3 智能體實時調度訓練

本文所提各分布式園區內的智能體的神經網絡結構相同,兩層分別有256、128個神經元。在這種神經網絡結構下進行訓練時,加入懲罰項對智能體所學策略進行約束。

通過歷史數據對智能體神經網絡參數進行迭代更新,當固定間隔達到10 000步時,在訓練用數據外,采取1組隨機光伏設備出力和電、熱負荷需求數據為測試集。通過觀察智能體在測試集數據上進行實時調度的平均獎勵,分析其是否已經學會合理、有效的調度策略,平均獎勵的計算公式為

式中:N為調度天數;為在調度天數內各智能體神經網絡對測試集進行調度所獲得的平均獎勵總和。通過觀察平均獎勵的變化,可以對智能體的學習情況進行了解,其平均獎勵變化過程如圖8所示。

圖8 IES平均獎勵總和收斂曲線Fig.8 Convergence curve of sum of average rewards for IES

從平均獎勵總和的變化曲線可以看出,園區智能體平均獎勵總和在迭代約1 500 000次時趨于穩定,此時可以認為各園區內智能體已學會有效的調度策略。

4.4 結果分析對比

在上述各園區內智能體訓練完畢的基礎上,采用訓練樣本外某一日內隨機的光伏設備出力和電、熱負荷需求數據進行IES的優化調度,得到基于多智能體DRL調度決策下的IES穩定運行的目標成本約為1 120¥。該日各園區內能源轉換設備的狀態變化如圖9所示??梢钥闯觯悄荏w最終學會的策略使得園區內各設備狀態每15 min變動1次,園區內各設備出力在容許范圍內,而且儲能設備不會采取過度充放電的越限動作,最終會回到調度周期初始的電池荷電狀態附近,IES可持續穩定運行。

圖9 各園區能源轉換設備狀態變化Fig.9 State changes of energy conversion equipment in each park

在本文所提數學模型的基礎上,采用遺傳算法對分布式園區IES經濟調度問題進行求解,獲得的目標成本約為1 255¥。此外,本文還采用了重擬線性化技術RLT(reformulation linearization technique)技術對所提出的框架進行處理,并通過CPLEX求解獲得的目標成本約為1 309¥,具體計算方法見附錄A。

不同方法下調度結果對比如表2所示。因為遺傳算法相較于多智能體DRL算法在IES調度問題中存在更多的棄光行為,光伏消納程度較低。而經RLT處理后進行求解的方法相較于多智能體DRL算法,其無法顧及模型中的非線性關系。因此,相較其他兩種方法,基于多智能體的DRL算法對IES進行調度的結果更優,驗證了所提方法在促進各園區內的光伏消納的同時,提高了IES經濟運行的有效性。

表2 不同方法下調度結果對比Tab.2 Comparison of scheduling results among different methods

5 結語

本文以分布式園區IES為研究對象,提出一種基于多智能體DRL的多能源協調互補優化調度方法,以最優經濟運行為目標,用于IES下的能量優化調度。本文基于多智能體DRL的優化調度方法,將IES的動態調度問題即隨機序貫決策問題轉變為馬爾可夫決策過程,用實時獎勵函數和懲罰函數代替目標函數和約束條件,利用神經網絡與環境互動,尋找系統內的最優調度策略,實現了綜合能源網系統中的多能源協調互補優化,有效地避免了傳統調度方式中無法實時響應源荷隨機變動的問題。最后,通過仿真實驗將訓練后的智能體用于測試集數據進行調度決策,并將其獲得的目標成本和經由傳統調度方法求解獲得的目標成本進行比較,驗證了所提算法的有效性。

本文在實現分布式園區IES協調優化調度時,對于園區間的交互機制及系統內部市場等方面仍然有不足之處。因此后續將繼續研究如何構建合理、有效的園區交互市場。

猜你喜歡
動作智能
下一個動作
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
動作描寫要具體
畫動作
讓動作“活”起來
主站蜘蛛池模板: 国产精品女主播| 亚洲swag精品自拍一区| 婷婷亚洲最大| 亚洲狼网站狼狼鲁亚洲下载| 91福利在线观看视频| 99福利视频导航| 99久久精品视香蕉蕉| 丝袜美女被出水视频一区| 久草热视频在线| 国产91丝袜在线观看| 亚洲欧美日韩成人高清在线一区| 亚洲视频无码| 国产成人91精品免费网址在线| 亚洲精品少妇熟女| 乱码国产乱码精品精在线播放| 国产成人久久综合777777麻豆| 亚洲中文字幕无码爆乳| 午夜视频免费试看| 91香蕉国产亚洲一二三区| 新SSS无码手机在线观看| 四虎影视无码永久免费观看| 国产菊爆视频在线观看| 波多野结衣视频网站| 国产成人无码AV在线播放动漫| 精品国产香蕉在线播出| 精品国产aⅴ一区二区三区| 国产日本一线在线观看免费| 无码内射中文字幕岛国片| 国产精品免费露脸视频| 亚洲精品777| 欧美综合成人| 国产第四页| 国产天天射| 欧美午夜理伦三级在线观看| 亚洲色图欧美一区| 一级成人欧美一区在线观看 | 日韩高清一区 | 精品午夜国产福利观看| 国产av一码二码三码无码 | 黄色在线不卡| 99精品影院| 一级毛片基地| 无码人妻免费| 999国产精品| 国产91成人| 色婷婷电影网| 亚洲中文字幕无码爆乳| 亚洲黄色视频在线观看一区| 热思思久久免费视频| 强乱中文字幕在线播放不卡| 国产女人18水真多毛片18精品 | 欧美日韩一区二区三区在线视频| 小说 亚洲 无码 精品| 国产综合在线观看视频| 日韩毛片免费视频| 国产成人无码AV在线播放动漫 | 91久久青青草原精品国产| 国内精品小视频福利网址| 国产精品久久久久久久伊一| 亚洲精品不卡午夜精品| 免费毛片全部不收费的| 四虎成人精品| 久久人搡人人玩人妻精品一| 午夜无码一区二区三区在线app| 91小视频版在线观看www| 亚洲成人一区二区| 免费在线色| 国产波多野结衣中文在线播放| 高清欧美性猛交XXXX黑人猛交| 国产91小视频在线观看| 亚洲看片网| 72种姿势欧美久久久大黄蕉| 国产精品亚洲片在线va| 日韩欧美国产另类| 久久久久无码精品| 青青国产视频| 国内精品九九久久久精品| 成人在线观看不卡| 成人第一页| 亚洲天堂成人| 九色最新网址| 国产区成人精品视频|