王亞東 黃云峰 李曉彤等
摘 要:針對用戶負載動態變化的離網微電網儲能調度問題,本文提出了一種基于強化學習的復合儲能微電網控制方法。首先構建了復合儲能的馬爾可夫決策模型。然后,根據微電網系統的復合儲能模型設計了獎勵函數,從而得到儲能調度策略。最后,分析了無預測量,加入預測量兩種場景下,強化學習調度策略性能,并驗證了該方法的有效性。
關鍵詞:復合儲能;微電網;強化學習;馬爾可夫決策模型
0 引 言
新能源發電的隨機性和不確定性給微電網儲能調度帶來了極大的困難,儲能可以有效的平抑微電網中可再生能源發電的隨機性和波動性,提高微電網的經濟效益,是微電網經濟調度的重要手段。
文獻[1]提供了一種基于遺傳算法的智能電網能量管理模糊學習方法。文獻[2]已經通過使用強化學習多代理系統的框架來控制微電網。和傳統的調度策略算法不同,強化學習算法是一種無模型調度方法,它不需要系統的先驗知識和模型,智能體與環境交互學習系統的模型,并通過最大化累計獎賞獲得最優控制策略。
本文針對微電網種的復合儲能,使用了強化學習方法來管理儲能,將電池的充放電狀態描述為馬爾可夫決策過程,利用智能體通過不斷與環境交互獲得最優的微電網復合儲能調度策略。
1 儲能微電網系統模型
1.1 微電網結構
本文研究的是微電網模型下復合儲能的調度問題。微電網主要由復合儲能元件和光伏元件組成,既可以解決分布式發電問題,同時提高了系統穩定性,提高了經濟效益。
1.2 復合儲能結構
儲能形式多種多樣,蓄電池是分布式電源中應用最為廣泛,技術最為成熟,容量也比較大,儲能過程比較穩定的儲能方式。超級電容器維護工作量小,可靠性高,充放電速度快,循環壽命長,但是超級電容器價格貴,容量小,不適用于長期儲能的情況。
根據蓄電池與超級電容器特點,這兩種儲能系統可以相互配合,同時應用,可以大規模應用到電力系統中,獲得更好的儲能效果與經濟效益。
2 基于強化學習的調度策略實現
2.1 深度卷積神經網絡
圖1為CNN神經網絡結構圖。卷積層處理時間序列,卷積的輸出以及其他輸入作為完全連接層的輸入,然后通過輸出層輸出Q值。
2.2 馬爾科夫決策模型建立描述
基于馬爾科夫決策過程,在每個時間步長上,智能體觀測量包含狀態、動作和獎勵函數。系統在當前狀態下采取動作并通過P函數轉移到下一狀態,即:
獎勵函數與狀態轉移函數相關聯,可用下列等式表示:
當智能體采用策略h時,累計回報在狀態處的期望值定義為狀態-動作值函數:
若已知,則最優策略可通過直接最大化來決定,即:
2.2.1 狀態集合
(1)負荷量,光伏發電量,電池電量3個狀態的場景:
(2)加入光伏預測發電量的場景:
2.2.2 動作空間
本文將動作空間劃分成3個數值,即。其中表示蓄電池充電,表示蓄電池放電,表示蓄電池保持閑置。
2.2.3 回報函數
回報函數是一種即時獎勵函數。當智能體對超級電容動作后,蓄電池的充放電狀態會相應變化。
獎勵函數示為:
指不能滿足凈電力需求的部分,當時。
式中:表示電池充電效率;表示電池放電效率。
年度運營收入:
要使得復合儲能微網控制效果最好,本文以年度運營收益最大值為目標。
3 仿真試驗和分析
圖2是典型日無光伏預測量信息的場景一,圖3是典型日加入光伏預測量信息的場景二,由圖可知,隨著智能體觀測量的增加,調度控制策略越好,收益相應越高??梢钥吹綀D3取得了最好的控制效果。
蓄電池年度存儲電量和微電網年度運營收入指標如下表。
電池電量表示超級電容電量變化的曲線,動作值表示蓄電池充放電動作,當光伏發電量大于負荷需求時,先由智能體控制器控制蓄電池進行充電,多余的電量儲存在超級電容中,以年度運行收益為目標,由智能體決策出蓄電池的控制策略。
參考文獻:
[1]Lauri,G.Basso,and J.Zhu,“Managing Power Flows in Microgrids Using Multi-Agent Reinforcement Learning,”Agent Technol. Energy Syst,2013.
[2]Changbin,L.Shanna,L.Zhengxi,W.Xin and L.Sun“Energy coordinative optimization of wind-storage-load microgrids based on short-term prediction,”Energies journal,vol.8, pp.1505-1528,April 2015.