999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度確定性策略梯度的電-氣綜合能源 微網優化調度研究

2022-03-25 08:50:30謝啟躍應雨龍
熱力發電 2022年3期
關鍵詞:優化設備

謝啟躍,應雨龍

(上海電力大學能源與機械工程學院,上海 200090)

化石能源的長期使用加劇了環境的惡化,為了緩解能源需求增長與環境保護之間的矛盾,新能源的發展受到越來越多的重視。世界各國對間歇性可再生能源進行了開發利用,如風力發電、光伏發電等[1-2]。這些間歇性可再生能源具有綠色清潔的優點,但無法跟傳統能源一樣,持續穩定地輸出能量。因此,考慮將傳統能源與新能源相結合,多種能源進行融合互補、協同優化,構建綜合能源系統成為當務之急。

綜合能源系統的運行優化是綜合能源系統領域研究的重點之一。文獻[3]采用非支配排序遺傳算法-Ⅲ對工業園區的綜合能源系統進行運行規劃。文獻[4]采用線性規劃的方法,實現太陽能協助熱電聯供設備運行。文獻[5]提出一種多目標鯨魚優化算法,對含大規??稍偕茉吹膮^域綜合能源系統進行優化調度。文獻[6]采用混合整數線性規劃的方式靈活調度可再生能源。文獻[7]提出一種結合多目標粒子群算法和灰色關聯分析的方法,該方法使冷熱電聯產設備的能源調度方案合理有效。隨著能源種類和能源設備數量的增加,綜合能源系統建模和求解難度越來越大,傳統方法的控制方案容易陷入局部最優或維數災難,因此,考慮采用基于強化學習方法的綜合能源系統控制方案。

強化學習方法興起于游戲領域,通過試錯和學習的方式與環境進行交互,在互動的過程形成最優決策,并以此獲取游戲高分[8]。強化學習方法在控制方面可以取得較好效果,因此引起很多學者的關注,目前已有學者將其應用于能源領域。文獻[9]用行動者和評估者架構的強化學習方法來控制自動發電。文獻[10]用深度強化學習的方法來增強配電系統的魯棒性。文獻[11]用深度Q網絡(DQN)方法使電熱系統運行合理有效。文獻[12]運用A3C算法和Gurobi算法來優化調度水氫一體化能源系統。文獻[13]采用深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法研究住宅多能源系統的能源管理策略,該方法所采用的能源模型構建方案和智能體相關定義較為復雜,導致應用到不同綜合能源場景的泛化能力較弱。

目前,將具有連續動作控制的深度強化學習方法應用于綜合能源微網的研究較少。本文以存在間歇性風力發電以及電、熱儲能設備等的電-氣綜合能源微網為研究對象,通過能源樞紐理論建模,將優化調度問題轉化為基于DDPG算法的綜合能源微網運行優化,最后通過算例驗證本文建立的模型和優化方法的有效性。

1 電-氣綜合能源微網

1.1 綜合能源微網數學建模

根據能源樞紐的理論,對電-氣綜合能源微網(圖1)進行建模。該系統包含熱電聯產(CHP)、輔助鍋爐(AB)、熱儲能、風力發電機、電儲能等常見能源轉換設備和儲能設備。

圖1 電-氣綜合能源微網 Fig.1 The electricity-gas integrated energy microgrid

綜合能源微網在能源樞紐理論中可視為雙端口網絡[14]。從天然氣、主電網等各種能源輸入,經過多種能源轉換設備和儲能設備,最后實現熱、電等各種能量的輸出。這一過程可表示為:

展開則為:

式中:E為能源樞紐中多種能量輸出;P為能源樞紐中多種能源輸入;C為能源樞紐中各種能源設備的轉換特性。

因此,圖1所示的模型可表示為:

式中:Ee為用戶端的電需求;Eh為用戶端的熱需求;ηt為變壓器的效率;v1為天然氣的調度因子;ηe為CHP的產電效率;ηg為CHP的產熱效率;ηAB為輔助鍋爐的產熱效率;Pe為主電網、風力發電輸入的電功率;Pg為天然氣的供應量;ηE為電儲能的充放電效率;ηT為熱儲能的充放熱效率;PE為電儲能的充放電功率;PT為熱儲能的充放電功率。

1.2 目標函數

綜合能源微網優化調度的最終目的是實現運行成本最優化,因此目標函數為:

式中:T為綜合能源微網運行的總時間;Pe,in(t)為t時刻向主電網購入的電量;λe(t)為t時刻的電價;Pe,out(t)為t時刻綜合能源微網向主電網銷售的電量;Pg(t)為t時刻所需的天然氣量;λg(t)為t時刻的天然氣價格;λE(t)為t時刻電儲能裝置的充放電價格;λT(t)為t時刻熱儲能裝置的充放熱量價格。

1.3 約束條件

1)風力發電機的約束

風力發電機的發電功率由風速決定[15]。其每小時的發電功率為:

式中:PWT為風力發電機的額定發電功率;ω(t)為t時刻的風速;ω1、ω2、ω3均為不同的風速;a、b為對應風速下的計算系數。

2)電儲能的約束

為保證電儲能設備安全可靠運行,電儲能設備的容量有限定范圍,該限定范圍可表示為:

式中:Emax,SOC為電儲能的最大荷電狀態;Emin,SOC為電儲能的最小荷電狀態;Emax為電儲能理論最大容量,但電儲能設備的實際容量只能達到電儲能最大荷電狀態Emax,SOC時的容量;E(t)為t時刻電儲能的能量。

電儲能設備在t時刻的荷電狀態為:

式中:ESOC(t)為電儲能設備的荷電狀態。

電儲能充放能量同樣有一定限制,可表示為:

式中:v2為電儲能的調度因子;ESOC(t-1)為電儲能設備在上一時刻t-1的荷電狀態。

電儲能設備在t時刻的能量E(t)可表示為:

式中:Ploss,E為電儲能設備每小時的能量流失值;E(0)為電儲能設備初始能量;E0,SOC為電儲能設備的初始荷電狀態。

Ploss,E可表示為:

式中:aloss,E為電儲能的流失系數。

3)熱儲能的約束

熱儲能設備必須在容量限定的范圍內工作,可表示為:

式中:Tmax,SOC為熱儲能的最大荷電狀態;Tmin,SOC為熱儲能的最小荷電狀態;Tmax為熱儲能理論最大容量,但熱儲能設備的實際容量只能達到熱儲能最大荷電狀態Tmax,SOC時的容量;T(t)為t時刻熱儲能的能量。

熱儲能設備在t時刻的荷電狀態為:

熱儲能的充放能量為:

式中:v3為熱儲能的調度因子;TSOC(t-1)為熱儲能設備在上一時刻t-1的荷電狀態。

熱儲能設備在t時刻的熱儲能能量T(t)為:

式中:Ploss,T為熱儲能的每小時能量流失值;T(0)為熱儲能設備的初始能量;T0,SOC為熱儲能設備的初始荷電狀態。

Ploss,T可表示為:

式中:αloss,T為熱儲能的流失系數。

4)CHP的約束

CHP的發電和產熱約束為:

式中:Pmin,e、Pmax,e分別為CHP產電功率的下限和上限;Pmin,h、Pmax,h分別為CHP產熱功率的下限和上限。

5)AB的約束

AB的產熱約束為:

式中:Pmin,AB、Pmax,AB分別為AB產熱功率的下限和上限。

6)調度因子

調度因子的取值范圍為:

式中:vi表示不同能源分配的調度因子。對天然氣調度因子v1進行補充說明,當v1≥0時,為天然氣分配給CHP的比例;當v1<0時,負號僅表示為天然氣分配給AB的比例,實際天然氣分配給CHP的比例為v1=1-|v1|。

7)綜合能源微網的電、熱供需約束

綜合能源微網的電、熱供需約束為:

式中:Pe,CHP(t)為CHP在t時刻的發電量;Ph,CHP(t)為CHP在t時刻的產熱量;Ph,AB(t)為AB在t時刻的產熱量。

2 深度確定性策略梯度優化調度方法

2.1 優化調度問題轉換為強化學習形式

強化學習的原理為馬爾可夫決策過程,即當前時刻所處的狀態,只與上一時刻的狀態有關[16]。綜合能源微網優化調度的策略可以轉化為馬爾可夫決策過程,通過強化學習的方法來解決綜合能源微網優化調度問題。

強化學習最主要的兩個部分是智能體和環境。環境指智能體在執行動作時所處場景,本文環境為電-氣綜合能源微網。智能體接收綜合能源微網返回的當前狀態s和獎勵r,通過策略進行判斷,選擇下一個執行動作a,并由獎勵來更新其策略,由動作值函數來評估動作的執行效果。假設在開始s0=s,動作a0=a,智能體執行動作,完成并得到累計獎勵期望值,動作值函數可以表示為:

式中:m為迭代次數;M為最大迭代次數;γ∈[0, 1],為折扣因子,折扣因子的取值會影響未來獎勵的獲?。籸m為第m次動作執行后得到的獎勵;Eπ(·)為對策略π求期望。

綜合能源微網的最終目標是實現調度成本最優化,強化學習與其目的一致,就是通過最優策略來實現動作值函數的最大化,可表示為:

綜合能源微網的狀態設置為每小時電價、每小時天然氣價格、每小時風力發電產生的電能、用戶的電需求、用戶的熱需求、儲能設備充放能價格、電儲能設備的能量、熱儲能設備的能量,可表示為:

式中:λSE(t)=λE(t)=λT(t),即所有儲能設備的充放能價格相等。

在強化學習中,智能體最終目的是得到最大化的獎勵,而本文是為了獲得電-氣綜合能源微網的最優調度成本。因此,智能體每小時獲得的獎勵可以表示為:

式中:1/100是對成本進行縮放,保證單位統一。

作為環境的綜合能源微網,將狀態和獎勵返回給智能體,智能體根據策略選擇動作,執行的動作使綜合能源微網合理有效運行。本文將動作設置為天然氣的調度因子、電儲能的調度因子、熱儲能的調度因子,可表示為:

2.2 深度確定性策略梯度算法應用及流程

DDPG算法基于行動者和評判者架構,是在DQN算法的基礎上進行改良,在涉及連續控制方面的問題上取得不錯的效果。綜合能源微網在實際運行過程中,系統的輸入和輸出都是連續量,若將輸入和輸出離散化,則部分信息會丟失,對實現調度最優化的目標產生影響。因此,綜合能源微網的輸入,即狀態,可以用深度神經網絡(DNN)進行擬合,從而實現輸入輸出連續化,實現綜合能源微網優化調度的目的。

DDPG算法的架構是由4個全連接神經網絡構成,分別為行動者網絡θπ、評判者網絡θQ、行動者目標網絡θπ'、評判者目標網絡θQ'。π'為行動者目標網絡的策略,Q'為評判者目標網絡的Q值。

評判者網絡的訓練是由最小化損失函數進行更新,可表示為:

式中:K為統計累計獎勵的次數。

yi為評價者網絡的Q值,可表示為:

行動者網絡是通過策略梯度更新來實現,表示為:

式中:?為計算梯度的函數。

在DDPG算法中,給動作添加隨機噪聲,提高智能體的探索能力,從而尋找更優的動作,實現調度最優化,可表示為:

式中:ε為隨機噪聲。

目標網絡的更新是以軟更新的形式進行,表示為:

式中:τ為軟更新參數,取值遠小于1。

DDPG算法的流程如圖2所示。

圖2 DDPG算法流程 Fig.2 Flow chart of the DDPG algorithm

3 算例仿真與結果分析

為評價本文DDPG算法的有效性,選用圖1所示的電-氣綜合能源微網,數據來源于文獻[15]。該算例是典型的電-氣綜合能源微網,系統各設備特性參數見表1,其他參數見表2。用戶的日負荷數據如圖3所示,實時電價和天然氣價格如圖4所示。實時風速如圖5所示。

圖5 實時風速 Fig.5 The real-time wind speed

表1 電-氣綜合能源微網系統各設備特性參數 Tab.1 Characteristic parameters of each energy equipment in the electric-gas integrated energy microgrid

表2 電-氣綜合能源微網系統其他參數 Tab.2 Other parameters of the electricity-gas integrated energy microgrid system

圖3 用戶日負荷數據 Fig.3 User load data of the typical day

3.1 DDPG算法參數設置

DDPG算法中,行動者網絡、目標行動者網絡、評估者網絡、目標評估者網絡均為含2層隱藏層的全連接神經網絡,每層設置為24個神經元,所有隱藏層的激活函數均為relu。折扣因子γ設置為0.99,K設置為32,評估者網絡的學習率設置為0.001,行動者網絡的學習率設置為0.000 1,目標更新參數τ設置為0.001,迭代總次數M設置為200,調度周期T設置為24。然后以tensorflow為框架,用Python語言進行編程。計算機的硬件條件為Core i5-6300hq、2.30 GHz。

3.2 優化調度算法對比分析

為驗證DDPG算法在電-氣綜合能源微網的運行效果,本文采用模擬退火算法(SA)和DQN算法與之進行對比。圖6為3種算法優化調度策略。由圖6可見:在供電方面,跟其他2種算法相比,DDPG算法學習到天然氣價格便宜且穩定,在主電網和風力發電提供電能的基礎上,DDPG算法控制CHP在額定功率狀態下運行,由于電量供應充足,電儲能裝置處于高荷電狀態,可以有效預防突發供電事故;在供熱方面,由于DDPG算法控制CHP在額定功率狀態下運行,AB所需天然氣量相比其他2種算法少,但都滿足實際運行需要;在熱儲能設備方面,3種算法的熱儲能設備的出力和儲能策略均不同,但都在綜合能源微網約束下有效運行,在系統供熱不足時及時提供熱能,系統供熱過多時及時儲存熱能,符合實際生產需要;在售電方面,SA算法僅在第6、7 h進行售電,而其他2種強化學 習算法通過各自的最優策略學習方法,不僅在第6、7 h進行售電,在第10 h也進行售電,從而更好地降低系統運行成本,達到優化調度的目的。

表3為電-氣綜合能源微網優化調度成本對比。表3中,SA算法不需要訓練,因此沒有訓練時間;DQN算法訓練時間過長,訓練時間不統計。從表3可以看出,本文采用的DDPG算法效果最好。在運行成本方面,DDPG算法在3種算法中優化調度成本最低,若該方法運行時間較長,則綜合能源微網的經濟效益將得到更大提升。在訓練時間方面,DQN算法學習效率低,需要的訓練時間過長,不利于實際應用,DDPG算法學習效率高,更符合實際生產需要。在測試時間方面,2種強化學習方法的耗時短,均能在較短時間內對電-氣綜合能源微網進行合理有效地調度,而SA算法耗時長,且容易陷入局部最優解,在實際應用場景有很大的局限性。DQN算法的動作值為離散值,因此無法得到最佳動作值,而DDPG算法能夠輸出連續的動作值,不僅更有可能得出最佳動作值,而且符合實際運行場景。綜上所述,本文提出的DDPG算法為3種算法中最有效的電-氣綜合能源微網運行調度策略。

表3 電-氣綜合能源微網優化調度成本對比 Tab.3 Comparison of optimal dispatch cost of the electricity-gas integrated energy microgrid

4 結 語

本文提出了基于DDPG算法的電-氣綜合能源微網優化調度方法,從運行成本最優化的目標函數出發,采用DDPG算法,輸出連續最優調度因子,實現合理有效的優化調度策略,避免了因調度因子離散化而可能出現的維數災難或次優化調度策略。該方法與其他方法相比,能源設備的出力情況更加合理有效,更具有實際應用價值,符合綜合能源微網的節能降本要求。

另外,本文提出的基于DDPG算法的電-氣綜合能源微網優化調度方法簡單、實用,能根據不同綜合能源的實際運行場景,對矩陣進行縮放,合理定義作為智能體動作的調度因子、系統的狀態和獎勵,通過對智能體進行訓練,可以快速實現基于DDPG算法的綜合能源優化調度方案。因此,可為能源互聯網優化調度策略提供參考借鑒。

猜你喜歡
優化設備
諧響應分析在設備減振中的應用
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
基于VB6.0+Access2010開發的設備管理信息系統
基于MPU6050簡單控制設備
電子制作(2018年11期)2018-08-04 03:26:08
500kV輸變電設備運行維護探討
工業設計(2016年12期)2016-04-16 02:52:00
如何在設備采購中節省成本
主站蜘蛛池模板: 国产午夜一级淫片| 欧美一区二区三区欧美日韩亚洲 | 国产成人1024精品| 国产特级毛片aaaaaaa高清| 中文字幕在线永久在线视频2020| 欧美性猛交xxxx乱大交极品| 超碰91免费人妻| 国产亚洲精品va在线| 曰韩人妻一区二区三区| 不卡午夜视频| 亚洲第一极品精品无码| 青青青视频免费一区二区| 亚洲免费毛片| 亚洲成人动漫在线观看| 久久男人视频| 韩日无码在线不卡| 亚洲妓女综合网995久久 | 免费jizz在线播放| 欧美日韩动态图| 色噜噜综合网| 国产激情无码一区二区APP| 在线观看无码a∨| 狠狠综合久久| 亚洲色大成网站www国产| 欧美伊人色综合久久天天| 2021最新国产精品网站| 亚洲一区无码在线| 亚洲一级毛片免费观看| 国产一级特黄aa级特黄裸毛片| 亚洲一欧洲中文字幕在线| 国产成人精品免费av| 在线观看91精品国产剧情免费| www.youjizz.com久久| 无码又爽又刺激的高潮视频| 国产亚洲精品自在久久不卡| 国产精品视频第一专区| 91久久夜色精品| 国内精自视频品线一二区| 亚洲精品卡2卡3卡4卡5卡区| 手机在线国产精品| 伊人天堂网| 亚洲无码高清免费视频亚洲| 国产香蕉在线视频| 色综合激情网| 69av免费视频| 色综合久久综合网| 国产成人久久综合777777麻豆| 呦女亚洲一区精品| 激情午夜婷婷| 午夜天堂视频| 国产亚洲精品无码专| 国产成熟女人性满足视频| aa级毛片毛片免费观看久| 91蜜芽尤物福利在线观看| 国产在线观看一区精品| 91亚洲视频下载| 草逼视频国产| 国产成人av一区二区三区| 久青草免费在线视频| 亚洲永久色| jizz在线免费播放| 亚洲成人免费看| 四虎永久在线| 日本午夜三级| 激情在线网| 亚洲色图欧美在线| 国产成人麻豆精品| 国产精品大尺度尺度视频| 性69交片免费看| 国产福利微拍精品一区二区| 中文字幕 欧美日韩| 国产另类乱子伦精品免费女| 亚洲精品天堂自在久久77| 亚洲黄色成人| 亚洲综合香蕉| 国产99欧美精品久久精品久久| 国产欧美在线| 国产一区二区福利| 国产精品真实对白精彩久久| 噜噜噜久久| 一区二区日韩国产精久久| 亚洲精品少妇熟女|