999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進Q學習算法的儲能系統實時優化決策研究

2018-03-01 06:33:24鄭文迪
電氣技術 2018年2期
關鍵詞:動作系統

汪 波 鄭文迪

(福州大學電氣工程與自動化學院,福州 350116)

儲能系統具有平衡功率波動,對負荷曲線削峰填谷的優點,也可以提高分布式設備的利用率,節省分布式電源容量成本,還可以保持系統穩定[1-5]。中關村儲能產業技術聯盟發布的《儲能產業研究白皮書 2016》預測,到 2020年,理想情景下,我國儲能市場總裝機規模將達 24.2GW;常規情景下,我國儲能市場總裝機規模也將達到 14.5GW。隨著分布式能源近年來大規模接入電網,其作用更加重要,而儲能投資成本近年來也不斷下降,儲能產業將快速發展并推動能源變革。

目前,儲能系統的運行主要面臨兩個問題:①絕大部分的儲能系統控制策略都是將其作為輔助元件,被動的接收調度命令,如文獻[6]提出一種消納高滲透分布式光伏發電有功功率波動的集中式儲能電站實時調度方法。文獻[7]在孤島運行微電網能量優化管理中,不僅對分布式發電輸出功率進行優化分配,還根據模糊邏輯對蓄電池的充放電進行能量的調度。文獻[8]將蓄電池虛擬放電和充電價格計入群體尋優目標函數,結合協同進化遺傳算法,使用群體尋優目標函數和精英尋優目標函數尋求分階段經濟調度最優解。在這種情況下,當電力用戶和中間商都參與進來的時候,調度需要考慮太多因素,不滿足實時調度的實時性需求。②目前的儲能系統充放電策略優化算法有遺傳算法[9]、粒子群算法[10]、模擬退火算法[11]、動態規劃算法[12]等,這些方法都是針對負荷曲線為確定情況,而在實時調度期間,實時負荷功率與預測值有誤差,以上方法都需要重新計算策略,不滿足實時性需求。文獻[13]研究了儲能系統能量調度及需求響應聯合優化問題,對儲能單元動作及可延時負荷動作進行優化控制,但是其并沒有量化儲能系統的充放電數值,而且其采用的傳統Q學習算法,收斂速度較慢,需要調整好參數才能收斂。

本文使儲能系統以凈負荷功率曲線方差最小為目標,決策其每一實時調度周期的充放電功率值。提出了用全局最優懲罰項的方法來引導Q學習算法獲得一天的最優動作值,相比于傳統Q學習算法,收斂速度更快;用訓練好的Q值表指導儲能系統在實時調度周期做出最優充放電動作決策,在凈負荷功率預測不準確的情況下不需要重新迭代運算獲得最優動作值,從而滿足實時性要求。

1 優化模型

儲能系統擁有者不同,其目標函數也會不一樣,本文研究對象是電網投資建設的儲能系統,其目的是使凈負荷功率曲線更加平坦,而方差可以反映曲線的平坦程度,因此其目標函數為

式中,Pd(t)為負荷功率;Pact(t)為儲能系統吸收功率決策值,當Pact>0時,表示儲能系統吸收功率,當Pact<0時,表示儲能系統釋放功率,凈負荷功率為負荷功率加上儲能系統吸收功率決策值;為一天的負荷功率平均值;N為一天總的實時調度周期數,每一個實時調度周期時間間隔為1440/N分鐘;t為實時調度周期數。

儲能系統在致力于使目標函數最優時,自身限制和算法需要存在如下一些約束條件。

1)存儲電量約束

儲能系統能夠存儲的電量值是一定的,其最小值為Emin,最大值為Emax,即

儲能系統在循環充放電過程中,其存儲電量不能超過其限值,否則會損害其壽命。

2)末時段存儲電量約束

為了使儲能系統工作周期為一天持續進行,每天初始實時調度周期和末端實時調度周期的存儲電量需相等

這樣,儲能系統的充放電策略就不會影響一天的負荷功率平均值。當 t調度周期儲能系統存儲電量E(t)大于末時段要求E0時,假設一天中剩余調度周期可釋放功率的調度周期數為m1,如果

3)充放電動作約束

儲能系統受爬坡速率約束,其充放電動作值不能超過其充電功率最大值

如果負荷功率預測是準確的,那么大部分的尋優算法都可以得出儲能系統在一天的充放電最優值,但是實際情況下負荷預測是不準確的,提前一天的短時預測值與實時調度周期的實際值會存在誤差,而實時調度周期時間間隔短,無記憶功能的尋優算法在實時調度周期需要重新計算最優動作值,不滿足實時性要求。本文提出改進的Q學習算法,可以將訓練好的Q值表用于儲能系統在實時調度周期快速做充放電決策。

2 Q學習算法

2.1 傳統Q學習算法

Q學習算法適用于解決含不確定性的控制問題,且算法執行效率與模型的復雜程度相關性較小。Q學習算法基本形式為式中,k為迭代次數;Q(s(k), a(k))表示s(k)狀態采取a(k)動作后得到的Q值;α為學習率;R(k)為即時報酬;γ為遺忘因子,采取a(k)動作后得到s(k+1)狀態;Q(s(k+1),a)為 s(k+1)狀態采取所有可能動作 a后得到的所有Q值。

2.2 改進Q學習算法

傳統的Q學習算法需要調整學習率和遺忘因子兩個參數,其最優解的獲得是通過一定概率選取不同動作看是否使總收益增大,這種方法在迭代中可能得到較優的策略,但是也有可能得到較差的策略,具有較大的偶然性,學習速度慢,迭代次數較多,而且其參數的選取對得到最優值的迭代次數具有較大影響,當參數選取不合適甚至可能得不到最優解。

基于Q值表的記憶功能,本文提出去掉遺忘因子項,取0γ=,即得到的即時報酬只是反映單個狀態下采取單個動作可以獲得的報酬值,它們之間的關系是解耦的,用離線數據學習訓練后可以得到一個初始Q值表,再引入全局優化懲罰項Rc,基于訓練好的初始Q值表,用全局優化懲罰項引導算法收斂,獲得整個過程的最優動作策略,改進后的Q學習算法基本形式變為

3 儲能系統Q學習模型

3.1 全局優化懲罰項設計

由于本文所提改進算法是利用全局優化懲罰項來引導其收斂,所以改進算法的關鍵是設計好全局優化懲罰項。將改進算法應用到儲能系統,基于附錄A推導,考慮到儲能系統充放電功率大小有約束,并且充放電動作值采用的是離散值,本文提出懲罰判據項為

式中,Δ P (t) = P (t) + a (t) ?,M0為t0調度周期所d 在峰谷時段調度周期個數的一半;M1為(M0?t0)到(M0+t0)調度周期中 Δ P(t) > ΔP(t0)的調度周期個數;M2為(M0?t0)到(M0+t0)調度周期中 Δ P(t) < ΔP(t0)的調度周期個數。為儲能系統充電功率動作值最大值,為儲能系統充電功率動作值最小值,即放電功率最大值。

基于懲罰判據項,動作值為吸收功率時全局優化懲罰項為

3.2 狀態空間集合

儲能系統在進行充放電決策之前需要先判斷其所處狀態空間。將實時調度周期 t、實時負荷功率Pd(t)、峰谷時段負荷功率最值與平均值差值的絕對值、峰谷時段剩余所需負荷功率和儲能系統存儲能量值S作為描述系統狀態的狀態量。將C個調度周期作為一個狀態,一共有N/C個狀態。將一天負荷功率求得平均值,把負荷功率最與平均值的差值取M個區間,負荷功率區間長度ΔPd如下

將一天分為兩個峰時段和兩個谷時段,針對當前調度周期所在時段余下調度周期所需充電或放電的負荷功率,稱為剩余所需負荷功率,將其分為 X個狀態空間,剩余所需負荷功率這個狀態量在所需負荷較小時,可以使得儲能系統做出較大充放電動作值決策,而當剩余所需負荷功率較多時,該狀態量作用很小;再將當前調度周期所在峰谷區段的最值與一天的平均值之差的絕對值分為Y個狀態;儲能系統存儲的能量分為Z個狀態區間。這樣系統總共有 N×M×X×Y×Z/C個狀態。

3.3 動作策略的選取

1)動作策略集合

Q學習算法只能采用離散的動作值,因此本文將儲能系統充放電功率值動作值離散為如下(2h+1)個固定值

2)動作選擇概率

在迭代時各動作的選擇采用貪婪策略,貪婪策

3)動作越限懲罰

式中,Qc為懲罰值,其值取較大,這樣就可以使s(k)狀態不再選擇動作Pact(k)。

3.4 即時報酬

在Q學習算法中,即時報酬應該為正數,且總的報酬值越大越好,因此將式(1)右邊拆開后可以得到

將式(4)求和符號里面的項作為儲能系統在每一調度周期充放電動作的即時報酬,為使每一天的報酬值有關聯性,每一項都除以每天負荷功率最大值與最小值差的平方,可以得到即時報酬函數如下

3.5 狀態量實時修正

Q學習算法是根據狀態來做出動作策略的,而負荷功率實際值與預測值存在誤差,得到的狀態與實際所處狀態有偏差,在實時調度周期對描述狀態的量進行實時修正,可以使動作策略更準確。由于實時調度周期和儲能系統存儲能量值這兩個狀態量與負荷功率預測不準確沒有關系,峰谷時段剩余所需負荷功率只與后面調度周期負荷預測值有關,所以只需要實時修正負荷功率平均值和峰谷時段負荷功率的最值。實時調度周期的負荷功率平均值修正方法如下

由于考慮到最值和當前峰谷時段取值關系更大,所以將最值預測值直接加上當前時段誤差平均值,得到最小值修正方法如下

式中,Pmin為當前峰谷時段負荷功率預測值最小值;

d n為該谷時段已經出現的實時調度周期數;i為該谷時段初始調度周期。最大值修正方法與最小值相類似,不再贅述。

3.6 模型求解

基于上文內容,得到整個模型的求解流程如下:

1)初始化各參數值,在學習之前 Q值表中的值取零。

2)初始學習階段,保持Rc(k)=0,取η=0,即各動作被選擇的概率相同,經式(3)用負荷功率離線數據訓練,獲得儲能系統在各狀態解耦情況采取不同充放電動作的即時報酬,得到初始Q值表Q1,該階段并沒有進行優化迭代,只是為了得到各狀態情況下所有動作策略的即時報酬。

3)獲得初始 Q值表后,引入全局優化懲罰項Rc,取η=1,即采用完全貪婪策略,經式(3)和k初始Q值表進行策略的優化迭代,使用離線數據學習得到Q值表Q2。

4)在實時調度周期,儲能系統實時修正狀態量并判定其所處狀態,取η=1,基于訓練好的Q值表Q2,采用完全貪婪策略獲得其最優充放電動作策略。

4 算例分析

負荷功率數據采用福建省某地區6個月小時級數據,其預測值由小時級氣象數據經神經網絡擬合得到。因為要應用到實時調度周期,取N=288,C=3,將負荷功率實際值用 spline函數擬合,預測值用線性插值法擬合分別得到 5min的負荷功率實際值和預測值,選取一天出來作為驗證負荷。

本文設定有3種模型,這3種模型的目標函數、約束條件、狀態空間、動作集合和即時報酬函數都一樣,不同點如下。

1)模型Ⅰ

采用傳統Q學習算法,取α=0.5,γ=0.8,η= 0 .5,負荷功率為已知值,即實際值與預測值一樣,使用式(1)迭代尋優,迭代200次,獲得儲能系統一天內各調度周期充放電功率最優決策值,所有運算都是離線運算。

2)模型Ⅱ

采用本文所提方法尋優,取 α = 0 .5,完成初始學習階段得到初始Q值表Q1,負荷功率為已知值,即實際值與預測值一樣,使用式(3)優化迭代,迭代200次,獲得儲能系統一天內各調度周期充放電決策值,所有運算為離線運算。

3)模型Ⅲ

采用本文所提方法尋優,取α=0.5,完成初始學習階段得到初始Q值表Q1,并使用式(3)用離線數據訓練學習得到Q值表Q2,在實時調度周期實時修正其狀態量,并基于Q2用完全貪婪策略在線得出最優充放電決策。得到3種模型的凈負荷功率曲線,如圖1所示。

圖1 凈負荷曲線

圖1 (a)中實線為模型Ⅰ得到的凈負荷功率值,虛線為負荷功率實際值;圖1(b)中實線為模型Ⅱ得到的凈負荷功率值,虛線為負荷功率實際值;圖1(c)中不帶加號實線為模型Ⅲ得到的凈負荷功率值,虛線為負荷功率實際值,帶加號實線為負荷功率預測值。

3種模型凈負荷功率曲線方差見表1。

表1 三種模型凈負荷功率曲線方差

由表1可以看出,模型Ⅱ削峰填谷效果最好,模型Ⅲ次之,模型Ⅰ最差。模型Ⅰ采用傳統Q學習算法迭代得到儲能系統最好充放電策略,由圖1(a)可以看出,雖然具有一定削峰填谷效果,但是充放電動作值連續性較差,變化幅度較大,與理想最優策略相差較大,還需要進一步的迭代以及參數的調整。模型Ⅱ采用本文所提的尋優方法,得到的削峰填谷效果很好,并且相同條件下迭代完成后得到的動作策略是一樣的,而模型Ⅰ每次迭代完成后得到的結果是不一樣的。模型Ⅲ第一個谷時段和峰時段得到的凈負荷功率曲線已接近模型Ⅱ,這是因為當剩余負荷功率相對于儲能系統可用充放電功率較大時,其充放電動作的選擇與該時段的最值以及當前調度周期的負荷功率相關性較大,而在該峰谷時段內,預測值與實際值誤差都為正或者都為負,最值的修正較為準確,得到的充放電動作決策也會較為準確。對于第二個谷時段,負荷功率預測值與實際值誤差正負號多次變化,最值的修正誤差較大,狀態判斷不夠準確,得到的動作策略與模型Ⅱ動作策略差距較大,而在第一個谷時段和第二個峰時段也有負荷功率預測值與實際值誤差正負不一致情況,但出現的時間在峰谷時段后半段,對最值的修正影響不大,所以其動作策略與模型Ⅱ動作策略相差不大。

5 結論

本文基于Q值表的記憶功能,提出改進的Q學習算法,去掉了遺忘因子,將不同狀態下即時報酬之間的關系解耦,用全局最優懲罰項引導算法收斂,使儲能系統獲得一天的最優充放電動作決策,這種方法是基于初始Q值表對各種狀態情況下采取不同動作的即時報酬有了認識以后才進行的,相比于傳統Q學習算法,其收斂速度更快,準確性更高,迭代完成后的結果具有惟一性。而且,Q值表具有記憶功能,在實時調度周期不需要因為負荷功率預測值不準確而重新進行迭代尋優,只需修正并判斷其當前所處狀態,基于訓練好的Q值表使用貪婪策略可快速獲得當前狀態最優動作值。但是這種方法需要較大的內存存儲Q值表中的數值,后續工作可以考慮如何減少狀態總數,從而減少Q值表中的值,以避免維數過大。

附錄A

目標函數為

所以,此時當a≤c時,只需要b=0和d=b+d,當a>c時,只需要b=b+d和d=0,那么(a ? b )2+(c ? d )2可以獲得最小值。只有當a≤c時,t0調度周期需要減少充電動作值,此時c ? a> b + d 可以得到c?d>a+b≥a?b,即有c ? d> a ? b ,此時t0調度周期充電動作值b應該減小b。

當|a ? c | ≤b + d 時,

2)同時釋放功率

此時 a <0 , b ≤ 0 , c <0 , d ≤ 0 ,且a、c和(b + d)為定值,且a + c ≤ b + d 。

若|a ? c | ≤|b + d|,有

所以,當a≤c時,只需要b=0和d=b+d,當a>c時,只需要b = b + d 和 d = 0 ,那么 ( a ? b )2+ ( c ? d )2可以獲得最小值。

當 t0調度周期為充電動作而 t調度周期為放電動作時,c ? d < a ? b ;當t0調度周期為放電動作而t調度周期為充電動作時,c ? d> a ? b ,兩種情況都與上述情況正好相反,所以不會影響。

[1] 李樂. 微網的經濟運行研究[D]. 北京: 華北電力大學, 2011.

[2] 張明, 樸政國. 含儲能的分布式光伏并網系統對配電網調峰的研究[J]. 電氣技術, 2016, 17(12): 11-14, 19.

[3] 孫建龍, 竇曉波, 張子仲, 等. 直流對等式微電網混合儲能系統協調控制策略[J]. 電工技術學報, 2016,31(4): 194-202.

[4] 李銳, 李鵬. 儲能系統在孤島微網中應用[J]. 電氣技術, 2014, 15(6): 15-18.

[5] 李建林, 馬會萌, 惠東. 儲能技術融合分布式可再生能源的現狀及發展趨勢[J]. 電工技術學報, 2016,31(14): 1-10, 20.

[6] 劉皓明, 陸丹, 楊波, 等. 可平抑高滲透分布式光伏發電功率波動的儲能電站調度策略[J]. 高電壓技術,2015, 41(10): 3213-3223.

[7] Chaouachi A, Kamel R M, Andoulsi R, et al.Multiobjective intelligent energy management for a microgrid[J]. IEEE Transactions on Industrial Electronics, 2013, 60(4): 1688-1699.

[8] 宋曉英, 王艷松. 基于協同進化遺傳算法的微網經濟環保調度[J]. 電力系統保護與控制, 2014(5):85-89.

[9] 李秀磊, 耿光飛, 季玉琦, 等. 考慮實際運行的配電網電池儲能系統的優化配置研究[J]. 電力系統保護與控制, 2017, 45(9): 88-94.

[10] Lee T Y. Operating schedule of battery energy storage system in a Time-of-Use rate industrial user with wind turbine generators: a multipass iteration particle swarm optimization approach[J]. IEEE Transactions on Energy Conversion[J]. Sept, 2007, 22(3): 774-782.

[11] 李樹雷, 展海艷, 薛松, 等. 考慮間歇性分布式電源并網的分布式儲能系統最優控制策略[J]. 華東電力,2013, 41(11): 2338-2343.

[12] 鮑冠南, 陸超, 袁志昌, 等. 基于動態規劃的電池儲能系統削峰填谷實時優化[J]. 電力系統自動化,2012, 36(12): 11-16.

[13] 高雪瑩, 唐昊, 苗剛中, 等. 儲能系統能量調度與需求響應聯合優化控制[J]. 系統仿真學報, 2016, 28(5):1165-1172.

猜你喜歡
動作系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
下一個動作
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
動作描寫要具體
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
畫動作
讓動作“活”起來
主站蜘蛛池模板: 中文字幕无码av专区久久| 久久久波多野结衣av一区二区| 又猛又黄又爽无遮挡的视频网站| 国产激情影院| 国产浮力第一页永久地址| 亚洲永久精品ww47国产| 农村乱人伦一区二区| 谁有在线观看日韩亚洲最新视频| 992Tv视频国产精品| 亚洲无码视频一区二区三区| 青青青国产视频| 中文字幕 日韩 欧美| 澳门av无码| 精品亚洲麻豆1区2区3区| 丰满少妇αⅴ无码区| 狠狠综合久久| 午夜精品一区二区蜜桃| 99久久成人国产精品免费| 亚洲人成电影在线播放| 国产免费久久精品99re丫丫一| 最新痴汉在线无码AV| 手机在线看片不卡中文字幕| 久久福利片| 亚洲成人手机在线| 亚洲男女天堂| 欧美激情伊人| swag国产精品| 欧美69视频在线| 暴力调教一区二区三区| jijzzizz老师出水喷水喷出| 在线欧美a| 国模视频一区二区| 欧美性精品不卡在线观看| 国产高清不卡视频| 色老二精品视频在线观看| 啪啪国产视频| 蜜芽一区二区国产精品| 久久国产精品麻豆系列| 99精品福利视频| 欧美日韩另类在线| 亚洲高清免费在线观看| 国产在线观看一区精品| 国产91高清视频| 国产91高跟丝袜| 国产一区在线观看无码| 国产浮力第一页永久地址| 日韩激情成人| 久久青草视频| 在线视频亚洲色图| 天堂网亚洲系列亚洲系列| 精品亚洲欧美中文字幕在线看 | 青青青视频91在线 | 免费观看成人久久网免费观看| 99这里只有精品免费视频| 四虎成人精品在永久免费| 日本免费a视频| 国产青榴视频| 成人在线第一页| 伊人久久久久久久| 亚洲最黄视频| 欧美日韩中文字幕二区三区| 国产精品免费福利久久播放 | 久久综合丝袜长腿丝袜| 亚洲色图欧美激情| 日韩一区二区三免费高清| 天堂成人在线| 国产视频资源在线观看| 日韩精品一区二区深田咏美| 亚洲第一天堂无码专区| 欧美一级高清片久久99| 午夜免费小视频| 欧美综合在线观看| 日韩不卡高清视频| 亚洲日本精品一区二区| 在线精品自拍| 无码一区中文字幕| 国产精品亚洲专区一区| 久久国产精品嫖妓| 人妻精品久久久无码区色视| 青青草国产免费国产| 农村乱人伦一区二区| 免费毛片视频|