王 申,李文臣,賈培浩,黃彥浩,章姝俊
(1.北京九章云極科技有限公司,北京 100085;2.中國電力科學研究院有限公司,北京 100192;3.國網(wǎng)浙江省電力有限公司,浙江杭州 310007)
潮流計算作為電力系統(tǒng)的一種重要分析方法,快速、準確地估計電網(wǎng)潮流值是對電力系統(tǒng)穩(wěn)定性與可靠性分析的前提,也是保證整個能源互聯(lián)網(wǎng)穩(wěn)定運行的必要條件[1]。隨著社會的發(fā)展,電力需求不斷提高,電網(wǎng)規(guī)模也在不斷擴大,用于電網(wǎng)結(jié)構(gòu)分析的潮流計算也變得越來越復(fù)雜[2-3]。傳統(tǒng)的潮流分析已無法適應(yīng)于現(xiàn)代電網(wǎng)架構(gòu),尤其是在能源互聯(lián)網(wǎng)背景下,電網(wǎng)拓撲結(jié)構(gòu)更為繁雜,這對潮流分析提出了新的挑戰(zhàn)與更高的要求[4]。
在傳統(tǒng)潮流分析中,人工經(jīng)驗的依賴程度高,且我國電網(wǎng)節(jié)點數(shù)量龐大,這導(dǎo)致時常出現(xiàn)計算不收斂的問題[5]。同時,近年來人工智能技術(shù)憑借優(yōu)異的性能快速興起并廣泛應(yīng)用于電網(wǎng)分析領(lǐng)域[6]。為此,提出了一種基于深度強化學習的電網(wǎng)潮流分析方法。其在傳統(tǒng)潮流計算的基礎(chǔ)上,利用深度雙Q網(wǎng)絡(luò)(Deep Double Q-Network,DDQN)自動調(diào)節(jié)收斂,并通過計算得到的潮流值完成電網(wǎng)分析,以便于進行電網(wǎng)調(diào)度。
一個典型的電力系統(tǒng)通常由發(fā)電機、變壓器、負載和輸電線路組成,且還可能包含其他元件,如分流器、柔性交流輸電系統(tǒng)等[7-8]。在進行潮流計算時,通常將變壓器、輸電線路、電感、電容等器件看成線性網(wǎng)絡(luò)的一個部分,等效成R、L、C構(gòu)成的電路[9]。
若電網(wǎng)中存在n個節(jié)點,且網(wǎng)絡(luò)結(jié)構(gòu)已知,則節(jié)點電壓與電流之間的數(shù)學關(guān)系表達如下[10]:

式中,Ii為節(jié)點i的注入電流,Uk為節(jié)點k的電壓,Yik為節(jié)點i和k之間的導(dǎo)納。
在實際運行的電力系統(tǒng)中,電流通常是三相的,且相較于節(jié)點的注入電流,注入功率更易被獲取。因此,節(jié)點注入電流與功率之間的關(guān)系表示如下[11]:

式中,Pi、Qi分別是節(jié)點i向電網(wǎng)中注入的有功功率與無功功率,為節(jié)點i電壓Ui的共軛,j 為復(fù)數(shù)符號。
結(jié)合式(1)和式(2),能夠獲得用節(jié)點注入功率表示的潮流計算方程:

電網(wǎng)潮流計算的典型流程,如圖1 所示。

圖1 潮流計算流程
首先,通過牛頓-拉夫遜法計算原始輸入數(shù)據(jù)的有功功率變化值、無功功率變化值、節(jié)點電壓,用于衡量計算的準確性。將Yik=Gik+jBik、U=ei+jfi代入式(3),通過數(shù)學運算得到:

深度強化學習融合了強化學習與深度學習技術(shù),其采用DDQN 進行潮流分析。其中,DDQN 結(jié)合深度學習與雙Q 網(wǎng)絡(luò),克服了過擬合的問題[12-15]。DDQN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,由感知網(wǎng)絡(luò)與控制網(wǎng)絡(luò)組成。

圖2 DDQN的網(wǎng)絡(luò)結(jié)構(gòu)
其中,感知網(wǎng)絡(luò)層是一個三層卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),第一層CNN 使用32 個大小為5×5 的卷積核;第二層使用64 個大小為3×3的卷積核;第三層使用64個大小為2×2的卷積核,這3 層卷積神經(jīng)網(wǎng)絡(luò)的步長均設(shè)置為2。控制網(wǎng)絡(luò)為決策網(wǎng)絡(luò),其具有兩個完全連接(Full Connection,F(xiàn)C)層序列,分別用于估計每個動作的狀態(tài)值與優(yōu)勢,其所有層的激活函數(shù)均使用ReLu 函數(shù)。
作為標準的強化學習方法,狀態(tài)序列s被視為一個馬爾可夫決策過程,并通過與環(huán)境互動做出決策[16]。在每一個時間,首先根據(jù)t時刻的當前狀態(tài)值st選擇一個動作at,然后由獎勵函數(shù)產(chǎn)生獎勵信號r(st,at),最終通過動作得到下一個狀態(tài)值st+1。累計獎勵期望值為:

式中,λ為折扣因子,用來衡量當前與未來獎勵的重要性。
深度強化學習算法的目標是使動作值函數(shù)Q最大化,則DDQN 的Q函數(shù)為:

式中,θ為目標Q網(wǎng)絡(luò)的參數(shù),α和β為Q網(wǎng)絡(luò)完全連接層的參數(shù)。則Q網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)為:

潮流計算收斂的調(diào)整第一步是改變潮流參數(shù),第二步是按照變化后的潮流狀態(tài)進行反饋,從而明確之后的操作。
1)狀態(tài)空間
狀態(tài)就是可觀測變量,包含多個樣本的潮流狀態(tài)的狀態(tài)空間表示為:

2)動作空間
動作就是可調(diào)節(jié)變量,主要包括發(fā)電機的功率改變量ΔPG、特定電容或電抗器以及增加PV 節(jié)點等。其數(shù)學表達式為:

3)獎勵函數(shù)
潮流計算的結(jié)果分為收斂與不收斂兩種。當收斂時,獎勵值設(shè)成較大的正數(shù);反之,設(shè)成較小的負數(shù)。數(shù)學表達式為:

綜上所述,基于DDQN 的潮流收斂調(diào)整流程如圖3 所示。

圖3 潮流收斂調(diào)整流程
為了論證DDQN 的學習性能,將其與傳統(tǒng)深度強化學習網(wǎng)絡(luò)進行對比分析。所得到的獎勵值對比曲線如圖4 所示。

圖4 改進前后網(wǎng)絡(luò)的獎勵值對比曲線
從圖4 中可以看出,改進深度強化學習網(wǎng)絡(luò)所得到的獎勵值明顯高于傳統(tǒng)方法,說明改進網(wǎng)絡(luò)對訓(xùn)練效率具有較好的提升效果。當?shù)螖?shù)為500時,其獎勵值趨于穩(wěn)定,后期僅在小范圍波動,最終趨于100。而傳統(tǒng)深度強化學習網(wǎng)絡(luò)的收斂速度慢,且獎勵值較低,說明會存在計算不收斂的情況。故DDQN 的訓(xùn)練效果優(yōu)于傳統(tǒng)方法,能夠更優(yōu)地應(yīng)用于電網(wǎng)潮流計算分析。
為了論證所提方法的自動收斂能力,設(shè)置了兩種實驗方案進行論證。方案1:包含3 臺G2、G8 等級的發(fā)電機,12 臺電容器和15 臺電抗器;方案2:包含3臺G3、G8 等級的發(fā)電機,10 臺電容器和11 臺電抗器。對構(gòu)建的電網(wǎng)進行潮流分析,其收斂結(jié)果如表1所示。

表1 某地區(qū)電網(wǎng)潮流收斂結(jié)果
從表1 中可以看出,該地區(qū)電網(wǎng)方案2 的收斂結(jié)果高于方案1。由于電網(wǎng)調(diào)度時,需要投入和切除的電容器數(shù)量越多,則可操作的范疇就越廣,相應(yīng)的無功功率就難以達到平衡狀態(tài)。方案2 中,當每個計算周期為100 步時,45%能夠快速收斂,10%難以在計算步長內(nèi)完成收斂。當每個計算周期為200 步時,僅有3%不收斂。如此便可看出,調(diào)整收斂的效果更優(yōu),在實際工程中具有一定的可行性[17-18]。
某地區(qū)實際電力系統(tǒng)在常規(guī)運行方式下的潮流分布,如圖5 所示。

圖5 常規(guī)運行方式下的潮流分布
從圖5 中可以看出,整體上電網(wǎng)能夠維持平穩(wěn)運行,但局部存在潮流分布不均衡的問題。如:1)B變電站主變負載嚴重偏低,約為10%;2)35 kV 變電站1 負載率達到103%,存在嚴重過載;3)C 變電站由于有新能源接入,因此擾動較大,存在運行不穩(wěn)定的現(xiàn)象。
利用所提方法對該地區(qū)的潮流進行計算分析,并采取負荷轉(zhuǎn)移、雙電源供電等措施調(diào)整潮流分布。綜合優(yōu)化后的潮流分布,如圖6 所示。

圖6 綜合優(yōu)化后潮流分布
從圖6 中可以看出,通過DDQN 自動調(diào)節(jié)收斂得到的潮流值更為合理,其潮流分布有利于維持220 kV主網(wǎng)的穩(wěn)定運行。同時合理利用輕載站點的變壓器,緩解了各個重載站點。在110 kV 變電站中,提高了B 變電站的負載率,由12%上升至19%,使變壓器的利用更為合理。C 變電站的負荷并未改變,但采用雙回路供電提高了系統(tǒng)的穩(wěn)定性。在35 kV 變電站中,通過轉(zhuǎn)移負荷、修建隘口站等措施優(yōu)化潮流分布,從而解決了重載或過載的問題。
新能源技術(shù)的快速發(fā)展推動了電網(wǎng)架構(gòu)的更新?lián)Q代,同時人工智能技術(shù)的興起為潮流計算提供了一種新的優(yōu)化思路。為此,提出了一種基于深度強化學習的電網(wǎng)潮流分析方法。在傳統(tǒng)電網(wǎng)潮流計算的基礎(chǔ)上,利用DDQN 動態(tài)調(diào)節(jié)電力網(wǎng)絡(luò)參數(shù),并根據(jù)收斂后得到的潮流值調(diào)整電網(wǎng)運行狀態(tài)。基于PSASP 平臺利用所提方法對某地區(qū)電網(wǎng)數(shù)據(jù)進行潮流分析的結(jié)果表明,DDQN 在迭代500 次后獎勵值趨于100,且投切電容器數(shù)量較少的系統(tǒng),有97%的潮流計算能夠收斂。同時,經(jīng)過分析控制后的電網(wǎng)潮流分布,有效緩解了變壓器重載或輕載以及部分變電站由雙回路供電的情況,提高了電網(wǎng)運行的穩(wěn)定性。
由于所提方法采用的DDQN 網(wǎng)絡(luò)在參數(shù)調(diào)節(jié)過程中耗費的時間較長,因此在接下來的研究中將重點考慮并行計算,以提高潮流分析的效率。