999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖強化學習的配電網故障恢復決策

2024-02-20 08:52:22陳玉鑫王光華李曉影
電力系統自動化 2024年2期
關鍵詞:配電網動作智能

張 沛,陳玉鑫,王光華,李曉影

(1.北京交通大學電氣工程學院,北京市 100044;2.國網河北省電力有限公司保定供電分公司,河北省 保定市 071000)

0 引言

配電網造成的故障停電時間占總停電時間的80%[1]。分布式電源(distributed generator,DG)的接入使傳統的輻射狀配電網變成了多電源多端系統,使配電網的運行和保護更加復雜[2]。因此,研究有效的含DG 配電網的故障恢復方法十分必要。

配電網故障恢復是指在配電網線路發生故障并被切除后,通過對系統中常用饋線與聯絡線的線路開關控制,重新組織系統網絡拓撲以完成對下游失電負荷的供電恢復。國內外對此已做了大量相關研究,常見的方法有啟發式搜索算法、專家系統法、數學優化算法、圖論算法、混合算法等[3]。當DG 大量并入電網后,其帶來的電源支撐作用受到關注。文獻[4-6]提出了配電網停電狀態下的孤島劃分方法,但沒有考慮到輸電網電源供電下的網絡重構問題。文獻[7-9]綜合考慮DG 發電與網絡重構進行配電網故障恢復,將主動孤島與網絡重構相結合。文獻[10]首先確定各孤島系統的最佳供電范圍,然后利用改進支路交換法進行重構優化。文獻[11]在電網重構過程中進行孤島劃分,將孤島劃分后的負荷恢復率納入總體目標函數,使重構和孤島劃分結果同時影響最終的全局最優解。以上文獻同時考慮了DG 的支撐作用與網絡拓撲變換兩種故障恢復方式,但忽略了DG 帶來的不確定性,即都只在一個“時間斷面”上對故障恢復進行研究,忽略了DG 的出力變化。

對于以上問題,文獻[12]提出多時間尺度下的含DG 配電網故障動態恢復策略,證明了在電網含DG 時,不同的DG 出力場景會顯著影響恢復策略;文獻[13]利用滾動預測模型考慮了多個時間段之間配電網狀態的相關性,提出了基于魯棒模型預測控制的彈性運行策略;文獻[14]考慮光伏及負荷的時變性,驗證了其對故障恢復決策的影響,同時證明了不同故障恢復時間尺度也會影響光伏及負荷的變化,從而最終影響故障恢復決策。

除了DG,考慮到方法的實用性,不少學者將實際檢修場景與配電開關設備納入考量。文獻[15]將DG 的黑啟動能力與實際情況中的檢修次序納入考慮,在減少故障下切負荷量的同時優化故障檢修策略;文獻[16]進一步考慮配電網中不同種類開關的可控性差異,從而與檢修人員的檢修策略結合進行優化;文獻[17-18]提出了基于新型電力電子裝置智能軟開關(soft open point,SOP)的故障恢復策略,但其對配電設備本身性能具有較強的依賴性。以上成果均充分研究了含DG 的配電網故障恢復問題,但仍存在以下不足:1)所建模型均為規劃模型與搜索模型,而在大規模系統中,DG 與負荷的不確定性將使得求解場景變得復雜,且開關動作組合將出現爆炸式增長,以上求解算法的求解速度將大大限制其在線應用的能力;2)均只在一種固定的配電網拓撲結構進行故障恢復的研究,故障恢復方法對配電網頻繁變化的拓撲結構適應性不強。

因此,本文考慮配電網網絡拓撲變化,提出一種基于圖強化學習的含DG 的配電網故障恢復決策方法。本文的主要貢獻如下:

1)將圖神經網絡與強化學習(reinforcement learning,RL)相結合,搭建了圖強化學習(graph reinforcement learning,GRL)故障恢復模型,設計GRL 狀態空間、動作空間與獎勵函數,完成智能體的訓練與交互;

2)利用圖數據表征配電網拓撲結構與電氣特征信息,設置前置圖神經網絡接收并處理圖數據,利用圖神經網絡對變化拓撲的處理能力提高對配電網拓撲變化的適應性;

3)設置后置圖神經網絡嵌入強化學習框架,在利用配電網網架結構信息的同時,充分利用RL 對不確定性因素的天然適應性進行快速求解,滿足在線求解需求。

1 GRL 模型框架

GRL 的整體框架如圖1 所示。首先,將含DG的實際配電網抽象為圖數據,圖數據包含實際配電網的網絡拓撲及其電壓特征數據X兩部分。然后,將抽象出來的圖數據輸入GRL 模型,GRL 中先搭建兩層前置圖卷積網絡(graph convolutional network,GCN)來處理圖數據,完成圖數據的接收、信息提取、聚合與轉化后,將處理后的特征信息傳遞給下游任務。在下游深度Q 網絡(deep Q network,DQN)框架的eval net 和target net 中各嵌入兩層GCN,以進一步提取網架信息與電壓電流特征信息,且這兩層GCN 將隨DQN 一起更新,最終由eval net 輸出t時刻動作值at。智能體執行動作at,環境狀態由當前狀態st切換為下一狀態st+1,并反饋當前動作獎勵值rt供智能體進行學習。

圖1 GRL 算法框架Fig.1 Framework of GRL algorithm

在圖數據提取部分,將實際配電網的網架拓撲與電氣特征信息抽象為圖數據。其中,網架拓撲結構常用鄰接矩陣來描述。設圖G=(V,E)中含有n個節點,節點集合V={v1,v2,…,vn},其中,vi表示第i個節點,i=1,2,…,n,則其鄰接矩陣A(G)=[aef]n×n,其元素aef可表示為:

式中:下標e和f為節點編號;E為邊集合。

圖1 中實際配電網的鄰接矩陣ADN為:

由實際配電網接線關系抽象出來的圖的鄰接矩陣表征各節點之間的連接關系,即拓撲結構。而節點電壓與線路電流分別為節點與邊上的特征數據,拓撲結構與特征數據H共同組成了圖數據。

在狀態輸入部分,首先由前置GCN 完成對配電網圖數據的接收、信息提取、聚合與轉化。GCN 是深度神經網絡(deep neural network,GNN)中的典型類型,其將卷積運算從圖像等傳統數據推廣到圖數據。圖卷積操作的實現公式為:

式中:H(l+1)為第l層GCN 卷積處理后的輸出信息;H(l)為第l層GCN 的輸入信息;A?=A+Ιn,其中,A為圖的鄰接矩陣,In為單位矩陣;D為度矩陣;W(l)為第l層GCN 的權重參數矩陣;σ(·)為激活函數。L=又稱拉普拉斯矩陣,其作用是防止在運算中出現數值不穩定的情況。

由式(3)可知,W(l)的矩陣維度與圖的規模(即圖中節點數量)無關,只與各節點輸入特征維度有關,即每個節點上的圖卷積核參數W(l)是共享的。例如,當圖中包含g個節點且每個節點的輸入特征維度為k時,即每個節點上采取了k個不同的特征輸入(本文模型的節點輸入特征為三相電壓,即k=3),則H(1)的維度為g×k,W(1)的維度為k×k,與整個圖的維度g無關。這意味著,GCN 在每一層實現了參數矩陣的全圖共享,這也是GCN 在訓練過程中可以處理變化拓撲任務的根本原因。圖2 顯示了GCN 在針對圖數據進行卷積操作過程中的參數共享方式。

圖2 GCN 參數共享示意圖Fig.2 Schematic diagram of GCN parameter sharing

前置GCN 將處理后的信息傳遞給下游GRL 智能體,在RL 框架中嵌入了兩層后置GCN,后置GCN 在訓練過程中與全連接神經網絡保持同步更新??紤]到配電網故障恢復決策問題中的控制對象為系統中的各線路開關,每個線路開關只有“斷開”與“閉合”兩種狀態,而一個確定的配電網中的線路開關數量是有限的,屬于離散動作輸出。因此,選擇RL 中的DQN 算法,其算法流程如圖3 所示。

圖3 DQN 算法流程Fig.3 Process of DQN algorithm

DQN 算法通過經驗回放池與凍結神經網絡兩項機制打破數據之間的相關性,提升訓練效率[19]。如圖3 所示,智能體訓練過程中每完成一次訓練交互過程便產生一條經驗放入經驗回放池,當經驗回放池中經驗存到一定數量后智能體開始進行學習,即從經驗回放池中提取批記憶,分別將記憶中的(s,a)與s'輸入eval net 與target net 計算Q值,其中,s'為狀態s的下一個狀態,a為動作,再利用Q值計算損失函數,并根據神經網絡的反向傳播算法對當前eval net 網絡的參數進行更新,經過固定迭代次數后,將target net 網絡參數替換為eval net 網絡參數。

2 馬爾可夫決策過程建模

2.1 狀態空間

智能體所能獲取的所有系統信息共同組成了系統狀態空間。系統狀態信息代表了智能體所感知到的環境信息,包括執行完智能體輸出的動作后環境所發生的變化。從強化學習的目標來看,狀態信息是智能體制定決策和評估其長期收益的依據。因此,狀態空間設計的好壞直接決定了GRL 算法能否收斂、收斂速度以及最終性能。

本文提出的GRL 配電網故障恢復方法中系統狀態空間設計為:

式中:St為t時刻系統狀態空間;Vt為t時刻系統節點電壓向量;Gt為t時刻配電系統拓撲圖,其內含網絡拓撲的結構信息。

2.2 動作空間

考慮到配電網故障恢復策略的執行過程中,不僅需要獲知故障恢復后系統中各線路開關的狀態,也需要獲知在故障恢復過程中每步動作的具體開關操作順序,本文模型中的動作空間Aa設計為:

式中:ai為改變系統中第i條線路的開關狀態,即若當前系統中第i條線路為斷開狀態,則閉合其線路開關使線路重新投入,若當前系統中第i條線路為閉合狀態,則打開其線路開關使線路斷開以退出運行,這種設計有效避免了動作選擇的不合法性;下標Nl為系統中的支路數量;Nj為第j個回合已經操作過的線路集合,這樣可以有效避免動作的無效性。

2.3 獎勵函數和狀態轉移概率

獎勵函數R分為兩部分,即獎勵部分Rr與懲罰部分Rp。首先明確一個完整回合包含多個單步動作,其中,第h回合第c次動作的獎勵的數學表達式為:

式中:Rr,c為當前回合第c次動作獎勵函數的獎勵部分值;Ploss,c為第c次動作執行完后的負荷損失功率;Pnet,c為第c次動作執行完后的網絡損耗功率;PL為配電系統總負荷;ΔRr,c為附加獎勵部分,其含義為本回合中當前動作與上一個動作相比負荷恢復率的增加值,用來描述當前動作在故障恢復任務中作出的新貢獻;Rgreat為稀疏獎勵值,當前動作執行完后系統負荷恢復率為100%,且滿足各種運行約束,此時賦予較大的稀疏獎勵值以加強對智能體學習方向的引導。若Ploss,c-1-Ploss,c>0,則當前動作與上一個動作相比故障恢復率有所上升,即當前動作對故障恢復產生了新的積極影響;若Ploss,c-1-Ploss,c<0,則說明當前動作不僅沒有恢復更多的失電負荷,反而使停電范圍進一步擴大。另外,若當前動作為本回合的第1 個動作,即c=1 時,附加獎勵值為0??紤]到實際系統中的倒閘操作時間與誤操作率,在達到相同故障恢復效果時,開關動作次數應越少越好。

動作的懲罰部分包括電壓越限懲罰、電流越限懲罰和配電網輻射狀拓撲約束懲罰。第h回合第c次動作的懲罰的數學表達式為:

式中:Rp,c為當前回合第c次動作獎勵函數的懲罰部分值;PV,c、PI,c和PLoop,c分別為第c次動作的電壓越限懲罰、電流越限懲罰和配電網輻射狀拓撲約束懲罰。

對于電壓越限懲罰和電流越限懲罰,其數學表達式如下:

式中:PU為當出現電壓越限時設置的懲罰值;PI為當出現電流越限時設置的懲罰值。

對于配電網輻射狀拓撲約束懲罰,綜合考慮經濟性與安全性,配電網要求“閉環設計、開環運行”,配電系統環網示意圖見附錄A 圖A1。若配電網拓撲出現環網結構,在發生短路故障時易造成短路電流過大等問題,從而降低供電可靠性。因此,此時要給予相應開關動作一定的懲罰。第h回合第c次動作的配電網輻射狀拓撲約束懲罰的數學表達式為:

式中:PLoop為配電網輻射狀拓撲約束懲罰。

智能體最終的目標是長期獎勵最大化,最終系統獎勵函數Rc為獎勵部分與懲罰部分之和:

在不計動作時間的前提下,系統每執行完一個開關動作后其下一個狀態都是確定的。因此,在本模型中,狀態轉移概率始終為1。

3 算例仿真

3.1 測試算例與效果展示

為驗證本文所提方法的有效性,本節利用改進的PG&E 69[20]節點算例進行驗證。

PG&E 69 節點算例系統中包含69 個節點、78 條線路,如圖4 所示。其中,該系統包括73 條常用饋線與5 條備用聯絡線,其24 h 負荷功率曲線參考文獻[21],分布式光伏24 h 出力及位置設置參考文獻[14]。在節點5、19、23、44、47、63 處設置分布式光伏,滲透率為52.7%,DG 具體參數見附錄B 表B1。需要指出的是,考慮到目前實際配電網中并未實現完全自動化,實際電網中線路開關切換操作仍由調度操控人員參與執行,本文的求解結果更傾向于“給調度操控人員提供開關動作參考”而非直接“參與自動控制流程”。本文提出的方法最終求解出的恢復策略包括具體的開關操作位置與操作順序,至于前后兩個開關動作之間應該間隔多長時間,應取決于調度操控人員的指令下達及實際開關切換的執行情況。因此,本文的重點在于復雜場景下恢復策略的求解上,而不在恢復策略的執行上。

圖4 PG&E 69 節點配電系統Fig.4 PG&E 69-bus distribution system

本文提出的GRL 模型共進行了20 000 回合的訓練,訓練時間共計2 h,最終收斂效果較好。其中,獎勵函數曲線如圖5 所示。單一回合中每次動作獲取的獎勵函數最能夠直觀反映模型的表現,獎勵函數變化曲線能夠展現模型的訓練成長過程。

圖5 獎勵函數曲線Fig.5 Curves of reward function

根據圖5 可知,訓練初期由于無先驗知識,智能體在訓練環境中多進行隨機探索;訓練中期,經驗記憶池中累積了足夠多的先驗知識,智能體開始周期性地提取先驗知識進行學習,然后在此基礎上再次針對不同環境選擇動作,繼續訓練;訓練后期,智能體以99%的概率選擇其認為的最優動作,保持1%的概率隨機選擇動作,即保持1%的隨機探索。此時,獎勵函數到達收斂值,智能體對系統中絕大部分故障均能給出有效的恢復策略。表1 為訓練完成的智能體針對部分故障給出的恢復策略。其中,負荷的恢復通過仿真平臺OpenDSS 提供數據進行計算,負荷恢復率是指當前在線負荷占初始總負荷的比率,線路用首末端編號表示。

表1 故障恢復策略Table 1 Fault recovery strategy

假設兩處特征線路發生故障:線路5-6 靠近主網電源,大部分聯絡線在其下游;線路13-14 靠近輻射狀支路中段,臨近位置聯絡線較多。針對每處故障,假設在3 個特征時刻發生故障:08:00 時分布式光伏有部分出力能力,負荷處于一天中的上升階段;11:00 時分布式光伏出力達到最大值;18:00 時負荷值為一天中的最大值,此時日落光伏出力為0,分布式光伏無法提供電源支撐能力,只能控制線路開關狀態重構網絡拓撲,使失電負荷與主網電源重新建立有效連接以恢復供電。

當線路5-6 在18:00 發生故障時,由于分布式光伏此時無法提供電源支撐,與08:00 時相同線路發生故障相比,其恢復策略中動作次數較多,負荷恢復率較低。線路5-6 在18:00 發生故障時的恢復策略中,首先閉合線路15-46 將下游失電負荷與上游主網電源進行連接,但此時由于支路負荷過長,負荷節點多,下游末端節點53 至65、25 至27 出現嚴重電壓越下限現象,智能體判斷進行切負荷操作,依次斷開線路65-65 和25-26,切負荷后電壓越限仍然存在。然后,閉合線路50-59,從另一方向利用主網電源進行供電支撐,此時各節點電壓恢復至允許范圍之內,但拓撲結構層面存在環網。最后,斷開線路9-10,環網消除,完成負荷恢復。

如表1 所示,不同線路在不同時刻發生故障時,本文構建的GRL 模型中智能體均可以給出可行的故障恢復策略,包括具體的線路開關操作位置及操作順序。兩處線路在任意時刻發生故障時,智能體輸出的恢復策略負荷恢復率均能達到99%以上,且均能滿足電壓不越限、網絡拓撲無環網的運行約束??梢?,本文構建的GRL 模型在含DG 的配電網發生故障后可給出滿足各種約束的可行故障恢復策略。

為了進一步體現本文所提方法的優勢,下面就本文提出的方法與其他方法在3 個方面進行對比分析。

3.2 算例對比分析

3.2.1 故障恢復策略效果對比

表2 展示了線路5-6 在08:00 發生故障后不同方法的恢復策略及恢復效果。如表2 所示,面對故障后的復雜形勢,4 種方法均能求解出有效的恢復策略。其中,方法1 為啟發式方法,按制定好的規則進行尋優,策略中動作次數最多,負荷恢復率較低;方法2 為蟻群算法,求解完成后直接給出最終策略中包含的所有動作,并未給出動作執行的先后順序,與電網調度中心的實際操作要求不符;方法3、方法4 均屬于人工智能強化學習算法,序貫決策下均能給出包含開關動作順序的恢復策略,負荷恢復率高且決策時間短,能夠有效縮短用戶停電時間,負荷恢復率均能達到99%以上。

表2 故障恢復策略效果對比Table 2 Effect comparison of fault recovery strategies

3.2.2 變化拓撲下RL 與GRL 恢復效果對比

假設算例系統因負荷投切、優化線損或發生計劃性檢修等原因發生網絡拓撲變化,變化后的網絡拓撲圖見附錄C 圖C1。直接利用拓撲變化之前訓練好的本文模型與深度強化學習模型分別對拓撲變化后的配電網進行故障恢復決策。從發展的角度,假設配電網發生規劃層面的擴建,在原系統架構基礎上在節點52、69 下游新增負荷節點70 至74,新增節點的節點負荷均與上游連接節點一致。此時,系統節點數量發生變化,模型輸入維度也發生變化,而深度強化學習模型中的神經網絡輸入層維度不變,深度強化學習方法將不再適用。測試結果如表3 所示。表中:平均負荷恢復率為在變化后電網拓撲基礎上,隨機選取5 處故障進行故障恢復后的負荷恢復率的平均值。

表3 拓撲改變后的恢復效果對比Table 3 Comparison of recovery effects after topology changes

根據表3 可知,深度強化學習在拓撲變化后平均負荷恢復率下降幅度較大。本文提出的GRL 方法負荷恢復率略有下降,對“拓撲變化+節點數量變化”的情形,平均負荷恢復率也能維持在90%以上,對拓撲變化表現出了良好的適應能力,電網拓撲變化后仍能給出有效的故障恢復策略,與RL 方法比較優勢較為明顯。

因此,本文提出的方法在兼顧求解速度與故障恢復率的基礎上,保證了對配電網網絡拓撲變化的適應性,充分體現了RL 方法與圖神經網絡的優勢。

4 結語

針對配電系統拓撲頻繁變化使配電網故障恢復策略求解效率下降的問題,本文提出了基于GRL 的含DG 的配電網故障恢復方法,并利用PG&E 69 節點算例進行測試。通過與其他求解方法進行對比分析可得出以下結論:

1)本文提出的方法能夠在線求解含DG 的配電網故障恢復策略,包括具體的操作開關與操作順序,求解策略故障恢復率高,求解時間短,兼顧求解質量與速度。

2)與啟發式算法、優化算法相比,相同故障情形下GRL 模型決策故障恢復率更高,求解速度優勢明顯。

3)本文提出的方法對配電網拓撲變化具有更好的適應性,訓練好的模型應用到拓撲變化后的配電網故障恢復問題中,仍有較好的故障恢復決策效果。

本文考慮了DG 與負荷不確定性造成的復雜求解場景,也考慮了不同時刻、不同位置發生故障對決策帶來的影響,但求解用到的源荷出力都是故障時刻的實際值,并不是預測值,未考慮到因動作執行或指令下達所造成的求解時刻與動作執行時刻之間的“時間差”,也就是“時間滯后”帶來的影響,這在一定程度上會影響方法的實用性;為簡化模型,本文訓練過程中設置的負荷曲線為固定曲線,對負荷不確定性模擬尚可提高;智能體并不能在實際的配電網環境中直接試錯訓練,可先通過仿真模擬的方法進行智能體訓練及超參的優化,待訓練完成后投入使用,以保證不會對實際配電網帶來安全運行上的問題。

附錄見本刊網絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網絡全文。

猜你喜歡
配電網動作智能
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
配電網自動化的應用與發展趨勢
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
畫動作
動作描寫不可少
基于IEC61850的配電網數據傳輸保護機制
電測與儀表(2016年5期)2016-04-22 01:14:14
配電網不止一步的跨越
河南電力(2016年5期)2016-02-06 02:11:24
主站蜘蛛池模板: 免费观看欧美性一级| 中文字幕久久亚洲一区| 99国产在线视频| 91青青草视频在线观看的| 国产成人精品一区二区三在线观看| 亚洲一区第一页| 天天综合网在线| 国产18页| 性色生活片在线观看| 国产精品私拍99pans大尺度| 91啦中文字幕| 18禁不卡免费网站| 国产91熟女高潮一区二区| 色天天综合久久久久综合片| 成人免费黄色小视频| 人人爽人人爽人人片| 欧美色亚洲| 国产成人成人一区二区| 性欧美久久| 中文字幕久久精品波多野结| 国产噜噜在线视频观看| 2019年国产精品自拍不卡| 中文字幕不卡免费高清视频| 97精品国产高清久久久久蜜芽| 欧美在线伊人| 青青久久91| 国产三级精品三级在线观看| 91久久青青草原精品国产| 91青青草视频| 无码福利日韩神码福利片| 午夜性刺激在线观看免费| 国产美女无遮挡免费视频网站 | 国产男人的天堂| 亚洲AV人人澡人人双人| 日本免费福利视频| 国产精品欧美在线观看| 狠狠色丁香婷婷| 国产一区成人| 亚洲第一区欧美国产综合| 国产亚洲成AⅤ人片在线观看| 在线免费a视频| 夜色爽爽影院18禁妓女影院| 呦女精品网站| 伊人91在线| 亚洲人成网站在线观看播放不卡| 99在线观看视频免费| 毛片一级在线| 国产成人精品一区二区秒拍1o| 亚洲女人在线| 亚洲中文字幕国产av| 又爽又大又黄a级毛片在线视频| 国产免费久久精品99re丫丫一| 亚洲AV无码乱码在线观看代蜜桃| 国产极品美女在线播放| 国产91视频免费| 国产网站免费| 亚洲国产成人自拍| 欧美.成人.综合在线| 国产真实二区一区在线亚洲| 一级毛片在线播放免费| 日韩午夜片| 国产又色又刺激高潮免费看| 亚洲熟女中文字幕男人总站| 日本午夜网站| 国产在线观看一区二区三区| 一区二区三区在线不卡免费| 尤物精品视频一区二区三区| 国产精品主播| av天堂最新版在线| 国产一区二区三区精品久久呦| 国产乱论视频| 亚洲AV人人澡人人双人| 精品人妻AV区| 强奷白丝美女在线观看 | 九色视频一区| 亚洲综合天堂网| 亚洲AⅤ无码国产精品| 国产午夜小视频| 国产女人水多毛片18| 国产精品免费露脸视频| a级毛片免费在线观看| 国产成人免费观看在线视频|