999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于單/多智能體簡化強化學習的電力系統無功電壓控制

2024-03-14 07:21:40鄧長虹
電工技術學報 2024年5期
關鍵詞:控制策略智能設備

馬 慶 鄧長虹

基于單/多智能體簡化強化學習的電力系統無功電壓控制

馬 慶 鄧長虹

(武漢大學電氣與自動化學院 武漢 430072)

為了快速平抑分布式能源接入系統產生的無功電壓波動,以強化學習、模仿學習為代表的機器學習方法逐漸被應用于無功電壓控制。雖然現有方法能實現在線極速求解,但仍然存在離線訓練速度慢、普適性不夠等阻礙其應用于實際的缺陷。該文首先提出一種適用于輸電網集中式控制的單智能體簡化強化學習方法,該方法基于“Actor-Critic”架構對強化學習進行簡化與改進,保留了強化學習無需標簽數據與強普適性的優點,同時消除了訓練初期因智能體隨機搜索造成的計算浪費,大幅提升了強化學習的訓練速度;然后,提出一種適用于配電網分布式零通信控制的多智能體簡化強化學習方法,該方法將簡化強化學習思想推廣形成多智能體版本,同時采用模仿學習進行初始化,將全局優化思想提前注入各智能體,提升各無功設備之間的就地協同控制效果;最后,基于改進IEEE 118節點算例的仿真結果驗證了所提方法的正確性與快速性。

無功電壓控制 集中式控制 單智能體簡化強化學習 分布式控制 多智能體簡化強化學習

0 引言

近年來,以光伏、風電為代表的分布式可再生能源在電力系統中的占比逐年增大,這對未來全球能源加速轉型具有重要的意義。但分布式能源出力的隨機性與波動性也給電力系統正常運行帶來了眾多難題,其中電力系統無功電壓快速波動便是典型的問題之一[1-4]。根據真實的歷史運行數據,國內某220 kV風電場在未進行無功電壓控制(Volt-Var Control, VVC)時,曾觀測到其并網點電壓在10 s內的平均波動達到6 kV,在2 s內的最大波動達到5 kV[5];另據對400戶家庭收集的光伏運行數據顯示,家用光伏在1 min內的功率變化能夠達到額定容量的15%[6],這些劇烈的波動現象無疑迫使VVC需要進行更快、更好的決策以應對分布式能源帶來的巨大挑戰。

VVC的控制手段主要包括以電容器、變壓器分接頭為代表的離散型無功設備與以靜止無功補償器(Static Var Compensator, SVC)/靜止無功發生器(Static Var Generator, SVG)、發電機組及分布式能源逆變器無功出力為代表的連續型無功設備兩大類。各種無功設備的控制時間常數也不盡相同,變壓器分接頭及容抗器為min級,傳統發電機組、風電機組及光伏逆變器為s級,SVC/SVG調節速度最快,為10 ms級,但由于造價昂貴通常配置容量較小[7-9]。由于離散型無功設備只能階躍式調節,調節速度緩慢且存在日內動作次數約束,而連續型無功設備能夠實現無功的快速平滑調節且無日內動作次數約束,為實現兩類設備的協調控制,近年來眾多學者傾向于將VVC轉化為多時間尺度優化問題[10-12]。其中日前控制階段用于控制離散型無功設備,控制頻次通常設定為h級[13],主要在分布式能源及負荷預測的基礎上,提前制定離散型無功設備的24 h日前控制策略。實時控制階段用于控制連續型無功設備,由于分布式能源波動速度為s級至min級,且連續型無功設備的控制時間常數大多集中于s級,因此實時控制頻次通常設定為s級或min級[14-15],主要在離散型無功設備執行日前控制策略的基礎上,對連續型無功設備進行實時優化調節,最終達到快速平抑分布式能源造成無功電壓波動的目的,本文研究主要針對實時控制階段進行開展。

從控制算法的角度,傳統VVC可分為以內點法為代表的數學算法[16-17]與以遺傳算法為代表的啟發式算法[18-19]兩大類。由于采用傳統方法進行優化求解時存在需要精確建模、在線計算速度緩慢等缺陷,無法實現對無功電壓波動的快速響應,因而近年來眾多學者開始將機器學習方法引入VVC,其核心思想都是通過離線訓練實現電力系統實時狀態與無功設備控制策略的端到端映射,在線計算時能夠省去傳統方法所需的大量迭代計算過程。應用于VVC的機器學習方法主要分為模仿學習[20-21](Imitation Learning, IL)及強化學習[22-25](Deep Reinforcement Learning, DRL)兩大類。其中IL本質是監督學習,是利用傳統方法在不同運行場景下生成的大量專家樣本進行監督訓練的過程,操作簡單、模型訓練速度較快,但存在形成專家樣本耗時長、對專家樣本質量要求極高等缺點。DRL本質是試錯,是智能體通過與環境之間不斷交互獲得的獎勵值指導動作策略不斷升級的過程,DRL無需標簽數據,只需通過隨機試錯便可使得智能體學習得到近似最優的控制策略,但也正是因為初期隨機探索產生了大量的計算浪費,導致DRL存在離線訓練速度緩慢、收斂結果不穩定等缺點。由于這兩類機器學習算法應用于VVC時各有自身的優缺點,因此開發一種能夠結合二者優點的機器學習算法,同時擁有DRL的自主探索性及IL的訓練快速性,對于平抑未來因更高比例分布式能源接入產生的更為頻繁的系統無功電壓波動具有重要的意義。

從控制架構的角度,當前VVC主要分為集中式控制[26-27]、本地控制[28-29]、分布式控制[30-35]三大類。集中式控制主要通過實時收集系統內所有運行信息進行整體無功優化,控制效果最好,但是需要實現可靠而快速的實時通信。本地控制無需實現實時通信,主要是無功設備基于本地信息就地決策控制,但由于缺乏不同無功設備間的協同導致系統電壓控制效果較差。分布式協調控制又分為基于一致性算法或交替方向乘子算法、需要極少通信的分布式控制[30-32]和基于多智能體強化學習、零通信的分布式控制[33-35]兩種,由于前者仍需鄰近節點間的實時通信作為基礎,因此實現零通信的基于多智能體強化學習的分布式控制目前更加受到學者的關注。

基于以上對現有VVC研究中關于控制算法、控制架構及其優缺點的總結,本文提出一種基于簡化強化學習的VVC方法應用于多時間尺度VVC的實時控制階段。該方法分為單智能體版本及多智能體版本:

1)基于單智能體簡化強化學習(Single-Agent Simplified DRL, SASDRL)的VVC方法,適用對象為量測及通信設施相對較完備的輸電網。控制架構為集中式控制,該方法繼承DRL中經典的“Actor-Critic”架構。其中Actor網絡實現系統實時狀態與無功設備控制策略的端到端映射,Critic網絡用于評判不同控制策略的好壞,但評判指標與傳統DRL不同,直接簡化為智能體采取當前控制策略后得到的獎勵值,Critic網絡訓練轉化為擬合系統實時狀態與節點電壓之間非線性關系的監督學習訓練。同時,設定在Critic網絡訓練完畢后再進行Actor網絡訓練,使得Actor網絡在訓練初始就能夠獲得Critic網絡反饋回的正確訓練梯度,從而減少初始階段大量的計算浪費。

2)基于多智能體簡化強化學習(Multi-Agent Simplified DRL, MASDRL)+IL的VVC方法,適用對象為量測及通信設施相對不完備的配電網,控制架構為零通信分布式控制,該方法首先將簡化強化學習思想推廣形成多智能體版本,提升了多智能體強化學習應用于VVC訓練的快速性與穩定性。其次引入IL用于各智能體Actor網絡的初始化,IL使用的訓練樣本來自SASDRL模型生成的控制策略樣本,大幅提升了專家樣本的生成速度,同時使各智能體Actor網絡在訓練初始就能夠擁有集中控制的全局優化思想,實現無功設備之間更優的就地協同控制。

1 VVC數學建模

1.1 傳統算法數學優化模型

采用傳統數學算法或啟發式算法需要建立詳細的VVC數學優化模型。多時間尺度VVC中實時控制階段的控制目標就是在滿足系統各類運行約束條件的基礎上通過控制各類連續型無功設備來減少系統節點電壓偏離,保證系統的平穩運行,因此建立的數學優化模型通常可表示為

式中,為目標函數;為節點數目;、為節點;VVtar分別為節點實際電壓與目標電壓;Gi和Gi分別為節點連接機組的有功、無功出力;Ci為無功補償量;Li和Li分別為節點有功、無功負荷;GB分別為線路電導、電納;δ為線路首末節點的相位差;CQmax和CQmin分別為無功設備的調節上、下限。

1.2 基于IL的VVC

IL首先需要基于傳統VVC算法,針對不同的系統運行場景進行無功優化計算生成大量專家樣本(,),其中代表系統狀態參數,主要包括節點有功、無功負荷L、L及機組有功出力G,代表采用傳統VVC算法計算得到的無功設備控制策略。然后直接使用深度學習、支持向量機等監督學習方法,將專家樣本中的作為輸入,作為標簽進行訓練,學習的目標是使模型預測值與標簽值的偏差達到最小,具體可表示為

由于IL本質是監督學習,訓練過程簡單,但需要大量不同運行場景下的控制策略專家樣本作為基礎,當采用傳統無功優化算法生成專家樣本時往往存在耗時較長的問題。此外,由于模型訓練只限定于固定的專家樣本集,當實際應用時碰到的運行場景與訓練時所用的專家樣本相差較大時,可能會導致控制結果不甚理想。

1.3 基于DRL的VVC

本文以VVC研究中應用最為廣泛的“Actor-Critic”類型DRL算法進行說明。“Actor-Critic”類型DRL算法由Actor網絡及Critic網絡構成,其中Actor網絡同樣用于建立系統狀態參數與無功設備控制策略之間的映射,Critic網絡用于建立(,)與一個標量之間的映射,該標量被稱為動作價值,用于評判無功設備控制策略的好壞。由于DRL沒有標簽數據,Actor網絡能夠生成良好的前提是Critic網絡能夠對不同的好壞做出精準的判斷,即Critic網絡利用動作價值指導Actor網絡參數更新。因此“Actor-Critic”類型DRL本質上是基于智能體與環境(電力系統)不斷交互生成的數據樣本,對Actor網絡及Critic網絡參數不斷進行訓練升級,最終達到的目標為Critic網絡能夠針對不同生成最為準確的值,Actor網絡能夠針對不同均生成值最大的。當“Actor-Critic”類型DRL算法應用于VVC時,在單次迭代過程中主要包括三個步驟。

1)訓練樣本的生成。生成樣本如式(3)所示。

2)Critic網絡的訓練。在DRL中,Critic網絡的訓練目標是使得任意的值滿足如式(4)所示的動作價值貝爾曼方程,即當前的值等于與新狀態生成動作的值之和的期望值。

因此,在訓練過程中將二者的差值作為損失函數對Critic網絡參數進行訓練,具體參數更新梯度公式為

3)Actor網絡的訓練。為使Actor網絡生成具有最大值的,Actor網絡將Critic生成的值作為重要參數指導自身網絡參數訓練,根據數學推導,其更新梯度公式可表示為

DRL無需專家樣本進行指導,而是通過智能體不斷試錯得到的獎勵值來指導擬合系統狀態參數與無功設備控制策略之間的非線性關系,訓練完成的模型對于全新運行場景具有極強的適應性。但是Actor網絡能夠生成良好控制策略的前提是Critic網絡能夠對不同控制策略的好壞做出精準的判斷,而Actor網絡及Critic網絡均為隨機初始化生成,因此在訓練初始階段,由于Critic網絡的不完備、無法精準評判Actor網絡生成的控制策略,智能體的隨機探索存在大量的計算浪費。此外,現有研究應用DRL時通常將VVC作為序列決策問題,在Critic網絡單步更新時,所需計算的參數包括當前控制策略的值、值及下一步控制策略的值,且求解值在現有文獻中均需要通過傳統潮流計算方法,求解速度緩慢。同時Critic網絡訓練目標為動作價值貝爾曼方程,與IL只需追求預測值與標簽值差距最小的訓練方式相比,訓練難度也大幅增加。

因此,提高DRL離線訓練速度的核心應集中于如何在保證CRITIC網絡能夠準確評判不同控制策略質量的基礎上,采用更為簡便的操作提升CRITIC網絡的訓練速度。

2 基于SASDRL的集中式VVC

事實上,由于VVC中涉及長時間尺度的問題只有離散型無功設備的動作次數約束問題,而在本文的研究對象——多時間尺度VVC實時控制階段中,離散型無功設備的狀態保持固定不變,控制對象只有連續型無功設備,即使前后控制時間斷面產生的控制策略差異很大,也能夠通過連續型設備無功調節的平滑性實現對控制指令的快速響應,不同控制時間斷面對應的優化問題可以解耦[36-37]。因此,在實時控制階段VVC的DRL訓練過程中,本文將DRL原本設定的序列決策問題解耦為單點決策問題,結合DRL應用于VVC在線計算時的極速性,能夠實現實時控制階段不同時間斷面的最優控制,同時大幅降低DRL的訓練計算量及計算難度。

綜上所述,本文首先提出一種SASDRL方法應用于多時間尺度VVC的實時控制階段,適用對象為量測及通信設施完備的輸電網,控制架構為集中式控制,其核心思想包括:

1)將傳統DRL中設定的序列決策問題簡化為單點決策問題,即評判當前控制策略好壞的指標由式(4)直接簡化為(,,)=。Critic網絡的功能由實現(,)至原動作價值的映射,轉化為以監督學習方式直接擬合(,)與節點電壓之間的非線性關系,并結合獎勵函數生成當前控制策略對應的獎勵值。此處設定的獎勵函數仍采用傳統數學優化模型中的目標函數,但與傳統DRL不同之處在于目標函數的自變量(節點電壓)無需通過復雜的潮流計算過程得到,而是轉化為直接由極為簡單的Critic網絡前向計算過程映射得到。

2)由于Actor網絡能否生成良好控制策略取決于Critic網絡能否精準評判不同控制策略的價值,再加上Critic網絡訓練方式的大大簡化,本文將DRL中Actor、Critic網絡并行更新方式轉變為順序更新方式,即在完成Critic網絡訓練的基礎上再開展Actor網絡的訓練,使得Actor網絡在訓練初始就能獲得完備Critic網絡的良好指導(即通過完備Critic網絡能立即獲取能夠正確評判當前控制策略的獎勵值),獲得正確的更新梯度,與原始DRL相比能大幅減少訓練初始階段的無效探索及計算浪費。

基于SASDRL核心思想的訓練過程如下。

1)Critic網絡的訓練。在L、L處于[0, 1.2]倍正常水平區間、G處于[0, 1]倍機組額定功率區間、CQ處于無功設備出力上下限區間內隨機取值,形成(,)作為監督訓練的輸入,并作潮流計算得到節點電壓作為標簽數據,生成Critic網絡訓練所需的數據樣本。本文采用深度學習作為監督訓練方法,為使訓練出的模型與系統實際物理信息相符,具有更強的普適性,本文采用文獻[38]中提出的方案,在損失函數中加入基于預測電壓值與線路電阻、電抗等系統物理信息計算得到的節點有功、無功偏差損失函數。

2)Actor網絡的訓練。當Critic網絡訓練完成后,由于Critic網絡可以準確預測各運行場景下的節點電壓值,便可結合獎勵函數生成評價指標獎勵值,用于精準判斷當前控制策略的好壞。在Actor網絡訓練過程中,Critic網絡參數保持不變,只需通過簡單的鏈式求導法便可求得Actor網絡參數的最優更新梯度,同時結合adam算法[39]加快參數的尋優速度。此外,為了保證Actor網絡模型的普適性,在Actor網絡單次迭代中采用的所有運行場景均為重新隨機生成。

式中,為Actor網絡參數梯度動量;gh分別為利用加權平均法累積的梯度動量及梯度二次方動量;1、2為梯度動量超參數;為參數更新次數;為防止分母為零而設置的極小參數。

綜上所述,基于SASDRL的VVC訓練流程如圖1所示。

圖1 基于SASDRL的VVC訓練流程

3 基于MASDRL+IL的分布式VVC

理論上集中式VVC能夠獲得最優的電壓控制效果,但其需要以完備的實時通信設施及強大的集中計算中心為基礎,這在配備有完備量測設備、節點數目相對較少的輸電網是可行的,但在有大量分布式能源接入的配電網卻是難以實現的。因為配電網結構復雜,線路、節點數目繁多,基于電網建設的經濟性無法做到像輸電網一樣為配電網內每條線路、每個節點都配備實時量測裝置。同時隨著配電網中新能源發電滲透率的逐步提高,集中式控制需要采集的數據量及優化變量個數逐漸增多,問題復雜度逐漸增大,使得集中式控制應用于配電網時難以實現實時的優化。因此為了快速平抑新能源出力快速變化造成的配電網無功功率和電壓波動,同時完全消除節點-主站實時交互通信的沉重負擔,眾多學者將多智能體強化學習(Multi-Agent Deep Reinforcement Learning, MADRL)應用于配電網多時間尺度VVC的實時控制階段。核心思想是將每個連續型無功設備均設為獨立的智能體,采用“集中式訓練-分布式控制”的模式為每個智能體離線訓練一個動作策略網絡,在線應用時僅利用無功設備所連接節點的局部信息進行決策,達到所有無功設備的就地協同控制。

3.1 基于MADRL的VVC

在現有將MADRL應用于VVC的研究中,采用的算法如MADDPG(multi-agent deep determine-stic policy gradient)、MASAC(multi-agent soft actor-critic)等繼續沿用DRL中的“Actor-Critic”經典架構,即利用Actor網絡生成無功設備控制策略,Critic網絡用于評價控制策略的好壞。不同的是,需要為每個智能體單獨訓練一個Actor網絡,每個Actor網絡的輸入僅為該無功設備所連接節點的局部信息,包括節點有功功率P=PLiGi、節點無功功率Q=QLiGi、節點電壓V(在線應用時,節點有功功率、無功功率及電壓局部信息由實時監測獲得),輸出僅為該無功設備的控制指令Gi。由于VVC是所有無功設備共同合作型任務,因此Critic網絡僅有一個,輸入、輸出數據與單智能體Critic網絡相同。由于Critic網絡輸入數據中包含了每個智能體的決策信息,即每個無功設備的控制指令,所以Critic網絡還起到輔助Actor網絡建模其他智能體行為的作用,部分彌補了單個Actor網絡只能觀測到局部信息的缺陷,構建智能體之間的協同性。在單次迭代過程中Actor與Critic網絡的更新公式分別為

3.2 基于MASDRL+IL的VVC

與傳統單智能體DRL一樣,由于MADRL各Actor網絡與Critic網絡仍為隨機初始化生成,Critic網絡在訓練初期無法給予各Actor網絡良好的指導,因此MADRL仍然存在因訓練初期大量無效隨機探索而導致的訓練速度慢且訓練效果極不穩定的缺點。此外,雖然Critic網絡完成了對所有智能體控制指令的建模、實現智能體之間的協同控制,但由于每個智能體的觀測只有連接節點的少量局部信息,因此MADRL應用于VVC時無法完全等效于集中控制時的全局優化效果。

本文提出一種基于MASDRL+IL的分布式方法應用于配電網多時間尺度VVC的實時控制階段。首先將3.1節提出的簡化強化學習思想引入多智能體強化學習,即將Critic網絡的功能簡化為以監督學習方式擬合系統狀態與節點電壓的非線性關系,使得各Actor網絡在訓練初期就能獲得Critic網絡對其動作指令的精準評價;其次引入IL用于各Actor網絡的初始化,IL的樣本來自SASDRL生成的不同場景下的訓練樣本,使得各Actor網絡在訓練初始就能擁有集中控制的全局優化思想,獲得生成良好無功設備指令的能力。設定基于集中式方法SASDRL訓練得到的Critic、Actor網絡分別為Critic-C、Actor-C, 基于分布式方法MASDRL+IL訓練得到的Critic、Actor網絡分別為Critic-D、Actor-D。具體的訓練過程如下。

1)Actor-D網絡初始化。首先完成適用于當前系統的SASDRL訓練,得到Actor-C網絡;其次隨機生成大量不同的系統運行場景輸入Actor-C網絡后,得到對應的控制策略,生成Actor-D網絡初始化的訓練樣本集合;最后針對不同的Actor-D網絡,從中抽取各Actor-D網絡訓練需要的sa數據進行監督學習訓練。

2)Critic-D網絡與Critic-C網絡完全一致,無需再另外進行訓練。

3)Actor-D網絡訓練。與SASDRL類似,在各Actor-D網絡訓練過程中,Critic-D網絡參數保持不變,各Actor-D網絡參數的更新梯度在?/?中對應提取得到,具體表示為

綜上所述,基于MASDRL+IL的分布式VVC訓練流程如圖2所示。

4 仿真算例

4.1 仿真設置

本文基于改進的IEEE 118節點系統對所提出方法的正確性與快速性進行驗證。為模擬分布式能源對系統造成的電壓波動,本文設定在網架末端109、114、115、117、118節點分別配置額定容量為5 MV·A的光伏,控制的無功設備包括系統內所有發電機組及光伏的無功出力,共計58個控制變量(實際應用時,當實時控制頻次設定為s級或min級時,控制設備可以是電網內配置的所有連續型無功設備)。控制目標是系統內所有節點的電壓都趨近于1(pu)。所有仿真驗證均在配備Intel Core i5-12500H CPU @ 2.5 GHz和16 GB 內存的計算機上完成,所有的控制程序均由Python 3.7.5版本進行編寫。

為了評估所提方法所能達到的控制效果,本文開展了與不同類型控制方法的對比實驗。對比方法描述見表1,算法參數設置見表2。為保證公平比較不同方法之間的優劣,集中式控制不同方法、分布式控制不同方法的Critic網絡、Actor網絡架構設置及學習率均完全相同,內點法參數參照文獻[40]進行設置。本文利用隨機生成的500個不同的控制場景對各方法的控制效果進行比較,對比指標包括系統節點平均電壓偏差(計算該指標所需的各節點電壓值來源為利用不同方法完成不同測試場景下的VVC決策,并“虛擬執行”無功設備控制策略后,經潮流計算獲得的節點電壓值)、訓練尋優性能、離線訓練時間及在線計算時間。

表1 對比方法描述

Tab.1 Description of different methods

表2 算法參數設置

Tab.2 Parameters setting of different methods

(續)

4.2 基于SASDRL的集中式VVC驗證

首先對四種集中式控制方法在500個不同測試場景下的控制結果(系統平均電壓偏差av)進行了統計,結果見表3;其次對四種方法所需的離線訓練時間及在線計算時間進行了統計。為了更清晰地對比四種方法的控制效果,圖3將500個不同場景經四種方法控制后的系統平均電壓偏差以繪線方式展示。500個場景被均分為五等份,分別位于圖3a~圖3e中。

表3 集中式控制方法的av及耗用時間統計

Tab.3 ?Vav and consumed time of centralized methods

從表3中針對av的統計數據可以看出,采用本文提出的SASDRL與IPM的控制效果極其相近,針對500個測試樣本的平均、最大、最小av均基本一致,證明SASDRL能夠達到與具有嚴格理論基礎的傳統數學方法一樣的尋優精度(SASDRL在平均、最大、最小av三項指標均稍優于IPM 的原因是無功優化問題實質是非凸優化問題,尤其當控制變量維數過高時,即使采用傳統數學算法也無法保證能夠收斂至全局最優,進一步證明了SASDRL在高維控制尋優的優越性)。采用IL能夠獲得稍差于SASDRL與IPM的整體控制效果,平均av略小于以上兩種方法,但由于專家樣本集有限,無法做到涵蓋所有的控制變量可行域空間,導致IL得到的最大av高于其他三種方法。采用SAC獲得了最差的控制效果,表明傳統DRL方法因算法設定的復雜性,應用于高維控制問題時難以收斂至全局最優。以上結論在圖3中均可得到進一步的展現,SASDRL與IPM形成的曲線針對500個測試場景均粘合在一起。IL形成的曲線大部分與前兩種方法相近,但在某些測試場景,如81號、470號、497號測試樣本出現尖刺狀凸起。SAC形成的曲線基本脫離以上三種方法而存在于上方電壓偏差較大的空間。

圖3 采用不同集中式控制方法在500個測試場景下的?Vav對比

從表3中針對離線訓練時間及在線計算時間的統計數據中可以看出,采用機器學習類方法的在線運算速度遠超以IPM為代表的傳統方法,計算速度加速至ms級,針對分布式能源接入電力系統帶來的無功電壓快速波動完全能夠做到實時響應控制。在離線訓練時間方面,采用SASDRL所消耗的訓練時間最少,是SAC 方法訓練速度的4.47倍,是IL訓練速度的50.76倍,且SASDRL的絕大部分訓練時間是用于Critic網絡監督訓練所需專家樣本的生成過程,占比達到362/415.6×100%=87.1%。而用于訓練Critic網絡的時間占比僅為44.1/415.6× 100%=10.6%,用于訓練Actor網絡的時間占比僅為9.5/415.6×100%=2.3%。真正用于訓練兩個網絡的時間僅用53.6 s就能夠完成,證明采用本文方法的各項簡化操作后,在保證尋優精度的基礎上,Critic網絡與Actor網絡的訓練速度能夠得到極大提升。

4.3 基于MASDRL+IL的分布式VVC驗證

圖4為不同分布式控制方法在訓練過程中的尋優性能對比。以基于SASDRL的集中式控制效果作為參照標準,表4首先對各方法在500個測試場景下的av進行了統計,其次對各方法所需的離線訓練時間進行了統計。

圖4 采用不同分布式控制方法的訓練尋優性能對比

表4 分布式控制方法的?av及耗用時間統計

Tab.4 ?Vav and consumed time of decentralized methods

從表4中針對av的統計數據容易看出,采用本文方法,即基于MASDRL+IL的VVC方法,能夠獲得最優的分布式控制效果,最接近于集中式控制獲得的各項av數據。從圖4中的訓練曲線可以看出,采用MASDRL+IL獲得的尋優性能最優且最為穩定,由于IL提前將集中式控制思想注入各智能體,因此在訓練初始智能體群就已經獲得較好的協同控制效果。MASDRL雖然基于簡化強化學習思想同樣能夠快速收斂,但由于各智能體之間缺乏全局優化思想的指引,最終獲得的控制效果要比MASDRL+IL差。MADDPG與傳統SASDRL方法類似,由于各智能體Actor網絡與Critic網絡為隨機初始化,Critic網絡在訓練初期無法對各Actor網絡的集合控制策略進行精準的評價,導致訓練指標在初期一直保持較高的數值,同時由于傳統MADRL訓練的復雜性,最終獲得了三種分布式控制方法中最差的控制效果。

在訓練時間方面,首先對SASDRL與MASDRL進行對比,由于二者的Critic網絡的訓練過程完全一致(表4中所示的362+44.1部分),因此二者訓練時間的不同主要體現在Actor網絡的訓練上,雖然MASDRL需要針對每個無功設備訓練一個Actor網絡,但每個無功設備所對應的Actor網絡參數規模遠小于SASDRL的Actor網絡參數規模,因此MASDRL的訓練時間僅比SASDRL增加了3.01%。其次,本文在MASDRL的基礎上引入IL提升了分布式控制效果,雖然相較于純粹的MASDRL,增加了SASDRL的Actor網絡訓練操作、基于SASDRL的訓練樣本生成操作及MASDRL各智能體Actor網絡初始化訓練操作,但以上三項操作消耗的時間均非常少,其中第一項操作僅增加9.5 s,第二項是深度學習的前向計算過程,第三項是訓練樣本、訓練次數均設定較少的監督學習過程,二者合計只增加8.7 s,因此相較于純粹的MASDRL,基于MASDRL+IL的VVC方法訓練時間僅增加了1.96%,而相較于MADDPG卻減少了82.77%。

5 結論

1)本文提出了一種基于單智能體簡化強化學習的集中式VVC方法,通過對Critic網絡訓練目標的簡化,在保證精準評判無功設備動作策略的基礎上,將Critic網絡訓練方式轉化為操作簡單的監督學習方式。同時通過設定在Critic網絡訓練完畢的基礎上再進行Actor網絡訓練,避免了傳統強化學習在訓練初始階段的無效探索與計算浪費。基于改進IEEE 118節點系統的仿真計算結果證明,相較于傳統數學方法和傳統強化學習、模仿學習等機器學習方法,本文方法能夠在大幅加速強化學習離線訓練速度并保證算法普適性的基礎上,獲得與傳統數學方法極為相近的優異控制效果。

2)本文提出了一種基于多智能體簡化強化學習+模仿學習的分布式VVC方法。將各無功設備都視為無需與外界進行實時通信的智能體,在繼承簡化強化學習思想的基礎上引入模仿學習用于Actor網絡參數的初始化,使得各智能體的Actor網絡在訓練開始之前就擁有集中式控制全局優化的思想。基于改進IEEE 118節點系統的仿真計算結果證明,相較于傳統多智能體強化學習與純粹多智能體簡化強化學習,本文方法能夠在極少增加離線訓練時間的基礎上提升各無功設備的就地協同控制效果。

[1] Mahmud N, Zahedi A. Review of control strategies for voltage regulation of the smart distribution network with high penetration of renewable distributed generation[J]. Renewable and Sustainable Energy Reviews, 2016, 64: 582-595.

[2] 高聰哲, 黃文燾, 余墨多, 等. 基于智能軟開關的主動配電網電壓模型預測控制優化方法[J]. 電工技術學報, 2022, 37(13): 3263-3274. Gao Congzhe, Huang Wentao, Yu Moduo, et al. A model predictive control method to optimize voltages for active distribution networks with soft open point[J]. Transactions of China Electrotechnical Society, 2022, 37(13): 3263-3274.

[3] 康重慶, 姚良忠. 高比例可再生能源電力系統的關鍵科學問題與理論研究框架[J]. 電力系統自動化, 2017, 41(9): 2-11. Kang Chongqing, Yao Liangzhong. Key scientific issues and theoretical research framework for power systems with high proportion of renewable energy[J]. Automation of Electric Power Systems, 2017, 41(9): 2-11.

[4] 姚良忠, 朱凌志, 周明, 等. 高比例可再生能源電力系統的協同優化運行技術展望[J]. 電力系統自動化, 2017, 41(9): 36-43. Yao Liangzhong, Zhu Lingzhi, Zhou Ming, et al. Prospects of coordination and optimization for power systems with high proportion of renewable energy[J]. Automation of Electric Power Systems, 2017, 41(9): 36-43.

[5] 郭慶來, 王彬, 孫宏斌, 等. 支撐大規模風電集中接入的自律協同電壓控制技術[J]. 電力系統自動化, 2015, 39(1): 88-93, 130. Guo Qinglai, Wang Bin, Sun Hongbin, et al. Autonomous-synergic voltage control technology supporting large-scale wind power integration[J]. Automation of Electric Power Systems, 2015, 39(1): 88-93, 130.

[6] Wang Gang, Kekatos V, Conejo A J, et al. Ergodic energy management leveraging resource variability in distribution grids[J]. IEEE Transactions on Power Systems, 2016, 31(6): 4765-4775.

[7] 陳江瀾, 湯衛東, 肖小剛, 等. 華中電網協調電壓控制模式研究[J]. 電力自動化設備, 2011, 31(8): 47-51. Chen Jianglan, Tang Weidong, Xiao Xiaogang, et al. Coordinated voltage control for Central China Power Grid[J]. Electric Power Automation Equipment, 2011, 31(8): 47-51.

[8] 徐峰達, 郭慶來, 孫宏斌, 等. 基于模型預測控制理論的風電場自動電壓控制[J]. 電力系統自動化, 2015, 39(7): 59-67. Xu Fengda, Guo Qinglai, Sun Hongbin, et al. Automatic voltage control of wind farms based on model predictive control theory[J]. Automation of Electric Power Systems, 2015, 39(7): 59-67.

[9] 國家市場監督管理總局, 國家標準化管理委員會. GB/T 37408—2019 光伏發電并網逆變器技術要求[S]. 北京: 中國標準出版社, 2019.

[10] Liu Haotian, Wu Wenchuan. Two-stage deep reinforcement learning for inverter-based volt-VAR control in active distribution networks[J]. IEEE Transactions on Smart Grid, 2021, 12(3): 2037-2047.

[11] 顏湘武, 徐韻, 李若瑾, 等. 基于模型預測控制含可再生分布式電源參與調控的配電網多時間尺度無功動態優化[J]. 電工技術學報, 2019, 34(10): 2022-2037. Yan Xiangwu, Xu Yun, Li Ruojin, et al. Multi-time scale reactive power optimization of distribution grid based on model predictive control and including RDG regulation[J]. Transactions of China Electrotechnical Society, 2019, 34(10): 2022-2037.

[12] 黃大為, 王孝泉, 于娜, 等. 計及光伏出力不確定性的配電網混合時間尺度無功/電壓控制策略[J]. 電工技術學報, 2022, 37(17): 4377-4389. Huang Dawei, Wang Xiaoquan, Yu Na, et al. Hybrid time-scale reactive power/voltage control strategy for distribution network considering photovoltaic output uncertainty[J]. Transactions of China Electrotechnical Society, 2022, 37(17): 4377-4389.

[13] Cao Di, Zhao Junbo, Hu Weihao, et al. Deep reinforcement learning enabled physical-model-free two-timescale voltage control method for active distribution systems[J]. IEEE Transactions on Smart Grid, 2022, 13(1): 149-165.

[14] Wang Licheng, Bai Feifei, Yan Ruifeng, et al. Real-time coordinated voltage control of PV inverters and energy storage for weak networks with high PV penetration[J]. IEEE Transactions on Power Systems, 2018, 33(3): 3383-3395.

[15] 胡丹爾, 彭勇剛, 韋巍, 等. 多時間尺度的配電網深度強化學習無功優化策略[J]. 中國電機工程學報, 2022, 42(14): 5034-5045. Hu Daner, Peng Yonggang, Wei Wei, et al. Multi-timescale deep reinforcement learning for reactive power optimization of distribution network[J]. Proceedings of the CSEE, 2022, 42(14): 5034-5045.

[16] 李靜, 戴文戰, 韋巍. 基于混合整數凸規劃的含風力發電機組配電網無功補償優化配置[J]. 電工技術學報, 2016, 31(3): 121-129. Li Jing, Dai Wenzhan, Wei Wei. A mixed integer convex programming for optimal reactive power compensation in distribution system with wind turbines[J]. Transactions of China Electrotechnical Society, 2016, 31(3): 121-129.

[17] 趙晉泉, 居俐潔, 戴則梅, 等. 基于分支定界—原對偶內點法的日前無功優化[J]. 電力系統自動化, 2015, 39(15): 55-60. Zhao Jinquan, Ju Lijie, Dai Zemei, et al. Day-ahead reactive power optimization based on branch and bound-interior point method[J]. Automation of Electric Power Systems, 2015, 39(15): 55-60.

[18] 崔挺, 孫元章, 徐箭, 等. 基于改進小生境遺傳算法的電力系統無功優化[J]. 中國電機工程學報, 2011, 31(19): 43-50. Cui Ting, Sun Yuanzhang, Xu Jian, et al. Reactive power optimization of power system based on improved niche genetic algorithm[J]. Proceedings of the CSEE, 2011, 31(19): 43-50.

[19] Malachi Y, Singer S. A genetic algorithm for the corrective control of voltage and reactive power[J]. IEEE Transactions on Power Systems, 2006, 21(1): 295-300.

[20] Jalali M, Kekatos V, Gatsis N, et al. Designing reactive power control rules for smart inverters using support vector machines[J]. IEEE Transactions on Smart Grid, 2020, 11(2): 1759-1770.

[21] 邵美陽, 吳俊勇, 石琛, 等. 基于數據驅動和深度置信網絡的配電網無功優化[J]. 電網技術, 2019, 43(6): 1874-1883. Shao Meiyang, Wu Junyong, Shi Chen, et al. Reactive power optimization of distribution network based on data driven and deep belief network[J]. Power System Technology, 2019, 43(6): 1874-1883.

[22] 李鵬, 姜磊, 王加浩, 等. 基于深度強化學習的新能源配電網雙時間尺度無功電壓優化[J]. 中國電機工程學報, 2023, 43(16): 6255-6266. Li Peng, Jiang Lei, Wang Jiahao, et al. Optimization of dual-time scale reactive voltage for distribution network with renewable energy based on deep reinforcement learning[J]. Proceedings of the CSEE, 2023, 43(16): 6255-6266.

[23] 倪爽, 崔承剛, 楊寧, 等. 基于深度強化學習的配電網多時間尺度在線無功優化[J]. 電力系統自動化, 2021, 45(10): 77-85. Ni Shuang, Cui Chenggang, Yang Ning, et al. Multi-time-scale online optimization for reactive power of distribution network based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2021, 45(10): 77-85.

[24] Duan Jiajun, Shi Di, Diao Ruisheng, et al. Deep-reinforcement-learning-based autonomous voltage control for power grid operations[J]. IEEE Transactions on Power Systems, 2020, 35(1): 814-817.

[25] Wang Wei, Yu Nanpeng, Gao Yuanqi, et al. Safe off-policy deep reinforcement learning algorithm for volt-VAR control in power distribution systems[J]. IEEE Transactions on Smart Grid, 2020, 11(4): 3008-3018.

[26] Yang Qiuling, Wang Gang, Sadeghi A, et al. Two-timescale voltage control in distribution grids using deep reinforcement learning[J]. IEEE Transactions on Smart Grid, 2020, 11(3): 2313-2323.

[27] Kulmala A, Repo Sami, J?rventausta P. Coordinated voltage control in distribution networks including several distributed energy resources[J]. IEEE Transactions on Smart Grid, 2014, 5(4): 2010-2020.

[28] Cavraro G, Carli R. Local and distributed voltage control algorithms in distribution networks[J]. IEEE Transactions on Power Systems, 2018, 33(2): 1420-1430.

[29] Karagiannopoulos S, Aristidou P, Hug G. Data-driven local control design for active distribution grids using off-line optimal power flow and machine learning techniques[J]. IEEE Transactions on Smart Grid, 2019, 10(6): 6461-6471.

[30] 樂健, 王曹, 李星銳, 等. 中壓配電網多目標分布式優化控制策略[J]. 電工技術學報, 2019, 34(23): 4972-4981. Le Jian, Wang Cao, Li Xingrui, et al. The multi-object distributed optimization control strategy of medium voltage distribution networks[J]. Transactions of China Electrotechnical Society, 2019, 34(23): 4972-4981.

[31] 趙晉泉, 張振偉, 姚建國, 等. 基于廣義主從分裂的輸配電網一體化分布式無功優化方法[J]. 電力系統自動化, 2019, 43(3): 108-115. Zhao Jinquan, Zhang Zhenwei, Yao Jianguo, et al. Heterogeneous decomposition based distributed reactive power optimization method for global transmission and distribution network[J]. Automation of Electric Power Systems, 2019, 43(3): 108-115.

[32] Zeraati M, Hamedani Golshan M E, Guerrero J M. Distributed control of battery energy storage systems for voltage regulation in distribution networks with high PV penetration[J]. IEEE Transactions on Smart Grid, 2018, 9(4): 3582-3593.

[33] Sun Xianzhuo, Qiu Jing. Two-stage volt/var control in active distribution networks with multi-agent deep reinforcement learning method[J]. IEEE Transactions on Smart Grid, 2021, 12(4): 2903-2912.

[34] 趙冬梅, 陶然, 馬泰屹, 等. 基于多智能體深度確定策略梯度算法的有功-無功協調調度模型[J]. 電工技術學報, 2021, 36(9): 1914-1925. Zhao Dongmei, Tao Ran, Ma Taiyi, et al. Active and reactive power coordinated dispatching based on multi-agent deep deterministic policy gradient algorithm[J]. Transactions of China Electrotechnical Society, 2021, 36(9): 1914-1925.

[35] Liu Haotian, Wu Wenchuan. Online multi-agent reinforcement learning for decentralized inverter-based volt-VAR control[J]. IEEE Transactions on Smart Grid, 2021, 12(4): 2980-2990.

[36] Cao Di, Hu Weihao, Zhao Junbo, et al. Reinforcement learning and its applications in modern power and energy systems: a review[J]. Journal of Modern Power Systems and Clean Energy, 2020, 8(6): 1029-1042.

[37] Xu Yan, Dong Zhaoyang, Zhang Rui, et al. Multi-timescale coordinated voltage/var control of high renewable-penetrated distribution systems[J]. IEEE Transactions on Power Systems, 2017, 32(6): 4398-4408.

[38] Yang Yan, Yang Zhifang, Yu Juan, et al. Fast calculation of probabilistic power flow: a model-based deep learning approach[J]. IEEE Transactions on Smart Grid, 2020, 11(3): 2235-2244.

[39] Diederik P Ki, Jimmy L B. Adam: a method for stochastic optimization[C]//Proceedings of the 3rd International Conference on Learning Representations (ICLR), San Diego, USA, 2015: 1-13.

[40] Zhang Cong, Chen Haoyong, Shi Ke, et al. An interval power flow analysis through optimizing-scenarios method[J]. IEEE Transactions on Smart Grid, 2018, 9(5): 5217-5226.

Single/Multi Agent Simplified Deep Reinforcement Learning Based Volt-Var Control of Power System

Ma Qing Deng Changhong

(School of Electrical Engineering and Automation Wuhan University Wuhan 430072 China)

In order to quickly suppress the rapid fluctuations of reactive power and voltage caused by the random output change of distributed energies, machine learning (ML) methods represented by deep reinforcement learning (DRL) and imitation learning (IL) have been applied to volt-var control (VVC) research recently, to replace the traditional methods which require a large number of iterations. Although the ML methods in the existing literature can realize the online rapid VVC optimization, there are still some shortcomings such as slow offline training speed and insufficient universality that hinder their applications in practice.

Firstly, this paper proposes a single-agent simplified DRL (SASDRL) method suitable for the centralized control of transmission networks. Based on the classic "Actor-Critic" architecture and the fact that the Actor network can generate wonderful control strategies heavily depends on whether the Critic network can make accurate evaluation, this method simplifies and improves the offline training process of DRL based VVC, whose core ideas are the simplification of Critic network training and the change in the update mode of Actor and Critic network. It simplifies the sequential decision problem set in the traditional DRL based VVC to a single point decision problem and the output of Critic network is transformed from the original sequential action value into the reward value corresponding to the current control strategy. In addition, by training the Critic network in advance to help the accelerated convergence of Actor network, it solves the computational waste problem caused by the random search of agent in the early training stage which greatly improves the offline training speed, and retains the DRL’s advantages like without using massive labeled data and strong universality.

Secondly, a multi-agent simplified DRL method (MASDRL) suitable for decentralized and zero-communication control of active distribution network is proposed. This method generalizes the core idea of SASDRL to form a multi-agent version and continues to accelerate the convergence performance of Actor network of each agent on the basis of training the unified Critic network in advance. Each agent corresponds to a different VVC device in the system. During online application, each agent only uses the local information of the node connected to the VVC device to generate the control strategy through its own Actor network independently. Besides, it adopts IL for initialization to inject the global optimization idea into each agent in advance, and improves the local collaborative control effect between various VVC devices.

Simulation results on the improved IEEE 118-bus system show that SASDRL and MASDRL both achieve the best control results of VVC among all the compared methods. In terms of offline training speed, SASDRL consumes the least amount of training time, whose speed is 4.47 times faster than the traditional DRL and 50.76 times faster than IL. 87.1% of SASDRL's training time is spent on generating the expert samples required for the supervised training of Critic network while only 12.9% is consumed by the training of Actor and Critic network. Regarding MASDRL, it can realize the 82.77% reduction in offline training time compared to traditional MADRL.

The following conclusions can be drawn from the simulation analysis: (1) Compared with traditional mathematical methods and existing ML methods, SASDRL is able to obtain excellent control results similar to mathematical methods while greatly accelerating the offline training speed of DRL based VVC. (2) Compared with traditional MADRL, by the inheritance of SASDRL’ core ideas and the introduction of IL into the initialization of Actor network, the method of MASDRL+IL proposed can improve the local collaborative control effect between various VVC devices and offline training speed significantly.

Volt-var control, centralized control, single-agent simplified deep reinforcement learning, decentralized control, multi-agent simplified deep reinforcement learning

10.19595/j.cnki.1000-6753.tces.222195

TM76

國家重點研發計劃資助項目(2017YFB0903705)。

2022-11-22

2023-03-03

馬 慶 男,1990年生,博士研究生,研究方向電力系統無功電壓控制。E-mail:747942466@qq.com

鄧長虹 女,1963年生,教授,博士生導師,研究方向為電力系統安全穩定分析、可再生能源接入電網的優化控制。E-mail:dengch@whu.edu.cn(通信作者)

(編輯 赫 蕾)

猜你喜歡
控制策略智能設備
諧響應分析在設備減振中的應用
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
基于MPU6050簡單控制設備
電子制作(2018年11期)2018-08-04 03:26:08
容錯逆變器直接轉矩控制策略
主站蜘蛛池模板: 一区二区三区毛片无码| 欧美怡红院视频一区二区三区| 国产91无码福利在线| 伊人成人在线视频| 正在播放久久| 99久久精彩视频| 青青热久免费精品视频6| 波多野结衣第一页| 欧美亚洲香蕉| 国产欧美日韩另类精彩视频| 久久福利片| 久久久91人妻无码精品蜜桃HD| 美女扒开下面流白浆在线试听| 久久国产亚洲欧美日韩精品| 97国产精品视频自在拍| 日韩中文精品亚洲第三区| vvvv98国产成人综合青青| 国内黄色精品| 中国毛片网| 日本精品一在线观看视频| 91福利片| 亚洲日本精品一区二区| h视频在线观看网站| 国产无人区一区二区三区| 精品成人一区二区三区电影| 亚洲欧美在线精品一区二区| 中文纯内无码H| 国产日韩欧美视频| 亚洲精品国产乱码不卡| 欧美精品影院| 国产门事件在线| 波多野结衣一区二区三区AV| 高清无码一本到东京热 | 又大又硬又爽免费视频| 亚洲啪啪网| 国产成人久久综合一区| 九九久久精品免费观看| 粉嫩国产白浆在线观看| 91麻豆国产视频| 国产18在线| 久久综合亚洲色一区二区三区| 国产呦视频免费视频在线观看| 国产午夜一级淫片| 国产尤物在线播放| 久久国产精品波多野结衣| 国产一级在线播放| 国产精品一线天| 久久久无码人妻精品无码| 国产精品国产主播在线观看| 欧美69视频在线| 免费观看国产小粉嫩喷水| 国产精品极品美女自在线网站| 欧美一级高清片久久99| jizz在线观看| 国产亚洲高清在线精品99| 精品国产美女福到在线直播| 一级在线毛片| 欧洲高清无码在线| 国产精品开放后亚洲| 国产精品任我爽爆在线播放6080 | 亚洲人成在线精品| 三上悠亚一区二区| 99久久精品免费观看国产| 欧美不卡视频一区发布| 国内毛片视频| 一级爱做片免费观看久久| 国产一级视频久久| 一本大道香蕉高清久久| 亚洲最黄视频| 色有码无码视频| 欧美另类精品一区二区三区| 欧美激情综合| 久草视频精品| 就去吻亚洲精品国产欧美| 无码高潮喷水专区久久| 99精品国产高清一区二区| 韩国福利一区| 欧美日韩激情| 波多野结衣的av一区二区三区| 国产精品亚欧美一区二区三区 | 在线日韩一区二区| 免费a级毛片18以上观看精品|