基于多智能體深度強化學習的實時配電網電壓優化控制方法研究

2024-05-03 08:33:20周荃

電器工業 2024年5期

關鍵詞：控制策略配電網智能

周荃

（國網江蘇省電力有限公司丹陽市供電分公司）

1 光伏系統的動態電壓調控機制

1.1 光伏系統在電壓管理中的作用原理

光伏系統在電壓管理中起到關鍵作用，其調控機制主要依賴于可變無功功率。光伏系統的無功功率與系統容量的關系遵循方程：

式中，Sinv表示光伏逆變器的總容量；表示光伏逆變器當前的有功功率輸出。

1.2 電網內集成分布式能源的電壓管理與優化模型

在配電網絡中，日內實時無功電壓控制旨在通過協調無功調節裝置，在日前調度計劃的基礎上執行更精細的短期調整。這種調整的目標是提升電壓穩定性并減少網絡損耗：

式中，n表示節點的總數；CLoss表示單位電力損失的成本；PLoss,i表示第i個節點或時間步的電力損失；Ca表示電壓偏差的成本系數；m表示在每個節點或時間步考慮的電壓測量點的總數；ΔUi,j表示第i個節點或時間步和第j個電壓測量點之間的電壓偏差。

此模型的約束條件包括：

1）電壓限制

式中，Umin表示電壓的最小允許值或下限；U表示當前或任一特定節點的電壓水平；Umax表示電壓的最大允許值或上限。

2）光伏功率范圍

3）光伏系統容量和輸出功率的關系

式中，Qi,PV表示第i個光伏逆變器的無功功率；Si,PV2表示第i個光伏逆變器的額定容量；Pi,PV表示第i個光伏逆變器的有功功率。

4）電力平衡方程，確保每個時刻發電量與負荷量相匹配

式中，PG,i、QG,i分別表示第i節點的有功發電和無功發電；PL,i、QL,i分別表示第i節點的有功負荷和無功負荷；Ui、Uj分別表示第i和j節點的電壓幅值；Gij、Bij表示第i節點和j節點之間的電導和電納；δij表示第i和j節點電壓相角的差值。

2 配電網絡電壓控制的多智能體深度強化學習方法

2.1 多智能體深度學習與強化學習的結合

在配電網絡電壓控制領域，MADRL方法的融合展現出顯著的優勢。深度強化學習（DRL）結合深度學習的數據識別與狀態感知能力和強化學習的決策制定優勢，實現從策略空間的直接控制決策提取[2]。特別是在Actor-Critic（AC）框架下，深度策略梯度方法以其優化策略的高效性在電網調度等領域受到重視。

多智能體系統（MAS）中，合作型智能體通過協調互動形成協同控制策略，提升系統整體效益。MADRL在離線階段通過數據訓練智能體，以應對在線執行階段的實時決策挑戰，有效處理配電網絡中分布式電源和負荷的不確定性問題[3]。

2.2 配電網電壓控制中的雙延遲深度確定性策略梯度算法

為解決DQN在高維問題處理上的局限性及DDPG算法的過高估計問題，本研究采用了改進型TD3算法。TD3適用于連續動作空間，采用Actor-Critic框架，高效解決無功電壓控制問題。它通過最小化損失函數Lθ來調整策略，有效優化電網電壓控制策略。

Actor則根據狀態st輸出動作πφ(st)，并依據critic的Q值更新策略φ。actor更新參數的策略梯度計算方法：

TD3算法通過引入裁剪雙Q學習、延遲策略更新和目標策略平滑正則化三種技術手段，有效應對維度災難和次優解問題。具體而言，TD3采用兩套目標critic網絡Qθ1和Qθ2，計算更新目標值時選取較小者作為時間差分（TD）目標，從而降低過高估計的風險。此外，在TD誤差較小時更新actor網絡參數，減緩學習速率，避免過度適應特定樣本。引入的策略平滑正則化技術通過向動作增加高斯噪音，有效平均目標值，增強算法的泛化能力。

在中心化訓練分散式執行（CTDE）框架下，TD3算法通過離線訓練中的信息交換和集中式學習優化多智能體決策。在線執行階段，智能體依據局部觀測信息作決策，降低計算復雜度。TD3因此在處理電壓控制等復雜問題中顯示出卓越性能。

2.3 配電網無功電壓控制的部分可觀測馬爾科夫決策模型

本研究將配電網無功電壓控制建模為分布式部分可觀測馬爾科夫決策過程（Dec-POMDP），適用于多智能體深度強化學習（MADRL）。由于，光伏逆變器被視為獨立的智能體，在通信限制下無法獲取完整狀態信息，因此Dec-POMDP比完全可觀測的馬爾科夫決策過程（MDP）更適用于MADRL，Dec-POMDP模型定義為元組M表示為：

式中，n為參與決策的智能體數量；S為狀態集，包括所有智能體的狀態信息如負荷的有功和無功、光伏逆變器的出力等；為聯合動作集，包括所有智能體的動作；T為狀態轉移概率函數，描述智能體的聯合動作如何影響環境，從而確定下一狀態的概率；為聯合觀測信息集，包含每個智能體的局部量測信息；O為觀測概率函數，描述智能體觀測到特定信息的概率；R為獎勵函數，根據配電網無功電壓控制目標函數設計的即時獎勵函數，反映了網損和電壓偏差。

配電網無功電壓控制的部分可觀測馬爾科夫決策模型中，智能體依據本地觀測數據和動作結果做出決策，旨在最大化網損與電壓偏差相關的獎勵。該模型利用潮流計算模擬配電網運行，考慮光伏出力和負荷不確定性，指導智能體在每個時間步實現最優化決策[5]。Dec-POMDP模型的實施使智能體能夠在部分可觀測且動態變化的環境中有效學習，從而提高配電網無功電壓控制的性能和效率。

3 算例仿真與分析

3.1 算例介紹和算法參數配置

本研究的仿真測試基于搭載AMD Ryzen7-5800H CPU和NVIDA RTX3050Ti GPU的硬件平臺，以改進版IEEE 33節點配電系統為測試案例。系統中第13、18、22、25、29和33號節點裝有1.5MW容量的分布式光伏裝置，如圖1所示。基準電壓等級為12.66kV，根節點電壓標幺值設為1.00pu，安全運行電壓范圍為0.95pu至1.05pu。

圖1 基于深度強化學習優化的IEEE-33節點配電系統結構圖

在仿真環境設置中，本研究采用比利時電網的光伏數據和英國的負荷數據，通過加入標準差為0.1的高斯擾動，有效模擬了實際環境中的波動。該仿真環境包含一年數據，其中選取30天數據作為測試集，其余作為訓練集。強化學習訓練過程涵蓋400回合，每回合使用半天數據，智能體每3min做出一次動作決策。算法參數配置為：批尺寸64，經驗池容量5000，折扣因子0.99，步長240，學習率0.0001。該設置為模型訓練提供了均衡的數據分布，有助于智能體更好地適應并優化電網運行狀態。

此仿真環境旨在測試深度強化學習方法在實際電網電壓控制中的應用效果，考慮光伏發電和負荷波動性，模擬電網運行的不確定性，為控制策略評估提供測試平臺。

3.2 訓練效果分析

在訓練效果分析中，實驗選取光伏出力最大的典型日進行驗證，如圖2所示，揭示了在09∶00～15∶00的高峰時間段內，光伏出力顯著高于負荷需求。此現象導致功率倒送和電壓越限問題，反映了模型中需進一步考慮這種波動性因素以確保電網的穩定運行。

圖2 典型日配電網光伏發電與負荷變化曲線

經MATD3策略優化后，典型日測試顯示各節點電壓分布均處于安全運行范圍內。曲線圖進一步證實MATD3在電壓控制方面的有效性，展示了優化后策略的顯著控制效果，如圖3所示。

圖3 MATD3策略優化下典型日配電網電壓波動分析

3.3 對比分析

在本研究中，采用的MATD3策略與傳統Q-V下垂控制策略、無控制策略及MADDPG策略進行對比。結果顯示，MATD3在電壓控制和減少網損方面具有顯著優勢。例如，MATD3策略在電壓控制方面實現了最小的平均電壓偏差0.0069pu，計算效率為36ms，優于其他策略。結果見表1。

表1 深度強化學習在配電網電壓控制中的應用效能比較

此外，MATD3策略在網損減少方面也展現出最佳性能，相較于下垂控制和MADDPG方法分別減小了5.29%和10.61%的網損，證明了其在配電網無功電壓控制領域的應用效能和經濟性（見圖4）。通過這些對比分析，MATD3策略被證實有效提升配電網的整體性能和穩定性。

圖4 典型日內各控制策略對配電網網損影響分析

3.4 擴展性驗證

通過在141個節點的配電系統進行仿真測試，成功驗證了所提方法的擴展性（見圖5）。使用Matpower 7.1參數庫和典型日的PV、負荷曲線數據，確保了測試的準確性和一致性。

圖5 141節點配電系統在典型日的光伏發電與負荷動態曲線

測試結果表明，如表2所示，在增加智能體數量的情況下，模型成功適應了更大的狀態和動作空間。采用CTDE框架有效避免維度災難問題，確保算法在復雜環境下的有效收斂，同時維持優秀的計算性能和電壓控制效果。

表2 智能體數量對配電網電壓控制性能影響的測試結果

3.5 魯棒性驗證

在IEEE 33節點系統的測試中，模型面對50%光伏滲透率場景展現出強魯棒性。通過調整年度光伏最大出力與最大負荷之比，模型適應了3種不同高滲透率場景。測試結果證實模型能有效應對不同PV容量，顯示出卓越的適應力和控制效果，如表3所示。

表3 光伏滲透率對電網電壓穩定性和網損影響的測試分析

結果表明，隨著滲透率增加，逆變器調節容量的提升顯著增強了無功調節能力和系統電壓質量。研究方法展現出對配電網環境的強泛化能力和魯棒性，即在光伏出力顯著增加的場景下，依然能有效實施高質量的電壓控制策略。

4 結束語

本研究展示了MADRL在配電網電壓優化控制中的有效性。通過實施改進型TD3算法，解決了DQN和DDPG算法在高維問題處理和Q值估計中的局限性。仿真測試顯示，該方法能顯著優化電壓控制和降低網損，尤其在多變的配電網環境下表現出高效的適應性和魯棒性。此研究不僅在理論上推進了MADRL技術在電力系統中的應用，也為實際電網運行提供了有效的電壓控制策略，進而支持電力系統的可靠性和穩定性，貢獻于電力工程領域的持續發展。