基于Q- learning 算法的微電網彈性增強控制

2022-04-20 06:47:16王繼東劉孟奇李繼方

科學技術創新 2022年10期

王繼東劉孟奇李繼方

（華北水利水電大學電力學院,河南鄭州 450045）

1 概述

近年來極端災害事件頻繁發生,對電網的穩定運行存在著極大的安全威脅[1-2]。面對不可抗拒的極端災害發生,迫切需要增強電網彈性來抵御災害事件對電網穩定運行的破壞,減少損失,避免社會秩序混亂和發生嚴重的人員傷亡事故。電網彈性是用以衡量電網從極端災害事件發生時到恢復到正常供電狀態期間對災害事件的抵御能力[2]。如何提升電網在極端災害事件下的生存能力,維持電網對關鍵基礎設施及重要負荷的持續供電,是近年來電網控制領域的前沿問題與研究熱點。

微電網作為電網的一部分,在增強電網彈性的研究和建設中起到重要的支撐作用,在極端災害發生時,有必要通過微電網重構技術尋得最優拓撲結構來保障微電網的穩定運行,提升微電網的災害抵御能力,進而對主電網災后恢復起到重要的支撐作用[3]。

目前,在求解故障恢復中使用的算法種類繁多。文獻[4]采用啟發式算法求解恢復策略,該算法針對日益復雜的配電網故障恢復過程中的最優問題進行了求解,但該算法一般只能得到次優解,當多故障發生時,搜索空間相當龐大,在有限的時間內求得可行解較為困難。文獻[5]中,作者以廣度優先搜索為基礎,結合有功分配,考慮負荷均衡分配,使非故障區域合理恢復供電,該算法不僅適用在線計算,也適用離線場合。文獻[6]進一步考慮了分布式電源參與非故障區域黑啟動的恢復策略,并使用廣度優先算法和改進Prim 算法求解故障恢復的拓撲重構策略。

隨著電網環境與結構的復雜化,上述算法的局限性較為凸顯,而近年來,強化學習算法逐漸興起和應用于各領域,在電力系統中搭建多智能體框架下的故障恢復模型生成重構策略,為拓撲重構提供新的思路[7]。多智能體架構和強化學習算法的結合為實時性較強的電力系統來說,其具有平衡功率和能量、穩定電壓和頻率、實現資源優化管理和經濟協調運行的優點。對微電網彈性控制的增強、極端災害事件下的抵御能力的提升都具有重要的應用價值[8]。將多智能體與強化學習的結合應用于智慧電網領域將是現在和未來的重點研究內容。文獻[9]中,研究了基于MAS 的分布式分層控制對系統靈活性、可靠性的提高,也對比了不同的MAS 建模方法的優缺點,為優化控制策略的選擇提供依據。文獻[10]中構建了采用三層“防御- 攻擊- 防御”框架對分布式電源的位置和容量進行優化,考慮了攻擊后的拓撲重構和微電網的形成, 進一步發揮了分布式電源在負荷恢復方面的作用。

借鑒上述研究中的優點,本文提出將Q-learning 算法與MAS 框架的微電網緊密結合的控制策略,并對智能體動作的選取增加了建議度的參考量。根據元器件的不同劃分智能體的類別屬性、選擇和計算獎勵方式、確定動作策略以及更新算法迭代等,提高微電網拓撲重構問題的求解效率,并通過MATLAB/SIMULINK 仿真驗證了本文提出方法的有效性。

2 微電網的多智能體強化學習框架

2.1 微電網的多智能體框架

微電網是由各種分布式電源、負荷、儲能裝置以及控制設備協調運行的有機系統。微電網能夠自主的發輸配電,并具有并網和孤島兩種運行模式,對主網彈性的增強具有重要的支撐作用[11]。

微電網具備分布式系統的拓撲結構,引入多智能體系統（Multi-agent system,MAS）,利用MAS 的模塊化思想將微電網系統劃分為智能體結構。這種結構使得微電網中的每一個智能體都能采用最有效的方法解決特定的問題,實現分布式控制的目的。相比較于集中式控制,MAS 結構更具有一定的優勢。

2.2 多智能體強化學習

人工智能技術的發展推進,使得強化學習算法越來越被人們重視,強化學習的主旨思想是智能體與環境的交互作用和試錯,利用評價智能體動作好壞的獎勵值作為反饋信號,并通過多次迭代實現決策的優化并最大化累積回報。

隨著智慧化建設的發展,同時面臨著系統結構的復雜化、問題的多重化,單智能體強化學習已不滿足對一些專業領域問題的解決,故多智能體強化學習逐漸被人們研究和應用,其基本框架如圖1 所示。系統中存在多個智能體與環境交互,每個智能體仍然遵循著強化學習的目標,追求最大的累積回報,而此時環境狀態的改變則和多有智能體的聯合動作相關。多智能體強化學習與MAS 框架的微電網緊密結合,也為智慧電網建設起到推進作用。

圖1 多智能體強化學習基本框架

2.3 Q-learning 算法

Q-learning 算法憑借其算法模型簡單,全局搜索能力強、所需參數少等優點被應用于機械控制、業務管理和電力系統控制等多個領域。該算法最早是由Watkins提出的,在電力系統領域,Q-learning 算法在孤島微電網多電源參與協調頻率控制方面應用較為成功,能夠利用Q-learning 算法修正下垂參數,協調多個分布式電源進行頻率恢復控制,提升孤島微電網的頻率抗干擾性[12]。

而對于求解電網拓撲重構問題強化學習應用的較少,主要原因是其模型構建較為復雜,獎勵函數選取和動作策略確定較為困難等,甚至對于過于復雜的網絡拓撲結構,Q-learning 算法就顯現出災難維數、收斂緩慢等局限性[13]。

而微電網以其拓撲結構簡單的特點,為Q-learning算法提供了較為理想的應用環境。

3 微電網故障重構的恢復策略

3.1 智能體的劃分與獎勵值計算

根據微電網中智能體所處位置和功能不同,可將其劃分為三類：Load Agent、Local Agent 和Generator Agent。其中Load Agent 為與負載相連接的開關體,其獎勵值與負載恢復供電的優先級和負載所需功率有關,如式（1）所示。

式中,n 為給定微電網系統中的負載總數。

Local Agent 指給定系統中的所有開關體,不包括與Load Agent 和Generator Agent 相連的開關體。獎勵的格式根據Local Agent 的位置而有所不同。如式（2）所示。

Generator Agent 的狀態由給定分配系統的狀態預先確定的。因此,Generator Agent 不參與Q-learning 獎勵過程。

3.2 智能體動作及動作建議度的計算

由于每個智能體動作缺少對全局環境的了解,微電網控制中心可以利用其對全局狀況的了解,對每個智能體所要采取的動作提供建議。故本文采用了建議度的概念,如式(3)-(5)所示,其中A 表示智能體可選擇的動作集合,deg（i,a）表示智能體i 采取動作a 的建議度,其取值范圍為[-1,1],若deg（i,a）的值越接近1,則表示對智能體i 選擇動作a 的建議越強烈,反之亦然。式中,average（a）為智能體采取動作a 的平均值。

ε 貪心策略是強化學習中普遍采用的動作策略,如式（6）所示,它表示智能體在做決策時以ε 的概率隨機選擇非貪心策略,以1-ε 的概率選擇貪心策略。

式中,ε 取值范圍為[0,1],本文取0.4,n 表示可選取的動作數。

對于智能體接收到的建議度deg（i,a）,可用η 表示智能體可接受建議的程度大小,η 取值范圍為[0,1]。智能體并根據β、π（a）和deg（i,a）對策略進行更新,如式(7)-(8)所示。

式中,β 為任意常數,Info 為智能體所能接收的消息數量,π'（a）為更新后的策略值。

智能體i 每次與環境交互,都會根據當前環境狀態選擇動作,并獲得一定獎勵值,即在狀態sk做出動作ak,并到達狀態sk+1,獲得獎勵Reward（i,a）,Q 函數值為智能體i 動作前的Q 值與動作后獎勵折扣后的和,如式(9)所示。

3.3 電壓、電流約束

在仿真過程中應約束線路電壓在額定電壓的±5%范圍內,線路電流應小于給定配電系統中其線路額定電流的110%,即式（10）所示。

式中,Vi為線路實際電壓,VN為線路額定電壓。Ii為線路實際電流,IN為線路額定電流。

4 仿真及結果分析

為分析本文求解故障恢復策略方法的可行性與最優性,搭建微電網系統模型,如圖2 所示,其結構參數如表1 所示。對本文設置4 種場景,求解故障恢復策略并模擬仿真,其求解結果如表2 所示。

圖2 微電網模型

表1 微電網元件參數

場景0：正常運行；

場景1：主網端故障斷開聯接；

場景2：分布式電源故障退出運行；

場景3：負荷端故障斷電隔離。

表2 分別記錄了4 種場景下求解的開關序列號和平衡點時刻的總有功功率,圖3 分別顯示了四種場景下的微電網內部總有功功率的供需平衡關系,其中PG1和PL1為正常運行時微電網的供需功率曲線,P和P為故障后拓撲重構后的供需功率曲線。

表2 不同故障場景下的求解結果

場景0 為微電網正常運行狀態,由其開關序列號可知,開關S3、S6 為常開狀態,其它開關為常閉狀態,微電網正常狀態下的總功率供需狀態如圖3 中虛線PG1和PL1所示。在場景1 中,由于主網端故障,開關S12 為斷開狀態,為滿足微電網電能供需平衡,負載11 被切除即開關S11 斷開,此時微電網內部維持一個新的平衡點,如圖3（a）中實線P和P所示,新平衡點的總功率為221kW。在場景2 的狀況下,由于分布式電源故障退出運行,開關S14 斷開,考慮到功率的供需平衡,優先級較低的負載11 則被切除即開關S11 斷開,同時還要滿足電壓電流約束將開關S5 斷開,此時微電網總功率新的平衡點為221kW,如圖3（b）中實線P和P所示。場景3 中,負荷端故障斷電隔離,開關S10 斷開,其它開關不動作,此時微電網新的功率平衡點為185kW,如圖3（c）中實線P和P所示。

圖3 微電網總功率供需關系圖

5 結論

本文主要針對求解微電網災后拓撲重構最優策略的問題展開研究。通過算法理論計算及推導,仿真建模與驗證,并根據仿真結果分析得出以下結論：

5.1 對Q-learning 算法的改進能夠有效的與微電網模型相適應,該算法不需要全局的獎勵信號,智能體在不斷試錯中學習,求得最優開關序列號。

圖4 負載9 運行狀態圖

5.2 該算法求解的結果,能夠保障微電網在故障發生時快速的維持其內部總有功功率供需平衡,且保障重要負荷在故障發生時仍穩定運行,波動幅度較小,確保重要負荷的穩定性。

總之,Q-learning 算法與微電網的相結合,可以在災害事件發生后重新改變微電網內部拓撲結構,維持微電網的穩定運行,保證重要負荷的不間斷供電,增強了微電網彈性,提升了對極端災害事件的抵御能力。