基于多智能體的“配電網—代理商—電力用戶”需求響應互動模型

2021-05-19 10:21:12林智威劉成駿徐錦江吳英俊汝英濤

山東電力技術 2021年4期

林智威，劉成駿，顧松，徐錦江，吳英俊，汝英濤

（河海大學能源與電氣學院，江蘇南京 211100）

0 引言

近年來，隨著我國用電負荷的穩步增長，全國多個省市尖峰負荷連年創下新高，直接影響電力系統運行的靈活性和可靠性［1-2］。電力用戶通過需求響應（Demand Response，DR）市場手段與電網進行互動，緩解電網運行的巨大壓力已成為我國電網發展的大趨勢，也已成為當今電力行業的研究熱點［3-6］。

用戶對電能的要求綜合了質量、可靠性、舒適性等多種維度，充分考慮了自身的經濟效益［4-5］。因此，將用戶需求響應的經濟效益納入考慮，是反映用戶在需求響應中的響應負荷貢獻的價值［6-9］。電力需求響應已經不僅以電網可靠、靈活運行本身為核心，更多需要考慮用戶如何更好地參與電網的需求響應互動、用戶如何更好地體現參與需求響應的價值以及電能在需求響應時的市場價值體現等內容［10］。文獻［11］研究了多配用電力公司場景下的需求響應管理問題，其中電力公司間的競爭用非合作博弈構造，而家庭用戶間的交互用演化博弈構造，所提出的策略方法表明電力公司和家庭用戶兩類群體分別可收斂到Nash 平衡點和演化博弈平衡點；文獻［12］利用演化博弈論研究了一類網狀結構智能電網的需求側管理和控制問題；文獻［13］從演化博弈論視角探討了需求側管理技術，并重點關注一種由運營商通過定價方案可強制執行的分布式控制方案。文獻［14］則針對實時需求響應問題提出了分布式需求響應策略，并利用演化博弈論的概念來在解析和經驗基礎上建立確定問題中的收斂特性，研究結果表明該策略具有實時性和較高可擴展性，為需求響應管理實際問題提供了良好的前景。

目前，博弈論在需求響應領域的總體研究思路往往考慮簡單的兩群體博弈，且注重均衡點穩定性的分析，較少考慮博弈機制對兩個決策主體之間交互的影響。所以，提出了一種基于多智能體相關均衡Q（λ）（Correlated?Equilibrium?Q（λ），CEQ（λ））的電力需求響應分布式交易模型，使得需求響應過程中的經濟效益共享，有效地保證了電網與電力用戶之間的需求響應互動。而后，由于采用多智能體CEQ（λ）學習算法，有效解決了傳統的單主體優化的多維決策求解問題。

1 “配電網—代理商—電力用戶”之間的需求響應互動關系

1.1 “配電網—代理商—電力用戶”需求響應互動模式

為解決電力用戶（Electric Users，EU）參與電力需求響應的問題，建立基于“配電網—代理商—電力用戶”三層架構的需求響應互動模式，如圖1 所示。在該互動模式下存在配電網運營商、電力用戶、需求響應代理商3 個互動主體：配電網運營商實時監控配電網的運營信息，當配電網處于不正常運行狀態時，配電網運營商將自上而下發布需求響應指令，提高配電網運行的可靠性；電力用戶在保證其用電方式滿意度的前提下，向需求響應代理商出售電力需求響應服務以獲得經濟利益；需求響應代理商促進配電網運營商與電力用戶之間的需求響應互動，以獲取最大的經濟收益。

在該需求響應互動模式中，為了使需求響應代理商更好地促進三個主體的互動，提出一種需求響應互動模式下“配電網—代理商—電力用戶”經濟效益共享計算方法。在配電網獲取電力需求響應容量的過程中，需求響應代理商提供了電網和電力用戶間的協調服務，故配電網代理商將因需求響應服務帶來可靠性上升的等值經濟收益中的一部分分攤給需求響應代理商；需求響應代理商獲得了額外收益，故其承擔一部分電力用戶因參與需求響應使用電滿意度下降的等值經濟成本。

圖1 “配電網—代理商—電力用戶”需求響應互動模式

1.2 基于多智能體的電力需求響應分布式互動框架

根據所提出的需求響應互動模式，提出了一種基于多智能體的電力需求響應分布式交易模型，各智能體之間的交互關系如圖2所示。

圖2 多智能體分布式需求響應互動框架

配電網運營智能體（Distribution System Operator agent，DSO agent）作為配電網的交易代理商，管理整個配電網的運行；需求響應交易智能體（Demand Response Coordinator agent，DRC agent），負責向電力用戶智能體（Electric User agent，EU agent）購買需求響應容量并將其提供給配電網，以緩解配電網供電壓力；EU agent 作為電力用戶的交易代理商，負責向DRC agent 出售需求響應服務，并保證電力用戶的經濟性和用電滿意度。

根據圖2 中各智能體的交互關系，可以得到各智能體更加詳細的動作時序。以DRC1agent 及其所管理的EU agents 為例，如圖3 所示。多智能體之間的指令主要包括通知（INFORM），詢問（QUERY），制定方案（PROPOSE），同意（AGREE），拒絕（REJECT），DSO agent、DRC agent、EU agent之間的互動時序：

S0：DSO agent 向各DRC1agent 發出需求響應指令，DRC1agent 詢問DSO agent 報價策略，DSO agent根據配電網運行狀態確定收益分攤系數，制定報價策略并傳遞給DRC1agent。

S1：DRC1agent 向管理所有的EU agents 發出響應指令，EU agents 詢問DRC1agent 所需響應容量，DRC1agent制定每一個EU agent的響應容量。

S2：EU agents 詢問DRC1agent 報價策略，DRC1agent 確定成本分配系數，制定報價策略并傳遞給EU agents。

S3：DSO agent 和EU agents 反饋DRC1agent 是否達成三方交易，若反饋為AGREE，則達成三方交易，若反饋為REJECT，則返回S0。

圖3 多智能體動作時序圖

2 基于多智能體的電力需求響應分布式交易模型

2.1 DSO agent交易模型

DSO agent 在一個電力需求響應時段內的目標函數如式（1）所示，共包含兩部分：第一部分為DSO agent 向DRC agents 購買需求響應服務費用；第二部分則是配電網通過需求響應手段使可靠性提升的等值經濟收益。

式中：F（ΔPt）為配電網中備用容量下降減少的備用機組投資成本，可由配電網的備用容量成本函數求得；為DSO agent 傳遞給DRC agents 的機組投資成本函數；αt為中需要分攤給DRC agents的比例。

事實上，配電網獲得需求響應服務后的實際收益為式（2）中的第一項，但由于DSO agent 更期望從DRC agents 獲得更多的電力需求響應容量，故DSO agent 會向DRC agents 報出虛假的，并根據這一函數與DRC agent 進行可靠性提升帶來的等值經濟收益分攤。

對于電力系統，其備用容量成本可以二次函數計算［15］，為

式中：aDSO、bDSO、cDSO為DSO agent 根據配電網的運營狀態確定的相關常數；Pspare為系統備用容量。

故配電網由于備用容量下降能夠節省的投資成本可表示為

但通常，DSO agent 在向DRC agent 傳遞這一函數時，通常會根據實際情況對其進行修正，以希望在和DRC agents 的交易中獲得更多收益，修正后的表達式為

式中：θDSO為DSO agent 根據配電網的實際情況確定的修正系數。

DSO agent受到的約束如式（6）—式（8）所示：

式（6）表示DSO agent 的修正系數是理性的；式（7）保證了最低響應容量，保證了系統的可靠性；式（7）和式（8）保證需求響應價格的合理性。

2.2 EU agent交易模型

第i個DRC agent 下屬的第j個EU agent（即為圖2 中的EUi，jagent）在一個電力需求響應時段內的目標函數如式（9）所示，包含三部分：第一部分為此用戶參與電力需求響應導致用電滿意度下降產生的成本；第二部分是此用戶參與需求響應后減少的用電費用；第三部分則是此用戶參與電力需求響應后從ERCi處獲得的收益。

用戶參與需求響應后用用功率下降，由此導致用戶的用電滿意度下降，可把用電滿意度系數定義為［16］

式中：μ為與用戶自身用電屬性有關的常數為EUi，jagent 參與電力需求響應前的電負荷功率。對于不同種類的EU agent（例如工業負荷、商業負荷和居民負荷），由于其自身用電負荷的構成和比例各不相同，所以其用電滿意度曲線具有個體差異。

類似地，EUi，jagent 在向DRCiagent 提交用電滿意度經濟折算成本函數時也會對其進行修正，以期在和DRCiagent的博弈中獲得更大的收益，修正后的函數為

2.3 DRC agent交易模型

一個需求響應時段內第i個DRC agent的目標函數由兩部分組成：第一部分為它從DSO agent 分攤得到的收益，第二部分為其管理所有EU agents 所分配的成本，為

式中：I為協調需求響應互動的DRC agent的總個數。

DRC agent受到的約束為：

式（20）保證DRC agent 群和DSO agent 間的交易量平衡；式（21）則保證每個DRC agent的最低收益。

3 交易主體的多智能體CEQ（λ）學習策略

搭建的需求響應交易模型中包含1 個DSO agent、m個DRC agent 以及n個EU agent。每個智能體在所有智能體的動作概率分布基礎上最大化其獎勵值，達到整體獎勵最大化的相關均衡，此時獲得的聯合動作策略為最優互動策略。

3.1 均衡選擇函數

一般常用的均衡選擇函數有4 類：uCEQ、eCEQ、pCEQ、dCEQ［17］。選用uCEQ，即在任意狀態s中，有：

式中：C為多智能體的均衡策略集；A（s）為多智能體的均衡動作集；A-i為除了第i個智能體的其他智能體的動作集合；ai為第i個智能體的動作為第i個智能體的任意可選動作，且a′i ≠ai；a-i為除了第i個智能體的其他智能體的動作；χs為均衡策略（即動作概率）；Qi（s，a）為第i個智能體的期望狀態函數；R（a-i，ai）為第i個智能體的立即獎勵函數。如果某一策略χ對于所有的動作ai，，a-i∈A-i均滿足式（23），這一策略即為相關均衡動態平衡點。其中Ai為第i個智能體的動作集合。

多智能體CEQ（λ）學習算法的一般原理是計算所有智能體當前狀態下的Q值，并根據整體系統響應、返回獎勵值優化所有智能體的Q值直到迭代至相關均衡，其迭代過程［18-19］為：

式中：Ψ為各智能體的Q值誤差函數；為t時刻狀態-動作（s，a）下的資格跡；（st，at）為t時刻實際的狀態-動作；φ、τ、λ為算法的超參數，分別為折扣因子、學習因子和衰減因子［20］。

3.2 獎勵函數設定

對于在電力需求響應交易模型中的交易主體，根據式（1）、式（9）、式（18）設計其評價獎勵函數。對DSO agent，其獎勵函數為

對第i個DRC agent，其獎勵函數為

對第i個DRC agent 管理的第j個EU agent，其獎勵函數為

3.3 多智能體CEQ（λ）算法

在DRC agents 促成DSO agent 與EU agents 之間的需求響應互動過程中，描述多智能體CEQ（λ）算法偽代碼。

輸入：均衡選擇函數f；折扣因子φ；學習因子τ；衰減因子λ；

輸出：Q、V矩陣更新值；聯合動作策略χ*；

初始化：Q、V值矩陣；初始狀態s；初始動作a；

迭代：

1）agenti：

a）確定當前狀態s下最佳動作ai；

b）根據式（28）—式（30），獲得當前狀態s下所有agent的獎勵函數；

c）根據式（22）和式（23）和均衡選擇函數f求取狀態s下相關均衡策略χs；

2）agentj（j≠i）：

b）根據式（25），更新值誤差函數Ψ i，t+1；

c）根據式（27），更新資格跡元素Ω i，t+1（s，a）；

d）根據式（26），更新值函數Qi，t+1（s，a）；

3）如果當前狀態s和下一個狀態st是同一個狀態，那么輸出Q*，V*，χ*；否則執行1）。

4 算例分析

以某省某個示范園區為例，園區內典型電負荷曲線如圖4 所示，整個園區包含一個DSO agent 以及兩個DRC agents，DRC1agent 管理2 個工業電力用戶，DRC2agent 管理1 個商業電力用戶和1 個居民電力用戶，即該園區有4個EU agents。仿真以13：30—15：30 作為配電網的需求響應時段，以15 min作為一個時間間隔，則表1給出了需求響應時段內的各智能體之間的交易電價。表1 中，峰時段為08：00—11：00，平時段為11：00—18：00 和22：00—23：00，谷時段為00：00—08：00 和23：00—24：00。多智能體CEQ（λ）的超參數φ取0.8，τ取0.001，λ取0.5。

圖4 不同類型負荷曲線

表1 各agent之間交易實時電價單位：元/kWh

4.1 算法收斂性分析

該算例中，經濟效應共享參數均取0.4。多智能體CEQ（λ）學習算法的均衡狀態數量與迭代次數變化情況如圖5 所示。由圖5 可知，多智能體CEQ（λ）學習算法迭代約15次時能穩定達到相關均衡狀態。

圖5 均衡狀態數量變化情況

圖6 展示了多智能體CEQ（λ）學習算法在電力需求響應互動模式中，DSO agent、DRC agents 群以及EU agents 群三大利益主體的經濟效益收斂變化情況。結合圖5 可知，三大利益主體均在迭代15次時收斂，迭代次數在10 次之前，各agent 的經濟效益都叫低，而在10 次之后，經濟效益明顯提升，說明了多智能體CEQ（λ）學習算法在求解電力需求響應互動模型的完整性、均勻分布性、收斂性都具有有效性。

圖6 各agent經濟收益收斂性變化

4.2 經濟效益共享計算方法對各智能體收益的影響

圖7給出了DSO agent與DRC agents群之間收益分攤對需求響應互動的影響，在收益分攤系數小于0.25 時，因為此時DSO agent 分攤給DRC agent 的收益較少，所以導致此時各agent 之間的需求響應互動比較平緩，故整體的經濟效益偏低；在收益分攤系數大于0.75 時，DRC agent 從DSO agent 處分攤到的收益較多，但是隨著響應容量的增加，DRC agent 所需承擔EU agent 用電滿意度下降的等值經濟成本將增加，故此時DRC agent會選擇降低需求響應互動的積極性，同時還能保證一定的經濟收益，所以該區間在實際情況中應盡量避免。圖8 給出了DRC agent 與EU agent 群之間的成本分配對需求響應互動的影響，在成本分配系數小于0.3 時，EU agent 群幾乎承擔所有用電滿意度下降的等值經濟損失，所以導致其響應積極性不高；在成本分配系數大于0.7 時，DRC agent 所需承擔EU 用電滿意度下降的等值經濟損失過多，甚至超過了從DSO agent 分攤得到的收益，所以DRC agent 不愿意購買EU agent 群的需求響應服務，導致各agent需求響應互動程度較低。由圖7和圖8可知，在收益分攤系數與成本分配系數均取得0.4時，各agent之間的需求響應互動達到最佳，經濟效益最大；在0.25～0.75之間的收益分攤和0.3～0.7之間的成本分配為較為理想需求響應互動經濟效應共享。

圖7 收益分攤系數對各agent收益的影響

圖8 成本分配系數對各agent收益的影響

5 結語

構建基于多智能體的電力需求響應互動模型，以各agent 利益均衡為目標，引入需求響應互動下經濟效益共享的計算方法，采用多智能體CEQ（λ）學習算法促進電網與電力用戶之間的需求響應互動。

將所提出的電力需求響應互動模式分為配電網代理商、需求響應代理商以及電力用戶三大主體，采用多智能體CEQ（λ）學習算法對模型進行求解，使各主體利益均衡。

利用基于多智能體的需求響應互動收益、成本分攤分配計算方法，建立的電力需求響應分布式交互模型，有利于促成三主體的交易，并顯著了各主體利益均衡收斂速度。