林智威,劉成駿,顧 松,徐錦江,吳英俊,汝英濤
(河海大學(xué) 能源與電氣學(xué)院,江蘇 南京 211100)
近年來,隨著我國用電負(fù)荷的穩(wěn)步增長,全國多個省市尖峰負(fù)荷連年創(chuàng)下新高,直接影響電力系統(tǒng)運行的靈活性和可靠性[1-2]。電力用戶通過需求響應(yīng)(Demand Response,DR)市場手段與電網(wǎng)進(jìn)行互動,緩解電網(wǎng)運行的巨大壓力已成為我國電網(wǎng)發(fā)展的大趨勢,也已成為當(dāng)今電力行業(yè)的研究熱點[3-6]。
用戶對電能的要求綜合了質(zhì)量、可靠性、舒適性等多種維度,充分考慮了自身的經(jīng)濟(jì)效益[4-5]。因此,將用戶需求響應(yīng)的經(jīng)濟(jì)效益納入考慮,是反映用戶在需求響應(yīng)中的響應(yīng)負(fù)荷貢獻(xiàn)的價值[6-9]。電力需求響應(yīng)已經(jīng)不僅以電網(wǎng)可靠、靈活運行本身為核心,更多需要考慮用戶如何更好地參與電網(wǎng)的需求響應(yīng)互動、用戶如何更好地體現(xiàn)參與需求響應(yīng)的價值以及電能在需求響應(yīng)時的市場價值體現(xiàn)等內(nèi)容[10]。文獻(xiàn)[11]研究了多配用電力公司場景下的需求響應(yīng)管理問題,其中電力公司間的競爭用非合作博弈構(gòu)造,而家庭用戶間的交互用演化博弈構(gòu)造,所提出的策略方法表明電力公司和家庭用戶兩類群體分別可收斂到Nash 平衡點和演化博弈平衡點;文獻(xiàn)[12]利用演化博弈論研究了一類網(wǎng)狀結(jié)構(gòu)智能電網(wǎng)的需求側(cè)管理和控制問題;文獻(xiàn)[13]從演化博弈論視角探討了需求側(cè)管理技術(shù),并重點關(guān)注一種由運營商通過定價方案可強制執(zhí)行的分布式控制方案。文獻(xiàn)[14]則針對實時需求響應(yīng)問題提出了分布式需求響應(yīng)策略,并利用演化博弈論的概念來在解析和經(jīng)驗基礎(chǔ)上建立確定問題中的收斂特性,研究結(jié)果表明該策略具有實時性和較高可擴(kuò)展性,為需求響應(yīng)管理實際問題提供了良好的前景。
目前,博弈論在需求響應(yīng)領(lǐng)域的總體研究思路往往考慮簡單的兩群體博弈,且注重均衡點穩(wěn)定性的分析,較少考慮博弈機制對兩個決策主體之間交互的影響。所以,提出了一種基于多智能體相關(guān)均衡Q(λ)(Correlated?Equilibrium?Q(λ),CEQ(λ))的電力需求響應(yīng)分布式交易模型,使得需求響應(yīng)過程中的經(jīng)濟(jì)效益共享,有效地保證了電網(wǎng)與電力用戶之間的需求響應(yīng)互動。而后,由于采用多智能體CEQ(λ)學(xué)習(xí)算法,有效解決了傳統(tǒng)的單主體優(yōu)化的多維決策求解問題。
為解決電力用戶(Electric Users,EU)參與電力需求響應(yīng)的問題,建立基于“配電網(wǎng)—代理商—電力用戶”三層架構(gòu)的需求響應(yīng)互動模式,如圖1 所示。在該互動模式下存在配電網(wǎng)運營商、電力用戶、需求響應(yīng)代理商3 個互動主體:配電網(wǎng)運營商實時監(jiān)控配電網(wǎng)的運營信息,當(dāng)配電網(wǎng)處于不正常運行狀態(tài)時,配電網(wǎng)運營商將自上而下發(fā)布需求響應(yīng)指令,提高配電網(wǎng)運行的可靠性;電力用戶在保證其用電方式滿意度的前提下,向需求響應(yīng)代理商出售電力需求響應(yīng)服務(wù)以獲得經(jīng)濟(jì)利益;需求響應(yīng)代理商促進(jìn)配電網(wǎng)運營商與電力用戶之間的需求響應(yīng)互動,以獲取最大的經(jīng)濟(jì)收益。
在該需求響應(yīng)互動模式中,為了使需求響應(yīng)代理商更好地促進(jìn)三個主體的互動,提出一種需求響應(yīng)互動模式下“配電網(wǎng)—代理商—電力用戶”經(jīng)濟(jì)效益共享計算方法。在配電網(wǎng)獲取電力需求響應(yīng)容量的過程中,需求響應(yīng)代理商提供了電網(wǎng)和電力用戶間的協(xié)調(diào)服務(wù),故配電網(wǎng)代理商將因需求響應(yīng)服務(wù)帶來可靠性上升的等值經(jīng)濟(jì)收益中的一部分分?jǐn)偨o需求響應(yīng)代理商;需求響應(yīng)代理商獲得了額外收益,故其承擔(dān)一部分電力用戶因參與需求響應(yīng)使用電滿意度下降的等值經(jīng)濟(jì)成本。

圖1 “配電網(wǎng)—代理商—電力用戶”需求響應(yīng)互動模式
根據(jù)所提出的需求響應(yīng)互動模式,提出了一種基于多智能體的電力需求響應(yīng)分布式交易模型,各智能體之間的交互關(guān)系如圖2所示。

圖2 多智能體分布式需求響應(yīng)互動框架
配電網(wǎng)運營智能體(Distribution System Operator agent,DSO agent)作為配電網(wǎng)的交易代理商,管理整個配電網(wǎng)的運行;需求響應(yīng)交易智能體(Demand Response Coordinator agent,DRC agent),負(fù)責(zé)向電力用戶智能體(Electric User agent,EU agent)購買需求響應(yīng)容量并將其提供給配電網(wǎng),以緩解配電網(wǎng)供電壓力;EU agent 作為電力用戶的交易代理商,負(fù)責(zé)向DRC agent 出售需求響應(yīng)服務(wù),并保證電力用戶的經(jīng)濟(jì)性和用電滿意度。
根據(jù)圖2 中各智能體的交互關(guān)系,可以得到各智能體更加詳細(xì)的動作時序。以DRC1agent 及其所管理的EU agents 為例,如圖3 所示。多智能體之間的指令主要包括通知(INFORM),詢問(QUERY),制定方案(PROPOSE),同意(AGREE),拒絕(REJECT),DSO agent、DRC agent、EU agent之間的互動時序:
S0:DSO agent 向各DRC1agent 發(fā)出需求響應(yīng)指令,DRC1agent 詢問DSO agent 報價策略,DSO agent根據(jù)配電網(wǎng)運行狀態(tài)確定收益分?jǐn)傁禂?shù),制定報價策略并傳遞給DRC1agent。
S1:DRC1agent 向管理所有的EU agents 發(fā)出響應(yīng)指令,EU agents 詢問DRC1agent 所需響應(yīng)容量,DRC1agent制定每一個EU agent的響應(yīng)容量。
S2:EU agents 詢問DRC1agent 報價策略,DRC1agent 確定成本分配系數(shù),制定報價策略并傳遞給EU agents。
S3:DSO agent 和EU agents 反饋DRC1agent 是否達(dá)成三方交易,若反饋為AGREE,則達(dá)成三方交易,若反饋為REJECT,則返回S0。

圖3 多智能體動作時序圖
DSO agent 在一個電力需求響應(yīng)時段內(nèi)的目標(biāo)函數(shù)如式(1)所示,共包含兩部分:第一部分為DSO agent 向DRC agents 購買需求響應(yīng)服務(wù)費用;第二部分則是配電網(wǎng)通過需求響應(yīng)手段使可靠性提升的等值經(jīng)濟(jì)收益。


式中:F(ΔPt)為配電網(wǎng)中備用容量下降減少的備用機組投資成本,可由配電網(wǎng)的備用容量成本函數(shù)求得;為DSO agent 傳遞給DRC agents 的機組投資成本函數(shù);αt為中需要分?jǐn)偨oDRC agents的比例。
事實上,配電網(wǎng)獲得需求響應(yīng)服務(wù)后的實際收益為式(2)中的第一項,但由于DSO agent 更期望從DRC agents 獲得更多的電力需求響應(yīng)容量,故DSO agent 會向DRC agents 報出虛假的,并根據(jù)這一函數(shù)與DRC agent 進(jìn)行可靠性提升帶來的等值經(jīng)濟(jì)收益分?jǐn)偂?/p>
對于電力系統(tǒng),其備用容量成本可以二次函數(shù)計算[15],為

式中:aDSO、bDSO、cDSO為DSO agent 根據(jù)配電網(wǎng)的運營狀態(tài)確定的相關(guān)常數(shù);Pspare為系統(tǒng)備用容量。
故配電網(wǎng)由于備用容量下降能夠節(jié)省的投資成本可表示為

但通常,DSO agent 在向DRC agent 傳遞這一函數(shù)時,通常會根據(jù)實際情況對其進(jìn)行修正,以希望在和DRC agents 的交易中獲得更多收益,修正后的表達(dá)式為

式中:θDSO為DSO agent 根據(jù)配電網(wǎng)的實際情況確定的修正系數(shù)。
DSO agent受到的約束如式(6)—式(8)所示:

式(6)表示DSO agent 的修正系數(shù)是理性的;式(7)保證了最低響應(yīng)容量,保證了系統(tǒng)的可靠性;式(7)和式(8)保證需求響應(yīng)價格的合理性。
第i個DRC agent 下屬的第j個EU agent(即為圖2 中的EUi,jagent)在一個電力需求響應(yīng)時段內(nèi)的目標(biāo)函數(shù)如式(9)所示,包含三部分:第一部分為此用戶參與電力需求響應(yīng)導(dǎo)致用電滿意度下降產(chǎn)生的成本;第二部分是此用戶參與需求響應(yīng)后減少的用電費用;第三部分則是此用戶參與電力需求響應(yīng)后從ERCi處獲得的收益。


用戶參與需求響應(yīng)后用用功率下降,由此導(dǎo)致用戶的用電滿意度下降,可把用電滿意度系數(shù)定義為[16]

式中:μ為與用戶自身用電屬性有關(guān)的常數(shù)為EUi,jagent 參與電力需求響應(yīng)前的電負(fù)荷功率。對于不同種類的EU agent(例如工業(yè)負(fù)荷、商業(yè)負(fù)荷和居民負(fù)荷),由于其自身用電負(fù)荷的構(gòu)成和比例各不相同,所以其用電滿意度曲線具有個體差異。
類似地,EUi,jagent 在向DRCiagent 提交用電滿意度經(jīng)濟(jì)折算成本函數(shù)時也會對其進(jìn)行修正,以期在和DRCiagent的博弈中獲得更大的收益,修正后的函數(shù)為

一個需求響應(yīng)時段內(nèi)第i個DRC agent的目標(biāo)函數(shù)由兩部分組成:第一部分為它從DSO agent 分?jǐn)偟玫降氖找妫诙糠譃槠涔芾硭蠩U agents 所分配的成本,為


式中:I為協(xié)調(diào)需求響應(yīng)互動的DRC agent的總個數(shù)。
DRC agent受到的約束為:


式(20)保證DRC agent 群和DSO agent 間的交易量平衡;式(21)則保證每個DRC agent的最低收益。
搭建的需求響應(yīng)交易模型中包含1 個DSO agent、m個DRC agent 以及n個EU agent。每個智能體在所有智能體的動作概率分布基礎(chǔ)上最大化其獎勵值,達(dá)到整體獎勵最大化的相關(guān)均衡,此時獲得的聯(lián)合動作策略為最優(yōu)互動策略。
一般常用的均衡選擇函數(shù)有4 類:uCEQ、eCEQ、pCEQ、dCEQ[17]。選用uCEQ,即在任意狀態(tài)s中,有:

式中:C為多智能體的均衡策略集;A(s)為多智能體的均衡動作集;A-i為除了第i個智能體的其他智能體的動作集合;ai為第i個智能體的動作為第i個智能體的任意可選動作,且a′i ≠ai;a-i為除了第i個智能體的其他智能體的動作;χs為均衡策略(即動作概率);Qi(s,a)為第i個智能體的期望狀態(tài)函數(shù);R(a-i,ai)為第i個智能體的立即獎勵函數(shù)。如果某一策略χ對于所有的動作ai,,a-i∈A-i均滿足式(23),這一策略即為相關(guān)均衡動態(tài)平衡點。其中Ai為第i個智能體的動作集合。
多智能體CEQ(λ)學(xué)習(xí)算法的一般原理是計算所有智能體當(dāng)前狀態(tài)下的Q值,并根據(jù)整體系統(tǒng)響應(yīng)、返回獎勵值優(yōu)化所有智能體的Q值直到迭代至相關(guān)均衡,其迭代過程[18-19]為:

式中:Ψ為各智能體的Q值誤差函數(shù);為t時刻狀態(tài)-動作(s,a)下的資格跡;(st,at)為t時刻實際的狀態(tài)-動作;φ、τ、λ為算法的超參數(shù),分別為折扣因子、學(xué)習(xí)因子和衰減因子[20]。
對于在電力需求響應(yīng)交易模型中的交易主體,根據(jù)式(1)、式(9)、式(18)設(shè)計其評價獎勵函數(shù)。對DSO agent,其獎勵函數(shù)為

對第i個DRC agent,其獎勵函數(shù)為

對第i個DRC agent 管理的第j個EU agent,其獎勵函數(shù)為

在DRC agents 促成DSO agent 與EU agents 之間的需求響應(yīng)互動過程中,描述多智能體CEQ(λ)算法偽代碼。
輸入:均衡選擇函數(shù)f;折扣因子φ;學(xué)習(xí)因子τ;衰減因子λ;
輸出:Q、V矩陣更新值;聯(lián)合動作策略χ*;
初始化:Q、V值矩陣;初始狀態(tài)s;初始動作a;
迭代:
1)agenti:
a)確定當(dāng)前狀態(tài)s下最佳動作ai;
b)根據(jù)式(28)—式(30),獲得當(dāng)前狀態(tài)s下所有agent的獎勵函數(shù);
c)根據(jù)式(22)和式(23)和均衡選擇函數(shù)f求取狀態(tài)s下相關(guān)均衡策略χs;
2)agentj(j≠i):
b)根據(jù)式(25),更新值誤差函數(shù)Ψ i,t+1;
c)根據(jù)式(27),更新資格跡元素Ω i,t+1(s,a);
d)根據(jù)式(26),更新值函數(shù)Qi,t+1(s,a);
3)如果當(dāng)前狀態(tài)s和下一個狀態(tài)st是同一個狀態(tài),那么輸出Q*,V*,χ*;否則執(zhí)行1)。
以某省某個示范園區(qū)為例,園區(qū)內(nèi)典型電負(fù)荷曲線如圖4 所示,整個園區(qū)包含一個DSO agent 以及兩個DRC agents,DRC1agent 管理2 個工業(yè)電力用戶,DRC2agent 管理1 個商業(yè)電力用戶和1 個居民電力用戶,即該園區(qū)有4個EU agents。仿真以13:30—15:30 作為配電網(wǎng)的需求響應(yīng)時段,以15 min作為一個時間間隔,則表1給出了需求響應(yīng)時段內(nèi)的各智能體之間的交易電價。表1 中,峰時段為08:00—11:00,平時段為11:00—18:00 和22:00—23:00,谷時段為00:00—08:00 和23:00—24:00。多智能體CEQ(λ)的超參數(shù)φ取0.8,τ取0.001,λ取0.5。

圖4 不同類型負(fù)荷曲線

表1 各agent之間交易實時電價單位:元/kWh
該算例中,經(jīng)濟(jì)效應(yīng)共享參數(shù)均取0.4。多智能體CEQ(λ)學(xué)習(xí)算法的均衡狀態(tài)數(shù)量與迭代次數(shù)變化情況如圖5 所示。由圖5 可知,多智能體CEQ(λ)學(xué)習(xí)算法迭代約15次時能穩(wěn)定達(dá)到相關(guān)均衡狀態(tài)。

圖5 均衡狀態(tài)數(shù)量變化情況
圖6 展示了多智能體CEQ(λ)學(xué)習(xí)算法在電力需求響應(yīng)互動模式中,DSO agent、DRC agents 群以及EU agents 群三大利益主體的經(jīng)濟(jì)效益收斂變化情況。結(jié)合圖5 可知,三大利益主體均在迭代15次時收斂,迭代次數(shù)在10 次之前,各agent 的經(jīng)濟(jì)效益都叫低,而在10 次之后,經(jīng)濟(jì)效益明顯提升,說明了多智能體CEQ(λ)學(xué)習(xí)算法在求解電力需求響應(yīng)互動模型的完整性、均勻分布性、收斂性都具有有效性。

圖6 各agent經(jīng)濟(jì)收益收斂性變化
圖7給出了DSO agent與DRC agents群之間收益分?jǐn)倢π枨箜憫?yīng)互動的影響,在收益分?jǐn)傁禂?shù)小于0.25 時,因為此時DSO agent 分?jǐn)偨oDRC agent 的收益較少,所以導(dǎo)致此時各agent 之間的需求響應(yīng)互動比較平緩,故整體的經(jīng)濟(jì)效益偏低;在收益分?jǐn)傁禂?shù)大于0.75 時,DRC agent 從DSO agent 處分?jǐn)偟降氖找孑^多,但是隨著響應(yīng)容量的增加,DRC agent 所需承擔(dān)EU agent 用電滿意度下降的等值經(jīng)濟(jì)成本將增加,故此時DRC agent會選擇降低需求響應(yīng)互動的積極性,同時還能保證一定的經(jīng)濟(jì)收益,所以該區(qū)間在實際情況中應(yīng)盡量避免。圖8 給出了DRC agent 與EU agent 群之間的成本分配對需求響應(yīng)互動的影響,在成本分配系數(shù)小于0.3 時,EU agent 群幾乎承擔(dān)所有用電滿意度下降的等值經(jīng)濟(jì)損失,所以導(dǎo)致其響應(yīng)積極性不高;在成本分配系數(shù)大于0.7 時,DRC agent 所需承擔(dān)EU 用電滿意度下降的等值經(jīng)濟(jì)損失過多,甚至超過了從DSO agent 分?jǐn)偟玫降氖找妫訢RC agent 不愿意購買EU agent 群的需求響應(yīng)服務(wù),導(dǎo)致各agent需求響應(yīng)互動程度較低。由圖7和圖8可知,在收益分?jǐn)傁禂?shù)與成本分配系數(shù)均取得0.4時,各agent之間的需求響應(yīng)互動達(dá)到最佳,經(jīng)濟(jì)效益最大;在0.25~0.75之間的收益分?jǐn)偤?.3~0.7之間的成本分配為較為理想需求響應(yīng)互動經(jīng)濟(jì)效應(yīng)共享。

圖7 收益分?jǐn)傁禂?shù)對各agent收益的影響

圖8 成本分配系數(shù)對各agent收益的影響
構(gòu)建基于多智能體的電力需求響應(yīng)互動模型,以各agent 利益均衡為目標(biāo),引入需求響應(yīng)互動下經(jīng)濟(jì)效益共享的計算方法,采用多智能體CEQ(λ)學(xué)習(xí)算法促進(jìn)電網(wǎng)與電力用戶之間的需求響應(yīng)互動。
將所提出的電力需求響應(yīng)互動模式分為配電網(wǎng)代理商、需求響應(yīng)代理商以及電力用戶三大主體,采用多智能體CEQ(λ)學(xué)習(xí)算法對模型進(jìn)行求解,使各主體利益均衡。
利用基于多智能體的需求響應(yīng)互動收益、成本分?jǐn)偡峙溆嬎惴椒ǎ⒌碾娏π枨箜憫?yīng)分布式交互模型,有利于促成三主體的交易,并顯著了各主體利益均衡收斂速度。