基于多智能體強(qiáng)化學(xué)習(xí)的電力市場(chǎng)競(jìng)價(jià)模型

2022-01-26 05:10:08黃飛虎李沛東

現(xiàn)代計(jì)算機(jī) 2021年34期

黃飛虎，李沛東

（1.四川中電啟明星信息技術(shù)有限公司，成都 610000；2.四川大學(xué)計(jì)算機(jī)學(xué)院，成都 610000）

0 引言

2015年國(guó)家針對(duì)電力體制改革發(fā)布了《關(guān)于進(jìn)一步深化電力體制改革的若干意見》［1］，該文件體現(xiàn)了國(guó)家對(duì)電力市場(chǎng)建設(shè)的重視和高瞻遠(yuǎn)矚。文件說(shuō)明了電力市場(chǎng)建設(shè)的目的，即打破現(xiàn)有的統(tǒng)一定價(jià)，通過(guò)市場(chǎng)競(jìng)爭(zhēng)確定電價(jià)，充分發(fā)揮發(fā)電側(cè)、售電側(cè)、用電側(cè)各個(gè)參與者的積極性，促進(jìn)我國(guó)電力系統(tǒng)的發(fā)展。目前我國(guó)電力市場(chǎng)建設(shè)還處于初期階段，截至2021年9月，我國(guó)已完成了第二批電力現(xiàn)貨試點(diǎn)工作［2］。相比于國(guó)外的電力現(xiàn)貨市場(chǎng)發(fā)展，我國(guó)的電力市場(chǎng)建設(shè)還有很多工作需要完善。

本文針對(duì)發(fā)電商參與電力現(xiàn)貨市場(chǎng)競(jìng)價(jià)的場(chǎng)景，提出了基于多智能體強(qiáng)化學(xué)習(xí)的競(jìng)價(jià)模型，為電力現(xiàn)貨競(jìng)價(jià)的研究人員提供參考。模型中，每個(gè)發(fā)電商抽象為一個(gè)智能體，具有動(dòng)作空間和狀態(tài)空間?？紤]到競(jìng)價(jià)過(guò)程中，每個(gè)廠商對(duì)其他廠商的競(jìng)價(jià)策略以及市場(chǎng)出清結(jié)果的未知，模型采用了一種分散式學(xué)習(xí)算法，即Wolf-PHC，求解各發(fā)電廠商的最優(yōu)策略。實(shí)驗(yàn)結(jié)果實(shí)證了本文模型的有效性。

1 相關(guān)工作

電力現(xiàn)貨，即現(xiàn)貨市場(chǎng)，是電力市場(chǎng)的組成部分。電力市場(chǎng)中除了電力現(xiàn)貨之外，還包括中長(zhǎng)期市場(chǎng)、容量市場(chǎng)、期貨市場(chǎng)以及衍生品市場(chǎng)等［3］?，F(xiàn)貨市場(chǎng)涉及日前、日內(nèi)、實(shí)時(shí)等短時(shí)間的電能交易。實(shí)時(shí)電能交易主要以小時(shí)為單位，主要解決超短期的電能缺乏和阻塞問(wèn)題。現(xiàn)有的電力現(xiàn)貨競(jìng)價(jià)策略可以分為三大類，一是基于成本的競(jìng)價(jià)策略，二是基于預(yù)測(cè)算法的競(jìng)價(jià)策略，三是基于博弈算法的競(jìng)價(jià)策略。

（1）基于成本的競(jìng)價(jià)策略是一類經(jīng)典的方法。這類方法以經(jīng)濟(jì)學(xué)為基礎(chǔ)分析發(fā)電成本，進(jìn)而完成競(jìng)價(jià)。比如，文獻(xiàn)［4］提出的報(bào)價(jià)策略主要考慮發(fā)電成本分析與系統(tǒng)邊際電價(jià)之間的關(guān)系，其中系統(tǒng)邊際電價(jià)通過(guò)預(yù)測(cè)算法得到。文獻(xiàn)［5］通過(guò)分析機(jī)組在不同負(fù)荷下的發(fā)電成本，討論了基于邊際成本的競(jìng)價(jià)策略。

（2）基于預(yù)測(cè)算法的競(jìng)價(jià)策略。這類方法首先預(yù)測(cè)競(jìng)爭(zhēng)對(duì)手的報(bào)價(jià)或者市場(chǎng)出清電價(jià)，然后作出競(jìng)價(jià)策略。比如，文獻(xiàn)［6］則主要討論單一水電廠參與的競(jìng)價(jià)問(wèn)題，文中提出了基于市場(chǎng)出清電價(jià)預(yù)測(cè)的報(bào)價(jià)策略，策略主要約束條件是可用水量和機(jī)組特性。

（3）基于博弈算法的競(jìng)價(jià)策略。這類方法以博弈論、強(qiáng)化學(xué)習(xí)為基礎(chǔ)，實(shí)現(xiàn)最優(yōu)競(jìng)價(jià)策略。相比基于預(yù)測(cè)的競(jìng)價(jià)策略，這類方法具有更好的效果。博弈過(guò)程是參與者在相互作用中尋找最優(yōu)策略的過(guò)程，這與電力市場(chǎng)參與者之間的競(jìng)價(jià)過(guò)程十分類似。因此，有一些學(xué)者基于博弈論構(gòu)建競(jìng)價(jià)決策方法。比如，文獻(xiàn)［7，8］對(duì)風(fēng)光互補(bǔ)發(fā)電系統(tǒng)進(jìn)行了競(jìng)標(biāo)分析，將其建模為一個(gè)多人貝葉斯博弈問(wèn)題，進(jìn)而提出了基于貝葉斯博弈理論的競(jìng)價(jià)模型。強(qiáng)化學(xué)習(xí)因其扎實(shí)的理論基礎(chǔ)，在很多應(yīng)用場(chǎng)景（比如推薦系統(tǒng)、智能駕駛等）得到了應(yīng)用。在電力現(xiàn)貨中，也得到了學(xué)者們的廣泛關(guān)注。比如，文獻(xiàn)［9］將電力市場(chǎng)建模為信息有限的場(chǎng)景，提出了基于強(qiáng)化學(xué)習(xí)自動(dòng)機(jī)的模型。模型中，作者利用重復(fù)博弈建模發(fā)電商與市場(chǎng)的反饋過(guò)程。文獻(xiàn)［10］針對(duì)中長(zhǎng)期電力市場(chǎng)發(fā)電商報(bào)價(jià)問(wèn)題，采用A3C算法進(jìn)行了建模仿真，并討論了運(yùn)營(yíng)效率。

2 競(jìng)價(jià)模型構(gòu)建

2.1 問(wèn)題定義

報(bào)價(jià)策略算法的任務(wù)是給出合適的報(bào)價(jià)策略，實(shí)現(xiàn)利潤(rùn)最大化。從任務(wù)特點(diǎn)來(lái)說(shuō)，發(fā)電廠商報(bào)價(jià)策略需考慮發(fā)電成本、機(jī)組出力等自身情況，推斷日期（或?qū)崟r(shí)）市場(chǎng)邊界條件以及競(jìng)爭(zhēng)對(duì)手的報(bào)價(jià)情況進(jìn)而做出決策。從科學(xué)問(wèn)題來(lái)說(shuō)，報(bào)價(jià)任務(wù)可以定義為帶約束條件的優(yōu)化問(wèn)題，即：

其中，約束條件包括機(jī)組運(yùn)行特性（比如機(jī)組優(yōu)先電量約束、機(jī)組出力上下限約束、機(jī)組爬坡約束等）、市場(chǎng)邊界條件（比如線路潮流約束、斷面潮流約束、電量空間邊界等）。

2.2 模型描述

本文將各發(fā)電商建模為智能體，電力市場(chǎng)出清建模為環(huán)境，將發(fā)電商報(bào)價(jià)決策問(wèn)題轉(zhuǎn)化為一個(gè)多智體強(qiáng)化學(xué)習(xí)求解問(wèn)題，如圖1所示。各發(fā)電商根據(jù)發(fā)電成本、負(fù)荷需求和機(jī)組運(yùn)行特性等約束條件給出最優(yōu)報(bào)價(jià)。在交易中心收到所有發(fā)電商的報(bào)價(jià)之后，結(jié)合網(wǎng)絡(luò)拓?fù)鋮?shù)、潮流約束和負(fù)荷需求等因素進(jìn)行出清，最后將出清結(jié)果反饋給各發(fā)電商。

圖1 模型框架

結(jié)合強(qiáng)化學(xué)習(xí)方法，相關(guān)定義如下。

定義1智能體。用集合G={g1,g2,…,gn}表示，在電力現(xiàn)貨日前市場(chǎng)中，發(fā)電商i為一個(gè)智能體（即gi），各智能體之間具有競(jìng)爭(zhēng)關(guān)系。

定義2動(dòng)作。用集合A={a1,a2,…,an}表示，本文定義動(dòng)作ai為發(fā)電商可選擇的第i種報(bào)價(jià)曲線。

動(dòng)作ai與發(fā)電商機(jī)組的出力區(qū)間相關(guān)，給定發(fā)電商的出力區(qū)間為［Pmin，Pmax］，報(bào)價(jià)區(qū)間數(shù)為d段，則動(dòng)作ai的報(bào)價(jià)曲線為：

其中x表示出力，將出力區(qū)間［Pmin，Pmax］均分為d段，k1到kd為出力區(qū)間的分段標(biāo)簽，ci,?表示對(duì)應(yīng)區(qū)間的價(jià)格,滿足ci,1≤ci,2

定義3狀態(tài)。用集合S={s1,s2,…,s n}表示，本文定義發(fā)電商的出力情況為狀態(tài)。

本文根據(jù)發(fā)電商的出力區(qū)間為［Pmin，Pmax］將狀態(tài)離散化為n個(gè)區(qū)間，即S={［Pmin，P1）,［P1,P2），…，［Pn-1，Pmax］}。

定義4回報(bào)。用r表示，本文定義回報(bào)即發(fā)電商報(bào)價(jià)后可以獲得的收益。ri即智能體i在當(dāng)前狀態(tài)si下選擇動(dòng)作ai之后獲得的收益。

不同類型的發(fā)電商有不同的發(fā)電成本，但計(jì)算方式均與中標(biāo)電量、中標(biāo)價(jià)格和成本相關(guān)。

定義5環(huán)境。用E表示，本文定義市場(chǎng)出清為環(huán)境，其決定各發(fā)電商在采取特定動(dòng)作后的回報(bào)。

本文基于安全約束經(jīng)濟(jì)調(diào)度（SCED）進(jìn)行出清，其公式如下：

其中，機(jī)組的總臺(tái)數(shù)是N，總時(shí)段數(shù)為T，機(jī)組i在時(shí)段t的出力用pi,t表示，C i,t(pi,t)為機(jī)組i在時(shí)段t的運(yùn)行費(fèi)用，是與機(jī)組申報(bào)的各段出力區(qū)間和對(duì)應(yīng)能量?jī)r(jià)格有關(guān)的多段線函數(shù)；網(wǎng)絡(luò)潮流約束松弛罰因子用M L S表示；M C為機(jī)組優(yōu)先電量約束松弛罰因子。公式中，針對(duì)電網(wǎng)安全問(wèn)題，重點(diǎn)考慮了線路潮流和斷面潮流的約束。首先，線路l在時(shí)段t的正、反向潮流松弛變量，即和；然后是斷面s在時(shí)段t的正、反向潮流松弛變量，即sls+s,t，s l s-s,t；最后，考慮了機(jī)組i在時(shí)段t的機(jī)組優(yōu)先電量松弛變量s l ci,t。

定義6策略。用π表示，其定義了一個(gè)特定時(shí)刻智能體的行為方式，即發(fā)電商在當(dāng)前出力狀態(tài)下該采取何種報(bào)價(jià)動(dòng)作。

定義7狀態(tài)-行為值函數(shù)。用Q表示，該函數(shù)刻畫了智能體在長(zhǎng)期狀態(tài)下對(duì)于某個(gè)狀態(tài)或者行為的偏好。

2.3 模型訓(xùn)練

算法1智能體i的學(xué)習(xí)算法。

初始化：

學(xué)習(xí)率α=(0 ,1],δw∈( 0,1]且δl>δw；

折扣因子γ∈(0,1)；探索率ε；

狀態(tài)-行為值函數(shù)Qi（a）=0；

重復(fù)：

（1）根據(jù)具有某一探索率ε的策略πi(a)選擇報(bào)價(jià)動(dòng)作并提交給市場(chǎng)。

（2）觀測(cè)直接回報(bào)ri。

（3）更新Qt+1i(a)，計(jì)算公式為：

（4）更新策略πti+1(a)，計(jì)算公式為：

其中，

在實(shí)際報(bào)價(jià)過(guò)程中，各發(fā)電廠商不知道其他競(jìng)爭(zhēng)對(duì)手的策略，也不知道市場(chǎng)出清的信息，即回報(bào)函數(shù)。因此，本文采用Wolf-PHC算法求解報(bào)價(jià)最優(yōu)策略。該算法中，各智能體只需知道自身的行為和每次獲得的回報(bào)。在算法訓(xùn)練階段，重復(fù)執(zhí)行步驟（1）～（5）直至達(dá)到最大迭代次數(shù)或滿足特定終止條件。當(dāng)算法訓(xùn)練結(jié)束之后，則可以使用算法進(jìn)行實(shí)際報(bào)價(jià)。

3 實(shí)驗(yàn)討論

3.1 參數(shù)設(shè)置

實(shí)驗(yàn)中地區(qū)的負(fù)荷數(shù)據(jù)，本文采用的數(shù)據(jù)集1數(shù)據(jù)集：https://www.eia.gov/electricity/gridmonitor/dashboard/electric_overview/US48/US48源于美國(guó)能源信息署的公開數(shù)據(jù)平臺(tái)，本文下載了紐約市2015年7月—2021年4月的數(shù)據(jù)。數(shù)據(jù)間隔時(shí)間以小時(shí)為單位。訓(xùn)練過(guò)程中10天出清為一次迭代，每次迭代結(jié)束后記錄各發(fā)電商10天的收益及所有發(fā)電商10天的總收益。

仿真實(shí)現(xiàn)對(duì)5節(jié)點(diǎn)3發(fā)電商系統(tǒng)進(jìn)行模擬，每個(gè)發(fā)電商擁有一臺(tái)火力發(fā)電機(jī)組，驗(yàn)證指標(biāo)為每次迭代后的各發(fā)電商收益和總收益。設(shè)置的發(fā)電商機(jī)組信息如表1所示。

表1 發(fā)電商機(jī)組信息

每次出清發(fā)電商收益ri的計(jì)算公式為：

其中cost=a1(x‘)2+a2(x‘)+a3,x‘為中標(biāo)出力，c‘為中標(biāo)電價(jià)，a1，a2和a3分別是成本系數(shù)，實(shí)驗(yàn)中其設(shè)置信息如表2所示。

表2 成本系數(shù)設(shè)置

3.2 結(jié)果分析

實(shí)驗(yàn)記錄了總體的收益變化過(guò)程以及各發(fā)電商的收益變化過(guò)程，如圖2和圖3所示。

圖2 總體收益變化

圖3 各智能體收益變化

從實(shí)驗(yàn)結(jié)果來(lái)看，各發(fā)電商的收益隨迭代次數(shù)增加，逐漸提高，最后達(dá)到穩(wěn)定狀態(tài)。這表明本文模型求解的最優(yōu)策略能夠使各發(fā)電商收斂到各自的納什均衡狀態(tài)。

此外，表3統(tǒng)計(jì)了本文模型與貪心算法、動(dòng)態(tài)規(guī)劃算法的收斂步數(shù)和收益比較。從實(shí)驗(yàn)結(jié)果來(lái)看，本文采用的基于Wolf-PHC求解算法，比動(dòng)態(tài)規(guī)劃和貪心算法具有更快的收斂速度，而且也能保證整個(gè)系統(tǒng)達(dá)到較大的收益。

表3 算法對(duì)比

4 結(jié)語(yǔ)

針對(duì)電力市場(chǎng)的報(bào)價(jià)場(chǎng)景，本文提出了基于多智能體的強(qiáng)化學(xué)習(xí)報(bào)價(jià)策略。特別地，在策略求解時(shí)，針對(duì)各智能體無(wú)法知道對(duì)手策略以及回報(bào)函數(shù)的情況，提出了采用Wolf-PHC算法的思路。從實(shí)驗(yàn)結(jié)果來(lái)看，本文模型是可行的。在未來(lái)的工作中，本文作者認(rèn)為應(yīng)該從模型可信性的角度構(gòu)建競(jìng)價(jià)模型。具有可信度高的模型，更容易讓競(jìng)價(jià)操作者接受且認(rèn)可模型給出的策略。從另一方面來(lái)說(shuō)，現(xiàn)貨市場(chǎng)的競(jìng)價(jià)涉及參與方的利益，因此只有可信度高的模型才能廣泛用于輔助決策。