黃飛虎,李沛東
(1.四川中電啟明星信息技術(shù)有限公司,成都 610000;2.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610000)
2015年國(guó)家針對(duì)電力體制改革發(fā)布了《關(guān)于進(jìn)一步深化電力體制改革的若干意見》[1],該文件體現(xiàn)了國(guó)家對(duì)電力市場(chǎng)建設(shè)的重視和高瞻遠(yuǎn)矚。文件說(shuō)明了電力市場(chǎng)建設(shè)的目的,即打破現(xiàn)有的統(tǒng)一定價(jià),通過(guò)市場(chǎng)競(jìng)爭(zhēng)確定電價(jià),充分發(fā)揮發(fā)電側(cè)、售電側(cè)、用電側(cè)各個(gè)參與者的積極性,促進(jìn)我國(guó)電力系統(tǒng)的發(fā)展。目前我國(guó)電力市場(chǎng)建設(shè)還處于初期階段,截至2021年9月,我國(guó)已完成了第二批電力現(xiàn)貨試點(diǎn)工作[2]。相比于國(guó)外的電力現(xiàn)貨市場(chǎng)發(fā)展,我國(guó)的電力市場(chǎng)建設(shè)還有很多工作需要完善。
本文針對(duì)發(fā)電商參與電力現(xiàn)貨市場(chǎng)競(jìng)價(jià)的場(chǎng)景,提出了基于多智能體強(qiáng)化學(xué)習(xí)的競(jìng)價(jià)模型,為電力現(xiàn)貨競(jìng)價(jià)的研究人員提供參考。模型中,每個(gè)發(fā)電商抽象為一個(gè)智能體,具有動(dòng)作空間和狀態(tài)空間??紤]到競(jìng)價(jià)過(guò)程中,每個(gè)廠商對(duì)其他廠商的競(jìng)價(jià)策略以及市場(chǎng)出清結(jié)果的未知,模型采用了一種分散式學(xué)習(xí)算法,即Wolf-PHC,求解各發(fā)電廠商的最優(yōu)策略。實(shí)驗(yàn)結(jié)果實(shí)證了本文模型的有效性。
電力現(xiàn)貨,即現(xiàn)貨市場(chǎng),是電力市場(chǎng)的組成部分。電力市場(chǎng)中除了電力現(xiàn)貨之外,還包括中長(zhǎng)期市場(chǎng)、容量市場(chǎng)、期貨市場(chǎng)以及衍生品市場(chǎng)等[3]?,F(xiàn)貨市場(chǎng)涉及日前、日內(nèi)、實(shí)時(shí)等短時(shí)間的電能交易。實(shí)時(shí)電能交易主要以小時(shí)為單位,主要解決超短期的電能缺乏和阻塞問(wèn)題。現(xiàn)有的電力現(xiàn)貨競(jìng)價(jià)策略可以分為三大類,一是基于成本的競(jìng)價(jià)策略,二是基于預(yù)測(cè)算法的競(jìng)價(jià)策略,三是基于博弈算法的競(jìng)價(jià)策略。
(1)基于成本的競(jìng)價(jià)策略是一類經(jīng)典的方法。這類方法以經(jīng)濟(jì)學(xué)為基礎(chǔ)分析發(fā)電成本,進(jìn)而完成競(jìng)價(jià)。比如,文獻(xiàn)[4]提出的報(bào)價(jià)策略主要考慮發(fā)電成本分析與系統(tǒng)邊際電價(jià)之間的關(guān)系,其中系統(tǒng)邊際電價(jià)通過(guò)預(yù)測(cè)算法得到。文獻(xiàn)[5]通過(guò)分析機(jī)組在不同負(fù)荷下的發(fā)電成本,討論了基于邊際成本的競(jìng)價(jià)策略。
(2)基于預(yù)測(cè)算法的競(jìng)價(jià)策略。這類方法首先預(yù)測(cè)競(jìng)爭(zhēng)對(duì)手的報(bào)價(jià)或者市場(chǎng)出清電價(jià),然后作出競(jìng)價(jià)策略。比如,文獻(xiàn)[6]則主要討論單一水電廠參與的競(jìng)價(jià)問(wèn)題,文中提出了基于市場(chǎng)出清電價(jià)預(yù)測(cè)的報(bào)價(jià)策略,策略主要約束條件是可用水量和機(jī)組特性。
(3)基于博弈算法的競(jìng)價(jià)策略。這類方法以博弈論、強(qiáng)化學(xué)習(xí)為基礎(chǔ),實(shí)現(xiàn)最優(yōu)競(jìng)價(jià)策略。相比基于預(yù)測(cè)的競(jìng)價(jià)策略,這類方法具有更好的效果。博弈過(guò)程是參與者在相互作用中尋找最優(yōu)策略的過(guò)程,這與電力市場(chǎng)參與者之間的競(jìng)價(jià)過(guò)程十分類似。因此,有一些學(xué)者基于博弈論構(gòu)建競(jìng)價(jià)決策方法。比如,文獻(xiàn)[7,8]對(duì)風(fēng)光互補(bǔ)發(fā)電系統(tǒng)進(jìn)行了競(jìng)標(biāo)分析,將其建模為一個(gè)多人貝葉斯博弈問(wèn)題,進(jìn)而提出了基于貝葉斯博弈理論的競(jìng)價(jià)模型。強(qiáng)化學(xué)習(xí)因其扎實(shí)的理論基礎(chǔ),在很多應(yīng)用場(chǎng)景(比如推薦系統(tǒng)、智能駕駛等)得到了應(yīng)用。在電力現(xiàn)貨中,也得到了學(xué)者們的廣泛關(guān)注。比如,文獻(xiàn)[9]將電力市場(chǎng)建模為信息有限的場(chǎng)景,提出了基于強(qiáng)化學(xué)習(xí)自動(dòng)機(jī)的模型。模型中,作者利用重復(fù)博弈建模發(fā)電商與市場(chǎng)的反饋過(guò)程。文獻(xiàn)[10]針對(duì)中長(zhǎng)期電力市場(chǎng)發(fā)電商報(bào)價(jià)問(wèn)題,采用A3C算法進(jìn)行了建模仿真,并討論了運(yùn)營(yíng)效率。
報(bào)價(jià)策略算法的任務(wù)是給出合適的報(bào)價(jià)策略,實(shí)現(xiàn)利潤(rùn)最大化。從任務(wù)特點(diǎn)來(lái)說(shuō),發(fā)電廠商報(bào)價(jià)策略需考慮發(fā)電成本、機(jī)組出力等自身情況,推斷日期(或?qū)崟r(shí))市場(chǎng)邊界條件以及競(jìng)爭(zhēng)對(duì)手的報(bào)價(jià)情況進(jìn)而做出決策。從科學(xué)問(wèn)題來(lái)說(shuō),報(bào)價(jià)任務(wù)可以定義為帶約束條件的優(yōu)化問(wèn)題,即:

其中,約束條件包括機(jī)組運(yùn)行特性(比如機(jī)組優(yōu)先電量約束、機(jī)組出力上下限約束、機(jī)組爬坡約束等)、市場(chǎng)邊界條件(比如線路潮流約束、斷面潮流約束、電量空間邊界等)。
本文將各發(fā)電商建模為智能體,電力市場(chǎng)出清建模為環(huán)境,將發(fā)電商報(bào)價(jià)決策問(wèn)題轉(zhuǎn)化為一個(gè)多智體強(qiáng)化學(xué)習(xí)求解問(wèn)題,如圖1所示。各發(fā)電商根據(jù)發(fā)電成本、負(fù)荷需求和機(jī)組運(yùn)行特性等約束條件給出最優(yōu)報(bào)價(jià)。在交易中心收到所有發(fā)電商的報(bào)價(jià)之后,結(jié)合網(wǎng)絡(luò)拓?fù)鋮?shù)、潮流約束和負(fù)荷需求等因素進(jìn)行出清,最后將出清結(jié)果反饋給各發(fā)電商。

圖1 模型框架
結(jié)合強(qiáng)化學(xué)習(xí)方法,相關(guān)定義如下。
定義1智能體。用集合G={g1,g2,…,gn}表示,在電力現(xiàn)貨日前市場(chǎng)中,發(fā)電商i為一個(gè)智能體(即gi),各智能體之間具有競(jìng)爭(zhēng)關(guān)系。
定義2動(dòng)作。用集合A={a1,a2,…,an}表示,本文定義動(dòng)作ai為發(fā)電商可選擇的第i種報(bào)價(jià)曲線。
動(dòng)作ai與發(fā)電商機(jī)組的出力區(qū)間相關(guān),給定發(fā)電商的出力區(qū)間為[Pmin,Pmax],報(bào)價(jià)區(qū)間數(shù)為d段,則動(dòng)作ai的報(bào)價(jià)曲線為:

其中x表示出力,將出力區(qū)間[Pmin,Pmax]均分為d段,k1到kd為出力區(qū)間的分段標(biāo)簽,ci,?表示對(duì)應(yīng)區(qū)間的價(jià)格,滿足ci,1≤ci,2 定義3狀態(tài)。用集合S={s1,s2,…,s n}表示,本文定義發(fā)電商的出力情況為狀態(tài)。 本文根據(jù)發(fā)電商的出力區(qū)間為[Pmin,Pmax]將狀態(tài)離散化為n個(gè)區(qū)間,即S={[Pmin,P1),[P1,P2),…,[Pn-1,Pmax]}。 定義4回報(bào)。用r表示,本文定義回報(bào)即發(fā)電商報(bào)價(jià)后可以獲得的收益。ri即智能體i在當(dāng)前狀態(tài)si下選擇動(dòng)作ai之后獲得的收益。 不同類型的發(fā)電商有不同的發(fā)電成本,但計(jì)算方式均與中標(biāo)電量、中標(biāo)價(jià)格和成本相關(guān)。 定義5環(huán)境。用E表示,本文定義市場(chǎng)出清為環(huán)境,其決定各發(fā)電商在采取特定動(dòng)作后的回報(bào)。 本文基于安全約束經(jīng)濟(jì)調(diào)度(SCED)進(jìn)行出清,其公式如下: 其中,機(jī)組的總臺(tái)數(shù)是N,總時(shí)段數(shù)為T,機(jī)組i在時(shí)段t的出力用pi,t表示,C i,t(pi,t)為機(jī)組i在時(shí)段t的運(yùn)行費(fèi)用,是與機(jī)組申報(bào)的各段出力區(qū)間和對(duì)應(yīng)能量?jī)r(jià)格有關(guān)的多段線函數(shù);網(wǎng)絡(luò)潮流約束松弛罰因子用M L S表示;M C為機(jī)組優(yōu)先電量約束松弛罰因子。公式中,針對(duì)電網(wǎng)安全問(wèn)題,重點(diǎn)考慮了線路潮流和斷面潮流的約束。首先,線路l在時(shí)段t的正、反向潮流松弛變量,即和;然后是斷面s在時(shí)段t的正、反向潮流松弛變量,即sls+s,t,s l s-s,t;最后,考慮了機(jī)組i在時(shí)段t的機(jī)組優(yōu)先電量松弛變量s l ci,t。 定義6策略。用π表示,其定義了一個(gè)特定時(shí)刻智能體的行為方式,即發(fā)電商在當(dāng)前出力狀態(tài)下該采取何種報(bào)價(jià)動(dòng)作。 定義7狀態(tài)-行為值函數(shù)。用Q表示,該函數(shù)刻畫了智能體在長(zhǎng)期狀態(tài)下對(duì)于某個(gè)狀態(tài)或者行為的偏好。 算法1智能體i的學(xué)習(xí)算法。 初始化: 學(xué)習(xí)率α=(0 ,1],δw∈( 0,1]且δl>δw; 折扣因子γ∈(0,1);探索率ε; 狀態(tài)-行為值函數(shù)Qi(a)=0; 重復(fù): (1)根據(jù)具有某一探索率ε的策略πi(a)選擇報(bào)價(jià)動(dòng)作并提交給市場(chǎng)。 (2)觀測(cè)直接回報(bào)ri。 (3)更新Qt+1i(a),計(jì)算公式為: (4)更新策略πti+1(a),計(jì)算公式為: 其中, 在實(shí)際報(bào)價(jià)過(guò)程中,各發(fā)電廠商不知道其他競(jìng)爭(zhēng)對(duì)手的策略,也不知道市場(chǎng)出清的信息,即回報(bào)函數(shù)。因此,本文采用Wolf-PHC算法求解報(bào)價(jià)最優(yōu)策略。該算法中,各智能體只需知道自身的行為和每次獲得的回報(bào)。在算法訓(xùn)練階段,重復(fù)執(zhí)行步驟(1)~(5)直至達(dá)到最大迭代次數(shù)或滿足特定終止條件。當(dāng)算法訓(xùn)練結(jié)束之后,則可以使用算法進(jìn)行實(shí)際報(bào)價(jià)。 實(shí)驗(yàn)中地區(qū)的負(fù)荷數(shù)據(jù),本文采用的數(shù)據(jù)集1數(shù)據(jù)集:https://www.eia.gov/electricity/gridmonitor/dashboard/electric_overview/US48/US48源于美國(guó)能源信息署的公開數(shù)據(jù)平臺(tái),本文下載了紐約市2015年7月—2021年4月的數(shù)據(jù)。數(shù)據(jù)間隔時(shí)間以小時(shí)為單位。訓(xùn)練過(guò)程中10天出清為一次迭代,每次迭代結(jié)束后記錄各發(fā)電商10天的收益及所有發(fā)電商10天的總收益。 仿真實(shí)現(xiàn)對(duì)5節(jié)點(diǎn)3發(fā)電商系統(tǒng)進(jìn)行模擬,每個(gè)發(fā)電商擁有一臺(tái)火力發(fā)電機(jī)組,驗(yàn)證指標(biāo)為每次迭代后的各發(fā)電商收益和總收益。設(shè)置的發(fā)電商機(jī)組信息如表1所示。 表1 發(fā)電商機(jī)組信息 每次出清發(fā)電商收益ri的計(jì)算公式為: 其中cost=a1(x‘)2+a2(x‘)+a3,x‘為中標(biāo)出力,c‘為中標(biāo)電價(jià),a1,a2和a3分別是成本系數(shù),實(shí)驗(yàn)中其設(shè)置信息如表2所示。 表2 成本系數(shù)設(shè)置 實(shí)驗(yàn)記錄了總體的收益變化過(guò)程以及各發(fā)電商的收益變化過(guò)程,如圖2和圖3所示。 圖2 總體收益變化 圖3 各智能體收益變化 從實(shí)驗(yàn)結(jié)果來(lái)看,各發(fā)電商的收益隨迭代次數(shù)增加,逐漸提高,最后達(dá)到穩(wěn)定狀態(tài)。這表明本文模型求解的最優(yōu)策略能夠使各發(fā)電商收斂到各自的納什均衡狀態(tài)。 此外,表3統(tǒng)計(jì)了本文模型與貪心算法、動(dòng)態(tài)規(guī)劃算法的收斂步數(shù)和收益比較。從實(shí)驗(yàn)結(jié)果來(lái)看,本文采用的基于Wolf-PHC求解算法,比動(dòng)態(tài)規(guī)劃和貪心算法具有更快的收斂速度,而且也能保證整個(gè)系統(tǒng)達(dá)到較大的收益。 表3 算法對(duì)比 針對(duì)電力市場(chǎng)的報(bào)價(jià)場(chǎng)景,本文提出了基于多智能體的強(qiáng)化學(xué)習(xí)報(bào)價(jià)策略。特別地,在策略求解時(shí),針對(duì)各智能體無(wú)法知道對(duì)手策略以及回報(bào)函數(shù)的情況,提出了采用Wolf-PHC算法的思路。從實(shí)驗(yàn)結(jié)果來(lái)看,本文模型是可行的。在未來(lái)的工作中,本文作者認(rèn)為應(yīng)該從模型可信性的角度構(gòu)建競(jìng)價(jià)模型。具有可信度高的模型,更容易讓競(jìng)價(jià)操作者接受且認(rèn)可模型給出的策略。從另一方面來(lái)說(shuō),現(xiàn)貨市場(chǎng)的競(jìng)價(jià)涉及參與方的利益,因此只有可信度高的模型才能廣泛用于輔助決策。2.3 模型訓(xùn)練



3 實(shí)驗(yàn)討論
3.1 參數(shù)設(shè)置



3.2 結(jié)果分析



4 結(jié)語(yǔ)