999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

有限信息環境下基于學習自動機的發電商競價策略

2021-03-30 01:31:40賈乾罡陳思捷李亦言徐澄科
電力系統自動化 2021年6期
關鍵詞:動作環境策略

賈乾罡,陳思捷,李亦言,2,嚴 正,徐澄科

(1. 上海交通大學電子信息與電氣工程學院,上海市200240;2. 北卡羅來納州立大學電子與計算機科學系,羅利市27695,美國)

0 引言

自2015 年啟動新一輪電力體制改革以來,中國電力市場化進程在各省快速推進。電力中長期交易趨于成熟,現貨市場架構及市場機制設計逐漸完善。在這種情況下,市場成員的參與策略具有了實際的研究價值。

電力市場通常被認為是典型的不完全競爭市場或寡頭壟斷市場。在該類市場中,發電商有充分的動機開展策略性報價以提高自身收益[1]。現有對發電商投標策略的研究可大致分為以下3 類。①發電商通過預測下一階段市場出清電價及負荷,從而制定相應的投標策略[2-4]。該類方法僅適用于價格接受型(price taker)發電商,即假定他們自身的投標策略對市場價格無影響。②通過建立市場的博弈均衡模型以得到自身的最優投標策略[5-6]。該類方法要求發電商能夠獲取全部的市場信息,在實際應用中存在難度。③發電商通過研究對手的報價行為并對其建模,估計對手的報價策略,從而針對性地優化自身的策略[7-8]。這類研究通常需要假設對手的行為服從某種特定分布。事實上,發電商可獲得的外部市場環境信息、競爭對手信息往往較為有限,尤其是在新興市場中可參考的歷史樣本數據稀少,這使得外部市場對于發電商而言類似于黑箱,發電商難以通過建立市場博弈模型或研究對手行動制定自身報價策略。

在該情形下,強化學習[9-10]成為發電商優化自身報價策略的強大工具。強化學習的基本思想是學習者通過與未知環境的不斷交互來獲得最佳決策。學術界已經對強化學習在電力市場方面的應用開展了較多的研究。例如:文獻[11]應用Q 學習對發電商的行為進行建模,并根據模型評估市場規則;文獻[12]使用模糊強化學習來優化電力市場中發電商的報價策略。此外,近年來深度神經網絡的發展進一步提升了強化學習的性能。例如,文獻[13]提出了一種深度強化學習方法,并結合優先級經驗回放策略來優化發電商的報價行為。文獻[14]將深度強化學習算法應用于負荷聚合商的最優報價和定價策略。

然而,需要注意的是,現有研究在以下2 個方面仍存在改進空間。

1)現有研究通?;\統地將發電商報價和市場出清這一過程描述為馬爾可夫博弈(或隨機博弈)[15]。馬爾可夫博弈是馬爾可夫決策在多智能體環境下的擴展,它假定系統的當前狀態與過去狀態以及所有參與者的共同行動相關聯。然而,馬爾可夫博弈對于狀態轉移的嚴格定義,使得它依賴于特定的適用場景。在系統中可再生能源占比較高,火電機組靈活性不足的情況下,當前市場狀態,例如節點邊際電價(locational marginal price,LMP)會一定程度上關聯上一時刻的LMP,該場景下的發電商博弈進程可通過馬爾可夫博弈表示;而在系統中火電機組占比較高,且靈活性較強的情況下,當前的市場狀態,仍以當前系統的LMP 為例,主要取決于負荷和發電商在當前時段的聯合投標行為,而與上一時刻的LMP關系較弱,該場景下發電商的博弈進程更適合用重復博弈[16]描述。

2)雖然多數研究認可“發電商不能對整個外部環境進行完整建?!钡那疤?,但是仍默認發電商能夠獲取大部分對手的歷史投標信息或系統物理參數。在成熟的市場中,這種假設有一定的合理性。但是在市場啟動初期,這些外部數據的獲取難度將大大提高,甚至變得不可行。因此,本文假設發電商在市場初期無法獲取除了自身信息(即自身歷史投標、所在節點電價和利潤數據)以外的任何對手和系統信息。

本文聚焦于現貨市場中的實時市場,以期從發電商的角度優化其單時段報價策略。

1 重復博弈模型

1.1 發電商、用戶和市場運營商模型

市場成員通常包括3 個主要部分:發電商、用戶和市場運營商。古諾模型和供應函數模型是描述發電商競價博弈的2 種經典模型。古諾模型中,發電商只報發電量;供應函數模型中,發電商報自身邊際成本函數。供應函數模型更加符合市場的運作規律,在描述電力市場成員博弈中得到了廣泛的應用[17]。

1)發電商

本文假設每個發電商擁有一個注冊火電機組,其成本函數以二次形式表示[18],具體如下:

式中:i 為發電商編號;Ci為發電商i 的成本函數;bi和ai分別為發電商i 的一次項和二次項系數;Pi為發電商i 的出力。

在供應函數模型中,發電商提交給系統運營商的是自身的邊際成本函數。實際上,發電商提交給市場運營商的邊際成本和真實的邊際成本往往存在偏差,即

式中:CM,i為發電商i 的策略性邊際報價;bstra,i為策略性因子,即可變的邊際成本截距。該邊際成本函數稱作發電商i 的報價曲線,即為文中所指的報價。報價策略即為邊際成本函數中截距的取值。

對于發電商i 而言,其目標在于最大化利潤:

式中:Ji為發電商i 的利潤;λi為發電商i 所在節點的節點電價。

2)用戶

用戶j 的效用函數也可以寫成二次形式:

式中:j 為用戶的標號;Uj為用戶j 的效用函數;rj和sj分別為用戶j 的一次項和二次項的系數;Lj為用戶j的負荷需求。

由于本文關注發電商的報價策略,故假定用戶提交真實邊際效用:

3)市場運營商

市場運營商收集發電商和用戶提交的邊際成本和邊際效用函數,并出清市場。本文使用直流最優潮流算法實現經濟調度,在聯營模式下,市場運營商的目標是最大化社會福利[19],即

式中:S 為發電商集合;D 為用戶集合。

優化問題的等式約束是發用電平衡,可表述為:

優化問題的不等式約束為線路潮流約束、發電機出力上下限約束和負荷上下限約束,可表述為:

式中:lv為傳輸線v 的容量;Fv為傳輸線v 的功率流;V 為 傳 輸 線 的 集 合;Pmin,i和Pmax,i分 別 為 發 電 商i 的功 率 輸 出 的 下 限 和 上 限;Lmin,j和Lmax,j分 別 為 用 戶j的負荷下限和上限。每條線的潮流可以根據節點負荷和潮流傳輸因子[20]來計算。

1.2 重復博弈

基于供應函數模型的重復博弈市場框架如圖1所示,在實時市場中,發電商和用戶分別將下一個小時的策略性邊際成本函數和真實邊際效用函數提交給市場運營商。市場出清完畢后,市場運營商計算所有發電商的發電量、用戶的負荷值以及系統的節點電價[21],并反饋給相應的市場參與者。

圖1 基于供應函數模型的重復博弈市場框架Fig.1 Framework of repeated game market based on supply function model

在與市場的反復互動過程中,發電商可以逐漸了解市場并得到最佳的報價策略。所有發電商以該種形式參與市場競爭的博弈進程即稱為重復博弈。

2 發電商策略性報價的強化學習自動機算法

連續動作強化學習自動機(continuous action reinforcement learning automata,CARLA)由 文 獻[22]提出,并解釋和證明了其收斂性。CARLA 算法是本文所提出的實用強化學習自動機(practical reinforcement learning automata,PRLA)的基礎,本文將CARLA 的動作選取和概率密度的更新過程進行簡化處理,避免復雜的符號運算和積分方程求解,在不改變算法收斂性的前提下使整個算法更加實用。

CARLA 采用非參數化概率模型。在每次迭代中,算法使用者根據動作概率密度函數隨機選擇動作,在與環境交互后,依照反饋信號的強弱提高或降低該動作及相鄰動作的概率密度值。其本質是不斷地強化更好的動作被選中的概率。經過多次與環境的交互,最終得到穩定集中在最優動作附近的概率密度函數,從而完成整個學習過程。CARLA 算法的優勢在于智能體不需要過多的先驗知識和復雜的超參數調整。但是該方法在實際應用中仍面臨較大問題:概率密度函數的更新涉及大量的符號運算,且動作的選取涉及復雜的積分方程求解。隨著迭代次數的增加,其計算時間和難度將呈指數級數上升,這使得計算代價很高甚至難以求解[23-24]。文獻[22]雖然使用了插值的思想處理這一困境,但是并未深入介紹具體流程。

針對該問題,本文結合離散化和梯形法積分的思想,改進了CARLA 算法(見附錄A)的選擇動作和更新概率密度函數的方法,使整個算法的時間復雜度大大降低。其核心思想為:將概率密度函數離散化,以存儲空間和計算精度換取計算時間的減少和計算復雜度的降低。

改進后的PRLA 算法的具體流程如下,其中步驟2 至步驟4 為循環執行階段(當連續若干次動作的變化值小于設定閾值,循環終止)。

步驟1:初始化動作空間概率密度函數及歷史收益緩存區。

對于某個發電商而言,其報價策略取值的動作范圍x∈[xmin,xmax](xmin即為b 取值下限bmin,xmax即為b 取值上限bmax)。發電商對不同策略的選擇偏好通過在動作空間上概率密度函數的形式表示,記作f(x,n),其中n 表示發電商與市場之間的迭代次數。由于在初始階段,發電商沒有關于市場的先驗知識,其不同行為的選擇偏好相同,一般采用在動作空間上的均勻分布表示初始概率密度:

同時,發電商初始化歷史收益緩存區,用于存放每輪迭代的收益,緩存區初始存放數據為0。

步驟2:選擇動作。

在第n 次市場出清,發電商根據最新的概率密度函數選擇動作。首先,生成符合在[0,1]區間上均勻分布的隨機數z(n),并根據z(n)和概率密度函數選擇動作x(n)。

具體做法是,PRLA 算法將動作區間m 等分,記為{ x0,x1,…,xm},每段長度為xd,稱為1 個子區間。這里用概率密度函數在m+1 個區間端點的離散值代替原連續概率密度函數參與運算,即在第n 次迭代 ,離 散 概 率 密 度 函 數 值 為 { f (x0,n),f (x1,n),…,f (xm,n)}。

根據梯形法[25],計算任意子區間k 的面積:

計算動作累積概率S,即子區間面積的遞加:

在選擇動作時,首先根據累積概率確定z(n)所在子區間u,則x(n)可表示為:

附錄B 舉例說明該動作選取過程。在選擇邊際成本的截距之后,發電商將報價提交給市場運營商。

步驟3:對環境反饋做出評估。

在所有發電商和用戶分別提交自身邊際成本和邊際效用函數后,市場運營商執行市場出清程序。市場出清完畢后,發電商根據式(3)得到出清收益J(n),并執行強化信號評估:

式中:Jmax和Jmed分別為歷史收益緩存區中的最大值和中位數。

該步驟的作用是評估強化信號的強弱:β(n)越大,獎勵信號越強;反之,則懲罰信號越強。在執行完評估后,將J(n)存入緩存區。為了避免過多消耗存儲空間,同時使學習過程跟上環境的不斷變化,算法設定只能將最新的L 個數據保存到數據緩存區中。

步驟4:更新概率密度函數。

首先,引入對稱高斯鄰域函數h(n)(見式(17))作為更新信號,其目的是在每次迭代中,強化表現好的動作及其周圍動作被選擇的概率。

式中:c 和σ 分別為高斯分布的高度和寬度,其值可以決定學習速度和分辨率。通常c 越大,學習速度越快,但是學習結果往往越不準確。σ 越大,概率密度變化越平緩,但是學習結果分辨率越低。

同樣地,將更新過程離散化。在第n 次迭代,離散概率密度函數的更新可以表示為原離散概率密度函數和離散高斯鄰域函數在子區間端點處離散值{h(x0,n),h(x1,n),…,h(xm,n)}的線性運算,即

式中:α 為歸一化因子,可使概率密度函數的積分保持為1。α 值可由式(19)所示復化梯形公式確定。

附錄C 舉例說明了該概率密度函數更新過程。在迭代過程中,概率密度函數始終以離散的形式儲存和運算。上述離散化處理由于未改變其整個算法的迭代邏輯,故并不影響算法的收斂性。算法的偽代碼見附錄D。

3 算例分析

仿真軟件為MATLAB 2020a,運行環境為搭載Intel Core i7TM的16 GB RAM 的服務器。算例的主要目標在于驗證所提出PRLA 算法在平穩和非平穩環境[26]下的有效性,并通過重復試驗評估算法的穩定性。

測試系統的拓撲結構如圖2 所示。每個節點都有一個發電商和一個用戶。表1 列出了所有參與者的參數。

圖2 3 節點測試系統拓撲Fig.2 Topology of 3-bus test system

表1 測試系統中的發電商和用戶參數Table 1 Parameters of power suppliers and consumers in test system

發電商3 的成本參數設置較大,這是為了突出不同發電商的市場力。此外,本文采用直流潮流模型,每條傳輸線的電抗設為0.1 p.u.。為了更好地反映PRLA 算法的有效性,將Bus1-Bus3 線路的傳輸極限設置為100 MW,以造成系統阻塞。表2 顯示了在完全信息下的迭代方法[27]計算的報價策略納什均衡點,這是理想情況下發電商的最優報價策略。

表2 解析納什均衡點Table 2 Analytical Nash equilibrium point

本文將通過PRLA 算法求得的數值解(記為SL)與表2 中的解析解(記為SA)進行對比,并計算百分比誤差(DPE)作為衡量指標:

3 個發電商從開始博弈到報價策略收斂到納什均衡為一輪完整的學習過程。為了更好地反映算法的性能,本文取100 輪完整學習過程的平均數據計算百分比誤差,以平抑單輪學習過程中的不確定性,增強了結果的可信度。

本文假設機組的靈活性充足,并根據此假設給出報價上下限bmax和bmin分別為50 美元/(MW·h)和0 美元/(MW·h),同時,設區間數M 為500 個,c 和σ分 別 為0.1 美 元/(MW·h)和0.5 美 元/(MW·h)(c 和σ 的 靈敏度分析見附錄E),收斂判據ε 設定為1 美元/(MW·h),數據緩存區的長度L 設置為10。需要指出的是,本文雖設定了收斂判據,但是每輪迭代中,發電商在策略收斂后仍迭代至400 次,以保證不同收斂曲線的起始點與終止點對應。

3.1 平穩環境

本算例中,平穩環境是指假定發電商2 和發電商3 具有全局視角,直接以其各自的納什均衡最優解固定邊際成本,而發電商1 則需要使用PRLA 學習其最優報價策略。在這種情況下,若發電商1 能夠同樣收斂到其納什均衡解,則證明算法的有效性。

發電商2 和發電商3 分別固定截距為15.7 美元/(MW·h)和23.2 美元/(MW·h)。發電商1 通過學習將報價策略優化為31.0 美元/(MW·h),與解析解31.0 美元/(MW·h)一致,證明了平穩環境下算法的有效性。

平穩環境下,發電商1 的學習過程經過約130 次迭代后逐漸穩定,其報價策略概率密度函數的峰值逐漸穩定在納什均衡解(31.0 美元/(MW·h))附近。發電商1 的報價策略曲線如圖3(a)所示,報價策略概率分布變化過程如圖3(b)所示。

圖3 平穩環境下發電商1 的報價學習過程Fig.3 Bidding learning process of power supplier 1 in steady environment

3.2 非平穩環境

本算例中,非平穩環境是指所有發電商均需要通過學習以獲得自身策略。簡便起見,假定所有發電商均采用PRLA 算法。在這種情況下,若所有發電商仍能夠收斂到納什均衡解,即可證明算法的有效性。3 個發電商所使用的PRLA 算法的參數與上文相同。

表3 列出了這3 個發電商的學習結果。

表3 非平穩環境學習結果Table 3 Learning result in the non-steady environment

3 個發電商學習到的最佳報價策略分別約為31.1、15.1、22.9 美 元/(MW·h),其 百 分 誤 差 均 在4%以內,證明了非平穩環境下的算法有效性。

非平穩環境下,發電商1 的學習過程經過約245 次迭代后逐漸穩定。隨著迭代次數的增加,發電商1 報價策略概率分布的峰值逐漸穩定 在31.1 美 元/(MW·h),與 納 什 均 衡 解 析 解(31.0 美元/(MW·h))的誤差為0.32%。發電商1的報價策略曲線如圖4(a)所示,報價策略概率分布變化過程如圖4(b)所示。

圖4 非平穩環境下發電商1 的報價學習過程Fig.4 Bidding learning process of power supplier 1 in non-steady environment

4 結語

本文著力于解決有限信息環境下發電商的策略性報價問題。首先,將發電商的博弈過程建模為重復博弈。進一步,提出了一種PRLA 算法,以幫助發電商在信息不完全的情況下優化報價策略。該算法在平穩環境和非平穩環境下學習結果的百分比誤差均在4%以內,其有效性得到驗證。該方法適用于在電力現貨市場啟動初期指導發電商的策略性報價行為,在中國電力市場改革的背景下具有一定的借鑒意義。

本文的報價方法的基礎是供應函數模型,但也可以拓展到其他模型下,如分段報價模型。未來的工作將集中在以下幾個方面:對環境不確定性的更加準確的建模;算法實際使用過程中效率的提高;考慮發電商多時段報價的優化問題,并涉及機組組合。

附錄見本刊網絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網絡全文。

猜你喜歡
動作環境策略
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
例談未知角三角函數值的求解策略
孕期遠離容易致畸的環境
我說你做講策略
環境
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
主站蜘蛛池模板: 国产精品精品视频| 尤物亚洲最大AV无码网站| 日韩久草视频| 97色伦色在线综合视频| 国产本道久久一区二区三区| 91精品啪在线观看国产91九色| 亚洲三级网站| 日韩A∨精品日韩精品无码| 亚洲色偷偷偷鲁综合| 美女潮喷出白浆在线观看视频| 亚洲欧美日韩精品专区| 欧美成人精品高清在线下载| 国产凹凸视频在线观看| 国产在线视频福利资源站| 亚洲精品你懂的| 国产草草影院18成年视频| 久久久精品国产SM调教网站| 激情无码字幕综合| 激情综合婷婷丁香五月尤物 | 一级香蕉人体视频| 91丨九色丨首页在线播放 | 久久综合色视频| 亚洲欧美激情另类| 欧美另类视频一区二区三区| 色成人亚洲| 九九九九热精品视频| 午夜视频日本| 色有码无码视频| 欧美在线一二区| a级毛片在线免费| 国产精品护士| 玖玖精品在线| 成人在线天堂| 免费A∨中文乱码专区| 国产视频 第一页| 日韩小视频在线观看| 五月六月伊人狠狠丁香网| 国产精品免费电影| 国产欧美日韩专区发布| 一本大道香蕉中文日本不卡高清二区| 亚洲人成日本在线观看| 国产日韩精品一区在线不卡| 亚洲综合一区国产精品| 欧美成人综合在线| 五月综合色婷婷| aa级毛片毛片免费观看久| 亚洲成a∧人片在线观看无码| 91香蕉国产亚洲一二三区| 国产福利免费观看| 黄色三级网站免费| 成人看片欧美一区二区| 国产欧美日韩综合一区在线播放| 国产亚洲一区二区三区在线| 在线国产综合一区二区三区| 91精品福利自产拍在线观看| 国产成人福利在线视老湿机| 好紧好深好大乳无码中文字幕| 亚洲一级毛片| 91无码国产视频| 亚洲中文在线看视频一区| 欧美日韩激情在线| 亚洲成肉网| 久久精品无码一区二区日韩免费| 久久婷婷色综合老司机| 国产成人1024精品下载| 久久精品aⅴ无码中文字幕| 亚洲人成高清| 国产极品美女在线| 91色综合综合热五月激情| 男女性色大片免费网站| 日韩av在线直播| 99久久性生片| 91久草视频| 日韩精品无码一级毛片免费| 天堂在线视频精品| 67194亚洲无码| 精品免费在线视频| 国产真实乱子伦视频播放| 狠狠久久综合伊人不卡| 久久久久国产一区二区| 国产一线在线| 久久久久人妻一区精品|