基于非合作博弈與分布式機器學(xué)習(xí)的多微網(wǎng)端對端交易

2023-11-29 07:40:22李吉峰何星瑭宋奎錚王浩嘉郭思辰

山東電力技術(shù) 2023年11期

關(guān)鍵詞：模型

李吉峰，何星瑭，宋奎錚，王浩嘉，郭思辰

（1.國網(wǎng)大連供電公司，大連 116001；2.智能電網(wǎng)教育部重點實驗室（天津大學(xué)），天津 300072；3.國網(wǎng)遼寧省電力有限公司電力調(diào)度控制中心，沈陽 110000；4.國網(wǎng)扎魯特旗供電公司，通遼 028000）

0 引言

隨著新型電力系統(tǒng)建設(shè)的不斷深入［1］，系統(tǒng)供需平衡方式由傳統(tǒng)的源隨荷動向源荷雙向互動模式轉(zhuǎn)變，而系統(tǒng)能量流交互的改變也促進(jìn)了現(xiàn)金流即新型電力交易模式的發(fā)展［2］。因此，如何制定有效的交易機制并采取更為智能的決策管理方法是當(dāng)前亟待解決的重要問題。在眾多的新型交易模式與示范中，端對端（peer-to-peer，P2P）交易［3］因其相對便捷的參與方式以及相對靈活的交易模式，被大量研究用于構(gòu)建對等、透明的分布式電力交易市場，在提升本地清潔能源消納率的同時，提升本地能源系統(tǒng)的效率，目前也已經(jīng)取得了一些示范與應(yīng)用［4］。

目前，針對多用戶之間的P2P 分布式交易主要采取兩種出清定價策略［5］，第一種是由聚合商作為市場聯(lián)盟的組織者與協(xié)調(diào)者，進(jìn)而從聯(lián)盟宏觀的角度促成供需平衡。例如，文獻(xiàn)［6］提出并對比了包括供需比（supply and demand ratio，SDR）、中間市場率（mid-market rate，MMR）以及賬單分享（bill sharing，BS）在內(nèi)的3 種典型的“聯(lián)盟式”交易價格清算機制。文獻(xiàn)［7］建立了包含能源市場、區(qū)域能源運營商、微網(wǎng)系統(tǒng)以及負(fù)荷用戶在內(nèi)的多能源系統(tǒng)四層運營框架，從而協(xié)調(diào)區(qū)域能量平衡，降低微網(wǎng)系統(tǒng)的運行成本。文獻(xiàn)［8］考慮了建筑熱平衡特性對市場參與者用電行為的影響，制定了多用戶電能共享優(yōu)化策略，并采用Shapley 算法對用戶集群所獲取的效益進(jìn)行再分配。第二種是市場參與個體可以根據(jù)自身的實際供/用能情況，并隨著交易環(huán)境信號實施動態(tài)調(diào)整的P2P 交易市場。例如，文獻(xiàn)［3］通過引入非合作博弈與主從博弈理論對P2P 交易模式的內(nèi)在博弈關(guān)系進(jìn)行了全面分析。文獻(xiàn)［9］研究在P2P 交易中引入主從博弈理論，并驗證主從博弈交易對降低交易成本以及減少二氧化碳排放等方面的效果。文獻(xiàn)［10］提出配電系統(tǒng)內(nèi)部的多微網(wǎng)博弈交易議價方法。文獻(xiàn)［11］提出時間與交易電量均為靈活性選擇因素的能量塊概念，解決了現(xiàn)有P2P 能源交易易出現(xiàn)的源荷不匹配問題。

在出清算法方面，目前對于P2P 交易的求解大多采用集中式優(yōu)化算法或結(jié)合博弈理論的優(yōu)化算法，雖然可以在一定程度上解決交易獲利分配以及用戶的隱私保護(hù)問題［12］，然而，隨著交易參與者數(shù)量的增加，物理設(shè)備、能量交互與現(xiàn)金交易等數(shù)據(jù)量也會急劇增加，傳統(tǒng)的集中式優(yōu)化算法可能會面臨維數(shù)災(zāi)難問題。然而，如何將機器學(xué)習(xí)智能方法［13］應(yīng)用在電力市場交易領(lǐng)域，相關(guān)的研究仍存在空白。

針對上述存在問題，以多微網(wǎng)之間的電力P2P交易作為研究切入點，首先構(gòu)建了P2P 交易市場的參與主體即微網(wǎng)的自治運行調(diào)度模型；其次，分析了多微網(wǎng)間P2P 交易的博弈關(guān)系，并采用分布式強化學(xué)習(xí)算法對交易策略進(jìn)行求解；最后，通過算例仿真驗證了所提理論及算法在降低用戶交易成本、提高本地清潔能源消納以及算法性能等方面的有效性與適用性，進(jìn)而對人工智能算法在電力市場交易領(lǐng)域中的應(yīng)用與適用性進(jìn)行了探索，也為大數(shù)據(jù)背景下的多主體交易提供了算法參考。

1 多微網(wǎng)間電力P2P交易框架

所構(gòu)建的多微網(wǎng)電力P2P 交易整體架構(gòu)如圖1所示，市場交易的主體，即微網(wǎng)（microgrid，MG）由不同類型的負(fù)荷和分布式電源組成，微網(wǎng)配置有儲能設(shè)備。系統(tǒng)內(nèi)的微網(wǎng)通過自身的聯(lián)絡(luò)線與外部上級電網(wǎng)相連，并通過本地配電網(wǎng)實現(xiàn)互聯(lián)，配電網(wǎng)網(wǎng)架均能夠支持雙向交易。每個微網(wǎng)的微網(wǎng)能源服務(wù)商通過合理化的P2P 交易、儲能設(shè)備調(diào)度，以實現(xiàn)微網(wǎng)系統(tǒng)內(nèi)的電能供需平衡及運行經(jīng)濟性最優(yōu)。

圖1 多微網(wǎng)P2P交易框架Fig.1 P2P trading framework for multi-microgrids

假定本地配電網(wǎng)存在P2P 交易平臺，負(fù)責(zé)協(xié)助微網(wǎng)之間進(jìn)行P2P 交易，該平臺可以是一個沒有實體的互聯(lián)網(wǎng)交易平臺，也可以是配電網(wǎng)運營商職責(zé)的一部分。在進(jìn)行分布式P2P 交易的過程中，每一個微網(wǎng)能源服務(wù)商首先會對網(wǎng)供負(fù)荷需求、儲能設(shè)備充放電狀態(tài)、P2P 交易電量、上網(wǎng)電量進(jìn)行優(yōu)化調(diào)度；其次，基于內(nèi)部自治優(yōu)化調(diào)度結(jié)果，同時考慮配電網(wǎng)的實時電價波動，微網(wǎng)能源服務(wù)商向交易平臺提交待交易電量及報價；平臺會對相關(guān)信息進(jìn)行公示，同時考慮微網(wǎng)能源服務(wù)商之間的博弈行為，平臺會不斷更新交易信息，并在考慮配電網(wǎng)實際運行的安全性約束的前提下，協(xié)助微網(wǎng)能源服務(wù)商之間實現(xiàn)最終的P2P 交易。

需要說明的是，鑒于P2P 分布式交易屬于本地用戶間的就近交易，未考慮交易所產(chǎn)生的服務(wù)費以及損耗問題［14］。

2 微網(wǎng)市場主體模型

2.1 微網(wǎng)自治運行調(diào)度模型

作為P2P 交易市場的主要參與主體，以第i個MG 為例，微網(wǎng)能源服務(wù)商會通過調(diào)節(jié)微網(wǎng)內(nèi)部的可調(diào)控資源以及交易策略，以實現(xiàn)微網(wǎng)系統(tǒng)的總運行成本Ctotal，i，t最優(yōu)，總運行成本主要包括與上級電網(wǎng)的交易成本Cutility，i，t、P2P 交易成本CP2P，i，t以及設(shè)備運行維護(hù)成本COM，i，t，故第i個MG 自治調(diào)度的目標(biāo)函數(shù)為

上文中，式（4）與式（5）為綜合考慮了設(shè)備建設(shè)成本、維修費用、人力成本、政府補貼以及凈殘值等因素所計算出的分布式電源發(fā)電折算成本［15］；式（6）為儲能設(shè)備的運行成本。

除此之外，微網(wǎng)自治運行調(diào)度模型還包括微網(wǎng)內(nèi)電力供需平衡約束、儲能設(shè)備的容量約束、充放電功率約束等約束條件［15］，在此不再贅述。

2.2 P2P博弈交易模型

在P2P 分布式交易市場中，參與交易的微網(wǎng)都試圖通過更多地出售電能來提升自身收益，且各個微網(wǎng)由各自的能源服務(wù)商管理，不具有聯(lián)盟關(guān)系。因此，采用非合作博弈模型來分析P2P 交易中各個微網(wǎng)之間的競爭博弈關(guān)系。具體依照博弈三要素定義對博弈關(guān)系進(jìn)行具體分析，博弈參與者為參與P2P 交易的微網(wǎng)；博弈策略為每個微網(wǎng)在P2P 交易中制定的交易電價及交易電量；博弈效用為各微網(wǎng)的總運行成本或收益，對應(yīng)式（1）。

微網(wǎng)之間的博弈過程是一個動態(tài)過程，博弈結(jié)束的標(biāo)志包括交易達(dá)到Nash 均衡狀態(tài)或最大迭代次數(shù)；博弈的均衡狀態(tài)包括微網(wǎng)制定的P2P 交易電價及交易電量。具體的迭代過程如下。

在第1 輪迭代中，各微網(wǎng)首先進(jìn)行自治運行調(diào)度，并依據(jù)自治調(diào)度后電能過剩或不足情況，向P2P 交易平臺提交初始化交易電價及電量信息，平臺依據(jù)所處系統(tǒng)的安全運行約束條件，結(jié)合微網(wǎng)的自治調(diào)度情況，公布首輪電量與價格的報送結(jié)果，各微網(wǎng)根據(jù)結(jié)果反饋信息對P2P 交易投標(biāo)策略進(jìn)行修改后進(jìn)行再次投標(biāo)報價，進(jìn)而完成一輪迭代。假設(shè)第k輪迭代中各微網(wǎng)的投標(biāo)電量及價格如下。

當(dāng)兩輪迭代可交易電量及價格相等，即

表示沒有任何一個參與P2P 交易的微網(wǎng)可以通過改變自身的調(diào)度結(jié)果及報價信息而獲得更高的博弈效用，此時的結(jié)果可看作博弈的Nash 均衡解。需要說明的是，如果微網(wǎng)之間博弈無法達(dá)到Nash 均衡，則微網(wǎng)將按照與上級電網(wǎng)進(jìn)行雙向交易的傳統(tǒng)交易模式以實現(xiàn)微網(wǎng)內(nèi)的供需平衡。

3 基于彈性平均隨機梯度下降算法的分布式機器學(xué)習(xí)框架

3.1 彈性平均隨機梯度下降算法原理

常規(guī)的機器學(xué)習(xí)方法雖然不要求具體抽象的數(shù)學(xué)模型，僅通過環(huán)境模型即可實現(xiàn)問題的求解，然而，常規(guī)的機器學(xué)習(xí)方法無論采用什么方法來更新環(huán)境模型，都會在某個時刻聚合出一個全局環(huán)境模型，這種處理思路對于所構(gòu)建的多微網(wǎng)多極值點優(yōu)化問題而言，難以同時達(dá)到最優(yōu)的效果。因此，采用彈性平均隨機梯度下降（stochastic gradient descent，SGD）算法這種非完全一致的分布式機器學(xué)習(xí)算法來求解多微網(wǎng)的自治調(diào)度與P2P 交易問題。算法的具體原理如下。

定義ωi為第i個工作節(jié)點的模型，在特指第i個微網(wǎng)的經(jīng)濟效益模型；為全局環(huán)境模型，則不同微網(wǎng)的分布式優(yōu)化函數(shù)為

基于式（9）所示的分布式優(yōu)化函數(shù)，所提出的分布式機器學(xué)習(xí)算法主要包括兩方面的優(yōu)化目標(biāo)：一是使得各微網(wǎng)的風(fēng)險損失函數(shù)最小，進(jìn)而體現(xiàn)出與其他微網(wǎng)之間的博弈關(guān)系；二是使得本地模型與環(huán)境模型之間的差距最小，進(jìn)而體現(xiàn)出微網(wǎng)的自治調(diào)度特性。基于上述優(yōu)化思路，分別對ωi與進(jìn)行求導(dǎo)，即可得到環(huán)境模型的更新公式為

因此，所提出的彈性平均SGD 算法流程及偽代碼如下。

算法1：彈性平均隨機梯度下降算法偽代碼

從訓(xùn)練集S中隨機抽取或在線獲取動作與策略樣本

計算動作與策略樣本的隨機梯度?fi(ωr)

完成本地模型的更新，更新時考慮最新的梯度和當(dāng)前模型與全局環(huán)境模型的差異為

3.2 基于非合作博弈與分布式機器學(xué)習(xí)的多微網(wǎng)端對端交易流程

基于上述交易原理分析及求解算法介紹，所提出的基于分布式機器學(xué)習(xí)的多微網(wǎng)P2P 交易流程主要包括微網(wǎng)自治調(diào)度與基于非合作博弈的多微網(wǎng)P2P 交易兩個模塊，具體流程如圖2 所示。

圖2 基于非合作博弈與分布式機器學(xué)習(xí)的多微網(wǎng)端對端交易流程Fig.2 Multi-microgrids P2P transaction process based on non-cooperative games and distributed machine learning

4 算例分析與對比

4.1 算例概況

以改進(jìn)的IEEE 33 節(jié)點配電系統(tǒng)作為主體系統(tǒng)結(jié)構(gòu)，其中部分節(jié)點接有可進(jìn)行P2P 交易的微網(wǎng)［3］，具體架構(gòu)如圖3 所示。不同微網(wǎng)內(nèi)的設(shè)備配置情況如表1 所示。典型日的負(fù)荷曲線及分布式電源的出力曲線分別如圖4 及圖5 所示。儲能設(shè)備參數(shù)及所在地區(qū)的電價信息參見文獻(xiàn)［3］。

圖3 系統(tǒng)架構(gòu)Fig.3 System architecture

圖4 典型日負(fù)荷曲線Fig.4 Typical daily load curves

圖5 典型日分布式電源出力曲線Fig.5 Typical daily distributed power generation output curves

4.2 P2P交易分析

基于算例設(shè)置，將儲能設(shè)備的初始容量與最大充放電功率分別選取設(shè)備容量的50%與20%［15］，調(diào)度時間步長設(shè)定為Δt=1 h。基于所提出的微網(wǎng)自治調(diào)度及P2P 博弈交易模型，得到典型時刻的P2P 交易結(jié)果如圖6 所示。

具體地，在01：00 時刻，MG2 與MG3 擁有可交易電量，屬于P2P 交易中的賣方，而MG1 與MG4 在該時段有購電需求，屬于P2P 交易中的買方。在博弈交易過程的初始階段，MG2 與MG3 均會通過降低報價以盡可能多地促成P2P 交易，然而，相比較于MG2，考慮到MG3 擁有的可交易電量較多，買方更傾向于同MG3 進(jìn)行交易以盡可能多地降低購電成本，因此，在博弈過程的后期，MG2 會在可行區(qū)域內(nèi)提升交易價格以獲取更大的收益。在04：00 時刻，MG2 與MG3 擁有可交易電量，而MG1 與MG4 在該時段有購電需求，然而，在該時段MG2 與MG3 擁有的可交易電量無法滿足MG1 與MG4 全部的購電需求，因此，在博弈交易過程的初始階段，MG2 與MG3會在可行區(qū)域內(nèi)提升交易價格以獲取更大的收益，MG1 與MG4 額外的購電需求將通過與外部電網(wǎng)進(jìn)行交易以滿足供需平衡。在13：00 時刻，MG1、MG3與MG4 擁有可交易電量，而MG2 在該時段有購電需求，因此，在博弈交易過程中，賣方們會在可行區(qū)間內(nèi)通過降低報價以盡可能多地促成P2P 交易，進(jìn)而提升交易的收益。在19：00 時刻，MG2 擁有可交易電量，而MG1 與MG4 在該時段有購電需求，考慮到MG2 擁有的可交易電量無法同時滿足此時系統(tǒng)內(nèi)其他微網(wǎng)的全部購電需求，因此，MG2 會傾向于同購電需求較大的MG4 進(jìn)行交易，MG1 與MG4 額外的購電需求將通過與外部電網(wǎng)進(jìn)行交易以滿足供需平衡。綜上所述，所提出的P2P 博弈交易理論可以有效促成多微網(wǎng)之間的P2P 交易。

在對典型時刻P2P 交易結(jié)果進(jìn)行分析的基礎(chǔ)上，進(jìn)一步從交易成本/收益以及清潔能源消納的角度對不同交易模式進(jìn)行分析，如表2 所示。通過對表2 的分析可知，相比較于同上級電網(wǎng)進(jìn)行直接雙向交易的傳統(tǒng)交易模式，P2P 交易模式在交易主體的經(jīng)濟性與促進(jìn)新能源的本地消納方面均有一定的優(yōu)勢。

表2 不同交易模式對比Table 2 Comparison of different trading models

4.3 算法對比分析

為進(jìn)一步驗證算法的有效性，分別選取啟發(fā)式算法［16］、改進(jìn)的次梯度迭代法［17］，通過優(yōu)化微網(wǎng)內(nèi)部的可調(diào)控資源及交易策略從而實現(xiàn)經(jīng)濟性最優(yōu)，并與本文介紹的分布式機器學(xué)習(xí)方法進(jìn)行對比，基于4.1 節(jié)的在線學(xué)習(xí)環(huán)境，以MG4 的購電成本優(yōu)化為例，不同算法的迭代收斂過程如圖7 所示。

圖7 不同算法收斂過程Fig.7 Convergence process of different algorithms

具體對圖7 分析可知，對于所構(gòu)建的多主體高維度解空間的分布式優(yōu)化問題，啟發(fā)式算法雖然迭代進(jìn)程較短，但是易陷入局部最優(yōu)，未能挖掘到最優(yōu)解。改進(jìn)次梯度迭代算法受到算法參數(shù)的影響，搜索解空間的波動范圍較大，迭代過程較長。而所提出的分布式機器學(xué)習(xí)算法可以縮小解空間范圍，迭代過程較短，求解效率較高。

5 結(jié)論

合理有效的交易機制是加快推進(jìn)電力體制改革與能源轉(zhuǎn)型的重要保障，提出基于非合作博弈與分布式強化學(xué)習(xí)的多微網(wǎng)P2P 交易方法，通過理論分析與算例仿真驗證，得到的主要結(jié)論如下：

1）相比較于傳統(tǒng)的雙向交易模式，基于非合作博弈理論的P2P 交易模式在降低用戶購電成本，提升用戶售電收益的同時，還可以有效提升本地分布式電源的消納率。

2）相比較于啟發(fā)式算法與梯度迭代算法，分布式機器學(xué)習(xí)方法在迭代收斂進(jìn)程與解空間精準(zhǔn)確定方面均具有一定的優(yōu)勢，提升了求解效率。

未來的研究將會進(jìn)一步挖掘微網(wǎng)內(nèi)部用戶需求響應(yīng)特性與靈活性負(fù)荷對市場交易產(chǎn)生的影響。