基于MADDPG算法的家用電動汽車集群充放電行為在線優化

2021-11-01 05:28:44戴武昌劉艾冬馬鴻君

東北電力大學學報 2021年5期

戴武昌，劉艾冬，申鑫，馬鴻君，張虹

(1.現代電力系統仿真控制與綠色電能新技術教育部重點實驗室(東北電力大學)，吉林吉林 132012；2.國網遼寧省電力有限公司撫順供電公司，遼寧撫順 113000)

近年來，電動汽車因為具有清潔環保、噪音低等優勢，在全球范圍內得到大力發展[1-3].在需求響應環節中，電動汽車具有可中斷負荷的用電特性，為其充電行為優化提供了可能[4].若有效利用，電動汽車也可以為電網提供諸如削峰填谷等作用[5-6].如何兼顧用戶側經濟性和網側轉移限制峰值負荷的要求優化充放電行為成為重要的研究課題.

目前，有許多的優化模型和算法應用于電動汽車充放電行為調度中，以滿足電網側或用戶側的利益.文獻[7]提出了基于蒙特卡洛和粒子群算法的電動汽車有序充放電控制策略，運營商考慮多種因素制定策略，目的是限制電網功率和降低用戶成本.文獻[8]提出了一種基于超圖模型的最小能量損耗路由算法，通過電動汽車異地充放電進行電能的運輸，并規劃輸送路徑以減少了輸送過程的能量損失.文獻[9]建立了需求響應下代理商定價與購電策略，通過主從博弈的方式實現代理商與車主雙方利益最大化.文獻[10]建立了一種分時電價下電網與用戶雙方互動的主從博弈模型，以極小化負荷均方差和車主成本為優化目標，實現了良好的經濟效益與調峰效果.文獻[11]引入電動汽車集群管理機構，建立以最小化網側生產成本和用戶側充放電成本為目標的主動配電網供需協同優化調度模型，得到的優化調度策略不僅降低了生產成本和車主用電費用，而且改善了系統的電壓質量.

上述文獻提供了電動汽車充電行為優化調度的解決方案，但沒有充分挖掘歷史用電數據特性以指導電動汽車充放電行為.

近年來，由于具備對大數據的分析處理能力以及精準快速的決策能力，深度強化學習成為研究熱點，并廣泛應用在電動汽車充放電調度中.文獻[12]應用了DDQN算法進行汽車充電策略的制定，并通過調整電網節點的電動汽車負荷，保證了配電網滿足電壓約束.文獻[13]將家用電動汽車歸類為家用負荷中的可中斷負荷，將A3C算法與基于設備運行狀態概率分布的住宅用電模型相結合，生成的能耗調度策略可用于向電力用戶提供實時反饋，以實現用戶用電經濟性目標.文獻[14]提出了一種基于Q-learning的V2G電力交易決策算法用于降低用電成本.

上述文獻提供了電動汽車充放電行為策略的優化方案，但控制策略都是離散化的，缺少靈活性，且少有考慮通過集群內部合作的方式轉移和限制峰值負荷的充放電行為優化.

多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient，MADDPG)算法是一種融合博弈與數據處理的算法，由于其在多智能體環境中具備良好的決策能力，成為了多智能體深度強化學習的重要算法之一[15].

本文首先基于用戶的歷史用電數據，根據電動汽車用戶群體與網側雙方的需求建立了家用電動汽車集群充放電行為優化調度模型，鼓勵用戶參與需求響應；其次，通過深度神經網絡對大規模復雜數據的特征提取與存儲，并利用強化學習算法在控制與決策方面的優勢，實現對家用電動汽車充放電調度的在線優化.最后，算例分析表明該算法可以兼顧用戶的經濟性和舒適性，同時可以轉移網側峰值負荷，并限制峰值負荷的大小.

1 家用電動汽車充放電行為調度模型

1.1 家用電動汽車用電場景分析

本文的用電場景是一處智能小區，在該小區內，存在多戶擁有電動汽車的家庭，住宅中均裝有充電裝置供各自的電動汽車使用.用戶側通過高級量測體系與電網側進行雙向實時通信，在線交換電價信息和用戶的電動汽車充放電情況，并通過用戶調度中心參與電力調度.示意圖如圖1所示.

圖1 家用電動汽車充放電管理系統

電動汽車用戶可以自行決定出行時間與行駛里程，僅在電動汽車處于在家狀態下才被允許參與調度.用戶除了可以通過供電公司購電為電動汽車供電外，還可以將電動汽車作為家用儲能裝置向電網出售電能獲取收益.

1.2 不確定電價信息下充放電行為分析

電動汽車參與充放電行為優化調度的主要目標是實現電動汽車充放電成本的最小化，同時兼顧用戶的舒適性和電網對電動汽車負荷的限制，因此需要盡可能提高用戶的綜合收益，即綜合成本的最小化.用戶的綜合成本可以表示為

(1)

(2)

公式中：λt為時段t的電價信息；li，t為電動汽車i在時段t的充放電量，表示為

(3)

公式中：pi，t為電動汽車i在時段t的充放電功率；pi，t∈[-pmax，pmax]，當電動汽車充電時pi，t為正值，放電時pi，t為負值.

(4)

SoCmin≤SoCi，t≤SoCmax，

(5)

公式中：SoCmin為荷電狀態的最小值約束.

(6)

公式中：ρ為懲罰系數，ρ>0；lt為電動汽車集群在時段t的總用電負荷，可以表示為

lt=∑i∈Bli，t；

(7)

lth為產生懲罰成本的充電功率閾值，可以表示為

lth=kthNpmax；

(8)

公式中：kth為充電閾值百分比，表示電動汽車集群充電功率閾值占集群最大充電功率的百分比；pmax為電動汽車最大充放電功率.

1.3 電動汽車集群的強化學習設置

由于電動汽車集群的充放電過程具備馬爾可夫性，也包含用戶之間的合作，該過程可以描述為馬爾可夫博弈，這是多智能體強化學習算法的基礎.在多智能體環境中，由于智能體之間存在著聯系，每個智能體的下一狀態不僅與當前自身的狀態與動作相關，還與其它智能體的狀態與動作相關.每個智能體不能完全觀測其他智能體的狀態和動作，需要根據自身的觀測結果從復雜的狀態空間中選取對自己更加有利的動作，保證每次決策的優勢不斷累積，形成優勢策略[16].

在電動汽車的充放電模型中，每個智能體代表一輛電動汽車，代替用戶進行充放電操作與參與環境的交互.電動汽車i在時段t充放電功率pi，t可以作為智能體i的動作ai，即

ai=pi，t.

(9)

將每一時刻的電價信息、電動汽車的充放電操作權限和荷電狀態設置為狀態量.智能體i能夠觀測到的狀態量oi設置為

oi={λt，σi，t，SoCi，t}，

(10)

公式中：σi，t為電動汽車i在時段t的充放電操作權限，表示電動汽車是否允許接入電網進行充放電操作，可以表示為

(11)

全局狀態量x包含當前時刻所有智能體的觀測量，即當前電價和電動汽車集群的狀態信息，定義為

x={o1，…，oN}={λt，σ1，t，SoC1，t，…，σN，t，SoCN，t}.

(12)

在執行動作a={a1，…，aN}后，所有智能體由狀態x轉移至下一狀態x′，并從環境中獲取各自的獎勵值ri和下一時段各自的觀測量o′i.獎勵值ri反映每個智能體采取動作的優劣.根據公式(1)的優化目標，智能體i獲得的獎勵值ri定義為

(13)

(14)

2 多智能體深度確定性策略梯度算法

MADDPG算法源起于確定性行為策略算法(Deep Deterministic Policy Gradient，DDPG)，能夠在動作空間是連續的情況下，無需對動作空間進行離散化，直接輸出一個確定的動作值，從而避免由動作空間離散化而帶來的復雜運算[17-18].

2.1 算法描述

在環境中含有N個智能體，每個智能體僅能觀測到環境的局部狀態信息，無法得知全局狀態，且含有神經網絡，網絡參數分別為θ={θ1，…，θN}.MADDPG算法的神經網絡結構如圖2所示.MADDPG中每個智能體的主網絡包含兩種的網絡：一是策略網絡μ，用來做出符合當前環境和狀態的決策；二是價值網絡Q，用來評判策略網絡輸出動作的優劣.

圖2 MADDPG算法神經網絡結構示意圖

策略網絡引入確定性策略替代隨機性策略，網絡輸出從動作的概率分布變為具體的動作，有助于算法在連續動作空間中進行學習.引入白噪聲機制，用于提高策略網絡在特定環境狀態下輸出不同的動作值的可能性，提高訓練的探索度.智能體i的動作值ai為

ai=μi(oi)+Nt，

(15)

公式中：μi為智能體i策略網絡輸出的策略；Nt為白噪聲.

每次策略網絡根據oi生成動作ai后，環境會返回獎勵值ri與下一時刻的觀測量o′i.將所有智能體的信息{x，a1，…，aN，r1，…，rN，x′}存入經驗池D中，等待訓練階段作為訓練樣本供神經網絡使用.

MADDPG算法引入DDPG的目標網絡結構，與主網絡的結構相似，目的是保證訓練的穩定性.目標網絡同樣分為目標策略網絡μ′和目標價值網絡Q′，分別使用主網絡中的策略網絡參數和價值網絡參數進行初始化，作用是替代主網絡完成在下一時刻的決策與評判，并將做策略網絡與價值網絡的更新.

關于預期回報J(μi)的策略網絡更新公式為

(16)

價值網絡通過最小化TD誤差來更新網絡參數[19]，更新公式為

(17)

公式中：L(θi)為價值網絡的損失函數，用于評估價值網絡估計的價值函數與實際價值函數的誤差；y為實際的動作值函數，可以表示為

(18)

主網絡的訓練目標是最大化策略網絡的期望收益J(μi)，同時最小化價值網絡損失函數L(θi).對主網絡中的策略網絡和價值網絡以學習率α為更新步長進行更新，更新公式分別為

θi←θi+α?θiJ(μi)，

(19)

θi←θi-α?θiL(θi).

(20)

目標網絡采用Soft update的更新方式，主網絡參數用于目標網絡的更新，目標網絡的更新幅度由目標網絡更新率τ決定，0≤τ<1，更新公式為

θ′i←τθi+(1-τ)θ′i.

(21)

2.2 充放電行為實時優化流程

基于MADDPG算法的電動汽車充放電實時優化流程如圖3所示.MADDPG算法的學習過程包括訓練階段與執行階段，采用集中式訓練、分布式執行的學習框架.

圖3 充放電行為優化流程圖

在訓練階段，系統首先依據電價信息、電動汽車集群的操作權限和荷電狀態的歷史數據進行行為探索，學習現實環境中多種可能發生的用電情況.然后，依據獎勵函數評估每個充放電行為的優劣.如果該行為為集群帶來更多收益，則給予該充放電行為較高的獎勵值.反之，給予該行為較低的獎勵值.將這些信息作為訓練素材存儲在經驗池中，并通過抽樣的方式參與神經網絡的集中訓練，積累大量的先驗知識.

在執行階段，每個智能體不需要調動各自的價值網絡對當前的狀態與策略進行評價，依靠訓練環節中完成優化的策略網絡可以進行充放電行為的輸出.向各個智能體的策略網絡中輸入局部觀測量oi={λt，σi，t，SoCi，t}，經過策略網絡運算輸出優化后的充放電動作，實時指導用戶的充放電行為，以滿足用戶側與電網側的多種需求.

由于算法采用集中式訓練、分布式執行的學習框架，每個智能體在訓練階段考慮到了其他智能體對環境和自身的影響，有利于降低電動汽車用戶群體的成本.在執行階段，每個智能體的神經網絡已經經過訓練并得到優化.可以將各個智能體分散在用戶家中，根據自身的觀測量做出優化的行為決策，同時利于保護用戶隱私.

3 算例分析

3.1 參數設置

本文采用美國某電力公司2017年～2018年制定的電價數據.其中，2017年電價數據作為訓練集使用，2018年數據作為測試集使用.仿真車型相關參數如表1所示.充放電模型參數如表2所示.

表1 電動汽車參數

表2 電動汽車充放電模型參數

由于用戶出行行為具有習慣性與規律性，以出行鏈的方式對用戶出行狀態進行描述[20].圖4表示用戶較為常見的出行鏈，包括以下2個場景：

圖4 出行鏈示意圖

場景1：居民區→辦公區/學校→居民區

生態城市是在人與自然建立關系的基礎上產生的一種文化觀，這種文化觀是在生態學原則上建立起的社會、經濟、自然協調發展的新型社會關系，是城市生產力和生產關系發展形成的一種全新的價值體系。生態城市本質上就是一個生態健康的城市，能夠有效地將環境資源利用起來，建立健康、適宜人居住的環境，并實現可持續發展的生活方式。

場景2：居民區→辦公區/學?！虡I區→居民區

根據文獻[21]，綜合場景下集群的電動汽車按照場景1出行的頻率占比為65%，按照場景2出行的頻率占比為35%.電動汽車的出行時間和到家時刻荷電狀態服從正態分布，如表3所示.

表3 出行行為參數設置

算法參數中，折扣因子γ取為0.99，學習率α取為0.001，目標網絡更新率τ取為0.01.仿真環境為英特爾core i7-8700@3.2GHz，6核12線程，內存16GB DDR4，軟件配置為Python3.7.0，Tensorflow1.13.0.

3.2 結果分析

3.2.1 需求響應能力評估

為了評估智能體參與需求響應的能力，隨機抽取某用戶在連續120 h內電動汽車用電優化情況如圖5所示.在不同的場景下，電動汽車處于在線狀態的時段下系統可以做出不同的決策以適應不同的電價水平，最終的荷電狀態穩定在較高水平，滿足用戶用電要求.因為高負荷懲罰項，充電功率被限制，有利于網側充電負荷的控制.場景1放電行為更多集中在高電價時段，具有更大的調度空間.綜合場景的優化效果介于兩種場景之間.

圖5 不同用電場景下電動汽車用電行為優化情況

3.2.2 經濟性評估

本文對不同場景下用戶個體的經濟性進行評估.其不同場景下優化前后的用電成本和綜合成本如圖6(a)、圖6(b)所示.考慮到在現實情況中用戶無法在每個時段針對變動的電價調整電動汽車的充電行為，對比了優化前的充電模式.在這種情況下，電動汽車到家后以高功率充電，直到電池充滿為止，之后不再進行充電，本次充電過程結束.在場景1下，優化后的日平均用電成本為0.262 4$，較優化前降低了0.456 7$.在場景2下，優化后的日平均用電成本為0.480 6$，降低了0.100 4$.在綜合場景下，優化后的日平均用電成本為0.350 9$，降低了0.295 8$.由于電動汽車經歷了先放電后充電的過程，優化后成本呈先下降后上升的趨勢，成本得到控制.

其不同場景下優化前后的費用占比情況如圖6(c)所示.在同種場景下，優化后的用電成本普遍低于優化前的用電成本，綜合場景的優化效果介于場景1與場景2之間.場景1的用電成本相比場景2優化效果更好，這是由于場景1下用戶到家的時間比場景2更早，為系統調度提供了更多的時間，同時場景1下用電過程經歷了更多的高電價時段，有利于汽車向電網放電以減小用電成本.同種場景下，綜合成本在用電成本的基礎上有小幅提高，但優化后的綜合成本普遍低于優化前的水平.優化后的潛在成本降低，但潛在成本占比高于優化前，說明該算法在滿足用戶和電網的潛在需求下，大幅降低了用電成本.

圖6 不同場景下的經濟性評估

為了驗證電動汽車集群的經濟性，對含有30輛電動汽車的集群進行分組調度，隨機抽取10輛電動汽車，其用戶的年費用支出對比如圖7所示.用戶的優化結果略有差異，這與用戶的出行習慣有關.用戶的潛在成本占比較低，說明系統能夠兼顧用戶的出行需要和電網的負荷要求.

圖7 不同用戶的年費用支出對比

用戶的年平均用電成本如表4所示，在不同場景下優化后的用電成本較優化前有不同程度的下降，說明變動的電價下的充放電決策可以滿足用戶群體的經濟性.

表4 年平均用電成本優化結果對比

3.2.3 負荷情況評估

電動汽車集群每日平均負荷情況如圖8所示，其中虛線表示電動汽車集群的充電功率懲罰閾值.原有的充電方式在用電高峰時段進行充電，在17時至次日1時產生兩個負荷高峰.經過初步優化后，電動汽車集群整體在17時至23時處于向電網放電的狀態，并在次日0時至6時從電網吸收電能，轉移峰時負荷，緩解電網壓力.引入高負荷懲罰后，峰值充電負荷得到下降，負荷曲線更加平滑，峰值負荷向后續時段轉移.這是由于集群的成員在充電行為上產生合作關系，為了防止集群總充電負荷超出閾值對每個用戶施加懲罰，智能體對各自的充電功率進行限制，從而降低了峰值負荷.

圖8 優化前后電動汽車集群充放電負荷對比

3.2.4 舒適性評估

在不同場景下用戶的舒適性情況如圖9所示.隨著不舒適系數的升高，兩種場景下的荷電狀態在不斷升高，直至電池完全充電，但用電成本也隨之增加.當相同成本的情況下，場景1的系數比場景2的小，這是因為場景1包含更多高電價時期，系統指導電動汽車放電換取利潤，具備更多的調度空間，充電成本較低，此時相對較低的系數可以滿足需求；同樣場景下，較高的系數使得荷電狀態更高，可以帶來更好的使用體驗.

圖9 不同場景下的舒適性情況對比

4 結論

針對電動汽車集群參與需求響應的充放電行為，本文提出了一種基于MADDPG算法的電動汽車集群充放電行為在線優化方法.主要結論如下：

(1)建立了電動汽車集群充放電優化調度模型，綜合考慮用戶在不同場景下的出行習慣、用能需求及網側負荷約束，為電動汽車集群參與需求響應提供優化方案.

(2)引入多智能體深度確定性策略梯度算法，采用集中式訓練、分布式執行的學習架構，在保護用戶隱私的前提下，實現電動汽車集群充放電行為的在線優化.

(3)所提模型可以提高用戶用能經濟性，在綜合場景下的用電成本相比用戶原有的充電方式降低約41%，同時可以轉移電網峰值負荷，將新負荷高峰限制在最高充電負荷的81%，實現用戶群體與電網的雙贏.