999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CEQ(λ)多智能體協同學習的互聯電網性能標準控制指令動態分配優化算法

2016-10-11 02:45:47張孝順余濤唐
電工技術學報 2016年8期
關鍵詞:指令分配動作

張孝順余 濤唐 捷

(1. 華南理工大學電力學院 廣州 510640 2. 廣東電網公司韶關供電局 韶關 512026)

基于CEQ(λ)多智能體協同學習的互聯電網性能標準控制指令動態分配優化算法

張孝順1余 濤1唐 捷2

(1. 華南理工大學電力學院 廣州 510640 2. 廣東電網公司韶關供電局 韶關 512026)

在CPS指令動態分配過程中,應用單智能體Q(λ)算法下的CPS合格率雖然可以滿足要求,但還存在收斂速度較慢、尋優空間較小等問題。為此,提出應用多智能體相關均衡強化學習的方法來彌補單智能體強化學習的不足。根據調頻時延將 AGC機組分成煤電、氣電和水電等類型,對CEQ(λ)應用于這n類智能體組成的CPS調節指令動態分配進行研究分析。標準兩區域模型及南方電網模型仿真研究表明:多智能體CEQ(λ)算法適用于隨機、機組組合復雜的互聯電網CPS指令動態最優分配,能有效提高系統的適應性、魯棒性和CPS考核合格率。

相關均衡 自動發電控制系統 協同學習 強化學習 隨機優化

0 引言

自 1999年北美電力可靠性委員會提出評價互聯電網自動發電控制系統(Automatic Generation Control,AGC)性能標準控制(Control Performance Standard,CPS)后,CPS合格率已成為衡量電網調度端AGC控制策略優劣的重要標準[1]。隨著間歇式能源的大量并網,經典 PI控制[2-4]已難以滿足隨機性更強的復雜互聯電網 AGC控制性能的要求。為此,國內外有不少學者把模糊預測控制[5]、模糊控制[6]人工神經網絡[7]、強化學習[8]等適應性和靈活性更強的智能算法引入AGC控制器的設計,有效提高了CPS性能。

AGC控制系統的關鍵步驟之一就是把 CPS總調節指令根據一定的優化算法分配到各臺 AGC機組。由于電網的負荷擾動是實時隨機變化的,所以CPS指令優化分配是一個隨機優化過程,對于優化算法的實時性要求較高。同時,各類 AGC機組具有不同的調節容量、調頻時延、調節速率等特性,進一步增加了CPS指令優化分配的難度。目前,國內外學者對CPS指令分配的研究較少。在實際工程應用中,CPS指令往往按相同可調容量比例分配(PROP)[9],并沒有考慮各機組間的動態調節特性的差異,且不能滿足復雜工況下的CPS性能要求。文獻[10]利用標準PSO算法進行調節功率分配,有效解決了CPS指令的最優分配問題。針對指令動態最優分配的幾個難點,筆者采用了單智能體強化學習方法對CPS指令分配問題開展了系列研究[11-14],文獻[12]中引入了具有多步回溯功能Q(λ)方法,有效解決了火電機組大時延問題,文獻[13,14]則對強化學習算法進行了分層改進,有效避免了維數災難問題。這些基于單智能體的動態優化方法雖然可以在滿足電網CPS考核標準前提下得到收斂的均衡點,但其尋到的均衡點并不一定是最優的均衡點,算法在線尋優速度依存在較大的提升空間。

最近十余年來,從單智能體學習算法向多智能體學習算法發展成為機器學習領域的一個熱點研究方向。其中,基于相關均衡的(Correlated-Equilibrium-Q, CEQ)學習算法是一個極具代表性的多智能體算法,已成功應用于機器人編隊學習和無線電傳輸等領域[15]。

為進一步提高CPS指令分配過程中AGC機組的協同學習能力,本文結合多步回溯Q(λ)方法和經典 CEQ,提出了一種全新的多智能體學習算法CEQ(λ)(correlated-equilibrium-Q(λ)),并將該算法應用于CPS功率指令最優分配問題。同時,為驗證CEQ(λ)算法的應用優勢,本文還引入了其他分配方法,利用 IEEE標準兩區域模型及南方電網模型進行仿真比較分析。

1 多智能體CEQ(λ)學習算法原理

1.1相關均衡

1.1.1相關均衡的定義

馬爾科夫決策過程中,如果每個智能體在所有智能體的動作概率分布基礎上最大化自己的獎勵值,由此所形成的動態平衡即為相關均衡。相關均衡數學描述為

式中,A?i=∏j≠iAj,Ai為智能體i的動作集合;ai為智能體i的動作;ia′為智能體i的任一可選動作,且表示除智能體i的其他智能體的集合;π 為均衡策略(即動作概率);Ri為智能體i的立即獎勵函數。如果某一策略π 對于所有智能體i、所有動作ai、a?i∈Ai(π (ai)>0) 式(1)均成立,這一策略即為相關均衡動態平衡點。

1.1.2相關均衡的求解

相關均衡可以通過線性規劃簡易求取。目標函數的選擇一般有四種[16]:最大化所有智能體的獎勵值之和 uCEQ;最大化所有智能體獎勵的最小值eCEQ;最大化所有智能體獎勵的最大值pCEQ;最大化任意一個智能體獎勵的最大值dCEQ。

約束方程組如式(1)所示,對于n個智能體、每個智能體動作集合有 m個元素的馬爾科夫對策(Markov Games, MG),其動作對(即變量)總共有mn個,約束方程總共有nm(m?1)個。可以證明,對于任意馬爾科夫對策至少存在一個相關均衡點[17,18]。

1.2多智能體CEQ(λ)學習算法

1.2.1CEQ學習算法

CEQ是基于馬爾科夫過程模型的一種多智能體學習控制技術,通常是在相關均衡策略約束下進行Q值的迭代來學習最優控制策略。

CEQ算法的一般原理是:計算所有智能體當前狀態下的Q值;在給定均衡目標函數下通過線性規劃求解相關均衡;執行最優聯合動作策略,并觀察系統響應,返回獎勵值與當前狀態,具體如圖1所示。

圖1 多智能體CEQ算法原理Fig. 1 Theory of multi-agent CEQ algorithm

給定所有智能體 i∈N,所有狀態 s∈S和動作a∈A(s)在時刻t的Q值Qit(s,a);給定均衡策略πt;給定均衡目標函數 f;相關均衡條件下,由 MG規則可定義 t+1時刻智能體 i的狀態-動作值函數Qit+1(s,a)和狀態期望函數Vit+1(s)[19]為

式中,γ 為折扣因子,0≤γ ≤1;Ri(s,a)為智能體 i在狀態 s執行動作 a后得到的立即獎勵函數值;P[s′|s,a]為狀態s在執行動作a后轉移到狀態s′的概率

相關均衡策略的線性約束描述為對所有智能體i、所有動作ai、a?i∈Ai(π (ai)>0) 式(4)均成立。

1.2.2資格跡

資格跡的引入可有效解決 CEQ算法下各類機組時滯環節所帶來的延時控制問題[20];同時,均衡過程的求取涉及到大規模線性規劃問題,頻繁的求解過程也相當費時。因此,本文選取相對簡單的TD(λ)[21]資格跡更新算法,即

式中,et(s,a)為t時刻狀態-動作對(s,a)下的資格跡;(st,at)為t時刻實際的狀態-動作對;λ為衰減因子,0≤λ≤1。

1.2.3CEQ(λ)學習算法

多智能體 CEQ(λ)學習算法通過直接優化可迭代計算的狀態-動作對值函數 Qj(s, a),在線尋求最優聯合動作策略以期望折扣報酬總和最大。由式(2)~式(5)可推導出CEQ(λ)學習算法的迭代更新式為

式中,α為學習因子,是一個常量。

2 CPS指令多智能體動態優化分配算法

2.1CPS指令動態分配原理

圖2[14]是一個跟蹤控制系統,在每個AGC控制周期,首先由CPS控制器形成一個CPS總調節指令,然后再根據一定的優化算法把CPS總調節指令分配到各臺AGC機組。

圖2 AGC系統負荷動態優化分配過程Fig.2 Process of dynamic optimization of CPS order allocation

與文獻[11]相比,本文對基于離散時間的分配過程數學模型進一步改進,不再使用分配因子矩陣,而是使用機組出力組合空間更大的原始矩陣,具體描述為

式中,t為離散時刻;ΔPerror?i為第 i臺機組接收的CPS指令與該機組實際出力的差;E為功率差的二次方值在時間段 T內的累積方差;ΔPorder-Σ為 AGC系統CPS指令值(MW);ΔPorder-i為分配到第i臺機組的調節指令(MW);rateiP+為第i臺機組的上升調節速率限制(MW/min);rateiP?為第i臺機組的下降調節速率限制(MW/min);ΔPGi為第i臺機組的實際調節出力(MW);分別為第i臺機組調節容量上、下限(MW)。

2.2基于CEQ(λ)學習的動態優化分配算法

2.2.1平衡機組與動作空間

受到式(8)的第一個約束,本文提出的多智能體 CEQ(λ)學習算法只針對其中的 n?1類機組進行學習,而第n類機組的CPS指令調節量為

本文定義第n類機組為平衡機組。為了使機組總的出力能夠較快而且較經濟的平衡負荷,一般選用水電和液化天然氣等調節容量上下限較小且時延性較小、調節速率較高、調節費用較小的機組參與均衡學習,而平衡機組一般選用燃煤機組。

本文提出的控制動作集A由各類機組的動作決定,即A={A1A2… An-1},遠比文獻[11-15]中僅由有限個離散動作值的分配因子集合A的動作空間大得多,使得其學習算法能夠尋得更優的均衡點。此外,文獻[11-15]中分配因子的離散性對各機組的調節動作次數較頻繁,不太適應于實際電力系統中,而本文控制器中每類機組的動作集都是離散的增減出力值,例如A1={ ?20 ?10 ?5 0 5 10 20}MW,使得各機組的相鄰調整值波動比較小,符合實際 AGC機組的功率調整需要。

2.2.2均衡選擇函數

如前文提到,一般常用的均衡選擇函數有四類uCEQ、eCEQ、pCEQ和dCEQ。第一類均衡選擇函數uCEQ公平“對待”每類機組的報酬值,物理意義為最大化所有智能體報酬之和。后三類均衡選擇函數都是最大化某一類機組的報酬值,而CPS總指令需要區域電網內所有 AGC調節機組協同分配承擔。同時,從式(8)可以看出,目標函數是最小化所有機組的功率偏差值之和。因此,本文中相關均衡的均衡選擇函數選用uCEQ,即,在任意狀態s中,有

2.2.3獎勵函數

由于參與學習的機組只有n-1,且要滿足式(8)中所有機組的功率偏差值之和最小,因此,對參與學習的機組i,本文在CPS分配器中設計的評價獎勵函數Ri為

式中,ΔPerror-Σ為所有機組接收的 CPS總指令與該機組實際總出力的差。

2.2.4參數設置

在 CEQ(λ)算法中,折扣因子γ、學習因子α 和衰減因子λ這三個參數選取的不同將直接影響到算法的收斂性能[20,21]。在CPS指令動態分配中,算法的參數主要設置如下。

(1)折扣因子γ :表征Q函數更新過程中對過去已得到獎勵值的折扣,由于當前獎勵值對功率分配過程的影響更大,當γ 接近于 1時,尋優效果更好[20]。仿真實驗表明:當γ 落在區間[0.7, 0.9]范圍內時,算法收斂性能最好,本文取γ =0.8。

(2)學習因子α:表征算法的尋優速度和穩定性,一般來說,α 越大,收斂速度越快,但容易陷入局部最優[21]。仿真實驗表明:α 越小時,更能保證算法全局收斂穩定,本文在預學習時取α =0.1,在線學習時取α =0.001。

(3)衰減因子λ:表征算法能回溯過去信息的遠近,λ越大,能回溯的歷史信息越多,但收斂速度更慢[12]。仿真實驗表明:當λ 在[0.3, 0.7]范圍內時,算法的動態尋優性能更好,本文取λ =0.5。

2.2.5CEQ(λ)算法流程

在CPS指令動態分配過程中,多智能體CEQ(λ)算法可完整描述如下。

輸入:均衡選擇函數f;折扣因子γ;學習因子α;衰減因子λ;

輸出:Q、V矩陣更新值;聯合動作策略π*;

初始化:Q、V值矩陣;初始狀態s;初始動作a。

Repeat

(1)確定當前狀態s,單獨執行動作策略ai;

(2)觀察其他機組的聯合動作對a?i、下一狀態s′;

(3)由式(11)獲得該類機組的立即獎勵值R(s,a);

(4)由式(4)和均衡選擇函數f求取相關均衡策略πsi*;

(5)對所有機組j,執行:

①按照式(2)更新值函數Vj(s,a);

②按照式(6)估計值函數誤差δj;

③按照式(5)更新資格跡元素ej(s,a);

④按照式(7)更新值函數Qj(s,a);

(6)if 當前狀態s和下一狀態s′是同一狀態

由第(5)步更新Q值再次求取相關均衡策略πs′*;

else

執行第(7)步;

(7)由πsi*選擇該機組最優動作ai′;

(8)s=s′,ai=ai′;

Forever

3 仿真算例

3.1標準兩區域互聯系統仿真研究

3.1.1仿真模型

以典型的 IEEE兩區域互聯系統的負荷頻率控制模型[22]作為研究對象,原模型中僅有 1臺機組模擬發電環節,在此算例中首先選擇在A區域進行預學習仿真,所以在A區域使用三種機組模型替代原來的1臺機組,分別為燃煤、液化天然氣(Liquefied Natural Gas,LNG)和水電機組[11],其中三種機組模型在參考文獻[20]中建立,B區域仍使用原來的1臺機組模型。系統模型相關參數見表1,系統基準容量為 10 000MW。參考廣東電網調度中心相關調研數據,按等比例計算三種類型機組的調節容量和調節速率,相關參數見表2。本文使用Simulink進行建模仿真研究。

表1 兩區域互聯系統模型參數Tab.1 System parameters for the two-area LFC model

表2 三種類型機組的相關參數Tab.2 Parameters for three units’ model

3.1.2仿真設計

算法以式(8)為控制目標,由S-function模塊編寫。學習步長一般為 AGC控制周期,標準算例中取8 s。

CEQ(λ)學習算法均選擇燃煤機組作為平衡機組,LNG機組與水電機組參與相關均衡強化學習,其中輸出動作離散集A1=A2={?100 ?50 ?20 ?10 ?5 0 5 10 20 50 100}MW,聯合動作值個數有11×11=121個。因此,相關均衡約束方程總共有2× 11×(11?1)=220個。算法的狀態空間以ΔPorder?Σ為輸入狀態量,并將其離散化為(? ∞, ?1 000)、(?1 000, ?500)、(?500, 0)、(0, 500)、(500, 1 000)和(1 000, +∞)。

3.1.3仿真實例

強化學習算法有在線和離線兩種預學習模式,在線模式因大幅度最優策略搜索會引起系統振蕩,危害系統安全性,所以本文控制器首先采用離線模式的預學習,直到完成足夠迭代次數,收斂于最優聯動策略π*,再投入到真實仿真環境參與在線優化運行。

1)周期性負荷擾動

在預學習階段,對A區域各施加周期為8 000s,幅值±1 000MW的連續階躍負荷擾動,以盡可能地遍歷更多的負荷擾動場景。

圖3 連續階躍負荷擾動仿真Fig.3 A simulation with continuous and stepped load disturbance

圖3a和圖3b分別給出了同一擾動下應用Q(λ)學習算法和CEQ(λ)學習算法的系統機組出力曲線。在兩種算法下,機組的實際出力均能較好跟蹤CPS功率指令,但是 CEQ(λ)算法較 Q(λ)算法收斂速度快,此外,兩種算法在收斂后,CEQ(λ)功率曲線相對比較平滑??梢?,基于各機組相關均衡的CEQ(λ)算法具有更快的尋優速度。此外,如圖3c所示,在整個學習時間內,相對 Q(λ)算法,CEQ(λ)算法的CPS1曲線也比較光滑,而且在收斂后CPS1值比較高??梢娫谙嚓P均衡學習下,CEQ(λ)算法找到了比Q(λ)算法更優的均衡點。

2)階梯式遞增負荷擾動

在 A區域加入一組階梯式遞增的突增負荷擾動,檢驗算法的動態性能,如圖4所示,每次負荷突增的幅度為800MW。

圖4 階梯式遞增負荷擾動仿真Fig.4 A simulation with increasing step load disturbance

圖 4a給出了階梯式遞增負荷擾動下應用 Q(λ)學習算法和CEQ(λ)學習算法的CPS指令曲線和系統機組出力曲線。從圖中可以看出,Q(λ)算法時的CPS指令和實際發電總功率并不能很好地跟蹤負荷擾動,總的輸出曲線波動較大,而CEQ(λ)算法下的CPS指令和實際發電總功率基本重合同時基本都能跟蹤到負荷擾動,說明在CEQ(λ)學習算法下找到更優的聯合動作策略,圖4b的CPS1實時值曲線也充分說明了這一點。

3)隨機負荷擾動

在A區域加入一組隨機的負荷擾動,檢驗算法的動態性能如圖 5所示,第 1個負荷擾動幅值為500MW,第 2個負荷擾動幅值為 1 000MW,第 3個負荷擾動幅值為?1 000MW。

圖5 隨機負荷擾動仿真Fig.5 A simulation with stochastic load disturbance

圖 5a給出了隨機遞增負荷擾動下應用 Q(λ)學習算法和CEQ(λ)學習算法的CPS指令曲線和系統機組出力曲線。從圖中可以看出,Q(λ)和 CEQ(λ)算法均能較好地跟蹤負荷擾動,但相對于 Q(λ)算法,CEQ(λ)算法下的實際總發功率能更好地動態匹配隨機負荷擾動,此外,圖5b中的CPS1實時值曲線也說明了 CEQ(λ)較 Q(λ)算法下找到更優的聯合動作策略。

在周期性負荷、階梯式遞增負荷擾動和隨機負荷擾動下,仿真區域A的統計性指標匯總見表3,其中,|Δf |、|EACE|、CPS1均為仿真時間內平均值。

表3 區域A仿真CPS指標對照表Tab.3 CPS compliance of area A

3.2南方電網實例仿真研究

3.2.1仿真模型

本節將在南方電網的整體框架下,以廣東電網為主要研究對象。參考廣東電網參與 AGC的機組的調研數據,根據機組類型、容量、調節速率及兩次調頻時延分為10個機群,具體參數見表4。

表4 廣東電網AGC機組相關參數Tab.4 AGC units’ parameters in Guangdong power grid

3.2.2仿真設計

由于模型涉及的機群較多,直接利用 CEQ(λ)學習算法將會出現維數災問題。因此,本節按調頻時延將十類機群劃分為燃煤、燃氣、燃油和水電四種類別的機群。算法先對四種類別機組進行CPS指令分配,再根據得到的調節指令分配各類別到各自機群。其中,四種類別的學習過程中以第1類別為平衡機組,火電1選為類別1中的平衡機組。當機群獲得功率指令后,本文采用相同可調容量比例分配方法(PROP)[9]把功率指令分配到各個實際的機組。

CEQ(λ)學習算法經過預學習后在豐水期和枯水期投入運行,自動進行在線更新。其中,豐水期水電機組可調容量為1 000MW,枯水期下降為500MW。

此外,本節還引入 PROP[8]與 Q(λ)算法[12]進行比較。在豐水期,PROP的分配因子向量為(0.21, 0.15, 0.20, 0.14, 0.08, 0.05, 0.05, 0.04, 0.05, 0.03),枯水期則變為(0.22, 0.15, 0.21, 0.14, 0.08, 0.06, 0.06, 0.04, 0.02, 0.02)。

3.2.3仿真實例

采用周期性的隨機負荷擾動進行統計實驗,擾動負荷的周期為1 000s,幅值不超過1 500MW。選擇24h為考核周期,并以10min為CPS考核時段,廣東電網統計性實驗指標匯總見表5。其中:|Δf |、 |EACE|、CPS1分別為整個考核周期內頻率偏差、區域控制誤差(ACE)平均值、控制性能標準-指標1,CCPS2、CCPS為 24h內 CPS2、CPS考核合格率百分數,CCPS2考核標準閾限值 L10取南方電網總調推薦值288MW。

表5 豐、枯水期廣東電網仿真結果CPS指標對照表Tab.5 CPS compliance of Guangdong power grid

由表5可知:在豐水期內,強化學習算法Q(λ) 和CEQ(λ)的CPS考核合格率均為100%,優于PROP算法。這也說明了基于強化學習的優化分配算法的在線學習能力,而采用固定比例的分配方式并不能較好適應復雜隨機的電網環境。同時,從考核指標|Δf |、|EACE|和CPS1可以看出,相比Q(λ)算法,CEQ(λ)算法找到了更優的聯合動作策略。

此外,從表5可以看出:由于水資源的減少,枯水期內三種方法的各項指標都有所下降。然而,CEQ(λ)算法的CPS考核合格率仍為100%,并且在整體控制效果上CEQ(λ)算法仍優于其他兩種算法。可見,CEQ(λ)學習算法下的機組跟蹤負荷的能力受水電機組可調容量的影響較小。

4 結論

本文提出了一種全新的多智能體 CEQ(λ)協同學習算法,并應用到互聯電網的CPS指令動態優化分配問題中,相比單智能體算法,具有如下特點:

1)基于相關均衡的CEQ(λ)算法尋優速度更快,在線學習能力更好,更加符合CPS指令分配的實時滾動優化,能有效提高CPS的考核合格率。

2)CEQ(λ)算法下煤電機組承擔負荷擾動的比重較大,同時受水電機組的調節容量影響較小,更加適用于煤電占優、水電資源匱乏的互聯電網CPS指令動態分配。

3)當同時存在多個控制目標時,可以以加權的方式重新設計每個智能體的獎勵函數,從而解決CEQ(λ)算法下多機組的 CPS指令動態分配的多目標優化問題。

[1] Jaleeli N, Vanslyck L S. NERC’s new control performance standards[J]. IEEE Transactions on Power Systems, 1999, 14(3): 1091-1099.

[2] 唐悅中, 張王俊. 基于 CPS的 AGC控制策略研究[J]. 電網技術, 2004, 28(21): 75-79. Tang Yuezhong, Zhang Wangjun. Research on control performance standard based control strategy for AGC[J]. Power System Technology, 2004, 28(21): 75-79.

[3] 高宗和, 滕賢亮, 涂力群. 互聯電網 AGC分層控制與CPS控制策略[J]. 電力系統自動化, 2004, 28(1): 78-81. Gao Zonghe, Teng Xianliang, Tu Liqun. Hierarchical AGC mode and CPS control strategy for interconnected power systems[J]. Automation of Electric Power Systems, 2004, 28(1): 78-81.

[4] 李濱, 韋化, 農蔚濤. 基于現代內點理論的互聯電網控制性能評價標準下的 AGC控制策略[J]. 中國電機工程學報, 2008, 28(25): 56-61. Li Bin, Wei Hua, Nong Weitao. AGC control strategy under control performance standard for interconnected power grid based on optimization theory[J]. Proceedings of the CSEE, 2008, 28(25): 56-61.

[5] 付鵬武, 周念成, 王強鋼, 等. 基于時滯模型預測控制算法的網絡化 AGC研究[J]. 電工技術學報, 2014, 29(4): 188-195. Fu Pengwu, Zhou Niancheng, Wang Qianggang, et al. Research on networked AGC system based on delay model predictive control algorithm[J]. Transactions of China Electrotechnical Society, 2014, 29(4): 188-195.

[6] 丁冬, 劉宗歧, 楊水麗, 等. 基于模糊控制的電池儲能系統輔助 AGC調頻方法[J]. 電力系統保護與控制, 2015, 43(8): 81-87. Ding Dong, Liu Zongqi, Yang Shuili, et al. Battery energy storage aid automatic generation control for load frequency control based on fuzzy control[J]. Power System Protection and Control, 2015, 43(8): 81-87.

[7] Zeynelgil H L, Demiroren A, Sengor N S. The application of ANN technique to automatic generation control for multi-area power system[J]. International Journal of Electrical Power & Energy Systems, 2002, 24(5): 345-354.

[8] 席磊, 余濤, 張孝順, 等. 基于狼爬山快速多智能體學習策略的電力系統智能發電控制方法[J]. 電工技術學報, 2015, 30(23): 93-101. Xi Lei, Yu Tao, Zhang Xiaoshun, et al. A fast multi-agent learning strategy base on DWoLF-PHC(λ) for smart generation control of power systems[J]. Transactions of China Electrotechnical Society, 2015, 30(23): 93-101.

[9] 高宗和. 自動發電控制算法的幾點改進[J]. 電力系統自動化, 2001, 25(22): 49-51. Gao Zonghe. Some algorithmic improvements on AGC software[J]. Automation of Electric Power Systems, 2001, 25(22): 49-51.

[10] 劉斌, 王克英, 余濤, 等. PSO算法在互聯電網CPS功率調節中的應用研究[J]. 電力系統保護與控制, 2009, 37(6): 36-39. Liu Bin, Wang Keying, Yu Tao, et al. Study on the application of particle swarm optimization algorithm to power regulation of CPS in interconnected power grids[J]. Power System Protection and Control, 2009, 37(6): 36-39.

[11] 余濤, 王宇名, 劉前進. 互聯電網 CPS調節指令動態最優分配 Q-學習算法[J]. 中國電機工程學報, 2010, 30(7): 62-69. Yu Tao, Wang Yuming, Liu Qianjin. Q-learningbased dynamic optimal allocation algorithm for CPS order of interconnected power grids[J]. Proceedings of the CSEE, 2010, 30(7): 62-69.

[12] 余濤, 王宇名, 甄衛國, 等. 基于多步回溯 Q學習的自動發電控制指令動態優化分配算法[J]. 控制理論與應用, 2011, 28(1): 58-69. Yu Tao, Wang Yuming, Zhen Weiguo, et al. Multi-step backtrack Q-learning based dynamic optimal algorithm for auto generation control order dispatch[J]. Control Theory & Applications, 2011, 28(1): 58-69.

[13] 余濤, 王宇名, 葉文加, 等. 基于改進分層強化學習的 CPS指令動態優化分配算法[J]. 中國電機工程學報, 2011, 31(19): 90-96. Yu Tao, Wang Yuming, Ye Wenjia, et al. Multiobjective dynamic optimal dispatch method for cps order of interconnected power grids using improved hierarchical reinforcement learning[J]. Proceedingsof the CSEE, 2011, 31(19): 90-96.

[14] Yu T, Wang Y M, Ye W J, et al. Stochastic optimal generation command dispatchbased on improved hierarchical reinforcement learning approach[J]. IET Generation, Transmission & Distribution, 2011, 5(8): 789-797.

[15] Bassar T, Olsder G J. Dynamic non-cooperative game theory[M]. London: SIAM Series in Classics in Applied Mathematics, 1999.

[16] Greenwald A, Hall K, Zinkevich M. Correlated Q-learning[J]. Journal of Machine Learning Research, 2007, 1: 1-30.

[17] Keiding H, Peleg B. Correlated equilibrium of games with many players[J]. International Journal of Game Theory, 2000, 29(3): 375-389.

[18] Littman M. Markov games as a framework for multiagent reinforcement learning[C]//Proceedings of the Eleventh International Conference on Machine Learning, 1994: 157-163.

[19] 刁浩然, 楊明, 陳芳, 等. 基于強化學習理論的地區電網無功電壓優化控制方法[J]. 電工技術學報, 2015, 30(12): 408-414. Diao Haoran, Yang Ming, Chen Fang, et al. Reactive power and voltage optimization control approach of the regional power grid based on reinforcement learning theory[J]. Transactions of China Electrotechnical Society, 2015, 30(12): 408-414.

[20] Tao Y, Bin Z, Ka W C, et al. Stochastic optimal relaxed automatic generation control in non-Markov environment based on multi-step Q(λ) learning[J]. IEEE Transactions on Power Systems, 2011, 26(3): 1272-1282.

[21] 張汝波. 強化學習理論及應用[M]. 哈爾濱: 哈爾濱工程大學出版社, 2001.

[22] Weissgerber J. Dynamic models for steam and hydro turbines in power system studies[J]. IEEE Transactions on Power Apparatus and Systems, 1973, 92(6): 1904-1951.

Dynamic Optimal Allocation Algorithm for Control Performance Standard Order of Interconnected Power Grids Using Synergetic Learning of Multi-Agent CEQ(λ)

Zhang Xiaoshun1Yu Tao1Tang Jie2
(1. College of Electric Power South China University of Technology Guangzhou 510640 China 2. Shaoguan Power Supply Bureau Guangdong Power Grid Company Shaoguan 512026 China)

Although automatic generation control under CPS standard can be addressed by classic reinforcement learning Q(λ) algorithm, such problems as slow convergence and small optimal searching space still exist from the view point of multi-agent equilibrium solution. Therefore, this paper proposes correlated-equilibrium-Q(λ) (CEQ(λ)) learning. According to the response time delay of thermal plants, AGC adjustment units are first divided into different kinds of unit, such as coal, gas, hydro and so on. Then dynamic allocation orders of generators are analyzed by CEQ(λ) learning based multi-agent control framework. Simulation tests of two-area load frequency control model and China South Power Grid demonstrate that the CEQ(λ)-learning algorithm is more suitable for CPS instruction dynamic optimal allocation in stochastic and complex interconnection network, and it can enhance the robustness and adaptability of power systems in CPS assessment.

Correlated-equilibrium, automatic generation control system, synergetic learning, reinforcement learning, stochastic optimization

TM71

張孝順 男,1990年生,博士研究生,研究方向為人工智能、強化學習、多智能體一致性等算法在電力系統中的應用。

E-mail: xszhang1990@sina.con(通信作者)

余 濤 男,1974年生,教授,博士生導師,研究方向為復雜電力系統的非線性控制理論和仿真。

E-mail: taoyul@scut.edu.cn

國家重點基礎研究發展計劃(973計劃)(2013CB228205),國家自然科學基金(51177051、51477055)和中國南方電網科技項目資助。

2014-12-31 改稿日期 2015-10-12

猜你喜歡
指令分配動作
聽我指令:大催眠術
應答器THR和TFFR分配及SIL等級探討
遺產的分配
一種分配十分不均的財富
ARINC661顯控指令快速驗證方法
測控技術(2018年5期)2018-12-09 09:04:26
績效考核分配的實踐與思考
LED照明產品歐盟ErP指令要求解讀
電子測試(2018年18期)2018-11-14 02:30:34
動作描寫要具體
畫動作
動作描寫不可少
主站蜘蛛池模板: 美女啪啪无遮挡| 亚洲成人黄色网址| 天天色综网| 在线一级毛片| 一区二区三区成人| 亚洲天堂在线免费| 亚洲精品无码AⅤ片青青在线观看| 无码精品国产VA在线观看DVD| 亚洲天堂视频在线播放| 国产午夜福利亚洲第一| 国产成人一区| 亚洲大学生视频在线播放| 亚洲欧美日韩久久精品| 欧美精品另类| 欧美一区二区啪啪| 97超爽成人免费视频在线播放| 日韩AV无码一区| av一区二区三区在线观看| 久久综合色天堂av| 美女被狂躁www在线观看| 国产福利免费视频| 亚洲精品无码久久毛片波多野吉| 国产精品免费露脸视频| 天堂网国产| 91麻豆国产视频| 亚洲综合专区| 欧美日韩国产高清一区二区三区| 欧美在线中文字幕| 国产激情无码一区二区APP | 国产91在线免费视频| 波多野结衣的av一区二区三区| 亚欧成人无码AV在线播放| 久久国产精品电影| 无码啪啪精品天堂浪潮av| 国产精品久久久久久久久久久久| 一区二区在线视频免费观看| 99视频在线精品免费观看6| 久久黄色小视频| 亚洲丝袜第一页| 久久综合干| 日韩毛片在线视频| 久久久久青草线综合超碰| 72种姿势欧美久久久大黄蕉| 国产在线拍偷自揄观看视频网站| 免费毛片视频| 国产精品亚洲专区一区| 无码中文字幕加勒比高清| 国产成熟女人性满足视频| 亚洲成人动漫在线| 色哟哟国产精品一区二区| 日韩大片免费观看视频播放| 极品国产一区二区三区| 欧美狠狠干| 成人国产精品视频频| 中文字幕亚洲第一| 欧美日韩一区二区三区四区在线观看| 国产在线无码av完整版在线观看| 欧美日韩亚洲国产| 99久久国产综合精品女同 | 看看一级毛片| 青草视频免费在线观看| 亚洲免费福利视频| 中文字幕在线免费看| av在线无码浏览| 2020极品精品国产| www.狠狠| 国产区精品高清在线观看| 欧美人人干| 国产精品丝袜视频| 中文字幕亚洲专区第19页| 国产97视频在线| 2021国产精品自拍| 亚洲国产精品VA在线看黑人| 精品午夜国产福利观看| 五月天福利视频| 狠狠亚洲婷婷综合色香| 日日碰狠狠添天天爽| 性视频一区| 第一页亚洲| 亚洲精品福利视频| 天天综合天天综合| 亚洲精品大秀视频|