999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分布式多步回溯Q(λ)學習的復雜電網最優潮流算法

2012-07-02 10:47:18胡細兵
電工技術學報 2012年4期

余 濤 劉 靖 胡細兵

(1. 華南理工大學電力學院 廣州 510640 2. 安慶供電公司 安慶 246003)

1 引言

最優潮流(Optimal Power Flow, OPF)是電力系統基本優化問題,是現代電力系統經濟調度和節能調度的基礎,但是隨著綜合優化調度目標的提出,現有的傳統算法[1-3]對這類復雜的 OPF多目標優化函數的適應性難以滿足要求。此外,面對節點規模龐大的復雜電網,傳統的最優潮流算法與常規人工智能算法[4,5]都面臨大系統所帶來的維數災難問題,計算速度難以滿足電網實時控制的要求。

為了探索更有效的復雜電網多目標OPF計算方法,國內外學者對此做了深入研究,除了研發更優的基本算法外,并行計算方法成為研究的主流。并行計算歸納起來分成兩類方法,一類是常規并行算法[6,7],另一類是基于輔助問題原理(Auxiliary Problem Principle, APP)的分區分布式算法[8,9],前者采用服務器/客戶端結構,計算成本較高,且存在數據傳輸的瓶頸問題;后者人為復雜化了OPF數學模型,增加了系統的運算負擔,而且收斂速度很大程度上受到人為經驗的限制[10]。

近年來,隨著人工智能的不斷發展和智能電網的提出,多代理系統(Multi-Agent System, MAS)技術日益得到重視,分布式強化學習[11]則是實現MAS技術的一個重要途徑。本文結合強化學習中優異的多步回溯 Q(λ)學習算法和分布式處理技術,綜合利用前者對多目標 OPF的良好適應性以及后者在解決維數災難問題的有效性,提出分布式 Q(λ)學習算法來解決復雜電網的多目標 OPF快速求解問題。本方法對復雜電網采用分區的方法,使用分布式 Q(λ)學習算法,由多個學習單元同時使用 Q(λ)學習算法單獨執行部分強化學習任務,最后達到整個系統意義上的學習目標。據查新顯示,分布式Q(λ)學習算法尚未在國內外電力系統領域出現,因此該分布式強化學習算法的引入對求解復雜電力系統的其他動態尋優問題均具有較高參考價值。

2 OPF數學模型

傳統的OPF模型中,一般以發電成本或網損作為目標函數,但是純粹以發電成本或網損的高低作為發電調度的依據具有明顯的不合理性[12]。因此,有必要采用一種在保證電網安全運行的前提下,同時考慮降低發電成本和能源損耗的電力系統綜合節能的多目標函數,使電能生產和輸送的綜合效益最大化。

為了凸顯電網安全穩定運行的重要性,除了常規的電壓不等式約束外,結合文獻[13]和文獻[14]中電壓無功優化控制的目標函數,定義本文OPF多目標函數中的電壓穩定分量V為

式中,n為負荷節點個數;Vj表示負荷節點j的節點電壓;Vjmax、Vjmin分別為負荷節點 j的最大、最小電壓限制。

目前,學術界對多目標問題的精確處理還沒有突破性的進展,本文不失一般性仍然以權值的形式反映多目標。綜上,以發電成本,有功網損和電壓穩定分量為目標函數,考慮多種運行約束的多目標最優潮流模型表示如下:

式中,F(x)為目標函數,g(x)為發電成本,?(x)為有功網損;V(x)為電壓穩定分量;ω1[0∈,1],ω2[0∈,1],ω3[0∈,1]為權重系數,ω1+ω2+ω3=1;x={PG,QG, V, θ, k, Qc}分別指發電機的有功出力,無功出力,電壓幅值、相角,有載調壓變壓器電壓比和無功補償容量等控制變量或狀態變量。

OPF中的電力系統潮流約束的等式和不等式條件不再贅述(可參見文獻[3])。

3 分布式Q(λ)學習算法

隨著計算機網絡技術和分布式處理技術的飛速發展,以及對高速高性能計算和智能處理的迫切需求,學術界對 MAS中的分布式強化學習方法的研究不斷深入,取得了大量的研究成果[15]。所謂的分布式強化學習是指該強化學習系統由多個學習單元構成,每個單元獨立地執行部分或者全部的強化學習任務,最后達到整個系統意義上的學習目標,這個系統就可以稱為分布式強化學習系統。

基于分布式強化學習的 MAS系統僅僅需要很少的通信量來獲得相鄰Agent的獎懲函數值,而且在學習過程中通過迭代來影響不相鄰的 Agent,從而優化整個系統的性能。根據分布式強化學習中各Agent的學習機制將分布式強化學習分成:中央強化學習(RLC)、獨立強化學習(RLI)、群體強化學習(RLG)和社會強化學習(RLS)這四類[15]。

所謂的分布式 Q(λ)算法是指在分布式強化學習中各Agent采用多步Q(λ)算法。多步Q(λ)學習(Multi-step Q(λ)learning)[16]是基于離散馬爾可夫決策過程的經典 Q學習[17]結合了 TD(λ)算法[18]多步回報思想的一類強化學習算法。多步 Q(λ)學習算法不依賴于對象模型,通過不斷的試錯來動態尋找最優的動作,其值函數的回溯更新規則利用資格跡來獲取算法行為的頻度和漸新度兩種啟發信息,從而考慮了未來控制決策的影響。資格跡[19]更新公式定義如下

式中,Ixy是跡特征函數;γ 為折扣因子,0<γ <1,取0.000 01;λ 為跡衰退系數,取0.999 99。

資格跡λ -回報算法的“后向估計”機理提供了一個逼近最優值函數Q*的漸近機制,而這類對所有狀態-動作對Q值的高效持續更新是以提高算法復雜度和增加計算量為代價的。設 Qk代表 Q*估計值的第k次迭代值,Q(λ)學習迭代更新公式如下

式中,0<α <1,稱為學習因子,取 0.999 99;R(sk,sk+1,ak)是第k步迭代時刻環境由狀態sk經動作ak轉移到 sk+1后的獎勵函數值;Q(s,a)代表 s狀態下執行動作a的Q值函數,其實現方式采用lookup查表法。

迄今為止,所有的分布式強化學習算法都是基于標準單步 Q學習算法的[20],但是由于多步 Q(λ)算法所具有的在線學習能力強、收斂速度快的優點,因而本文中首次采用分布式 Q(λ)算法,并在多個標準算例中與分布式Q學習算法進行對比分析。

4 基于復雜電網分區的分布式Q(λ)學習

4.1 復雜電網分區以及學習方法選取

在研究OPF問題的標準強化學習算法中,對應的動作空間是發電機出力,變壓器電壓比,無功補償設備等可控變量的組合。一旦電網規模擴大,動作空間也隨之成倍增加,這使得常規強化學習算法陷入動作的維數災難中,不能滿足電網實時性的要求。

對于動作的維數災難問題,最有效的做法即分解該電網,通常使用分解協調法[21]實現網絡分離,如圖1在聯絡線上“復制”節點,每一個邊界節點看作一個虛擬的發電機節點(或者負荷節點),分解后系統與原系統等值,分解處的兩邊界節點需具有相同的電氣量。

圖1 互聯電力系統的分離Fig.1 Decomposition of interconnected systems

當電網分成n個區后,目標函數分成n個部分,因為邊界節點上所增加的虛擬節點僅僅是為了保證分區的有效性,不影響整個電網的目標函數值。因此,將原目標改為

式中,Fi(xi)表示分區后各子系統的目標函數,xi表示各子系統的相關動作變量或狀態變量。

由于分布式 Q(λ)算法中的 RLC和 RLG并不能減少動作組合。因而,本文的復雜電網OPF研究中,更適合使用 RLI,其 Agent的獨立性較強,容易動態增減Agent的個數,而且Agent個數對學習收斂性的影響較小,適合處理大系統的強化學習問題,特別是協作型 RLI,其中各 Agent是并發執行的,任意時刻有多個Agent處于工作狀態,共同影響環境的變化,只要設置合理的信度分配機制(強化信號分配),就能在大大簡化運算的同時克服局部最優的缺點。

4.2 協作型RLI中對邊界節點的處理

復雜電網分解處的邊界節點的電氣量對于復雜電網的分解至關重要,是協作型RLI實現的基礎,決定了所有分解后的各子系統計算結果的有效性,是本文分布式Q(λ)學習算法的核心部分。

為了保證分解處的兩邊界節點具有相同的電氣量,本文所闡述的分布式 Q(λ)學習中,不對目標函數進行輔助處理,而是利用分布式強化學習算法中的協作機制,設置合理的信度分配,實行統一的獎懲約束。本文中,對分解處的邊界節點從兩個方面進行同步約束:首先,在不等式約束中,增加關于邊界節點約束條件,兩者之差的絕對值以 3%為限,并通過狀態來反映;其次,將邊界節點的約束信息附加在各Agent在并行運算時對環境所產生的綜合響應中。該“響應”關系到整個算法的收斂性,它包括兩個要素:各種約束信息的獎懲值和目標函數值;它對每個Agent的反饋作用也包含兩個方面,一是對立即獎勵的調整分配,二是對狀態的確定。

分解后各子系統中有自己的參考節點,這就涉及多平衡節點問題。參考文獻[10]中,對不含全局平衡節點的子系統,將某一邊界節點設置成參考節點,采用傳遞“Δ-變量”的模式。但是此模式不利于并行運算,因而本文將該等效的邊界節點在兩個子系統中設置成不同類型,一個是 PV節點,另一個為平衡節點,以該平衡節點的θ 角作為其所屬子系統動作空間的組成部分,進行并行運算,比較P、Q、V、θ 這 4個量。

本文的分布式 Q(λ)學習中,邊界節點的有關電氣量將作為各子系統動作空間的組成部分。如果分解后的各子系統內動作過少(主要指邊界節點)則很難滿足收斂精度要求,動作過多,又有悖于復雜電網分解的初衷。為了克服這一矛盾,利用電力系統中有功-無功這種弱耦合的特性,可以適當運用解耦所得到的先驗知識。

4.3 應用流程

基于分布式 Q(λ)算法的復雜電網最優潮流計算中,通過分解復雜電網成幾個子區域(子系統),每一個子系統內(含虛擬的邊界節點)使用標準多步 Q(λ)算法,通過電力系統的運行特征,判斷狀態(s)、動作(a)、獎勵(r)來在線尋找最優策略(具體s、a、r的設置見第5節中算例),學習流程如下:

(1)通過有功-無功的解耦,得到相關先驗知識。

(2)復雜電網分解。分解復雜電網,確定分解處節點及該節點類型,構成多Agent的分布式強化學習。

(3)分布式Q(λ)算法。

初始化s,a, Q(s,a),令e(s,a)=0

Repeat (對每一Agent)

①根據當前的狀態s,執行動作a,得到相關獎勵要素和狀態信息。

②依次執行所有 Agent,根據邊界節點的電氣信息量修正r和s′。

③從s′中利用Q派生出來的策略選擇a′。

對于所有的s, a來說

5 算例分析

為了證明分布式 Q(λ)算法的可行性,本文在Matlab 6.5仿真平臺上通過建立S函數的方法實現所提出的OPF算法,并在2.0GHz、1GRAM的計算機上對IEEE標準算例進行了仿真。

對于現代電力系統這種復雜的高低壓電磁環網模式,電壓等級高的網內發電機的容量裕度大,相應的發電成本調節空間較大;而低電壓等級的電網,其網損率較高,節能降耗的空間較大。為了使復雜電網OPF問題更具針對性,更符合電網實際的運行特點,本文采用實用化OPF模型:高電壓等級電網中以發電成本為主要目標,低電壓等級電網中以網損為目標函數,兩者在統一的復雜電網中通過邊界節點的無功功率進行協調。

本文以 IEEE118節點為例,其包含 345kV和138kV兩個電壓等級。在對IEEE118節點分區時,提出了以下幾點標準:①不同電壓等級進行分離;②動作變量盡可能均勻地分散在不同的子區域內;③考慮實際地理位置或電網工程實際;④不同子區域之間聯絡線盡可能少。最終確定將其劃分為7個子區域(子系統)。在分區標準的基礎上,主要得到以下三種不同的分區方案。其中分區方案 3如圖2所示,各個子區域內的數據統計見表1。

表1 IEEE118節點不同分區方案Tab.1 Different distribution cases of IEEE118 system

式中,i為高壓子系統;j為低壓子系統;ω1、ω2、為權值,其中ω1=0.01、ω2=0.1、ω3=0.89,0.2,=0.8;Cgeni為高壓發電成本;Plossi、Plossj為有功損耗;Vi、Vj為電壓穩定分量。

圖2 IEEE118電網分區方案三示意圖Fig.2 Distribution case 3 of IEEE 118-bus system

參照 4.2節,在分解的聯絡線的兩邊添加虛擬發電機(負荷),針對實用化的OPF模型,在IEEE118系統中,對邊界節點處理遵循以下原則:

(1)高電壓等級內部的邊界節點一般設置為PV節點,P為動作變量。

(2)低電壓等級內部的邊界節點一般設置為PQ節點,Q為動作變量。

(3)高低壓之間的邊界節點設置為PQ節點,Q為動作變量。

(4)對于各子系統內的平衡節點,高電壓等級中確保有且僅有一個區域內有確定的平衡節點(此時的θ已知),對于其余的高壓區域,設置其某一邊界節點為平衡節點,其中的θ為動作變量,低電壓等級各子系統的平衡節點都是確定的(由于這僅是無功優化過程)。

為了使各子區域的動作空間設置更為統一,本文中對動作變量做如下的離散化處理:

(1)實際發電機的出力以其最大出力為限均分成4等分,共5檔;無功補償容量以常規潮流中的數據為界,上下各增兩組,每組容量為原容量的20%,共5檔;有載調壓變壓器的分接頭分成:0.98,1.00和1.02這3檔。

將鄉村旅游納入各級鄉村振興干部培訓計劃,加強對縣、鄉鎮黨政領導發展鄉村旅游的專題培訓。通過專題培訓、送教上門、結對幫扶等方式,開展多層次、多渠道的鄉村旅游培訓。各級人社、農業農村、文化和旅游、扶貧等部門要將鄉村旅游人才培育納入培訓計劃,加大對鄉村旅游的管理人員、服務人員的技能培訓,培養結構合理、素質較高的鄉村旅游從業人員隊伍。開展鄉村旅游創客行動,組織引導大學生、文化藝術人才、專業技術人員、青年創業團隊等各類“創客”投身鄉村旅游發展,促進人才向鄉村流動,改善鄉村旅游人才結構。

(2)邊界節點中虛擬PV節點中的P,虛擬PQ節點中的Q,虛擬平衡節點中的θ 均以常規潮流中的數據為界,其中P上下各增兩檔,每檔步長為原大小的20%,共5檔;Q上下各增一檔,每檔步長為原大小的20%,共3檔;θ 上下各增4檔,每檔步長為原大小的10%,共9檔。

以分區方案 3為例,其子區域 1中,節點 10作為平衡節點,在常規潮流經驗中可得出其相對于全局平衡節點的電壓角度,以節點8和節點26的有功出力,邊界 PV節點的有功出力以及三臺虛擬發電機 PQ節點上的無功出力作為控制變量,總的動作個數為 5×5×5×3× 3×3=3 375。同理可知,其他區域中動作個數,見表2。分區方案1各個區域內的動作數與方案3相同。分區方案2由于新增了一條斷開聯絡線,區域5動作個數為19 683,區域6動作個數為9 375,其他區域動作數不變。

表2 分區方案3數據統計Tab.2 Data of distribution Case 3

(續)

狀態變量的確定與約束條件相關,具體包括各子系統內實際發電機無功出力,平衡節點的有功出力和 PQ節點的電壓是否滿足約束條件,以及分解處兩相鄰節點的電氣量(有功功率、無功功率和電壓角度)是否吻合。分區方案3中區域1中的狀態變量個數為3+1+5+9=18,其余各子系統狀態變量個數依次分別是:29,49,27,42,53,20。分區方案一狀態變量總數為 238,分區方案 2狀態變量總數為240。

立即獎勵值與潮流計算結果中是否滿足不等式約束條件的個數有關,為了保證各子系統計算結果的有效性,對不同類型的不等式約束條件必須有不同的獎懲,其中以區域間的邊界平衡節點的電壓角度最重要,其次是邊界節點的其他電氣量,再次是各子區內的電氣約束。由于在強化學習中,獎勵函數的值越大越好,因而各子系統立即獎勵函數r如下式:

式中,ri(i=1,2)為高電壓等級的子區域系統的獎勵函數,rj(j=3~7)為低電壓等級的;ω1、ω2、ω3、取值與目標函數中相同;n1為不滿足邊界平衡節點的電壓角度約束個數,只取 0或 1;n2為不滿足邊界所有節點其他的約束不等式的個數,n3為不滿足子系統內部約束不等式的個數。k1、k2、k3分別為系數,比較多個取值,本文仿真中取 k1=100.4,k2=48.8,k3=19.7。不同分區方案下分布式Q(λ)學習算法學習結果對比見表3。

表3 不同分區方案OPF結果對照表Tab.3 OPF results comparison of three distribution cases

從表3多次仿真統計的計算結果可知,不同的分區方案下目標函數值基本相同,從而驗證了分布式 Q(λ)學習算法的可行性和準確性,而誤差主要來源于在分區優化過程中對不同電壓等級之間和相同電壓等級之間邊界節點的假設處理。綜合學習結果和學習步數可知,方案3是最好的分區方案。

分區方案3下分布式Q學習算法和分布式Q(λ)學習算法學習結果如圖3所示。

圖3 基于分布式Q-學習算法和分布式Q(λ)算法的多目標最優潮流計算收斂示意圖Fig.3 OPF convergence results based on distributed Q-learning and multi-step Q(λ)learning

本文中對這兩種算法在IEEE 118節點的詳細計算結果進行統計,與優化前的結果進行比較,見表4。

表4 IEEE 118節點OPF結果對照表Tab.4 OPF results comparison of IEEE 118

從表4中的統計結果可知,兩種算法的結果基本一致,目標函數值相差3.0%,相比優化前的常規潮流計算結果,各個指標都有很大幅度的提高,且兩類算法的計算結果均基本滿足電網實際運行條件,邊界節點電氣量之差最大為3.7%(由于動作的離散化步長較大)。分布式 Q(λ)算法學習 19 223步,耗時約96s就能達到收斂,而分布式Q學習需23 176步收斂,耗時約 116s,可知分布式 Q(λ)算法在收斂速度方面優勢較為明顯,且達到了工程上潮流優化的要求。

為了進一步與當前最優潮流算法在主流算法——內點法進行比較,很明顯對于本文這一類復雜目標函數,內點法難以處理,而針對單目標的網損,通過計算、統計結果見表5。

表5 不同目標函數下結果對照表Tab.5 Results comparison with different objective functions

本文中對 OPF問題的處理是以離散化為基礎的,對簡單的單目標函數(如網損),分布式Q(λ)學習算法,相比內點法一類的算法,結果可靠,只是時間略長。然而分布式 Q(λ)學習算法不依賴數學模型,在處理復雜多目標方面顯示了很強的優越性。相比同樣以離散化為基礎的其他現代智能算法,在處理IEEE 118這類高維大系統時,在收斂時間上達到了很好的要求。

6 結論

本文所提出的分布式 Q(λ)算法在求解復雜電網OPF問題,具有以下特點:

(1)基于分布式強化學習中的 RLI原理,各Agent獨立承擔各子系統的學習任務,經過多Agent統一協作處理后,更適合現代大區電網中各省網/地區電網分區調度和分層控制模式,工程上具有更高的實際應用價值。

(2)分布式強化學習算法不依賴于 OPF目標函數的一階或二階梯度進行尋優,是解決更符合電網實際運行特點的多目標OPF計算問題的有效算法。

(3)各 Agent中包含了一個獨立的多步回溯Q(λ)算法,該算法是一種具有快速動態優化和自學習能力的強化學習算法,對電網的變化具有較高的自適應能力。

(4)該算法繼承了電網分區的思想,通過在獎勵函數中附加對邊界節點電氣信息的獎懲,約束邊界節點的電氣信息量滿足電網實際的運行條件,從而避免了對OPF模型的人為復雜化。

(5)將所提出算法在多個 IEEE標準算例的計算結果表明,分布式 Q(λ)算法在處理該類復雜電網OPF問題時,其收斂速度快,收斂精度較高,為解決復雜電網多目標函數的 OPF問題提供了一種全新可行的方法。

(6)針對多目標優化問題,目前國際上的趨勢是求取帕累托解集。目前公認求解帕累托解集的方法是進化算法[23]和強化學習[24]算法,內點法等經典算法則無法直接求取帕累托解集。因此,本文所提出分布式強化學習方法較易于進一步推廣到 OPF帕累托解集??紤]使用帕累托來解決多目標問題,這就避免了靈敏度帶來的多量綱復雜處理模式,克服加權多目標不能精確解決目標函數的缺點。

[1]David I Sun, Bruce Ashley, Brian Brewer , et al.Optimal power flow by newton approach[J]. IEEE Transactions on Power Apparatus and Systems, 1984,103(10): 2864-2880.

[2]韋化, 李濱, 杭乃善, 等. 大規模水-火電力系統最優潮流的現代內點算法實現[J]. 中國電機工程學報,2003, 23(6): 13-18.Wei Hua, Li Bin, Hang Naishan, et al. An implementation of interior point algorithm for large-scale hydro-thermal optimal power flow problems[J]. Proceedings of the CSEE, 2003, 23(6):13-18.

[3]趙晉泉, 侯志儉, 吳際舜. 改進最優潮流牛頓算法有效性的對策研究[J]. 中國電機工程學報, 1999,19(12): 70-75.Zhao Jinquan, Hou Zhijian, Wu Jishun. Some new strategies for improving the effectiveness of newton optimal power flow algorithm[J]. Proceedings of the CSEE, 1999, 19(12): 70-75.

[4]周明, 孫樹棟. 遺傳算法原理及應用[M]. 北京: 國防工業出版社, 1999.

[5]Luonan Chen, Hideki Suzuki, Kazuo Katou. Mean field theory for optimal power flow[J]. IEEE Transactions on Power Systems, 1997, 12(4): 1481-1486.

[6]李曉梅, 莫則堯. 可擴展并行算法的設計與分析[M].北京: 國防工業出版社, 2000.

[7]潘哲龍, 張伯明, 孫宏斌, 等. 分布計算的遺傳算法中無功優化中的應用[J]. 電力系統自動化, 2001,6(13): 37-41.Pan Zhelong, Zhang Boming, Sun Hongbin et al. A distributid genetic algorithm for reactive power optimization[J]. Automaticon of Electric Power Systems, 2001, 6(13): 37-41.

[8]Batut J, Renaud A. Daily generation scheduling optimization with transmission constraints[J]. IEEE Transactions on Power Systems, 2000, 7(3): 982-989.

[9]程新功, 厲吉文, 曹立霞, 等. 電力系統最優潮流的分布式并行算法[J]. 電力系統自動化, 2003,27(24): 23-27.Cheng Xingong, Li Jiwen, Cao Lixia, et al.Distribution and parallel optimal power flow solution of electric power systems[J]. Automation of Electric Power Systems, 2003, 27(24): 23-27.

[10]李強. 分布式優化算法的算法研究[D]. 北京: 華北電力大學, 2006.

[11]仲宇, 顧國昌, 張汝波. 多智能體系統中的分布式強化學習研究現狀[J]. 控制理論與應用, 2003,20(3): 317-322.Zhong Yu, Gu Guochang, Zhang Rubo. Survey of distributed reinforcement learning algorithms in multi-agent systems[J]. Control Theory &Applications, 2003, 20(3): 317-322.

[12]胥傳普, 楊立兵, 劉福斌. 關于節能降耗與電力市場聯合實施方案的探討[J]. 電力系統自動化, 2007,31(23): 99-103.Xu Chuanpu, Yang Libing, Liu Fubin. Discuss on the Union implementation scheme of energy conservation measures and electricity marketability methods[J].Automatic of Electric Power Systems, 2007, 31(23):99-103.

[13]Vlachogiannis J G, Hatziagyriou N D. Reinforcement learning for reactive power control[J]. IEEE Transactions on Power Systems, 2004, 19(3): 1317-1325.

[14]邱曉燕, 張子健, 李興源. 基于改進遺傳內點法的電網多目標無功優化[J]. 電網技術, 2009, 33(13): 27-31.Qiu Xiaoyan, Zhang Zijian, Li Xinyuan. Multiobjective reactive power optimization based on improved genetic-interior point algorithm[J]. Power System Technology, 2009, 33(13): 27-31.

[15]仲宇, 顧國昌, 張汝波. 分布式強化學習的體系結構研究[J]. 計算機工程與應用, 2003, 39(11): 111-113.Zhong Yu, Gu Guochang, Zhang Rubo. Research on the architectures of distributed reinforcement learning systems[J]. Computer Engineering and Applications,2003, 39(11): 111-113.

[16]Jing Peng, Williams R J. Incremental multi-step Q-learning[J]. Machine Leaning, 1996(22): 283-290.

[17]Watkins J C H, Dayan Peter. Q-learning[J]. Machine Leaning, 1992(8): 279-292.

[18]張汝波. 強化學習理論及應用[M]. 哈爾濱: 哈爾濱工程大學出版社, 2001.

[19]Richard S Sutton, Andrew G Barto. Reinforcement learning: an introduction[M]. Cambridge: MIT Press,1998.

[20]余濤, 周斌, 甄衛國. 強化學習理論在電力系統中的應用及展望[J]. 電力系統保護與控制, 2009,37(14): 122-128.Yu Tao, Zhou Bin, Zhen Weiguo. Application and development of reinforcement learning theory in power systems[J]. Power System Protection and Control, 2009, 37(14): 122-128.

[21]Kim B H, Baldick R. Coarse-grained distributed optimal power flow[J]. IEEE Transactions on Power Systems, 1997, 12(2): 932-939.

[22]劉明波, 謝敏, 趙維興. 大電網最優潮流計算[M].北京: 科學出版社. 2010.

[23]Deb K, Pratap A, Agarwal S. A fast and elitist multi-objective genetic algorithm: NSGA-II[J]. IEEE Transactions on Evolutionary Computation, 2002,6(2): 182-197.

[24]H L Liao, Q H Wu, L Jiang. Multi-objective optimization by reinforcement learning for power system dispatch and voltage stability[C]. Proceedings of IEEE PES Conference on Innovative Smart Grid Technologies Europe, Gothenburg, Sweden, 2010:1-8.

主站蜘蛛池模板: 成人a免费α片在线视频网站| 99热国产在线精品99| 日韩无码黄色网站| 国产成人免费高清AⅤ| 亚洲人精品亚洲人成在线| 91成人在线观看视频| 亚洲综合专区| 国产三级国产精品国产普男人 | 九九久久精品国产av片囯产区| 国产高清不卡| 欧美日韩国产综合视频在线观看| 亚洲专区一区二区在线观看| 天天综合亚洲| 亚洲三级成人| 欧美精品成人一区二区视频一| 精品国产自在在线在线观看| 亚洲日本精品一区二区| 国产经典在线观看一区| 久久成人18免费| 国产欧美日韩另类| 国产一在线| 国产超薄肉色丝袜网站| 亚洲欧美成人在线视频| 亚洲无码日韩一区| 日韩无码黄色网站| 国产原创自拍不卡第一页| 欧美在线综合视频| 国产精品.com| 欧美乱妇高清无乱码免费| 亚洲伊人久久精品影院| 国产黄色视频综合| 99色亚洲国产精品11p| 亚洲AV电影不卡在线观看| 91国内在线视频| 精品午夜国产福利观看| 日本伊人色综合网| 国产精品播放| 毛片视频网址| 中文字幕一区二区人妻电影| a网站在线观看| 曰韩人妻一区二区三区| 亚洲大尺码专区影院| 日韩不卡高清视频| 国产日韩欧美中文| 麻豆AV网站免费进入| 国产亚洲精品精品精品| 国产成人精品高清不卡在线| 伊人久久久大香线蕉综合直播| 五月婷婷欧美| 夜精品a一区二区三区| 午夜日韩久久影院| 午夜精品一区二区蜜桃| 一级片免费网站| 免费欧美一级| 极品av一区二区| 久久香蕉国产线看精品| 成人欧美日韩| 亚洲欧洲自拍拍偷午夜色无码| 97精品国产高清久久久久蜜芽| 精品欧美一区二区三区在线| 超清无码一区二区三区| 91毛片网| 亚洲AV色香蕉一区二区| 免费看一级毛片波多结衣| 无码精品福利一区二区三区| 国产情侣一区二区三区| 97在线国产视频| 国产乱子伦无码精品小说| 国产精品13页| 99视频在线免费| 国产又爽又黄无遮挡免费观看 | 久久国产精品嫖妓| 国产亚洲精品91| 国产成人高清亚洲一区久久| 91久久性奴调教国产免费| 亚洲欧美精品一中文字幕| 亚洲国产精品不卡在线| 亚洲精选无码久久久| 免费一级毛片不卡在线播放| 色首页AV在线| 国产精品理论片| 日韩AV无码免费一二三区|