999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習理論的地區電網無功電壓優化控制方法

2015-04-14 06:28:42刁浩然孫國忠
電工技術學報 2015年12期
關鍵詞:控制策略變電站動作

刁浩然 楊 明 陳 芳 孫國忠

基于強化學習理論的地區電網無功電壓優化控制方法

刁浩然1楊 明1陳 芳2孫國忠3

(1. 電網智能化調度與控制教育部重點實驗室(山東大學) 濟南 250061 2. 濟南大學自動化與電氣工程學院 濟南 250061 3. 唐山供電公司 唐山 063000)

基于強化學習理論,提出一種實用的地區電網無功電壓優化控制方法。方法采用Q學習算法,在動作策略與電網狀態的交互中不斷學習,得到各狀態—動作對所對應的Q值函數,形成電網各種運行狀態下最佳的無功電壓優化控制策略。方法擺脫了傳統電網無功優化求解非線性混合整數規劃模型所存在的收斂性問題,同時,相對于基于多區圖的無功電壓控制方式,由于方法所依據的Q值函數包含電網的全局響應信息,因而,可以綜合判斷執行控制策略后各變電站之間的相互影響,統一協調地控制各無功電壓控制設備,給出所轄電網內的全局最佳控制策略,提高無功電壓優化控制效果。通過對220kV變電站及其饋線系統的測試計算,證明了方法的有效性。

電力系統 無功電壓優化控制 強化學習 Q算法

1 引言

電壓是評估電能質量的重要指標,電壓水平直接影響到用戶的生產安全。通過調節電網中無功功率分布來實現對電壓的有效控制是保障電網安全、可靠運行的關鍵措施之一。深入研究無功電壓控制技術是促進電網發展必不可少的工作,具有巨大的經濟和社會效益。

自上世紀70年代末,無功電壓控制成為電力系統運行與控制方向的研究熱點。其中,由于內點法具備計算時間對問題規模不敏感的特點,受到了學者們的廣泛關注[1-5]。文獻[1]嘗試將原對偶仿射尺度內點法用于求解基于損耗靈敏度系數和相對靈敏度系數矩陣的無功優化模型,其收斂次數比較穩定,具有多項式時間復雜度。文獻[2]為提高電壓合格率,將電壓安全裕度進行模糊處理,用原對偶內點法求解帶有模糊約束的逐次二次規劃數學模型,在保證網損變化不大的前提下,使電網電壓安全裕度有較大提高。在與其它方法的結合使用中,文獻[3]將內點法與分枝定界法相結合,分別用于連續變量和離散變量的尋優,據報道有較好的應用效果。文獻[4]進一步將內點法與遺傳算法相結合,形成一種新的混合優化策略,交替優化連續變量與離散變量,提高了算法的尋優效率。解析方法在電網無功電壓優化控制方法中占有重要地位,其從全網角度給出了無功電壓優化控制問題的建模與求解方法。然而,由于解析方法對電網結構、參數以及運行量測數據的精確程度依賴較高,復雜的迭代求解算法在對實際系統無功優化過程中常存在魯棒性不強問題。

另一方面,在當前地區電網,多數變電站都裝有電壓無功自動控制裝置VQC[6-10],此裝置基于就地量測信息,依據預定控制策略,對變電站變壓器分接頭及電容器進行調節。文獻[8]利用EMS采集獲得電網拓撲結構和運行數據,基于多區圖原理對區域無功電壓控制設備進行統一調節。文獻[9]采用兩級無功電壓控制思想,基于改進九區圖的“廠站級”控制與輻射狀電網的“區域級”控制相互配合,在實際運行中,能夠提高母線電壓和變壓器高壓繞組功率因數的合格率。文獻[10]較為全面地介紹了VQC控制策略及其發展過程。雖然,基于多區圖的無功電壓控制方法簡單易行、運行可靠,但由于電網運行狀態變化多樣,此類無功電壓控制方法往往無法從全網角度設置分區與調節準則,難以給出地區電網具有全局優化特征的控制策略。

由此,在前人研究的基礎上,本文提出一種基于強化學習(Reinforcement learning, RL)理論的無功電壓控制方法,利用強化學習的漸進學習尋優能力優化地區電網無功電壓控制策略,其能夠實時給出當前學習階段下的最佳控制策略,保證無功電壓控制算法的魯棒性。與此同時,由于所提出的強化學習方法利用含有全局信息的值函數進行策略學習,因而能對多變電站實施協調控制,相比較于基于多區圖原理的無功電壓控制方法,控制效果有明顯提升。

2 強化學習原理及Q算法

機器學習是人工智能技術的重要分支,主要分為3類:監督學習、非監督學習和強化學習。其中,強化學習方法由于具有與環境的交互能力,近年來得到較快發展。

強化學習是學習智能體(Learning Agent)在與環境(Environment)的交互中不斷試探各種動作,并反饋回報值,漸進獲得最優控制策略的過程,其基本模型如圖1所示。

圖1 強化學習理論的基本模型Fig.1 Basic model of reinforcement learning

如圖1所示,首先,學習智能體根據當前的控制策略就環境狀態s做出某一動作a,作用于當前環境,使環境狀態發生變化。進而,環境將動作立即回報值r反饋給學習智能體,供學習智能體形成新的控制策略。隨后,學習智能體將根據新的控制策略和新的環境狀態做出新的動作再次作用于環境。學習智能體選擇動作的標準是使其獲得的累計期望回報值最大化。

Q算法是強化學習理論中發展比較成熟的一種算法,其以離散時間馬爾科夫決策過程(Discrete Time Markov Dispatch Process, DTMDP)為數學基礎,由Watkins于1989年提出[13-14]。Q算法考察的對象是狀態—動作對所對應的值函數,即Q值函數,用Q(s,a)表示[15],代表狀態s下執行動作a系統將獲得的累計回報值[17,18],如式(1)所示:

式中,s、s′分別為當前和下一時刻的環境狀態;a、a′表示相應狀態下所選擇的動作;γ表示衰減率,且γ∈[0,1],顯然,γ=0時,系統只考慮立即回報而不考慮長期回報,γ=1時,系統將長期回報和立即回報看得同等重要。由式(1)可以看出,Q值由動作的立即回報值與后續環境狀態下的最佳Q值兩部分組成。

狀態動作對所對應的Q值可通過在線學習得到[14,17]。在學習過程中,智能體將較高的權重給予當前Q值較大的動作,并根據權重隨機選擇動作,進而,根據環境反饋結果,對Q值進行更新。設Qi代表Q值函數的第i次迭代值,則Q值可按式(2)進行更新:式中,0<α<1,稱為學習因子。較大的α值會加快學習算法的收斂速度,而較小的α值能保證智能體的搜索空間,從而提高Q算法收斂的穩定性[14-16]。

式(2)右邊項由兩部分組成,前半部分表示了狀態—動作對對應Q值的舊值,后半部分表示了本次得到Q值與舊值的差別,并以學習因子作為權重對舊的Q值進行更新。

在智能體的在線學習過程中,Q值將一直更新,直到收斂到一個穩定的結果Q*(s,a)為止。此后,即可以采用貪婪動作策略[14],對于每一個狀態,都執行最優動作a*,即:

3 基于Q算法的無功電壓優化控制

本文基于強化學習Q算法構建220kV變電站出線后輻射狀系統的無功電壓優化控制策略。下面從無功電壓控制問題狀態集S和動作集A的選取、Q值函數的構建,以及利用Q算法進行無功電壓優化控制的實現流程方面對此問題進行闡述。

3.1環境狀態集

對于無功電壓優化控制問題,環境狀態即電網的運行狀態,可由地區電網中待考核的電氣量表示,此處選擇節點注入功率的功率因數與節點電壓幅值為狀態量。為計算方便,首先對各量進行歸一化處理:

式中,xn為第n個待考核的電氣狀態指標;N表示考核指標的個數;xn,max和xn,min分別代表考核指標在正常運行狀態下的上限值和下限值;ηn為對xn歸一化處理后的結果。顯然,當ηn>1時,指標越上限;當ηn<0時,指標越下限;0≤ηn≤1表明指標在合格狀態范圍內;特別地,當ηn=0.5時,認為指標達到最優狀態。

進一步,將指標ηn進行狀態劃分,顯然,狀態劃分越細,對電網運行狀況描述得越準確;但過細的狀態劃分會導致環境狀態集合中的元素數目過多,致使學習周期變長,不利于在線控制分析。本文根據現場實際需求,將每個電氣考核指標劃分為7個狀態,如表1所示。

表1 指標狀態劃分Tab.1 Index states divisions

表1中,指標狀態1和7分別代表指標越下限和越上限,在實際運用中,為保證系統安全,可按照距現場安全閾值尚有小范圍間距原則設定限定值。yn∈{2,3,4,5,6}為指標合格狀態的集合,其中,狀態4為最佳狀態,其余狀態隨離狀態4的距離變大而依次變差。易見,對于含有N個考核電氣量的地區電網,其環境狀態集S中共含有7N種狀態,每一種環境狀態可表示為s={y1,y2,..., yN}。

3.2可行動作集

定義無功電壓控制的可行動作集為:當電網處于某狀態s時,能夠使s過渡到更優狀態s?的動作策略的集合。根據地區電網無功電壓在線控制規程,只有當某一環境狀態中含有不合格指標時,電網才會進行無功電壓控制設備的調節。顯然,每種含不合格考核指標的電網環境狀態都有其對應的可行動作集,不同的環境狀態所對應的可行動作集一般是存在差異的。

根據現場運行要求,將需進行無功電壓優化調節的不合格電氣指標分為四類:電壓越上限、電壓越下限、變壓器高壓繞組功率因數越上限和變壓器高壓繞組功率因數越下限。按現場運行規范,同一時刻下,每個220饋線所帶網絡中不允許有兩個及以上的設備同時動作。由此,對于每種需要調節的電網狀態,其可行動作集按如下原則確定:

1)電壓越上限:可行動作集為在電壓指標值ηn大于0.3(指標處于正常狀態范圍,距電壓下限尚有裕度)的本站及上一級變電站切電容器和降變壓器分接頭;

2)電壓越下限:可行動作集為在電壓指標值ηn小于0.7(指標處于正常狀態范圍,距電壓上限尚有裕度)的本站及上一級變電站投電容器和升變壓器分接頭;

3)變壓器高壓繞組功率因數越上限:可行動作集為在本站及其下級變電站中電壓指標值大于0.3的母線上切電容器;

4)變壓器高壓繞組功率因數越下限:可行動作集為在本站及其下級變電站中電壓指標值小于0.7的母線上投電容器。

上述可行動作集的確定原則充分考慮了本站電壓和變壓器功率因數的實際狀態,選擇距離限定值尚有較大(30%)可調裕度的電容器和變壓器進行調節,其中,投電容器可使待考核電壓幅值升高、功率因數升高,而切電容器則起相反作用;升變壓器分接頭可使待考核電壓幅值升高,而降變壓器分接頭則起到相反作用。強化學習的目的即是通過與環境的不斷交互,對于各個變電站,建立狀態集內狀態與動作集內動作的最佳關聯。

3.3 Q值函數

Q值函數用以反映動作執行效果的優劣,其大小與動作執行后的立即回報值的大小直接相關。對于無功電壓控制問題,動作執行后,將有兩種顯著差異的結果,其一是動作執行后,系統仍存在越限的指標,對于此種情況,要盡力避免,為此,將環境狀態中越限指標對應的回報值rn設置為-M(M為給定的大值)。另一種情況,當動作執行后,系統狀態指標達到最佳值(如電壓為標幺值1.0),對于此種情況,將該指標對應的回報值設置為+M。

對于其余情況,采用考核指標與最優值之間的歐氏距離來定義回報值,如式(5)所示:式中,ηn,opt為狀態量的最佳值;ηn,max為指標越限邊界值。

由式(5)可以看出,每個指標對應的回報值在區間[-M, +M]內連續變化。而對于動作a的整體回報值可由各指標回報值加和得到:

從而,Q(s,a)可根據式(1)求得,并在學習過程中,依據式(2)不斷更新。

3.4優化流程

為了快速跟蹤電網的實時狀態變化,使Q(s,a)有較快收斂速度,本文將式(2)中α定為0.99。同時,鑒于后續狀態的控制受當前狀態控制結果的影響較小,折扣系數γ設定為0.1。基于Q算法設計的無功電壓優化控制流程如圖2所示。

圖2 無功電壓優化過程流程圖Fig.2 Voltage and reactive power optimization process flow chart

如圖2所示,電網實際控制時,學習智能體將不斷監測電網狀態,當出現越限指標,智能體將根據當前適用策略,選擇控制動作作用于所轄區域內電網,進而根據動作結果形成的新的電網狀態,更新策略并形成新的動作指令,如此反復,直到所轄區域內沒有越限指標為止。智能體控制時間間隔按現場對設備控制間隙的要求設定。

智能體所能辨認的狀態以及所得到的回報值由所轄電網內所有的指標量構成,依據強化學習理論,智能體選擇可行動作作用于當前電網狀態,并不斷試探其執行時序,最終選擇Q值最大的動作策略,實現基于多區圖無功電壓控制方式難以實現的多站全局控制效果的最佳化。

4 算例分析

本文以圖3所示的一個處于山東濱州的220kV變電站及其饋線系統為例,驗證本文方法的有效性。該系統共包含三個電壓等級的變電站,220kV變電站高壓側母線接有一臺發電機。3、6、7、11、12、13節點為負載節點,并有無功補償電容器。六臺變壓器均具備有載調壓功能。

圖3 算例電網饋線系統Fig.3 Example of grid feeder system

不失一般性,圖3算例系統選取的考核電氣量指標為220kV關口變電站的功率因數和與用戶直接相連變電站的低壓側電壓幅值,因而,環境狀態總數為77=823543個。但實際上,由于電網運行規律性很強,正常運行情況下,絕大部分狀態不可能出現,例如,不會出現七個指標都不合格或者多數指標不合格的狀態。所以,智能體所要學習與形成策略的狀態數量并不多,運行中最優控制策略的形成較為容易。

算例采用潮流計算結果模擬實際電網運行中用量測設備獲取的狀態量。在學習過程中,為描述方便,本文將所有的動作策略映射為數字指令,其對應關系如表2所示。

表2 算法控制指令與動作策略對應表Tab.2 Action strategies and corresponding algorithm control commands

根據示例電網實際運行情況,將存在指標越限的部分環境狀態列于表3,對本文方法的有效性進行說明。表中,狀態量s={y1, y2, y3, y4, y5, y6, y7}由變壓器T1的功率因數和節點3、6、7、11、12、13的電壓幅值按順序構成,系統依據環境狀態量,按照圖2所示流程進行優化控制策略的強化學習,收斂時所得的越限環境狀態對應的控制策略及其Q值如表3所示。

表3 控制策略及Q值Tab.3 Control strategies and Q values

對表3所示狀態優化控制策略選擇的合理性分析如下:

第一種環境狀態中,變壓器T1的功率因數以及第7、12、13節點的電壓越下限。在只允許調節一個設備的情況下,投13節點上的電容器得到的Q值最高,策略最佳。投13節點電容器后的環境狀態為{3,3,2,1,2,1,2},投12、7、11節點電容器后的環境狀態分別為{4,3,2,1,2,1,1}、{3,3,2,1,2,1,1}、{3,3,2,1,3,1,1}。通過對比,可以看出:13節點電容器投入后,不僅所有指標都恢復合格,而且13節點電壓幅值的狀態達到‘2’,更趨近于理想狀態,說明此時投13節點的電容器對電壓提升的效果更明顯,所以,該策略對應的Q值高于在7、11、12節點投電容器的Q值。

第二種環境狀態中,T1功率因數越下限,但對12節點投電容器的策略得到的Q值最大,投12節點電容器后的環境狀態為{3,3,2,2,2,2,2},投13、7、3節點電容器后的環境狀態分別為{3,3,2,2,2,2,2}、{3,3,2,2,2,2,2}、{4,3,2,1,2,1,1}。從動作后的狀態可以看出:此時投12、13、7節點上電容器對指標的改善效果是非常相近的,但通過式(1)(2)計算得到投12節點電容器的回報值更大一些。投3節點上電容器對T1功率因數提高比較明顯,但是對下級35kV和10kV的變電站母線電壓的提升效果很小;而投12、13、7節點電容器補償無功功率的同時,也能夠顯著提高35kV、10kV變電站母線電壓,降低了有功功率損耗,相比之下,投3節點的電容器策略回報值明顯更低。控制結果說明本文方法可以充分利用其他變電站的調節動作,從系統全局考慮,給出最佳的控制策略,克服了基于多區圖原理的無功電壓控制方法只考慮本站可調設備的缺陷。

第三種環境狀態中,節點7、12電壓越下限。升T1變壓器分接頭環境狀態為{4,3,3,1,3,1,1},其Q值最大,策略最佳。投12、7、6、3節點上的電容器后狀態分別為{5,3,3,1,3,1,2}、{5,3,3,1,3,1,1}、{5,3,3,1,3,1,1}、{5,3,3,1,3,1,1},可以看出投電容器操作使T1功率因數明顯偏離最優狀態,趨近于上限值,故其回報值低于最佳策略回報值;同樣可以看到,升T3分接頭后的狀態為{4,3,2,1,2,1,1},其升壓效果不如T1明顯,升T3分接頭后指標y3、y5的狀態為‘2’,而升T1分接頭后其狀態為‘3’,更趨近于最優狀態。所以升T1變壓器分接頭是本方法的最佳策略,體現了本文方法對全局統籌考慮的能力。

第四種環境狀態中,節點13電壓越下限。而投節點12上的電容器后狀態為{5,3,3,1,3,2,1},獲得最大回報值,投13節點電容器后的狀態{5,3,3,1,3,1,2}與投12節點電容器后狀態區別很小,但Q值作為一個連續的數值,經式(1)(2)計算,前者得到Q值略低于后者。投6、7節點上的電容器后狀態為{5,3,3,1,3,1,1},其y6指標的狀態‘1’低于投12節點電容器后的狀態‘2’。升T3、T6分接頭后的狀態均為{4,3,3,1,2,1,1},其指標y5、y6的狀態均低于投12節點電容器后的狀態。綜上所述,投12節點上電容器Q值最大,體現了本文方法能夠考慮變電站之間的拓撲連接關系,利用全局最有效的電壓支撐點改善電壓質量。

由上述分析可見,本文所提出的基于Q學習的地區電網無功電壓優化控制方法,通過學習智能體的在線漸進學習,可自動學習獲得電網各運行狀態下最佳的無功電壓調控策略,決策過程不僅具有魯棒性,而且方法具有全局尋優的能力。

5 結論

本文基于強化學習理論,提出了一種新的無功電壓優化控制方法。該方法利用Q算法的在線學習功能和良好的收斂性能,能夠在線給出當前學習階段下無功電壓控制設備的最優控制策略,保證了無功電壓控制的魯棒性。同時,方法彌補了多區圖控制原理在局部控制過程中變電站之間設備難以協調的缺陷,能夠實現所轄電網區域內無功電壓控制設備的協同優化。文章通過對濱州電網實際系統的仿真計算,驗證了所提出方法決策的有效性與結果的合理性。

[1] 劉明波, 陳學軍. 基于原對偶仿射尺度內點法的電力系統無功優化算法[J]. 電網技術, 1998, 22(3):24-28.

Liu Mingbo, Chen Xuejun. Prime-dual affine scaling interior point method based reactive power optimization in power system[J]. Power System Technology, 1998, 22(3): 24-28

[2] 李亞男, 張粒子, 楊以涵. 考慮電壓約束裕度的無功優化及其內點解法[J]. 中國電機工程學報, 2001, 21(9): 1-4.

Li Yanan, Zhang Lizi, Yang Yihan. Reactive power optimization under voltage constraints margin[J].Proceedings of the CSEE, 2001, 21(9): 1-4.

[3] 許諾, 黃民翔. 原對偶內點法與定界法在無功優化中的應用[J]. 電力系統及其自動化學報, 2000, 12(3): 26-30.

Xu Nuo, Huang Minxiang. Application of primal-dual interior point method and branch-bound method in reactive power optimization[J]. Proceedings of the EPSA, 2000, 12(3): 26-30.

[4] 劉方, 顏偉. 基于遺傳算法和內點法的無功優化混合策略[J]. 中國電機工程學報, 2005, 25(15): 67-72.

Liu Fang, Yan Wei. A hybrid strategy based on GA and IPM for optimal reactive power flow[J]. Procee dings of the CSEE, 2005, 25(15): 67-72.

[5] 潘珂, 韓學山, 孟祥星. 無功優化內點法中非線性方程組求解規律研究[J]. 電網技術, 2006, 30(19):59-65.

Pan Ke, Han Xueshan, Meng Xiangxing. Solution prin-ciples study of nonlinear correction equations in primal-dual interior point method for reactive power optimization[J]. Power System Technology, 2006, 30(19): 59-65.

[6] Suzuki M, Morima E. Coordinated A VQC operations of EHV transformer’s tap changer by fuzzy expert control system[A]. In: 2002 International Conference on Power System Technology[C]. 2002, 1679-1684.

[7] 閻振坤, 厲吉文, 李曉華. 基于模糊邊界和雙九區圖的變電站電壓無功控制策略研究[J]. 繼電器, 2005, 33(10): 36-40.

Yan Zhenkun, Li Jiwen, Li Xiaohua. Study of voltage and reactive power integrative control strategy based on fuzzy boundary and double nine-area control method[J]. RELAY, 2005, 33(10): 36-40.

[8] 羅毅, 涂光瑜, 金燕云, 等. 基于多區圖控制策略的地區電網電壓無功優化控制[J]. 繼電器, 2004, 32(5): 44-48.

Luo Yi, Tu Guangyu, Jin Yanyun, et al. Control over optimization of voltage and reactive power in regional power network based on multi-region chart control strategy[J]. RELAY, 2004, 32(5): 44-48.

[9] 余濤, 周斌. 電力系統電壓/無功控制策略研究綜述[J]. 繼電器, 2008, 36(6): 79-85.

Yu Tao, Zhou Bin. A survey on voltage/reactive power control strategy for power systems[J]. RELAY, 2008, 36(6): 79-85.

[10] Yu T, Zhen W G. A reinforcement learning approach to power system stabilizer[A]. In: Proceedings of the 9th IEEE PES Power & Energy Society General Meeting[C]. 2009: 1-5.

[11] 胡細兵. 基于強化學習算法的最優潮流研究[D]. 廣州: 華南理工大學, 2011.

[12] 袁野. 基于強化學習算法的互聯電網AGC隨機最優控制[D]. 廣州: 華南理工大學, 2011.

[13] Vlachogiannis J G, Hatziargyriou N D. Reinforcement learning for reactive power control[J]. IEEE Transactions on Power Systems, 2004, 19(3): 1317-1325.

[14] Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: A survey[J]. Journal of Artificial Intelligence Research, 1996: 237-285.

[15] 虞靖靚. 基于Q學習的Agent智能決策的研究與實現[D]. 合肥: 合肥工業大學, 2005.

[16] 余濤, 周斌, 陳家榮. 基于Q學習的互聯電網動態最優CPS控制[J]. 中國電機工程學報, 2009, (19): 13-19.

Yu Tao, Zhou Bin, Chen Jiarong. Q-learning based dynamic optimal CPS control methodology for interconnected power systems[J]. Proceedings of CSEE, 2009, (19): 13-19.

[17] Bertsekas D P, Bertsekas D P. Dynamic programming and optimal control[M]. Belmont, MA: Athena Scientific, 1995.

[18] 杜春俠, 高云, 張文. 多智能體系統中具有先驗知識的Q學習算法[J]. 清華大學學報: 自然科學版, 2005, (7): 981-984.

Du Chunxia, Gao Yun, Zhang Wen. Q-learning with prior knowledge in multi-agent systems[J]. Journal of Tsinghua University (Science and Technology), 2005, (7): 981-984.

Reactive power and voltage optimization control approach of the regional power grid based on reinforcement learning theory

Diao Haoran1Yang Ming1Chen Fang2Sun Guozhong3
(1. Key Laboratory of Power System Intelligent Dispatch and Control (Shandong University) Ji’nan 250061 China 2. Automation and Electrical Engineering, University of Ji’nan Ji’nan 250061 China 3. State Grid Tangshan Electric Power Company Limited Tangshan 063000 China)

Based on reinforcement learning theory, this paper proposes a practical approach for reactive power and voltage optimization control in regional power grid. The approach uses Q-learning algorithm to learn continuously under interaction between the action policies and grid states, then gets Q value function corresponding to each state - action, and finally forms the optimal grid reactive power and voltage control strategies. The approach gets rid of the convergence problems that existing in traditional reactive power optimization methods for solving nonlinear mixed integer programming model, meanwhile, compared to the multi - zone diagram method, as the Q value function contains global response messages in the whole grid, thus we can comprehensively judge the interactions between each substation and coordinate to control the reactive power and voltage control equipments, then obtain the global optimal control strategies in the jurisdiction grid. The approach paper proposes improves the reactive power and voltage optimization control results. Through a test of an actual 220kV substation and its feeder system, the example demonstrates the effectiveness of the approach.

Power system, reactive power and voltage optimization control, reinforcement learning, Q-learning algorithm

TM711

刁浩然 男,1992年生,碩士研究生,研究方向為電力系統可靠性分析。

國家重點基礎研究發展計劃(973計劃)(2013CB228205),國家自然科學基金(51007047, 51077087),山東省自然科學基金(ZR2014EEM022)山東大學基本科研業務費專項資金(2015JC028)資助項目。

2014-10-01

楊 明 男,1980年生,副教授,研究方向為電力系統運行與控制。(通信作者)

猜你喜歡
控制策略變電站動作
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
關于變電站五防閉鎖裝置的探討
電子制作(2018年8期)2018-06-26 06:43:34
動作描寫要具體
畫動作
超高壓變電站運行管理模式探討
電子制作(2017年8期)2017-06-05 09:36:15
動作描寫不可少
220kV戶外變電站接地網的實用設計
容錯逆變器直接轉矩控制策略
主站蜘蛛池模板: 日韩a级片视频| a亚洲天堂| 无码中文字幕乱码免费2| 国产在线97| 国产爽妇精品| 超级碰免费视频91| 欧美三級片黃色三級片黃色1| 欧美不卡二区| 91久久偷偷做嫩草影院电| 午夜在线不卡| 国产成在线观看免费视频| 依依成人精品无v国产| 欧美.成人.综合在线| 日韩无码真实干出血视频| 国产丝袜啪啪| 波多野结衣一区二区三区88| 国产亚洲欧美另类一区二区| 亚洲中文在线看视频一区| 99精品伊人久久久大香线蕉| 伊在人亞洲香蕉精品區| 亚洲第一成年网| 国产亚洲视频播放9000| 国产精品va| 尤物国产在线| 99精品一区二区免费视频| vvvv98国产成人综合青青| 亚洲视频免费播放| 丝袜美女被出水视频一区| 久久精品娱乐亚洲领先| JIZZ亚洲国产| 超碰免费91| 在线另类稀缺国产呦| 国产综合另类小说色区色噜噜| 国产精品一区在线麻豆| 永久天堂网Av| 在线看国产精品| 亚洲欧洲日本在线| 亚洲精品天堂在线观看| 亚洲第一精品福利| 伊人查蕉在线观看国产精品| 亚洲日韩精品无码专区97| 18禁不卡免费网站| 四虎永久在线精品影院| 亚洲aaa视频| 久久精品国产精品国产一区| 亚洲欧美极品| 尤物在线观看乱码| 97se亚洲综合不卡| 美女无遮挡免费视频网站| 波多野结衣一二三| 一区二区三区四区在线| 精品国产污污免费网站| 中文字幕亚洲综久久2021| 色婷婷天天综合在线| 中文字幕人妻无码系列第三区| 国产一区二区三区在线精品专区| 国产成人久久777777| 午夜视频www| 无码视频国产精品一区二区| 欧美日本在线观看| 国产午夜不卡| 久热这里只有精品6| a网站在线观看| 欧美中文字幕无线码视频| 99久久人妻精品免费二区| 无码精品国产VA在线观看DVD| 欧美一区二区福利视频| 亚洲综合激情另类专区| 欧美综合区自拍亚洲综合天堂| 国产9191精品免费观看| 日韩欧美高清视频| 国产免费精彩视频| 动漫精品中文字幕无码| 久久亚洲国产最新网站| 亚洲无线观看| 国产浮力第一页永久地址| 国产精品不卡片视频免费观看| 亚洲欧美另类日本| 99久久国产精品无码| 国产激情第一页| 第一区免费在线观看| 人人艹人人爽|