999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的配網參數優化方法

2020-08-03 06:54:33李敬航林澤宏張鑫
價值工程 2020年21期
關鍵詞:智能化

李敬航 林澤宏 張鑫

摘要:隨著我國科技、經濟的快速發展,人們對電量的需求日益遞增。當前,智能化體系不斷完善,智能化的配網自動化系統將成為未來的主要研究方向。論文中主要解決自動配網系統中的配網參數設置問題。具體地,論文基于強化學習框架提出了一種配網參數優化的方法,該方法能夠在盡可能少的人為干預下實現配網自動化,從而高效的解決傳統配網問題。該智能體以最大化配網系統的供電質量為目標,利用配網系統正常供電的時長作為獎賞值,通過使用強化學習算法促使智能體不斷學習,最終智能體能夠為配網系統選擇出一系列高質量的配網參數,從而實現高效、可靠的配網系統。

Abstract: With the rapid development of technology and economy, people's demand for electricity is increasing day by day. This paper mainly solves the problem of setting the distribution parameters in the automatic distribution system. Specifically, this paper proposes a distribution network parameter optimization method based on reinforcement learning framework, which can automate the distribution network with as little human intervention as possible, thereby efficiently solving the traditional distribution network problem. The agent aims to maximize the power supply quality of the distribution system, and uses the reinforcement learning algorithm to promote the agent to learn continuously, and finally the agent can select a series of high-quality distribution network parameters, thus achieving an efficient and reliable distribution network system.

關鍵詞:智能化;配網自動化;強化學習

Key words: intelligent;automatic distribution network;reinforcement learning

中圖分類號:O224? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2020)21-0226-05

0? 引言

在國家電網中,配網自動化技術是衡量現代電力技術的重要指標,該技術通過結合計算機科學技術、電氣技術和網絡技術來設置電網參數、動態監測電網狀態以及實現電網的高可靠性。配網自動化有利于減少電網系統成本,同時也提高電網各個評價指標。配網自動化能夠根據電網的實際運行情況,及時的進行電網調配,并能夠有效的處理突發情況,保證電網的可靠性。

傳統的配網自動化仍面臨一些挑戰,主要包括:①在自動化配網系統運行過程中,仍需大量的人為干預;②在自動化配網系統運行過程中,需要進行配網參數設置,這需要電力人員需要大量的經驗積累;③對于不同的電力環境和地理環境,需要設計一個適合實際情況的電力拓撲網絡[1]。為了解決上述問題,通過結合人工智能使得配網自動化系統更高效、更安全、更實用是有意義的,是當前智能電網的趨勢,能夠對配網系統甚至電網系統起到了十分重要的作用。在人工智能時代的背景下,有效的結合智能算法是提高配網自動化系統的一個可行的方案。

在本文中,我們通過使用強化學習中策略梯度方法對自動化配網系統中的參數進行優化,從而提高整個配網自動化系統以及整個電網系統的性能。以下將從相關工作、方法提出、未來展望和總結四部分進行詳細描述。

1? 相關工作

1.1 配網自動化

先前已有配網自動化與機器學習的結合案例。針對配網系統的自動化檢修問題,基于機器學習檢修方法主要包含節點聚集環節、自適應連接環節和調試監測環節[2]。在進行自動檢測的過程中,首先需要確定檢測手段,并根據配網系統類型來確定聚類方式,然后對自動化配網設備進行自動連接及調試監測操作,從而根據實際情況實現自動化配網設備狀態的自適應調試。在此基礎上,我們需要完成這種新的調修方式的構造,首先需要匹配檢修語義,并及時完善已生成的條目文件,最終完成搭建。在此之前,我國也有很多技術方法來研究配網設備自動檢修方法,但是先前相關工作的主要關注點在于:基于配網設備通訊手段的檢測分析,合理選擇狀態檢修并形成最終匯總數據, 再利用重要性決策的方法理論,對匯總數據進行精準的風險控制與評價。該工作主要關注配網設備的檢修和處理過程,雖然上述工作能夠通過多次重要性指標加權的方式得到相對精準的調試和檢修結果,但多次重要性指標加權的操作需要對數據進行集中處理的操作,也容易導致最終決策結果產生誤差,從而容易誘發自動化配網設備在實際情況下得不到充分滿足的問題。

1.2 強化學習

強化學習(Reinforcement Learning,RL)[3]是在解決決策問題方面具有很大的潛力,其通過構建智能體來代替人類進行決策,從而完成決策自動化。其基本原理是:為了代替人類進行決策,需要構建智能體(Agent);智能體會根據當前環境的狀態進行決策,即輸出動作(action);通過將動作作用于環境中,從而得到環境的反饋,即獎賞值(reward);通過最大化累積獎賞值來達到目標,并經過不斷迭代從而學習到最優的策略(policy),該策略能夠根據環境狀態輸出最大化獎賞值的動作(action)。通常地,當一個實際問題能夠用強化學習方法解決時,我們往往可以將該過程模擬成一個馬爾可夫決策過程,由一個四元組(S (state),A(action),P,R(reward))組成,其中:

①S(state)表示一個有限的狀態集,其包括環境中可能出現的所有狀態。St表示t時刻環境所處的狀態;

②A(action)表示一個有限的動作集,其包括智能體根據環境狀態可能采取的所有動作。At表示在t時刻智能體根據當前環境狀態所采取的動作;

強化學習是一種策略學習方法,能夠學習到從環境狀態映射到動作的最優策略。強化學習與傳統的機器學習方法有所不同,強化學習主要通過利用環境的反饋值進行迭代學習,該反饋值是對智能體所產生的動作的一種評價。如果智能體針對當前環境的狀態做出的動作獲得較高的獎賞值,那么以此計算的損失函數則會重點關注該動作區域,主要體現在梯度下降時的參數更新;相反,如果智能體做出的動作效果不夠好,則降低對該動作區域的關注。通過上述的迭代學習方式,智能體不斷改進行動策略從而找到適合當前環境的最優策略。

1.3 深度強化學習

隨著深度學習的發展,深度學習中的神經網絡的應用也越來越廣泛。并且隨著神經網絡的種類越來越豐富,其對復雜任務的抽象能力也越來越強大。1.2節中所描述的強化學習雖然對決策問題具有很大潛力,但當問題的復雜度逐漸增加時,單純的強化學習往往不能達到預期的效果。近期,谷歌大腦團隊將具有抽象和表達能力的深度學習方法和具有決策能力的強化學習相結合,形成了深度強化學習方法[4],高效地突破了諸如自動駕駛、與人類進行圍棋比賽等高難度復雜問題,并且利用該方法在一些領域的效果超越人類。通過這種方式,將深度學習中的神經網絡與強化學習方法結合,這使得強化學習方法能夠具有更加深層次的抽象能力,從而提高策略能力。具體的,強化學習中的智能體由深度神經網絡構成,輸入為當前時刻環境的狀態,也就是當前時刻從環境中獲得的感知信息,輸出則為當前時刻智能體根據狀態做出的決策或者動作。在智能體與環境交互的每一個時刻,利用神經網絡構建的智能體能夠獲得復雜環境的潛在信息表征;接下來評估各種可能動作的價值函數,輸出當前最優動作;環境對該動作做出反饋,輸入到智能體。通過不斷迭代訓練,最終智能體能夠以較高的概率選擇獎賞值高的動作。該方法的優勢在于,其不需要過多的人工干預,因此具有很好的實用性,并且也能大大減少資源耗費。目前,深度強化學習在對抗游戲、推薦和自動駕駛等新型領域得到廣泛結合。

2? 基于深度強化學習的配網參數優化方法

在本章節中,我們將首先描述如何利用長短時記憶神經網絡構造Agent以自動優化配網參數;接著描述智能體的工作流程和如何使用策略梯度算法訓練智能體,并以最大化智能體選擇的配網參數組合所對應的配網環境的正常運行時長作為目標。

2.1 Agent內部網絡結構

由于配網系統中的參數較多,如果直接優化整個參數空間,則會極大的降低整個配網系統的效率。在本文中,我們將自動化配網系統參數優化問題可看作一個序列決策問題,也就是將整個參數優化問題拆分成多個小的優化問題,每一時刻只針對某個配網參數的取值做出決策,整個配網系統的參數需按時間步逐個輸出。為了考慮配網參數之間的相互關聯和相互影響,我們使用一個變長的字符串來表示整個配網參數組合,通過這樣的轉變使得我們能夠利用神經網絡構造的智能體來生成對應的字符串,通過對字符串進行解析能夠獲得配網系統的實際參數值。由于LSTM網絡對于解決時序問題具有很大的潛力,因此我們使用LSTM神經網絡作為智能體的核心結構,具體優化過程如圖1所示。Agent以概率P為算法模型選擇一組配網參數a1:T(T為算法模型中需要優化的配網參數的總數);然后運行Agent選擇的配網參數組合a1:T所對應的配網自動化系統,以該系統的正常運行時長作為獎賞值,利用策略梯度算法[5]來更新智能體的內部參數。通過這樣的不斷迭代,最終會得到一個較好的決策策略,主要體現在智能體會逐漸選擇獎賞值較高的自動化配網參數組合。接下來我們以6個配網參數的配網系統為例,描述如何構建agent的模型結構。

對于配網系統中的配網參數,都會直接影響自動化配網系統的性能。我們利用長短時記憶神經網絡(LSTM)[6]構造一個Agent來自動選擇配網參數組合。該Agent的網絡結構如圖2所示,智能體按時間步展開6次,智能體的結構共享,整體顯示一個流型結構。其內部結構包括一個輸入全連接層、LSTM網絡和一個輸出全連接層。通過一個輸入全連接層能夠將輸入統一維度且進行更深層次的特征提取。中間的LSTM網絡作為智能體的核心結構,在一定程度上能夠觀察各個配網參數的內部聯系。該核心結構由三層LSTM網絡組成,每一層包含30個神經元節點。最后通過一個輸出全連接層輸出對應的配網參數值。

由于我們將參數選擇看作一個序列決策過程,所以智能體在每一個時刻只輸出對應的配網參數值。當完成所有時間步后,也就是選擇完所有配網參數值后,Agent輸出停止。Agent在t=1時刻的輸入為全1向量(該向量的元素的值全為1),智能體在其他時刻輸出對應配網參數的預選值的選擇概率,該選擇概率的值域為[0,1];智能體輸出的動作的概率值越大,選中該動作預選值概率越高;否則相反。智能體通過不斷迭代,能夠根據輸出的概率值進行最優的選擇,即獲得該配網參數的實際取值。同時,為了讓所有的待優化的配網參數保持前后聯系,我們把當前時刻所選擇值的索引位置作為下一時刻的狀態,即下一時刻智能體的輸入數據。

具體地,如在t=1時刻,Agent輸出配網參數1的預選值的選擇概率后,通過在概率中進行采樣選擇出配網參數1;然后,我們將智能體所選擇的配網參數值的索引位置作為下一時刻智能體的輸入數據;以此類推,智能體將按時間步迭代n次(n表示待優化的配網參數個數)。當智能體按上述步驟選擇了所有配網參數后,就形成了一個自動化配網系統參數組合。重要的,我們以自動化配網系統的運行質量作為優化目標,所以將配網系統正常運行的時長作為智能體的在當前時刻的獎賞值,并以此計算損失函數。通過使用梯度下降來更新智能體的內部參數。經過多次迭代,Agent通過獎賞值修正自身權重,Agent能夠選擇出更優的配網參數組合,使得不斷提升配網系統的正常運行時長。值得注意的是,雖然Agent輸入的配網參數是串行關系,但是配網參數輸入順序不會影響到最終實驗結果。這是由于LSTM網絡結構內部能夠逐漸適應配網參數順序不一帶來的影響,并且強化學習算法也能夠在參數空間充分采樣,漸弱參數依賴性對最終結果的影響。

2.2 Agent工作流程

在本節中,我們將具體描述Agent智能體如何進行自動化配網系統的參數優化,主要分為以下4個步驟:

①通過輸入層將狀態輸入到智能體,并通過Agent智能體中的全連接層,對智能體的輸入進行低層次的抽象處理并統一其維度,其重要運算為:

其中,softmax函數中的exp(x)表示對x進行指數操作;N表示x中總共包含的元素值個數,即待優化的配網參數個數;Pt表示自動化配網系統參數在t時刻的候選值的概率值,其大小為[0,1];inputt+1表示智能體在t+1時刻的輸入信息;onehot(x)表示對x進行onehot編碼,該函數的輸出維度與x的維度相同,并且其輸出只包含0和1,1的位置為x中最大元素的位置,其余維度的值為0。

通過以上步驟,Agent智能體能夠按時間步來選擇出整個配網參數組合。接下來,我們將選擇強化學習方法,并使用該配網參數的正常運行時長作為獎賞值,以此來計算損失函數,最終通過梯度下降方法來更新智能體的內部參數。

2.3 Agent訓練流程

策略梯度方法是一種基于策略的強化學習方法,相比于基于值的強化學習方法,策略梯度能夠更加直接的獲得動作決策策略。該方法通過計算動作的概率與期望總獎賞的乘積對智能體內部參數的梯度來更新智能體的內部參數,通過不斷迭代,智能體能夠選擇出一個較好的配網參數組合。策略梯度在解決強化學習任務時具有高效率、適應性強的優勢。除此之外,它能夠避免了值估計的過程,直接優化策略已到達較高的期望獎賞值。在實際使用時,在更多的領域使用策略梯度方法,并且它的最終效果也更加明顯。因此,在本文中,我們采用策略梯度方法來計算損失函數,并以此來更新智能體的內部參數。

其中, T為自動化配網系統的待優化參數個數,也就是智能體所需展開的時間步數;Rk為自動化配網系統結合第k個樣本,所得到的正常運行時長;b(baseline)表示基線,這里我們使用獎賞值的指數滑動平均值作為基線值。

3? 未來展望

在本文中,我們提出了一種基于強化學習的配網參數優化的方法。在該方法中,我們以自動配網系統的正常運行時長作為獎勵值來更新agent的內部參數。在未來工作中,我們將繼續深入研究該領域,主要改進方向有以下幾點:①我們將組合自動化配網系統中的其他評估指標來作為獎勵值,并進行多目標優化,從而達到綜合性能更好的自動化配網系統;②在基礎架構中,我們發現配網參數的評估十分耗時,我們將通過添加預測模型來進行性能預測,從而提高優化方法的時間效率;③我們將從配網參數的優化逐漸擴展到電網拓撲結構的優化,從而實現電網的全面優化。

4? 總結

本文中,我們針對自動化配網系統中配網參數優化的問題,將強化學習框架擴展到自動化配網系統的參數優化問題,并提出了一種新的自動化參數優化方法。該方法使用LSTM網絡作為agent的核心網絡結構,并以順序選擇的方式逐次選擇出各個配網參數。在獲得整個配網參數后,我們使用自動化配網系統的正常運行時長作為獎勵值,并以此來更新agent的內部參數。經過不斷迭代,智能體能夠更加準確的選擇出性能更好的配網參數組合,從而提高自動化配網系統的整體可靠性,使得優化方法在優化結果和優化效率上都具有一定的競爭力。

參考文獻:

[1]盛德剛.基于配網自動化的電力系統研究[J].水利電力,2019,10.

[2]李互剛.基于機器學習的配網設備狀態自動檢修方法研究 [J].自動化與儀器儀表,2019,10.

[3]Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction [J]. The MIT Press.

[4]Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning [J]. Nature, 2015, 518(7540): 529-533.

[5]Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning [J]. Machine Learning, 1992, 8(3-4):229-256.

[6]Sepp Hochreiter and Jurgen Schmidhuber. Long Short-Term Memory [J]. Neural Computation, 1997, 9(8):1735-1780.

[7]Kingma D P and Ba J. Adam: A Method for Stochastic Optimization [J]. Computer Science, 2014.

猜你喜歡
智能化
智能化戰爭多維透視
軍事文摘(2022年19期)2022-10-18 02:41:14
住宅小區弱電智能化工程建設實現
大型公共建筑智能化系統造價控制
智能化的“世界觀”
印刷工業(2020年4期)2020-10-27 02:46:02
印刷智能化,下一站……
印刷工業(2020年4期)2020-10-27 02:45:52
餐廳智能化該如何進行?
中國儲運(2019年5期)2019-05-15 09:37:40
風電智能化時代開啟
能源(2018年10期)2018-12-08 08:02:52
汽車營銷如何智能化?
汽車觀察(2018年10期)2018-11-06 07:05:08
基于“物聯網+”的智能化站所初探
高速公路智能化的前景
中國公路(2017年12期)2017-02-06 03:07:25
主站蜘蛛池模板: 亚洲免费黄色网| 成人国产精品网站在线看| h网站在线播放| 少妇被粗大的猛烈进出免费视频| 一级看片免费视频| 2020精品极品国产色在线观看 | 波多野结衣视频一区二区 | 一级一级一片免费| 在线无码av一区二区三区| 91丝袜美腿高跟国产极品老师| 日本国产在线| 久草视频一区| 婷婷丁香色| 一区二区自拍| 国产00高中生在线播放| 亚洲中文字幕97久久精品少妇| 五月婷婷激情四射| 亚洲高清日韩heyzo| 国产成人三级| 2021国产精品自拍| 国产成人一区在线播放| 一级福利视频| 欧美色视频日本| 日韩专区欧美| 亚洲人人视频| 十八禁美女裸体网站| 国产国拍精品视频免费看| 国产最爽的乱婬视频国语对白| 中文字幕在线日本| 精品剧情v国产在线观看| 亚洲欧美日本国产专区一区| 亚洲精品无码抽插日韩| 欧美国产三级| 亚洲精品成人福利在线电影| 亚洲日韩AV无码一区二区三区人| 日本影院一区| 91一级片| 国产一级特黄aa级特黄裸毛片| 中字无码av在线电影| 五月婷婷丁香色| 亚洲狠狠婷婷综合久久久久| 精品国产一区二区三区在线观看| 91在线播放国产| 亚洲人成网站色7799在线播放 | 亚洲Av综合日韩精品久久久| AV片亚洲国产男人的天堂| 熟女视频91| 国产乱子伦手机在线| 国产精品精品视频| 欧美午夜网| 日韩成人午夜| 在线观看视频一区二区| 91视频99| 欧美在线综合视频| 东京热一区二区三区无码视频| 亚洲欧洲一区二区三区| 中文字幕精品一区二区三区视频| 小说 亚洲 无码 精品| 色精品视频| 性色在线视频精品| 成年人福利视频| 国产在线八区| 国产精品尹人在线观看| 丁香婷婷久久| 国产精品免费电影| 国产91丝袜在线播放动漫| 在线观看国产网址你懂的| 国产精品露脸视频| 日本精品αv中文字幕| 国产免费网址| 蜜芽国产尤物av尤物在线看| 国产成人无码久久久久毛片| 91成人在线观看| 老熟妇喷水一区二区三区| 一级成人a做片免费| 成人无码一区二区三区视频在线观看 | 伊人色综合久久天天| 日韩黄色精品| 亚洲人成网7777777国产| 欧美亚洲欧美| 国产导航在线| 欧美一级片在线|