999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于離線深度強化學習的工業控制優化方法

2021-12-30 03:07:10華電忻州廣宇煤電有限公司高亞磊郝政忠李繼平
電力設備管理 2021年12期
關鍵詞:動作價值優化

華電忻州廣宇煤電有限公司 高亞磊 郝政忠 李繼平

1 工業控制自動化現狀與發展趨勢

我國工業控制自動化的發展道路,大多是在引進成套設備的同時進行消化吸收,然后進行二次開發和應用,目前工業控制自動化技術正在向智能化、網絡化和集成化方向發展。智能化主要歸結于人工智能技術的發展與應用,如運用神經網絡、遺傳算法、進化計算、混沌控制等智能技術,使儀器儀表實現高速、高效、多功能、高機動靈活等性能;再如運用模糊規則的模糊推理技術,對事物的各種模糊關系進行各種類型的模糊決策;又如充分利用人工神經網絡技術強有力的自學習、自適應、自組織能力,聯想、記憶功能以及對非線性復雜關系的輸入、輸出間的黑箱映射特性等。而人工神經網絡中的深度強化學習最適合用于工業控制自動化,實現智能化。

深度強化學習是深度學習與強化學習相結合的產物,集成了深度學習在視覺等感知問題上強大的理解能力,以及強化學習的決策能力,實現了端到端學習。深度強化學習的出現使得強化學習技術真正走向實用,得以解決現實場景中的復雜問題。過去幾年間,深度強化學習算法在不同領域大顯神通:在視頻游戲[1]、棋類游戲上打敗人類頂尖高手[2];控制復雜的機械進行操作[3];調配網絡資源[4];為數據中心大幅節能[5];甚至對機器學習算法自動調參[6]。控制領域是強化學習思想的發源地之一,也是強化學習技術應用最成熟的領域。一個常見的例子是使用人工智能來調優機器和設備,在這之前這些工作需專家級操作人員才能完成。如DeepMind 的強化學習技術幫助Google 顯著降低了其數據中心的能耗(HVAC)[5]。

2 傳統工業控制優化的弊端

依賴現場試驗。傳統優化方法主要通過在現場試驗中收集不同工況、控制策略下的運行情況數據,結合機理、經驗公式進行優化。在大部分情況下,為了收集機理、經驗公式要求的相應數據需額外加裝傳感器測點,或多或少牽扯到技術改造。項目投入大、試驗數據收集費時費力,成本高,設備改造對實際的生產運行影響也較大。基于深度強化學習的方法只需使用運行一段時間內的歷史數據,依賴于已有數據,不涉及加裝及硬件改造,成本低,對正常運行影響小。

基于物理方程和機理模型。傳統控制優化方法主要基于物理方程及機理進行建模,包含大量經驗、假設性的參數。傳統控制優化方法過于依賴設備原有的設計參數,然而設備在運行一段時間后,其真實運行參數必然會相較出廠設計參數有一定的偏差,造成對系統描述的失準。此外傳統方法建模過程過于理想化,缺乏對設備真實數據的利用和考慮。基于深度強化學習的方法充分使用真實運行的歷史數據,在建模過程中較少依賴機組設計參數,不加入額外假設或經驗性參數,從數據本事直接學習系統真實的變化特征,對于系統刻畫描述的能力更強。

工況適應性差。傳統控制優化方法建立的模型一旦完成、基本是固化的,不具備自學習能力及適應后續工況變化的可調節性。然而設備的工況每天都會因為損耗、材料特性的改變產生微小的工況變化,長期積累下來必然會導致原有固化模型的失準,如需重新適應新的工況特性、則需重新建模。基于深度強化學習的方法因為純數據驅動,模型本身具備可學習性及很強的適應能力。在工況發生變化后,只需收集最新的歷史運行數據、在原有模型參數的基礎上進行再訓練和調整,即可適應最新的工況特性。

拆解成子系統用簡化模型優化。大部分控制優化問題本身復雜性高,傳統方法解決優化問題主要將整個系統拆解成多個簡化的子系統、子模塊,然后對每個子系統的少量控制變量做局部優化以達到優化目的。然而此種建模方法過度簡化,缺乏對系統整體建模的考慮,忽視了各子系統之間復雜的交互影響。此外每個子系統達到最優、無法保證系統的全局最優,甚至單一子系統本身的優化可能對其他子系統產生不良的影響。基于深度強化學習的方法對系統進行整體性建模,不做子系統拆解,最大程度上考慮各子系統之間復雜的依賴、影響關系。通過對整個系統的優化目標進行尋優,保證控制量推薦結果的全局最優。

3 離線深度強化學習算法框架

實際應用環境中往往需要滿足一定的安全限制條件,本文引入安全價值模型來評估當前策略的安全風險,在優化策略的同時滿足安全需求。本算法由數據驅動、以最大化長期價值為目標,同時受限于安全約束,定義為受限的高維動態優化問題。本方法完全基于真實離線數據集,通過安全約束和受限的策略探索方法學習出安全有效的策略。

首先構建基準策略分布網絡,使用真實數據訓練、得到歷史策略的分布,作為強化學習算法的基準。然后分別構建獎勵價值網絡和安全風險網絡用于評估策略的長期價值和安全風險。模型訓練使用真實數據,首先從基準策略中采樣得到基準動作,然在基準動作基礎上用擾動網絡進行探索,通過價值網絡評估探索策略的價值和風險,最后通過最大化長期價值和最小化風險為目標進行訓練迭代,得到最優策略。本方法的最優策略是在歷史策略的安全范圍內進行有效探索得到,分布更接近歷史策略分布,最大化價值的同時保證滿足安全約束條件,可以滿足工業控制領域的需求。

首先從真實數據中采樣一定數量的樣本訓練基準策略模型。基準策略模型只用真實數據訓練,不是最優的策略但可以反映真實數據的分布,然后用擾動網絡進行探索、得到最優策略。基準策略模型優選方案是使用變分編碼器VAE(Variational Auto-encoder)。VAE 由兩部分的網絡構成,一部分稱為encoder,從一個高維的輸入映射到一個低維的隱變量上;另外一部分稱為decoder,從低維的隱變量再映射回高維的輸入。分為模型訓練階段和采樣階段,訓練階段模型輸入為當前狀態s 和執行的動作a,輸出為動作a,encode 和decoder 兩個部分協同訓練;采樣階段只使用decoder 部分批量采樣一定數量的樣本。

接著,從樣本池中采樣一定數量的樣本,在每個樣本的狀態下,從基準策略分布中采樣得到基準動作,在基礎動作基礎上通過擾動策略網絡進行探索。按照一定的比例,將擾動添加到基準動作上、產生探索動作。然后用獎勵價值網絡評估探索動作的長期價值,用安全價值網絡評估探索動作的安全風險。以最大化長期價值和最小化安全風險為目標,通過策略梯度的方法來訓練擾動網絡。目標如下:

其中,Gw是生成模型(本文中為VAE 模型),結合價值網絡Qr可作為策略使用,從Gw采樣得到n個動作,再用Qr篩選出價值最高的動作。為了增加探索,用擾動網絡εφ(s,a,φ)生成在范圍[-φ,φ]內針對動作的調整,擾動網絡提供了安全區域內的有效探索。Qr,Qc分別為獎勵價值網絡和安全價值網絡,l 為安全約束。

最后,從樣本池采樣一定數量的樣本訓練學習策略模型、獎勵價值模型和安全價值模型。訓練方法采用經典的“演員-評論家”(actor-critic)方法,通過在單步轉移數據(s,a,r,s)上最小化貝爾曼誤差(Bellman errors)來學習一個動作值函數,然后通過最大化動作值函數來進行策略更新。獎勵價值函數的目標為: ,其中D 為經驗池,Qr為所要學習的獎勵價值網絡,Q 表示目標價值網絡,按照目標函數進行交替迭代訓練。同理可得安全價值函數的目標。

本算法已實際應用于華電忻州廣宇煤電有限公司50MW 超臨界參數燃煤汽輪發電機組的鍋爐燃燒優化系統中。自2020年12月全部開發調試完畢,進入上機實測階段。在2021年1月份進行了多批次、多負荷段、多工況場景的上機實測。測試中離線強化學習算法運行穩定、性能可靠,優化價值凸顯。優化系統可及時提供提高鍋爐效率的調整方向,能夠使機組在調整后鍋爐效率得到提升。按提供的控制指導策略進行機組運行控制時,能夠實現通過人工智能算法快速提供優化指導方案,提高操作人員工作效率,降低勞動強度。算法的優化效果獲得了專家的一致認可。

猜你喜歡
動作價值優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
動作描寫要具體
畫動作
動作描寫不可少
一粒米的價值
“給”的價值
非同一般的吃飯動作
主站蜘蛛池模板: 又粗又硬又大又爽免费视频播放| 乱人伦视频中文字幕在线| 二级毛片免费观看全程| 五月婷婷精品| 欧美一级专区免费大片| 精品国产成人高清在线| 亚洲最大福利视频网| 亚洲AⅤ无码国产精品| 欧美日韩国产成人在线观看| 国产精品污视频| 免费Aⅴ片在线观看蜜芽Tⅴ| 69综合网| 国产手机在线观看| 美女黄网十八禁免费看| 丁香五月婷婷激情基地| 青青草综合网| 国产精品无码AV中文| 日韩精品高清自在线| 亚洲AV电影不卡在线观看| 国产成人成人一区二区| 欧美日韩资源| 免费无码网站| 欧美三级不卡在线观看视频| 亚洲成人高清在线观看| 欧美成人在线免费| 日韩av无码DVD| 亚洲一区二区三区国产精品| 免费亚洲成人| 激情影院内射美女| 国产尤物视频在线| 一本大道香蕉中文日本不卡高清二区 | 综合亚洲网| 久久亚洲天堂| 亚洲 欧美 偷自乱 图片| 国产在线精品99一区不卡| 好吊色国产欧美日韩免费观看| 最新国产成人剧情在线播放| 亚洲福利片无码最新在线播放| 91啦中文字幕| 亚洲av片在线免费观看| 国产成人精品一区二区| 免费av一区二区三区在线| 成人在线第一页| 一区二区三区四区精品视频 | 白浆免费视频国产精品视频| 中文字幕av一区二区三区欲色| 无码免费试看| 欧美激情视频一区二区三区免费| 91精品国产91久久久久久三级| 久久久久88色偷偷| 亚洲天堂在线免费| 四虎永久免费地址| 农村乱人伦一区二区| 色偷偷av男人的天堂不卡| 超碰精品无码一区二区| 亚洲欧美日韩动漫| 露脸国产精品自产在线播| 人人爱天天做夜夜爽| 草逼视频国产| 精品视频在线观看你懂的一区| 亚洲三级电影在线播放| 欧美区一区| 中文成人无码国产亚洲| 免费一级毛片在线观看| 久久夜色精品| 国产精品视频猛进猛出| 亚洲国产亚洲综合在线尤物| 成人欧美日韩| 久久国产精品77777| 久久免费成人| 青草精品视频| 日本久久网站| 青草精品视频| 久久免费成人| 成人噜噜噜视频在线观看| 在线不卡免费视频| 日韩av无码精品专区| 日韩欧美视频第一区在线观看| 欧美日韩国产在线人成app| 色婷婷久久| 亚洲AV人人澡人人双人| 色噜噜狠狠狠综合曰曰曰|