999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的參數(shù)自整定及優(yōu)化算法

2022-04-21 06:51:40嚴家政專祥濤
智能系統(tǒng)學報 2022年2期
關鍵詞:優(yōu)化實驗

嚴家政,專祥濤,2

(1.武漢大學 電氣與自動化學院,湖北 武漢 430072;2.武漢大學 深圳研究院,廣東 深圳 518057)

在現(xiàn)代工業(yè)控制系統(tǒng)研究中,對控制性能指標進行優(yōu)化是研究控制算法的首要任務之一。常見的工業(yè)控制系統(tǒng)一般具有非線性、含時滯、多變量等復雜特性,研究人員提出了模糊PID 控制[1]、分數(shù)階PID 控制[2-3]、自抗擾控制[4-5]等算法,提升控制算法的性能。工程實踐中,此類控制算法和控制器的參數(shù)整定及優(yōu)化過程需要工程師大量的實踐經(jīng)驗,或通過觀察被控對象的響應逐步調整,或通過辨識模型推理計算。參數(shù)優(yōu)化過程繁瑣耗時、常有重復性工作。隨著人工智能技術的發(fā)展,深度學習[6-7]、強化學習[8]等人工智能理論及技術被廣泛應用于圖像識別[9]、智能推薦[10]、機器人控制[11]等領域。由于控制理論的反饋概念與強化學習的獎勵概念的相似性,為了增強控制算法性能、減少人工成本,許多學者也嘗試在控制理論與控制工程領域引入強化學習[12-14]。但目前這類研究大多處于理論證明和仿真實驗階段[15],少有工程實踐的驗證。

本文針對上述問題,首先提出了一種基于強化學習的控制參數(shù)優(yōu)化算法,將參數(shù)整定問題近似為求解約束優(yōu)化問題,通過結合強化學習的獎勵、經(jīng)驗回放機制和控制系統(tǒng)的動態(tài)性能指標評價模塊對控制器參數(shù)進行在線自整定及優(yōu)化。然后,以水箱液位控制系統(tǒng)為實驗對象,對上述算法進行實物對比測試。最后,設計了一種動態(tài)變參數(shù)PID 控制算法,驗證基于強化學習的參數(shù)自整定及優(yōu)化算法的可行性、有效性和普適性。

1 強化學習

作為一種重要的機器學習方法,強化學習(reinforcement learning,RL)采用了人類和動物學習中的“嘗試與失敗”機制,強調智能體在與環(huán)境的交互過程中學習,利用評價性的反饋信號實現(xiàn)決策的優(yōu)化。由于強化學習在學習過程中不需要給定各種狀態(tài)的監(jiān)督信號,因此其在求解復雜的優(yōu)化決策問題方面有廣泛的應用前景。強化學習的基本框架[16]如圖1 所示。

圖1 強化學習的基本框架Fig.1 Basic framework of reinforcement learning

與環(huán)境Environment 交互過程中,智能體Agent 根據(jù)當前狀態(tài),選擇并執(zhí)行一個動作,環(huán)境接受動作后變?yōu)樾碌臓顟B(tài),并把獎賞信號反饋給智能體,根據(jù)獎賞信號智能體更新決策單元,選擇后續(xù)動作,直至獲得期望的最大獎勵值。

智能體與環(huán)境的交互過程中,在每個周期T會經(jīng)歷如下步驟[17]:

1)智能體Agent 獲取環(huán)境Environment 在當前周期T的狀態(tài)ST;

2)智能體Agent 依據(jù)狀態(tài)ST和策略PT,選擇并執(zhí)行動作aT,作用于當前環(huán)境;

3)環(huán)境由狀態(tài)ST變?yōu)樾碌臓顟B(tài)ST+1,并反饋當前策略的評價函數(shù)rT;

4)智能體Agent 根據(jù)評價函數(shù)rT更新策略,即PT→PT+1,T→T+1;

5)返回步驟1),重復上述步驟,直至滿足目標要求。

算法流程中,評價函數(shù)r是關于環(huán)境的狀態(tài)S和智能體的執(zhí)行動作a的函數(shù),是決定強化學習訓練結果策略P性能好壞的關鍵性因素。

2 算法設計

在控制系統(tǒng)控制器性能分析中,系統(tǒng)階躍響應對應的超調量 δ、上升時間tr、調節(jié)時間ts等動態(tài)性能指標是關于控制器參數(shù)矢量X的非線性函數(shù),評價控制器設計優(yōu)劣的關鍵性因素。(本文研究中,以穩(wěn)態(tài)值的±2% 作為平衡狀態(tài)誤差范圍)

結合強化學習理論和控制理論知識,本文提出一種基于強化學習(reinforcement learning,RL)的控制器參數(shù)自整定及優(yōu)化算法。算法將控制參數(shù)矢量X作為智能體的動作,控制系統(tǒng)的響應結果作為狀態(tài),引入動態(tài)性能指標計算獎勵函數(shù),通過在線學習周期性階躍響應數(shù)據(jù)、梯度更新控制器參數(shù)的方式改變控制器的控制策略,直至滿足優(yōu)化目標,實現(xiàn)參數(shù)的自整定及優(yōu)化。算法原理如圖2 所示。

圖2 基于強化學習的控制器參數(shù)優(yōu)化算法原理圖Fig.2 Schematic diagram of controller parameter optimization algorithm based on reinforcement learning

根據(jù)原理圖2,本文提出的參數(shù)自整定及優(yōu)化算法將控制器參數(shù)整定問題定義為,求解滿足下列不等式約束條件的可行解:

式中:Z為待優(yōu)化的參數(shù)矢量X的取值范圍;Ωi(i=1,2,3)為優(yōu)化目標的約束值。基于控制系統(tǒng)動態(tài)性能指標超調量 δ、上升時間tr、調節(jié)時間ts,算法定義獎勵函數(shù)R為

本文算法的參數(shù)整定及優(yōu)化流程如下(算法1):

1)根據(jù)實際條件和需求設定優(yōu)化目標 Ωi和參數(shù)X的搜索范圍Z,隨機初始化參數(shù)X;

2)獲得系統(tǒng)在參數(shù)X下的周期階躍響應數(shù)據(jù),計算動態(tài)性能指標 δ、tr、ts和獎勵函數(shù)R;若滿足優(yōu)化目標,則終止迭代,輸出參數(shù)X;

3)從經(jīng)驗回放集S中隨機批量抽取m個經(jīng)驗樣本,將2)中數(shù)據(jù) {X,δ,tr,ts,R} 存入經(jīng)驗回放集S;

4)計算m個樣本的參數(shù)平均梯度 ?X;

5) σ為高斯白噪聲,α 為自適應學習率,利用梯度下降法更新參數(shù):X=X+α·?X+σ

6)返回步驟2),重復上述步驟。

為了盡可能獲得全局最優(yōu)的參數(shù),本文的參數(shù)自整定及優(yōu)化算法在更新參數(shù)的過程中引入高斯白噪聲,增加參數(shù)的探索度。同時,算法利用經(jīng)驗回放技術,對過去的經(jīng)驗樣本進行隨機批量抽樣,減弱經(jīng)驗數(shù)據(jù)的相關性和不平穩(wěn)分布的影響,增加優(yōu)化過程的準確性和收斂速度。實踐試驗中,為避免算法陷入局部死循環(huán),當可行解的變異系數(shù)小于一定閾值時,即認為算法已獲得局部收斂(近似全局)的相對最優(yōu)解,保留當前結果并重新搜索。

3 算法實驗與對比分析

為了驗證上述基于強化學習的參數(shù)自整定及優(yōu)化算法的可行性和有效性,本文選擇常見的水箱控制系統(tǒng)作為實物實驗對象,對水箱液位控制器進行算法驗證實驗。實驗設備如圖3 所示。

圖3 水箱控制系統(tǒng)實驗設備Fig.3 Experimental equipment of water tank control system

3.1 控制系統(tǒng)模型定性分析

工程實際中的控制系統(tǒng)具有非線性,精準辨識其模型及參數(shù)較為困難,而本文所設計的控制器參數(shù)整定及優(yōu)化算法是無需具體分析被控對象模型的無模型算法。因此,為了貼合工程實際條件,本文只對控制系統(tǒng)模型作定性分析,而不對其參數(shù)進行詳細辨識。

由控制器、變頻器(磁力泵)、水箱組成的水箱液位控制系統(tǒng)原理圖如圖4 所示。其中,變頻器模塊的輸出(流量Q)與控制器模塊的輸出(占空比U)的傳遞函數(shù)可近似為

考慮對象的滯后時間,根據(jù)物料平衡方程,水箱液位H與流量Q的傳遞函數(shù)為

綜上,本文實驗中的水箱液位被控對象為具有二階傳遞函數(shù)的時滯系統(tǒng)。其傳遞函數(shù)為

實物實驗中,因實驗裝置部件設置的不同,部分模型參數(shù)范圍為:T1∈[5,12],T2∈[30,56]。

3.2 增量式PID 控制器的參數(shù)優(yōu)化

工業(yè)過程控制系統(tǒng)通常使用PID 控制作為控制器,增量式PID 算法表達式為

式中:e(k)、u(k)、u(k)分別為采樣k時刻的誤差信號、輸出增量和輸出;Kp、Ki、Kd為PID 控制器待整定的比例系數(shù)、積分系數(shù)和微分系數(shù)。

使用本文提出的基于強化學習的參數(shù)自整定及優(yōu)化算法對水箱實驗設備的增量式PID 控制器進行參數(shù)優(yōu)化實驗,算法參數(shù)設定如下:隨機樣本數(shù)m=10,學習率 α=0.02。考慮系統(tǒng)性能實際可行性,設定優(yōu)化約束如下:系數(shù)范圍Kp∈[6,15],Ki∈[0,0.4],Kd∈[0,4];超調量閾值 Ω1=2%,上升時間閾值 Ω2=20 s,調節(jié)時間閾值 Ω3=38 s。

算法訓練過程中,PID 控制器的系數(shù)隨迭代輪次的變化曲線如圖5 所示。由圖5 可以看出,算法在學習過程的前期,利用較大范圍的參數(shù)變化增加了參數(shù)的探索度,然后通過在線學習經(jīng)驗數(shù)據(jù),使得控制器參數(shù)逐漸收斂至優(yōu)化目標。

圖5 PID 控制器參數(shù)的變化曲線Fig.5 Change curves of PID controller parameters

為了測試所得參數(shù)的實際控制性能,將上述參數(shù)與傳統(tǒng)的Ziegler-Nichols(Z-N)法[18]、基于遺傳算法的參數(shù)優(yōu)化方法[19-20]所得參數(shù)進行實物實驗對比。即在相同輸入條件下,對比不同方法所得控制器參數(shù)的階躍響應性能,對比數(shù)據(jù)如表1和圖6 所示。由對比數(shù)據(jù)可以看出,本文提出的基于強化學習的參數(shù)自整定及優(yōu)化算法可以有效地優(yōu)化常規(guī)PID 控制器的參數(shù),其實驗結果在超調量、調節(jié)時間性能指標上明顯優(yōu)于傳統(tǒng)的Z-N參數(shù)整定法,且省去人工整定參數(shù)的繁瑣過程。此外,相比于基于遺傳算法的參數(shù)優(yōu)化算法,基于強化學習的參數(shù)優(yōu)化算法使用更少的計算機資源,獲得了性能相近的結果。

圖6 不同方法所得參數(shù)對應的PID 控制器階躍響應曲線Fig.6 PID controllers dynamic input response tracking curve of parameters obtained by different methods

表1 不同方法所得控制器參數(shù)在相同階躍輸入下的對比數(shù)據(jù)Table1 Comparison data of controller parameters obtained by different methods with the same step input

3.3 變參數(shù)PID 控制器的參數(shù)優(yōu)化

為了進一步驗證基于強化學習的參數(shù)自整定及優(yōu)化算法的普適性,提升控制器的動態(tài)性能。結合模糊控制理論[21],本文設計了一種動態(tài)變參數(shù)的PID 控制算法,動態(tài)PID 系數(shù)的計算公式為

式中:e為經(jīng)過處理的誤差信號;de為誤差信號e的變化率;K0、I0、D0是PID 系數(shù)的偏置量;Pi、Ii、Di(i=1,2,3)是待確定的參數(shù)。此時,傳統(tǒng)的經(jīng)驗方法難以整定這類改進PID 控制器的參數(shù);使用遺傳算法等最優(yōu)化方法優(yōu)化參數(shù)所需的計算機資源過多,實際應用較為困難。

使用本文算法對上述控制器待確定的參數(shù)進行整定和優(yōu)化。算法參數(shù)設定如下:隨機樣本數(shù)m=15,學習率 α=0.001。基于表1 的結果,令系數(shù)偏置量K0=8.7,I0=0.14,D0=2.2。優(yōu)化約束設定如下:Pi,Ii,Di∈[?1,1],(i=1,2,3),超調量閾值Ω1=2%,上升時間閾值 Ω2=19 s,調節(jié)時間閾值Ω3=33 s。變參數(shù)PID 控制器的各項參數(shù)隨迭代輪次的變化曲線如圖7 所示。本文算法的參數(shù)優(yōu)化結果如表2 所示,對應控制系統(tǒng)的階躍響應動態(tài)性能指標如下:超調量為0.896%、上升時間為17.9 s、調節(jié)時間為31 s。

圖7 優(yōu)化過程的參數(shù)變化曲線Fig.7 Data curves of parameter optimization process

3.4 對比實驗及結果分析

為了進一步測試本文參數(shù)優(yōu)化算法所得控制參數(shù)的動態(tài)性能,將表1 中的Z-N 法和基于強化學習(RL)的算法獲得的固定參數(shù)PID 控制器與表2 的動態(tài)變參數(shù)PID 控制器進行性能對比。對比測試分為兩個部分:動態(tài)輸入下的響應性能對比和穩(wěn)定狀態(tài)下的抗干擾性能對比。

表2 變參數(shù)PID 控制器的參數(shù)優(yōu)化結果Table2 Parameter optimization results of variable parameter PID controller

1)動態(tài)輸入下的響應性能對比。控制系統(tǒng)在給定相同的動態(tài)階躍輸入條件下,3 種控制器的響應性能對比如圖8 所示。由圖8 可以看出,相比Z-N 法的參數(shù),本文算法所得參數(shù)具有更小的超調量、更好的響應跟蹤性能。同時,本文算法優(yōu)化后的動態(tài)變參數(shù)PID 控制器具有最小的超調量、最優(yōu)的響應跟蹤性能,驗證了本文算法應用于不同類型控制器的有效性和普適性。

圖8 不同控制器的動態(tài)輸入跟蹤曲線Fig.8 Dynamic input tracking curves for different controllers

2)穩(wěn)定狀態(tài)下的抗干擾性能對比。控制系統(tǒng)進入穩(wěn)定狀態(tài)后,在t=10 s 時刻,對被控系統(tǒng)施加一定的干擾,3 種控制器在相同擾動條件下的對比曲線如圖9 所示。

圖9 不同控制器的抗擾動曲線Fig.9 Anti-disturbance curves of different controllers

由圖9 可以看出,3 種控制器受到擾動影響后,被控量恢復至穩(wěn)定狀態(tài)所用的時間相近,ZN 法整定的PID 控制器恢復時間相對最短,但其恢復過程中的超調量最大,變參數(shù)PID 控制器的抗干擾綜合性能最優(yōu)。

4 結束語

本文針對傳統(tǒng)PID 算法在含時延、非線性的控制系統(tǒng)應用過程中,參數(shù)整定繁瑣、控制效果較差等問題[22],提出了一種基于強化學習的參數(shù)自整定及優(yōu)化算法,可以實現(xiàn)在線整定和優(yōu)化控制器參數(shù)。水箱液位控制系統(tǒng)實驗的結果表明,基于強化學習的參數(shù)自整定及優(yōu)化算法省去了依賴經(jīng)驗且耗時較長的人工調參過程,比遺傳算法等最優(yōu)化方法使用了更少的計算機資源,獲得近似最優(yōu)的控制器參數(shù),提升控制系統(tǒng)的動態(tài)性能。與固定參數(shù)的PID 控制器相比,經(jīng)本文算法優(yōu)化的變參數(shù)PID 控制器具有超調量小、響應跟蹤性能好的優(yōu)點。本文所提出的算法有望應用于工業(yè)過程控制系統(tǒng)的控制器參數(shù)整定及控制優(yōu)化等相關問題。

本文提出的算法是基于PID 控制算法進行優(yōu)化和改進,雖能在一定程度上保證控制系統(tǒng)的控制穩(wěn)定性,但其控制效果也因此受限于傳統(tǒng)的PID 算法。在非PID 原理的控制器參數(shù)優(yōu)化應用過程,算法無法確定控制器輸出的安全性。同時,本文未在優(yōu)化算法的評價函數(shù)中考慮擾動恢復性能等指標,無法從理論上確保優(yōu)化所得參數(shù)的整體性能最優(yōu)性。

因此,增加獎勵函數(shù)的評估因素,或改變控制算法的底層策略結構,是今后的研究方向。例如,結合預測控制算法[23-24]或由深度神經(jīng)網(wǎng)絡[25]組成的“黑盒”模型,取代PID 算法框架,使用基于深度強化學習[26-27]的優(yōu)化算法進一步優(yōu)化控制系統(tǒng)的性能等。

猜你喜歡
優(yōu)化實驗
記一次有趣的實驗
超限高層建筑結構設計與優(yōu)化思考
微型實驗里看“燃燒”
民用建筑防煙排煙設計優(yōu)化探討
關于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 亚洲国产看片基地久久1024| 色综合天天操| 国产经典免费播放视频| 国产女人喷水视频| 亚亚洲乱码一二三四区| 国内精品一区二区在线观看| 亚洲无限乱码一二三四区| 亚洲人成网站日本片| 国产一区三区二区中文在线| 国产福利在线观看精品| 伊人中文网| 亚洲国产日韩一区| www中文字幕在线观看| 亚洲精品国产成人7777| 亚洲男女在线| 亚洲欧美日本国产专区一区| 亚洲最大福利视频网| 精品国产成人高清在线| 老熟妇喷水一区二区三区| 精品国产亚洲人成在线| 在线观看国产黄色| 亚洲无线观看| 在线视频97| 多人乱p欧美在线观看| 4虎影视国产在线观看精品| 亚洲视频a| 国产成人综合欧美精品久久| 精品综合久久久久久97超人| 中文字幕调教一区二区视频| 国产精品浪潮Av| 国产午夜无码片在线观看网站 | 美女无遮挡免费视频网站| 国产成人高精品免费视频| 亚洲精品欧美重口| 久久久久人妻一区精品色奶水| 欧美午夜网站| 精品欧美一区二区三区在线| 亚洲专区一区二区在线观看| 亚洲成人一区二区三区| 国产福利微拍精品一区二区| 日韩在线影院| 成年人久久黄色网站| 免费在线国产一区二区三区精品| 女人av社区男人的天堂| 国产香蕉一区二区在线网站| 综1合AV在线播放| 亚洲欧美自拍中文| 视频在线观看一区二区| 四虎综合网| 国产丝袜一区二区三区视频免下载| 色窝窝免费一区二区三区| 亚洲国产成人精品一二区| 午夜毛片免费看| 2021国产在线视频| 91视频日本| 欧美亚洲中文精品三区| 日本黄色a视频| 人妻丝袜无码视频| 国产91九色在线播放| 国产欧美在线观看精品一区污| 国产亚洲欧美在线人成aaaa| 色哟哟色院91精品网站| 日韩成人高清无码| 香蕉久人久人青草青草| 亚洲国产欧美中日韩成人综合视频| 欧美午夜视频在线| 婷婷丁香在线观看| 手机永久AV在线播放| 亚洲欧美精品一中文字幕| 国产美女免费| 五月丁香伊人啪啪手机免费观看| 四虎在线高清无码| 黄色免费在线网址| 五月天香蕉视频国产亚| 在线免费看片a| 综合色区亚洲熟妇在线| 国产精品香蕉在线观看不卡| 99热这里只有精品免费国产| 九色综合伊人久久富二代| 在线欧美日韩| 99精品视频九九精品| 中文国产成人精品久久一|