999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Q學習的有限時間隨機線性二次最優控制

2020-06-08 03:01:04羅敏娜崔黎黎
關鍵詞:系統

王 濤, 羅敏娜, 王 娜, 崔黎黎

(1. 沈陽師范大學 計算機與數學基礎教學部, 沈陽 110034; 2. 沈陽師范大學 軟件學院, 沈陽 110034)

0 引 言

在控制領域中,求解隨機線性二次(SLQ)最優控制問題是一個非常活躍和有前景的課題,近些年來引起廣泛的關注[1-3]。與確定性情況相似,SLQ最優控制問題依賴于隨機代數Riccati方程(SARE)[4-5]。在一些文獻中已經給出求解SARE相應的算法。例如,考慮到線性矩陣不等式的可解性等價于SARE的可解性,引進基于半定規劃的計算方法求解權重矩陣不定的SLQ最優控制問題[6]。根據一般化差分Riccati方程,Rami等人[7]得到權重矩陣不定的離散時間線性二次最優控制集。利用拉格朗日乘子定理得到了線性終端狀態約束條件下不定的SLQ最優線性狀態反饋解[8]。針對有限時間不定的平均場SLQ最優控制問題,Ni等人[9]給出依賴帶有平穩性條件和凸性條件的線性平均場正倒向隨機差分方程的開環最優控制。采用基于路徑積分的自適應評價算法求解仿射非線性隨機系統對應的最優控制策略[10]。在權重矩陣不定的情況下,Li等人[11]中討論了帶有泊松過程的隨機哈密頓系統解的存在性和唯一性條件。通過提出一種基于樣本數據的數字方法,充分利用正倒向隨機微分方程求解隨機最優控制問題[12]。Zhang和Yan[13]基于倒向隨機微分方程給出混合最優控制。

從上面介紹的方法可以發現,求解SLQ最優控制問題需要系統參數的信息,但許多實際問題的數學模型很難建立,如何在模型參數部分未知的條件下求解有限時間SLQ最優控制問題已成為隨機最優控制領域的研究熱點。本文采用Q學習迭代算法求解有限時間SLQ最優控制問題,該方法充分利用系統狀態信息,避免了系統參數部分未知的限制。

1 問題描述

考慮如下隨機線性離散時間系統

(1)

設系統(1)對應的性能指標函數為

(2)

若對于任意初始狀態x0,存在一個控制序列使性能指標函數(2)達到最小值,則稱隨機線性二次最優控制問題是可達的。本文將在線性反饋控制uk=Lkxk,Lk∈Rm×n中尋找最優控制序列,稱常值實矩陣Lk為控制增益矩陣。下面通過系統變換將有限時間SLQ最優控制問題轉化為相應的確定性最優控制問題。

給定線性反饋控制uk=Lkxk,帶入式(1)得

(3)

相應地,性能指標函數(2)轉化為

若對任意初始狀態x0,性能指標函數滿足

則稱隨機線性二次最優控制問題是適應的。下面給出隨機線性二次最優控制問題適應性條件。

證明 證明過程參考引理1[14]。

引理2 如果隨機線性二次最優控制問題是可達的,則最優控制增益矩陣序列為

(4)

證明 通過矩陣拉格朗日乘子算法獲得最優控制增益矩陣序列,首先構造拉格朗日函數:

注釋1 由引理2知,最優控制增益矩陣序列依賴于系統模型參數A,B,C,D。雖然參數A,B是已知的,但參數C,D是未知的,通過求解SARE獲得最優控制增益矩陣序列是行不通的。

2 Q學習算法的推導和收斂性證明

2.1 Q函數的引入

根據貝爾曼最優性原理知,

Q函數定義為

(5)

根據引理1,最優性能指標函數可以表示為

將式(6)帶入式(5),Q函數又可以寫為

這里定義H矩陣為

則Q函數簡化為

最優控制增益矩陣表示為

注釋2最優控制增益矩陣序列僅依賴H矩陣,完全擺脫了系統模型參數未知的限制。下面通過Q學習迭代算法估計H矩陣序列。

2.2 Q學習算法的推導

給定系統初始狀態xk和初始控制u0(xk),設Q0(xk,uk)=0,則

當i≥1時,Q學習迭代算法在

(7)

(8)

之間迭代。

下面給出Q學習迭代算法(7)、(8)的等價形:

(10)

2.3 Q學習迭代算法收斂性證明

本文提出的Q學習迭代算法是建立在值迭代算法基礎之上,下面給出相應的值迭代算法

引理4Q學習迭代算法式(9)和式(10)等價于

(13)

證明 式(9)等號右端最后一項可以寫為

將上式帶入式(9),考慮到系統狀態xk的任意性,則

根據Q學習迭代算法知,

(15)

將式(15)帶入式(14),則

(16)

在式(15)基礎上,可以得到

結合式(16),有

(17)

根據式(10)和式(16),可以得出

(18)

將式(18)帶入式(17),則式(17)可以轉化為式(13)。

證明 根據式(11),知

因為系統狀態xk的任意性,所以

根據式(11)和函數極值的必要條件,則

(20)

將式(20)帶入式(19),則式(19)可以轉化為

3 Q學習迭代算法的實現

在實際問題中,由于系統狀態依賴于噪聲,所以系統狀態軌跡具有很強的隨機性。為了實現Q學習迭代算法,下面通過系統變換將隨機Q學習迭代算法轉化為確定性迭代算法。

給定系統初始狀態x0和控制增益矩陣LN-1,LN-2,…,Lk,則

在系統狀態轉移過程中,控制增益矩陣在不同的時間區間上不同,當控制增益矩陣序列LN-1,LN-2,…,Lk+1確定后,控制增益矩陣Lk可由下式計算得到。

根據式(21)和式(22),式(9)等號左邊又可寫為

式(9)等號右邊又可以寫為

4 仿真研究

本節將通過一個仿真例子說明Q學習迭代算法的有效性。考慮二階隨機線性離散時間系統

通過求解SARE獲得最優控制增益矩陣序列需要系統參數A,B,C,D的全部信息,下面在系統模型參數部分未知的條件下采用Q學習迭代算法求解最優控制增益矩陣序列。

圖1 控制增益矩陣L1曲線Fig.1 Control gain matrixL1curves

圖2 控制增益矩陣L0曲線Fig.2 Control gain matrixL0curves

從以上仿真結果可以看出,在系統模型參數部分未知的情況下,通過Q學習迭代算法獲得的控制增益矩陣序列收斂到各自的最優值,這就說明了Q學習迭代算法是有效的。

5 結 論

求解SLQ最優控制問題通常需要系統參數全部信息,但在實際問題中,得到系統參數信息是一件很困難的事情。當系統模型參數部分未知時,如何獲得最優控制變得十分有意義。因為系統參數的信息包含在系統狀態中,所以Q學習算法充分利用系統狀態信息求解最優控制。最后通過仿真實例說明了Q學習算法的有效性。

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 精品国产成人a在线观看| 91无码网站| 中文字幕欧美成人免费| 国产内射在线观看| 国产在线精彩视频论坛| 好吊色妇女免费视频免费| 国产成人亚洲精品蜜芽影院| 国产一国产一有一级毛片视频| 日韩无码视频播放| 沈阳少妇高潮在线| 久久综合激情网| 又黄又爽视频好爽视频| 欧美.成人.综合在线| 亚洲中文字幕97久久精品少妇| 国产一级毛片在线| 欧美成人精品在线| 69精品在线观看| P尤物久久99国产综合精品| 99热这里只有精品在线观看| 99视频在线精品免费观看6| 99久久精品免费看国产电影| 国产精品国产三级国产专业不| 国产丝袜精品| 亚洲二三区| 亚洲国内精品自在自线官| 亚洲日本精品一区二区| 国产综合日韩另类一区二区| 国产精品福利社| 色噜噜狠狠狠综合曰曰曰| 日本欧美午夜| 中文字幕亚洲乱码熟女1区2区| 国产女人在线| 极品私人尤物在线精品首页 | 欧美日韩高清| 伊人久久大香线蕉aⅴ色| 欧美日韩国产在线观看一区二区三区 | 青草视频在线观看国产| 久久天天躁狠狠躁夜夜躁| 中文字幕亚洲综久久2021| 国产中文一区a级毛片视频| 欧美日韩国产精品va| 亚洲无码37.| 国产精品污污在线观看网站| 女人毛片a级大学毛片免费| 亚洲第一福利视频导航| 永久成人无码激情视频免费| 免费亚洲成人| 亚洲天堂久久久| 永久毛片在线播| 国产成人精品男人的天堂下载 | 国产精品人莉莉成在线播放| 亚洲国产系列| 亚洲天堂网2014| 日本在线欧美在线| 毛片在线播放a| 国产精品网曝门免费视频| 在线国产你懂的| 中国一级特黄视频| 麻豆国产原创视频在线播放| 日韩在线1| 久久青草免费91线频观看不卡| 综合人妻久久一区二区精品 | 黄色三级网站免费| 国产日本一区二区三区| 亚洲人成网站在线播放2019| 亚洲娇小与黑人巨大交| 亚洲日韩国产精品综合在线观看| 亚洲中文字幕在线精品一区| 欧美精品v欧洲精品| 久久免费精品琪琪| 九九热视频精品在线| 伊人久久大香线蕉成人综合网| 欧美日韩国产系列在线观看| 亚洲一区二区三区香蕉| 亚洲欧美一区二区三区蜜芽| 99精品视频九九精品| 中文国产成人精品久久一| 亚洲成人播放| 亚洲精品成人片在线播放| 999精品在线视频| 97se亚洲综合在线天天| 欧美a级在线|