999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隨機(jī)線性二次問題中一類改進(jìn)的強(qiáng)化學(xué)習(xí)方法

2024-11-11 00:00:00高晉鵬
科技創(chuàng)新與應(yīng)用 2024年32期

摘" 要:隨機(jī)線性二次問題是一類重要且研究較為成熟的隨機(jī)控制問題。其中,部分信息條件下的隨機(jī)線性二次問題是指系統(tǒng)的狀態(tài)方程或代價(jià)函數(shù)中存在未知系數(shù)的情形,該文在前人工作的基礎(chǔ)上,改進(jìn)部分信息條件下線性二次問題的最優(yōu)控制在線強(qiáng)化學(xué)習(xí)算法。所研究系統(tǒng)方程和代價(jià)函數(shù)的系數(shù)都存在未知量,在此條件下,算法通過可觀察的樣本軌跡和回報(bào)函數(shù)求得最優(yōu)控制以及代價(jià)函數(shù)中的未知系數(shù),進(jìn)一步地,我們給出迭代過程收斂性與控制穩(wěn)定性的證明。

關(guān)鍵詞:隨機(jī)線性二次問題;部分信息;李雅普諾夫方程;強(qiáng)化學(xué)習(xí);動(dòng)態(tài)規(guī)劃原理

中圖分類號(hào):O211.63" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號(hào):2095-2945(2024)32-0142-04

Abstract: Random linear quadratic problems are important and mature stochastic control problems. Among them, the stochastic linear quadratic problem under partial information conditions refers to the situation where there are unknown coefficients in the state equation or cost function of the system. Based on previous work, this paper improves the optimal control online reinforcement learning algorithm for linear quadratic problems under partial information conditions. The coefficients of the studied system equations and cost function have unknown quantities. In this condition, the algorithm obtains the optimal control and the unknown coefficients in the cost function through the observable sample trajectory and the reward function. At the same time, the convergence and stability of the iterative process are proved.

Keywords: random linear quadratic problem; partial information; Lyapunov equation; reinforcement learning; dynamic programming principle

強(qiáng)化學(xué)習(xí)來(lái)源于早期的學(xué)習(xí)控制問題,不同于其他機(jī)器學(xué)習(xí)技術(shù),諸如監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)方法專注于在不研究問題隱含結(jié)構(gòu)的情況下求解最優(yōu)化回報(bào)函數(shù)。試驗(yàn)-糾偏,以及行為影響具有持續(xù)性是強(qiáng)化學(xué)習(xí)的主要特征,即最優(yōu)策略的習(xí)得通過不斷試驗(yàn)與誤差矯正,系統(tǒng)行為不僅僅影響當(dāng)前回報(bào),同時(shí)影響后續(xù)回報(bào)。強(qiáng)化學(xué)習(xí)中的控制者需要根據(jù)當(dāng)前的經(jīng)驗(yàn)給出最優(yōu)控制(即使得所定義的代價(jià)函數(shù)最小的控制),同時(shí)基于反饋探索新的策略,在優(yōu)化與探索之間建立平衡是強(qiáng)化學(xué)習(xí)當(dāng)前面臨的最主要挑戰(zhàn)。

最優(yōu)控制是控制理論中的重要問題,當(dāng)精確模型尚未建立時(shí),可以考慮用直接策略與間接策略尋找最優(yōu)控制。間接策略目的在于探究系統(tǒng)的信息,并基于此求解最優(yōu)控制;直接策略繞開對(duì)系統(tǒng)進(jìn)行精確建模,直接求解。

最優(yōu)控制。強(qiáng)化學(xué)習(xí)是一種直接控制策略,通過持續(xù)學(xué)習(xí)回報(bào)函數(shù),使得控制不斷趨于最優(yōu)。相較而言,間接策略需要先對(duì)系統(tǒng)建模再確定控制,本質(zhì)上使問題求解變得復(fù)雜,文獻(xiàn)[1-2]介紹了強(qiáng)化學(xué)習(xí)方面的若干最新進(jìn)展。

由于大量非線性問題可以通過線性問題近似化處理,線性二次問題是一類理論與實(shí)際中都非常重要的最優(yōu)控制問題,,關(guān)于其詳細(xì)論述參見文獻(xiàn)[3]。本文提出一類通過強(qiáng)化學(xué)習(xí)方法求解部分信息線性二次最優(yōu)控制問題的算法。它改進(jìn)了文獻(xiàn)[4]工作中對(duì)未知系數(shù)的限制,給出已知信息條件更少情況下的求解算法。

1" 研究對(duì)象與預(yù)備工作

考慮如下的時(shí)不變隨機(jī)線性動(dòng)態(tài)控制系統(tǒng)

式中:系數(shù)A,C∈Rn×n,B,D∈Rn×m為常數(shù)矩陣;W(·)是一維標(biāo)準(zhǔn)布朗運(yùn)動(dòng)。系統(tǒng)狀態(tài)X(·)是n維向量, 控制u是m維向量。X(t)=x為確定初始狀態(tài)。為表示簡(jiǎn)單,用[A,C;B,D]表示系統(tǒng)(1)。同時(shí),記Sn(S,S)為Rn×n上的對(duì)稱(半正定,正定)矩陣集合。

定義1系統(tǒng)[A,C;B,D]稱為均值平方穩(wěn)定,若存在常數(shù)矩陣K∈Rm×n使得下列方程的唯一解

假設(shè)1:系統(tǒng)(1)是均值平方穩(wěn)定的,即

χ[A,C;B,D]≠?。

下面的引理1給出了系統(tǒng)(1)存在穩(wěn)定子的等價(jià)條件,證明可參見文獻(xiàn)[5]。

引理1:矩陣K∈Rm×n為系統(tǒng)[A,C;B,D]的穩(wěn)定子當(dāng)且僅當(dāng)存在矩陣P∈S使得

(A+BK)ТP+P(A+BK)+(C+DK)ТP(C+DK)lt;0.(3)

此時(shí),對(duì)任意Q∈Sn(S,S),李雅普諾夫方程

(A+BK)ТP+P(A+BK)+(C+DK)ТP(C+DK)+Q=0.(4)

存在唯一解P∈Sn(S,S)。

當(dāng)系統(tǒng)[A,C;B,D]均值平方穩(wěn)定,定義其允許控制集Uad={u(·)∈L(Rm):u(·)是穩(wěn)定的}。

本文中考慮如下形式的二次代價(jià)函數(shù)

假設(shè)2:R,Q是適當(dāng)維數(shù)的常數(shù)正定矩陣,且R是給定的,Q是未知的。

(SLQ問題)對(duì)于t≥0,x∈Rn,求滿足條件的u*(·)∈Uad,使得

J(t,x,u*(·))=infJ(t,x,u(·))V(t,x),(6)

式中:V(t,x)稱為SLQ問題的值函數(shù)。SLQ問題稱為適定的若V(t,x)gt;-∞。一個(gè)適定的問題稱為可解的若存在控制u*(·)∈Uad,使得J(t,x,u*(·))V(t,x)。此時(shí),u*(·)稱為最優(yōu)控制,X*(·)稱為最優(yōu)軌跡,(X*(·),u*(·))稱為最優(yōu)二元組。下述引理證明可參見文獻(xiàn)[5]。

引理2:設(shè)矩陣P∈S滿足下列李雅普諾夫方程

(A+BK)ТP+P(A+BK)+(C+DK)ТP(C+DK)+KТ RK+Q=0," " " " " " " " " "(7)

式中:K=-(R+DТPD)-1(BТP+DТPC),則u(·)=KX(·)為SLQ問題的最優(yōu)控制,且V(t,x)=xТPx。進(jìn)一步,貝爾曼動(dòng)態(tài)規(guī)劃原理對(duì)任意Δtgt;0成立,

由引理2,把V(t,x)的求解轉(zhuǎn)化為求矩陣P,在式(5)中R,Q均已知,系統(tǒng)(1)中A未知的條件下,參考文獻(xiàn)[4]給出僅依賴局部狀態(tài)軌跡X(·)解SLQ問題的在線算法。

2" 改進(jìn)的強(qiáng)化學(xué)習(xí)方法

沿著文獻(xiàn)[4]中算法思路,進(jìn)一步得出在系統(tǒng)(1)中A及代價(jià)函數(shù)(5)中Q均未知的情況下求解SLQ問題的在線算法,需要觀察得到的已知量為狀態(tài)軌跡X(·)及回報(bào)函數(shù)r(s,X)=X(s)ТQX(s)+u(s)ТRu(s),進(jìn)一步,未知參數(shù)Q可以同時(shí)求解。

算法1:SLQ問題的迭代求解。

引理3:當(dāng)假設(shè)2成立,系統(tǒng)[A,C;B,D]有穩(wěn)定子K(i),則算法1中的(10)式等價(jià)于李雅普諾夫迭代

3" 結(jié)束語(yǔ)

本文在前人工作的基礎(chǔ)上,改進(jìn)了部分信息條件下隨機(jī)線性二次最優(yōu)控制問題的在線強(qiáng)化學(xué)習(xí)方法。所研究系統(tǒng)方程和代價(jià)函數(shù)的系數(shù)都存在未知量,在此條件下,算法通過可觀察的樣本軌跡和回報(bào)函數(shù)求得最優(yōu)控制以及代價(jià)函數(shù)中的未知系數(shù)。進(jìn)一步地,我們證明了算法的收斂性與收斂過程中控制的穩(wěn)定性。

參考文獻(xiàn):

[1] WANG H, ZARIPHOPOULOU T, ZHOU X Y. Reinforcement learning in continuous time and space: A stochastic control approach[J].JOURNAL OF MACHINE LEARNING RESEARCH,2020,21:1-34.

[2] JIA Y,ZHOU X Y. Policy evaluation and temporal-difference learning in continuous time and space: A martingale approach[J].Journal of Machine Learning Research,2022,23(154):1-55.

[3] YONG J,ZHOU X Y. Stochastic controls: hamiltonian systems and HJB equations[M]. New York, NY: Springer,1999.

[4] LI N,LI X, PENG J, et al. Stochastic linear quadratic optimal control problem: A reinforcement learning method [J].IEEE Trans, Autom. Control,2022,67(9):5009-2022.

[5] MA R,ZHOU X Y. Linear matrix inequalities, Riccati equations, and indefinite stochastic linear quadratic controls[J].IEEE Transactions on Automatic Control,2000,45(6):1131-1143.

主站蜘蛛池模板: 国产亚洲现在一区二区中文| 欧美a在线看| 国产免费久久精品99re不卡| 欧美a在线看| 国内精品小视频福利网址| 日日摸夜夜爽无码| 国产h视频免费观看| 日韩精品无码免费一区二区三区| 一级看片免费视频| 手机在线国产精品| 国产一区在线视频观看| 91麻豆精品国产91久久久久| 日韩乱码免费一区二区三区| 国产熟睡乱子伦视频网站| 99热亚洲精品6码| 免费看久久精品99| 国产亚洲精| 亚洲高清在线播放| 亚洲国产天堂久久综合226114| 亚洲天堂在线视频| 中国一级特黄大片在线观看| 欧美午夜视频在线| 国产69精品久久| 99这里只有精品在线| 国产精品99久久久| 色哟哟色院91精品网站| 色婷婷亚洲十月十月色天| 一本久道久久综合多人| 综合社区亚洲熟妇p| 亚洲人成人无码www| 人妻熟妇日韩AV在线播放| 欧美综合中文字幕久久| 亚洲精品中文字幕午夜 | 日本日韩欧美| 国产午夜一级毛片| 久久无码av一区二区三区| 国产迷奸在线看| 美女被操黄色视频网站| 国产爽歪歪免费视频在线观看| 日本伊人色综合网| 四虎AV麻豆| 国产新AV天堂| 一级黄色网站在线免费看| jijzzizz老师出水喷水喷出| 国产精品免费电影| 久久中文字幕不卡一二区| 天天综合天天综合| 国产性精品| 色老二精品视频在线观看| 国产极品美女在线观看| 伊人网址在线| 欧洲高清无码在线| 高清久久精品亚洲日韩Av| 99久久精品视香蕉蕉| 99热这里只有精品国产99| 国产精品第一区在线观看| 日韩精品一区二区三区swag| 无码精油按摩潮喷在线播放| 国产综合另类小说色区色噜噜 | 成·人免费午夜无码视频在线观看| 日韩不卡免费视频| 99无码熟妇丰满人妻啪啪 | 亚洲精品欧美重口| 91久久精品日日躁夜夜躁欧美| 最新国产精品鲁鲁免费视频| 亚洲天堂伊人| 国产精品美女自慰喷水| 亚洲成人黄色在线| 欧美国产日韩在线| 日韩一区二区三免费高清| 亚洲国产av无码综合原创国产| 天天综合亚洲| 最新国产午夜精品视频成人| 免费国产无遮挡又黄又爽| 广东一级毛片| 亚洲精品卡2卡3卡4卡5卡区| 91精品久久久无码中文字幕vr| 99久久性生片| 国产日本欧美亚洲精品视| 国产女人在线视频| 久久99国产综合精品女同| 亚洲综合网在线观看|