999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

動態(tài)規(guī)劃最優(yōu)控制在非線性系統(tǒng)中的應用

2016-03-25 16:50:28陳瑤張剛
計算技術與自動化 2015年4期

陳瑤張剛

摘要:應用一種新的自適應動態(tài)最優(yōu)化方法(ADP),在線實現(xiàn)對非線性連續(xù)系統(tǒng)的最優(yōu)控制。首先應用漢密爾頓函數(shù)(HamiltonJacobiBellman, HJB)求解系統(tǒng)的最優(yōu)控制,并應用神經(jīng)網(wǎng)絡BP算法對漢密爾頓函數(shù)中的性能指標進行估計,進而得到非線性連續(xù)系統(tǒng)的最優(yōu)控制。同時引進一種新的自適應算法,基于參數(shù)誤差,在線實現(xiàn)對系統(tǒng)進行動態(tài)最優(yōu)求解,而且通過李亞普諾夫方法對參數(shù)收斂情況也進行詳細的分析。最后,用仿真結果來驗證所提出的方法的可行性。

關鍵詞:最優(yōu)控制;動態(tài)規(guī)劃;神經(jīng)網(wǎng)絡;自適應算法;漢密爾頓函數(shù)

中圖分類號:TP273.1文獻標識碼:A

1 引言

最優(yōu)控制是最近幾年國內(nèi)外新起的一個研究領域,最優(yōu)控制就是尋找最節(jié)能最經(jīng)濟的控制策略。50年代,美國數(shù)學家Bellman為了解決非線性最優(yōu)控制問題提出了動態(tài)規(guī)劃方法(Dynamic Programming)[1]。動態(tài)最優(yōu)化方法就是將最優(yōu)化問題分多級討論,尋求每一級的最優(yōu)策略,從而達到全局最優(yōu)。然而在實際問題中對于大量存在的非線性系統(tǒng),需要求解漢密爾頓函數(shù)(HJB),由于維數(shù)問題,求解函彌爾頓函數(shù)是個很難解決的問題。

強化學習(Reinforcement learning)[2]是基于生物學習的新型理論。通過比強化學習和動態(tài)規(guī)劃,Werbos[3]提出了新的自適應動態(tài)規(guī)劃方法,從而解決了離散系統(tǒng)的動態(tài)最優(yōu)求解的“維數(shù)災難”問題[1, 4]。然而傳統(tǒng)的增強學習方法一般用來解決離散系統(tǒng),實際問題往往是連續(xù)的。

文獻[5]將增強學習方法和動態(tài)規(guī)劃方法結合,提出了自適應動態(tài)規(guī)劃方法(Adaptive dynamic Programming)。Werbos[6]基于增強學習方法,提出評價和執(zhí)行網(wǎng)對離散系統(tǒng)進行動態(tài)最優(yōu)求解。Lewis[7]提出了一種新的基于神經(jīng)網(wǎng)絡的自適應動態(tài)最優(yōu)方法對離散非線性系統(tǒng)進行離線求解。

本文基于一種新的自適應動態(tài)規(guī)劃算法在線解決了非線性系統(tǒng)的最優(yōu)控制問題。首先應用HJB對非線性系統(tǒng)進行最優(yōu)求解,進而基于神經(jīng)網(wǎng)絡方法對最優(yōu)控制中的性能指標進行估計,即應用評價結構解決了動態(tài)最優(yōu)控制問題,同時省去了傳統(tǒng)最優(yōu)控制求解問題中的執(zhí)行機構,很大程度上縮短了計算機計算的時間。文中引用了一種新的自適應算法[8, 9]在線求得基于神經(jīng)網(wǎng)絡的評價網(wǎng)的權重參數(shù)。最后本文對估計權重做了基于李亞普諾夫的收斂性分析,很大程度上提高了論文所提出理論的使用價值。

5結論

引進一種新的自適應算法對非線性連續(xù)系統(tǒng)進行自適應動態(tài)最優(yōu)求解。不同Werbos[6]提出的評價執(zhí)行結構,本文基于辨識評價結構,在線對連非線性系統(tǒng)進行最優(yōu)求解。用神經(jīng)網(wǎng)絡逼近性能指標,而且基于自適應估計誤差,在線估計神經(jīng)網(wǎng)絡權重。比現(xiàn)有文獻所用梯度法和迭代法收斂速度更快,而且收斂效果更加良好。仿真結果更加有力的證明所提出方法的有效性。

參考文獻

[1]B. R. E, Dynamic programming, Princeton: Princeton University Press, 1957.

[2]SUTTON R S,BARTO A G.Reinforcement learning: an introduction. Cambridge Univ Press, 1998.

[3]WERBOS P J.Approximate dynamic programming for real-time control and neural modeling, Handbook of intelligent control: Neural[J].fuzzy, and adaptive approaches,1992, 15: 493-525.

[4]DREYFUS S E,LAW A M.Art and theory of dynamic programming[M].New York: Academic Press, 1977,56.

[5]MURRAY J J,COX C J,LENDARIS G G, et al. Adaptive dynamic programming, Systems, Man, and Cybernetics, Part C: Applications and Reviews[J]. IEEE Transactions on, 2002, 32(2): 140-153.

[6]WERBOS P J.A menu of designs for reinforcement learning over time[J].Neural networks for control, 1990:67-95.

[7]ABUKHALAF M,LEWIS F L.Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach[J].Automatica, 2005, 41(5): 779-791.

[8]NA J,HERRMANN G,REN X., et al. Robust adaptive finitetime parameter estimation and control of nonlinear systems[J].IEEE International Symposium on in Intelligent Control (ISIC), 2011: 1014-1019.

[9]Na. Jing, Ren. Xuemei, Zhang. Dongdong, Adaptive control for nonlinear purefeedback systems with highorder sliding mode observer[J]. IEEE transactions on neural networks and learning systems, 2013, 24(3): 370-382.

[10]VAMVOUDAKIS K G,LEWIS F L.Online actorcritic algorithm to solve the continuoustime infinite horizon optimal control problem[J]. Automatica, 2010,46(5):878-888.

[11]VRABIE D,LEWIS F.Neural network approach to continuoustime direct adaptive optimal control for partially unknown nonlinear systems[J]. Neural Networks, 2009,22(3): 237-246.

[12]DIERKS T,THUMATI B T,JAGANNATHAN S.Optimal control of unknown affine nonlinear discretetime systems using offlinetrained neural networks with proof of convergence[J].Neural Networks, 2009,22(5):851-860.

[13]LIU D,WEI Q.Finite approximation error based optimal control approach for discretetime nonlinear systems[J].IEEE Transactions on Cybernetics,2013,43(2):779-789.

[14]BHASIN S,KAMALAPURKAR R,JOHNSON M, et al.A novel actorcriticidentifier architecture for approximate optimal control of uncertain nonlinear systems[J].Automatica,2013,49(1):82-92, .

[15]NEVISTI V,PRIMBS J A.Constrained nonlinear optimal control: a converse HJB approach,1996.

主站蜘蛛池模板: 美女免费黄网站| 免费激情网址| jijzzizz老师出水喷水喷出| 精品乱码久久久久久久| 国产白浆视频| 真人高潮娇喘嗯啊在线观看| 亚洲国产成熟视频在线多多| 国产尤物视频在线| av一区二区三区高清久久| 三区在线视频| 免费大黄网站在线观看| 成人无码一区二区三区视频在线观看| 少妇精品久久久一区二区三区| 欧美一级色视频| 欧美精品1区| 国产精品视频导航| 精品国产Av电影无码久久久 | 经典三级久久| 婷婷综合在线观看丁香| 免费一级毛片在线播放傲雪网| 亚洲精品第一在线观看视频| 性做久久久久久久免费看| 国产欧美在线视频免费| 这里只有精品在线播放| 毛片网站免费在线观看| 青青草国产精品久久久久| 国内精品久久人妻无码大片高| 亚洲国产看片基地久久1024| 久久99久久无码毛片一区二区 | 国产簧片免费在线播放| 91国语视频| 久久免费观看视频| 国产精品理论片| 日韩高清成人| 国产成人精品高清在线| 日本福利视频网站| 国产成人1024精品| 欧美一级特黄aaaaaa在线看片| 久久亚洲国产一区二区| 欧美激情第一欧美在线| 大学生久久香蕉国产线观看| 无码免费视频| 久久这里只有精品66| 一本大道香蕉中文日本不卡高清二区| 亚洲欧美日本国产综合在线| 秋霞国产在线| 婷婷激情亚洲| 青青青视频蜜桃一区二区| 无码一区中文字幕| 99re在线观看视频| 欧美h在线观看| 美女国内精品自产拍在线播放| 国产精品免费入口视频| 免费va国产在线观看| 亚洲精品国产首次亮相| 孕妇高潮太爽了在线观看免费| 欧美成人精品一区二区| 在线观看亚洲人成网站| 日本在线免费网站| 伊人91在线| 亚洲天堂网视频| 国产精品亚洲一区二区三区z| 亚洲精选无码久久久| 久久人人97超碰人人澡爱香蕉| 久久6免费视频| 欧美在线网| 伊在人亚洲香蕉精品播放| 亚洲综合专区| 欧美视频二区| 婷婷综合缴情亚洲五月伊| 国产裸舞福利在线视频合集| 亚洲天天更新| 国产91视频免费| 国产精品网址在线观看你懂的| 手机在线国产精品| 试看120秒男女啪啪免费| 亚洲国产成人麻豆精品| 手机在线国产精品| 国产精品久线在线观看| 国产无码网站在线观看| 日本高清在线看免费观看| 国产成人乱无码视频|