999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于Off-Policy的無模型輸出數(shù)據(jù)反饋H∞控制方法

2021-11-13 08:01:42范家璐柴天佑
自動化學(xué)報 2021年9期
關(guān)鍵詞:飛機策略方法

李 臻 范家璐 姜 藝 柴天佑

1.東北大學(xué)流程工業(yè)綜合自動化國家重點實驗室 沈陽 110819

魯棒控制理論經(jīng)過多年的完善與發(fā)展,已經(jīng)趨于成熟.所謂的魯棒控制是指在擾動能量一定的情況下,仍能保證一定性能指標(biāo)的控制方法.H∞控制算法是魯棒控制的一種,通過最小化H∞指標(biāo)來達(dá)到魯棒控制的目的[1-3].文獻(xiàn)[4-5]中指出H∞控制和零和博弈存在內(nèi)在聯(lián)系.即把輸入和擾動看作相互博弈的兩個參與者,一般在定義指標(biāo)時使輸入為指標(biāo)的最小參與者,擾動為最大參與者.對于系統(tǒng)的H∞控制可以歸結(jié)為求解博弈黎卡提方程(Game algebraic Riccati equation,GARE)[5-6].H∞控制雖然能保證參數(shù)在一定波動范圍內(nèi)的穩(wěn)定性,但需要完整的系統(tǒng)動態(tài)模型.這大大限制了H∞的應(yīng)用范圍.

隨著信息科學(xué)技術(shù)的發(fā)展,與生活息息相關(guān)的實際過程,如冶金、化工、電力、物流運輸?shù)确矫姘l(fā)生了重大變化,復(fù)雜的生產(chǎn)設(shè)備與大量不同種類的傳感器同時應(yīng)用使工業(yè)過程趨于復(fù)雜.因此,這些過程在難以建立準(zhǔn)確的數(shù)學(xué)模型的同時卻產(chǎn)生儲存著大量反映系統(tǒng)動態(tài)的運行數(shù)據(jù).數(shù)據(jù)驅(qū)動的控制方法在此基礎(chǔ)上產(chǎn)生.經(jīng)過多年的發(fā)展,數(shù)據(jù)驅(qū)動的方法主要利用這些數(shù)據(jù)實現(xiàn)設(shè)計控制器,預(yù)測評估系統(tǒng)狀態(tài),在線優(yōu)化決策,甚至診斷故障[7].而數(shù)據(jù)驅(qū)動控制是指在不使用被控過程數(shù)學(xué)模型的信息的情況下,直接利用被控系統(tǒng)的數(shù)據(jù)設(shè)計控制器的控制理論和方法,且經(jīng)過嚴(yán)謹(jǐn)?shù)財?shù)學(xué)論證后可以保證控制器滿足一定的魯棒性與收斂性[8].

強化學(xué)習(xí)通過啟發(fā)機制來學(xué)習(xí)智能體與環(huán)境的交互策略,以優(yōu)化在交互過程中的長期收益的算法[6].在控制領(lǐng)域中,強化學(xué)習(xí)常用來解決自適應(yīng)最優(yōu)控制問題[9-12].其中,Doya[13]首次將基于強化學(xué)習(xí)的控制器應(yīng)用于連續(xù)系統(tǒng)中.在近期的研究中,強化學(xué)習(xí)應(yīng)用于更加有針對性的復(fù)雜工業(yè)過程中[14-19],尤其是對難以建模的復(fù)雜工業(yè)過程進(jìn)行了針對性的研究[15-17].文獻(xiàn)[12]對數(shù)據(jù)驅(qū)動的迭代優(yōu)化控制方法進(jìn)行了綜述性研究.文獻(xiàn)[14]將Q-learning 應(yīng)用于考慮丟包問題的網(wǎng)絡(luò)環(huán)境中,實現(xiàn)了一種數(shù)據(jù)驅(qū)動的浮選過程控制方法.文獻(xiàn)[15]考慮了輸入受限情況下的數(shù)據(jù)驅(qū)動浮選控制問題,并將強化學(xué)習(xí)應(yīng)用在浮選過程的雙率控制中.文獻(xiàn)[20]針對非線性系統(tǒng)跟蹤控制問題,提出了一種基于Q-learning 的直接求解評價函數(shù)的方法,避免了求解更復(fù)雜的HJBE(Hamilton-Jacobi-Bellman equation).文獻(xiàn)[21]針對輸出調(diào)節(jié)控制問題提出了一種新型基于Qlearning 的控制方法.文獻(xiàn)[22]針對離散時間非線性系統(tǒng)基于事件的最優(yōu)調(diào)節(jié)控制問題,提出了一種基于啟發(fā)式動態(tài)規(guī)劃的事件驅(qū)動方法.文獻(xiàn)[23]對非線性連續(xù)時間系統(tǒng)自適應(yīng)評價控制問題進(jìn)行了綜述性研究.Al-Tamimi 等[24]將Q-learning 算法應(yīng)用于H∞控制問題.

Off-policy 學(xué)習(xí)算法是強化學(xué)習(xí)的一種,其主要特點是在學(xué)習(xí)過程中,Off-policy 算法定義了兩個不同的策略,一種是用來產(chǎn)生數(shù)據(jù)的策略,另一種是求解得到的目標(biāo)策略[25-27].而On-policy 算法中,兩種策略相同,需要將每次迭代所求得的算法代入實際環(huán)境中來產(chǎn)生學(xué)習(xí)所用的數(shù)據(jù).因此,與Onpolicy 算法相比,Off-policy 算法更具可用性.同時與以Q-learning 算法[24]為代表的On-policy 學(xué)習(xí)方法相比,Off-policy 算法可以消除在學(xué)習(xí)過程中由探測噪聲所產(chǎn)生的誤差[25].換句話說,Off-policy 學(xué)習(xí)算法是一種無偏的學(xué)習(xí)方法.在基于Off-policy算法的連續(xù)系統(tǒng)H∞控制的基礎(chǔ)上,文獻(xiàn)[25] 將Off-policy 算法引入了離散線性系統(tǒng)H∞控制問題中,提出了需要狀態(tài)反饋值的離散線性系統(tǒng)控制算法.其通過考察狀態(tài)變化與值函數(shù)變化的關(guān)系,構(gòu)造了一種與探測噪聲無關(guān)的貝爾曼方程,進(jìn)而提出了一種無模型狀態(tài)反饋Off-policy 的H∞控制算法.

上述算法由于忽略了在某些應(yīng)用條件下關(guān)鍵狀態(tài)變量無法反饋這一問題,降低了算法在實際應(yīng)用環(huán)境下的可用范圍.因此,本文提出一種基于Offpolicy 的數(shù)據(jù)驅(qū)動輸出反饋H∞控制算法,針對模型未知的離散線性系統(tǒng)模型,實現(xiàn)無限時域上工作點附近鎮(zhèn)定控制的同時對能量有限的噪聲進(jìn)行抑制.區(qū)別與狀態(tài)反饋問題,本文的反饋量是輸出,本文通過構(gòu)造了新的值函數(shù),避免了直接使用狀態(tài)變量.由于無法直接使用狀態(tài)作為反饋,因而構(gòu)造了一種增廣數(shù)據(jù)向量,來解決輸出反饋控制問題.在線性模型依賴在線策略迭代(Policy iteration,PI)狀態(tài)反饋算法的基礎(chǔ)上,將結(jié)合了系統(tǒng)歷史輸出數(shù)據(jù)與歷史輸入數(shù)據(jù)的增廣數(shù)據(jù)向量作為反饋量,使在線狀態(tài)反饋算法轉(zhuǎn)換為模型依賴在線策略迭代輸入輸出反饋算法.通過引入輔助項的方法將模型依賴On-policy 輸入輸出反饋算法轉(zhuǎn)換為無模型Offpolicy 輸入輸出反饋控制算法.由于采用了Offpolicy 算法,該算法具有結(jié)構(gòu)簡單,可以得到理論上的最優(yōu)值的特點[25].除此之外,與On-policy 算法相比,Off-policy 算法的可以實現(xiàn)離線學(xué)習(xí),克服了On-policy 算法只能在線學(xué)習(xí)需要頻繁和環(huán)境交互的問題.在本文的最后,針對飛機短時間周期飛行姿態(tài)控制模型進(jìn)行了仿真實驗,以驗證算法的有效性.

1 研究背景

1.1 問題描述

1.2 博弈黎卡提方程

2 數(shù)據(jù)驅(qū)動在線策略迭代學(xué)習(xí)算法

2.1 狀態(tài)反饋在線策略迭代學(xué)習(xí)算法

2.2 一種由輸入輸出數(shù)據(jù)所組成的增廣向量

結(jié)合引理1 可以看出,根據(jù)輸入輸出反饋數(shù)據(jù)與目標(biāo)策略所得到的決策結(jié)果和根據(jù)狀態(tài)數(shù)據(jù)與中間策略所得到的決策結(jié)果相同.

2.3 輸入輸出數(shù)據(jù)反饋在線策略迭代學(xué)習(xí)算法

3 Off-policy 輸入輸出數(shù)據(jù)反饋優(yōu)化算法

4 仿真結(jié)果及分析

在本節(jié)中,以短時間周期飛機飛行姿態(tài)穩(wěn)定控制模型為例,對算法3 的有效性與可靠性進(jìn)行考察.H∞算法在該模型下的有效性與必要性已經(jīng)經(jīng)過驗證[29-30],本文將仿真結(jié)果展示的重點放在收斂性的考察.在收斂性方面,本文從初值的選擇與學(xué)習(xí)最優(yōu) 策略所用數(shù)據(jù)的影響兩個方面來考察算法3.

4.1 模型描述

在短時間段內(nèi)飛機平穩(wěn)飛行時,主要考慮迎角、俯仰速角率和升降舵偏角三者對飛機飛行姿態(tài)造成的影響.迎角是指飛機的速度矢量與機翼弦線之間的夾角.俯仰角速率是指飛行器繞橫軸旋轉(zhuǎn)的角速度.升降舵偏角是指飛機升降舵和平尾之間的夾角.其中,迎角和俯仰角速率可以直接衡量飛機的姿態(tài)變化.升降舵偏角的變化會造成升降舵所受到的氣動力矩發(fā)生變化,進(jìn)而影響飛機的飛行姿態(tài).因此,將迎角、俯仰角速率和升降舵偏角三者作為系統(tǒng)的狀態(tài)變量.將控制升降舵變化的升降舵執(zhí)行器電壓作為控制變量.考慮到飛機在平穩(wěn)飛行時,迎角易受到風(fēng)向與風(fēng)速的干擾,將迎角所受到的擾動作為擾動變量.由于飛機的俯仰速率測量比較困難,因此可以將迎角與升降舵偏角作為輸出變量.飛機飛行示意圖如圖1所示[30].

圖1 飛機飛行示意圖Fig.1 Aircraft flight diagram

4.2 仿真實驗

圖2 三組實驗參數(shù)收斂曲線Fig.2 Three groups of experimental parameters convergence curves

5 結(jié)束語

本文針對考慮擾動作用的線性離散系統(tǒng),提出了一種基于Off-Policy的無模型輸入輸出數(shù)據(jù)反饋H∞控制方法.該算法針對性解決了狀態(tài)數(shù)據(jù)反饋算法難以應(yīng)用于狀態(tài)無法測得的應(yīng)用環(huán)境這一問題,通過引入一種由輸入輸出數(shù)據(jù)組成的增廣數(shù)據(jù)向量將狀態(tài)反饋在線策略迭代算法轉(zhuǎn)換成輸入輸出反饋算法.并通過引入輔助項的方法,最終將輸入輸出反饋在線策略迭代算法轉(zhuǎn)換為無模型輸入輸出反饋Off-policy 算法.該算法和On-policy 算法所學(xué)習(xí)得出的策略相同,且該算法在學(xué)習(xí)過程中所用的數(shù)據(jù)默認(rèn)和在迭代過程中所更新的策略所產(chǎn)生的數(shù)據(jù)之間存在差異,這為數(shù)據(jù)驅(qū)動的離線算法和在迭代更新策略穩(wěn)定的情況下再更新策略提供了可能.最后,通過F-16 飛行器仿真模型驗證了該算法的收斂性與有效性.在本篇文章的基礎(chǔ)上,仍有一些十分重要的問題值得進(jìn)行研究,如 輸入受限情況下的控制問題.考慮在網(wǎng)絡(luò)控制中,存在反饋數(shù)據(jù)丟包情況下的控制問題.更進(jìn)一步將本文所研究的內(nèi)容延展到非線性系統(tǒng)中,以提高本算法的應(yīng)用范圍與控制效果.

圖3 三組實驗范數(shù)收斂曲線Fig.3 Three groups of experimental parameters convergence curves

猜你喜歡
飛機策略方法
飛機失蹤
例談未知角三角函數(shù)值的求解策略
我說你做講策略
“拼座飛機”迎風(fēng)飛揚
高中數(shù)學(xué)復(fù)習(xí)的具體策略
乘坐飛機
神奇飛機變變變
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久香蕉国产线看观| 日韩av无码精品专区| 国产91小视频| 真实国产乱子伦视频| 国产日韩精品欧美一区灰| 456亚洲人成高清在线| 宅男噜噜噜66国产在线观看| 在线看国产精品| 精品国产亚洲人成在线| 亚洲成人精品| 亚洲欧美另类色图| 亚洲国产日韩在线观看| 亚洲第一在线播放| 91精品国产麻豆国产自产在线| 欧美日本激情| 免费国产黄线在线观看| 亚洲av片在线免费观看| 精品一区二区三区无码视频无码| 99久视频| 2020极品精品国产| 国产中文一区a级毛片视频| a级毛片在线免费| 亚洲 欧美 日韩综合一区| 国产网站免费| 日本一区二区不卡视频| 欧美一区二区精品久久久| 亚洲自偷自拍另类小说| 视频二区亚洲精品| 亚洲精品第五页| 高清不卡一区二区三区香蕉| 色综合综合网| 中文字幕在线观看日本| 一区二区影院| 青青草国产免费国产| 国产农村妇女精品一二区| 色窝窝免费一区二区三区| 亚洲Av综合日韩精品久久久| 无码福利视频| 国产va欧美va在线观看| 免费毛片a| 国产精鲁鲁网在线视频| 久久精品亚洲热综合一区二区| 在线免费无码视频| 久久久久久久97| www.国产福利| 免费中文字幕一级毛片| 在线观看欧美精品二区| 国产剧情伊人| 日韩福利视频导航| 日韩午夜福利在线观看| 国产黄色片在线看| 又黄又爽视频好爽视频| 国产精品美女免费视频大全| 激情五月婷婷综合网| 亚洲AV一二三区无码AV蜜桃| 亚洲第一区精品日韩在线播放| 亚洲日韩第九十九页| 欧美a在线视频| 凹凸国产熟女精品视频| 国产一二视频| 四虎成人在线视频| 丁香婷婷激情网| 亚洲IV视频免费在线光看| 天天综合网色| 久久免费视频播放| 乱色熟女综合一区二区| 日本精品视频一区二区| 亚洲国产精品日韩av专区| 98超碰在线观看| 国产精品无码一二三视频| 欧美日韩一区二区在线播放| 免费AV在线播放观看18禁强制| 国产伦精品一区二区三区视频优播 | 五月天香蕉视频国产亚| 91精品国产91久无码网站| 九九热这里只有国产精品| 在线观看91精品国产剧情免费| 欧美.成人.综合在线| 韩国福利一区| 亚洲国产日韩一区| 婷婷综合亚洲| 成人综合在线观看|