999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自適應動態規劃算法在飛行器追逃中的應用

2016-12-21 02:24:06劉念劉春生孫景亮
飛行力學 2016年6期
關鍵詞:飛機對策模型

劉念, 劉春生, 孫景亮

(南京航空航天大學 自動化學院, 江蘇 南京 211106)

?

自適應動態規劃算法在飛行器追逃中的應用

劉念, 劉春生, 孫景亮

(南京航空航天大學 自動化學院, 江蘇 南京 211106)

針對飛行器追逃對抗的二人零和微分對策問題,提出基于數據的積分策略迭代自適應動態規劃算法,以求解數學模型未知系統的控制律。該算法利用固定時段內有效的狀態和輸入信息,建立數據模型,并對其進行基于值函數和控制策略的算法迭代,在平面攔截系統完全未知的情況下得到追逃雙方的近似最優策略。仿真結果表明,所得到的雙方控制策略能在有限界內無限接近最優解,驗證了所提出算法的有效性。

追逃問題; 零和微分對策; 策略迭代; 自適應動態規劃

0 引言

隨著時代的進步,航空航天技術逐步進入一個嶄新的發展時期。提高空軍的作戰能力已經成為世界眾多軍事強國追求的共同目標,空中軍事競爭也漸漸成為一個備受關注的方向,這涉及到無人機格斗[1]、衛星攔截[2]、導彈制導[3]等多方面的問題。飛行器追逃問題被描述為具有利益沖突的雙方之間的對抗,可以在廣義上代表此類雙方對抗型最優控制問題。

近年來,追逃攔截制導律的研究吸引了國內外學術界的廣泛關注。對于這類沖突對抗問題,微分對策理論被引入并用于解決雙方或多方最優策略問題[4]。多數制導律求解的研究都基于系統精確的模型信息,而實際系統不可避免地會受到多種因素的影響,很大程度上造成其模型未知或部分未知,例如追逃攔截中目標的機動時間常數未知問題[5]。而設計控制律所依賴的動力學模型信息,將直接影響制導性能,從而決定了能否成功攔截。對于模型未知系統的控制問題,已有不少學者發表了相關的文章。文獻[6]對一類穩定未知系統基于工作點上的階躍響應信息構造參考模型,實現自適應控制。文獻[7]對于一類模型未知系統采用模糊神經網絡辨識其動力學特性,從而實現控制。不同于構造參考模型或進行模型辨識的研究方法,自適應動態規劃(ADP)是一種基于數據的具有學習和優化能力的智能控制方法[8],它的引入對模型未知系統的控制研究有了進一步的深入。關于博弈類問題,文獻[9]考慮系統的部分動態未知情況,利用ADP求解微分對策鞍點解。文獻[10]基于ADP利用內外迭代步驟對系統完全未知的微分對策求解。

本文針對一類平面導彈攔截飛機問題,在未知系統模型情況下,利用狀態和輸入數據信息驅動迭代步驟,基于ADP算法求解追逃雙方的最優控制策略。該算法的顯著優點是不需要系統的模型信息,避免了系統模型的辨識。

1 飛行器追逃問題描述

飛行器追逃問題主要涉及兩方:追捕者和逃避者。盡管攔截問題是非線性的,但從初始視線(LOS)的原理去線性分析[11]也是合理的。圖1為導彈攔截飛機的平面示意圖。圖中,x軸沿初始視線方向;M和A分別為追擊者(導彈)和逃避者(飛機);φ和(x,y)分別為雙方的彈道傾角和位置坐標;aM,aA分別為垂直于速度uM,uA的加速度。

圖1 導彈攔截飛機平面示意圖Fig.1 Planar interception geometry betweenmissile and aircraft

(1)

這里,飛機相對于導彈的位置在y軸的投影為x1=y=yA-yM;x2為相對橫向速度;x3和x4分別為飛機和導彈的橫向加速度;τA,τM分別為飛機和導彈的機動時間常數。此外,導彈和飛機的橫向指令加速度分別設為控制向量u(t)和v(t)。基于線性二次微分對策理論,式(1)可以寫為:

考慮到環境的復雜性,以及雙方自身受到的各種影響,追逃攔截系統的準確模型一般難以獲得。這里,假設對策系統模型完全未知,即認為A∈Rn×n,B1∈Rn×m,B2∈Rn×q為未知常值矩陣,系統寫為:

(2)

定義系統性能指標為:

(3)

式中:Q=QT≥0;R=RT>0;γ為衡量導彈和飛機相對機動能力的權重參數。導彈的目的是保證系統漸近穩定的同時,通過控制向量u縮小性能指標(3),而飛機的目的則與之相反。

若存在控制策略u=u*和v=v*滿足J(x,u*,v)≤J(x,u*,v*)≤J(x,u,v*),則稱u*和v*為微分對策鞍點,即追逃雙方的最優對策。由最優控制理論可知:

(4)

(5)

式中:K*和G*分別為追逃雙方的最優反饋增益矩陣;P*為對稱正定矩陣,由求解代數Riccati方程得到:

(6)

根據假設條件,即等式(6)中系統的動特性矩陣A,B1,B2完全未知,這給求解過程造成了極大的困難,利用傳統的求解方式是無法解決的。因此,本文采用基于數據的積分策略迭代自適應動態規劃算法來求解此類問題。

2 系統模型未知的最優策略求解

2.1 基于積分策略迭代ADP的算法

迭代ADP算法是由初始穩定的控制策略開始, 通過求解一系列李雅普諾夫等式, 不斷改進控制策略使其達到最優的過程。

首先,假設初始穩定的控制矩陣K0∈Rm×n,G0∈Rq×n,定義迭代過程中值函數V=xTPkx,以及對策雙方控制策略u=-Kkx和v=Gkx。將系統(2)重新寫為如下形式:

(7)

式中:Ak=A-B1Kk+B2Gk。對系統(7)的值函數求導,并在區間[t,t+δt]內積分得:

x(t+δt)TPkx(t+δt)-x(t)TPkx(t)

(8)

可以看出,對比式(6),式(8)在完全未知對策系統動態A,B1,B2時,僅需要利用[t,t+δt]時間段內的狀態和輸入數據信息,就可求解雙方近似最優策略。算法具體步驟如下:

步驟1:初始化。取u=-K0x+e1,v=G0x+e2作為初始輸入(e1,e2作為探測信號,保證系統存在持續激勵);

步驟2:策略評價和提高。利用式(8) 求解Pk,Kk+1及Gk+1;

步驟3:判斷。如果‖Pk-Pk-1‖≤ε(常數ε>0為預設臨界值),則u=-Kkx,v=Gkx作為對策雙方的近似最優策略,否則返回步驟2。

2.2 基于數據的算法實現

定義以下兩個操作:

由張量積形式,式(8)中各部分有以下形式,其中,vec(·)為將矩陣變換為列向量的線性變換:

xTQkx=(x?x)vec(Qk)

(xT?uT)(In?R)]vec(Kk+1)

γ2(xT?vT)]vec(Gk+1)

此外,對于正整數l,定義矩陣:

,

同樣有Ixu及Ixv(0≤t0

對于任意給定的穩定增益矩陣Kk和Gk,式(8)有以下矩陣形式:

(9)

其中:

Y=-Ixxvec"(Qk)

基于最小二乘理論,若X列滿秩,式(9)有唯一解:

(10)

算法實現流程圖如圖2所示。

圖2 算法流程圖Fig.2 Flowchart of algorithm

3 仿真驗證

本節將對上述提出的算法用于導彈攔截飛機問題中雙方對策系統模型完全未知的情況進行仿真驗證。針對第1節中描述的導彈-飛機攔截模型,初始條件為:飛機相對于導彈的位置關于y軸的投影為2 000 m;相對橫向速度為200 m/s;飛機和導彈雙方橫向加速度分別為60 m/s2和-40 m/s2,Q和R分別為合適維數的單位矩陣;τT=τM=0.5;γ=3.5。

仿真過程中,0~2 s 內探索信號e1,e2分別選擇為[12]:

式中:i=1,…,100;ω1i,ω2i為[-500,500]中的任意值。在[0,2]s內,間隔0.01 s進行狀態采集和信息輸入,計算得到δxx,Ixx,Ixu,Ixv,在t=2 s開始算法迭代,經過4次迭代后P4,K5,G5值分別為:

P4=

而利用包含全部動態信息的式(6)直接求解系統的代數Riccati方程,得到最優值P*,K*,G*如下:

P*=

可見,算法在4次迭代后收斂到最優解,Pk,Kk,Gk在迭代過程中與最優值P*,K*,G*差的范數如圖3所示。

圖3 Pk,Kk,Gk與最優值P*,K*,G*的收斂度Fig.3 Convergence of Pk,Kk,Gk to the optimal values P*,K*,G*

由圖可知,在迭代過程中,Pk,Kk,Gk的值不斷向最優值收斂直至完全達到,且收斂速度較快,時效性較好。系統的各狀態隨時間響應的曲線及雙方控制輸入曲線分別如圖4和圖5所示。

圖4 追逃攔截系統狀態曲線Fig.4 Curves for states of interception system

圖5 雙方控制輸入曲線Fig.5 Curves for the control inputs of both sides

由圖4和圖5可知,系統于0~2 s內計算并建立狀態及輸入數據模型,2 s后開始收斂,如果定義成功攔截的標準為1 m以內,則導彈在7.7 s左右成功地攔截到飛機目標,并且系統狀態滿足最終一致漸近穩定。0~2 s雙方的控制輸入為保證系統持續激勵的余弦信號和,2 s 后其開始收斂為0,過程中無較大抖動,且飛機的最大制導指令不大,避免了飛機的指令被限幅。仿真結果驗證了在追逃攔截問題中系統模型完全未知時,所提出的算法是有效的。

4 結束語

本文從追逃問題出發,建立了基于零和微分對策的線性攔截模型,采用基于數據的積分策略迭代自適應動態規劃算法,求解對應的代數Riccati方程;該算法的顯著優點是放松了對系統模型已知的要求,不僅可以用于飛行器追逃,還可應用于更廣泛的對抗型模型。由于本文算法基于線性追逃對抗模型,這與實際模型存在一定的誤差,故在進一步的研究中,需要針對具體的非線性模型展開討論。

[1] 祝小平,周洲.作戰無人機的發展與展望[J].飛行力學, 2005,23(2):1-4.

[2] 馬丹山,王明海,鮮勇,等.逆軌道攔截衛星軌道設計與優化[J].飛行力學,2009,27(5):63-65.

[3] 尹永鑫,楊明,吳鵬.空地導彈滑模制導方法研究[J].飛行力學,2010,28(1):44-46.

[4] Fu L,Wang X.The analysis of differential games theory and present status [C]//2010 International Conference on Intelligent Control and Information Processing.Dalian,2010:290-294.

[5] 陳興林,花文華.機動時間常數未知目標的攔截方法研究[J].航天控制,2011,29 (4):8-13.

[6] 曾海燕.一類未知系統的低階模型參考自適應控制[C]//2007中國控制與決策學術年會論文集.沈陽,2007:199-202.

[7] 任海鵬,劉丁.一類模型未知系統的辨識和混沌化控制[J].控制理論與應用,2003,20(5):737-740.

[8] 張化光,張欣,羅艷紅,等.自適應動態規劃綜述 [J].自動化學報,2013,39 (4):303-311.

[9] Vrabie D,Lewis F.Adaptive dynamic programming for online solution of a zero-sum differential game[J].Journal of Control Theory and Applications,2011,9(3):353-360.

[10] Praveen P,Bhasin S.Online partially model-free solution of two-player zero sum differential games [C]//Preprints of the 10th IFAC International Symposium on Dynamics and Control of Process Systems.Mumbai,India,2013:696-701.

[11] Zarchan P.Tactical and strategic missile guidance[M].Fifth Edition.USA:American Institute of Aeronautics and Astronautics,2007:889.

[12] Jiang Y,Jing Z P.Robust approximate dynamic programming and global stabilization with nonlinear dynamic uncertainties[C]//In Proceeding of Joint IEEE Conference on Decision and Control and European Control Conference.Orlando,FL,USA,2011:115-120.

(編輯:方春玲)

Application of adaptive dynamic programming algorithm in the pursuit-evasion of aircraft

LIU Nian, LIU Chun-sheng, SUN Jing-liang

(College of Automation Engineering, NUAA, Nanjing 211106, China)

To solve the problem of two-player zero-sum differential games in the pursuit-evasion of aircraft, a novel approach for obtaining the control laws of a system with unknown mathematic model is proposed using data-based integral policy iteration adaptive dynamic programming (ADP). The algorithm uses available datderailmenta of state and input on fixed time interval to build up the data models. By using them, iterations are conducted based on the value function and control strategies to get the proximate optimal strategies of both under the circumstance of a completely unknown planar interception system. Simulation results show that both control strategies are approximate to their optimal solutions infinitely in a limited range and confirm the effectiveness of the proposed method.

pursuit-evasion; zero-sum differential game; policy iteration; adaptive dynamic programming

2016-04-11;

2016-09-05;

時間:2016-09-22 14:55

國家自然科學基金資助(61473147)

劉念(1991-),女,江蘇鎮江人,碩士研究生,研究方向為微分對策在飛行控制中的應用。

V249.1

A

1002-0853(2016)06-0045-04

猜你喜歡
飛機對策模型
一半模型
飛機失蹤
環球時報(2022-05-30)2022-05-30 15:16:57
診錯因 知對策
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
對策
面對新高考的選擇、困惑及對策
“拼座飛機”迎風飛揚
當代陜西(2019年11期)2019-06-24 03:40:28
防治“老慢支”有對策
乘坐飛機
主站蜘蛛池模板: AV熟女乱| 波多野结衣无码AV在线| 伊人丁香五月天久久综合| 亚洲综合精品香蕉久久网| 五月婷婷综合网| 欧美日韩免费| 色爽网免费视频| av尤物免费在线观看| AⅤ色综合久久天堂AV色综合| 国产成人欧美| 天堂成人在线视频| 亚洲天堂区| 精品国产网| 国产老女人精品免费视频| 久久大香香蕉国产免费网站| 午夜视频在线观看免费网站| 日韩一二三区视频精品| 成人毛片免费观看| 亚洲天堂日韩在线| 亚洲国产精品无码久久一线| 亚洲天堂首页| 国产午夜人做人免费视频中文 | 日本成人精品视频| 91青青草视频| 天天综合亚洲| 国产草草影院18成年视频| 日韩欧美国产三级| 91色综合综合热五月激情| 99免费视频观看| 日韩免费毛片视频| 国产特级毛片| 97人人模人人爽人人喊小说| 国产一区二区丝袜高跟鞋| 强奷白丝美女在线观看| 国产91九色在线播放| 久久久久无码精品国产免费| 人妻91无码色偷偷色噜噜噜| 91国内视频在线观看| 国产欧美日韩综合一区在线播放| a级毛片免费在线观看| 国产一级视频久久| 国产人在线成免费视频| 亚洲精品在线观看91| 狠狠色噜噜狠狠狠狠奇米777| 3p叠罗汉国产精品久久| 少妇露出福利视频| 在线观看91香蕉国产免费| 亚洲欧州色色免费AV| 波多野结衣爽到高潮漏水大喷| 亚洲一区毛片| 久久黄色一级视频| 自偷自拍三级全三级视频| 99re热精品视频国产免费| 综合色88| 欧美日本视频在线观看| 国产一区二区三区视频| 国产对白刺激真实精品91| 在线国产91| 国产无人区一区二区三区| 在线另类稀缺国产呦| 伊人久久精品无码麻豆精品| 亚洲第一国产综合| 丰满的少妇人妻无码区| 九色国产在线| 毛片久久网站小视频| 亚洲国产成人精品无码区性色| 久久伊伊香蕉综合精品| 日本精品视频一区二区| 国产日产欧美精品| 国产区91| 狠狠亚洲五月天| 伊人久久综在合线亚洲2019| 国产精品免费福利久久播放| 国产在线观看91精品亚瑟| 精品99在线观看| 成人在线不卡| 亚洲福利视频一区二区| 九九热这里只有国产精品| 亚洲精品成人片在线播放| 精品少妇人妻av无码久久| 日韩欧美中文字幕在线韩免费 | 国产成人毛片|