劉念, 劉春生, 孫景亮
(南京航空航天大學 自動化學院, 江蘇 南京 211106)
?
自適應動態規劃算法在飛行器追逃中的應用
劉念, 劉春生, 孫景亮
(南京航空航天大學 自動化學院, 江蘇 南京 211106)
針對飛行器追逃對抗的二人零和微分對策問題,提出基于數據的積分策略迭代自適應動態規劃算法,以求解數學模型未知系統的控制律。該算法利用固定時段內有效的狀態和輸入信息,建立數據模型,并對其進行基于值函數和控制策略的算法迭代,在平面攔截系統完全未知的情況下得到追逃雙方的近似最優策略。仿真結果表明,所得到的雙方控制策略能在有限界內無限接近最優解,驗證了所提出算法的有效性。
追逃問題; 零和微分對策; 策略迭代; 自適應動態規劃
隨著時代的進步,航空航天技術逐步進入一個嶄新的發展時期。提高空軍的作戰能力已經成為世界眾多軍事強國追求的共同目標,空中軍事競爭也漸漸成為一個備受關注的方向,這涉及到無人機格斗[1]、衛星攔截[2]、導彈制導[3]等多方面的問題。飛行器追逃問題被描述為具有利益沖突的雙方之間的對抗,可以在廣義上代表此類雙方對抗型最優控制問題。
近年來,追逃攔截制導律的研究吸引了國內外學術界的廣泛關注。對于這類沖突對抗問題,微分對策理論被引入并用于解決雙方或多方最優策略問題[4]。多數制導律求解的研究都基于系統精確的模型信息,而實際系統不可避免地會受到多種因素的影響,很大程度上造成其模型未知或部分未知,例如追逃攔截中目標的機動時間常數未知問題[5]。而設計控制律所依賴的動力學模型信息,將直接影響制導性能,從而決定了能否成功攔截。對于模型未知系統的控制問題,已有不少學者發表了相關的文章。文獻[6]對一類穩定未知系統基于工作點上的階躍響應信息構造參考模型,實現自適應控制。文獻[7]對于一類模型未知系統采用模糊神經網絡辨識其動力學特性,從而實現控制。不同于構造參考模型或進行模型辨識的研究方法,自適應動態規劃(ADP)是一種基于數據的具有學習和優化能力的智能控制方法[8],它的引入對模型未知系統的控制研究有了進一步的深入。關于博弈類問題,文獻[9]考慮系統的部分動態未知情況,利用ADP求解微分對策鞍點解。文獻[10]基于ADP利用內外迭代步驟對系統完全未知的微分對策求解。
本文針對一類平面導彈攔截飛機問題,在未知系統模型情況下,利用狀態和輸入數據信息驅動迭代步驟,基于ADP算法求解追逃雙方的最優控制策略。該算法的顯著優點是不需要系統的模型信息,避免了系統模型的辨識。
飛行器追逃問題主要涉及兩方:追捕者和逃避者。盡管攔截問題是非線性的,但從初始視線(LOS)的原理去線性分析[11]也是合理的。圖1為導彈攔截飛機的平面示意圖。圖中,x軸沿初始視線方向;M和A分別為追擊者(導彈)和逃避者(飛機);φ和(x,y)分別為雙方的彈道傾角和位置坐標;aM,aA分別為垂直于速度uM,uA的加速度。

圖1 導彈攔截飛機平面示意圖Fig.1 Planar interception geometry betweenmissile and aircraft
(1)
這里,飛機相對于導彈的位置在y軸的投影為x1=y=yA-yM;x2為相對橫向速度;x3和x4分別為飛機和導彈的橫向加速度;τA,τM分別為飛機和導彈的機動時間常數。此外,導彈和飛機的橫向指令加速度分別設為控制向量u(t)和v(t)。基于線性二次微分對策理論,式(1)可以寫為:

考慮到環境的復雜性,以及雙方自身受到的各種影響,追逃攔截系統的準確模型一般難以獲得。這里,假設對策系統模型完全未知,即認為A∈Rn×n,B1∈Rn×m,B2∈Rn×q為未知常值矩陣,系統寫為:
(2)
定義系統性能指標為:
(3)
式中:Q=QT≥0;R=RT>0;γ為衡量導彈和飛機相對機動能力的權重參數。導彈的目的是保證系統漸近穩定的同時,通過控制向量u縮小性能指標(3),而飛機的目的則與之相反。
若存在控制策略u=u*和v=v*滿足J(x,u*,v)≤J(x,u*,v*)≤J(x,u,v*),則稱u*和v*為微分對策鞍點,即追逃雙方的最優對策。由最優控制理論可知:
(4)
(5)
式中:K*和G*分別為追逃雙方的最優反饋增益矩陣;P*為對稱正定矩陣,由求解代數Riccati方程得到:
(6)
根據假設條件,即等式(6)中系統的動特性矩陣A,B1,B2完全未知,這給求解過程造成了極大的困難,利用傳統的求解方式是無法解決的。因此,本文采用基于數據的積分策略迭代自適應動態規劃算法來求解此類問題。
2.1 基于積分策略迭代ADP的算法
迭代ADP算法是由初始穩定的控制策略開始, 通過求解一系列李雅普諾夫等式, 不斷改進控制策略使其達到最優的過程。
首先,假設初始穩定的控制矩陣K0∈Rm×n,G0∈Rq×n,定義迭代過程中值函數V=xTPkx,以及對策雙方控制策略u=-Kkx和v=Gkx。將系統(2)重新寫為如下形式:
(7)
式中:Ak=A-B1Kk+B2Gk。對系統(7)的值函數求導,并在區間[t,t+δt]內積分得:
x(t+δt)TPkx(t+δt)-x(t)TPkx(t)
(8)

可以看出,對比式(6),式(8)在完全未知對策系統動態A,B1,B2時,僅需要利用[t,t+δt]時間段內的狀態和輸入數據信息,就可求解雙方近似最優策略。算法具體步驟如下:
步驟1:初始化。取u=-K0x+e1,v=G0x+e2作為初始輸入(e1,e2作為探測信號,保證系統存在持續激勵);
步驟2:策略評價和提高。利用式(8) 求解Pk,Kk+1及Gk+1;
步驟3:判斷。如果‖Pk-Pk-1‖≤ε(常數ε>0為預設臨界值),則u=-Kkx,v=Gkx作為對策雙方的近似最優策略,否則返回步驟2。
2.2 基于數據的算法實現
定義以下兩個操作:
由張量積形式,式(8)中各部分有以下形式,其中,vec(·)為將矩陣變換為列向量的線性變換:
xTQkx=(x?x)vec(Qk)

(xT?uT)(In?R)]vec(Kk+1)

γ2(xT?vT)]vec(Gk+1)
此外,對于正整數l,定義矩陣:
,
同樣有Ixu及Ixv(0≤t0 對于任意給定的穩定增益矩陣Kk和Gk,式(8)有以下矩陣形式: (9) 其中: Y=-Ixxvec"(Qk) 基于最小二乘理論,若X列滿秩,式(9)有唯一解: (10) 算法實現流程圖如圖2所示。 圖2 算法流程圖Fig.2 Flowchart of algorithm 本節將對上述提出的算法用于導彈攔截飛機問題中雙方對策系統模型完全未知的情況進行仿真驗證。針對第1節中描述的導彈-飛機攔截模型,初始條件為:飛機相對于導彈的位置關于y軸的投影為2 000 m;相對橫向速度為200 m/s;飛機和導彈雙方橫向加速度分別為60 m/s2和-40 m/s2,Q和R分別為合適維數的單位矩陣;τT=τM=0.5;γ=3.5。 仿真過程中,0~2 s 內探索信號e1,e2分別選擇為[12]: 式中:i=1,…,100;ω1i,ω2i為[-500,500]中的任意值。在[0,2]s內,間隔0.01 s進行狀態采集和信息輸入,計算得到δxx,Ixx,Ixu,Ixv,在t=2 s開始算法迭代,經過4次迭代后P4,K5,G5值分別為: P4= 而利用包含全部動態信息的式(6)直接求解系統的代數Riccati方程,得到最優值P*,K*,G*如下: P*= 可見,算法在4次迭代后收斂到最優解,Pk,Kk,Gk在迭代過程中與最優值P*,K*,G*差的范數如圖3所示。 圖3 Pk,Kk,Gk與最優值P*,K*,G*的收斂度Fig.3 Convergence of Pk,Kk,Gk to the optimal values P*,K*,G* 由圖可知,在迭代過程中,Pk,Kk,Gk的值不斷向最優值收斂直至完全達到,且收斂速度較快,時效性較好。系統的各狀態隨時間響應的曲線及雙方控制輸入曲線分別如圖4和圖5所示。 圖4 追逃攔截系統狀態曲線Fig.4 Curves for states of interception system 圖5 雙方控制輸入曲線Fig.5 Curves for the control inputs of both sides 由圖4和圖5可知,系統于0~2 s內計算并建立狀態及輸入數據模型,2 s后開始收斂,如果定義成功攔截的標準為1 m以內,則導彈在7.7 s左右成功地攔截到飛機目標,并且系統狀態滿足最終一致漸近穩定。0~2 s雙方的控制輸入為保證系統持續激勵的余弦信號和,2 s 后其開始收斂為0,過程中無較大抖動,且飛機的最大制導指令不大,避免了飛機的指令被限幅。仿真結果驗證了在追逃攔截問題中系統模型完全未知時,所提出的算法是有效的。 本文從追逃問題出發,建立了基于零和微分對策的線性攔截模型,采用基于數據的積分策略迭代自適應動態規劃算法,求解對應的代數Riccati方程;該算法的顯著優點是放松了對系統模型已知的要求,不僅可以用于飛行器追逃,還可應用于更廣泛的對抗型模型。由于本文算法基于線性追逃對抗模型,這與實際模型存在一定的誤差,故在進一步的研究中,需要針對具體的非線性模型展開討論。 [1] 祝小平,周洲.作戰無人機的發展與展望[J].飛行力學, 2005,23(2):1-4. [2] 馬丹山,王明海,鮮勇,等.逆軌道攔截衛星軌道設計與優化[J].飛行力學,2009,27(5):63-65. [3] 尹永鑫,楊明,吳鵬.空地導彈滑模制導方法研究[J].飛行力學,2010,28(1):44-46. [4] Fu L,Wang X.The analysis of differential games theory and present status [C]//2010 International Conference on Intelligent Control and Information Processing.Dalian,2010:290-294. [5] 陳興林,花文華.機動時間常數未知目標的攔截方法研究[J].航天控制,2011,29 (4):8-13. [6] 曾海燕.一類未知系統的低階模型參考自適應控制[C]//2007中國控制與決策學術年會論文集.沈陽,2007:199-202. [7] 任海鵬,劉丁.一類模型未知系統的辨識和混沌化控制[J].控制理論與應用,2003,20(5):737-740. [8] 張化光,張欣,羅艷紅,等.自適應動態規劃綜述 [J].自動化學報,2013,39 (4):303-311. [9] Vrabie D,Lewis F.Adaptive dynamic programming for online solution of a zero-sum differential game[J].Journal of Control Theory and Applications,2011,9(3):353-360. [10] Praveen P,Bhasin S.Online partially model-free solution of two-player zero sum differential games [C]//Preprints of the 10th IFAC International Symposium on Dynamics and Control of Process Systems.Mumbai,India,2013:696-701. [11] Zarchan P.Tactical and strategic missile guidance[M].Fifth Edition.USA:American Institute of Aeronautics and Astronautics,2007:889. [12] Jiang Y,Jing Z P.Robust approximate dynamic programming and global stabilization with nonlinear dynamic uncertainties[C]//In Proceeding of Joint IEEE Conference on Decision and Control and European Control Conference.Orlando,FL,USA,2011:115-120. (編輯:方春玲) Application of adaptive dynamic programming algorithm in the pursuit-evasion of aircraft LIU Nian, LIU Chun-sheng, SUN Jing-liang (College of Automation Engineering, NUAA, Nanjing 211106, China) To solve the problem of two-player zero-sum differential games in the pursuit-evasion of aircraft, a novel approach for obtaining the control laws of a system with unknown mathematic model is proposed using data-based integral policy iteration adaptive dynamic programming (ADP). The algorithm uses available datderailmenta of state and input on fixed time interval to build up the data models. By using them, iterations are conducted based on the value function and control strategies to get the proximate optimal strategies of both under the circumstance of a completely unknown planar interception system. Simulation results show that both control strategies are approximate to their optimal solutions infinitely in a limited range and confirm the effectiveness of the proposed method. pursuit-evasion; zero-sum differential game; policy iteration; adaptive dynamic programming 2016-04-11; 2016-09-05; 時間:2016-09-22 14:55 國家自然科學基金資助(61473147) 劉念(1991-),女,江蘇鎮江人,碩士研究生,研究方向為微分對策在飛行控制中的應用。 V249.1 A 1002-0853(2016)06-0045-04


3 仿真驗證







4 結束語