基于自適應(yīng)動(dòng)態(tài)規(guī)劃的運(yùn)載火箭智能姿態(tài)容錯(cuò)控制

2021-07-05 13:46:40梁小輝胡昌華周志杰王青

航空學(xué)報(bào) 2021年4期

梁小輝，胡昌華，周志杰，王青

1. 西北工業(yè)大學(xué) 自動(dòng)化學(xué)院，西安 710129 2.火箭軍工程大學(xué) 導(dǎo)彈工程學(xué)院，西安 710025 3.北京航空航天大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院，北京 100191

大型運(yùn)載火箭是開(kāi)展大規(guī)模空間探索與開(kāi)發(fā)的前提，研制新一代運(yùn)載火箭對(duì)于中國(guó)未來(lái)的太空發(fā)展戰(zhàn)略意義重大。目前由于大運(yùn)載技術(shù)還不夠成熟，發(fā)射任務(wù)還時(shí)有失敗，因此，保障大型運(yùn)載火箭的安全可靠飛行已成為國(guó)家迫切需要解決的重大工程問(wèn)題[1-3]。容錯(cuò)控制技術(shù)[4]可利用故障檢測(cè)信息，通過(guò)參數(shù)調(diào)整、控制重構(gòu)等手段，保證執(zhí)行機(jī)構(gòu)、測(cè)量器件或其他系統(tǒng)元器件處于故障狀態(tài)時(shí)，閉環(huán)系統(tǒng)仍然穩(wěn)定且維持一定的控制性能，在航天飛控系統(tǒng)設(shè)計(jì)中得到了廣泛的應(yīng)用[5]。

容錯(cuò)控制一般可分為主動(dòng)容錯(cuò)和被動(dòng)容錯(cuò)2種情況[6-7]。針對(duì)運(yùn)載火箭推力下降或伺服機(jī)構(gòu)卡死等有限故障，文獻(xiàn)[8]提出了一種基于徑向基神經(jīng)網(wǎng)絡(luò)的自適應(yīng)容錯(cuò)姿態(tài)控制方法，使用神經(jīng)網(wǎng)絡(luò)在線辨識(shí)模型的故障參數(shù)和不確定干擾，在保證姿態(tài)控制系統(tǒng)穩(wěn)定的同時(shí)提高了對(duì)故障的自適應(yīng)能力。文獻(xiàn)[9-10]設(shè)利用擴(kuò)張狀態(tài)觀測(cè)器來(lái)估計(jì)可重復(fù)使用運(yùn)載火箭的柵格翼故障和系統(tǒng)不確定性，并結(jié)合固定時(shí)間收斂的相關(guān)理論，消除了觀測(cè)誤差收斂受系統(tǒng)初始值的限制，并在此基礎(chǔ)上，設(shè)計(jì)了一種非奇異快速終端滑模容錯(cuò)控制器，消除了執(zhí)行器故障的不利影響，保證了姿態(tài)跟蹤性能。針對(duì)結(jié)構(gòu)損傷導(dǎo)致的氣動(dòng)參數(shù)變化，文獻(xiàn)[11]在線估計(jì)了氣動(dòng)參數(shù)的變化，利用自適應(yīng)反步容錯(cuò)控制器來(lái)補(bǔ)償結(jié)構(gòu)損傷導(dǎo)致的氣動(dòng)參數(shù)變化，消除了結(jié)構(gòu)損傷對(duì)系統(tǒng)靜穩(wěn)定性和控制精度的影響，實(shí)現(xiàn)容錯(cuò)飛行控制功能。考慮到系統(tǒng)受外部干擾和未知執(zhí)行器效率損失的影響，文獻(xiàn)[12]提出了一種積分滑模容錯(cuò)控制方法，該方法保證了執(zhí)行器故障下航天器姿態(tài)控制系統(tǒng)的穩(wěn)定性，并采用自適應(yīng)方法消除了故障信息邊界的限制。進(jìn)一步考慮執(zhí)行器飽和問(wèn)題，文獻(xiàn)[13]利用魯棒控制技術(shù)，設(shè)計(jì)了一種被動(dòng)容錯(cuò)姿態(tài)穩(wěn)定控制方法，該方法即使在控制輸入飽和的情況下也可以保證姿態(tài)系統(tǒng)的局部有限時(shí)間穩(wěn)定性。

上述的幾種容錯(cuò)控制手段雖然可以有效提高姿態(tài)控制系統(tǒng)的魯棒容錯(cuò)能力，但其大多都缺乏自我學(xué)習(xí)和參數(shù)自主更新的功能，當(dāng)系統(tǒng)遭遇意外故障時(shí)，火箭控制系統(tǒng)的性能會(huì)仍然會(huì)受到很大影響。與傳統(tǒng)的控制方法不同，自適應(yīng)動(dòng)規(guī)劃(Adaptive Dynamic Programming, ADP)是一種利用一個(gè)函數(shù)近似結(jié)構(gòu)(例如神經(jīng)網(wǎng)絡(luò)、模糊模型、多項(xiàng)式等) 來(lái)估計(jì)代價(jià)函數(shù), 用于按時(shí)間正向求解動(dòng)態(tài)規(guī)劃的學(xué)習(xí)算法，具有在線學(xué)習(xí)和調(diào)整控制器參數(shù)的能力[14-16]。文獻(xiàn)[17]提出了一種基于執(zhí)行-評(píng)價(jià)(Actor-Critic, AC)結(jié)構(gòu)的ADP算法來(lái)處理分散跟蹤控制問(wèn)題，并通過(guò)AC網(wǎng)絡(luò)求解了Hamiltonian-Jacobi-Bellman方程。文獻(xiàn)[18]基于增量近似動(dòng)態(tài)規(guī)劃設(shè)計(jì)了一類(lèi)非線性系統(tǒng)的無(wú)模型控制方案。利用ADP和滑模控制技術(shù)，文獻(xiàn)[19]解決了高超聲速飛行器姿態(tài)跟蹤控制問(wèn)題。該算法將實(shí)際值與參考信號(hào)之間的偏差信息作為AC網(wǎng)絡(luò)的輸入，利用ADP算法產(chǎn)生補(bǔ)償控制以改善系統(tǒng)性能。雖然容錯(cuò)控制和自適應(yīng)動(dòng)態(tài)規(guī)劃都取得了一定的研究成果，但是二者之間的有機(jī)結(jié)合還有待進(jìn)一步研究，尤其是在運(yùn)載火箭姿態(tài)控制方面的相關(guān)應(yīng)用。

為了解決運(yùn)載火箭執(zhí)行機(jī)構(gòu)故障下的姿態(tài)容錯(cuò)控制問(wèn)題，本文提出了一種基于自適應(yīng)動(dòng)態(tài)規(guī)劃的智能容錯(cuò)控制方法。首先，構(gòu)造了一種自適應(yīng)故障觀測(cè)器，有效實(shí)現(xiàn)了執(zhí)行機(jī)構(gòu)未知故障的估計(jì)；在此基礎(chǔ)上設(shè)計(jì)了一種自適應(yīng)滑模容錯(cuò)控制器，保證了故障情況下閉環(huán)系統(tǒng)的穩(wěn)定以及姿態(tài)跟蹤誤差的有限時(shí)間收斂；同時(shí)，為了提高火箭姿態(tài)跟蹤的控制精度，利用執(zhí)行-評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)，設(shè)計(jì)了一種自適應(yīng)動(dòng)態(tài)規(guī)劃補(bǔ)償控制器，降低執(zhí)行機(jī)構(gòu)故障帶來(lái)的消極影響；最后，通過(guò)仿真驗(yàn)證證明了所提算法的有效性。

1 建模與問(wèn)題描述

運(yùn)載火箭繞質(zhì)心轉(zhuǎn)動(dòng)動(dòng)力學(xué)方程可表示為[20]

(1)

式中：τ∈R3為控制力矩；d= [dx,dy,dz]T∈R3為系統(tǒng)的復(fù)合干擾項(xiàng)，主要包括彈性模態(tài)等引起的未建模動(dòng)態(tài)、外部干擾以及系統(tǒng)不確定性等；J=diag(Jxx,Jyy,Jzz)T∈R3×3為轉(zhuǎn)動(dòng)慣量；ω=[ωx,ωy,ωz]T∈R3為姿態(tài)角速度向量；ω×表示向量ω∈R3擴(kuò)張成的斜對(duì)稱(chēng)矩陣。

定義ξ=[φ,ψ,θ]T∈R3，φ、ψ和θ分別為滾轉(zhuǎn)角、偏航角和俯仰角，姿態(tài)角可以表示為

(2)

式中：S(ξ)為坐標(biāo)轉(zhuǎn)換矩陣。

運(yùn)載火箭上升段的動(dòng)力系統(tǒng)主要由4臺(tái)捆綁助推發(fā)動(dòng)機(jī)(A1～A4)和4臺(tái)芯級(jí)發(fā)動(dòng)機(jī)(B1～B4)構(gòu)成，每臺(tái)發(fā)動(dòng)機(jī)推力可達(dá)460 t，其擺角執(zhí)行機(jī)構(gòu)如圖1所示布局。其中：Ra和Rb表示火箭中心軸線到捆綁發(fā)動(dòng)機(jī)中心和芯級(jí)發(fā)動(dòng)機(jī)中心的距離，黃色噴管為固定噴管，其他為擺動(dòng)噴管。發(fā)動(dòng)機(jī)A1、A3、B1、B3聯(lián)合擺動(dòng)控制偏航運(yùn)動(dòng)，發(fā)動(dòng)機(jī)A2、A4、B2、B4聯(lián)合擺動(dòng)控制俯仰運(yùn)動(dòng)，8臺(tái)發(fā)動(dòng)機(jī)綜合控制運(yùn)載火箭滾轉(zhuǎn)運(yùn)動(dòng)[21]。根據(jù)火箭擺角等效原則，姿態(tài)控制三通道(俯仰、偏航、滾轉(zhuǎn))等效擺角指令為

圖1 推力發(fā)動(dòng)機(jī)分布Fig.1 Configuration of propulsive engines

(3)

式中：δA和δB分別為捆綁和芯級(jí)發(fā)動(dòng)機(jī)三通道的擺角值;kA、kB為發(fā)動(dòng)機(jī)擺角系數(shù)，轉(zhuǎn)換矩陣TA和TB的具體形式為

此時(shí)，運(yùn)載火箭主動(dòng)段的姿態(tài)控制系統(tǒng)三通道的等效擺角值δ=[δx,δy,δz]T可以表示為

δ=δA+δB

(4)

本文主要考慮效率損失和偏差性故障這2種最為常見(jiàn)的擺動(dòng)執(zhí)行機(jī)故障[21]，因此，執(zhí)行機(jī)構(gòu)故障模型采用矩陣形式可表示為

δf=Eδ+ρ

(5)

式中：E=diag{e1,e2,e3}∈R3×3為執(zhí)行效率矩陣且效率系數(shù)滿足0

τf=Gδf

(6)

式中：對(duì)角矩陣G∈R3×3為力矩轉(zhuǎn)換矩陣，為三通道的等效控制輸入。

注1區(qū)別于文獻(xiàn)[22]，本文將擺動(dòng)發(fā)動(dòng)機(jī)的控制等效到了俯仰、偏航和滾轉(zhuǎn)3個(gè)通道，這里考慮的故障影響是一種綜合的體現(xiàn)，并不是具體哪個(gè)執(zhí)行機(jī)構(gòu)的故障。ei=0表示等效三通道的某個(gè)通道已經(jīng)完全失去控制，控制系統(tǒng)已經(jīng)失去了控制作用。

結(jié)合式(1)～式(6)，運(yùn)載火箭執(zhí)行器故障情況下的姿態(tài)控制系統(tǒng)可表示為

(7)

(8)

為簡(jiǎn)化后續(xù)的推導(dǎo)表述，式(8)可被改寫(xiě)為

(9)

本文的主要目的是：在式(5)所示的發(fā)動(dòng)機(jī)擺動(dòng)執(zhí)行機(jī)構(gòu)故障情況下，設(shè)計(jì)一種基于自適應(yīng)動(dòng)態(tài)規(guī)劃的智能容錯(cuò)控制器，以提高運(yùn)載火箭姿態(tài)控制系統(tǒng)的容錯(cuò)能力和抗干擾特性，消除執(zhí)行機(jī)構(gòu)故障以及外部干擾帶來(lái)的消極影響，維持姿態(tài)系統(tǒng)(7)的穩(wěn)定，保證指令跟蹤誤差系統(tǒng)(9)收斂到零。

2 預(yù)備知識(shí)

引理1[13]對(duì)于系統(tǒng)(10)，若存在李雅普諾夫函數(shù)滿足:

?t≥t0,V(xt0)≥0

則系統(tǒng)收斂時(shí)間為

其中：λ1>0，λ2>0和0

引理2[23]若李雅普諾夫函數(shù)V(t)為連續(xù)正定函數(shù)且V(0)有界，滿足下述不等式:

式中：c1和c2為正常數(shù)；h(t)為有界正函數(shù)。則V(t)為有界函數(shù)。

引理3[24]徑向基神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Networks, RBFNN)可以很好的逼近未知連續(xù)函數(shù)。利用RBFNN，未知連續(xù)函數(shù)f(Z):Rk→Rp可被改寫(xiě)為

f(Z)=WTf(Z)+ε

因?yàn)樽顑?yōu)權(quán)重W和近似誤差ε未知，可得

注2運(yùn)載火箭的氣動(dòng)面和發(fā)動(dòng)機(jī)擺動(dòng)執(zhí)行機(jī)構(gòu)的偏轉(zhuǎn)角是在一定范圍內(nèi)連續(xù)的變化的。因此，附加的氣動(dòng)力不確定性和擾動(dòng)也是有界的[20]。此外，對(duì)于工程實(shí)踐來(lái)說(shuō)，執(zhí)行器故障和外部干擾是有界性假設(shè)是合理的。

3 基于ADP的智能容錯(cuò)控制

本文設(shè)計(jì)智能容錯(cuò)控制器結(jié)構(gòu)如圖2所示，綠色部分是穩(wěn)定控制器，黃色部分是補(bǔ)償控制器。設(shè)計(jì)目的是結(jié)合2種方法的優(yōu)勢(shì)，實(shí)現(xiàn)存在故障和各類(lèi)不確定性下的火箭姿態(tài)高精度跟蹤控制。傳統(tǒng)的穩(wěn)定控制方法可以保證系統(tǒng)穩(wěn)定，但是在火箭發(fā)射過(guò)程中即使保持穩(wěn)定，但穩(wěn)定過(guò)程耗費(fèi)的時(shí)間太多，仍然會(huì)導(dǎo)致發(fā)射任務(wù)的失敗，所以采用ADP優(yōu)化補(bǔ)償控制器來(lái)改善系統(tǒng)的控制性能，同時(shí)也降低穩(wěn)定控制器設(shè)計(jì)的難度和復(fù)雜度。

圖2 基于自適應(yīng)動(dòng)態(tài)規(guī)劃的智能容錯(cuò)控制器結(jié)構(gòu)Fig.2 Structure of ADP-based intelligent fault-tolerant controller

3.1 容錯(cuò)穩(wěn)定控制器

定義輔助變量U(t)=diag{δx(t),δy(t)，δz(t)}，Σ=[e1,e2,e3]T，此時(shí)有

(10)

設(shè)計(jì)如下所示的故障觀測(cè)器：

(11)

(12)

式中：

(13)

α1>0,β1>0,γ1>0為常值增益；P為正定對(duì)稱(chēng)矩陣；(·)i為向量的第i個(gè)元素。

(14)

式中：

(15)

α2>0,β2>0,γ2>0為常值增益。

(16)

(17)

式中:ε為一個(gè)較小的正數(shù)，常值增益α3>0。此時(shí)，可得觀測(cè)誤差系統(tǒng)為

(18)

定理1考慮系統(tǒng)(9)，設(shè)計(jì)故障觀測(cè)器(11)和自適應(yīng)更新律(12)～(15)，對(duì)于給定的Hurwitz矩陣A和正常數(shù)ξ，若存在正定對(duì)稱(chēng)矩陣P滿足:

ATP+PA+2ξP<0

(19)

則觀測(cè)誤差系統(tǒng)(19)是最終一致有界的。

(20)

求導(dǎo)可得

(21)

式中:

根據(jù)式(12)，YΣ可分為下面3種情況。

(22)

(23)

(24)

同理可得

(25)

將式(22)～式(25)代入(21)可得

(26)

易知下述不等式成立

(27)

(28)

(29)

(30)

將式(27)～(30)代入(26)可得

(31)

選擇參數(shù)βi，γi，(i=1,2)使得2βi-1>0和2γi-1>0成立，可得

(32)

式中：

Ω=

其中：λmin(·)為矩陣(·)的最大特征值。

同樣的根據(jù)式(16)，分情況討論。

(34)

根據(jù)引理2和假設(shè)3可知：李雅普諾夫函數(shù)V1(t)是有界的。

(34)

由式(17)可知，π(t)是一個(gè)正的單調(diào)遞增函數(shù)，且存T>0，對(duì)于?t>T，滿足π(t)≥ζ。因此，函數(shù)V1(t)是有界的，且滿足：

(35)

根據(jù)ATP+PA+2ξP<0可得

V1(T)-V1(t)-

V1(T)-V1(t)+

(36)

通過(guò)上述分析可知，

(37)

證畢。

進(jìn)一步設(shè)計(jì)自適應(yīng)滑模容錯(cuò)控制器來(lái)保證姿態(tài)閉環(huán)系統(tǒng)的穩(wěn)定性。首先，設(shè)計(jì)如式(38)所示的非奇異快速終端滑模面：

(38)

對(duì)滑模面(38)求微分可得

F+GE(t)δ(t)+Gρ(t)+D(t)+

(39)

式中：

Dx1=

(40)

式中：W1和φ1為權(quán)重矩陣和徑向基函數(shù)；ε1為近似誤差。

滑模面的可達(dá)律為

(41)

注3在容錯(cuò)控制率的設(shè)計(jì)中采用了RBFNN來(lái)處理滑模動(dòng)態(tài)中的不確定性，主要是因?yàn)樵诠收嫌^測(cè)器中并不涉及不確定性的觀測(cè)，如果利用觀測(cè)器來(lái)直接處理會(huì)增加觀測(cè)器設(shè)計(jì)的復(fù)雜度，降低觀測(cè)誤差的收斂時(shí)間，不利于算法實(shí)現(xiàn)，同樣的策略在文獻(xiàn)[25]中也有所體現(xiàn)。

定理2考慮系統(tǒng)(9)，設(shè)計(jì)容錯(cuò)控制律

(42)

(43)

對(duì)式(43)求導(dǎo)可得

(44)

將自適應(yīng)容錯(cuò)控制律(42)代入式(44)可得

?1S-?2signa/b(S)+

(45)

式中:

下面將YW1分為以下2種情況進(jìn)行討論。

(46)

(47)

(48)

同時(shí)，易得下述不等式成立，

(49)

(50)

將不等式(46)～式(50)代入式(45)可得

(51)

(52)

(53)

(54)

因此可知，自適應(yīng)控制律(42)可使得閉環(huán)系統(tǒng)穩(wěn)定，且滑模動(dòng)態(tài)(40)在有限時(shí)間內(nèi)收斂到原點(diǎn)的鄰域內(nèi)。

證畢。

3.2 優(yōu)化補(bǔ)償控制器

為了進(jìn)一步改善運(yùn)載火箭姿態(tài)系統(tǒng)的跟蹤性能，本節(jié)主要利用自適應(yīng)動(dòng)態(tài)規(guī)劃算法，設(shè)計(jì)了一種執(zhí)行-評(píng)價(jià)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化補(bǔ)償控制器。

定義系統(tǒng)的效用函數(shù)為[26]

r(x(t),u(t))=[xT(t),uT(t)]Kr[xT(t),uT(t)]T

(55)

式中：u(k)=δ(k)為ADP算法的輸出；Kr為正定對(duì)稱(chēng)矩陣。

然后，評(píng)價(jià)函數(shù)定義為[27]

(56)

式中：收斂系數(shù)ε∈(0,1)。

ADP的主要目的是找到一個(gè)控制輸入u(k)使得上述的評(píng)價(jià)函數(shù)J(x(t),u(t))最小，所以最優(yōu)評(píng)價(jià)函數(shù)J*(x(t),u(t))可表示為

(57)

根據(jù)最優(yōu)控制理論，可得下述Bellman方程：

εJ*(x(t+Δt),u(t+Δt))}

(58)

ainput=x(t),aoutput=u(t)

(59)

評(píng)價(jià)網(wǎng)絡(luò)的輸入cinput和輸出coutput可表示為

(60)

(61)

(62)

對(duì)于執(zhí)行網(wǎng)絡(luò)的第p個(gè)輸出節(jié)點(diǎn)，其輸出up(t)為

(63)

(64)

(65)

(66)

根據(jù)梯度下降算法，執(zhí)行-評(píng)價(jià)網(wǎng)絡(luò)權(quán)重的更新規(guī)則為

(67)

(68)

(69)

(70)

其中：λa>0和λc>0為學(xué)習(xí)效率。至此，基于自適應(yīng)動(dòng)態(tài)規(guī)劃的優(yōu)化補(bǔ)償控制方案設(shè)計(jì)完成。ADP補(bǔ)償控制部分網(wǎng)絡(luò)權(quán)重更新主要利用的梯度下降的方法實(shí)現(xiàn)，由于篇幅所限，這里就不做具體推導(dǎo)，詳細(xì)的證明過(guò)程可以參考我們之前的工作[28]。

4 仿真驗(yàn)證

(71)

為了說(shuō)明所設(shè)計(jì)的基于ADP的智能容錯(cuò)控制的有效性，分別對(duì)“滑模容錯(cuò)”和“ADP+滑模容錯(cuò)”2種控制方法進(jìn)行數(shù)值仿真，仿真結(jié)果如圖4～圖12所示。同時(shí)，為了說(shuō)明本文所提方法的優(yōu)越性，論文結(jié)果與文獻(xiàn)[20]進(jìn)行對(duì)比仿真，由圖可知上述的幾種容錯(cuò)控制設(shè)計(jì)方法都可保證執(zhí)行機(jī)構(gòu)故障下姿態(tài)控制系統(tǒng)的穩(wěn)定，并完成火箭上升段姿態(tài)指令跟蹤任務(wù)，但是不難發(fā)現(xiàn)，本文所提的基于自適應(yīng)動(dòng)態(tài)規(guī)劃的智能容錯(cuò)控制方法具有更強(qiáng)的容錯(cuò)能力，當(dāng)運(yùn)載火箭姿態(tài)系統(tǒng)遭遇外部干擾和執(zhí)行機(jī)構(gòu)故障的不利影響時(shí)，能夠更好的維持姿態(tài)系統(tǒng)的跟蹤性能。

圖4為偏航通道執(zhí)行器部發(fā)生分效率損失故障的估計(jì)曲線，圖5為俯仰通道執(zhí)行器偏置故障的估計(jì)曲線，由圖可知：所設(shè)計(jì)的故障觀測(cè)器可以有效實(shí)現(xiàn)故障信息的估計(jì)。圖6～圖8為火箭姿態(tài)系統(tǒng)的姿態(tài)角指令跟蹤曲線，圖9為姿態(tài)跟蹤誤差響應(yīng)曲線。觀察圖6～圖8可知，姿態(tài)角在12 s內(nèi)即可跟蹤上指令信號(hào)，跟蹤誤差不超過(guò)0.1°。當(dāng)仿真進(jìn)行到20 s時(shí)，系統(tǒng)遭遇執(zhí)行機(jī)構(gòu)故障，姿態(tài)跟蹤特性明顯被影響，系統(tǒng)出現(xiàn)明顯的跟蹤誤差，如圖9所示。3種容錯(cuò)控制方法都可以消除故障的持續(xù)影響，其中本文多提“ADP+滑模控制”的方法處理故障的速度更快，在10 s就能消除跟蹤誤差。相比較而言，緊靠“滑模控制”方法雖然最終也實(shí)現(xiàn)了姿態(tài)指令的跟蹤，但是沒(méi)有ADP的補(bǔ)償控制明細(xì)響應(yīng)速度下降。

圖4 執(zhí)行器效率損失故障觀測(cè)值Fig.4 Estimation of LOE fault for actuators

圖5 執(zhí)行器偏置性故障觀測(cè)值Fig.5 Estimation of bais fault for actuators

圖6 滾轉(zhuǎn)角跟蹤曲線Fig.6 Tracking curves of the roll angle

圖10為姿態(tài)角速率的時(shí)間響應(yīng)曲線，等效三通道控制輸入響應(yīng)曲線如圖11所示，效用函數(shù)的響應(yīng)曲線如12所示。觀察圖10可知，在整個(gè)仿真過(guò)程中，姿態(tài)角速率都能快速收斂，但是本文所采用的“ADP+滑模控制”的方法明細(xì)收斂速度和振蕩幅值、頻率都低于其他2種方法。從圖12明顯可以看出：通過(guò)提出的權(quán)重更新算法，當(dāng)執(zhí)行器在20 s發(fā)生故障時(shí)，效用函數(shù)將迅速收斂到零，這意味著姿態(tài)跟蹤誤差將減小到零，即所提方法可以快速消除執(zhí)行器故障對(duì)姿態(tài)跟蹤性能的影響。

圖7 偏航角跟蹤曲線Fig.7 Tracking curves of the yaw angle

圖8 俯仰角跟蹤曲線Fig.8 Tracking curves of pitch angle

圖9 姿態(tài)角跟蹤誤差曲線Fig.9 Tracking erros of attitude angle

圖10 姿態(tài)角速率響應(yīng)曲線Fig.10 Responses of attitude velocity

圖11 控制輸入Fig.11 Control input

5 結(jié) 論

本文針對(duì)主動(dòng)上升段存在發(fā)動(dòng)機(jī)擺動(dòng)執(zhí)行機(jī)構(gòu)故障的運(yùn)載火箭姿態(tài)控制問(wèn)題，提出了一種基于自適應(yīng)動(dòng)態(tài)規(guī)劃的智能姿態(tài)容錯(cuò)控制方法。主要結(jié)論包括：

1) 利用自適應(yīng)控制技術(shù)，可設(shè)計(jì)出一種基于非線性觀測(cè)器的故障檢測(cè)估計(jì)方法，成功實(shí)現(xiàn)對(duì)執(zhí)行機(jī)構(gòu)效率損失和偏置性故障的估計(jì)。

2) 在上述故障觀測(cè)器基礎(chǔ)上，結(jié)合非奇異終端滑模技術(shù)和故障估計(jì)信息，可構(gòu)建了一種滑模自適應(yīng)容錯(cuò)控制器，保證了姿態(tài)閉環(huán)系統(tǒng)的穩(wěn)定性。

3) 為進(jìn)一步減小系統(tǒng)跟蹤誤差，利用強(qiáng)化學(xué)習(xí)的執(zhí)行-評(píng)價(jià)結(jié)構(gòu)，設(shè)計(jì)出一種自適應(yīng)動(dòng)態(tài)規(guī)劃補(bǔ)償控制算法，可以依據(jù)系統(tǒng)跟蹤誤差對(duì)系統(tǒng)進(jìn)行優(yōu)化補(bǔ)償，在確保姿態(tài)系統(tǒng)跟蹤精度，提高姿態(tài)跟蹤的收斂速度。