王 佳,曾慶華
(中山大學 航空航天學院, 廣州 510006)
RLV再入過程一般可分為再入段、末端能量管理段和自動著陸段。RLV再入段制導精度、魯棒性和可靠性直接影響再入過程是否能夠順利完成;再入段高度跨度大,環境復雜,由于大氣擾動、飛行器氣動模型和再入段初值的偏差,嚴重影響了RLV的制導精度[1]。自SpaceX公司2015年12月22日成功實現可重復使用運載火箭的垂直回收,火箭回收以其低成本的優勢掀起了國內的研究熱潮,RLV再入段的彈道優化和制導也成為研究熱點。
彈道優化是指在各種約束條件下,求解滿足預設性能指標最小的彈道。彈道優化本質上是最優控制問題,其數值求解方法有間接法和直接法。間接法需要推導最優控制問題的一階必要條件,得到關于最優控制的Hamiltonian邊值問題(HBVP),再用數值方法參數化HBVP,間接法求解精度高,但是必須提供解析形式的最優必要條件和精確的初值,對多約束問題求解比較困難[2]。RLV再入段彈道優化包含過程約束、終端約束和控制量約束等,工程上存在初值不穩定的問題,不適宜用間接法求解;直接法避免了推導一階必要條件,求解易收斂[3]。偽譜法屬于直接法的一種,已經廣泛應用于飛行器軌跡優化[4],文獻[5]用Gauss偽譜法求解月球定點著陸優化問題;文獻[6]用Gauss偽譜法求解火星大氣進入的軌跡優化問題; 文獻[7]將Radau偽譜法用于解決航天飛機再入段彈道優化問題;文獻[8]將hp自適應偽譜法應用于再入軌跡優化;文獻[9]將hp自適應偽譜法用于飛行器多階段的軌跡優化。本文采用hp自適應偽譜法進行RLV再入段彈道優化,將RLV再入段連續最優控制問題的求解轉化為求解非線性規劃(NLP)問題[10]。hp自適應偽譜法結合Radau偽譜法和hp有限元法,與Radau偽譜法相比,能夠自動減少配點數目,從而降低NLP問題求解規模并提高計算效率,對初值的敏感程度較Gauss偽譜法要低。
飛行器制導分為標準彈道制導和預測校正制導。標準彈道制導包括彈道生成和在線彈道跟蹤,在初始偏差較小時可以實現較高精度的制導[11];文獻[12]研究了運載器大氣層內的制導問題,利用線性二次型調節器(LQR)方法對規劃彈道進行跟蹤,LQR方法多用于多輸入多輸出系統[13],存在狀態和初值偏差時仍能取得較好的制導效果;文獻[14]提出了軌跡線性化的制導方案,該方案對參考彈道依賴性小、制導精度較高。但是標準彈道制導精度很容易受到環境干擾和初值偏差的影響[15],魯棒性能較弱。預測校正制導無需儲存標準彈道,根據預測的終端狀態與目標參數之差實時產生制導指令?;趥巫V法的預測制導方法能夠根據當前飛行器的狀態實時產生制導指令,有效地消除環境和氣動干擾,屬于最優閉環制導。文獻[16]研究了基于偽譜法的再入飛行器最優閉環制導問題,該方法可以有效應對各類干擾;文獻[17]研究了偽譜法在巡航導彈的應用,該方法對初值擾動和陣風干擾不敏感,有效減小了導彈的脫靶量。但是偽譜法計算量大,求解耗時較長,且在大的初值估計誤差和干擾下很可能造成無法收斂的情況,因此很難在工程上得到應用。文獻[18]基于BP神經網絡研究了滑翔飛行器的制導問題,制導周期較短,但采用了多個神經網絡控制器,結構復雜,且只對單個變量進行拉偏仿真驗證,未體現控制器抗組合干擾性能。
基于精確模型設計的制導方案難以克服組合干擾,無法同時滿足飛行器對過程約束、控制變量約束、終端位置、終端速度和落點姿態的要求。hp自適應偽譜法能夠在初值偏差和任意干擾條件下規劃出滿足性能指標和約束條件的最優彈道,本文充分發揮hp自適應偽譜法求解精度高的優勢,解決了預測制導周期長的問題,利用BP神經網絡強大的學習和快速預測的能力,設計了用于RLV再入段制導的神經網絡制導控制器,實現方法簡便。在飛行過程中,RLV受到外界環境干擾和初始偏差的影響,實際飛行路線偏離優化彈道,基于實時獲取的捷聯導航信息,所設計的神經網絡制導控制器可在0.01 s內產生制導指令引導RLV飛向目標點。
對RLV再入段的空間彈道方程作一些簡化假設:1) 將地球視為均質圓球;2) 忽略地球扁率和地球自轉的影響。
RLV再入段只受氣動力作用,發射系下的數學模型為

(1)
其中,φ、ψ為俯仰角和偏航角;X、Y、Z為氣動力;R0為地球半徑;m為RLV質量;x、y、z、vx、vy、vz為RLV的位置和速度;r為地心矢徑;μ為地球引力常數;g為地球引力。
RLV運動時滿足下列約束條件:
1) 邊界約束

(2)
2) 路徑(控制)約束:

(3)
3) 過程約束包括熱流密度約束、動壓約束和總過載約束,分別為

(4)

4) 目標函數。針對上述非線性系統,hp自適應偽譜法優化的原理是:滿足邊界條件、控制約束和動力學模型的同時找到控制量攻角α和側滑角β,滿足:
J=min(ka·α2+kb·β2)
(5)
J最小化控制量的加權平方和,其中ka和kb是權重,當α、β約束范圍不同時,可以通過調整ka和kb改變α、β的權重。
上述RLV再入段的最優控制問題,可以通過GPOPS Version5.0軟件求解。
關于RLV再入段彈道優化的最優控制問題可表述為:在滿足邊界和路徑約束的條件下,尋找控制變量u=[α,β]T,使以下積分性能指標最?。?/p>

(6)
其中,t∈[t0,tf],x=[x,y,z,vx,vy,vz]T,Φ和g分別為終端和積分指標函數。
求解最優控制問題需滿足下列約束:
1) 運動模型

(7)
2) 邊界約束
E(x(t0),t0,x(tf),tf)=0
(8)
3) 路徑(控制)約束
Cmin≤C(x(t),u(t),t)≤Cmax
(9)
hp自適應偽譜法將控制量和狀態量在一系列離散點上離散化,構造離散點處的拉格朗日多項式逼近控制量和狀態量,狀態量的導數可通過對全局插值多項式求導獲得。
將時間t分為K個子區間對應RLV再入段的k個階段,有?t∈[tk-1,tk],t0=t1<… (10) 其中,k=1,2,…,K。構造離散點處的拉格朗日多項式逼近狀態量x和控制量u: (11) 將式(11)代入式(7)運動方程,將狀態量x和控制量u在Legendre-Gauss-Radau(LGR)點離散化: (12) 式(13)、式(14)是對RLV再入段約束條件的離散化。 邊界約束: (13) 路徑(控制)約束: (14) 式(6)所述性能指標函數在LGR點離散化后,近似為 (15) 如圖1所示,前向神經網絡是一種3層網絡結構,包括輸入層、輸出層和隱含層,BP神經網絡(Back Propagation Neuron Network)是一種誤差反向傳播的前向神經網絡,因其能逼近任意非線性函數和良好的學習能力而應用廣泛[19]。 圖1 BP神經網絡模型 假設BP神經網絡的輸入層、隱含層和輸出層神經元分別用變量i、j、k表示,其中,i=1,2,…,P、j=1,2,…,Q、k=1,2,…,R神經網絡的輸入數據用X=[x1,x2,…,xP]表示,神經網絡的輸出數據用Y=[y1,y2,…,yR]表示。隱含層任意神經元的輸入為netj,輸出為yj: (16) 其中,mji是輸入層和隱含層任意兩神經元之間的權值,netj經過激活函數y=f(·)輸出yj,常用的激活函數有線性函數、斜坡函數、閾值函數、S型函數和雙極S型函數,可根據研究對象選擇合適的激活函數。 輸出層任意神經元的輸入為netk,輸出為yk: (17) 其中,mkj是輸出層和隱含層任意兩神經元之間的權值。當BP神經網絡正向傳播輸出與期望值的誤差未達到期望精度,就會反向傳播修正權值,直到BP神經網絡的輸出達到期望精度。 設計神經網絡制導控制器,關鍵在于通過偽譜法產生大量關于RLV狀態量x、y、z、vx、vy、vz和控制量α、β的數據對構成樣本庫,樣本庫反映了RLV再入段狀態量和控制量之間的非線性模型, BP神經網絡通過學習樣本庫逼近非線性模型。對任意狀態量x、y、z、vx、vy、vz,神經網絡控制器都可以預測出控制量α、β。圖2給出了設計神經網絡制導控制器的方法和將其用于在線指導的總體方案。 圖2 神經網絡制導控制器制導總體方案框圖 制導總體方案實現步驟: 1) 對RLV的質量、氣動系數、初始位置和偏差同時進行拉偏,產生多組干擾數據,構成干擾庫; 2) 基于干擾庫數據,多次利用hp自適應偽譜法優化彈道獲得關于狀態量和控制量的數據對,構成樣本庫; 3) BP神經網絡訓練樣本庫獲得神經網絡制導控制器,用神經網絡控制器去逼近狀態量和控制量之間的復雜非線性模型,其中步驟1)~3)都是離線完成; 4) 將神經網絡制導控制器與RLV再入段運動模型構成閉環,飛行狀態下RLV的運動狀態量x、y、z、vx、vy、vz反饋到神經網絡制導控制器,神經網絡制導控制器再根據當前飛行狀態實時產生制導指令α、β; 5) RLV將狀態量x、y、z、vx、vy、vz反饋給神經網絡制導控制器后,神經網絡制控制器需要對狀態量進行歸一化、預測控制量、對控制量反歸一化得到控制指令α、β。定義神經網絡制導控制器從獲取RLV反饋狀態量到產生控制量α、β經歷的時間T為制導周期,利用神經網絡制導控制器進行飛行彈道積分仿真驗證,評估其制導周期和魯棒性。 對RLV質量m、氣動系數CA、CN、CZ、初始位置和初始速度x0、y0、z0、vx0、vy0、vz0施加組合干擾,10個干擾項的極值見表1。 表1 干擾項 在干擾項極值內產生100組隨機組合干擾,為了在偽譜法優化階段產生狀態量x、y、z、vx、vy、vz的最大值和最小值,以防止神經網絡制導控制器制導開始時對RLV反饋的狀態量歸一化時超出區間(0,1),需要對10個干擾項施加極限干擾得到20組極限單項干擾,上述問題得到解決,干擾庫由這120組干擾數據構成。 生成樣本庫框圖如圖3。RLV飛行任務是以目標速度(vxf,vyf,vzf)到達目標位置(xf,yf,zf),基于GPOPS軟件建立偽譜法優化程序;將120組干擾施加到偽譜法優化模型,利用偽譜法產生120條優化彈道,由于hp自適應偽譜法得到的數據點比較少,不能較好的覆蓋飛行全過程,無法精確反映出任意彈道狀態點上的非線性模型,所以需要對偽譜法產生的狀態量和控制量進行插值,或者以步長0.01對偽譜法產生的控制量進行四階龍格庫塔積分計算,得到大約85.5萬個關于狀態量x、y、z、vx、vy、vz和控制量α、β的樣本對,構成樣本庫。 圖3 偽譜法產生樣本庫框圖 BP神經網絡學習樣本庫的算法流程如圖4所示。對樣本庫進行數據歸一化處理,目的在于:樣本數據范圍大小在模式分類中的作用程度差別較大,會降低神經網絡收斂速度,使訓練時間變長,要避免輸入神經網絡的數據范圍過大;初始化神經網絡隱藏層神經元個數、權值、閾值、迭代次數、學習率和目標誤差ξ;神經網絡正向傳播計算隱含層和輸出層的輸出,當神經網絡預測值和真實值的差小于目標誤差ξ則輸出保存權值,否則誤差開始反向傳播修正權值矩陣,再次進行訓練,學習完所有樣本后輸出神經網絡結構和權值矩陣;當樣本庫訓練BP神經網絡的擬合度(Regression)>λ,再用檢測樣本對神經網絡模型進行檢驗,剔除過擬合和欠擬合的神經網絡模型,最終得到神經網絡制導控制器。 圖4 BP神經網絡學習算法流程框圖 用偽譜法的彈道優化計算軟件環境:Win10 64 bit操作系統、MATLAB R2019a;仿真計算硬件環境Intel Corei7-7700處理器、16.0 GB RAM。RLV彈道優化約束條件如表2所示。 表2 約束條件 圖5~圖10表示了標準條件下hp自適應偽譜法所得優化彈道參數,圖5~圖10同時給出了基于偽譜法產生的控制指令進行彈道積分計算得到的結果,圖11給出了過載和動壓曲線。 圖5 位置x曲線 圖6 位置y曲線 圖7 位置z曲線 圖8 速度vx曲線 圖9 速度vy曲線 圖10 速度vz曲線 圖11 過載和動壓變化曲線 表3給出了標準條件下彈道積分和偽譜法優化所得狀態終端值satea、sateb的相對偏差ERR,ERR定義為式(18)。 ERR=|satea-sateb|/satea (18) 表3 終端值相對偏差 可以看出,偽譜法和彈道積分計算結果一致,終端值最大相對偏差小于0.2%,由圖11可知過載和動壓小于上限值,表明通過偽譜法可以得到有效滿足終端狀態的控制指令。 圖12給出了120組干擾數據的偽譜法彈道優化的結果。 可以看出RLV飛行時間為68~76 s,位置和速度準確收斂到終端值。對偽譜法產生的狀態量和控制量插值得到樣本庫,用樣本庫訓練BP神經網絡得到神經網絡制導控制器。 圖12 偽譜法彈道優化曲線 隨機產生200組組合干擾驗證神經網絡制導控制器的制導效果,xi、yi、zi、vxi、vyi、vzi表示每組數據的終端位置和速度,仿真終止條件為|yi-yf|≤2,總位置偏差L和總速度偏差V定義為式(19)和式(20): (19) (20) 可以看出,不同組合干擾條件下RLV終端位置和終端速度能夠收斂到同一區域。由于組合干擾包含初值偏差,RLV的起始位置和速度成分散狀態,圖13表明:RLV位置從起點(圖右下方)逐漸向終端位置(圖左上方)收斂,圖14表明RLV速度從起點(圖14左上方)向終端速度收斂(圖14右下方)。圖15給出了200次仿真的終端位置偏差。 圖13 RLV空間運動曲線 200次仿真的平均總速度偏差為5.42 m/s,平均總位置偏差為13.48 m,最大總位置偏差為45 m,說明RLV終端位置分布在以目標點(538 925, -17 937, 17 175)為圓心,半徑為45 m的圓球區域內。 假設RLV飛行過程中還存大氣環境干擾,同時對大氣壓強和密度施加幅值為理論值50%的正弦干擾進行仿真,結果見表4。 圖14 RLV速度曲線 圖15 位置偏差曲線 表4 終端值絕對偏差 可以看出,存在大氣環境等其他干擾時,神經網絡制導控制器能夠保持比較穩定的制導效果。無論是初值偏差、氣動系數偏差和還是環境干擾,最終都將導致RLV的飛行狀態發生變化產生控制量,這些擾動對于神經網絡制導控制器來說相當于黑箱,所以能夠有效克服不同類型的組合干擾。 本文提出基于偽譜法的神經網絡制導控制器,充分利用hp自適應偽譜法和BP神經網絡的優勢,具有強魯棒性能和求解速度快的特點。所提出的制導方案能夠有效適應各類干擾影響,終端位置和速度誤差較小,具有較強的魯棒性能;制導周期小于0.01 s,可滿足工程應用需求。


1.3 BP神經網絡原理


2 神經網絡制導控制器設計

2.1 建立干擾庫

2.2 基于偽譜法生成樣本庫

2.3 BP神經網絡學習樣本庫

3 仿真驗證
3.1 偽譜法計算










3.2 神經網絡制導控制器制導仿真




4 結論