陳書釗,楚龍飛,楊秀梅,蔡德淮
1. 翎客航天科技有限公司,北京 100176 2. 昆明理工大學 信息工程與自動化學院,昆明 650500
可重復使用運載器(Reusable Launch Vehicle, RLV)是指能夠在地球表面與太空之間重復往返的多用途飛行器[1-2],分為部分可重復運載器和完全可重復運載器。具備可重復使用、可靠性高、維護成本低等特點的運載器,根據費用均攤的原則,可有效降低單位載荷的發射成本[3]。
麥道與NASA合作于20世紀90年代研發一種火箭動力單級入軌飛行器DC-X,其通過控制發動機推力實現了飛行器的垂直起飛和垂直降落(VTVL)技術,是RLV的早期雛形。后來由于一些原因,DC-X項目最終被放棄。但是DC-X項目為RLV的發展開辟了新的道路。DC-X項目的一些工程師后來進入了藍色起源(Blue Origin)專注于RLV的研發,并于2005年通過Charon原理樣機完成了VTVL技術驗證,其隨后又進行了大量相關試驗,并通過New Shepard-1,于2015年成為第1個具有VTVL技術且進入太空的民營航天公司。同時DC-X項目也為Armadillo航空航天、Masten空間注入了靈感,這兩家民營航天公司分別通過自己研發設計的Mod和Xombie兩個具備VTVL功能的飛行器獲得了2008年和2009年的XPRIZE最高獎,為RLV的發展注入了活力。
SpaceX太空探索公司是最晚研發RLV的公司,卻是迄今為止走的最遠的公司。其用Grasshopper火箭于2012年開始研發VTVL技術,2015年其Falcon-9火箭將衛星送入軌道之后成功完成陸地回收,實現人類航天史上一個重大里程碑。2018年2月SpaceX“重型獵鷹”(Falcon Heavy)取得重大成果,其助推器和芯級都具備可回收能力,成為具備可部分重復使用能力的現役最大運載火箭。
運載火箭的重復利用通常包括4項關鍵技術[4]:精確高效的控制技術、可以變推力和重復使用的發動機技術、高可靠的著陸支撐技術、快速檢修再利用技術。而垂直起飛與垂直降落技術則是前3項技術的結合。精確高效的控制技術包含了制導系統、動力控制系統、姿態控制系統和其他控制系統。火箭在回收的過程中制導系統對精確著陸起著至關重要的作用,對此SpaceX和Masten兩家公司分別在文獻[5-6]中進行了詳細討論,同時關于可回收火箭的制導技術也存在大量研究[7-8]。但關于可回收火箭的動力控制系統研究卻很少,SpaceX和Masten也并未透露更多信息。翎客航天作為世界上繼SpaceX之后第六家掌握了VTVL技術的商業航天公司,本文將詳細討論其在VTVL技術動力控制系統方面所做的創新。
動力控制系統是根據火箭的飛行狀態直接參與發動機推力控制的系統,控制效果的優劣決定著火箭回收的成敗。由于目前VTVL技術在世界上還屬于非常前沿的技術,其相關參考文獻極其有限,而關于VTVL技術中非常關鍵的動力控制系統方面的參考文獻目前還沒有。動力控制系統可以通過經典控制理論的方法進行設計,即在已知被控對象較為精確的模型的情況下設計控制器結構,通過穩定性計算確定參數進而獲得使系統穩定的控制器。然而這種思路對于一個民營商業航天公司意味著很大的成本付出,因為被控模型的精確程度取決于加工工藝,而目前所有滿足航天標準的加工工藝都意味著巨大的成本。因此對精確程度較差的被控模型實現穩定控制,成為民營商業航天公司一個較大的需求。
翎客航天基于3 000 N深度可變推力(10%~110%)發動機LinkPower-3,于2015年開始研發RLV技術,并依靠民間工業力量制造了一系列代號為RLV-T小型可回收火箭驗證機,并于2018年初通過RLV-T3成功掌握了VTVL技術。相較于科研院所代表國家力量研制出的大型火箭,該系列火箭存在一些特殊的技術難點,比如其質心位置測算和慣量測算有較大誤差,機械傳動有較大誤差等。這一系列技術難點導致被控對象的模型不準確,計算可以保證穩定的控制器卻難以實現穩定控制。為了實現對RLV-T3的穩定控制,翎客航天獨立研發了一種稱為狀態預測神經網絡控制(State Prediction Neural Network Control, SPNNC)的智能控制算法[9-10]。該算法可以在已知被控對象粗糙狀態方程(線性)的情況下,通過調整一個主要參數和一個輔助參數實現穩定控制,可應用于所有可以經過線性狀態方程實現預測的單輸入單輸出(SISO)系統和多輸入多輸出(MIMO)系統。基于神經網絡的控制器種類有很多,而SPNNC的創新點在于將狀態方程用于預測并與神經網絡的優化性能相結合從而實現強魯棒性的控制。SPNNC不需要離線訓練、計算簡單且迅速、容錯能力強、通用性強。同時,將這種新的控制算法大膽地應用于火箭回收技術,也是航天領域的一次創新,是商業航天靈活性的體現。
人工神經網絡(簡稱神經網絡)是人類根據動物中樞神經系統(尤其是腦)的結構和信號處理機制構建的一種處理實際問題的數學模型[11]。而將人工神經網絡應用于控制系統可實現智能控制,具有可控復雜(如非線性、快時變、多變量、環境擾動等)系統,高容錯性能,多模態組合(定性決策和定量控制相結合)控制等特點[10]。基于神經網絡的控制器具有非常多的種類,如基于自適應方式的神經網絡控制器,由神經網絡單獨組成的控制器,神經網絡與比例-積分-微分(PID)、預測控制、內模控制等傳統控制結構結合形成的神經網絡控制器,神經網絡的智能控制,神經網絡優化控制等[11]。而本文要介紹的SPNNC正是結合神經網絡的優化性能與狀態空間預測性能于一體的在線學習控制算法。
該算法包括2個核心部分,即神經網絡部分和狀態預測部分。其中神經網絡部分的作用就是盡可能地使被控對象的輸出和參考量一致,而狀態預測部分的作用就是為了規避系統時滯導致的控制失步,將神經網絡產生控制的時間點和被控系統產生作用的時間點盡可能地保持在最小區間內。神經網絡部分可認為只起到一個優化器的作用,當被控對象為簡單SISO系統時,可以將神經網絡簡化為單神經元進行控制,其優點是計算簡單迅速、邏輯清晰。當被控對象為特定情況的MIMO系統時,即可通過狀態方程對未來進行預測,則神經網絡部分采用多層網絡(如BP(BackPropagation)神經網絡)進行控制,其優點是可以實現復雜系統較好的控制。RLV-T3小型可回收火箭驗證機的高度控制正是使用了單神經元進行的,第3節將會對該控制進行詳細說明。
本算法采用BP神經網絡[11]作為控制器,通過在線學習的方法能夠很好地保證系統的穩定性。同時對于該算法,修改網絡的輸入輸出可以實現對多輸入多輸出系統的控制。
Simulink中,SPNNC對SISO系統的控制結構如圖1所示。雖然BP神經網絡有很多優點,但對于本文設計的算法并非必需,因為對于簡單的SISO系統,BP神經網絡可以直接用單神經元進行代替。用單個神經元代替BP神經網絡作為控制器進行控制,對于簡單SISO系統不僅不會影響控制器的控制效果,而且結構簡單、計算耗時短、收斂快[11-13]。關于用單個神經元進行控制將會在下面的小節中詳細介紹。

圖1 狀態預測神經網絡控制結構Fig.1 Structure of State Prediction Neural Network Control (SPNNC)
圖1中神經網絡控制(NNC)部分在進行控制之前需對數據做預處理,即保存當前誤差e(k),并將e(k)、e(k-1)、e(k-2)作為神經網絡的3個輸入同時送入BP神經網絡控制器模塊。BP神經網絡控制器會對優化目標進行優化,計算出控制量u(k),然后將控制量u(k)輸入到被控對象中參與控制。
BP神經網絡控制器的網絡結構如圖2所示。其中隱層神經元的個數可因不同情況進行調整。

圖2 3輸入1輸出BP神經網絡結構Fig.2 BP neural network structure of 3 inputs and 1 output
當將SPNNC應用于特定情況(系統未來的狀態可以通過狀態方程進行預測)的MIMO系統時,BP神經網絡將采用如圖3所示的結構。其中每一個參考量rs與反饋ys的差相鄰的3個時刻值對應神經網絡輸入層的3個神經元xs1、xs2、xs3,輸出層的ys對應被控對象的控制輸入。
對于SISO系統,圖2中的神經網絡可以用單神經元結構代替,如圖4所示。
對于圖3更為一般的結構,其前向計算過程用矩陣可表示為

圖3 MIMO系統中BP神經網絡控制器結構Fig.3 BP neural network control structure in MIMO system

圖4 單神經元結構Fig.4 Single neuron structure

(1)
優化指標為
(2)
式中:X為輸入向量;Hi和Yi分別為參與激活函數運算前隱層和輸出層的數據向量;Ho和Yo為激活函數運算后隱層和輸出層的數據向量;f1(·)和f2( ·)分別為隱層和輸出層的激活函數;Whx和Wyh分別為輸入層到隱層和隱層到輸出層包含了偏置量的權重矩陣;rs和ys分別為MIMO系統中第s個參考量和第s個系統輸出量;S為輸入輸出總數。
當使用梯度下降法對式(2)的指標進行優化時,僅需對當前的ri、yi(i=1,2,…,s)進行優化,而無需對歷史數據進行優化。另外,還有一項被控對象關于輸入控制量的偏導數未知,故假設被控對象與輸入控制量的關系滿足:
y=G(u)
(3)
(4)

根據以上提供的關系,即可實現神經網絡的在線學習與前向計算,進而對被控對象進行控制。
狀態空間模型本質上是將動力系統的高階微分方程降為一階多變量微分方程組。對于一個線性系統,可用狀態空間模型表示為[14]

(5)
式中:x′(t)∈Rn為狀態向量;y′(t)∈Rq為輸出向量;u′(t)∈Rp為輸入向量;A′∈Rn×n為狀態轉移矩陣;B′∈Rn×p為輸入矩陣;C′∈Rq×n為輸出矩陣;D′∈Rq×p為前饋矩陣(通常為0);t為系統時間。為了形式上易于理解,以上變量右上角的“′”僅表示不同的變量,而不是數學運算。在給定初始值的情況下,計算式(5)所示微分方程的解,可得

(6)
式中:
(7)
取t=kT(k=0,1,2,…),T為離散系統采樣周期。即可將式(5)離散化:

(8)
式中:x(k)=x′(kT)∈Rn為狀態向量;y(k)=y′(kT)∈Rq為輸出向量;u(k)=u′(kT)∈Rp為輸入向量;A=(I+A′T)∈Rn×n為狀態轉移矩陣;B=B′T∈Rn×p為輸入矩陣;C=C′∈Rq×n為輸出矩陣;D=D′∈Rq×p為前饋矩陣(通常為0)。
同時式(7)可變為
Φ(k)=Φ′(kT)=eA′kT=I+A′kT+
(9)
將式(9)泰勒展開取前兩項,做如下近似:
Φ(k)=Φ′(kT)=eA′kT=(eA′T)k≈
(I+A′T)k=Ak
(10)
因此式(6)可變為
(11)
式(11)也可以寫為
(12)
式(11)和式(12)的區別在于加和的順序,形式不同而結果相同。
式(11)和式(12)同樣可以通過式(8)中狀態轉移方程的累加求和得到,2種計算方式的結果相同。下面的計算中統一使用式(12)。
式(11)和式(12)都是在u(0)~u(k)已知的情況下基于0時刻狀態量計算k時刻的狀態量,為了將式(12)應用于系統未來行為預測,需對其做適當調整。當系統處于k時刻,并對系統的k+M時刻進行預測時,系統控制輸入u(k)~u(k+M)是未知的,為了實現較為合理的預測可作如下假設:
u(k+i)=ρ(i)u(k)
(13)
式中:ρ(i)為系數。
系統處于k時刻時,對k時刻到k+M時刻的系統輸入u(i)可以作各種更為合理的假設,而且系統控制輸入u(i),(i=0,1,…,M)也并非一直起作用。可以假定控制輸入只在前P(P≤M)個周期起作用,而之后的M-P個周期無控制輸入。綜上所述,式(12)可表示為
(14)
由式(8)可知,當D=0時,式(8)第2式變為
y(k+M)=Cx(k+M)=CAMx(k)+
(15)
當M、P、ρ(i)確定后,式(15)可以進一步簡化為
y(k+M)=αx(k)+βu(k)
(16)

因此系統式(8)即變為

(17)
式(17)即為狀態轉移方程、輸出方程和預測方程。將式(17)與神經網絡控制算法結合,即可實現單點預測控制。
多變量系統又稱多輸入多輸出系統,是指系統內部存在多個變量,且普遍存在耦合的復雜系統,如圖5所示。
對于MIMO系統可以采用各種各樣的解耦控制[15-19],本文提出的SPNNC也可以對含有特定特征的MIMO系統進行解耦控制。這種特征即:系統時滯小或者可以通過一定方法(狀態空間法等)對系統未來進行預測(或粗估計)。式(17)描述的預測方法僅限于線性系統,而非線性系統則需要線性化。對于時滯小的系統可以省去對未來的預測部分,直接使用神經網絡進行控制。而對于時滯較大的系統,則必須對系統的未來進行預測,進而實現穩定控制。
對于RLV-T3小型可回收火箭,所有控制通道均可簡化為SISO系統,即無需進行解耦控制。為了驗證SPNNC對MIMO系統的控制效果,2.2節將通過Simulink仿真方法對此進行說明。

圖5 MIMO系統Fig.5 MIMO system
RLV-T3小型可回收火箭高為4 500 mm,儲罐直徑為450 mm,起飛質量為300 kg,燃料體系為LOX-EtOH,配備一臺3 000 N可深度變推力(10%~110%)矢量發動機。RLV-T3的整體外觀如圖6所示。關于電氣部分,該火箭帶有一個姿態傳感器、一個3軸加速度傳感器、載波相位差分(RTK)系統、發動機擺角傳感器、各儲罐壓力傳感器、燃燒室壓力傳感器、點火系統、閥門控制系統、滅火系統、無線傳輸系統、電動系統、電源管理系統和安控系統。因為該型號火箭的研制只是為了驗證火箭整體性能和低空火箭回收技術,無需應對高速、高溫、高壓等極端工況,故整箭的姿態控制和推力控制僅通過一個二自由度可擺動矢量發動機實現。在箭體飛行過程中,沿箭體方向的旋轉是一個干擾小項,由于僅有一臺矢量發動機,無能力也無必要對該方向的旋轉進行控制,在實際飛行過程中也驗證了該論斷。
由于民間工業制造能力的限制,該型號火箭在制造過程中相較于航天院所內各機械結構精度指標略低、電氣技術可靠性略差,對箭體的穩定性控制造成一定壓力。對箭體的控制主要存在以下難點:RTK數據采樣頻率略低(10 Hz)、RTK天線容易受遮擋物的影響(箭體轉動會產生影響)、箭體產生的劇烈振動對加速度傳感器影響較大、發動機推力關于流量閥圈數之間呈非線性關系、系統時滯、步進電機對流量閥的機械傳動存在間隙、在飛行過程中箭體是一個變質量變質心物體、發動機推力線可能與重力線不相交引起箭體自身旋轉、低溫液氧容易受環境影響造成壓力不穩定進而影響發動機推力不穩定以及箭體結構易發生變化進而質心慣量發生變化等。

圖6 RLV-T3小型可回收火箭整體外觀Fig.6 Overall appearance of RLV-T3 small reusable rocket
為了研究上述算法的可行性,現通過Simulink仿真進行分析。根據RLV-T3小型回收火箭自身動力系統、控制系統的基本參數建立仿真模型,對高度控制進行仿真分析。被控對象模型的精細程度會影響控制算法參數,進而影響控制效果。
RLV-T3采用了氮氣增壓,在整個飛行過程中氮氣壓強大于4 MPa。燃料儲罐和液氧儲罐通過減壓閥與氮氣相連,并在飛行過程中保持在3.5 MPa。推進劑通過管路經過流量閥后匯入發動機,控制系統根據傳感器采集的數據計算后控制流量閥和發動機擺角執行機構。流量閥會根據控制指令打開適宜的開口通徑控制推進劑流量,進而使發動機產生適宜大小的推力,以保證箭體達到預定的運動效果。而發動機擺角執行機構則根據箭體運動狀態控制發動機推力的方向,進而控制箭體的運動。
高度傳感器采用的是0.03 m精度、10 Hz采樣頻率的RTK,該傳感器可以提供經緯度和高度三維信息,利用這些信息實現閉環控制。流量閥通過步進電機進行控制,而步進電機通過處理器輸出一定數量的脈沖到電機驅動進行控制,每一個脈沖可對應步進電機轉過對應的角度,因此
dθ=k1u(t)dt
(18)
式中:k1為比例系數,而步進電機轉過的圈數可表示為

(19)
式中:τ0為控制量從產生到完成存在的延時。在推進劑儲罐壓強固定的情況下,假設發動機產生的推力與流量閥圈數之間的關系滿足:
F(t)=f(C)=f{C[u(t)]}
(20)
假設火箭在飛行過程中推進劑秒耗量滿足:
(21)
則飛行過程中火箭整體實時質量為
(22)
由牛頓第二定律可知
F(t)-m(t)g=m(t)a(t)
(23)
式中:g為沒有方向的重力加速度常數。即得
(24)
加速度經過兩次積分可得
(25)
將上述過程整理后得
h(t)=F(u(t))
(26)
即箭體高度與控制量脈沖數的關系是非線性關系,且其中推力與流量閥圈數的關系式(20)也是非線性關系,因此無法準確地得到其傳遞函數。其結構如圖7所示。
該被控對象具有復雜的非線性環節,使用經典控制理論的分析方法難以獲得系統穩定的參數。而對于RLV-T3的真實情況,其物理結構易發生變化,系統特性變化范圍大,對控制器的魯棒性要求很高。對于此復雜的非線性系統,使用SPNNC可以僅取其重要的線性環節,而忽略掉非線性環節。即僅考慮其加速度積分到位移的部分,并據此列出系統方程對系統未來進行預測,因為通過下面的試驗可以看出,SPNNC極強的魯棒性可以容納這些控制誤差。
下面建立離散時間狀態預測神經網絡控制器:
如前所述,對于SISO系統可以將神經網絡簡化為一個神經元實現控制。對于圖4的單神經元,設參考量與預測反饋值的差為
e(k)=r(k)-y(k+M)
(27)
設神經元輸入向量為
X(k)=Li×[e(k)e(k-1)e(k-2)]T
(28)
式中:Li為入口系數。設權重為
(29)
設激活函數為
(30)
則神經元的前向計算為
(31)
式中:Lo為出口系數;b為偏置量。入口系數和出口系數是為使神經元的優化性能最大化而定的常數,因不同被控對象而異。
優化指標為
(32)
對于狀態預測部分,僅需考慮箭體遵從牛頓第2定律而產生運動的部分,即設狀態量為
x=[vh]T
(33)
則式(17)變為

(34)

(35)
其中:T為控制周期;ρ(i)為權重序列;P為加速度項作用長度;M為預測步長。
當面對不同的被控對象時,控制周期T是固定的,權重序列一般由1到0均勻取P個數。對于具有線性運動特征的被控對象,式(34)都不變,所以對于不同的被控對象,主要調整P和M,以及輔助調整Li、Lo即可。對于圖7的被控對象,經過調整以上參數后,控制器對階躍信號的響應如圖8所示。控制器對正弦信號的響應如圖9所示。從圖8和圖9可知該算法響應時間4 s,對周期大于8 s的正弦信號幅頻特性跟隨良好。

圖7 RLV-T3高度控制通道被控對象Fig.7 Controlled plant of height control channel of RLV-T3

圖8 SPNNC對階躍信號的響應Fig.8 SPNNC’s response to step signal

圖9 SPNNC對正弦信號的響應Fig.9 SPNNC’s response to sinusoidal signal
2.2節中針對RLV-T3小型可回收火箭建立了時域仿真模型,并設計了SPNNC控制器。本小節將比較SPNNC和PID 2種控制器的控制效果。SPNNC對高度的控制使用了RLV-T3飛行過程中采集到的高度、速度、加速度3種信息,PID控制器同樣使用這3種信息構成串聯PID控制器。SPNNC控制器的結構如圖1所示,三級串聯PID如圖10所示。
RLV-T3小型可回收火箭對建立仿真模型存在諸多不確定因素,其中最大的不確定因素是發動機關于流量閥的推力曲線。由于實際情況的限制,RLV-T3使用的LinkPower-3發動機無法進行與RLV-T3相同狀態下的出廠測試。測試獲得的推力曲線僅可作為發動機基本性能評估,不可作為RLV-T3仿真模型中發動機推力關于流量閥曲線的精確模型。因此RLV-T3仿真模型中的推力曲線只能在一定范圍內粗略估計。由此帶來的控制負擔需要由控制算法來承擔。
RLV-T3仿真模型的發動機性能備選了7種不同的推力曲線,如圖11所示。

圖10 三級串聯PID控制器結構Fig.10 Structure of series PID controller

圖11 發動機推力曲線Fig.11 Thrust curves of engine
其中數據1較為接近理論推力曲線,其他6條數據曲線為在一定范圍內做拉偏后的曲線。固定發動機推力曲線后保持被控對象不變,分別使用SPNNC和PID控制器進行控制,根據得到的飛行高度數據曲線可對比SPNNC和PID的控制性能。保持SPNNC和PID不變,分別使用7條推力曲線去檢驗2種控制器的控制效果,可檢驗2種控制器在復雜不確定因素下的控制性能。
推力曲線采用數據1,保持被控對象不變調整參數將2種控制器整定到最佳控制狀態,得到PID的12個控制參數和SPNNC的2個控制參數如表1所示,控制效果如圖12所示。由參數的數量可以看出,通過試驗對控制器的參數進行整定時,SPNNC更容易整定。

圖12 兩種控制器對數據1的階躍響應Fig.12 Step response of two controllers to data 1
在保持2種控制器不變的情況下,使用7條推力曲線檢驗2種控制器的控制性能,獲得2個控制器的7個控制性能指標。經驗證2個控制器在7個推力曲線下均未出現劇烈失穩的情況。7個控制性能指標分別是穩態值、穩態誤差、上升時間、峰值時間、調節時間、超調量、穩定后標準差。7個控制性能指標計算規則如下:
穩態值:選取20~45 s之間數據的均值。

表1 SPNNC和PID的控制參數Table 1 Control parameters of SPNNC and PID
穩態誤差:穩態值與單位階躍信號1的差。
上升時間:響應信號第1次達到穩態值95%的時間。
峰值時間:響應信號達到最大值時的時間。
調節時間:響應信號達到峰值后再次進入95%~105%穩態值的時間。
超調量:響應信號的最大峰值與穩態值的差同穩態值的比。
穩定后標準差:響應信號在20~45 s范圍內的標準差。
計算后得到表2。其中數據1對應的圖像為圖12。由表2中數據可以看出,在數據1對應的推力曲線下,SPNNC和PID控制效果總體差別不是很大。PID控制器的穩態誤差和上升時間都優于SPNNC,峰值時間和超調量遜于SPNNC,而穩定后標準差兩者基本相同。而對于其他數據對應的推力曲線,除了數據3的穩態誤差(穩態值與穩態誤差直接相關)和數據5與數據7的上升時間顯示出PID略優,其他所有指標均顯示SPNNC優于PID,SPNNC控制器具有絕對優勢。以上的數據與分析充分說明了SPNNC優越的魯棒性與滿足需求的控制精度。

表2 兩種控制器對7種推力曲線的性能指標Table 2 Performance indexes of two controllers for 7 thrust curves
假設存在以下系統:

(36)
對于該線性系統,可以使用式(17)進行描述和預測,因此可以使用SPNNC進行控制。為了驗證其控制效果,下面通過Simulink進行仿真,其控制結構如圖13所示。
其中BP神經網絡采用了6輸入2輸出3層神經網絡,被控對象模塊為式(17)描述的狀態轉移方程和輸出方程,狀態預測模塊為式(17)描述的預測方程。通過調整適當的參數,即可得到如下控制效果。圖14為被控對象在控制器作用下對于2個階躍信號的響應效果,圖15為一個階躍信號和一個正弦信號的響應效果。
由仿真可知,SPNNC對于式(36)描述的MIMO系統的控制響應時間較短、幅頻和相頻跟隨特性好,可以實現解耦控制。
為了說明SPNNC對式(36)系統控制的魯棒性,現將式(36)中被控對象的輸入矩陣B做拉偏處理,即假設

(37)
式中:r=0.2,0.33,1,3,5。對于圖14所示的2個參考輸入,保持狀態預測部分參數不變、神經網絡控制器參數不變,對不同的r進行控制仿真,得到如圖16所示的效果。

圖13 狀態預測神經網絡控制算法應用于MIMO系統示例Fig.13 Example of SPNNC applied to MIMO system

圖14 SPNNC對MIMO系統的控制效果Fig.14 SPNNC’s control effect in MIMO system

圖15 SPNNC對MIMO系統不同信號的控制效果Fig.15 SPNNC’s control effect with different signal in MIMO system

圖16 不精準被控模型下的SPNNC控制效果Fig.16 SPNNC’s effect with inaccurate plant
由圖16可知,當輸入矩陣發生一定幅度變化時SPNNC依然可以實現穩定控制,r越接近1控制效果越好。這種方法并不嚴謹,但能從一定角度反映SPNNC的魯棒性。
進一步考察SPNNC對非線性系統的控制能力。假設實際被控對象的狀態方程為

(38)
其他量不變。
對于式(38)描述的系統,首先通過泰勒展開將非線性狀態方程線性化進而進行預測,可得到使用SPNNC控制器得到的控制效果如圖17所示。

圖17 非線性被控模型下的SPNNC控制效果Fig.17 SPNNC’s effect with nonlinear plant
由圖17可見,對于非線性系統線性化之后使用狀態方程進行預測依然可以實現穩定控制,只是存在微量穩態誤差。這也體現了SPNNC的一個缺點,那就是控制精度略差,對此第3節將會進一步說明。
為了驗證SPNNC的性能,使用圖6中的火箭進行了多次試驗驗證。下面針對其中一次飛行試驗進行說明。
本次飛行試驗高度通道指令曲線如圖17中實線所示,即分為上升、高度保持、下降、軟著陸4個階段。
上升階段:該階段為點火后至第18 s,在該階段目標高度持續上升。
高度保持階段:該階段為18~26 s,在該階段,箭體高度保持在6.5 m。
下降階段:該階段為26~37 s,在該階段目標高度以一定速度下降。
軟著陸階段:該階段為37 s至結束,目標高度停在0.1 m。目標高度設為0.1 m直至關機。
表3列出了本次飛行試驗的狀態參數和試驗數據。本次飛行試驗耗時為43.5 s。

表3 試驗數據Table 3 Test data
圖18為RLV-T3小型可回收火箭在飛行過程中高度與目標高度的關系,實際過程對指令的響應時間4 s左右,其中高度保持階段目標高度與箭體實際高度之差最大為0.2 m,平均定高6.4 m。圖19(a)為RLV-T3飛行過程中在大地坐標系下3個軸向的速度數據,其中z軸方向即為高度方向,上升階段最大速度0.7 m/s,下降階段最大速度0.7 m/s,著陸速度為0 m/s,無沖擊。圖19(b)為箭體豎直方向的運動加速度,由圖中可以看出箭體在飛行過程中振動較大,除了點火瞬間,上下加速度絕對值不超過0.75 m/s2。

圖18 基于SPNNC的RLV-T3飛行測試Fig.18 RLV-T3 flight test based on SPNNC


圖19 箭體飛行過程中參數變化Fig.19 Parameters changing during the flight
圖19(c)箭體在飛行過程中SPNNC對流量閥控制的過程。圖19(d)箭體在飛行過程中兩個軸向的姿態角。
本次試驗場景圖如圖20所示。

圖20 RLV-T3小型可回收火箭飛行試驗Fig.20 Flight test of RLV-T3 small reusable rocket
從RLV-T3小型可回收火箭試驗數據可以看出,上升階段與下降階段對目標高度的跟隨較為平穩,高度保持階段最大定高誤差為0.2 m,最大穩態誤差為0.1 m。軟著陸階段,速度曲線和加速度曲線顯示著陸平穩,著陸無沖擊。試驗過程中SPNNC根據箭體加速度、速度、位置進行控制,動態地調整流量閥,使箭體處于動態平衡中。整個試驗過程,高度控制與姿態控制解耦,箭體姿態較為平穩,通過一個小的角度抵御風的干擾。通過以上數據分析,使用SPNNC對RLV-T3的高度可以實現一定精度內的穩定控制。
1) RLV-T3小型可回收火箭是國內第一枚利用民間工業力量加工生產,并實現了垂直起飛、彈道飛行、空中懸停、軟著陸回收全流程的火箭。對于翎客航天的VTVL技術,SPNNC起到了至關重要的作用,其極強的魯棒性和快速響應能力保證了火箭較大變化時的控制穩定性,同時又保證了滿足要求的控制精度。
2) 經過近百次的飛行試驗發現,SPNNC具有很多優勢和不足。SPNNC的優勢包括在線學習收斂快、魯棒性強、通用性強、可應對非線性復雜系統(可部分線性化)、可應對多變量復雜系統,參數少、整定簡便。同時SPNNC也存在一些不足,例如控制精度略低、無法控制長時滯不可預測系統。對于SPNNC的低控制精度,究其原因,對未來的預測是單點預測,優化也是單點優化,下一步的研究方向將是多點預測和多點優化對SPNNC控制精度的影響。除此之外還需增加反饋校正環節,提高控制精度。
3) 對于SPNNC的穩定性,涉及神經網絡、非線性系統、預測、多變量,是一個非常復雜的系統[20-22],還無法給出嚴密的數學證明,同時也無法給出預測步長關于被控對象的數學關系,這也是下一步的研究方向。但其控制效果已經在RLV-T3的飛行試驗中得到充分展示。