999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的可回收運載火箭著陸制導

2021-09-16 01:30:08何林坤龔慶海
空天防御 2021年3期
關鍵詞:策略

何林坤,張 冉,龔慶海

(1.北京航空航天大學宇航學院,北京 100191;2.北京航天自動控制研究所,北京 100070)

0 引言

在可返回式深空探測、亞軌道點對點快速運輸、航班化天地往返[1]等新型空天飛行任務中,以高速、大運載能力、可重復使用為特點的可回收運載火箭將成為主要的運載器[2]。對可回收運載火箭而言,垂直回收過程中的著陸制導是保證其回收精度、減小燃料消耗、實現可靠重復使用的關鍵技術。

火箭著陸制導問題本質上是一種具有動力學過程約束、著陸終端位置/速度約束,以及燃料消耗指標的最優控制問題。針對該問題,基于間接法的軌跡實時優化方法[3-4]能夠滿足燃料最優性,且可以嚴格滿足著陸制導過程中的約束,但需求解兩點邊值問題,實時性與收斂性難以保證;以凸優化為代表的直接法通過對約束及指標進行凸化,將復雜的著陸制導問題轉化為易于求解的凸問題,在滿足各類約束的同時具有良好的燃料最優性、實時性與收斂性[5-7]。

雖然基于最優控制的著陸制導方法已經能夠滿足火箭著陸制導問題的約束,并實現燃料消耗最優,但其優異性能是建立在動力學模型精確已知的前提下的。實際上,在復雜大氣環境或未知小行星著陸等情況下,動力學模型存在較大不確定性[8],因此,需要研究不依賴精確模型、具有泛化能力的火箭著陸制導方法,在滿足約束且燃料消耗最優的前提下,能夠適應火箭模型偏差。

為此,文獻[9]利用神經網絡改進間接法,使用最優軌跡產生飛行器狀態和最優制導序列的訓練樣本,通過神經網絡的擬合,使其具有自動產生協態初始猜想的能力,提高了制導方法的實時性,同時具有對模型偏差的泛化能力;文獻[10]基于對特定著陸制導問題最優解的必要條件分析,提取出了完整表征該類著陸制導最優軌跡的6 個基本要素,使用不同初始狀態下最優軌跡基本要素作為樣本進行監督學習訓練,得到神經網絡制導律,根據任意非標稱的初始狀態產生對應的6個基本要素,進而確定最優軌跡;文獻[11]在行星著陸問題中使用強化學習方法,基于標稱制導律設計獎勵函數,以此訓練得到能夠滿足終端約束且不依賴精確動力學模型的制導策略神經網絡,但標稱制導律的存在限制了制導策略的形式,損失了燃料消耗指標的最優性。

綜上所述,基于監督學習、強化學習等方法訓練神經網絡形式的著陸制導律,能夠提高制導律的泛化能力,但需要通過最優解的特殊形式或單獨設計的獎勵函數來保證滿足終端約束及燃料消耗指標的最優性。

因此,本文使用強化學習方法進行火箭著陸制導策略訓練:一方面,通過分階段獎勵函數設計,使所得策略能夠同時滿足終端約束并實現燃料消耗最優;另一方面,設計神經網絡形式的制導策略,使用強化學習算法對該策略進行訓練,通過不基于模型的交互采樣優化網絡參數,得到具有泛化能力的著陸制導策略。

1 火箭著陸制導問題描述

將著陸點當地坐標系視為慣性系,在慣性系下描述火箭著陸段的質心運動。令慣性系x軸指向東、y軸指向北、z軸垂直向上,原點為著陸點。系統動力學方程為

式中:r為位置矢量;v為速度矢量;m為火箭質量;g為重力加速度矢量;T為發動機推力矢量;D為氣動阻力矢量;Vex為發動機排氣速度。

重力加速度g使用圓球重力場模型描述,即

式中:μ為地球引力常數;RE為地心至慣性坐標系原點的位置矢量。

氣動阻力D的計算公式為

式中:ρ為由高度決定的大氣密度;Sref為火箭參考截面積;CD為阻力系數,是速度v的非線性函數;Ma為馬赫數,由速度v和聲速決定。

控制量為發動機推力T,幅值滿足約束

跟據以上動力學模型,建立火箭著陸制導問題的最優控制問題數學描述。

給定火箭初始位置r0、初始速度v0及初始質量m0,火箭著陸制導問題可以描述為:在滿足火箭著陸動力學(式(1)~(4))的條件下,確定每一時刻的發動機推力控制量T,以最大化終端質量,并保證終端位置和終端速度為0,即

式中:t0為初始時刻;tf為終端時刻。

2 火箭著陸馬爾可夫決策過程

使用強化學習求解火箭著陸制導問題,首先需要建立火箭著陸過程對應的馬爾可夫決策過程(Markov decision process,MDP)模型。完備的MDP 模型由狀態量s、行為量a、狀態轉移概率p(st+1|st,at)及獎勵函數R(s,a)四要素所定義[12]。以下分別建立火箭著陸MDP的四要素。

2.1 狀態量及行為量

選擇狀態量s為由火箭位置、速度、質量組成的7維矢量,即

為便于處理推力幅值約束,行為量a選為推力幅值||T||、推力方向矢量在xy平面內投影與x軸夾角α及推力方向矢量與z軸夾角β。即

則行為量與實際推力控制量具有如下的分量對應關系

且各行為分量的取值范圍為

其中,由于在制導中認為推力矢量方向與火箭縱軸同向,故a3∈[0,π/2]的行為量取值約束實際上保證了火箭姿態豎直,符合實際物理規律。

2.2 狀態轉移概率

如上選擇行為量及狀態量后,火箭著陸動力學方程(5)可完全由行為量及狀態量封閉表示,記為

按照制導周期dT對(10)式進行離散化,得到離散狀態轉移函數

從而能夠建立火箭著陸MDP 的確定性狀態轉移概率

至此,除獎勵函數外,火箭著陸MDP 模型所需的狀態量、行為量及狀態轉移概率已定義完備,而獎勵函數的設計需要根據火箭著陸制導問題的優化指標和約束進行分階段設計。

2.3 分階段獎勵函數設計

使用強化學習進行訓練,所得到的制導策略為從狀態到行為的映射,記為π(a|s),即在任意狀態s下應采取的行為a的概率分布。針對任意給定獎勵函數的MDP,強化學習待求的最優策略應滿足獎勵期望最大,即

因此,獎勵函數的設計決定了強化學習訓練所得到的最優著陸制導策略。

火箭著陸制導問題中,唯一優化指標為燃料消耗,故在理想情況下,火箭著陸MDP 的獎勵函數僅需考慮燃料消耗。然而,標準的MDP 模型并沒有顯式地考慮終端約束,故上述MDP 建立過程中,損失了原火箭著陸制導問題特有的終端約束,需要在獎勵函數的設計中引入終端約束。

文獻[11]指出,直接將終端約束作為懲罰項對獎勵函數進行增廣會導致強化學習訓練難以收斂,故文獻[11]中為了處理終端約束,在獎勵函數中引入了速度方向始終指向著陸點、大小隨時間指數減小的標稱制導律,并將當前速度與標稱制導律的誤差以及燃料消耗加權得到最終獎勵。然而,標稱制導律的存在限制了著陸軌跡的形式,本質上改變了原著陸制導問題的優化指標,以損失著陸制導策略的最優性為代價保證了終端約束。

因此,本文不基于標稱制導律,而通過分階段設計獎勵函數,使制導策略在實現燃料消耗最優的前提下滿足終端約束。具體分4 個階段設計引導性獎勵函數:

1)位置約束獎勵階段

不考慮燃料消耗和終端速度,僅以當前位置與終端約束位置的誤差設計獎勵函數,以期訓練得到能夠到達著陸點的初步著陸制導策略。

具體獎勵函數為

2)位置、速度約束獎勵階段

考慮位置-速度空間內的引導性獎勵函數。以0∈R6為中心,在位置-速度空間中設置N個同心獎勵橢球面,當火箭位置-速度矢量首次進入某一獎勵球面內,就產生正數常值獎勵k,即

其中,1first(x)在x首次為真時取1,其余情況取0;ri、vi為第i個獎勵橢球面對應的位置、速度模值。

在式(15)所示獎勵函數下,與期望終端狀態r(tf)=0、v(tf)=0 越接近的制導策略將位于更多獎勵橢球面內,從而能夠產生更大的累計獎勵。因此,以第一階段訓練收斂后的策略為初始策略,使用式(15)所示獎勵函數進行訓練,將產生能夠同時考慮終端位置、速度約束的制導策略。

3)位置、速度約束+燃料消耗指標獎勵階段

第二階段訓練收斂后的制導策略應初步具有滿足終端位置和速度約束的能力,因此,第三階段獎勵函數在此基礎上考慮燃料消耗,由式(1)可知,燃料消耗與推力模值成正比,故本階段的獎勵函數設計中加入推力模值的懲罰項,即

以第二階段訓練收斂后的策略為初始策略,使用式(16)所示獎勵函數進行訓練,以使制導策略在考慮終端約束的基礎上能夠優化燃料消耗。

4)精確位置、速度約束+燃料消耗指標獎勵階段

本階段在已有N個同心獎勵橢球面基礎上,增加位置-速度空間中原點附近獎勵球面的密度,以提高終端約束的滿足精度。

通過以上分階段獎勵函數設計,使終端位置約束、速度約束先后得到滿足,并最終對燃料消耗進行優化。一方面,依次使用4 個階段獎勵函數進行強化學習訓練,能夠避免直接使用約束懲罰項對獎勵函數進行增廣導致的收斂困難問題;另一方面,獎勵函數設計中沒有引入人為設計的標稱制導律先驗假設,不會損失制導策略的最優性。

3 強化學習火箭著陸制導策略訓練

使用強化學習算法進行火箭著陸制導策略訓練,就是根據火箭著陸MDP,使用分階段獎勵函數,求解式(13)所示的最優策略π*。為此,本文設計了多層感知機(multilayer perceptron,MLP)形式的制導策略網絡,并基于鄰近策略優化(proximal policy optimization,PPO)算法[13]對制導策略進行訓練。

3.1 制導策略網絡設計

制導策略網絡如圖1所示。

圖1 制導策略網絡Fig.1 Guidance policy network

根據火箭著陸MDP,制導策略網絡的輸入為7 維狀態量s,輸出為3 維行為量a,故采用如圖1所示的MLP結構構建著陸制導策略網絡,輸入層節點數為7,中間層包含2 層100 節點隱層,輸出層節點數為6,分別對應三維行為量的分布均值μ=[μ1,μ2,μ3]T及標準差σ=[σ1,σ2,σ3]T,最終按高斯分布a~N[μ,diag(σ)]采樣輸出行為量。

3.2 基于PPO的制導策略網絡優化

本文使用不基于模型的PPO 算法,對著陸制導策略網絡進行優化,得到式(13)所示的最優策略。

將神經網絡形式的制導策略記為πθ,其中θ為策略網絡參數,則式(13)可記為

為求解最優策略參數θ*,采用策略梯度法對網絡參數θ進行迭代更新,理想參數更新梯度為

對于著陸制導問題,理想更新梯度中的期望計算需要對7 維連續狀態量和3 維連續行為量空間進行積分,故利用前一次迭代得到的著陸制導策略πθold與火箭著陸MDP 進行交互采樣,產生長度為H的狀態量及控制量序列τθold={(s1,a1),(s2,a2),…,(sH,aH)},則近似參數更新梯度為

式中:ρθ(st,at)為當前迭代策略πθ與采樣策略πθold之比,即

為提高式(19)所示的近似參數更新梯度對式(18)所示的理想參數更新梯度的近似程度,一方面,由價值函數網絡對累計獎勵進行估計,以減小交互采樣帶來的隨機性;另一方面,通過對ρθ進行限幅,限制當前迭代策略與采樣策略的差異。因此,最終用于更新制導策略網絡參數的梯度表示為

式中:clip 為限幅函數,將當前迭代策略與采樣策略的比值限幅在[1-ε,1+ε]區間;Aφ為優勢函數,由網絡參數為φ的價值網絡Vφ表示為

式中:價值網絡Vφ使用廣義優勢估計(generalized advantage estimator,GAE)方法[14],根據采樣序列τθold實時更新。

根據式(21)所示梯度,迭代更新制導策略網絡參數,算法流程如圖2。

圖2 著陸制導策略網絡優化算法Fig.2 Optimization algorithm of landing guidance policy network

3.2 制導策略訓練

根據基于PPO 的著陸制導策略網絡優化算法,依次使用火箭著陸MDP 的4 個階段獎勵函數進行制導策略網絡優化,其中第1階段訓練使用隨機初始化,其余階段使用上一階段訓練完成策略作為初始策略。

每階段訓練中算法參數設定為:Hmax=3×106、H=500、α=0.001、ε=0.2。

圖3~6分別為使用4個階段獎勵函數進行訓練所得累計獎勵收斂曲線。

圖3 第1階段累計獎勵Fig.3 Cumulated reward in phase 1

由式(14)可知,第1階段獎勵函數為負值,且火箭距離著陸點越近,獎勵函數值越接近0。由圖3所示,經過第1 階段訓練,累計獎勵絕對值減小71%。累計獎勵的提升說明,相比初始隨機制導策略,第1階段訓練所得制導策略能夠引導火箭抵達著陸點、滿足終端位置約束。

由式(15)可知,第2階段獎勵函數為正值,且火箭距離著陸點越近、速度越小,即在速度-位置空間中位于更多獎勵球面內部,從而獲得更高獎勵。由圖4所示,經過第2 階段訓練,累計獎勵提升108%,這說明,在第1 階段所得制導策略基礎上,第2 階段所得策略滿足更高的終端位置和速度約束精度。

圖4 第2階段累計獎勵Fig.4 Cumulated reward in phase 2

由式(16)可知,第3 階段獎勵函數中加入了燃料消耗懲罰項,故圖5 中的初始累計獎勵小于第2 階段結束時刻的累計獎勵。經過第3 階段訓練,累計獎勵提升119%,這表明第3 階段所得制導策略在保證終端位置、速度約束前提下,對燃料消耗指標進行了優化。

圖5 第3階段累計獎勵Fig.5 Cumulated reward in phase 3

由圖6所示,增加獎勵球面密度后,經第4 階段訓練,累計獎勵提升33%,這表明制導策略的終端位置、速度精度得到進一步提升。

圖6 第4階段累計獎勵Fig.6 Cumulated reward in phase 4

4 仿真驗證

將強化學習訓練結束后的制導策略網絡參數固定,與火箭著陸制導動力學構成如圖7所示的制導閉環,進行仿真驗證。

圖7 強化學習制導策略仿真閉環Fig.7 Reinforcement learning guidance policy simulation loop

4.1 著陸精度及燃料消耗指標驗證

采用某型可回收運載火箭參數,以強化學習制導策略訓練時的初始位置r0、速度v0、質量m0作為初始條件,使用本文所設計的強化學習制導策略進行仿真,仿真結束條件為火箭高度z=0。同時,為驗證強化學習制導策略的終端位置、速度精度以及對燃料消耗的優化能力,采用文獻[6]中的凸優化著陸制導方法,同樣以0.5 s的制導周期,在相同工況下進行仿真,得到對最優制導軌跡的離散近似,將兩種方法仿真結果進行對比,如圖8~11所示。

如圖8 及圖9所示,兩種制導方法均能實現終端位置及速度的收斂。其中,強化學習制導策略終端精度為4.900 8 m、1.462 1 m/s;凸優化著陸制導終端精度為14.245 0 m、1.708 0 m/s。可見,在相同制導周期下,強化學習制導策略具有更高的終端著陸精度。

圖8 著陸軌跡Fig.8 Landing trajectory

圖9 著陸速度Fig.9 Landing velocity

圖10 為兩種著陸制導方法的燃料消耗對比。其中,強化學習制導策略燃料消耗為7 093 kg,與凸優化著陸制導所得6 891 kg 的最優結果之間的偏差為2.9%。

圖10 含燃料質量Fig.10 Launch vehicle mass with fuel

同時,由圖11 給出的推力幅值曲線對比可知,強化學習制導策略的推力幅值符合最優解的Bang-Bang變化規律,但由于高斯分布的隨機性,在13~25 s的滿推區間內存在多次推力幅值切換。

圖11 推力幅值Fig.11 Thrust magnitude

綜上可知,強化學習制導策略能夠實現火箭著陸的終端精度,且其燃料消耗與最優軌跡燃料消耗的偏差小于3%。

4.2 泛化能力驗證

強化學習制導策略的泛化能力,在初始條件r0、v0、m0、及氣動阻力系數CD均加入10%偏差的條件下進行仿真,仿真結果如圖12~15所示。

在上述模型存在偏差情況下,由圖12~13 可知,強化學習著陸制導律仍能夠滿足終端約束,精度為4.263 0 m、1.335 0 m/s;由圖14~15 可知,燃料消耗為8 000 kg,且推力幅值仍符合最優的Bang-Bang形式。

圖12 模型偏差下的著陸軌跡Fig.12 Landing trajectory under model uncertainty

圖13 模型偏差下的著陸速度Fig.13 Landing velocity under model uncertainty

圖14 模型偏差下的含燃料質量Fig.14 Launch vehicle mass with fuel under model uncertainty

綜上可知,強化學習制導律并不依賴于訓練時的模型,具有對模型偏差的泛化能力。

圖15 模型偏差下的推力幅值Fig.15 Thrust magnitude under model uncertainty

5 結束語

針對具有終端約束和燃料消耗指標優化的火箭著陸制導問題,本文設計了基于強化學習的制導策略。通過火箭著陸馬爾可夫決策過程模型中獎勵函數的設計,分階段實現終端約束的滿足和燃料消耗的優化;通過不基于模型的強化學習算法訓練,得到對模型偏差具備泛化能力的制導策略。經過可回收運載火箭著陸段仿真驗證,證明該強化學習制導策略能夠滿足火箭著陸終端約束、燃料消耗指標與最優解相近,且能夠適應動力學模型的參數偏差。本文提出的方法適用于可回收運載火箭的自主著陸,具有一定的工程應用價值。

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 日韩中文无码av超清| 亚洲综合一区国产精品| 亚洲日本精品一区二区| 精品国产自在在线在线观看| 国产欧美日韩另类| 丁香综合在线| 国产女人在线| 久久国产精品夜色| 五月天丁香婷婷综合久久| 日本亚洲最大的色成网站www| 麻豆国产精品视频| 狼友视频国产精品首页| 亚洲aaa视频| 91一级片| 久久77777| 国产在线拍偷自揄拍精品 | 在线欧美国产| 91极品美女高潮叫床在线观看| 国产精品偷伦在线观看| 黄片在线永久| 亚洲欧州色色免费AV| 最新国产麻豆aⅴ精品无| 在线免费看片a| a毛片基地免费大全| 国产无码性爱一区二区三区| 精品欧美一区二区三区在线| 天天躁狠狠躁| 99久久精品免费看国产免费软件 | 青青草a国产免费观看| 欧美97欧美综合色伦图| 欧美亚洲国产精品久久蜜芽| 婷婷激情亚洲| 亚洲综合婷婷激情| 18禁色诱爆乳网站| 成年人国产网站| 91精品专区| 在线a网站| 国产精品亚洲片在线va| 无码一区中文字幕| 久久99蜜桃精品久久久久小说| 精品视频一区在线观看| 国产在线一区视频| 亚洲精品少妇熟女| 日本午夜在线视频| 亚洲国产清纯| 久久美女精品国产精品亚洲| 国产精品性| 亚洲不卡影院| 国产自视频| 中国丰满人妻无码束缚啪啪| 视频一区亚洲| 色首页AV在线| 黄色网页在线观看| 中文字幕精品一区二区三区视频| 亚洲久悠悠色悠在线播放| 免费一级毛片不卡在线播放| 日本a级免费| 亚洲一区网站| 2021国产乱人伦在线播放| 国产性生大片免费观看性欧美| 色悠久久久| 日本道综合一本久久久88| 人妻中文久热无码丝袜| 国产麻豆福利av在线播放 | 成人小视频网| 日韩一级二级三级| 激情无码字幕综合| 真实国产乱子伦视频| 国产欧美精品一区aⅴ影院| 久久人妻系列无码一区| 国产乱子伦无码精品小说| 四虎在线观看视频高清无码| 国产人妖视频一区在线观看| 91精品网站| 天天综合网色| 日本不卡在线| 亚洲AⅤ波多系列中文字幕| 久久国产精品影院| 伊大人香蕉久久网欧美| 国产成人乱码一区二区三区在线| 夜夜爽免费视频| 国产自在线播放|