航天器末端攔截自適應博弈策略

2020-04-15 09:28:06王淳寶孫兆偉孫楚琦

宇航學報 2020年3期

關鍵詞：策略

王淳寶，葉東，孫兆偉，孫楚琦

(哈爾濱工業大學航天學院，哈爾濱 150001)

0 引言

衛星作為空間力量重要組成部分，具有傳送信息量大、不受地形限制等優點，可以為指揮者制定策略提供戰場信息，也可為導彈等作戰單元提供導航制導信息[1]。因此為了奪取戰時空間信息主動權，對敵方衛星實施攔截打擊有著重要意義。

針對攔截問題，文獻[2-3]基于滑模面進行了導彈的制導與控制一體化設計，仿真表明了采用所設計的控制方法能夠滿足攔截要求。賴超等[4]考慮目標進行機動時的攔截策略，基于動態面和擴張狀態觀測器對制導與控制進行了設計，仿真分析了目標在進行正弦機動時，采用相應的控制策略能夠實現對目標的精確攔截。雖然上述文獻對目標攔截問題均進行了研究，但其中的目標并未進行機動或未采取最優的機動策略。而隨著科技的發展，目標獲取空間戰場信息能力的提高，可以對戰場情報進行分析，并做出相應的決策，采取最優躲避策略以應對不同的戰場態勢，此時攔截策略的設計需要考慮目標機動的最優性，傳統的攔截方法已不能滿足攔截要求，單邊攔截策略已不再適用。此外，隨著衛星任務的復雜化及多樣化，目標的被動逃逸可能會影響其任務的實施，此時為了避免具有重要價值的衛星被攔截，附近通常會存在伴飛星進行主動防御，這種態勢無疑增加了攔截難度，對空間攔截提出了更高的要求，因此研究存在防御器的多邊攔截策略有著重要的意義。

針對多邊攔截問題，學者們已經進行了充分的研究。史明明[1]分別考慮了衛星遠程攔截、近程攔截時的控制策略，遠程攔截時建立了考慮J2攝動的動力學模型，近程攔截以CW方程為模型，基于微分對策分別給出了相應的最優控制策略。Horie等[5]基于飛機三維動力學模型，通過微分對策理論將攔截問題轉化為兩點邊值問題，通過仿真分析，最優飛行軌跡分為偏離垂直平面以及垂直面內運動的兩個階段。Shinar等[6]考慮二維平面攔截，且離散控制的情況，設計了攔截器在有限步數內成功攔截目標的最優控制策略。當攔截器動力學模型較復雜時，通過微分對策理論會得到非線性強耦合的兩點邊值問題方程組，一般難以求解。文獻[7-8]給出了一種求解兩點邊值問題的方法，即半直接配點法：將整個控制過程離散化，分別對每段進行優化設計，以得到完整的控制規律，該方法可以有效地求解兩點邊值問題。

當攔截器距離目標較近時，攔截過程進入末端攔截，此時攔截器利用自身的敏感器可以獲得精度較高的目標信息，從而實現精確攔截。針對末端攔截問題，Prussing等[9-10]應用主矢量理論分別研究了多脈沖逃逸策略以及攔截策略。文獻[11]考慮航天器攔截目標后返回原軌道的情況，通過在目標函數中引入一個參數k對路徑進行約束。Stupik等[12]基于CW方程，應用最大值原理求解攔截控制問題，對于開環解應用粒子群優化方法進行求解，閉環解應用Kriging方法求解，其中的Kriging方法是插值和外推相結合的方法，是一種狀態反饋控制器。Gutman等[13]在雙積分動力學模型的基礎上，以終端相對距離為指標建立了攔截器與目標的控制策略，并分別給出了在極坐標、球坐標下的策略形式。文獻[14-15]在給出攔截器與目標的控制策略的基礎上，建立了關于攔截剩余時間的一元四次方程，以求解終端攔截時間，并討論了方程的分叉現象。文獻[16]討論了攔截過程中角度測量存在噪聲的情況，通過狀態觀測器實現對角度的估計，再將其應用于控制策略。

對于三星博弈問題，Garcia等[17-18]，Pachter等[19-20]假設攔截器、防御器與目標三者的速度大小不變，因此三者運動軌跡為直線，應用微分對策求解最優飛行路徑角，經過進一步分析，三者軌跡覆蓋區域為阿波羅尼圓，簡化了求解過程。文獻[21]以簡單的雙積分系統為模型，研究了攔截器、目標和防御器三者的追逃控制策略，同樣對終端攔截時間進行了求解，仿真表明了過短的攔截時間不能實現對目標的攔截。

雖然對于航天器末端攔截問題已經存在較多的研究，但大多局限于攔截器與目標的雙星博弈。對于三星博弈問題，大多局限于針對簡化模型進行研究，與實際情況偏差較大。此外，對于不同博弈態勢，終端攔截時間作為博弈策略參數，其設定具有隨機性，導致策略自適應性較差。本文針對具有防御器的三星博弈末端攔截問題進行研究，由于各航天器之間利益對立，符合博弈思想，因此采用微分對策理論進行求解，推導了各航天器的博弈策略，并提出了時間分析方程以計算終端攔截時間，提高策略的自適應性。

本文安排如下：首先建立了航天器末端攔截動力學模型。其次，討論了雙星博弈態勢，基于零控脫靶量推導了攔截器與目標的最優博弈策略，同時建立雙邊時間分析方程以消除終端攔截時間的隨機特性，將隨機終端博弈轉化為固定終端博弈。再次，將雙星博弈擴展為目標攜帶防御器的三星博弈，類似的方法推導了各航天器的分段博弈策略，同時修正雙邊時間分析方程以適應三星博弈態勢。最后，將建立的博弈策略、時間分析方程應用于三星博弈攔截，并進行了相應的仿真分析。

1 末端攔截動力學模型

在末端攔截過程中，攔截器與目標的相對距離較近，因此在攔截器附近建立參考衛星，如圖1，其中，O1為參考衛星，P為攔截器。設參考衛星運行在圓軌道，以參考衛星為原點，O1x軸沿著參考衛星地心矢徑方向，O1z軸沿著軌道角動量方向，O1y軸滿足右手定則，定義軌道坐標系O1xyz，在該坐標系下，攔截器相對參考衛星的動力學方程可以簡化為CW方程。

圖1 攔截器與參考衛星Fig.1 Interceptor and reference satellite

(1)

式中：x,y,z為攔截器相對參考衛星的位置，ω為參考衛星的軌道角速度，ux,uy,uz分別為攔截器的控制輸入。

(2)

由線性系統理論可得狀態轉移矩陣為

(3)

其中的子矩陣分別為[22]

2 雙星博弈攔截策略

若目標不攜帶防御器，則攔截過程呈現雙星博弈態勢，此時攔截器與目標的動力學方程均滿足CW方程，即

(4)

定義攔截器與目標的相對狀態

XPE=XP-XE

關于時間求導，并結合式(4)整理可得相對動力學方程

(5)

式中：C=B。

2.1 最優博弈策略設計

在攔截過程中，攔截器與目標圍繞攔截終端距離展開爭奪，因此只需考慮兩星的位置矢量[14]，定義零控脫靶量ZPE(t)對系統進行降維處理

ZPE(t)=MΦ(tf,t)XPE

(6)

式中：M=[I3,03×3]，I3為3×3的單位陣。

對式(6)求導，并綜合式(5)可得

M(ΦBUP-ΦCUE)=BPUP+CEUE

(7)

式中：tf為終端攔截時間，且BP=MΦ(tf,t)B=Φ12，CE=-MΦ(tf,t)C=-Φ12。

(8)

(9)

(10)

(11)

2.2 終端攔截時間的確定

由式(10)～(11)以及零控脫靶量定義式(6)可知，終端攔截時間是調整博弈策略的重要參數。選取不同終端攔截時間tf，將攔截器與目標的策略(10)～(11)代入式并積分，可得在不同攔截時間條件下，攔截器與目標相對距離的變化，如圖2所示。可以看出，當選取特定的攔截時間后，攔截器會在該時刻實現對目標的攔截，并不會提前攔截目標，因此，終端攔截時間的設定直接影響了博弈結果。

圖2 不同攔截時間下攔截器與目標相對距離的變化Fig.2 Relative distance between interceptor and target with different intercept time

但在文獻[1]和[23]中，終端攔截時間均直接給定，隨機性較大，對于不同博弈態勢，需要設定不同的攔截時間，自適應性較差。針對該問題，提出雙邊時間分析方程以確定終端攔截時間，達到消除攔截時間隨機性，提高策略自適應性的目的。

將攔截器與目標的博弈策略(10)～(11)帶入式(7)中得

(12)

定義攔截剩余時間tgo=tf-t，當終端攔截時間不變時，有dtgo=-dt，于是

(13)

積分式(13)得到零控脫靶量ZPE(tgo)隨剩余時間tgo的變化關系

(14)

定義ZPE(0)=l，其中l為攔截器的攔截半徑，對式(14)取范數并記為

(15)

此外，對于式(6)有

(16)

聯立式(15)～(16)兩式，可以得到關于剩余時間tgo的方程，即

(17)

3 三星博弈攔截策略

對于具有重要價值的目標，附近通常存在伴飛防御器，以保護其不被攔截[24-25]，此時末端攔截會呈現三星博弈態勢，博弈過程更加復雜，攔截更加困難。針對該問題，需要重新設計航天器博弈策略，并對雙邊時間分析方程進行修正。

在三星博弈態勢下，攔截器、目標、防御器三星的運動均滿足CW方程，即

(18)

定義攔截器與目標的相對狀態XPE，以及攔截器與防御器的相對狀態XDP，對其求導，并結合式(18)整理得到相對狀態方程

(19)

(20)

式中：D=B。

3.1 分段最優博弈策略設計

與第2節類似，分別定義ZPE(t),ZDP(t)為攔截器與目標、防御器與攔截器的零控脫靶量

ZPE(t)=MΦ(tf1,t)XPE

(21)

ZDP(t)=MΦ(tf2,t)XDP

(22)

式中：tf2,tf1分別為防御器反攔截時間和終端攔截時間，且滿足tf2

對式(21)～(22)兩式求導，并結合式(19)～(20)兩式整理得

(23)

BP2UP+DDUD

(24)

式中：BP1=DD=MΦ(tf1,t)B=Φ12(tf1,t),BP2=CE=-MΦ(tf2,t)B=-Φ12(tf2,t)。

在三星博弈攔截對抗中，攔截器與目標利益對立，攔截器與防御器同樣存在利益對立關系，導致三星之間相互影響。為了降低該影響，以tf2作為博弈策略切換時間將其化為分段雙星博弈：第一階段為攔截器與防御器的雙星博弈，此階段攔截器只躲避防御器；第二階段為攔截器與目標的雙星博弈，此階段攔截器已成功躲避防御器，只考慮攔截目標。因此定義指標函數JPE,JDP分別為tf1,tf2時刻的相對零控脫靶量

(25)

(26)

(27)

對式(25)進行類似地推導并綜合上述分析，可得各航天器的分段最優博弈策略為

當t0

(28)

(29)

當tf2

(30)

UD=0

(31)

目標的博弈策略一直為

(32)

當攔截器采用策略(30)時，攔截器與目標之間的零控脫靶量變化如圖3中的Z1，攔截器與防御器之間的零控脫靶量變化如圖3中的Z4；當攔截器采用策略(28)時，攔截器與目標之間的零控脫靶量變化如圖3中的Z2，攔截器與防御器之間的零控脫靶量變化如圖3中的Z3。

圖3 不同策略下零控脫靶量的變化Fig.3 Changes of zero effort miss under different strategies

可以看出，當攔截器躲避防御器時，會導致攔截器與目標之間的相對距離變大，因此為了達到攔截目標的快速性，需要提前攔截器博弈策略的切換時間點，在t0～tf2之間定義躲避時間tf3，攔截器在t0～tf2時間內采取如下分段策略：

防御器與目標的策略不變，記此時三星的博弈策略為(*)。相應的攔截過程為：當t0tf3時，攔截器切換為攔截策略(29)快速攔截目標。

由于策略(30)會導致攔截器與防御器之間的相對距離減小，因此需要合理設定切換時間點tf3，以保證在t0～tf2范圍內攔截器不被防御器反攔截。

3.2 終端攔截時間的分段確定

定義攔截器與防御器的安全距離m，在t0～tf2時間內各航天器采取相應的分段博弈策略(*)，帶入式(24)，同時令tgo2=tf2-t，由終端攔截時間tf2不變得到dtgo2=-dt，因此

當t0

(33)

當tf3

(34)

積分式(33)～(34)，并分別記為

ZDP(tgo2)=g1(tgo2)

(35)

(36)

由攔截器不被反攔截得到tf2時刻的終端條件

(37)

同時，在tf3時刻有狀態連續條件

g1(tf2-tf3)=g2(tf2-tf3)

(38)

綜合式(35)～(38)以及零控脫靶量的定義式(22)可解出最短躲避時間tf3。

4 仿真校驗

為了驗證博弈策略及時間分析方程的有效性，分別對雙星博弈隨機、固定終端攔截，以及三星博弈隨機、固定終端攔截四種態勢進行仿真驗證。

初始條件如下：設攔截器、目標、防御器均在地球同步軌道附近運動，則將參考衛星選為GEO軌道上與其相近的衛星，軌道角速度為w=7.2722×10-5rad/s。攔截器的推力幅值為ρP=0.686 m/s2，目標的推力幅值為ρE=1/2ρPm/s2，防御器的推力幅值為ρD=5/8ρPm/s2。攔截器初始狀態為[0, 0, 0, -0.005, 0, 0.005]，目標初始狀態為[2, 0, 1, 0, 0.005, 0]，防御器初始狀態為[1, 0, 0, 0.005, 0, 0]，位置單位為km，速度單位為km/s。設攔截器與目標之間的攔截距離為1 m，攔截器與防御器之間的安全距離為100 m。假設防御器反攔截時間tf2=200 s。

1) 雙星博弈隨機終端攔截，此時攔截空間只存在攔截器與目標。設終端攔截時間為200 s，圖4和圖5分別給出了該博弈態勢下，攔截器與目標的運動軌跡和相對距離的變化。可以看出，在終端攔截時間為200 s的情況下，攔截器可以實現對目標的攔截，但由圖2可知，設定攔截時間為200 s不是最快的攔截方案，即可以在更短的時間內攔截目標。

圖4 隨機終端下的雙星博弈運動軌跡Fig.4 Motion trajectory of two-satellite game with stochastic terminal time

圖5 隨機終端下的雙星博弈相對距離Fig.5 Relative distance of two-satellite game with stochastic terminal time

圖6給出了攔截器與目標的三維運動軌跡，圖7繪制了兩星相對距離的變化情況，可以看出，在126.28 s時，兩星的相對距離為0.7 m，滿足攔截條件。

圖6 固定終端下的雙星博弈運動軌跡Fig.6 Motion trajectory of two-satellite game with fixed terminal time

圖7 固定終端下的雙星博弈相對距離Fig.7 Relative distance of two-satellite game with fixed terminal time

3) 三星博弈隨機終端攔截，即博弈空間存在攔截器、目標與防御器。此時的攔截時間、躲避時間均是隨機變量，需要人為設定。

圖8繪制了在不同躲避時間下，攔截器與目標終端距離隨攔截時間的變化情況，此時暫不考慮攔截器是否被防御器反攔截。可以看出，隨著躲避時間的增加，攔截目標所需時間也相應地增加，因此在博弈過程中，為了快速攔截目標，躲避時間不應過長。

圖9繪制了在不同攔截時間下，攔截器與防御器最短距離隨躲避時間的變化情況，類似地，此時暫不考慮是否成功攔截目標。可以看出，攔截器與防御器最短距離與躲避時間之間呈現非線性關系，而且終端攔截時間對躲避時間也會產生影響，當設定攔截時間大于300 s時，攔截器不被反攔截至少需要15 s，但當攔截時間設定為200 s時，相應的躲避時間只需6 s左右，因此在博弈開始前，終端攔截時間與躲避時間應合理地進行設定，以達到最優攔截狀態。

圖8 攔截器與目標終端距離Fig.8 Terminal distance between interceptor and target

圖9 攔截器與防御器的最短距離Fig.9 Minimal distance between interceptor and defender

若不采用時間方程計算攔截時間與躲避時間，為了保證成功攔截目標且不被反攔截，攔截器通常會選取較大的攔截時間，相應的躲避時間也會較大。這里選取攔截時間tf1=500 s，躲避時間tf3=50 s進行仿真，此時攔截器、目標和防御器的三維運動軌跡如圖10，圖11給出了三星之間的相對距離隨時間的變化規律。

從圖11中可以看出，博弈過程中攔截器與目標之間的相對距離峰值較大，雖然最后成功攔截，但消耗了較多的時間，攔截效率較低。同時攔截器與防御器之間的最短相對距離為140 m，有被反攔截的風險。由圖8，圖9可知，相比于選取較大的攔截時間與躲避時間，存在著更優的時間選取方案。

圖10 隨機終端下的三星博弈運動軌跡Fig.10 Motion trajectory of three-satellite game with stochostic terminal time

4) 三星博弈固定終端攔截。此時通過時間分析方程得到終端攔截時間tf1=200 s，躲避時間tf3=8 s。相比于2)的雙星博弈固定終端攔截，終端攔截時間明顯增加，防御器的引入直接減慢了博弈速度。相比于3)的三星隨機終端博弈，時間方程可以計算得到圖8，圖9中最佳的時間選取方案，此時的攔截方案更優。

圖12、圖13分別給出了三星的運動軌跡以及相對距離的變化情況。可以看出，攔截器與目標的終端距離為1 m，滿足攔截條件。此時攔截器與防御器之間的最小相對距離為190 m。與3)的三星隨機終端博弈相比，8 s的躲避時間就可以保證攔截器不被防御器反攔截，明顯縮短了躲避時間，節約了攔截成本，提高了攔截效率。

圖12 固定終端下的三星博弈運動軌跡Fig.12 Motion trajectory of three-satellite game with fixed terminal time

圖13 固定終端下的三星博弈相對距離Fig.13 Relative distance of three-satellite game with fixed terminal time

5 結論

本文研究了航天器末端攔截博弈問題，基于微分對策理論建立了多邊攔截策略，具有以下特點：

1) 針對策略中終端攔截時間的設定隨機性問題，創新性地提出了時間分析方程，將隨機終端博弈轉化為固定終端博弈，提高了攔截策略的自適應性。

2) 攔截空間中防御器的引入導致三星博弈態勢，以及攔截時間的延長，通過博弈策略的切換將其化為分段雙星博弈，降低了攔截難度。

3) 針對不同博弈態勢進行仿真，結果表明應用所建立的博弈策略，攔截器在不被防御器反攔截的情況下，能夠實現對目標的打擊，具有一定的工程價值。