袁 利 姜甜甜
隨著人類太空活動的日漸頻繁,軌道空間日益擁擠,空間碎片數量持續增加,給航天器在軌安全穩定運行帶來嚴峻挑戰.特別是,2019 年以來 “星鏈” (Starlink)、“一網” (OneWeb) 等低軌巨型星座計劃的持續推進與部署,使得軌道空間密集程度呈現指數級增長趨勢[1-2],碰撞風險激增,太空安全事件頻發.據美國國家航空航天局 (National Aeronautics and Space Administration,NASA) 2020年8 月發布的報告,國際空間站自1999 年起共實施了27 次避撞機動,其中,2 次躲避 “風云一號C”(FY-1C) 氣象衛星2007 年爆炸解體產生的碎片,5次躲避 “宇宙-2251” (Cosmos 2251)衛星和 “銥星-33” (Iridium 33)衛星2009 年撞擊產生的碎片[3].2019 年9 月2 日,歐洲航天局(European Space Agency,ESA) 為避免 “風神” (Aeolus) 氣象衛星與 “星鏈-44” (Starlink-44)衛星的潛在碰撞風險(碰撞概率超過1‰),實施了規避機動操作[4].2021年3 月30 日,美國第18 太空監視中隊(The 18th Space Control Squadron,18 SPCS)監測到,“一網-0178” (OneWeb-0178) 衛星在升軌過程中與 “星鏈-1546” (Starlink-1546) 存在很高的碰撞風險,兩顆衛星的距離只有約57.9 米,發生碰撞的可能性高達1.3%,之后美國太空探索技術公司(SpaceX)關閉了Starlink-1546 衛星的自動碰撞規避系統,一網采取了主動規避碰撞措施[5].2021 年7 月1 日和10月21 日,出于安全考慮,中國空間站組合體在地面指揮控制下,分別對向其主動接近的 “星鏈-1095”(Starlink-1095) 衛星和 “星鏈-2305” (Starlink-2305)衛星實施了緊急避碰控制,規避了碰撞風險.伴隨著頻繁發生的太空安全事件,航天器執行既定任務時的威脅規避逐漸成為其日常操作中的一項常規任務.
與此同時,太空競爭不斷加劇,新形態的軌道威脅不斷涌現.太空作為與陸、海、空、網絡空間等同的作戰疆域,已成為大國角逐的戰略制高點.美國針對未來太空戰已進行10 余次 “施里弗”(Schriever)系列演習[6];“地球同步軌道空間態勢感知計劃” (Geosynchronous space situational awareness program,GSSAP)衛星,“局部空間自主導航與制導試驗” (Automated navigation and guidance experiment for local space,ANGELS)衛星,以及 “漸進一次性運載火箭次級有效載荷適配器增強型地球同步實驗室試驗” (Evolved expendable launch vehicle secondary payload adapter augmented geosynchronous laboratory experiment,EAGLE)衛星攜帶的空間態勢感知實驗衛星Mycroft 等形成了在軌監視和抵近偵察能力[7-11],太空實戰博弈方面優勢明顯.2014 年以來,GSSAP 衛星進行了數百次機動,以抵近偵察的方式對中國多顆商業衛星實施干擾[12].
面對空間碎片/失效衛星碰撞、敵意衛星干擾等各類軌道威脅,常用的應對手段包括軌道機動、姿態機動、改變工作狀態、拍照取證 “溯源拒止”等.目前,通常采用 “地面測定軌+遙測下傳→威脅判定→決策規劃→上注指令→在軌執行”的 “星地大回路”威脅處置方式,威脅判定和決策規劃均由地面人員完成.以ESA 空間碎片辦公室 (Space Debris Office,SDO) 提供的碰撞規避服務為例,在收到美國聯合太空作戰中心(Combined Space Operations Center,CSpOC)共享的交會數據(Conjunction data messages,CDMs)后,地面操作人員會進行交會事件檢測和碰撞風險評估,并進一步對碰撞風險高的目標進行軌道確定、軌道和協方差演化分析等,給出規避決策和機動建議,以及考慮各種約束的避碰機動規劃[13-14].然而,這種嚴重依賴地面的威脅處置方式,存在窗口和弧段時空約束多、星地回路時間鏈條長、運維指控人為因素多等問題,導致威脅處置時效性差、運控壓力大,往往對威脅反應 “過鈍”或 “過度”,嚴重影響航天器在軌運行的安全性和業務的連續性,難以適應威脅數量持續增長、環境日益惡化的空間態勢.
近年來,世界航天強國致力于發展面對軌道威脅的智能自主控制技術,能夠自主感知威脅、自主制定規避策略并自主完成規避動作.例如,美國SpaceX 宣稱,星鏈衛星裝載了自動防撞軟件,在收到美國CSpOC 發布的潛在碰撞風險通知時,不需要人的參與,該軟件將自行決定是否以及如何進行規避機動,并將信息返回給CSpOC[15].再如,為確保衛星及大型星群的安全運行,ESA 正在發展航天器自主防撞系統,可根據軌道編目情況,自動評估碰撞風險,給出通行/不通行的決策建議,并進行規避機動設計與執行[4,16];并在2019 年召開的第一屆國際軌道碎片會議(International Orbital Debris Conference,IOC)上,公開了碰撞風險評估和自動緩解方案(Collision risk estimation and automated mitigation,CREAM),目的是通過發展自主決策、規劃以及規避機動執行等技術,在沒有人為干預的情況下進行安全有效的碰撞規避[17].
本文圍繞航天器面對威脅規避任務的智能自主控制技術,首先對軌道威脅的感知、威脅規避決策規劃、規避機動動作執行、自主控制系統架構與模型4 個方面的研究現狀進行了調研分析;在此基礎上,結合航天器自身及其運行環境的特殊性,總結提出了航天器威脅規避智能自主控制技術面臨的主要瓶頸問題,分析指出發展 “感知-決策-執行”一體化控制是破解技術瓶頸的有效手段.最后,從一體化控制系統建模、設計、分析與驗證多個方面,系統討論了航天器威脅規避智能自主控制需要重點研究的若干基礎問題.
航天器面對威脅規避任務的智能自主控制,不同于傳統 “星地大回路”的任務模式,需要通過 “感知-決策-執行”星上閉環,以及與人工智能、博弈論等相關技術的深度融合,賦予航天器面對未知不確定環境和復雜動態任務的感知、決策、執行等能力[12,18-19],進而實現航天器在沒有人為干預的情況下,在復雜空間環境、既定任務、星上資源、軌道等約束條件下,以最小的代價,自主完成對空間碎片/失效衛星碰撞、敵意衛星干擾等各類軌道威脅的探測、識別和風險評估,及時生成安全有效的規避策略和動作序列,并完成規避動作的高品質執行 (見圖1).

圖1 面向軌道威脅的航天器 “感知-決策-執行” 星上閉環過程Fig.1 Spacecraft on-board “perception-decision-action” closed-loop process for orbital threats
上述過程涉及軌道威脅目標的感知、自主決策規劃、規避機動動作執行,以及支撐 “感知-決策-執行”星上閉環的智能自主控制系統架構等技術領域.本節圍繞以上4 個方面介紹航天器軌道威脅自主規避的國內外研究現狀.
早在20 世紀80 年代,美國聯合領導實驗室(Joint Directors of Laboratories,JDL)就從信息融合角度提出了三層威脅評估模型,包括目標狀態和屬性估計、態勢評估與威脅評估三個層級[20-21].其中,目標狀態和屬性估計主要是獲取目標運動、形態和輻射特性等信息;態勢評估又可劃分為態勢元素提取 (特征提取)、態勢理解和未來狀態預測三個環節[22];威脅評估的重點在于推理對方意圖和目的,產生定量的威脅能力評估,并量化判斷對方對我方的威脅程度.
對于軌道空間,威脅感知包括利用可見光、雷達、紅外等天基空間探測手段,輔以地基空間態勢感知系統,獲取航天器運行軌道環境及目標的測量信息,進行目標運動狀態和軌跡估計、異動行為(如抵近、繞飛、伴飛)檢測、本體及載荷形態特征識別,得到威脅目標運動、形態等不同維度的特征要素,形成對威脅目標行為特征的完備表達;并綜合目標運動特征、形態特征,以及歷史行為特征等進行推理形成知識,給出威脅類型、行為意圖、威脅等級的綜合判定.其中,威脅類型、行為意圖、威脅等級的綜合判定側重于對威脅態勢的理解和認知.
軌道空間跨度大,威脅目標的測量距離從米級到千公里量級.當航天器與被觀測目標距離較遠時,基于光學觀測的成像分辨率低,僅能獲取目標的視線角信息.由于測距信息的缺失,僅測角無源定位跟蹤存在觀測幾何差、系統可觀測度低的問題,難以保證對目標運動狀態的有效估計.對此,發展出多視線協同法、軌道機動法、相機偏置法、非線性動力學法等多類方法.通過多航天器的協同觀測,利用對目標的多視線測量信息,可采用卡爾曼 (Kalman) 濾波及其改進方法給出目標運動狀態的估計[23-24].當協同觀測條件難以保證時,可通過航天器軌道機動,利用其累計一個時間序列上的觀測量,實現基于單視線測量信息的相對導航[25].文獻[26-28]討論了軌道機動對可觀測性的影響,并給出了可觀測性最優的軌道機動方案.然而,軌道機動往往會影響航天器業務的連續性,且會增加燃料消耗.Klein 等[29]提出了相機偏置法,通過偏置安裝相機,可在距離較近時獲得較好的距離可觀測度,但不適用于遠距離探測.此外,通過引入J2 地球非球形攝動、大氣阻力攝動等因素,構建非線性相對軌道運動動力學模型,理論上可使線性模型中不完全可觀的距離狀態完全可觀.沿著這一思路,提出了多種基于非線性動力學模型[30]的僅測角相對導航算法[31],但存在求解復雜度高、實際性能難以保證等不足.
除軌道確定外,空間目標的變軌機動也是需要關注的威脅因素.Roberts 等[32]提出了一種基于卷積神經網絡 (Convolutional neural networks,CNN) 的地球同步軌道(Geostationary earth orbit,GEO)衛星經度機動檢測方法;文獻[33]僅利用目標的視線角信息,給出了一種對測角信息進行多假設檢驗加權融合的軌道機動檢測方法.實際工程中,軌道機動檢測結果很大程度上受觀測能力和目標機動特性的制約.在天基觀測信息不完備、觀測條件苛刻的情況下,如何選擇軌道機動檢測特征量、構建高效準確的檢測模型,實現對非合作目標機動的快速準確檢測,值得深入研究.
當航天器與威脅目標的相對距離較近時,可利用圖像信息、深度點云信息等進行目標運動狀態的估計.早期基于圖像的非合作目標位姿估計方法,利用手工設計的關鍵點特征及其描述子 (如尺度不變特征變換(Scale-invariant feature transform,SIFT)[34-35]、加速穩健特征 (Speeded-up robust features,SURF)[36]、最大穩定極值區域(Maximally stable extremal regions,MSER)[37]以及二進制魯棒獨立的基本特征(Binary robust independent elementary features,BRIEF)[38])或者線、邊緣等特殊特征[39-40],通過場景和圖像之間的透視變換,建立圖像中的特征點與已知三維模型相應特征的對應關系,利用非線性幾何優化算法求解位姿參數[41],存在具體特征描述在不同結構和物理特性航天器上的可擴展性差、對空間復雜光照環境的魯棒性差,以及求解準確性依賴于先驗位姿信息及特征匹配的準確度等不足.對此,近期發展出基于學習的位姿估計方法,嘗試以端到端的方式學習2 維圖像空間和6 維位姿空間之間的非線性變換,或是通過離散化姿態空間求解分類問題[42],或是直接求解從輸入圖像到相對姿態的回歸問題[43],但此類方法在實際應用時的精度難以保證.最近,Sharma 等[44]綜合基于特征和基于學習的位姿估計方法的優勢,提出了基于CNN 的航天器姿態網絡 (Spacecraft pose net,SPN),能夠在不需要先驗位姿信息的情況下,以解耦的方式估計目標航天器的相對位置和姿態;同時,SPN 還具備對姿態輸出不確定性和目標中目標的姿態估計能力;文獻[45]進一步考慮星載計算資源約束,提出了基于CNN 的相對位姿估計算法,實現了在功率要求有限的小型衛星上的實時運行.此外,目前基于圖像信息與點云信息的融合方法 (如基于CNN 的聯合濾波器[46]、基于自監督模型的自適應融合機制[47]等),也可用于空間非合作目標運動狀態的估計.
以上研究成果側重于對空間目標運動特征的估計.當航天器面對抵近捕獲、接近干擾等軌道威脅時,還需要對機械臂、載荷等典型部件的形態特征進行識別.經典的形態特征提取方法主要分為兩類:利用Canny 邊緣檢測[48]等處理規則幾何特征的方法,以及利用Fast[49]、Harris[50]等角點檢測處理不規則幾何特征的方法.由于航天器載荷的形態復雜多樣,且受目標運動及空間光照條件的影響,易出現目標局部過亮或過暗的情況,對形態的精準辨識提出了挑戰.近年來,越來越多的學者考慮采用深度學習的方法進行空間目標的分類和部件特征提取.例如,李林澤等[51]提出將基于掩膜區域的卷積神經網絡(Mask region-based convolutional neural network,Mask R-CNN)應用于空間非合作目標檢測與識別,并借鑒基于區域的全卷積網絡(Region-based fully convolutional networks,R-FCN)
和輕量頭部基于區域的卷積神經網絡(Light-head R-CNN) 對其進行優化改進,以提升算法的實時性.該方法雖然具備一定的遷移泛化能力,但對實際任務中的復雜空間光照環境、章動和進動等因素考慮的較為理想.王柳[52]利用基于深度學習的YOLO(You only look once)模型對空間目標及其特征部件進行識別,采用由兩種衛星的三維模型生成的圖像數據集進行訓練,測試了該模型對不同視角、距離以及遮擋條件下衛星及部件的識別精度.為更貼近空間真實環境,Chen 等[53]提出基于R-CNN 的衛星部件檢測算法.在Mask R-CNN 的基礎上,結合密集連接卷積網絡(Dense convolutional network,DenseNet)、殘差網絡(Residual network,ResNet)和特征金字塔網絡(Feature pyramid networks,FPN)構建新的特征提取結構,并通過提供密集的連接增強各層之間的特征傳播,在利用模擬軟件生成的不同角度、不同軌道高度、不同類型的衛星圖像數據集上,獲得了較好的測試精度.由于航天任務特殊性,空間真實圖像樣本少,目前依賴于大規模訓練樣本的形態特征提取算法難以直接應用.此時可以考慮基于小樣本學習的方法[54],在無標簽數據情況下利用無監督學習訓練模型,然后遷移至小樣本數據中強化相關模型,但模型的復雜程度往往較高,推理過程對算力的需求較高,在軌應用面臨挑戰.
另外,不同于大氣層內散射光照條件,軌道空間受平行光影響,易出現目標局部過亮或過暗的情況,可能造成無法連續提取目標的形態或行為特征.除利用位置姿態變化提取異動特征外,當前人體異常監控、自動駕駛等領域利用局部形態變化提取行為特征的相關研究結果 (如文獻[55-57]),可為信息非完備情況下的威脅行為特征提取提供借鑒.
在威脅行為預判和威脅等級定量評價方面,主要基于專家系統[58]、模板匹配[59]和貝葉斯網絡推理[60]等方法,進行不確定知識表示,以及行為意圖和威脅等級的推理,但相關參數的設置過于依賴于經驗知識,影響預測的準確性.為彌補這方面的不足,發展出了多種基于學習訓練確定推理網絡參數的方法[61],但往往需要大量的樣本數據保證訓練效果.為了降低對大規模樣本數據的依賴,文獻[62-63]將數據樣本和知識約束相結合,通過引入推理網絡參數的單調性約束、參數的取值范圍和部分參數的大小關系約束,給出了網絡參數的學習算法.文獻[64]將領域專家知識轉化為不等式約束,給出候選參數的約束空間,提出了一種基于采樣數據集和約束空間候選參數樣本的網絡參數學習算法.然而,軌道威脅的先驗知識十分有限,而且往往只是態勢元素之間關系的語義級表達,無法直接轉化為推理網絡參數的相關約束,因此語義知識引導下的小樣本學習訓練方法需要進一步研究.
航天器威脅規避自主決策規劃是根據任務場景的感知結果,在可能的規避方案中選擇符合自身行為準則的最佳方案,并形成序列化的姿態軌道機動動作.
對于空間碎片、失效航天器等非對抗性威脅的規避,目前以基于預測控制或人工勢場(Artificial potential fields,APF)的單邊優化決策方法為主.例如,Wang 等[65]和Weiss 等[66]均采取滾動時域控制(Receding horizon control,RHC)策略實現接近控制和交會對接中的碰撞規避,其基本思路是首先對威脅狀態進行在線辨識或預測,然后基于預測狀態計算有限步長內的代價函數之和,并串行優化出最優動作序列,最終只執行當前時刻所需的最優動作并以此類推;文獻[67-69]則基于預測的空間碎片演化模型,建立以最小化碰撞概率為目標的規避策略求解算法;文獻[70-72]設計了基于人工勢場的航天器碰撞規避策略,具體將航天器的規避機動設計成在一種抽象人造力場中的運動,其中目標點(或區域) 對航天器產生吸引力場,而威脅則產生排斥力場,基于二者合力生成的運動軌跡即為航天器的規避軌跡;此外,Hamed 等[73]和Zhu 等[74]還進一步將預測控制和人工勢場兩類方法相結合,基于RHC 策略在線調整APF 的排斥力場系數,實現燃料最優碰撞規避.
目前來看,在非對抗性威脅規避方面,預測控制類方法能取得較好的決策規劃效果,但威脅狀態預測和串行優化動作序列兩大過程在空間環境和約束復雜時往往存在占用計算資源較多、計算耗時較長的問題,對星載計算機處理能力提出了較高的要求.且規避決策質量與預測精度高度相關,一旦預測失準,可能會對航天器的安全造成嚴重影響[75];人工勢場類方法的計算量相對較小,很適合無地面依托的星上自主在線決策情景,但往往存在局部極小點和目標不可達導致規避失效或規劃軌跡振蕩的問題,必須設計額外的策略 (如附加力場[76]、虛擬障礙[77]等) 或引入一些新的勢場概念 (如流函數[78]、擾動流體[79]等) 以彌補這一缺陷.
對于具有機動變軌能力的對抗性威脅 (如抵近捕獲、繞飛干擾等) 的規避決策,可描述為軌道追逃博弈問題[80],其本質上屬于雙邊規劃問題,需要考慮對手與我方航天器相沖突的規劃目標及其對應策略,使得決策模型更為復雜.目前,相應決策方法主要基于微分對策理論,其基本思路一般為首先建立航天器追逃博弈微分方程模型,繼而構造并求解相應的HJB (Hamilton-Jacobi-Bellman)偏微分方程或兩點邊值問題獲得雙邊最優博弈策略[81].例如,針對航天器零和博弈問題,Jagat 等[82]提出一種基于狀態依賴黎卡提 (Riccati) 微分方程的非線性控制律,相較于傳統線性二次型微分對策方法具有更好的控制效果;Li 等[83]針對高維兩點邊值問題求解困難的缺陷,提出一種降維策略求解方法,將博弈問題轉化為一個四維非線性方程,并利用混合數值算法求解方程,提升了博弈軌跡的規劃效率;文獻[84-86]還從多航天器博弈、脈沖推力等角度對基于微分對策理論的軌道追逃博弈方法進行了研究.
以上研究成果大多假設博弈雙方知曉彼此的代價函數和相關系數矩陣,相應方法稱為完全信息微分對策方法.然而,實際對抗中這些信息往往難以事先獲取,此時追逃博弈問題就變成了不完全信息微分對策問題,這也是目前軌道追逃博弈領域的研究熱點[81].對此,一般采取 “先預估,后求解”的研究思路,即先在完全信息情景下設計基于微分對策的博弈策略,再采用適當的估計器在線預估對手的未知信息,最終將估計參數輸入策略中實現自適應軌道博弈.例如,文獻[87-90]利用Kalman 濾波、當前統計模型濾波和交互多模型等方法估計未知信息,并取得了不錯的決策規劃效果.
總體而言,在基于微分對策的航天器追逃博弈決策方面,目前對完全信息條件下方法的研究比較充分,已涵蓋雙方/多方博弈、連續機動/脈沖推力變軌等多種任務情景,而對不完全信息條件下的方法研究尚處于相對初級的階段,主要存在兩方面的問題: 一是,微分對策方法普遍存在模型復雜、狀態量多、尋求解析解困難的固有缺陷;二是,與上述預測控制類方法相同,不完全信息條件下的規劃決策效果十分依賴估計器的性能,當估計結果失準或時間過長時會嚴重影響航天器的安全.針對這些問題,相關學者嘗試將深度強化學習、深度學習等機器學習方法與微分對策方法相結合[91-93],利用神經網絡強大的非線性逼近性能、特征提取與學習能力,以及網絡前向快速傳播的特性,彌補傳統基于微分對策的航天器追逃博弈方法中存在的缺陷,值得后續進一步關注.
此外,面向航天器在軌應用,必須考慮威脅規避決策行為的穩定性和可靠性問題.目前,引入決策環節的博弈閉環系統的穩定性、最優性理論研究還比較初步.文獻[94]給出存在信息延遲情況下非合作博弈系統納什均衡解的逼近策略,并證明了閉環系統的穩定性.文獻[95]基于自適應控制設計博弈策略,并證明了相應隨機動態博弈閉環系統的全局穩定性.策略最優性的相關研究主要包括對完全信息微分博弈的最優性證明[82,96]以及不完全信息下基于估計-博弈閉環系統最優性的定性討論[89].此外,時滯、隨機、脈沖、Markov 等混雜控制系統閉環性能分析[97]的相關研究也可為軌道威脅規避決策過程的性能評價提供思路和方法上的借鑒.
動作執行是解算執行機構指令并完成規避機動動作的實施,包括姿態控制、軌道機動和載荷操作,要確保航天器在非受控環境下對環境及其自身的變化做出適應性反應并滿足控制要求.
對付不確定性并獲得高品質的執行效果一直是航天器控制領域重點關注的問題.目前,針對傳統的姿態控制、軌道機動,以及合作目標的交會對接控制,已經形成了一套比較成熟的理論和方法體系,發展出包括 “比例-積分-微分” (Proportional-integral-derivative,PID)控制[98-102]、滑模變結構控制(Sliding mode control,SMC)[103-106]、H2/H∞魯棒控制[107-109]、線性二次型調節器(Linear quadratic regulation,LQR) 控制[110]、基于干擾觀測器的魯棒自適應控制[111-113]、自抗擾控制(Active disturbance rejection control,ADRC)[114-115]、自適應有限時間控制[116-117]、基于特征模型的智能自適應控制[118-120]等多類方法,可實現存在撓性振動、多源干擾、模型不確定性、控制輸入受限、姿軌耦合等情況下的高精度、高穩定度的敏捷機動和快速安全交會.
上述方法的技術成熟度比較高,這里不再做詳細論述.圍繞威脅規避機動控制的及時、適度要求,本文重點關注航天器與威脅目標的避撞機動/安全接近控制的相關進展.避撞機動動作執行要求追蹤航天器和目標航天器在接近過程中,為確保自身安全,相對位置應保持一定的安全距離、且姿態同步性滿足指定要求 (比如觀測要求).航天器構型復雜多樣、機動過程中的姿軌耦合、快速響應要求高、執行機構帶寬約束等對避撞機動控制律設計提出了挑戰.
由于人工勢場方法的勢場模型可方便地描述運動空間的拓撲結構,且利用勢函數的負梯度可進行安全接近控制律設計,簡單有效,便于分析,成為解決避撞機動控制問題廣泛應用的技術[70,121-127].例如,文獻[70,121-122]將APF 方法和SMC 設計方法相結合,考慮接近過程的位置約束、空間環境攝動干擾和不確定性等因素,給出了保證有限時間收斂的相對位置和相對姿態魯棒控制律,實現了無碰撞的相對位置姿態跟蹤.文獻[123-124]進一步考慮姿軌耦合,基于6 自由度相對運動動力學方程,設計了終端滑模控制律,證明了有限時間的收斂性.考慮到航天器與目標距離較近時敏感器視場受限對相對位置和姿態信息測量的影響,Dong 等[125]在勢函數中引入路徑約束和視角約束,基于對偶四元數(Dual quaternion,DQ)姿軌耦合模型,提出了類PD 控制器設計方法,實現了交會對接末段姿軌耦合的安全接近避撞控制.此后,文獻[126-127]進一步針對控制輸入受限的情況,通過引入飽和函數和線性抗飽和補償器等,給出了避撞機動的飽和控制律設計方法.文獻[128]綜合考慮系統不確定性和外部干擾,設計了無抖振的神經網絡自適應滑模控制器,實現翻滾目標逼近的姿軌耦合跟蹤控制.文獻[129]考慮了帶有可微分時變輸入時延、執行器故障,以及存在外部擾動和目標航天器質量不確定性情況下的橢圓軌道航天器電磁交會控制問題,提出了基于中間觀測器(Intermediate observer,IO)的自抗擾控制器,保證了追蹤航天器與目標航天器相對位置的最終一致有界性.文獻[130-131]針對相對運動測量失效或精度難以保證的情況,提出了基于圖像視覺伺服的相對位姿耦合跟蹤控制設計方法,實現了對空間翻滾目標的高精度安全接近控制.
以上研究結果將航天器的外形簡化為球體,對運動空間約束的描述比較粗糙,往往需要一個較大范圍的預設好的危險區域來確保機動控制的安全性.這會造成空間冗余現象,增加了禁飛區域面積,導致航天器可能會采取一些不必要的機動,難以保證執行效率[132].為更加準確地描述空間物體的外包絡,文獻[133]針對凸形航天器,提出了具有一定通用性的剛體勢場描述模型,并針對空間非合作目標的安全接近問題開展了控制方法研究;針對非凸形航天器,進一步采用特定的終端幾何構型進行約束描述,初步探索了非凸形航天器安全接近問題.Wang等[134]在復雜航天器三維外形視覺重構的基礎上,設計了基于混合高斯模型(Gauss mixture model,GMM)[135]的GMM-APF 控制器,實現對復雜外形目標航天器的安全接近.
近年來,針對控制算法收斂的快速性要求,固定時間(Fixed-time control,FTC) 的姿態軌道控制問題備受關注[136-137].Chen 等[138]基于固定時間控制框架 (如文獻[139]),提出了基于混合高斯模型的固定時間控制律(GMM-FTC),保證了收斂時間不受初始相對位置偏差的影響,確保響應的快速性.Huang 等[140]針對非合作目標繞飛跟蹤控制問題,建立了基于視線坐標系(Line of sight,LOS) 和修正的羅德里格斯參數 (Modified Rodriguez parameters,MRPs)的6 自由度繞飛運動動力學方程,并設計了自適應固定時間非奇異終端滑模控制器,實現了對目標的繞飛和觀測.Hu 等[141]提出了針對自由翻滾目標交會任務的固定時間時變滑模位置跟蹤控制方法,實現位置跟蹤誤差的固定時間收斂,且所設計的滑模面提供了收斂時間調整規則的顯式表達.
總體而言,圍繞航天器規避動作執行的及時、適度要求,考慮目標航天器復雜外形、姿軌耦合同步、控制輸入受限、快速收斂等因素,在傳統基于時間的控制框架下 (數據采樣和控制律更新都是基于固定時間周期進行的),已經給出了一些解決方案.然而,碎片碰撞、敵意干擾等作為航天器執行既定任務時的隨機事件,會觸發不同控制策略之間的切換與更新,給閉環系統的穩定性及切換控制器的設計帶來新的挑戰.近年來,基于事件驅動的控制框架逐漸受到關注,通過引入事件觸發機制對控制策略的更新與否進行判斷,可在確保隨機事件觸發下整個控制過程穩定的同時,有效節約通信和計算資源[142-146].因此,基于事件/時間混合驅動系統的控制律設計,值得后續進一步關注.除此之外,無人機、機器人領域基于學習的智能控制方法 (如文獻[147-150]) 在處理復雜動態不確定性方面展現出一定的優勢,可為大尺度下復雜空間環境下的規避機動動作執行提供有益的借鑒和參考.
“感知-決策-執行”閉環的控制系統架構涉及系統組成及其關聯關系、信息流邏輯等多方面,決定了系統的總體性能.其模型是系統綜合分析和優化設計的基礎,是系統內在相互作用機理和演化規律的客觀科學描述.
陸、海、空、天無人系統幾十年的發展,出現了多種類型的自主控制系統架構.目前廣泛應用的自主控制系統架構主要包括分層遞階式、反應式以及混合式[151].分層遞階式架構最早由Saridis[152]于1979 年提出,是一種各功能模塊間次序分明的串聯結構,又稱為 “感知-規劃-執行” (Sense-plan-action,S-P-A)架構,易實現高等級智能.反應式架構是由Brooks[153]于1986 年提出的一種分層并聯結構,以并聯形式布置決策規劃的各模塊,同步接收感知信息,具有 “感知-動作”的分層并聯結構特點,對環境適應性較強.上述兩種架構的特點對比見表1.

表1 分層遞階式架構與反應式架構優缺點對比[162]Table 1 Comparison of advantages and disadvantages of hierarchical architecture and reactive one[162]
結合上述兩種架構的優點,Gat[154]最早提出了一種混合式架構,通過全局規劃生成面向目標的分層遞階式行為,通過局部執行生成面向動作的反應式行為.此后,混合式架構的內涵不斷豐富,發展出AuRA (Autonomous robot architecture)[155]等形式.基于上述架構已構建多個航天器自主運行與任務管理系統,包括美國 “深空1 號” (Deep space 1,DS-1) 遠程智能體系統[156]、“地球觀測1 號”(Earth observing one,EO-1)自主航天器實驗軟件系統[157]以及中國 “嫦娥四號” (Chang'E-4)自主運行管理系統[158]等.近年來,部分學者融合多智能體(Agent) 在自主性、交互性等方面的優勢,提出了基于多Agent 的混合式架構[159],大致分為兩類: 1)將系統中分層遞階式模塊、反應式模塊以及硬件模塊中的子模塊抽象為Agent[160];2)將Agent 內部通過分層遞階式、反應式進行構建[161].該架構廣泛適用于非結構化動態環境,具有較好的開放性和靈活性.
在上述自主控制系統架構的啟發下,面向未來空間任務對航天器智能自主控制技術的發展需要,文獻[19]提出了一種 “感知-決策-操控”星上閉環的系統結構,并引入健康管理模塊,實現數據有效性判斷、故障診斷和進化修復等.以此為基礎,文獻[12]進一步提出了 “感知-演化-決策-執行”(Observation-evolution-decision-action,OEDA)星上閉環框架,其中,演化環節可通過對軟硬件資源的自組織調配,實現角色切換,從而使航天器具備根據不同任務改變自身角色的能力,提升航天器執行任務的泛化能力.
另一方面,現有針對復雜系統的模型描述方法主要包括基于智能推理的方法、基于混雜系統模型的方法、基于非線性動力學的方法[163-164]等.其中,基于智能推理的方法可分為功能派[165-166]和結構派[167-168],側重于刻畫系統的外部特性.基于混雜系統模型的方法包括混雜Petri 網法[169]、混合邏輯法[170]等,在描述具有離散跳變與連續動態過程耦合特性的系統方面優勢明顯,可為航天器 “感知-決策-執行”星上閉環智能自主控制系統建模提供理論和方法上的借鑒.
目前,圍繞空間碎片/失效衛星碰撞規避,以及繞飛干擾/抵近捕獲等具有機動能力非合作目標的規避任務,在非合作目標相對運動估計、機動檢測、形態特征識別、威脅等級評估,以及碰撞概率模型、規避策略設計、避撞機動與安全交會動作執行等方面已經形成了一定的技術積累;在支撐 “感知-決策-執行”星上閉環的智能自主控制系統架構方面也有了比較初步的研究.然而,由于航天器自身及其運行環境的特殊性(見表2),要在復雜空間環境、資源嚴重受限等條件下實現對軌道威脅的及時、適度、自主應對,仍然面臨如下三方面的主要瓶頸問題.

表2 航天器自身及其運行環境的特點Table 2 Characteristics of the spacecraft and its operating environment
軌道空間跨度大,威脅目標的測量距離從米級到千公里級,且遠距離成像分辨率低,甚至僅有視線方向測量[29-30];空間目標軌道機動檢測很大程度上自身受觀測能力和目標機動特性的制約,觀測信息不完備,觀測量往往較為稀疏[33].空間光照條件復雜,目標反射不均勻導致局部圖像過亮或過暗,成像連續性差.軌道威脅目標探測的可見性隨時間、空間、光照條件變化的差異性大,對目標的運動和形態測量信息不完備,再加上軌道目標圖像樣本少且分辨率普遍較低,給目標形態特征提取、異動行為檢測帶來挑戰.此外,碰撞、抵近、繞飛等軌道威脅行為特征不明顯,難以根據單一維度特征進行判定,并且威脅影響存續時間長(威脅產生、變化、消失的全生命周期),根據單一時刻特征難以判定.因此,需要綜合目標形態、運動甚至歷史行為才能對威脅的類型、意圖、等級給出準確判斷.
航天器軌道約束強,運行速度大,橫向機動能力有限 (典型衛星橫向機動加速度最大約0.01~0.05 m/s2),規避機動的燃料消耗嚴重影響在軌壽命;通信、導航等任務對航天器的業務連續性要求苛刻,與威脅規避任務存在沖突,對姿態、軌道機動等規避動作的時機和力度要求高.因此,需要航天器綜合最大化生存概率、最大化任務完成度、最小化燃料消耗等指標,在線求解復雜多目標多約束優化問題.
而且,空間碎片/失效衛星碰撞、繞飛干擾/抵近捕獲等威脅行為不確定,航天器威脅規避是面向不確定威脅行為的動態博弈過程[80].目前的博弈決策主要面向特定場景和相對確定的任務模式,雖然具有一定的泛化能力和魯棒性,但在應對未知動態場景和不確定威脅行為時依然面臨挑戰.傳統的決策求解過程不能根據場景變化自適應調節目標函數、約束、優化變量等要素,缺乏對相應搜索空間的動態調節能力,容易導致搜索維數過度等問題,無法實現計算資源受限情況下的快速在線決策,難以在軌應用.因此,面對決策過程的動態不確定性,為確保決策行為的穩定性和可靠性,需要根據威脅行為以及場景的變化自適應調節優化目標和決策模型,并在資源受限情況下進行快速在線求解,給出合理有效的規避策略.
航天器受制于功耗、體積、質量、空間輻射等因素,星上敏感器、計算、存儲等資源嚴重受限,加之其長期在軌運行且設備難以更換升級,星上資源受限問題尤為突出.然而,威脅規避任務中威脅目標具有隨機性和動態不確定性,規避過程涉及目標運動狀態估計、機動檢測、形態特征識別、威脅等級評估、決策模型構建、規避策略設計、機動及交會動作執行等諸多環節,導致感知、決策和執行各功能模塊的組成結構復雜,功能模塊內部及模塊之間的關聯關系和信息流交互復雜.同時,面對威脅規避任務的實時快速應對要求,威脅精準感知和規避自主決策對資源的需求比較高,面臨時間和資源的嚴重沖突.因此,要在資源嚴重受限條件下實現 “感知-決策-執行”星上閉環,并確保系統的協調運行,一方面需要從系統的邏輯架構入手,系統地考慮感知、決策、執行各組成元素間的相互作用關系,構建多層級協調關聯和信息共享機制,實現三者的有機共融和深度融合;另一方面,需要從信息物理深度融合的角度,建立面向時間/事件混合驅動系統的協調運行機制,統籌優化時空多域資源,消解時間和資源上的沖突,使系統總體性能達到最優,降低對星上資源的依賴;進而縮短 “感知-決策-執行”閉環的時間開銷,提升動態應對不確定性威脅的處置能力.
綜上,“感知-決策-執行”星上閉環需要充分考慮三者之間嵌套、耦合關系,進行一體化框架下的整體分析與設計,并通過對星上資源的動態調配消解沖突,形成 “感知-決策-執行”一體化星上閉環的威脅規避智能自主控制系統 (簡稱為 “感知-決策-執行”一體化控制系統).
航天器 “感知-決策-執行”一體化控制系統架構的示意圖如圖2 所示.系統以航天器和環境目標組成的動態系統 (“航天器+環境目標”) 為被控對象,包含多個嵌套耦合的控制回路,比如: “測量-規劃-執行”閉環以姿態、軌道測量信息為反饋量,完成軌道機動、姿態控制等動作執行,對應傳統的“導航-制導-控制”回路;“感知-決策-執行” (也即“測量-態勢判斷和威脅行為預測-行為決策-動作規劃-執行”) 回路以包含威脅行為特征、屬性及意圖等的態勢特征作為反饋量,通過決策環節引入閉環回路的反饋機制,實現系統行為隨場景變化和不確定性威脅行為的自主調整;進一步,在 “感知-決策-執行”閉環回路中引入 “資源分配和任務調度”模塊,通過對資源約束和性能要求之間的統籌優化,以及星上受限資源的動態調配,消解事件響應沖突、時間和資源沖突等,保障航天器這類資源嚴重受限系統面對威脅規避復雜任務時的協調運行,實現控制系統對復雜動態任務的及時、適度、自主應對.

圖2 航天器 “感知-決策-執行”一體化控制系統邏輯架構示意圖Fig.2 Logical architecture diagram of spacecraft “perception-decision-action” integrated control system
上述嵌套耦合的多層閉環控制回路通過指令下行、層間并聯、層間反饋等方式有機地組織在一起,形成具有多層級聯的混雜架構,支撐感知、決策、執行各層次及其內部功能模塊之間的信息共享與深度融合.一體化控制系統中時間驅動和事件驅動相混合,針對系統運行節點間存在時間異步性、威脅事件觸發具有隨機不確定性,基于時間沖突、事件響應沖突消解機制進行多層嵌套控制和并發任務的協調,解決時空多域沖突,實現資源約束與性能要求之間的統籌優化,以及資源的動態調配.相比此前提出的OEDA 閉環框架[12],本文重點強調特定 “角色”下以最小的代價規避威脅,不再突出角色切換對應的 “演化”環節,將 “感知-決策-執行”閉環和“資源分配與調度”進行適度解耦,使系統框架層次、邏輯相對清晰,便于一體化系統建模、優化設計和綜合分析.
綜上可知,航天器 “感知-決策-執行”一體化控制系統屬于信息物理深度融合、時間/事件混合驅動、多層級多環路嵌套耦合的混雜動態系統,對一體化控制系統的研究涉及最優估計、圖像識別、決策規劃等多學科多領域.為確保一體化控制系統的行為穩定可控且滿足預期目標,需要從系統科學的角度,探討一體化控制系統的行為描述、反饋機制設計、閉環性能分析,以及系統行為的可信評價等方面需要重點關注的基礎問題.
相比感知、決策,動作執行對應的航天器姿態軌道控制,發展相對成熟和完善.在一體化框架下,動作執行的能力模型作為決策環節的約束條件進入閉環,其面臨的基礎問題 (如時間/事件混雜系統控制) 在決策和一體化控制系統建模及協調運行機制方面也有進一步體現,本節不再做單獨討論.
下面,針對航天器威脅規避智能自主控制技術面臨的瓶頸難題、面向在軌應用的實際需求,從“感知-決策-執行”一體化控制系統建模、軌道威脅感知、自主規避動態決策,以及自主行為可信評價4 個方面,探討需要重點解決的基礎問題.
建模是系統仿真驗證、預測和綜合分析的關鍵基礎,要求能夠深入和定量地描述系統行為的內在演化規律和因果關系.“感知-決策-執行”一體化控制系統多層級多環路嵌套耦合,時間/事件混合觸發,組成元素之間的依賴、競爭、關聯等作用關系復雜;系統行為的描述涉及最優估計、圖像識別、決策規劃等多學科多領域,系統狀態包含威脅等級、形態特征、運動參數等多維度變量,單一數學語言無法恰當描述.
因此,如何抽象感知、決策和執行行為的特征要素,刻畫 “數據信息-狀態特征-威脅判定-決策規劃-動作執行”之間的內在關聯特性,形成對各層級系統行為的簡潔表達;如何描述并優化系統多層級多環路的串并聯、反饋等關聯形態,形成結構簡明、性能可靠、開放靈活的一體化控制系統架構,建立多層級聯系統模型;采用何種性能指標衡量系統的協調運行能力,以及如何建立面向多層嵌套控制和并發任務的時間/事件沖突消解機制,實現系統內部資源和約束的自組織調整,是一體化控制系統建模需要解決的關鍵基礎問題.
基于目標形態、運動、歷史行為等多維度信息的融合感知,是破解大時空尺度復雜空間環境下探測目標可見性差異顯著、測量信息不完備、威脅行為特征不明顯所帶來威脅精準感知難題的有效途徑,其難點在于威脅行為與目標形態、運動特征等時空關聯關系的表征與學習,涉及形態特征提取、異動特征學習、多模態特征融合推理等多個方面.
因此,采用何種特征量刻畫軌道威脅的行為特征,并對大時空尺度變化下軌道威脅的歷史行為進行表達;如何表征軌道異動行為與目標形態變化、運動狀態之間的關聯關系,以及采用何種機制進行關聯關系的增量學習;采用何種模型對形態、運動、歷史行為等特征進行綜合推理,以及如何結合知識進行推理模型的小樣本學習,構建多模態特征融合的威脅行為及等級推理網絡,實現對威脅行為的準確判斷,是軌道威脅融合感知需要重點解決的基礎問題.
威脅規避決策要在星上資源嚴重受限的情況下,確保航天器執行既定任務的同時,以最小的代價實現對碰撞、干擾等威脅的及時有效應對,優化目標維度多、差異大、與約束條件的影響關系復雜,威脅目標行為不確定,自主規避決策要素多、決策空間大.
與此同時,碎片碰撞、敵意干擾等作為航天器執行既定任務時的隨機事件,當滿足一定觸發條件時,會觸發規避策略的動態更新,以及底層規避動作執行控制器的切換.事件觸發條件、策略更新準則、控制執行過程中的切換不僅影響星上計算、存儲、通信資源的消耗,還影響一體化閉環系統行為的穩定性.需要設計適合 “感知-決策-執行”一體化控制系統的反饋機制,實現對動態場景下決策空間的自適應約減,滿足在軌精準決策與輕量實現的要求;需要綜合資源約束和穩定性要求設計恰當的事件觸發條件、優化規避策略的更新準則、合適的控制器切換條件,確保資源受限條件下、閉環系統行為面向場景變化及威脅行為不確定時的穩定性和魯棒性.
因此,如何根據任務要求、變化場景和威脅特征,并結合航天器自身能力確定威脅事件觸發條件,選定初始決策模型;如何根據威脅態勢的推演結果和感知結果在線調整決策模型的結構和參數、優化搜索空間,構建反饋機制對決策空間進行自適應約減,使模型復雜度和搜索空間因勢而變,實現復雜動態決策問題的快速求解;如何對規避策略的最優性、魯棒性,以及引入自適應決策過程的一體化控制閉環系統行為的穩定性進行分析和綜合評價,建立決策過程性能評價的理論基礎,是威脅規避自主決策需要進一步探討的基礎問題.
智能自主系統其行為的可信評估是由理論方法研究轉入工程實際應用并保證性能穩定的關鍵環節.航天器 “感知-決策-執行”一體化智能自主控制系統對推理、學習等的應用帶來智能可解釋性、真實場景下性能穩定性、虛假關聯有效區分等系統驗證與評估的可信性問題,需要一套可信性評估理論與方法對系統能力邊界和可回溯性進行衡量判定.
因此,如何建立 “任務/環境-系統狀態-任務完成度/智能水平”之間的關系映射,并據此提煉一體化控制系統的關鍵特征,給出關鍵特征與能力關聯度的準確刻畫,構建系統的可驗證性和可評價性準則;如何依據任務/環境和系統狀態的關聯關系設計完備的問題域和評價科目庫,通過有限次測試實現對系統的可信性評價,是航天器智能自主行為可信評價需要解決的關鍵基礎問題.
以上4 個方面的基礎問題既有獨立性,又互為約束,其相互關系如圖3 所示.一體化控制系統建模研究系統行為的簡潔描述方法和協調運行機制,形成一體化控制系統的表達模型,可為 “感知-決策-執行”一體化控制系統的優化設計提供分析模型,通過一體化設計為感知、決策、執行環節提供功能要求、性能指標、設計約束等優化要素;同時可為系統自主行為的可信評價提供基礎模型.威脅感知、規劃決策研究滿足任務要求的設計算法,為可信評價提供滿足性能指標和資源約束的感知、決策算法.可信評價對系統自主行為的可信性和能力水平進行定量評估,反過來指導感知算法和決策算法的優化設計.

圖3 4 個方面基礎問題之間的相互關系示意圖Fig.3 Schematic diagram of the relationship between the four basic theoretical questions
伴隨著頻繁發生的太空安全事件,航天器執行既定任務時的威脅規避逐漸成為其日常操作中的一項常規任務,對軌道威脅的自主規避能力提出了迫切發展需求.本文基于威脅目標感知、自主決策規劃、規避動作執行、自主控制系統架構相關研究進展的調研分析,總結給出了軌道威脅規避智能自主控制所面臨的主要瓶頸問題,分析指出發展 “感知-決策-執行”一體化控制是實現航天器智能自主的有效手段.進一步圍繞 “感知-決策-執行”一體化控制系統建模、設計方法、行為評價等方面,提出需要重點加強 “一體化控制系統建模、威脅行為的融合感知、威脅規避動態決策、自主行為可信評價”4個技術方向相關基礎理論問題的研究,牽引未來航天器智能自主控制技術的創新發展.
展望未來,隨著中國大規模星座計劃的推進部署,航天器面對規避威脅任務的智能自主控制技術將成為確保星座安全穩定運行的重要使能技術.航天器 “感知-決策-執行”一體化控制系統架構的不斷完善,感知、決策、執行等智能技術的不斷發展及其工程實用化程度的不斷提高,將顛覆 “星地大回路”的傳統任務模式,使航天器具備透徹感知理解、審時度勢、合理決策、精準執行的類人智能,從而實質性地提升航天器自主應對軌道威脅的能力,從根本上確保中國空間資產安全.