基于高斯過程回歸的組合體航天器姿態接管學習控制

2022-12-17 02:59:12馬廣富劉昱晗呂躍勇郭延寧

上海航天 2022年4期

馬廣富，劉昱晗，呂躍勇，郭延寧

馬廣富，劉昱晗，呂躍勇，郭延寧

（哈爾濱工業大學控制科學與工程系，黑龍江哈爾濱 150001）

空間非合作目標一般具有結構復雜、質量特性未知、姿態機動能力不明等特點，這導致組合體航天器姿態動力學呈現出高度非線性和強耦合特性，且難以對其進行在軌精確辨識。針對組合體航天器姿態接管過程中目標信息不完全、精確辨識困難等問題，本文考慮目標存在姿態機動能力的任務場景，提出了一種基于稀疏高斯過程回歸（GPR）的數據驅動姿態接管控制策略。首先，從系統運行數據中提取、凝煉模型未知部分的輸入/輸出映射關系，構建數據驅動的概率化模型以代替無法快速準確建立的參數辨識模型，并根據該數據驅動模型設計變增益反饋控制策略，證明了系統狀態概率意義上的Lyapunov穩定性和有界性；其次，考慮到在軌任務的實時性、星載計算機的計算資源有限等因素，該算法可在保證控制精度的同時顯著減輕學習算法的計算壓力；最后，數值仿真驗證了本文所提出控制方法的有效性與實用價值。

組合體航天器；姿態接管；非合作目標；高斯過程；學習控制

0　引言

隨著航天技術的高速發展，在軌服務任務也日趨多樣化和復雜化。通過服務航天器對目標進行有效姿態接管操控是后續在軌加注、在軌維修、碎片清除等任務的基礎［1-3］。我國國務院2016年公布的“十三五”規劃中提出，將在軌服務與維護系統列為“科技創新2030”16個重點項目之一，計劃于2030年前突破該項技術，保障航天器在軌安全可靠運行，迎接“太空經濟”時代的到來。

目前對于傳統的合作目標的接管控制技術已十分成熟，并已實現了在軌應用，如美國的軌道快車計劃、歐洲的ATV［4］項目、日本的ETS-VII［5］、我國的神舟系列飛船與天宮對接［6］等。而針對空間非合作目標的接管控制，抓捕后形成的組合體航天器實際上是一個結構復雜、參數眾多、耦合度高，且整體結構、質量特性均不確定的非線性系統。常規的接管控制方法一般分為2種：先辨識再控制、考慮模型不確定性的自適應控制。如文獻［7-8］首先建立了組合體系統的動力學模型，并基于干擾觀測器估計了末端作動器與目標之間的接觸力，最后引入阻抗控制使得抓捕后形成的組合體姿態鎮定。文獻［9］在考慮組合體系統的慣量辨識誤差以及可能存在的執行機構隨機誤差，在反饋控制律中引入對偏差和輸入不確定性的自適應補償項，并形成了一套自適應容錯姿態接管控制方案。ZHAO［10］研究了考慮外界干擾和輸入飽和情況下的組合體轉動慣量參數辨識，并設計了基于同時學習的自適應有限時間控制器以實現期望軌跡跟蹤。文獻［11］基于RBF神經網絡，分別構建了故障檢測觀測器和干擾補償觀測器以抵抗外界干擾、非線性不確定性以及星載傳感器故障帶來的負面影響。CHEN［12］針對航天器姿態動力學模型不確定或完全未知的情況，提出了一種自適應模糊估計算法對模型中未知部分進行逼近，并進一步結合2/∞方法設計了姿態控制律。

然而，轉動慣量能夠精確辨識的前提是整個組合體需處于空間自由漂浮狀態且無外力矩輸入，因此不適用于目標存在姿態機動的任務場景。另外，自適應控制方法通常在證明過程中假設模型不確定性、外界干擾等存在上界以保證閉環系統的穩定性，這對組合體航天器的姿態接管任務來說是一種過于保守的假設條件。同時，基于神經網絡、模糊規則等參數化方法對模型不確定性逼近具有結構復雜、基函數選取仍然依賴模型信息的缺陷。總的來說，針對結構復雜、質量特性未知、姿態機動能力不明的空間非合作目標的接管操控任務極具挑戰性并亟待解決。

近年來，隨著人工智能理論的飛躍式發展，基于機器學習的控制方法以工程易實現且不依賴復雜系統模型而得到了廣泛的應用。其中，高斯過程回歸（Gaussian Process Regression， GPR）［13］作為一種典型的貝葉斯非參數化數據驅動建模方法，具有從系統輸入輸出數據中提取和凝煉模型知識的能力，并已應用于機器人控制［14］、四旋翼控制［15］、軌道預測［16］和太陽電池陣基頻分析［17］等。與其他參數化學習方法相比，高斯過程（Gaussian Process， GP）的預測輸出具有概率性意義，既可得到激勵信號對應的模型響應均值，也可獲取模型響應的方差（即預測的不確定性），2種輸出均可應用于控制算法的設計，有效提高算法的魯棒性。因此，針對目標存在姿態機動能力的組合體航天器姿態接管控制問題，設計基于GPR的學習控制策略值得深入探討。

基于上述分析和討論，本文重點研究考慮目標存在未知姿態機動的情況下的組合體航天器姿態接管學習控制策略。首先在服務航天器姿態先驗模型基礎上，基于GPR理論從系統輸入/輸出數據構建模型未知部分的數據驅動概率化模型。進而，考慮到學習算法的在軌運算壓力，采用變分推理方法將GPR模型稀疏化，并根據該稀疏模型設計變增益反饋控制策略。最后，給出了所提出控制策略的穩定性和收斂性證明。

1　數學模型和問題描述

1.1　組合體航天器姿態模型

本文考慮的組合體航天器包括3個部分：服務航天器、目標航天器和機械臂，其幾何構型如圖1所示，其中，抓捕部位為目標星的星箭對接環。為不失一般性，首先考慮簡化情況：1）兩星之間由輕質桿連接；2）機械臂關節和抓捕部位在整個操控過程中鎖緊，無相對運動；3）目標航天器無姿態機動能力。此時，組合體航天器可看作剛體，則用四元數描述的航天器姿態動力學為

然而，針對捕獲非合作目標后形成的組合體，由于目標質量特性參數未知，其轉動慣量c是難以精確已知的。另一方面，考慮到目標可能尚存姿態機動能力以及抓捕點處存在相對運動的情況，因而難以通過在軌辨識獲得組合體航天器的精確數學模型。由于組合體航天器姿態模型中服務航天器的轉動慣量已知，可將其作為先驗模型用于控制算法的設計。

1.2　問題描述

本論文的控制目標為，針對模型部分未知以及目標航天器存在姿態機動情況下的系統動力學（4）。利用在軌運行輸入輸出數據建立非參數化數據驅動模型，并進一步提出基于數據驅動模型的組合體航天器姿態學習控制算法，使得系統狀態穩定快速收斂到平衡點，實現對目標航天器的有效姿態接管。

2　組合體航天器GPR模型建立

2.1　GPR

進一步地，通過極大化對數邊緣似然函數：

2.2　基于變分推理的稀疏高斯過程回歸

其均值矩陣和方差函數矩陣分別為

3　基于GPR的姿態接管控制

在進行控制算法設計之前，首先給出所需的引理和假設如下。

式中：k1、k2、k1、k2均為正常數。

則基于稀疏變分高斯過程的控制律可設計為

本節的主要結果在定理1中給出。

證將控制律（28）代入動力學方程（3）中，得到閉環系統：

考慮Lyapunov候選函數為

進而根據Cauchy-Schwartz不等式，可得：

進一步結合引理2，有下式成立：

其中，

式中：sup（·）為函數的上確界。

進一步可得四元數矢量部分的上界為

4　仿真分析

4.1　GP模型的訓練與驗證

圖2　PD控制律激勵下GP模型響應曲線及95%置信區間

圖3　PD控制律激勵下GP模型回歸誤差絕對值

同時，標準GP和SVGP（粗體表示）在不同容量的數據集上的學習效果在訓練時間和回歸誤差方面的量化對比見表1。由于訓練階段的計算量與數據集容量之間呈立方相關，隨著數據集容量從500增加到2 000，標準GP訓練所需時間從6.31 s顯著增長到303.78 s，而稀疏GP模型的訓練時間僅從1.56 s增加到3.64 s，但仍保持了與標準GP相當水平的均方誤差。在實際應用中，數據集容量的大小是計算量與回歸精度之間的權衡。

表1　GP訓練時間、回歸精度與數據集容量之間關系

4.2　存在未知模型不確定性時的仿真場景

本小節進一步給出所提出算法在線應用的仿真結果。假設目標航天器在整個姿態接管任務過程中始終進行主動姿態機動：當服務航天器對目標航天器施加姿態控制力矩使其偏離初始姿態指向時，目標航天器將對該力矩產生“對抗”控制力矩。此時，未知模型不確定性中包含2部分：1）除標稱剛體模型外的未知姿態動力學；2）因目標航天器自身姿態指向偏移期望值，其產生的姿態對抗力矩對整個組合體航天器造成的附加姿態動力學。目標航天器的主動姿態控制律選為PD形式：

圖5　服務航天器姿態角速度

圖6　服務航天器姿態控制力矩

可以看到，在目標存在如式（42）所示PD控制形式的主動姿態機動力矩以及未知模型不確定性的作用下，2種控制算法均可實現姿態鎮定的目標。從圖4和圖5可得，本文提出的基于稀疏GP的學習控制律無論是在動態響應還是穩態誤差都較于基準控制律得到了明顯的提升，最后可以使得狀態收斂至更小的集合內。這主要取決于GP模型補償機制的引入，因而目標姿態機動力矩和模型未知部分可以在控制律中被有效補償。

姿態重機動后標準GP模型響應如圖7所示。當組合體航天器姿態機動至訓練集之外的區域時，GP的預測方差（由陰影填充的95%置信區間表示）顯著增加，表示當前GP的預測均值與實際未知函數值之間具有較大誤差，這也使得本文提出的基于GP的學習控制算法的反饋增益適當增大以進一步抵抗模型誤差帶來的負面影響。

圖7　姿態重機動后標準GPR模型響應

5　結術語

本文研究了目標存在未知姿態機動特性的空間非合作目標捕獲后的姿態接管控制問題。針對捕獲后的姿態鎮定問題，同時考慮到在軌任務的實時性、星載計算機的計算資源有限等因素，提出了一種基于稀疏GP的姿態接管學習控制策略，其反饋控制增益的大小可隨GP模型的置信度而自適應地變化，并證明了系統狀態可以實現概率意義上的最終一致有界收斂到平衡點附近的鄰域內。相比于現有研究方法，本文所提出的控制策略可避免耗時的在軌模型精確辨識過程，同時對測量噪聲、外界干擾、目標主動姿態機動具有較強的魯棒性，可有效支撐在軌任務的高效處理。

［1］楊自鵬，胡聲超，周佑君，等.多任務在軌服務模塊化智能航天器技術研究［J］.宇航總體技術，2019，3（4）：15-20.

［2］龔自正，徐坤博，牟永強，等.空間碎片環境現狀與主動移除技術［J］.航天器環境工程，2014，31（2）：129-135.

［3］肖余之，靳永強，陳歡龍，等.在軌服務若干關鍵技術研究進展［J］.上海航天（中英文），2021，38（3）：85-95.

［4］ LEBLOND P， LE BERRE F. ATV mission operations-system testing and operability with space network system［C］// Proceedings the 24th AIAA International Communications Satellite Systems Conference. Reston， USA： AIAA Press， 2006： 2006-5407.

［5］ ODA M. Experiences and lessons learned from the ETS?Ⅶ robot satellite［C］// Proceedings of the International Conference on Robotics and Automation. Washington D.C.， USA： IEEE Press， 2000： 914-919.

［6］ LIU H， LI Z， LIU Y， et al. Key technologies of TianGong-2 robotic hand and its on-orbit experiments［J］. Scientia Sinica Technologica， 2018， 48（12）：1313-1320.

［7］ FLORES-ABAD A， CRAIN A， NANDAYAPA M， et al. Disturbance observer-based impedance control for a compliance capture of an object in space［C］// Proceedings of AIAA Guidance， Navigation， and Control Conference. Reston， USA： AIAA Press， 2018： 1329.

［8］ HOVELL K， ULRICH S. Postcapture dynamics and experimental validation of subtethered space debris［J］. Journal of Guidance， Control， and Dynamics， 2017， 41（2）：519-525.

［9］ WANG Z， YUAN J， CHE D. Adaptive attitude takeover control for space non-cooperative targets with stochastic actuator faults［J］. Optik， 2017， 137： 279-290.

［10］ ZHAO Q， DUAN G. Concurrent learning adaptive finite-time control for spacecraft with inertia parameter identi?cation under external disturbance［J］. IEEE Transactions on Aerospace and Electronic Systems， 2021， 57（6）： 3691-3704.

［11］ GUO X， TIAN M， LI Q， et al. Multiple-fault diagnosis for spacecraft attitude control systems using RBFNN-based observers［J］. Aerospace Science and Technology， 2020， 106： 106195.

［12］ CHEN B， WU C， JAN Y. Adaptive fuzzy mixed2/∞attitude control of spacecraft［J］. IEEE Transactions on Aerospace and Electronic Systems， 2000， 36（4）： 1343-1359.

［13］ WILLIAMS C K， RASMUSSEN C E. Gaussian processes for regression［C］// NIPS. 1995： 2877073.

［14］ BECKERS T， KULI? D， HIRCHE S. Stable gaussian process based tracking control of Euler-lagrange systems［J］. Automatica， 2019， 103： 390-397.

［15］ LIU Y， TóTH R. Learning based model predictive control for quadcopters with dual gaussian process［C］// 60th IEEE Conference on Decision and Control. Washington D.C.， USA： IEEE Press， 2021： 1515-1522.

［16］ PENG H， BAI X. Gaussian processes for improving orbit prediction accuracy［J］. Acta Astronautica， 2019， 161： 44-56.

［17］龐夢非，朱春艷，張美艷，等.具有不確定性連接剛度的太陽電池陣基頻分析［J］.上海航天（中英文）， 2017，34（6）：103-108.

［18］ MILLER K. On the inverse of the sum of matrices［J］. Mathematics Magazine， 1981， 54（2）： 67-72.

［19］ THEODORIDIS S. Machine learning： a Bayesian and optimization perspective［M］. London， United Kingdom：Academic Press， 2015.

［20］ BLEI D M， KUCUKELBIR A， MCAULIFFE J D. Variational inference： a review for statisticians［J］. Journal of the American statistical Association， 2017， 112（518）：859-877.

［21］ STEINWART I， CHRISTMANN A. Support vector machines［M］. Berlin， Germany： Springer Science & Business Media， 2008.

［22］ DEISENROTH M， RASMUSSEN C E. PILCO： a model-based and data-e?cient approach to policy search［C］//Proceedings of the 28th International Conference on Machine Learning. New York， USA： ACM Press， 2011：465-472.

Gaussian Process Regression-Based Learning Control for Combined Spacecraft Attitude Takeover

MAGuangfu， LIUYuhan， LYUYueyong， GUOYanning

（Department of Control Science and Engineering， Harbin Institute of Technology， Harbin 150001， Heilongjiang， China）

Non-cooperative targets generally have the characteristics of complex structures， unknown inertia matrices， unknown attitude maneuverability， etc.， which make the combined spacecraft attitude dynamics present highly nonlinear and strong coupling performances and hard to be accurately identified on orbit. In this paper， a sparse Gaussian process regression （GPR） based attitude takeover control strategy is proposed for the combined spacecraft after capturing a non-cooperative target with active maneuverability. Firstly， the costly on-orbit identification is avoided， while only the I/O data collected during the on-board operation is utilized to obtain a sparse GPR model to rapidly compensate the unknown dynamics. Then， a novel adaptive feedback gain control strategy is presented according to the learnt model， and the rigorous theoretical proof of all related closed-loop uniform ultimate bounded （UUB） stability guarantees is provided. It is shown that the proposed strategy can significantly reduce the on-board computational load while ensuring the control accuracy. Finally， numerical simulations are carried out to validate the effectiveness and practical value of the proposed strategy.

combined spacecraft； attitude takeover； non-cooperative target； Gaussian process； learning-based control

2022?04?29；

2022?06?17

國家自然科學基金（61973100，61876050，12150008）；空間智能控制技術實驗室開放基金課題（HTKJ2022KL502012）

馬廣富（1963—），男，博士，教授，主要研究方向為在軌服務、航天器姿態控制和智能控制。

呂躍勇（1983—），男，博士，副研究員，主要研究方向為在軌服務、航天器姿態控制和智能控制。

TP 273

10.19328/j.cnki.2096?8655.2022.04.004

基于高斯過程回歸的組合體航天器姿態接管學習控制

0 引言

1 數學模型和問題描述

1.1 組合體航天器姿態模型

1.2 問題描述

2 組合體航天器GPR模型建立

2.1 GPR

2.2 基于變分推理的稀疏高斯過程回歸

3 基于GPR的姿態接管控制

4 仿真分析

4.1 GP模型的訓練與驗證

4.2 存在未知模型不確定性時的仿真場景

5 結術語

0　引言

1　數學模型和問題描述

1.1　組合體航天器姿態模型

1.2　問題描述

2　組合體航天器GPR模型建立

2.1　GPR

2.2　基于變分推理的稀疏高斯過程回歸

3　基于GPR的姿態接管控制

4　仿真分析

4.1　GP模型的訓練與驗證

4.2　存在未知模型不確定性時的仿真場景

5　結術語