基于深度強化學習的無人機空中目標自主跟蹤

2022-10-27 02:43:38楊興昊宋建梅佘浩平吳程杰楊欽寧付偉達

計算機測量與控制 2022年10期

楊興昊，宋建梅，佘浩平，吳程杰，楊欽寧，付偉達

(1.北京理工大學宇航學院，北京 100081; 2.中國航空系統工程研究所，北京 100012；3.航天東方紅衛星有限公司，北京 100094)

0 引言

無人機具有機動性強、成本低廉等優點，廣泛應用于邊境巡邏、目標打擊、遙感測繪、農業植保、電力巡線等領域，但由于受載荷限制，其續航時間較短。若無人機能夠在空中實現加油或更換電池等操作，則可以有效地提高無人機的續航時間和機動性能，同時減少燃油或電池的重量能讓無人機承載更多有效載荷，從而提高其綜合作業能力，因此空中對接在未來將成為無人機的基本技能。

實現空中對接前，主動對接無人機需要實現對目標無人機的持續跟蹤，并保證兩架無人機的相對位置在對接要求范圍內，主動對接無人機稱為主動無人機，目標無人機稱為被動無人機。整個空中對接過程包括主動無人機對被動無人機的識別與相對位姿解算、主動無人機的精準對接控制兩部分。具體過程為：當兩架無人機相對距離較遠時，通過GPS獲取被動無人機的位置信息，并控制主動無人機接近目標。當兩架無人機距離較近時，即當被動無人機清晰地出現在主動無人機機載攝像頭拍攝圖像中時，采用視覺算法對被動無人機進行識別與相對位姿解算。或采用精度較高的差分GPS獲取被動無人機的位姿信息后進行對接控制。然而對接過程中GPS信號容易受到干擾，導致精度下降，因此目前的空中對接任務通常采用GPS與視覺混合的方式實現。

在無人機識別與相對位姿解算方面，傳統的空中對接相對位姿解算過程中往往依賴于對特定錐套的識別，常用的方法包括：對錐套圓環的顏色進行改變[1-2]或在錐套上安裝紅外LED信標[3-4]。單堯等人[5]利用四旋翼無人機搭建自主空中加油演示驗證平臺，通過將無人機拍攝的錐套圖像進行二值化處理后進行橢圓擬合，通過擬合橢圓與實際錐套尺寸進行比較以解算位置信息，并通過基于位置的PID控制器控制無人機進行對接。劉愛超等人[6]將對接裝置的顏色與形狀兩種特征進行結合以設計對接錐套，首先利用被對接無人機的GPS/INS信息進行粗略導航，隨后再利用視覺圖標的顏色與形狀信息實現精確導航，該方法能夠保證在較高的飛行速度下仍然具有較好的跟蹤效果，但當視覺圖標出現遮擋、反光等問題時其跟蹤效果有所下降。

在無人機精確對接控制方面，王宏倫等人[7]考慮了對接過程中的氣流干擾與對接裝置的自由擺動，針對空中加油對接段的精確控制問題，設計了基于線性二次線調節器的參考軌跡發生器和軌跡跟蹤控制器，實驗結果表明該方法具有快速性和一定的抗干擾能力，最終對接跟蹤誤差在0.2 m以內。李大偉等人[8]針對空中加油過程中軟管錐套會受氣動干擾而產生不規則擺動的問題，以線性二次調節器比例積分型控制器作為穩定閉環，并加入自適應控制器，從而提高控制過程中的抗干擾能力。黃永康等人[9]針對空中對接過程中縱向軌跡跟蹤控制的時間滯后問題，提出一種基于直接升力的控制器，采用非線性 L1制導的方法，并基于ESO的動態逆方法設計飛控系統，以消除縱向軌跡跟蹤的時間滯后，實現縱向軌跡的快速響應。朱虎等人[10]提出基于 L1 自適應動態逆的無人機自主空中加油對接跟蹤控制方法，根據時標分離的原則，采用動態逆方法設計姿態回路控制器，并在回路中加入L1自適應系統補償氣流干擾和系統誤差，該方法所設計的控制系統能夠有效消除逆誤差和氣流干擾的影響。錢素娟等人[11]針對高速飛行中存在的對接裝置振動問題，提出了基于輔助視覺的飛行器空中加油對接過程控制方法，通過統計飛行器空中加油輔助視覺圖像出現共現的頻率，計算對應圖像在所有圖像中的共現度，獲取對應圖像的權重，實現關鍵幀圖像定位，運用圖像中心點空間位置，建立近距空中加油時的尾流流場的氣動影響數學模型，從而完成飛行器空中加油接口的定位。實驗結果表明，在飛行震動較大的情況下該方法對接控制的準確度高于傳統算法。

近年來，隨著機器學習算法的飛速發展，深度學習與強化學習等智能算法也被應用到空中對接任務中。S.Sun等人[12]采用深度學習的方法實現對目標錐套的檢測，同時完成相對位姿的解算。王宏倫等人[13]進一步研究了無人機軟管式自主空中加油過程中的精準對接控制，利用CFD仿真獲取氣動數據，隨后采用深度學習的方法對氣動數據進行曲面擬合以獲取干擾模型，并用循環神經網絡預測對接裝置的運動規律，從而顯著提高了自主空中加油的對接精度。張易明等人[14]針對空中對接中的位置估計問題，提出了深度學習與雙目視覺相結合的定位方法，對YOLOv4-Tiny進行改進，并在其基礎上建立基于投影算子的模型參考自適應控制器，仿真結果表明該方法滿足對接要求。王浩龍[15]采用近端策略優化控制方法以被動無人機的位置、速度等信息作為神經網絡的輸入實現飛行器的自主跟蹤與對接任務。

上述研究將被動無人機的位姿估計與主動無人機的控制問題分開考慮，而本文研究了基于深度強化學習的無人機空中目標自主跟蹤方法，實現了位姿估計與控制一體化，為空中目標跟蹤問題提出了端到端的解決方案。采用近端策略優化算法(PPO，proximal policy optimization)，將無人機搭載的攝像頭拍攝的圖像作為卷積神經網絡的輸入，不需在被動無人機上設置特定的視覺標識即可實現對空中目標的自主跟蹤。

1 空中目標跟蹤問題描述

1.1 空中目標跟蹤的坐標關系與動力學建模

空中目標跟蹤是實現空中對接的重要環節，空中對接任務由兩架無人機配合完成，主動無人機需跟蹤被動無人機一段時間，保證其相對位置與姿態在可對接范圍內，隨后控制主動無人機完成空中對接。本文主要研究空中對接前的空中目標跟蹤，兩架無人機的相對位置關系如圖1所示，主動無人機在被動無人機后方跟隨飛行。

圖1 相對位置關系

主動無人機與被動無人機均為“X”型四旋翼無人機，其動力學方程為：

(1)

式中，x、y、z為無人機在世界坐標系下的位置坐標，φ、θ、ψ分別為無人機的滾轉角、俯仰角、偏航角，m為無人機的質量，F為無人機所受的合力值，Ix、Iy、Iz為轉動慣量，Mx、My、Mz為螺旋槳升力產生的力矩。

本文選擇“X”型四旋翼無人機，故其合力F與力矩Mx、My、Mz的計算方式為：

(2)

式中,Fi為各螺旋槳產生的升力，kF為螺旋槳升力系數，ωi為各電機轉速，L為電機到質心距離，Mi為各螺旋槳產生的扭矩，kM為螺旋槳扭矩系數。

本文假設被動無人機沿世界坐標系的x軸正方向進行勻速直線飛行，其運動方程為：

(3)

式中，xtarget、ytarget、ztarget為世界坐標系下被動無人機的坐標，為被動無人機初始速度。

1.2 無人機PID控制器與強化學習

PID控制器具有算法簡單、可靠性高的優點，因此在無人機控制中被廣泛應用。作為無人機中的基本控制器，其結構如圖2所示。

圖2 無人機PID控制器結構圖

強化學習是研究如何使智能體在某一環境下獲取最大獎勵值的一類問題，該問題可以用馬爾科夫決策過程表示。馬爾科夫決策過程的基本元素包括：智能體、狀態空間S、動作空間A、狀態轉移函數P(SP′|S,α〕、獎勵函數R。智能體是在環境中進行學習的個體。狀態空間S是對環境信息具體描述的集合，其中某一特定狀態用s表示。智能體通常無法獲得環境中的全部狀態信息，因此智能體在環境下獲得的部分狀態信息也可用觀測空間O進行描述。動作空間A是智能體在環境下能夠完成的所有動作的集合，智能體的動作用α表示。狀態轉移函數P(SP′|S,α〕為智能體在狀態s下采取動作α后進入未來某一狀態s′的概率。獎勵函數R表示智能體在某一狀態s下采取動α作后將獲得多大的獎勵值。

根據智能體所學習內容的差異，可分為基于策略的智能體和基于價值的智能體。基于策略的智能體直接學習策略函數π，通過策略決定要采取的動作α。策略函數π表示t時刻智能體在某一狀態s下采取某一動作α的概率，即:

π(a|s)=P(at=a|st=s)

(4)

價值函數包括狀態價值函數vπ(s)和動作價值函數qπ(s,α)。狀態價值函數vπ(s)表示智能體在某種狀態s時采用某種策略π后在未來能夠獲得多大的回報值G。回報值G是指未來能夠獲得的所有獎勵值R進行折扣后的和，即:

Gt=Rt+1+γRt+2+γ2Rt+3+···+γT-t-1RT

(5)

其中：Gt表示t時刻獲得的回報值，Rt+1表示時刻獲得的獎勵值，T表示結束時刻。γ表示折扣因子，其取值范圍在0～1之間，γ取值越接近0時表示我們更加重視當前獎勵，γ取值為1時表示未來獎勵與當前獎勵同樣重要。

狀態價值函數vπ(s)可表示為在狀態s時采用策略π能夠獲得回報G的期望，即:

vπ(s)=Επ[Gt|st=s]

(6)

動作價值函數qπ(s,α)表示基于某種策略π時在某一狀態S下采取某一動作α時所能獲得回報G的期望，即:

qπ(s,a)=Επ[Gt|st=s,At=a]

(7)

策略函數π、狀態價值函數vπ(s)與動作價值函數qπ(s,α)的關系可表示為:

(8)

基于價值的智能體通過學習價值函數從而隱式的學習策略，即從價值函數中推導出決定動作的策略。此時的策略π*為采取價值函數取最大值時的動作，即:

(9)

或

(10)

此時需通過遍歷所有狀態s和動作a找到最大化的價值函數或動作價值函數。

狀態空間S是對整個環境世界的完整描述，包含環境內的所有狀態信息。而觀測空間O是智能體對狀態空間的部分描述，不一定包含所有信息。當智能體能夠觀測到全部狀態信息時，稱為完全可觀測的，此時狀態空間S與觀測空間O等效。當智能體僅能觀測到部分狀態信息時，稱為部分可觀測的。本文中的智能體為四旋翼無人機，其無法感知環境中的全部狀態信息，因此其基于觀測空間O選取動作a。下面依次介紹本文的觀測空間O與動作空間A的設置。

觀測空間O：將主動無人機攝像頭拍攝的圖像作為強化學習的觀測空間O。與采用被動無人機位姿信息作為觀測空間的方式不同，本文直接采用主動無人機攝像頭拍攝所得的RGB圖像作為觀測空間。同時為加快訓練速度，圖像大小設置為64×48。

動作空間A：將經過PID控制輸出的無人機期望速度作為強化學習的動作空間A。在強化學習訓練過程中的每一步均需要傳遞一個動作以控制智能體，本文中的動作空間為無人機在世界坐標系下的期望速度:

V=[vx,vy,vz,vM]

(11)

式中，vx、vy、vz為無人機在世界坐標系下單位速度向量沿x軸、y軸、z軸的分量，vM為期望速度的量綱。此處根據文獻[16]中的方法通過包含位置與姿態控制的PID控制器將期望速度V轉換為各電機轉速ωi。

2 深度強化學習算法與網絡結構

2.1 空中目標跟蹤的深度強化學習描述

基于深度強化學習的空中目標跟蹤任務框架如圖3所示，主動無人機作為智能體根據從環境中獲得的觀測信息Ot產生動作At從而實現與環境的交互，環境受到智能體的動作影響后進入下一狀態，同時智能體獲得新的觀測信息Ot+1和獎勵Rt+1，智能體獲得新的觀測信息Ot+1后產生新的動作At+1，不斷重復上述過程直至完成訓練。

圖3 強化學習框架

2.2 近端策略優化

強化學習中常用的策略梯度算法存在不好確定學習率與步長的問題。當學習率或步長過大時，策略網絡不斷振動而無法收斂，當學習率或步長過小時，策略網絡的訓練時間又過長。近端策略優化算法通過控制新策略與舊策略的比值，從而限制新策略的更新幅度，使其訓練過程更加穩定。

近端策略優化是一種演員-評論家方法(Actor-Critic)。將基于價值的智能體和基于策略的智能體進行結合，同時學習價值函數和策略函數并將學到的兩種函數進行交互從而得到智能體的最佳行動，采用該方法能夠有效地加快學習速度，取得更好的學習效果。在演員-評論家方法中，演員指的是策略函數，評論家指的是價值函數。當智能體訓練完成后，策略函數用于決定智能體的實際動作，價值函數則不再起作用，其僅供訓練時為策略函數打分，使其學習到能夠盡可能獲得更高匯報的策略函數。

此外，采用深度強化學習方法能夠同時解決感知與控制問題。強化學習方法僅能夠對維度較低的狀態信息進行處理以實現對智能體的控制，而深度強化學習方法能夠直接對高緯度信息進行處理從而實現對智能體的控制，即同時解決了感知與控制的問題，更加接近人腦的處理方式。

當被動無人機的GPS信息無法獲取或其無明顯對接標識供視覺算法解算位姿信息時，采用深度強化學習的方法將主動無人機拍攝圖像作為觀測空間以訓練智能體能夠同時解決感知與控制的問題，不再需要單獨解算被動無人機的位置與姿態信息。因觀測空間為圖像信息，因此策略函數和價值函數均采用卷積神經網絡，分別稱為Actor網絡和Critic網絡。

近端策略優化算法在更新Actor網絡時有兩種方法：KL懲罰和裁剪代理目標。下面分別介紹兩種方法。

KL懲罰的目標函數為:

(12)

裁剪代理目標的目標函數為:

(13)

式中，rt(θ)為新策略πθ與舊策略πθold的比值，clip(·)為裁剪函數，ε為超參數。其中clip(·)裁剪函數表示當rt(θ)小于時，函數輸出值為1-ε，當rt(θ)大于1+ε時，函數輸出值為1+ε，即將函數的輸出值限定在1-ε與1+ε之間，如圖4所示。其中ε需要人為調節。

圖4 裁剪函數

2.3 空中目標跟蹤的網絡結構

觀測空間O為主動無人機攝像頭所拍攝圖像，如圖5所示，即網絡輸入為圖像，圖像為高維度信息需通過卷積神經網絡進行特征提取，因此Actor網絡和Critic網絡均采用卷積神經網絡。

圖5 對接無人機攝像頭拍攝圖像

文獻[17]討論了強化學習中“演員-評論家”類方法中Actor網絡和Critic網絡是否應分開的問題，結果表明當輸入為圖像等高維信息時，Actor網絡和Critic網絡間的參數共享較為重要，能夠有效提取特征，同時減少計算量。因此本文的Actor網絡和Critic網絡共享前幾層的網絡參數，其網絡結構如圖6所示。

圖6 Actor-Critic網絡結構

網絡主要由特征提取器和全連接神經網絡兩部分組成。特征提取器由三層卷積層構成，激活函數均為ReLU函數，卷積核大小分別為8×8、4×4、3×3，隨后將卷積層輸出數據拉平為一維數據，再經過節點數為512的線性層輸入全連接神經網絡。全連接神經網絡首先由Actor網絡和Critic網絡共享的兩層線性層構成，其節點數均為512，隨后網絡進行分支，共享層的輸出分別進入Actor網絡和Critic網絡。Actor網絡和Critic網絡均由兩層線性層構成，其節點數分別為256和128，Actor網絡的輸出為無人機4個電機的轉速，Critic網絡的輸出為該電機轉速下的價值函數。

2.4 空中目標跟蹤的獎勵函數

強化學習中需要設置合適的獎勵函數以使得智能體能夠完成所期望的目標任務，但在空中目標跟蹤任務中如果僅采用最終是否跟蹤成功作為獎勵函數則會導致獎勵太過于稀疏，使得最終訓練效果不佳、訓練速度緩慢。文獻[15]中通過利用shaping的方法加速智能體訓練，有效地解決了環境中獎勵稀疏的問題并成功實現了無人機目標跟蹤。為加快智能體的訓練速度，本文也采用shaping方法設計獎勵函數，此時獎勵函數為:

rewardt=shapingt-shapingt-1

(14)

式中，rewardt為t時刻的獎勵函數，shapingt為t時刻的shaping函數。即t時刻的獎勵函數為t時刻的shaping函數值與時刻的shaping函數值的差。shaping函數為：

shapingt=

Vtrack

(15)

式中，xtarget、ytarget、ztarget表示被動無人機坐標，xagent、yagent、zagent表示主動無人機坐標。Vtrack表示無人機完成達到空中目標跟蹤要求時獲得的獎勵值，即:

(16)

式中，xtrack、ytrack、ztrack表示跟蹤要求范圍。

3 空中目標跟蹤仿真實驗

3.1 空中目標跟蹤實驗環境

本文基于文獻[18]中提出的開源四旋翼強化學習仿真環境進行開發。基于Pybuellt搭建仿真環境，Pybullet是基于Bullet進行物理仿真的Python模塊。無人機模型選取“X”字型的四旋翼無人機Crazyflie，其相關物理參數見表1。

表1 Crazyflie物理參數

同時為使攝像頭拍攝圖像中的被動無人機更易識別，將被動無人機進行適當倍數的放大。搭建的仿真環境如圖7所示。

圖7 基于Pybullet的無人機跟蹤仿真環境

硬件環境：GPU為英偉達2070 Super，CPU為英特爾i5-10400F。深度強化學習框架選擇Stable Baselines3，其是基于Pytorch和Gym的強化學習實現工具，集成了一系列強化學習經典算法，包括：A2C、DDPG、PPO、SAC、TD3等。本文中強化學習算法選取近端策略優化(PPO)并采用裁剪代理目標的方式更新神經網絡參數，相關超參數見表2。

表2 PPO算法相關超參數

仿真環境中被動無人機沿世界坐標系x軸的方向進行勻速直線飛行，其初始位置為：

初始速度為：

主動無人機初始位置為：

主動無人機攝像頭拍攝的圖像作為觀測O輸入Actor網絡中，Actor網絡輸出動作A，A為經PID控制后輸出的4個電機轉速，從而控制主動無人機自主跟蹤被動無人機。跟蹤條件為:

即主動無人機在世界坐標的x軸方向與被動無人機相對距離小于1 m，在y軸和z軸方向距離小于0.1 m時，便視為跟蹤成功，此時將獲得數值為10的跟蹤獎勵Vtrack。

3.2 空中目標跟蹤實驗結果分析

訓練結束后利用訓練過程中的最優模型進行仿真測試，仿真時間持續6 s，測試情況如圖8所示。圖8(a)為仿真初始時刻兩架無人機間的位置關系，圖8(b)為初始時刻主動無人機攝像頭所拍攝的圖像，圖8(c)和圖8(d)分別為仿真結束時刻兩架無人機間的位置關系與攝像頭拍攝圖像。由圖8可以看出最終兩架無人機保持著較近的跟蹤距離[19-20]。

圖8 仿真測試

空中目標跟蹤仿真實驗結果表明，本文采用PPO算法進行的空中目標跟蹤能夠達到跟蹤要求，經過6 s的仿真測試最終沿世界坐標系x軸的跟蹤距離最終保持在0.5 m左右，y軸跟蹤距離在0.03 m以內，z軸跟蹤距離在0.01 m以內。主動無人機與被動無人機間的位置關系與速度關系如圖9和圖10所示[21-22]。

圖9 兩架無人機間的位置關系

圖10 兩架無人機間的速度關系

從圖9和圖10可以看出被動無人機沿x軸正方向以0.1 m/s進行勻速直線運動，主動無人機沿x軸從靜止開始加速到0.25 m/s勻速運動，當兩架無人機間距離接近0.5 m后進行減速，并保持與被動無人機相同速度進行飛行。同時主動無人機在y軸與z軸的位置與速度存在較小震蕩，但最終基本穩定[23-24]。

主動無人機姿態角與角速度如圖11和圖12所示。由圖10(a)可以看出，初始階段主動無人機需進行加速從而縮短與被動無人機間的距離，當速度達到0.3 m/s后進行減速，直至速度為0.25 m/s后進行勻速運動，當兩架無人機距離達到0.5 m左右后減速至0.1 m，并保持跟蹤。因此主動無人機俯仰角與俯仰角速度需相應變化，由于本文的仿真環境中未考慮空氣阻力，因此勻速運動狀態姿態角均為0°。但由圖11和圖12可知，姿態角在跟蹤成功后存在一定波動，即不能保持與被動無人機的姿態角一致，因此在進行對接操作時還需考慮姿態角與姿態角速度的相對關系。

圖11 對接無人機姿態角變化

圖12 對接無人機角速度變化

仿真實驗結果驗證了采用深度強化學習的方法能夠在僅輸入主動無人機攝像頭拍攝圖像的情況下實現空中目標自主跟蹤任務。該方法不需要通過GPS等傳感器獲得被動無人機的位置信息，也不需通過視覺算法對拍攝圖像進行處理以解算被動無人機的位姿信息，通過端到端的方式即可實現空中目標自主跟蹤任務[25-26]。

4 結束語

本文針對空中目標自主跟蹤問題，提出了一種基于深度強化學習的技術方法。主要貢獻在于：提出了端到端的空中目標自主跟蹤方法，通過將深度強化學習方法應用在空中目標自主跟蹤領域，將無人機攝像頭中拍攝圖像作為輸入，Actor網絡接受圖像并輸出4個電機的轉速，從而控制無人機完成對空中目標的跟蹤任務，無需獲得目標位置信息，也不需額外設計圖像處理算法，即可完成端到端的空中目標跟蹤，提高了無人機的自主性與智能性。

本文仍有不足之處：實驗中未考慮風阻力，也未考慮主動無人機與被動無人機間的相對姿態關系，僅適用于與相對姿態無關的空中目標跟蹤任務，若需進行空中對接仍應進一步考慮兩架無人機間的相對姿態與相對角速度關系。在未來的研究中將進一步考慮風阻力、兩架無人機間的相對姿態與相對角速度關系。