劉冰雁,葉雄兵,周赤非,劉必鎏
1. 軍事科學院,北京 100091 2. 中國人民解放軍32032部隊,北京 100094
隨著空間碎片清理、在軌加注等在軌服務技術的不斷應用,有限的航天器資源與日益增長的在軌服務需求之間矛盾日益突出。當前,“一對多”服務模式已是國內外主要方式,為了提升任務完成效果與成功概率,“多對一”模式也多被采用[1-2]?!耙粚Χ唷薄岸鄬σ弧被旌瞎泊娴姆漳J綄⒊蔀樵谲壏盏闹髁?。因此,突破傳統單一分配原則,最大限度地實現資源最少投入與服務效果最大化,是當前在軌服務資源分配急需解決的重點問題。
任務執行前的在軌資源分配問題本質上是多目標非線性組合優化決策問題,屬于多項式復雜程度的非確定性(NP)難題。常用求解方法主要有整數規劃、拍賣機制、遺傳算法和蟻群算法等。例如,文獻[3-4]對“一對多”模式的航天器在軌加注服務分配問題進行了研究,以軌道轉移燃耗為優化目標,采用遺傳算法進行求解。文獻[5]將空間燃料站技術與“一對多”在軌加注問題相結合,構建了一種基于燃料站的可往返式在軌加注分配模型,并用遺傳算法求解。文獻[6]為實現“一對一”自主式在軌服務,以服務效能、燃料消耗、燃料消耗均衡性為指標,對在軌服務飛行器目標分配問題進行了研究。通常,這些方法由于算法限制只能分別處理“一對多”和“多對一”決策問題[7],對復合服務模式下的資源分配問題適用性相對較差。
當前,新一代人工智能方法依靠其在自主訓練、自我優化方面的優勢,處理組合優化決策問題不受服務模式限制,在軍事、計算機、通信和交通等領域廣泛運用,并取得了顯著成效。文獻[8]將電磁干擾信道分配問題建模為一個馬爾科夫決策過程,運用強化學習算法進行求解,相較傳統方法收斂速度更快、方法更智能。文獻[9]針對蜂窩網資源分配多目標優化問題,基于深度強化學習提出了一種蜂窩網資源分配方法,在傳輸速率和系統能耗優化方面明顯優于傳統方法。文獻[10]針對傳統的流水車間資源分配方法數據利用率低、實時性較差等不足,利用神經網絡和強化學習實時性、靈活性優勢進行改進,使新方法能夠在更小的迭代次數內獲得較優解。
本文依據在軌服務的復合服務模式需求,在任務執行前,綜合考慮服務對象重要性、資源投入綜合效益以及總體能耗估計,基于對DQN(Deep Q-Network)收斂性和穩定性的改進,提出了在軌服務資源分配方法。該方法在建立資源分配模型的基礎上,構建資源分配雙向訓練網絡,即以綜合效益為優化目標進行前向傳輸、能耗效率作為獎懲值進行反向訓練,是目前能夠滿足復合服務模式下資源分配需求的有效方法。該方法自主性強、收斂速度快,在分配效益和總體能耗的優化方面具有明顯優勢,能夠更有效地解決多目標非線性組合優化問題。
在軌服務的復合模式,是針對眾多不同類型、不同重要程度的服務對象,綜合考慮航天器投入及效益,采取普通對象“一對多”、重要對象“多對一”分配策略的一種混合服務模式。相較單一服務模式,此種方式需要同時兼顧航天器投入量和各類對象服務效果,對分配模型的綜合決策能力要求高,通常還需人工輔助。本文借鑒先期毀傷準則[11-12]和能量效率思維[13-14],提出了一種滿足此類復合服務模式的資源自主分配模型。
假設m∈{1,2,…,M}表示能夠提供在軌服務的第m個航天器,n∈{1,2,…,N}表示在軌服務的第n個對象,Lm,n表示航天器m與服務對象n之間的資源分配關系,若航天器m服務對象n,則Lm,n=1,反之Lm,n=0。令Wn為第n個對象的重要程度。針對不同重要程度的服務對象,兼顧服務成功概率和燃料消耗,通過自主分配航天器,以達到既節省航天器投入又滿足期望效果。資源分配綜合效益可表示為

(1)
式中:G為航天器分配的綜合效益;Dm,n為任務執行前,對航天器m服務對象n的燃料估計量,是對此次任務執行成本的一種考量,其值可根據該航天器與服務對象的軌道根數,基于當前環境選取最優軌道轉移方式,通過機動推進劑消耗模型和服務過程燃料消耗模型計算獲得[15-17]。
用服務對象同時受多個航天器服務的燃料估計量以及服務成功概率來綜合衡量系統能耗,則資源分配的總體能耗效率可以表示為

(2)

根據資源分配目標,在滿足預期服務成功率約束的條件下,需要求解的多目標非線性組合優化決策問題描述為
(3)

本文除了考慮資源分配綜合效益外,還綜合考量能耗效率,于是復合服務模式下的在軌資源分配問題便成了NP-hard問題,難以求得最優解。當前常用方式是將該問題轉化為次最優解求解,但這類求解的復雜度高,影響模型運行效率[7],本文對經典DQN方法進行了收斂性和穩定性改進,并基于此求解該問題。
針對在軌服務資源分配智能化需求,彌補經典DQN方法存在獎勵偏見和過估計的問題[18],進行了方法適應性改進,以提升方法的收斂性和穩定性。
2.1.1 DQN的收斂性改進
為大幅提升神經網絡訓練效果,加快收斂速度,采用一種競爭網絡取代經典方法中的單輸出網絡模型[19]。行為值函數Q(St,a)可自然拆分為狀態值函數V(St)和行為優勢函數A(St,a)2部分。其中,狀態值函數與行為無關;動作優勢函數與行為相關,為行為相對狀態的平均回報的好壞程度,可用以解決獎勵偏見問題。據此,將經典神經網絡方法的全連接層分為一個輸出狀態函數V(St)和一個輸出行為優勢函數A(St,a),最后再通過全連接合并成行為狀態Q(St,a),即
Q(St,a)=V(St)+A(St,a)
(4)
狀態值函數被拆分后,當行為優勢值一定時,狀態值和行為優勢值有無窮種可行組合,而事實上只有小部分的組合是合乎情理的。為此,利用行為優勢函數A(St,a)期望值為0這一特性[19],對行為優勢函數A(St,a)加以限制,將式(4)修改為
Q(St,a)=V(St)+
(5)
這樣,用行為優勢函數減去當前狀態下所有A(St,a′)的均值,使行為優勢函數的期望值保持為0,進而確保模型快速收斂且輸出高效。
2.1.2 DQN的穩定性改進
深度強化學習的目標是找到最優的策略,但過估計量的非均勻出現,致使值函數的過估計影響決策,從而導致最終的決策并非最優,而只是次優。采用Q-learning學習機制的行為選擇中,通過值函數更新,時間差分(TD)方法的目標為[20]
(6)
式中:Rt+1為狀態St+1的獎懲值;γ∈[0,1]為折扣因子;Q(St+1,a;θt)為采用行為a和參數θt時,神經網絡對狀態St+1價值的預測。
選出狀態St+1的最佳行為a*后,DQN方法是利用同一個參數θt來選擇和評估行為。為了削弱最大誤差的影響,在此引入另一個神經網絡,分別用不同的值函數選擇和評估行為[21-22]。由此,利用參數θt通過式(6)進行行為選擇,在選出最佳行為a*后,運用另一個神經網絡的參數θ′t進行行為評估:
(7)
將這一思路運用到強化學習中,修改得到新的TD目標式為[23]
(8)
基于改進的DQN方法,發揮強化學習試錯自主學習優勢,運用神經網絡前向傳輸和反向訓練特性,求解在軌資源分配的多目標非線性組合優化決策問題。
2.2.1 前向傳輸優化目標
在前向傳輸過程中,在追求資源分配高效益的同時,為確保各對象要有航天器服務且均能達到預設服務成功概率門限,結合式(3),將資源分配綜合效益最優化問題表示為
(9)
采用懲罰函數法將約束優化問題轉換為如下無約束優化問題

(10)
式中:參數δ為懲罰系數;hn、gn和Dn的表達式分別為
(11)
2.2.2 反向訓練獎懲值
在反向訓練過程中,依據式(5)和式(8),構建損失函數:
(12)
其中,將資源分配的總體能耗效率作為獎懲值,即
(13)
為了有效解決強化學習中的探索與利用問題,即持續使用當前最優策略保持高回報的同時,敢于嘗試一些新的行為以求更大地獎勵,則依據探索率ε采取ε-greedy貪婪策略:
π(a|St)=
(14)
2.2.3 資源分配網絡架構

整個網絡架構由訓練、誤差、Q現實、Q估計以及行為選擇等模塊組成,借助TensorFlow展現改進的深度強化學習網絡,如圖1所示。圖中:S為當前狀態;S_為下一步狀態;Value為價值函數;Advantage為優勢函數;l1為神經網絡;eval_net為估計網絡;target_net為目標網絡;Q_target為目標Q函數;loss為損失函數;Assign[0-5]為分配;Train為訓練網絡;DuelDoubleDQN為DQN收斂性和穩定性改進網絡。

圖1 DQN收斂性和穩定性改進的網絡結構TensorFlow表示Fig.1 Network structure on DQN convergence and stability improvement by TensorFlow representation
2.2.4 DQN綜合改進方法的流程
在明確網絡輸入、輸出、關鍵模型和訓練結構后,綜合DQN穩定性改進與收斂性改進,給出智能方法的主體流程:
步驟1 利用隨機θ初始化行為值Q。
步驟2 令θt=θ,根據式(4)和式(5)計算TD目標的行為值Q。
步驟3 循環每次事件。
步驟4 初始化事件的第一個狀態,通過式(1) 預處理得到當前資源分配綜合效益。
步驟5 循環每個事件的每一步。

步驟7 仿真器中執行行為at,觀測回報Rt。
步驟8 設置St+1=St,整合(St,at,Rt,St+1)并存儲在回放記憶Memory中。
步驟9 從Memory中均勻隨機采樣一個轉換樣本數據,用(St,at,Rt,St+1)存儲結果表示。

步驟12 如果St+1是終止狀態,當前輪迭代完畢,否則轉到步驟5。
為驗證本文構建的復合服務模式下的在軌資源分配模型的適用性,以及DQN收斂性和穩定性改進方法求解該在軌資源分配問題的有效性和優越性,進行了算例仿真。
假設在某次在軌加注任務中,有9顆重要程度Wn=0.6(n=1,2,…,9)、1顆W10=0.9的ECO衛星等待加注燃料,其軌道根數[24]如表1所示。表中:e為離心率;i為軌道傾角;Ω為升交點黃道經度;ω為近心點角;τ為平近點角?,F有3架位于軌道半徑39 164 km、初始真近點角0°、推進系統比沖300 s的航天器可開展在軌加注服務。航天器擬采用多圈Lambert軌道轉移方式,結合軌道根數確定到各目標軌位的速度增量,結合齊奧爾科夫斯基公式估算得到燃料消耗量D[25-26]。現已知各航天器對衛星的服務成功概率P。
D=



表1 GEO衛星的軌道根數[24]Table 1 Orbit elements of GEO satellite[24]
任務要求在滿足70%服務成功概率的基礎上,提升對10號衛星的服務成功概率并達到85%。由此,決定采取“1對9”和“2對1”的復合服務模式。
為解決該資源分配問題,本文試圖借鑒在軌服務資源分配相關研究成果[4-6,25-28]進行求解,但發現這些方法只能單獨解決“一對多”或“一對一”服務模式的資源分配問題,不適合本文涉及的復合服務模式。為了對比分析不同方法的運算耗時情況,只考慮算例中的“一對多”在軌服務資源分配問題,分別用3種方法進行求解。
仿真運算依托1.6 GHz、1.8 GHz雙核CPU、8 G RAM計算硬件,運用python語言PyCharm編譯環境進行,各方法的耗時情況如圖2所示。其中,蟻群算法運用全局搜索方式計算開銷較大,不同的起始方向導致運算時間波動大,平均耗時0.32 s;遺傳算法沒能夠利用反饋信息訓練時間相對較長,隨機交叉變異致使運算時間波動較大,平均耗時0.19 s;改進DQN方法運用神經網絡自主訓練時間最短,探索與利用策略的使用致使運算時間有小范圍波動,平均耗時0.06 s。因此,本文所提方法充分發揮神經網絡前向傳輸和反向訓練的運算優勢,利用強化學習試錯獎勵的決策機制,相比較運算效率更高,也更適合本文所涉及的復合模式下的在軌資源分配問題。

圖2 3種方法的運算耗時對比Fig.2 Operation time comparison between three method
針對復合模式下的在軌服務資源分配問題,根據問題描述,運用本文提出的基于DQN收斂性和穩定性改進的在軌服務資源分配方法,通過網絡自主訓練、自主決策可獲得最優資源分配策略,即由航天器2和3共同對衛星10進行加注,其他衛星由航天器1提供服務。
如表2所示,以全0矩陣初始化資源分配狀態①,代入在軌資源分配模型,此時無資源投入,不符合任務要求,進而通過改進的深度強化學習網絡自主學習。訓練過程中,狀態②資源投入較節省,但不符合服務模式要求;狀態③高資源投入使得能耗效率低,綜合效益達到最低值;狀態④符合各項約束,但綜合效益值非最大。通過多次自主學習、多輪迭代后,方法收斂至狀態⑤,所提供策略即滿足各項服務要素,又實現綜合效益最大化,是該任務的最優資源分配策略。
與此同時,運用經典DQN方法進行求解,獲得了相同結果,側面印證了結果的準確性。2種方法的誤差函數值對比如圖3所示,改進DQN方法對全連接層的區分處理方式,促使僅學習70次便可實現誤差0.01的訓練效果,整個訓練過程的誤差函數值也以快近一倍的速率下降,在收斂性方面的改進效果明顯。2種方法的獎懲值對比如圖4所示,改進DQN方法在行為估計時引入另一神經網絡,確保獎懲值在快速上升的同時波動更小,自主學習僅33次后便可保持在0.197 8最佳獎懲值附近,充分體現了穩定性方面的改進優勢。

表2 基于改進深度學習的在軌加注資源分配策略Table 2 An on-orbit injection resource allocation strategy based on improved deep learning

圖3 2種方法的誤差函數值對比Fig.3 Error function value comparison between two method

圖4 2種方法的獎懲值對比Fig.4 Rewards comparison between two method
1) 構建了復合服務模式下的在軌資源分配模型。針對在軌服務多樣化模式需求,為彌補當前資源分配模型應對復合任務的不足,同時考慮重要性、效益以及能耗因素,研究了在軌服務資源分配問題。
2) 進行了DQN方法的收斂性和穩定性改進。針對在軌服務資源分配問題特性,彌補經典方法獎勵偏見和過估計問題,改進DQN方法,提升了方法斂性和穩定性。
3) 提出了基于DQN收斂性和穩定性改進的在軌服務資源分配方法。區分服務對象重要程度,在提高資源分配綜合效益的同時,盡可能地增大總體能耗效率,有效解決了多目標非線性組合優化決策問題,同時對于解決其他領域資源分配問題具有較強的借鑒意義。