基于DRL的巨型星座星地測控鏈路規(guī)劃算法

2023-11-18 05:35:32席超楊博王記榮李公朱睿杰楊肖

中國空間科學(xué)技術(shù) 2023年5期

關(guān)鍵詞：智能

席超,楊博,王記榮,*,李公,朱睿杰,楊肖

1.航天恒星科技有限公司,西安 710000 2.鄭州大學(xué),鄭州 450001

1 引言

衛(wèi)星通信系統(tǒng)正朝著低軌道、大規(guī)模、星座組網(wǎng)和多載荷多功能一體化趨勢發(fā)展。以美國SpaceX公司為代表的技術(shù)先驅(qū)已率先全面啟動天基互聯(lián)網(wǎng)建設(shè)。全球計劃部署巨型低軌星座數(shù)量多達(dá)18個以上。全球范圍聚焦、聚力、搶占低軌星座市場。中國也正在規(guī)劃、部署和建設(shè)相應(yīng)的低軌巨型星座系統(tǒng)。航天測控技術(shù)是一種對航天飛行任務(wù)目標(biāo)跟蹤測量和控制的綜合技術(shù),通過網(wǎng)絡(luò)通信技術(shù)完成運載火箭和衛(wèi)星等航天器的跟蹤測軌、遙測信號接收處理、遙控信號發(fā)送等任務(wù),巨型星座測控屬于航天測控范疇,面向的航天器是低軌巨型星座中的衛(wèi)星,是實現(xiàn)低軌星座系統(tǒng)可靠運轉(zhuǎn)和有序工作的關(guān)鍵。巨型星座測控涉及衛(wèi)星全生命周期管控,管控節(jié)點多,周期長,對象廣,階段多,過程頻繁復(fù)雜,同時管控效率要求高,現(xiàn)有的測控模式和設(shè)施無法滿足供需平衡。要實現(xiàn)對低軌巨型星座系統(tǒng)高效運維管控,必須要擺脫對傳統(tǒng)人工運維的高依賴,深化人工智能等新技術(shù)與測控技術(shù)多點融合,突破巨型星座系統(tǒng)測運控主要環(huán)節(jié)的高效運維管控技術(shù)。低軌星座衛(wèi)星和地面測控站相對高動態(tài)運動,星地測控窗口動態(tài)多變,且存在單星多站和單站多星測控窗口規(guī)劃選擇問題。星地測控鏈路規(guī)劃是執(zhí)行對衛(wèi)星跟蹤測軌、遙測信號接收和遙控信號發(fā)送的關(guān)鍵和前提[1-3]。國內(nèi)外對低軌巨型星座測運控相關(guān)研究較少。文獻(xiàn)[4]構(gòu)建了上行注入任務(wù)調(diào)度問題的多目標(biāo)混合整數(shù)規(guī)劃模型,并設(shè)計了基于規(guī)則的啟發(fā)式算法進(jìn)行求解;文獻(xiàn)[5]提出了基于改進(jìn)蟻群算法設(shè)計的敏捷衛(wèi)星調(diào)度方法;文獻(xiàn)[6]面向具有星間鏈路的衛(wèi)星導(dǎo)航系統(tǒng)設(shè)計了啟發(fā)式規(guī)劃調(diào)度方法;文獻(xiàn)[7]設(shè)計了基于遺傳算法的規(guī)劃方法,考慮了最大任務(wù)數(shù)和最小切換次數(shù);文獻(xiàn)[8]基于拉格朗日啟發(fā)式方法設(shè)計了規(guī)劃算法;文獻(xiàn)[9]提出了改進(jìn)的遺傳算法。

上述方法大多采用傳統(tǒng)的啟發(fā)式方法,并且面向的是小規(guī)模的衛(wèi)星系統(tǒng),對測控站的資源也考慮有限。當(dāng)應(yīng)用在更為復(fù)雜的巨型星座系統(tǒng)中時,這些方法的性能和魯棒性等都面臨挑戰(zhàn)。對于復(fù)雜的序列決策型問題,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)展示出了強(qiáng)大的決策優(yōu)化能力。通過智能體對系統(tǒng)環(huán)境進(jìn)行“探索與評價”,利用深度學(xué)習(xí)的強(qiáng)大感知能力,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型對復(fù)雜環(huán)境進(jìn)行特征提取,并結(jié)合強(qiáng)化學(xué)習(xí)的決策能力做出動作選擇,并根據(jù)獎懲機(jī)制進(jìn)行策略優(yōu)化,現(xiàn)已成為解決復(fù)雜系統(tǒng)的感知-決策問題的重要手段[10]。本文結(jié)合衛(wèi)星測運控工程經(jīng)驗和對低軌星座系統(tǒng)深入研究,將深度Q學(xué)習(xí)網(wǎng)絡(luò)(deep Q-network,DQN)強(qiáng)化學(xué)習(xí)算法[11-15]技術(shù)與測控技術(shù)進(jìn)行了融合,提出了一種面向未來巨型星座的高效星地測控鏈路組網(wǎng)規(guī)劃算法,可為中國星座系統(tǒng)的建設(shè)提供相應(yīng)的技術(shù)解決方案。

2 問題建模

3 基于DRL的星地測控鏈路規(guī)劃算法

DQN算法的網(wǎng)絡(luò)框架如圖1所示,采用了雙神經(jīng)網(wǎng)絡(luò)架構(gòu),一個為評估網(wǎng)絡(luò),用來計算Q值,另一個為目標(biāo)網(wǎng)絡(luò),用來計算目標(biāo)Q值。兩個神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和初始權(quán)重值都是一樣的,區(qū)別在于每次迭代訓(xùn)練中,評估網(wǎng)絡(luò)每次都更新參數(shù),而目標(biāo)網(wǎng)絡(luò)則隔一段時間才會更新參數(shù)。由于模型參數(shù)的頻繁更新,容易出現(xiàn)震蕩發(fā)散、難以收斂的現(xiàn)象,而目標(biāo)神經(jīng)網(wǎng)絡(luò)的引入可以輔助穩(wěn)定目標(biāo)值,降低當(dāng)前Q值和目標(biāo)Q值的相關(guān)性,加快模型收斂,提升算法的穩(wěn)定性。DQN的損失函數(shù)表示為目標(biāo)Q值和當(dāng)前Q值的均方差,智能體會使用梯度下降的方法來更新參數(shù),損失函數(shù)的定義如下:

圖1 DQN算法框架Fig.1 Framework diagram of DQN algorithm

Loss(θ)=E[(QTarget-Q(s,a;θ))2]

(1)

(2)

式中:θ為網(wǎng)絡(luò)參數(shù);γ為折扣因子;r為獎勵值;s為當(dāng)前環(huán)境狀態(tài);a為狀態(tài)s下所采取的動作;s′為智能體做出動作更新后的環(huán)境狀態(tài);a′為狀態(tài)s′下所采取的動作。

同時,DQN還引入了經(jīng)驗池的概念,用來存放環(huán)境、狀態(tài)和獎勵的相關(guān)數(shù)據(jù),即(s,a,r,s′),在智能體學(xué)習(xí)過程中會從中抽取批次數(shù)據(jù)訓(xùn)練評估網(wǎng)絡(luò)。這一機(jī)制可以有效地切斷輸入樣本之間的相關(guān)性,同時也提升樣本數(shù)據(jù)的利用率。

3.1 環(huán)境狀態(tài)設(shè)計

為了更好地解決大規(guī)模星座星地傳輸規(guī)劃問題,將問題解耦到每個離散時間片內(nèi)的星地規(guī)劃問題。在每個時間片內(nèi),每個測控站的初始狀態(tài)都是一致的,都有相同的天線資源,但在不同的時間片內(nèi),測控站的可見衛(wèi)星序列是不一致的,因此,在進(jìn)行環(huán)境狀態(tài)設(shè)計中,重點考慮衛(wèi)星的狀態(tài)。對于同一時間片內(nèi),如果一顆衛(wèi)星被多個測控站可見,該衛(wèi)星記為競爭衛(wèi)星,對于某個測控站,衛(wèi)星的狀態(tài)情況如表1所示。

表1 環(huán)境狀態(tài)描述Table 1 Environment status description

State={F(s1),F(s2),…,F(sl),F(s1′),

F(s2′),…,F(sL-l′)}

(3)

式中:F(s1)表示可視衛(wèi)星s1的狀態(tài),F(s1)∈[0,5],可視衛(wèi)星序列長度為l;F(s1′)表示填充衛(wèi)星s1′的狀態(tài),F(s1′)=0,填充衛(wèi)星序列長度為L-l。

3.2 動作空間選擇

DQN智能體在進(jìn)行動作選擇時,采用了“探索與利用”的思想,即ε-貪心策略。傳統(tǒng)的貪婪策略只會采用具有最大Q值的動作a=argmaxaiQ(s,ai),這種策略會導(dǎo)致智能體無法對環(huán)境信息進(jìn)行更多的探索,容易陷入局部最優(yōu)解。而ε-貪心策略是以ε的概率隨機(jī)選取動作,以1-ε的概率選擇具有最大Q值的動作,這樣就增加了智能體對環(huán)境信息有更為全面的認(rèn)知與掌握,不易局限于已知的局部信息之中,從而可以積累更多的經(jīng)驗,并逐步優(yōu)化策略以獲得最大化的獎勵值。

在時間片tk,測控站gi∈G的動作空間大小與環(huán)境狀態(tài)空間一致,定義如下:

Action={s1,s2,…,sl,s1′,s2′,…,sL-l′}

(4)

3.3 獎勵函數(shù)定義

獎勵函數(shù)的設(shè)計影響著智能體的動作選擇和策略優(yōu)化。從提升資源利用率和減少天線切換方面考慮,智能體應(yīng)當(dāng)盡可能地多選擇非競爭衛(wèi)星和在上一個時間片就連接到該測控站的衛(wèi)星。因此,選中狀態(tài)5到狀態(tài)2的衛(wèi)星對應(yīng)的策略優(yōu)級依次下降,而選中狀態(tài)0和狀態(tài)1的衛(wèi)星均屬于最差策略,因為這兩種狀態(tài)下的衛(wèi)星都是無法建立星地鏈路。

基于上述分析,獎勵函數(shù)的定義如下:

(5)

式中:R為基本獎勵,設(shè)為20;PW為懲罰權(quán)重,設(shè)為-5;F(s)表示選擇的衛(wèi)星s的狀態(tài)。選擇的衛(wèi)星狀態(tài)級別越低時,所獲得的獎勵也越低,但對于選擇狀態(tài)0和狀態(tài)1的衛(wèi)星則直接給予負(fù)獎勵值,因為這兩種狀態(tài)下的衛(wèi)星是無法建立連接的。

3.4 算法流程

本算法流程如下,對于每個時間片,智能體依次為各個測控站進(jìn)行衛(wèi)星分配。

1 初始化評估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)權(quán)重參數(shù)

2 while iter≤最大迭代次數(shù):

3 fortkin iter≤:

4 forgiinG={g1,g2,…,gM}:

6 根據(jù)s,評估網(wǎng)絡(luò)生成動作空間對應(yīng)Q值序列;

7 forbwinBi={b1,b2,…,bW}:

8 根據(jù)Q值序列和ε-貪心策略選擇動作a,為天線bw分配衛(wèi)星;

9 計算獎勵值r,環(huán)境狀態(tài)更新為s′;

10 將(s,a,r,s′)存進(jìn)經(jīng)驗池,記錄分配方案;

11 learn_count += 1;

12 if learn_count % 學(xué)習(xí)步長 == 0:

13 從經(jīng)驗池中抽取批次樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練;

14 if update_count % 更新步長 == 0:

15 將評估網(wǎng)絡(luò)參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò);

16 目標(biāo)網(wǎng)絡(luò)計算出目標(biāo)Q值;

17 計算損失函數(shù),采用梯度下降更新網(wǎng)絡(luò);

18 update_count += 1;

19 計算資源利用率、天線切換次數(shù);

20 end while;

21 輸出最優(yōu)分配方案;

4 仿真及結(jié)果分析

在本文的仿真場景中,空間段是由768顆衛(wèi)星構(gòu)成的大規(guī)模星座網(wǎng)絡(luò),采用極軌星座構(gòu)型,共有16個軌道平面,每個軌道分布48顆衛(wèi)星節(jié)點,軌道高度為1200km,軌道傾角為86°,軌道偏心率為0。地面段由23個測控站組成,隨機(jī)分布在全球的各個大洲,每個測控站配有8根天線,天線的最低仰角為10°。規(guī)劃周期時長設(shè)為24h,劃分成1440個時間片,每個時間片為60s。

DQN算法所使用的評估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)架構(gòu)一致,均設(shè)置3層隱藏層,各層的神經(jīng)單元數(shù)量依次為1024、512和256,采用sigmoid激活函數(shù)。智能體的學(xué)習(xí)率設(shè)為0.01,學(xué)習(xí)步長為10,參數(shù)更新步長為200,經(jīng)驗池大小設(shè)為500,采樣大小設(shè)為100,獎勵折扣因子設(shè)為0.9,總的訓(xùn)練迭代次數(shù)為10000,采用24h的歷史TLE數(shù)據(jù)計算出的可視時間窗口進(jìn)行訓(xùn)練。

圖2～4展示了DQN算法在訓(xùn)練過程中的測控站天線的平均利用率、平均切換次數(shù)和智能體獲取的累計獎勵值的變化情況。可以看出智能體通過不斷學(xué)習(xí)與優(yōu)化策略,獲得的獎勵值不斷提高,可以將測控站的天線利用率提升到98%以上,并有效降低天線的切換次數(shù)。

圖2 測控站天線的平均資源利用率Fig.2 The average resource utilization of the antenna in TT&C station

圖3 測控站天線的平均切換次數(shù)Fig.3 The average switching times of the antenna in TT&C station

圖4 DQN智能體獲取的獎勵值Fig.4 Reward values obtained by the DQN agent

圖5和圖6為訓(xùn)練好的DQN算法模型和遺傳算法、隨機(jī)算法對未來5天內(nèi)的星地鏈路規(guī)劃方案的性能比較結(jié)果,表2為DQN算法和遺傳算法方案生成的耗時對比。從結(jié)果中可以看出DQN算法具有很好的魯棒性和高效性。

圖5 DQN算法、遺傳算法和隨機(jī)算法的測控站平均資源利用率對比結(jié)果Fig.5 Comparison results of average resource utilization of TT&C stations by DQN algorithm,genetic algorithm and random algorithm

圖6 DQN算法、遺傳算法和隨機(jī)算法的測控站平均切換次數(shù)對比結(jié)果Fig.6 Comparison results of average switching times of TT&C stations of DQN algorithm,genetic algorithm and random algorithm

表2 DQN、遺傳算法和隨機(jī)算法方案生成耗時對比Table 2 Comparison of generation time of DQN algorithm,genetic algorithm and random algorithm

5 結(jié)論

本文針對巨型星座系統(tǒng)中星地測控鏈路規(guī)劃這一關(guān)鍵性問題,引入深度強(qiáng)化學(xué)習(xí)方法DQN進(jìn)行策略優(yōu)化。相比于傳統(tǒng)的啟發(fā)式算法,本文設(shè)計的算法對巨型星座有很強(qiáng)的適應(yīng)性,利用智能體與環(huán)境進(jìn)行信息交互,結(jié)合獎懲機(jī)制自動優(yōu)化衛(wèi)星選擇策略。仿真實驗表明,該算法可以將測控站天線資源率提升到98%以上,同時有效減少天線的切換次數(shù)。此外,訓(xùn)練好的模型可以根據(jù)未來時刻的星地可視窗口,在30s內(nèi)快速生成規(guī)劃方案,效率遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的蟻群算法。