999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DRL的巨型星座星地測控鏈路規(guī)劃算法

2023-11-18 05:35:32席超楊博王記榮李公朱睿杰楊肖
中國空間科學(xué)技術(shù) 2023年5期
關(guān)鍵詞:智能

席超,楊博,王記榮,*,李公,朱睿杰,楊肖

1.航天恒星科技有限公司,西安 710000 2.鄭州大學(xué),鄭州 450001

1 引言

衛(wèi)星通信系統(tǒng)正朝著低軌道、大規(guī)模、星座組網(wǎng)和多載荷多功能一體化趨勢發(fā)展。以美國SpaceX公司為代表的技術(shù)先驅(qū)已率先全面啟動天基互聯(lián)網(wǎng)建設(shè)。全球計劃部署巨型低軌星座數(shù)量多達(dá)18個以上。全球范圍聚焦、聚力、搶占低軌星座市場。中國也正在規(guī)劃、部署和建設(shè)相應(yīng)的低軌巨型星座系統(tǒng)。航天測控技術(shù)是一種對航天飛行任務(wù)目標(biāo)跟蹤測量和控制的綜合技術(shù),通過網(wǎng)絡(luò)通信技術(shù)完成運載火箭和衛(wèi)星等航天器的跟蹤測軌、遙測信號接收處理、遙控信號發(fā)送等任務(wù),巨型星座測控屬于航天測控范疇,面向的航天器是低軌巨型星座中的衛(wèi)星,是實現(xiàn)低軌星座系統(tǒng)可靠運轉(zhuǎn)和有序工作的關(guān)鍵。巨型星座測控涉及衛(wèi)星全生命周期管控,管控節(jié)點多,周期長,對象廣,階段多,過程頻繁復(fù)雜,同時管控效率要求高,現(xiàn)有的測控模式和設(shè)施無法滿足供需平衡。要實現(xiàn)對低軌巨型星座系統(tǒng)高效運維管控,必須要擺脫對傳統(tǒng)人工運維的高依賴,深化人工智能等新技術(shù)與測控技術(shù)多點融合,突破巨型星座系統(tǒng)測運控主要環(huán)節(jié)的高效運維管控技術(shù)。低軌星座衛(wèi)星和地面測控站相對高動態(tài)運動,星地測控窗口動態(tài)多變,且存在單星多站和單站多星測控窗口規(guī)劃選擇問題。星地測控鏈路規(guī)劃是執(zhí)行對衛(wèi)星跟蹤測軌、遙測信號接收和遙控信號發(fā)送的關(guān)鍵和前提[1-3]。國內(nèi)外對低軌巨型星座測運控相關(guān)研究較少。文獻(xiàn)[4]構(gòu)建了上行注入任務(wù)調(diào)度問題的多目標(biāo)混合整數(shù)規(guī)劃模型,并設(shè)計了基于規(guī)則的啟發(fā)式算法進(jìn)行求解;文獻(xiàn)[5]提出了基于改進(jìn)蟻群算法設(shè)計的敏捷衛(wèi)星調(diào)度方法;文獻(xiàn)[6]面向具有星間鏈路的衛(wèi)星導(dǎo)航系統(tǒng)設(shè)計了啟發(fā)式規(guī)劃調(diào)度方法;文獻(xiàn)[7]設(shè)計了基于遺傳算法的規(guī)劃方法,考慮了最大任務(wù)數(shù)和最小切換次數(shù);文獻(xiàn)[8]基于拉格朗日啟發(fā)式方法設(shè)計了規(guī)劃算法;文獻(xiàn)[9]提出了改進(jìn)的遺傳算法。

上述方法大多采用傳統(tǒng)的啟發(fā)式方法,并且面向的是小規(guī)模的衛(wèi)星系統(tǒng),對測控站的資源也考慮有限。當(dāng)應(yīng)用在更為復(fù)雜的巨型星座系統(tǒng)中時,這些方法的性能和魯棒性等都面臨挑戰(zhàn)。對于復(fù)雜的序列決策型問題,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)展示出了強(qiáng)大的決策優(yōu)化能力。通過智能體對系統(tǒng)環(huán)境進(jìn)行“探索與評價”,利用深度學(xué)習(xí)的強(qiáng)大感知能力,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型對復(fù)雜環(huán)境進(jìn)行特征提取,并結(jié)合強(qiáng)化學(xué)習(xí)的決策能力做出動作選擇,并根據(jù)獎懲機(jī)制進(jìn)行策略優(yōu)化,現(xiàn)已成為解決復(fù)雜系統(tǒng)的感知-決策問題的重要手段[10]。本文結(jié)合衛(wèi)星測運控工程經(jīng)驗和對低軌星座系統(tǒng)深入研究,將深度Q學(xué)習(xí)網(wǎng)絡(luò)(deep Q-network,DQN)強(qiáng)化學(xué)習(xí)算法[11-15]技術(shù)與測控技術(shù)進(jìn)行了融合,提出了一種面向未來巨型星座的高效星地測控鏈路組網(wǎng)規(guī)劃算法,可為中國星座系統(tǒng)的建設(shè)提供相應(yīng)的技術(shù)解決方案。

2 問題建模

3 基于DRL的星地測控鏈路規(guī)劃算法

DQN算法的網(wǎng)絡(luò)框架如圖1所示,采用了雙神經(jīng)網(wǎng)絡(luò)架構(gòu),一個為評估網(wǎng)絡(luò),用來計算Q值,另一個為目標(biāo)網(wǎng)絡(luò),用來計算目標(biāo)Q值。兩個神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和初始權(quán)重值都是一樣的,區(qū)別在于每次迭代訓(xùn)練中,評估網(wǎng)絡(luò)每次都更新參數(shù),而目標(biāo)網(wǎng)絡(luò)則隔一段時間才會更新參數(shù)。由于模型參數(shù)的頻繁更新,容易出現(xiàn)震蕩發(fā)散、難以收斂的現(xiàn)象,而目標(biāo)神經(jīng)網(wǎng)絡(luò)的引入可以輔助穩(wěn)定目標(biāo)值,降低當(dāng)前Q值和目標(biāo)Q值的相關(guān)性,加快模型收斂,提升算法的穩(wěn)定性。DQN的損失函數(shù)表示為目標(biāo)Q值和當(dāng)前Q值的均方差,智能體會使用梯度下降的方法來更新參數(shù),損失函數(shù)的定義如下:

圖1 DQN算法框架Fig.1 Framework diagram of DQN algorithm

Loss(θ)=E[(QTarget-Q(s,a;θ))2]

(1)

(2)

式中:θ為網(wǎng)絡(luò)參數(shù);γ為折扣因子;r為獎勵值;s為當(dāng)前環(huán)境狀態(tài);a為狀態(tài)s下所采取的動作;s′為智能體做出動作更新后的環(huán)境狀態(tài);a′為狀態(tài)s′下所采取的動作。

同時,DQN還引入了經(jīng)驗池的概念,用來存放環(huán)境、狀態(tài)和獎勵的相關(guān)數(shù)據(jù),即(s,a,r,s′),在智能體學(xué)習(xí)過程中會從中抽取批次數(shù)據(jù)訓(xùn)練評估網(wǎng)絡(luò)。這一機(jī)制可以有效地切斷輸入樣本之間的相關(guān)性,同時也提升樣本數(shù)據(jù)的利用率。

3.1 環(huán)境狀態(tài)設(shè)計

為了更好地解決大規(guī)模星座星地傳輸規(guī)劃問題,將問題解耦到每個離散時間片內(nèi)的星地規(guī)劃問題。在每個時間片內(nèi),每個測控站的初始狀態(tài)都是一致的,都有相同的天線資源,但在不同的時間片內(nèi),測控站的可見衛(wèi)星序列是不一致的,因此,在進(jìn)行環(huán)境狀態(tài)設(shè)計中,重點考慮衛(wèi)星的狀態(tài)。對于同一時間片內(nèi),如果一顆衛(wèi)星被多個測控站可見,該衛(wèi)星記為競爭衛(wèi)星,對于某個測控站,衛(wèi)星的狀態(tài)情況如表1所示。

表1 環(huán)境狀態(tài)描述Table 1 Environment status description

State={F(s1),F(s2),…,F(sl),F(s1′),

F(s2′),…,F(sL-l′)}

(3)

式中:F(s1)表示可視衛(wèi)星s1的狀態(tài),F(s1)∈[0,5],可視衛(wèi)星序列長度為l;F(s1′)表示填充衛(wèi)星s1′的狀態(tài),F(s1′)=0,填充衛(wèi)星序列長度為L-l。

3.2 動作空間選擇

DQN智能體在進(jìn)行動作選擇時,采用了“探索與利用”的思想,即ε-貪心策略。傳統(tǒng)的貪婪策略只會采用具有最大Q值的動作a=argmaxaiQ(s,ai),這種策略會導(dǎo)致智能體無法對環(huán)境信息進(jìn)行更多的探索,容易陷入局部最優(yōu)解。而ε-貪心策略是以ε的概率隨機(jī)選取動作,以1-ε的概率選擇具有最大Q值的動作,這樣就增加了智能體對環(huán)境信息有更為全面的認(rèn)知與掌握,不易局限于已知的局部信息之中,從而可以積累更多的經(jīng)驗,并逐步優(yōu)化策略以獲得最大化的獎勵值。

在時間片tk,測控站gi∈G的動作空間大小與環(huán)境狀態(tài)空間一致,定義如下:

Action={s1,s2,…,sl,s1′,s2′,…,sL-l′}

(4)

3.3 獎勵函數(shù)定義

獎勵函數(shù)的設(shè)計影響著智能體的動作選擇和策略優(yōu)化。從提升資源利用率和減少天線切換方面考慮,智能體應(yīng)當(dāng)盡可能地多選擇非競爭衛(wèi)星和在上一個時間片就連接到該測控站的衛(wèi)星。因此,選中狀態(tài)5到狀態(tài)2的衛(wèi)星對應(yīng)的策略優(yōu)級依次下降,而選中狀態(tài)0和狀態(tài)1的衛(wèi)星均屬于最差策略,因為這兩種狀態(tài)下的衛(wèi)星都是無法建立星地鏈路。

基于上述分析,獎勵函數(shù)的定義如下:

(5)

式中:R為基本獎勵,設(shè)為20;PW為懲罰權(quán)重,設(shè)為-5;F(s)表示選擇的衛(wèi)星s的狀態(tài)。選擇的衛(wèi)星狀態(tài)級別越低時,所獲得的獎勵也越低,但對于選擇狀態(tài)0和狀態(tài)1的衛(wèi)星則直接給予負(fù)獎勵值,因為這兩種狀態(tài)下的衛(wèi)星是無法建立連接的。

3.4 算法流程

本算法流程如下,對于每個時間片,智能體依次為各個測控站進(jìn)行衛(wèi)星分配。

1 初始化評估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)權(quán)重參數(shù)

2 while iter≤最大迭代次數(shù):

3 fortkin iter≤:

4 forgiinG={g1,g2,…,gM}:

6 根據(jù)s,評估網(wǎng)絡(luò)生成動作空間對應(yīng)Q值序列;

7 forbwinBi={b1,b2,…,bW}:

8 根據(jù)Q值序列和ε-貪心策略選擇動作a,為天線bw分配衛(wèi)星;

9 計算獎勵值r,環(huán)境狀態(tài)更新為s′;

10 將(s,a,r,s′)存進(jìn)經(jīng)驗池,記錄分配方案;

11 learn_count += 1;

12 if learn_count % 學(xué)習(xí)步長 == 0:

13 從經(jīng)驗池中抽取批次樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練;

14 if update_count % 更新步長 == 0:

15 將評估網(wǎng)絡(luò)參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò);

16 目標(biāo)網(wǎng)絡(luò)計算出目標(biāo)Q值;

17 計算損失函數(shù),采用梯度下降更新網(wǎng)絡(luò);

18 update_count += 1;

19 計算資源利用率、天線切換次數(shù);

20 end while;

21 輸出最優(yōu)分配方案;

4 仿真及結(jié)果分析

在本文的仿真場景中,空間段是由768顆衛(wèi)星構(gòu)成的大規(guī)模星座網(wǎng)絡(luò),采用極軌星座構(gòu)型,共有16個軌道平面,每個軌道分布48顆衛(wèi)星節(jié)點,軌道高度為1200km,軌道傾角為86°,軌道偏心率為0。地面段由23個測控站組成,隨機(jī)分布在全球的各個大洲,每個測控站配有8根天線,天線的最低仰角為10°。規(guī)劃周期時長設(shè)為24h,劃分成1440個時間片,每個時間片為60s。

DQN算法所使用的評估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)架構(gòu)一致,均設(shè)置3層隱藏層,各層的神經(jīng)單元數(shù)量依次為1024、512和256,采用sigmoid激活函數(shù)。智能體的學(xué)習(xí)率設(shè)為0.01,學(xué)習(xí)步長為10,參數(shù)更新步長為200,經(jīng)驗池大小設(shè)為500,采樣大小設(shè)為100,獎勵折扣因子設(shè)為0.9,總的訓(xùn)練迭代次數(shù)為10000,采用24h的歷史TLE數(shù)據(jù)計算出的可視時間窗口進(jìn)行訓(xùn)練。

圖2~4展示了DQN算法在訓(xùn)練過程中的測控站天線的平均利用率、平均切換次數(shù)和智能體獲取的累計獎勵值的變化情況。可以看出智能體通過不斷學(xué)習(xí)與優(yōu)化策略,獲得的獎勵值不斷提高,可以將測控站的天線利用率提升到98%以上,并有效降低天線的切換次數(shù)。

圖2 測控站天線的平均資源利用率Fig.2 The average resource utilization of the antenna in TT&C station

圖3 測控站天線的平均切換次數(shù)Fig.3 The average switching times of the antenna in TT&C station

圖4 DQN智能體獲取的獎勵值Fig.4 Reward values obtained by the DQN agent

圖5和圖6為訓(xùn)練好的DQN算法模型和遺傳算法、隨機(jī)算法對未來5天內(nèi)的星地鏈路規(guī)劃方案的性能比較結(jié)果,表2為DQN算法和遺傳算法方案生成的耗時對比。從結(jié)果中可以看出DQN算法具有很好的魯棒性和高效性。

圖5 DQN算法、遺傳算法和隨機(jī)算法的測控站平均資源利用率對比結(jié)果Fig.5 Comparison results of average resource utilization of TT&C stations by DQN algorithm,genetic algorithm and random algorithm

圖6 DQN算法、遺傳算法和隨機(jī)算法的測控站平均切換次數(shù)對比結(jié)果Fig.6 Comparison results of average switching times of TT&C stations of DQN algorithm,genetic algorithm and random algorithm

表2 DQN、遺傳算法和隨機(jī)算法方案生成耗時對比Table 2 Comparison of generation time of DQN algorithm,genetic algorithm and random algorithm

5 結(jié)論

本文針對巨型星座系統(tǒng)中星地測控鏈路規(guī)劃這一關(guān)鍵性問題,引入深度強(qiáng)化學(xué)習(xí)方法DQN進(jìn)行策略優(yōu)化。相比于傳統(tǒng)的啟發(fā)式算法,本文設(shè)計的算法對巨型星座有很強(qiáng)的適應(yīng)性,利用智能體與環(huán)境進(jìn)行信息交互,結(jié)合獎懲機(jī)制自動優(yōu)化衛(wèi)星選擇策略。仿真實驗表明,該算法可以將測控站天線資源率提升到98%以上,同時有效減少天線的切換次數(shù)。此外,訓(xùn)練好的模型可以根據(jù)未來時刻的星地可視窗口,在30s內(nèi)快速生成規(guī)劃方案,效率遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的蟻群算法。

猜你喜歡
智能
智能與自主
讓紙變得智能
一種智能微耕機(jī)的研發(fā)
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
爭渡智能石化
能源(2018年4期)2018-05-19 01:53:44
主站蜘蛛池模板: 久久一色本道亚洲| 狠狠色丁香婷婷综合| 干中文字幕| 欧美不卡视频一区发布| 久久国产高清视频| 日本成人不卡视频| 91黄色在线观看| 国产丰满大乳无码免费播放| lhav亚洲精品| 无码国产伊人| 黄色网页在线观看| 中文一区二区视频| 欧美日韩成人在线观看 | 免费国产黄线在线观看| 怡春院欧美一区二区三区免费| 激情亚洲天堂| 一级福利视频| 亚洲电影天堂在线国语对白| 亚洲乱亚洲乱妇24p| 免费A级毛片无码免费视频| 成人国产一区二区三区| 精品少妇人妻av无码久久| 国产又爽又黄无遮挡免费观看| 99久久人妻精品免费二区| 97视频在线精品国自产拍| 久久亚洲日本不卡一区二区| 亚洲第一中文字幕| 亚洲伊人天堂| 日韩高清在线观看不卡一区二区| 国产成人精品无码一区二| V一区无码内射国产| 国产日韩欧美黄色片免费观看| 六月婷婷综合| 美美女高清毛片视频免费观看| 亚洲女同欧美在线| 97久久超碰极品视觉盛宴| AV不卡无码免费一区二区三区| 日韩在线视频网站| 伊人查蕉在线观看国产精品| 色偷偷av男人的天堂不卡| 国产在线自揄拍揄视频网站| 精品国产Ⅴ无码大片在线观看81 | 国产特一级毛片| 久久精品国产在热久久2019 | a在线亚洲男人的天堂试看| 国产精品免费露脸视频| 狠狠操夜夜爽| 婷婷丁香在线观看| 国产成人三级| 欧美日韩国产在线播放| 无遮挡一级毛片呦女视频| 久久精品人人做人人爽电影蜜月| 国产精品伦视频观看免费| www.youjizz.com久久| 无码电影在线观看| 就去色综合| 老司机aⅴ在线精品导航| 亚洲人成网站日本片| 999精品视频在线| 四虎国产永久在线观看| 国产欧美日韩综合在线第一| 狠狠色成人综合首页| 久久国产V一级毛多内射| 国产电话自拍伊人| 在线免费观看a视频| 四虎影视库国产精品一区| 免费在线a视频| 亚洲大学生视频在线播放| 日韩精品久久无码中文字幕色欲| 一级毛片基地| 欧美、日韩、国产综合一区| 在线看AV天堂| 日韩国产亚洲一区二区在线观看| 国产无人区一区二区三区| 国产色偷丝袜婷婷无码麻豆制服| 1024国产在线| 成人午夜视频网站| 狠狠色丁香婷婷综合| 久久亚洲欧美综合| 全部毛片免费看| 久久精品国产91久久综合麻豆自制| 在线观看av永久|