


摘要:為提升衛星通信的效率和質量,該文聚焦低軌衛星互聯網,運用深度學習理論,創新性地提出一種低軌衛星網絡算法。通過明確系統運行問題,構建多智能體算法系統,以優化低軌衛星互聯網建設,滿足高質量通信需求,為衛星通信行業發展提供新思路與經驗借鑒。
關鍵詞:深度學習;衛星通信;低軌衛星;互聯網建設
doi:10.3969/J.ISSN.1672-7274.2024.12.007
中圖分類號:TN 927+.2;TP 393.4" " " " " 文獻標志碼:A" " " " " " 文章編碼:1672-7274(2024)12-00-03
Application Research on Low-Orbit Satellite Internet Construction Based on Deep Learning
GUO Xiangliang WEI Chuanqi ZHANG Shi
(1. China Academy of Information and Communications Technology, Beijing 100191, China;
2. Landspace Technology Corporation, Beijing 100176, China)
Abstract: To enhance the efficiency and quality of satellite communications, this paper focuses on low-orbit satellite internet and innovatively proposes a low-orbit satellite network algorithm using deep learning theory. By identifying system operational issues and constructing a multi-agent algorithm system, we aim to optimize the construction of low-orbit satellite internet to meet high-quality communication demands, providing new insights and experiences for the development of the satellite communication industry.
Keywords: deep learning; satellite communication; low-orbit satellite; Internet construction
0" "引言
隨著物聯網技術的蓬勃發展,衛星通信網絡中的用戶終端節點數量急劇增加,這一趨勢正有力推動著衛星通信行業的快速進步。實現衛星互聯網與地面通信系統的深度融合,依托人造衛星進行高效穩定的信號傳輸,已成為衛星通信領域的主流發展趨勢。當前,低軌衛星系統的建設備受矚目,成為行業關注的熱點。鑒于此,本文以低軌衛星系統為具體案例,深入剖析低軌衛星互聯網的建設路徑,旨在探索提升通信質量、優化通信方式的有效策略,為衛星通信行業的持續發展貢獻力量。
1" "深度學習理論
1.1 深度學習算法
深度學習的核心基石為神經網絡架構,它巧妙地借鑒了人體大腦神經元網絡的精妙結構,旨在實現人工智能的跨越式發展。此技術通過精心設計的激活函數,精準地模擬了人腦神經元在信息處理過程中的激發與抑制狀態,從而構建出既高效又靈活的智能計算模型。在深度學習的訓練流程中,我們采用迭代優化的策略,系統地調整神經網絡內部各個神經元之間的連接權重。這一過程類似于人腦在學習新知識時,不斷調整神經元間的突觸連接強度,以實現信息的精準傳遞與處理。通過反復的訓練與優化,深度學習模型能夠逐步提升其性能與智能水平,為解決復雜問題提供強有力的支持,從而推動人工智能技術的持續進步與發展。
1.2 深度學習算法在低軌衛星系統中應用原理
多智能體深度強化學習算法,是強化學習的一個主要分支內容,應用該算法,可以在系統中同時存在兩個及以上的智能體來與環境進行交互。這一過程中的智能體之間或為合作關系,或為競爭關系,單個智能體獲得的回報會受到其他智能體行為的影響[1]。基于馬爾可夫決策過程和博弈的理論,設定基于多智能體的五元組,以代表智能體i的動作集合,則代表n個智能體的聯合動作,以代表智能體i的獎勵,則。基于常見的單智能體場景,考慮多智能體強化學習中,所有智能體的共同作用都會導致環境變化,則其獎勵主要取決于聯合策略。在這一前提下,智能體的獎勵需要滿足以下條件:
結合圖1呈現的多智能體強化學習架構,我們可以深入洞察多智能體系統在決策過程中的復雜動態。該過程深受環境、信息獲取能力及目標導向等多重因素的交織影響。具體而言,當智能體在做出決策時,其行動不僅嵌入于動態變化的環境中,而且與其他智能體的同步行動緊密相關,形成了一個錯綜復雜的聯合動作網絡。此外,信息局限性是一個不可忽視的挑戰:智能體往往僅能獲取局部信息,難以全面掌握其他智能體的動作細節及獎勵反饋。這種信息不對稱性,加之智能體本能地追求全局最優解的內在驅動力,進一步加劇了決策過程的復雜性。因此,盡管多智能體強化學習在某些領域展現出巨大潛力,但其在實際應用中的部署仍面臨諸多限制,亟須更精細的算法設計與優化策略以克服上述難題[2]。
2" "低軌衛星互聯網建設
2.1 低軌衛星系統運行現狀
低軌衛星系統(LEO)是一個由眾多衛星組成的龐大網絡,這些衛星在較低軌道上運行,能夠高效處理實時信息,滿足日益增長的移動通信需求。其獨特的軌道設計使得信號在傳輸過程中的路徑損耗相對較小,從而確保了通信的穩定性和可靠性[3]。目前,市場上較為成熟的低軌衛星系統主要包括銥星系統、星鏈系統以及一網衛星系統,它們各自在技術創新和應用領域上展現出顯著優勢。星間鏈路作為這些系統的核心組成部分,涵蓋了用戶通信鏈路、饋電鏈路以及星間互連鏈路三大類別。當前,星間鏈路的實現主要依賴于微波通信和光通信兩種技術。特別是光通信中的激光技術,憑借其高頻率的光波特性,不僅大幅提升了信息傳輸的精確度和效率,還展現出卓越的抗干擾能力,為低軌衛星系統的發展注入了新的活力[4]。
低軌衛星網絡以其獨特的優勢在通信領域占據一席之地,然而,其網絡拓撲的動態變化也帶來了一系列挑戰。由于低軌衛星遵循著周期性的運轉軌跡,這種高度的動態性直接導致了網絡拓撲結構的頻繁變動。隨之而來的,是網絡路由的復雜性和不穩定性顯著增加,為數據的高效、準確傳輸設置了障礙。更為關鍵的是,低軌衛星網絡的高動態性還可能引發星間通信鏈路的意外中斷,這種情況一旦發生,業務數據的連續傳輸將受到嚴重影響,進而威脅到終端用戶服務質量的穩定性和可靠性。因此,如何有效應對低軌衛星網絡的動態性挑戰,保障其穩定、高效地運行,成為當前亟待解決的重要問題。
2.2 低軌衛星互聯網建設分析
2.2.1 構建多智能體算法系統
選擇Starlink星座的低軌衛星通信環境作為研究對象,基于智能體只關注局部信息的特點,在網絡拓撲方面,假設網絡中包含N個軌道,每個軌道分布M個衛星,星間鏈路為正常狀態;以隨機生成的多個數據源衛星來達到發送數據流的目的,要求數據流量的強度服從參數為λ的泊松分布[5]。
對多智能體系統的構建,以馬爾可夫決策過程為基礎,表示為
在實際應用的優化算法中,為了高效利用有限的衛星資源,我們采用了一種創新的歷史信息壓縮策略。這一策略的核心在于,通過精心篩選和提煉,僅保留最具代表性的短期歷史數據,以此替代全面且冗長的觀察記錄。這種方法不僅極大地節省了寶貴的存儲空間,還有效降低了數據處理的復雜度。此外,我們還設計了一個共享經驗池機制,將所有智能體在各自任務中積累的歷史信息匯總其中。借助衛星節點間存在的相似性和互補性,這一機制能夠進一步實現存儲資源的優化配置。通過智能地分析和利用這些共享經驗,我們的算法不僅提升了運行效率,還增強了衛星網絡的整體性能和適應性。
2.2.2 模型訓練策略
針對多智能體深度學習算法模型的訓練,需要限制狀態空間的維度。考慮衛星通信場景下應用獨熱編碼,會導致狀態空間維度過大,增加神經網絡的訓練成本,結合LEO衛星的特點,通過衛星全編碼的方式,應用編碼序號,將維度限制為1。在鏈路無干擾的情況下,LEO衛星最多可以有4個鄰居節點,基于此取最大值n=4,則鏈路失效時置信度。可以考慮將狀態空間維度固定為6,消除相關因素對模型訓練的影響。
在模型訓練中,還可以通過儲存經驗回放池數據的方式,提升模型訓練的準確性。在假設衛星通信環境中有n個智能體的情況下,衛星路由中的智能體需要依靠對自身擁塞情況、發包隊列長度等情況的觀測結構來做出決策。這一過程中會產生一次狀態轉移,生成一條經驗值。基于此,在產生對環境的觀測行為時,所有處于衛星節點的智能體會產生n條數據,將這些經驗值存入經驗池,不僅可以解決以往應用傳統算法存在的經驗數據稀疏問題,也可以有效提升數據存儲的速度。
對模型訓練的優化調整,也可以通過解耦經驗值時序來實現。考慮多個智能體的經驗匯集雖然能夠提升經驗多樣性,但在策略泛化訓練方面仍存在一定的限制。基于此,可以考慮應用隨機批量采樣的方式,再將數據以分批的形式送入網絡進行訓練后,通過隨機采樣獲得最小批次的數據。這一過程中,也需要將存入共享經驗池前的原始數據打亂,以解耦訓練時序的方式來打破模型對數據順序的依賴。為達到對亂序數據進行迭代更新的目的,這一過程也應能夠做好經驗數據時間標簽的標記,以便能夠在經驗池更新階段取出時間更早的經驗數據。
2.2.3 優化算法的應用驗證
對優化算法的應用驗證,首先需要進行仿真參數的設置。在仿真環境參數方面,將衛星數量設置為30個,軌道數量為5個,星間鏈路帶寬數據傳播速率將為5 Gbps,數據包緩存區容量為500 MB,節點排隊區容量為150 MB,仿真時長為100 ms。在算法參數方面,重點針對訓練參數,設置系統模型訓練輪數為200輪,每輪探索時長為100 ms,樣本容量為64 MB,經驗池容量為5 000 MB。
在針對大規模網絡的算法性能分析中,主要測試在網絡強度和單軌衛星數不變的情況下,以軌道數量作為控制變量,將網絡中的衛星節點數從24個逐漸增加到56個,可以得到不同網絡規模中算法數據的平均端到端時延,有約50 ms左右的延遲,能夠滿足衛星通信的需求。在時延不斷增加的情況下,多智能體深度強化學習算法能夠維持較低的丟包率,相較于以往算法丟包率從0.123至0.215僅增加約10個百分點的情況,多智能體算法的丟包率在0.859~1.348之間,能夠體現出良好的數據傳輸表現。
在將衛星網絡節點數設置為40個的前提下,設置流量強度為控制變量,記錄模擬網絡流量從10 bps逐步增加至60 bps時數據平均端到端時延,發現在流量強度超過30 bps時,算法性能呈現出明顯的下降趨勢,證實在10~30 bps的范圍內,衛星網絡處于輕載狀態,則在流量強度為40~60 bps時,衛星網絡處于重載狀態。為探究網絡重載下的算法性能效果,以丟包率為依據,發現在應用傳統算法的情況下,其丟包率達到70%以上,在流量強度達到60 bps時,丟包率為94%,而應用多智能體算法,則可以將丟包率維持在35%左右。結合衛星網絡通信的實際情況,發現多智能體算法雖然會犧牲數據的傳播時間,但能夠以繞路的方式來避開以往容易擁塞的節點,從而有效提升數據的傳輸成功率。
結合衛星通信以及互聯網的建設應用要求,本文提出的路由算法策略仍然存在一定的局限,這一優化策略以理想的信道條件作為基礎,但在實際中容易受到信號擾動的影響,導致最終的結果存在一定偏差。且雖然多智能體算法擁有一定的應用優勢,但在耗時方面仍要高于以往算法計算的時間,因而仍需要對其進行更深度的研究和優化開發。
3" "結束語
為滿足衛星通信需求而進行低軌衛星互聯網的建設,可以發揮衛星網絡算法的技術特點和優勢,以構建多智能體算法系統的方式,能夠保障衛星網絡功能的發揮。在明確深度學習算法原理基礎上,以構建多智能體算法系統的方式,通過模型訓練方式來強化衛星通信的基本過程,不斷提升衛星通信的質量和效率,讓其能夠更好地支持移動通信,促進社會發展。
參考文獻
[1] 林小涵,耿安然.衛星互聯網建設對國家主權法律制度的挑戰及其應對[J].衛星應用,2021(07):63-67.
[2] 趙飛飛,胡樹楷,楊濤,等.低軌衛星互聯網發展概述及建議[J].通訊世界,2022,29(1):16-18.
[3] 王鵬,祝思婷,等.衛星互聯網標準化發展分析[J].無線電通信技術,2023,49(05):803-808.
[4] 朱禮勇.衛星移動通信系統抗干擾研究[J].無線互聯科技,2023,20(12):134-138.
[5] 劉暢,夏禹,崔彪.衛星互聯網建設運營模式研究與建議[J].衛星應用,2020(11):35-40.