999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

天地融合網絡中基于深度強化學習的計算卸載算法研究

2024-12-26 00:00:00王從羽羅志勇
無線電通信技術 2024年6期

摘 要:隨著近地軌道(Low Earth Orbit,LEO)衛星網絡和移動邊緣計算(Mobile Edge Computing,MEC)技術的發展,通過在LEO 衛星上部署MEC 服務器,可以為缺乏計算資源的偏遠地區提供計算卸載服務。然而,隨著地面用戶數量的不斷增加,天地融合網絡中的計算卸載場景變得越發復雜。現有研究難以應對任務復雜、到達率較高的場景,針對上述問題,在現有算法的基礎上,提出了一種基于深度強化學習(Deep Reinforcement Learning,DRL)的并行計算卸載(DRL-based Parallel Computation Offloading,DPCO)算法。該算法以最小化計算卸載平均時延為優化目標進行建模,考慮了阿姆達爾定律對計算性能的影響,并對星上服務器的計算資源進行劃分,以實現多任務并行處理的功能。此外,DPCO 算法將模型轉換為馬爾可夫決策過程(Markov Decision Process,MDP),并使用A2C(Advantage Actor-Critic)算法對其進行求解。通過仿真實驗驗證了DPCO 算法性能,結果表明該算法有效地解決了現有算法的缺陷,可為天地融合網絡中的計算卸載算法設計提供參考和幫助。

關鍵詞:計算卸載;移動邊緣計算;天地融合網絡;深度強化學習

中圖分類號:TN927 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):

文章編號:1003-3114(2024)06-1177-07

0 引言

隨著通信技術的不斷發展,各種終端設備之間的頻繁交互顯著增加了對計算資源的需求[1]。然而,由于終端設備的計算能力有限,用戶難以快速完成海量數據的計算任務。因此,近年來移動計算范式從集中式的云計算[2]向移動邊緣計算(MobileEdge Computing,MEC)[3-5]轉變。MEC 在傳統云計算的基礎上,將計算能力下沉至邊緣,使其更接近用戶的無線接入網絡。這種方法使得計算密集型和時延敏感型應用能夠在資源有限的設備上得以執行。與傳統云計算相比,MEC 具備了更好的可擴展性、可靠性和時延性能[6]。

隨著天地融合網絡的發展,越來越多的學者開始關注如何利用衛星網絡中的資源[7-8]。通過利用近地軌道(Low Earth Orbit,LEO)衛星網絡的全覆蓋能力,在LEO 衛星節點上部署計算服務器,可以將計算任務卸載到衛星節點上。這種方法可以為偏遠地區的用戶提供計算卸載服務,并顯著減少了任務處理的時延。

然而,有限的衛星資源和地面用戶日益增長的需求使卸載場景變得越發復雜,如何設計出高效可靠的計算卸載算法成為了研究的重點。為充分利用LEO 衛星網絡中的通信和計算資源,Zhang 等[9]提出了一種動態網絡功能虛擬化技術來整合衛星網絡的資源。在衛星編排器中增加動態資源監視器,以實現對網絡資源信息的實時監控。這些信息隨后被傳送給用戶和MEC 服務器,用于調整它們的運行策略。

Hao 等[10]研究了LEO 衛星MEC 網絡中計算卸載、無線資源分配和緩存設置的聯合優化問題,其目標是最小化所有地面物聯網設備的總時延,同時確保滿足能量、計算和緩存約束。為解決這個混合整數和非凸問題,提出了一種基于拉格朗日對偶分解的算法來獲得閉式最優解;然后提出了一種啟發式算法以降低計算復雜度。然而,該算法沒有考慮任務排隊時延,不能準確表示處于繁忙狀態下的衛星計算卸載場景。

Lin 等[11]將MEC 服務器上多優先級任務的排隊時延納入了考慮,其算法優化目標是在能耗約束下最小化任務端到端總時延,將其建模為一個混合整數非線性規劃問題,并設計了基于深度強化學習(Deep Reinforcement Learning,DRL)的動態任務卸載(DRLbased Dynamic Task Offloading,DDTO)算法,可以有效減小任務處理的總時延。然而,DDTO算法在單個MEC 服務器上只能同時計算一個任務,無法實現多任務并行計算。此外,它并未考慮阿姆達爾定律[12]對計算速率的約束,可能導致衛星服務器的計算資源無法得到充分利用。

為解決上述問題,本文提出了一種基于DRL 的并行計算卸載(DRLbased Parallel Computation Offloading,DPCO)算法。首先,在天地融合網絡場景中對計算卸載問題進行了建模,并將優化目標設置為最小化任務計算卸載平均時延。然后,在建模過程中,考慮了阿姆達爾定律對計算性能的影響,并對MEC 服務器的計算資源進行劃分,以實現多任務的并行處理。在將模型轉換為馬爾可夫決策過程(Markov DecisionProcess,MDP)時,將動作空間設置為離散形式,提升了算法的收斂速度。最后,使用A2C(AdvantageActorCritic)算法求解計算卸載策略和資源分配策略的優化問題。通過仿真測試評估了DPCO 算法的性能,與現有算法相比,DPCO 顯著減少了任務的計算卸載平均時延,并在特定場景中展示出更加顯著的優化效果。

1 天地融合網絡計算卸載模型

本文提出了一個天地融合網絡計算卸載場景的系統模型,如圖1 所示。該模型由搭載MEC 服務器的LEO 衛星組成,可以為地面用戶提供計算卸載服務。在天地融合網絡中設有M 顆衛星,每顆衛星攜帶一個MEC 服務器,記作集合S={s1,s2,…,sM},可為覆蓋區域內的N 個地面用戶提供服務,用戶集合記作U={u1,u2,…,uN}。在時隙t 開始時,每個用戶un 生成待處理的任務集合Mn(t)= {ωn(t),zn(t),prin(t)},其中ωn(t)表示任務計算量;zn(t)表示任務數據量;prin (t )表示任務優先級,且定義prin(t)∈[1,2,…,PRIN]。

綜上所述,當任務被卸載到衛星MEC 服務器時,總的計算時延可以表示為:

dCn,m(t)= dPn,m(t)+dQn,m(t)。(13)

1. 3 計算卸載問題建模

本文的優化目標是在一定的能耗約束下,最小化任務的平均計算卸載平均時延。基于前文構建的模型,該優化問題可表示為:

式中:Ei 表示用戶ui 的電池容量,si(t)∈{0,1}定義為一個二元變量。具體來說,當任務被卸載到衛星MEC 服務器時,si(t)= 1;當任務執行本地計算時,si(t)= 0。

優化函數的含義為:在時間周期T 內,最小化任務的計算卸載平均時延。約束條件規定了用戶的本地計算能耗和總傳輸能耗在周期T 內不得超過電池容量。該優化目標是一個NPhard 問題,可通過將其建模為一個MDP 來進行求解。

2 DPCO 算法介紹

2. 1 基于MDP 的任務卸載問題設計

MDP 是序列隨機決策問題的模型,因此被廣泛用于自主代理通過動作影響其周圍環境的應用[17]。

本文將MDP 定義為一個四元組opy={S,A,P,R},其中S 和A 分別表示狀態空間和動作空間,P 表示狀態轉移函數,R 表示獎勵函數。基于上節所描述的優化問題,可構建MDP 模型如下:

① 狀態空間。記為s(t),表示智能體(agent)在每個時隙t 可以觀測到的狀態信息的集合。在本文的模型中是指任務和MEC 服務器的參數信息:

s(t)= {z(t),w(t),f S(t),prin(t)}。(16)

② 動作空間。記為a(t),表示智能體基于觀測到的狀態信息s(t)可能采取的動作集合:

a(t)= {[an(t)]1×N,[km(t)]1×M}1×(N+M)。(17)

③ 獎勵函數。獎勵函數r(t)表示在狀態s(t)下采取動作a(t)所獲得的獎勵。

在MDP 問題中,設置合理的獎勵函數是解決問題的基礎。獎勵函數通常設定為在不滿足約束時取極小值,而本文的優化目標是最小化計算卸載平均時延。因此,當約束滿足時,將平均時延取負值作為獎勵函數。相反,如果約束未滿足,則取一個極小值作為獎勵函數,以保持模型的科學嚴謹性。獎勵函數r(t)定義為:

2. 2 DPCO 算法設計

為解決上述MDP 問題,設計了一種DPCO 算法。在多種經典的DRL 方法中,選擇使用A2C 算法[18]。這是因為A2C 算法對計算能力需求較低,并且在處理較大狀態空間時有著優秀的性能,特別適用于計算資源有限且復雜的天地融合網絡計算卸載場景。

DPCO 算法的狀態空間、動作空間和獎勵函數的建模方法已在前文進行了詳細介紹。將動作空間策略性地建模為離散形式,可以加快DPCO 算法的收斂速度,使其更好地適配LEO 衛星高動態性的特點。

將當前狀態和動作分別表示為向量形式st,at,并將策略網絡記其為πθ,其以當前狀態st 作為輸入,輸出策略π(at st;θ)。將價值網絡記為Vω,以當前狀態st 和策略作為輸入,輸出預期獎勵Vπ(st)。在訓練過程中,通過網絡的輸出迭代更新策略網絡和價值網絡的參數θ 和ω。

動作-價值函數表示為Qπ(st,at)= Eπ [Rt | st =s,at =a],其含義為在狀態st 下采取動作at 獲得的預期累計收益。狀態-價值函數表示為Vπ(st)=Eπ[Rt | st = s,πt = π],其含義為在狀態st 下遵循策略πt 獲得的預期累計收益。A2C 算法的優勢函數定義為:

Aπ(st,at)Qπ(st,at)-Vπ(st)= r+γVπ(st+1)-Vπ(st)。(20)

由于狀態-價值函數無法直接觀測,必須通過一個參數化網絡進行估計,記為Vω。該網絡通過時序差分(Temporal Difference,TD)算法進行更新。計算出TD 誤差后,使用均方誤差(Mean SquaredError,MSE)準則最小化TD 誤差,從而實現網絡參數的更新。

DPCO 算法的偽代碼如算法1 所示。

3 仿真結果分析

3. 1 仿真實驗設置

本次仿真在Python 3. 9 環境下進行。DPCO 算法的系統模型已在前文中進行了詳細介紹。在DPCO 算法中,策略網絡和價值網絡均設置為4 層,包括一個輸入層、一個輸出層和兩個隱藏層。策略網絡隱藏層中的神經元數量分別為2 048 和1 024,而價值網絡隱藏層中的神經元數量分別為1 024 和512。使用Gigacycle(GC)作為任務計算量的單位。仿真實驗中的其他參數如表1 所示。

3. 2 算法收斂性分析

對A2C 算法和近端策略優化(Proximal PolicyOptimization,PPO)[19]兩種算法常用的強化學習算法的收斂速度進行分析,如圖2 所示。當二者收斂到相同的平均時延時,A2C 算法僅需要2 000 個Episode,而PPO 算法則需要20 000 個Episode,因此,基于A2C 的DPCO 算法可以大大提高計算卸載的效率。

學習率對DPCO 算法收斂性的影響如圖3 所示,當學習率為0. 01 時,平均時延曲線收斂到2. 1 s;當學習率為0. 001 時,平均時延曲線在2 000 個Episode后收斂到0. 5 s。當學習率為0. 000 1 時,平均時延曲線在20 000 個Episode 后收斂到0. 5 s。結果表明,過高的學習率雖然可以加快收斂速度,但可能導致算法陷入局部最優而無法達到全局最優。反之,如果學習率過低,收斂速度將過于緩慢,從而降低算法的效率。

3. 3 算法性能對比測試

本節從任務計算量、數據量和到達率3 個方面對算法平均時延進行評估,并將DPCO 算法與3 種不同計算卸載算法進行比較。① DDTO 算法:一種基于DRL 的彈性衛星網絡邊緣卸載策略。② 隨機卸載算法:將任務隨機卸載到衛星服務器。③ 本地卸載算法:任務在本地設備上進行處理。

3. 3. 1 任務計算量對計算卸載性能的影響

任務到達率設定為每分鐘108 個,任務數據量遵循均值為4 Mbit 的正態分布。仿真結果如圖4 所示,DPCO 算法相比于DDTO、隨機卸載和本地卸載算法,分別減少了25% 、59% 和81% 的平均時延。此外,當任務計算量較小時,DPCO 算法相較于DDTO 算法的時延性能優勢更加明顯,最高可減少48% 。而在任務計算量較大時,DPCO 算法也能保證與DDTO 算法相當的性能。

上述結果表明,DPCO 算法在處理低計算需求任務時,能夠有效克服現有計算卸載算法的性能限制。同時,DPCO 算法在其他場景中也能保證出色的性能。

3. 3. 2 任務數據量對計算卸載性能的影響

任務到達率設定為每分鐘108 個,任務計算量遵循均值為3. 5 GC 的正態分布。仿真結果如圖5所示,與DDTO 算法、隨機卸載和本地卸載算法相比,DPCO 算法的平均時延分別降低了41% 、58%和80% 。

3. 3. 3 任務到達率對計算卸載性能的影響

任務數據量設置為遵循均值為4 Mbit 的正態分布,任務計算量遵循均值為3. 5 GC 的正態分布,仿真結果如圖6 所示。隨著到達率的增加,DDTO算法的平均時延迅速上升,而DPCO 算法的時延保持相對穩定。這種穩定性得益于DPCO 算法能夠動態地將MEC 服務器的計算資源劃分為多個邏輯子服務器,從而實現單個MEC 服務器上的并行計算,減少了任務排隊時延。

4 結束語

本文提出了一種DPCO 算法,對天地融合網絡中的計算卸載問題進行建模,優化目標為最小化計算卸載平均時延。考慮了阿姆達爾定律對計算性能的影響,并將服務器劃分為多個邏輯子服務器,以實現多任務并行處理;將問題轉化為MDP,并將動作空間設計為離散形式,以提高模型的收斂速度;使用A2C 算法解決計算卸載和資源分配策略的優化問題。仿真結果表明,DPCO 算法在任務計算卸載平均時延方面的性能顯著優于DDTO、隨機卸載和本地卸載算法。總而言之,DPCO 算法有效地解決了現有算法中的性能缺陷,尤其是在任務到達率高且計算要求較低的場景中有著不錯的表現,可以為天地融合網絡中的計算卸載算法設計提供參考和幫助。

參考文獻

[1] 施巍松,孫輝,曹杰,等. 邊緣計算:萬物互聯時代新型計算模型[J]. 計算機研究與發展,2017,54 (5):907-924.

[2] 陳全,鄧倩妮. 云計算及其關鍵技術[J]. 計算機應用,2009,29(9):2562-2567.

[3] 謝人超,廉曉飛,賈慶民,等. 移動邊緣計算卸載技術綜述[J]. 通信學報,2018,39(11):138-155.

[4] 李子姝,謝人超,孫禮,等. 移動邊緣計算綜述[J]. 電信科學,2018,34(1):87-101.

[5] MAO Y Y,YOU C S,ZHANG J,et al. A Survey on MobileEdge Computing:The Communication Perspective [J].IEEE Communications Surveys & Tutorials,2017,19(4):2322-2358.

[6] MEHRABI M,YOU D H,LATZKO V,et al. Deviceenhanced MEC:Multiaccess Edge Computing (MEC)Aided by End Device Computation and Caching:A Survey[J]. IEEE Access,2019,7:166079-166108.

[7] 唐琴琴,謝人超,劉旭,等. 融合MEC 的星地協同網絡:架構、關鍵技術與挑戰[J]. 通信學報,2020,41(4):162-181.

[8] 唐清清,李斌. 面向空天地一體化網絡的移動邊緣計算技術[J]. 無線電通信技術,2021,47(1):27-35.

[9] ZHANG Z J,ZHANG W Y,TSENG F H. Satellite MobileEdge Computing:Improving QoS of Highspeed SatelliteTerrestrial Networks Using Edge Computing Techniques[J]. IEEE Network,2019,33(1):70-76.

[10]HAO Y Y,SONG Z Y,ZHENG Z,et al. Joint Communication,Computing,and Caching Resource Allocation in LEOSatellite MEC Networks [J]. IEEE Access,2023,11:6708-6716.

[11]LIN T H,LUO Z Y. A Highperformance DRLbased Mobile Edge Offloading for Elastic Satellite Network[C]∥2022 Workshop on Electronics Communication Engineering.Bellingham:SPIE,2023,12720:55-69.

[12]AMDAHL G M. Validity of the Single Processor Approachto Achieving Large Scale Computing Capabilities[C]∥AFIPS Conference Proceedings. Reston:AFIPS Press,1967:483-485.

[13]MUNOZ O,PASCUALISERTE A,VIDAL J. Optimizationof Radio and Computational Resources for Energy Efficiency in Latencyconstrained Application Offloading[J].IEEE Transactions on Vehicular Technology,2014,64(10):4738-4755.

[14]PINELL C,PROL F S,BHUIYAN M Z H,et al. ReceiverArchitectures for Positioning with Low Earth OrbitSatellite Signals:A Survey[J]. EURASIP Journal on Advances in Signal Processing,2023,2023(1):60.

[15] YUE P Y,AN J P,ZHANG J K,et al. Low Earth OrbitSatellite Security and Reliability:Issues,Solutions,and theRoad Ahead[J]. IEEE Communications Surveys & Tutorials,2023,25(3):1604-1652.

[16]MISHRA M R,DASH B B,GOSWAMI V,et al. A NewTask Offloading Scheme for Geospatial Fog ComputingEnvironment Using M/ M/ C Queueing Approach[C]∥International Conference on Advances and Applications ofArtificial Intelligence and Machine Learning. Singapore:Springer Nature Singapore,2022:105-113.

[17]SHANI G,HECKERMAN D,BRAFMAN R I,et al. AnMDPbased Recommender System[J]. Journal of MachineLearning Research,2005,6(9):1265-1295.

[18]MNIH V,BADIA A P,MIRZA M,et al. AsynchronousMethods for Deep Reinforcement Learning[C]∥The 33rdInternational Conference on Machine Learning. New York:PMLR,2016:1928-1937.

[19]SCHULMAN J,WOLSKI F,DHARIWAL P,et al. ProximalPolicy Optimization Algorithms[EB/ OL]. (2017-07-20)[2024-07-28]. https:∥arxiv. org/ abs/1707. 06347.

作者簡介:

王從羽 男,(2000—),碩士研究生。主要研究方向:邊緣計算卸載。

(*通信作者)羅志勇 男,(1973—),博士,教授,博士生導師。主要研究方向:衛星互聯網一體化融合、無線通感算融合賦能技術、通信人工智能應用。

基金項目:國家重點研發計劃(2023YFB2904701 );廣東省基礎與應用基礎研究基金(2023B1515120093 );廣東省重點研發計劃(2024B0101020006);深圳市重點項目(KJZD20230928112759002)

主站蜘蛛池模板: 暴力调教一区二区三区| 乱人伦视频中文字幕在线| 欧美福利在线观看| V一区无码内射国产| 日本不卡在线播放| 91精品专区| 亚洲美女高潮久久久久久久| 国产91丝袜在线观看| 久久综合色88| 91成人在线观看| 色爽网免费视频| 亚洲另类色| 2024av在线无码中文最新| AV无码国产在线看岛国岛| 午夜视频免费一区二区在线看| 色综合天天娱乐综合网| 又大又硬又爽免费视频| 国产69囗曝护士吞精在线视频| 国产毛片片精品天天看视频| www.狠狠| 亚洲精品动漫| 国产高清在线精品一区二区三区| 国产精品原创不卡在线| 国产成人精品优优av| 欧美亚洲日韩不卡在线在线观看| 91麻豆国产精品91久久久| 国产成人三级| 在线国产三级| 毛片视频网址| 亚洲第一成网站| 制服丝袜一区| 特级欧美视频aaaaaa| 国产成人调教在线视频| 国产精品网址你懂的| 日韩精品成人在线| 午夜福利在线观看成人| 人妻无码一区二区视频| 成人福利一区二区视频在线| 亚洲a级在线观看| 夜夜拍夜夜爽| 91成人在线观看| 成人福利视频网| 亚洲精品波多野结衣| 午夜日韩久久影院| 欧美狠狠干| 亚洲品质国产精品无码| 欧美性猛交一区二区三区| 97在线免费| 99er这里只有精品| 国产午夜无码片在线观看网站 | 青青青视频91在线 | 99久久国产自偷自偷免费一区| 婷婷综合色| 又爽又大又黄a级毛片在线视频 | 免费99精品国产自在现线| 国产精品jizz在线观看软件| 丁香六月激情婷婷| 亚洲性日韩精品一区二区| 福利国产微拍广场一区视频在线| 久久人午夜亚洲精品无码区| 婷婷综合在线观看丁香| 色哟哟精品无码网站在线播放视频| 亚洲日韩精品欧美中文字幕| 久久精品国产亚洲AV忘忧草18| 国产精品一区二区在线播放| 国产成人精品免费视频大全五级| 狠狠色婷婷丁香综合久久韩国 | 久久香蕉国产线看精品| 高清无码手机在线观看| 免费av一区二区三区在线| 亚洲无码高清一区| 久久综合伊人 六十路| 天天摸夜夜操| 在线观看亚洲国产| 精品国产Av电影无码久久久| 日韩av电影一区二区三区四区| 亚洲国模精品一区| 亚洲第一国产综合| 激情综合图区| 欧美色视频网站| 99re热精品视频中文字幕不卡| 亚卅精品无码久久毛片乌克兰 |