











摘 要:無人機(unmanned aerial vehicles,UAV)在未來通信網絡中的集成備受關注,在軍事偵察、火災監控等諸多應用中發揮著至關重要的作用。針對此類場景中對視頻傳輸低時延和高體驗質量(quality of experience,QoE)的需求,提出了一種無人機輔助的移動邊緣計算(mobile edge computing,MEC)視頻任務卸載算法。首先,為滿足低時延需求,無人機作為MEC服務器對視頻數據進行轉碼,并作為中繼將視頻數據轉發到地面基站。其次,通過聯合優化設備關聯、傳輸功率、轉碼策略以及無人機飛行軌跡,構建最大化系統效益的模型。最后,提出一種基于柔性動作-評價(soft actor-critic,SAC)的深度強化學習算法作出聯合決策。仿真實驗結果表明,與其他基線算法相比,所提算法能有效降低系統時延并保證視頻任務品質,并具有良好的收斂性。
關鍵詞:無人機;移動邊緣計算;視頻傳輸;任務卸載;深度強化學習
中圖分類號:TP393"" 文獻標志碼:A
文章編號:1001-3695(2025)04-022-1128-07
doi: 10.19734/j.issn.1001-3695.2024.09.0293
Video task offloading algorithm in UAV-assisted mobile edge computing
Hu Wenjie, Lu Xianling
(School of Internet of Things Engineering, Jiangnan University, Wuxi Jiangsu 214122, China)
Abstract:The integration of unmanned aerial vehicles(UAV) in future communication networks has received great attention, and it plays an essential role in many applications, such as military reconnaissance, fire monitoring, etc. Aiming at the requirement of low latency and high quality of experience (QoE) of video transmission in these scenarios, this paper proposed UAV-assisted mobile edge computing (MEC) video task offloading algorithm. Firstly, to meet the low latency requirements, UAV acted as the MEC server to transcode videos and served as relays to forward the transcoded videos to ground base stations. Additionally, it constructed a system utility maximization model by jointly optimizing device association, transmission power, transcoding strategy, and UAV flight trajectory. It solved the optimization problem using deep reinforcement learning, and proposed a soft actor-critic (SAC) -based algorithm. Simulation results demonstrate that the SAC-based optimization algorithm effectively reduces system latency while ensuring video task quality, while exhibiting good convergence properties.
Key words:unmanned aerial vehicle(UAV); mobile edge computing(MEC); video transmission; task offloading; deep reinforcement learning(DRL)
0 引言
近年來,頻繁發生的森林火災給傳統的環境監測方法帶來了嚴峻挑戰,特別是在森林深部區域的火情監測方面[1]。隨著火災強度的增加和火勢蔓延速度的加快,傳統的監測手段難以滿足應對突發火情的需求。因此,如何實現對危險區域的動態監測,獲取實時且全面的全景圖像,已成為災害治理人員在滅火和災后恢復工作中面臨的重要問題。
由于軍事偵察、森林火災監控等場景遠離可用的通信設施,確保與地面基站進行有效、穩定的通信至關重要。此外,為了更好地適應移動設備的動態特性,需要采取視頻流動態轉碼策略,這是一項計算密集型任務,移動邊緣計算(MEC)通過實時了解用戶的信道狀態信息,為用戶提供更優質的低延遲視頻轉碼服務。
然而,由于通信條件差和MEC環境不穩定,在偏遠地區執行密集任務非常具有挑戰性[2]。同時,有限的計算和存儲資源對MEC服務器保證滿意的用戶體驗帶來了巨大挑戰。為了解決這些問題,靈活的邊緣服務器位置部署必不可少。UAV輔助的MEC由于其獨特特性可以有效應對這些挑戰[3]。
無人機(UAV)在為物聯網設備提供通信和邊緣計算服務方面變得越來越重要,尤其是在快速部署和災難服務恢復方面[4]。UAV由于其靈活性、高機動性和靈活部署等特點,在無線網絡中得到了廣泛的研究[5]。已有許多關于MEC以及UAV輔助MEC的研究。文獻[6]研究了6G通信場景下UAV協同車載邊緣網絡任務卸載策略,文獻[7]提出了一種帶計算設施的UAV,用于為受損基站覆蓋范圍內的用戶提供服務,目的是優化能量消耗和用戶延遲的總加權成本。文獻[8]提出聯合優化通信區域劃分和軌跡優化方法,以降低UAV的能耗并實現負載均衡。文獻[9]設計了一個資源分配和軌跡設計框架,并提出了一種三階段迭代算法來優化UAV的波束形成矢量、資源分配和軌跡,以實現系統能量最小化。文獻[10]最小化了邊緣物聯網網絡中用戶的平均任務執行時間。
但隨著環境復雜性的增加,傳統算法的計算時間可能會呈指數級增長。為了克服傳統算法的不足,深度強化學習(deep reinforcement learning,DRL)算法已被廣泛應用于UAV輔助MEC系統領域。在無人機輔助的MEC系統中,DRL可用于訓練智能體,以學習復雜的決策任務,通過與環境的交互,在路徑規劃、終端調度和數據處理方面優化無人機[11]。文獻[12]將DRL算法應用于MEC領域,并在傳統算法的基礎上提出了一種改進的強化學習算法,用于解決計算卸載和資源分配問題。文獻[13]提出了一種多智能體深度強化學習算法,以解決UAV輔助通信中的頻譜資源、計算資源和緩存資源的聯合管理問題。對于UAV軌跡優化問題,文獻[14]提出了一個序列到序列的指針網絡模型,將UAV位置和地面設備的聚類輸入到模型中,并使用行動者-批評家網絡對模型進行訓練,以獲得UAV的最優軌跡。文獻[15]提出一種雙層深度強化學習框架以最小化系統的時延和能耗。通過上下層的聯合優化來解決無人機的飛行控制和系統的資源分配問題。
以上工作能夠進行實時的資源分配或軌跡優化,但沒有同時考慮設備移動性和視頻任務服務質量。因此,本文針對森林火情救災監測場景,考慮終端監控設備隨機移動性研究了無人機的終端設備關聯、資源分配、軌跡優化和轉碼策略以降低系統時延并保證視頻任務服務質量。本文的主要研究工作包括以下幾點:
a)提出了一種用于支持監控視頻流服務的UAV輔助MEC系統,目的是降低整個系統的時延并保證視頻任務體驗質量。該系統考慮在無人機能耗限制下,通過聯合優化用戶設備關聯、功率分配、視頻轉碼策略和無人機的飛行軌跡來降低整個系統的時延并保證視頻服務的質量。
b)為解決所提出的問題,將問題建模成馬爾可夫決策過程(Markov decision process,MDP),并提出一種基于深度強化學習的算法SAC-UNCO進行聯合決策。
c)根據仿真實驗,對比其他基線強化學習算法,本文算法在降低系統時延和保證視頻質量方面優于其他算法。
1 模型與問題描述
1.1 系統架構描述
本文研究了一個基于MEC的UAV輔助視頻傳輸系統,圖1顯示了該場景的系統架構。該系統包括M個具有監控攝像功能的移動設備(mobile device,MD),一臺配備MEC服務器的UAV和一個地面基站(ground base station,GBS)。該系統的目標是通過MD完成特殊場景的視頻采集任務并將視頻數據發送給UAV進行視頻轉碼,最后傳輸到GBS。本文假設這種場景可能發生在森林火災預警監測、環境保護監測場景中,這些場景需要對核心區域進行實時拍攝,以便進行下一步工作。UAV為該系統中的MD(m∈{1,2,…,M})提供通信和視頻轉碼處理服務。假定無人機飛行于固定高度H,UAV以時分多址方式(time division multiple access,TDMA)向所有MD提供服務。整個服務周期SC被劃分為T個等長時隙t∈{1,2,…,T}。所有視頻傳輸和轉碼任務都需要在任務處理周期內完成。UAV在每一個時隙中僅為一個MD提供服務[16],am(t)表示UAV是否向MDm提供服務。每個時隙的任務包括:a)MD與UAV之間的監控視頻數據傳輸;b)UAV對采集到的視頻數據轉碼;c)UAV與GBS之間的視頻數據傳輸。
2 算法設計
2.1 MDP建模
無人機輔助MEC系統的實際部署環境復雜多變,很多環境變量無法提前獲取。因此,在與環境互動的同時作出即時決策具有重要意義。深度強化學習克服了復雜環境的限制,顯著加快了訓練速度。同時,根據所提系統建模出的優化問題是一個動態優化問題,它要求在滿足約束條件的情況下對目標進行優化。傳統的資源分配方法,如靜態優化和博弈論,很難解決這個問題,因為它們試圖通過最大化當前狀態下的即時獎勵來找出接近最優的策略。而深度強化學習算法則通過探索學習的方法找到一段動態過程中的最優策略。深度強化學習已被證實是解決此類問題的有效方法[19]。因此,提出一種基于DRL的聯合優化算法,使用深度強化學習算法的關鍵點是將問題表述為馬爾可夫決策過程。
在每個時隙開始時,智能體(agent)觀察環境狀態,然后作出相應動作。根據作出的相應動作,算法得到相應獎勵。
馬爾可夫決策過程中的關鍵要素包括狀態空間、動作空間和獎勵函數,以下給出具體說明:
a)狀態空間:在該無人機輔助邊緣計算系統中。時隙t的狀態空間表示為st={L(t),U(t),bm(t),bb(t),T(t),Tr(t),E(t)},其中:L(t)={l1(t),l2(t),…,lM(t)}表示被服務的用戶設備位置;U(t)表示無人機位置;bm(t)={b1(t),b2(t),…,bM(t)}表示MDm與UAV之間的障礙物遮擋情況。bb(t)表示UAV與GBS之間的障礙物遮擋情況。T(t)={T1(t),T2(t),…,TM(t)}表示移動設備m在時隙t生成的需要轉碼的視頻數據;Dr(t)表示剩余視頻轉碼任務大小;E(t)表示UAV當前電量。
b)動作空間:在本文中,agent選擇的動作包括選定服務MD、UAV飛行角度和速度、MD傳輸功率、UAV傳輸功率以及視頻任務目標轉碼率。時隙t的動作空間可以表示為at={m(t),θ(t),v(t),Pm(t),Puav(t),cm(t)},其中m(t)∈[0,M]表示無人機在時隙t時服務的用戶設備,若m(t)=0,m=1;m(t)≠0,m=「m(t),「·表示向上取整;θ(t)表示飛行角度,v(t)表示飛行速度,pm(t)和puav(t)分別表示用戶設備m和UAV的數據傳輸功率,cm(t)表示目標視頻碼率。以上動作需遵循問題定義給出的約束,通過優化以上六個動作變量,最小化系統時延并保證視頻服務質量。
2.3 算法實現與描述
agent需要快速收集信息并作出決策,因此采用具有強大計算資源和通信能力的無人機作為agent[20]。部署前對SAC-UNCO算法進行訓練,直到其收斂。訓練過程開始時,網絡參數隨機初始化。無人機以固定的間隔更新SAC-UNCO的網絡參數。在訓練過程中,每完成一個episode,即處理完所有視頻任務后,記錄回報,這是該episode的累計獎勵。之后,由無人機攜帶訓練好的算法服務用戶設備。SAC-UNCO算法的訓練過程如算法1所示。
算法1 SAC-UNCO算法
輸入:系統環境狀態;無人機信息;移動設備信息;最大episode數量Emax;批次樣本大小b;最大時隙數T。
輸出:策略網絡參數θ;Q值網絡參數β1和β2。
1分別初始化網絡參數θ、β1=β1、β2=β2
2初始化經驗回放池D
3 for each episode=1 to Emax do
4 重置環境參數并獲取初始狀態s0
5 for slot t=1 to T do
6" 根據當前狀態st由策略網絡選擇動作at
7" 執行動作at,獲取下一狀態st+1和獎勵r(t)
8" 如果回放池未滿,存儲經驗元組(st,at,rt,st+1)至回放池D
9" 如果回放池已滿,更新回放池D
10 end for
12 if it’s time for an update then
13" 從回放池D中隨機采樣批次大小b的經驗樣本(st,at,rt,"" st+1)
14" 通過式(32)(33)更新Q值網絡參數β1和β2
15" 通過式(37)(38)更新策略網絡參數θ
16" 通過式(40)(41)更新溫度系數α
17" 通過式(31)對目標Q值網絡參數β1和β2進行軟更新
18 end if
19 end for
3 仿真實驗與結果分析
3.1 仿真環境及參數設置
本文在Windows 11 系統下采用Python 3.9和PyTorch框架建立了一個仿真模擬環境,算法的訓練在NVIDIA GeForce RTX 3050 GPU上進行。設置了一臺掛載MEC服務器的UAV和4個MD隨機分布在一個200 m × 200 m的正方形區域,GBS的位置固定在[0,0,0]T處。在每個時隙中,無人機選擇其中一個移動設備接收其過去拍攝的部分視頻監控數據進行轉碼壓縮,并傳輸到GBS以供進一步分析。策略網絡的學習率λθ=0.000 2,Q值網絡的學習率λβ=0.000 2,溫度系數α的學習率λα=0.000 2,折扣因子γ=0.001,隱藏層的神經元數量為256。
實驗中的仿真參數主要參考文獻[18,21],仿真參數如表1所示。
3.2 算法收斂性分析
為了評估超參數對所提算法性能的影響,本文驗證了三種學習率對算法收斂性和穩定性的影響。從圖3中可以看出,當學習率設定為0.000 2時,曲線在300個episode以后收斂至最優值,并在收斂后達到穩定狀態。然而,當學習率為0.02時,曲線波動較大,收斂后的系統效用較低。此外,當學習率為0.000 002時,曲線波動非常不穩定,難以收斂到穩定狀態。根據以上曲線可得出結論,當學習率過小時,算法需要更多訓練輪次來達到收斂狀態,甚至難以收斂,當學習率過大時,曲線只能收斂到一個次優值,導致訓練不穩定。
3.3 對比實驗性能分析
為了驗證所提算法的優越性和穩定性,將本文算法與其他三種基線算法進行比較。
a)基于隨機算法的方案(RANDOM)。該算法中,agent隨機作出用戶關聯、無人機飛行、功率分配、目標轉碼率的決策,這些決策滿足問題給出的約束。
b)基于DDPG算法的方案(DDPG)。DDPG算法是一種確定性策略的深度強化學習算法,其中策略網絡和Q值網絡分別采用兩個獨立的神經網絡進行近似,以實現連續動作空間的策略優化。通過引入經驗回放緩沖區和目標網絡,DDPG算法能夠穩定地訓練,并通過軟更新策略避免策略收斂過程中的不穩定性。
c)基于TD3算法的方案(TD3)。TD3算法在DDPG算法的基礎上對Q值目標網絡和Q值網絡采用兩個網絡來近似,以避免高估Q值問題。
圖4展示了在視頻任務大小為400 Mb時,四種算法的收斂情況和系統效益。通過觀察,隨著迭代次數的增加,DDPG、TD3、SAC-UNCO算法均能收斂,RANDOM算法無法收斂且它的系統效益在一個小范圍內波動。在算法收斂后,DDPG得到的系統效益為461.23,TD3得到的系統效益為464.53,SAC-UNCO得到的系統效益為490.43,SAC-UNCO相較于DDPG和TD3系統效益分別提高了6.33%和5.58%。
圖5和6展示了四種算法在不同視頻任務總量下的任務完成時間和視頻服務質量的性能對比,視頻任務總量控制在300~500 Mb。隨著任務總量的增加,系統完成視頻任務處理的總時延和服務質量呈現逐步上升的趨勢。此外,隨著任務總量的增加,SAC-UNCO算法的時延增長速度低于其他算法,服務質量增長速度高于其他算法。在相同的任務總量下,SAC-UNCO算法始終表現出最優的性能,在視頻任務大小為400 Mb時,SAC-UNCO算法的系統時延相較于TD3、DDPG和RANDOM算法分別降低9.27%、13.72%和36.53%,視頻服務質量分別提高7.03%、11.49%和46.85%。這意味著SAC-UNCO算法在處理不同規模任務時,能夠更高效地作出決策,保持較低的時延和優質的服務質量。
圖7和8展示了四種算法在不同信道帶寬條件下的任務完成時間和視頻服務質量的性能對比,系統帶寬控制在0.8~1.2 MHz。如圖7所示,隨著系統帶寬的增加,系統完成視頻任務處理的總時延呈現快速下降的趨勢,說明信道條件對于系統的性能影響很大。在信道帶寬為1 MHz時,SAC-UNCO算法的系統時延相較于TD3、DDPG和RANDOM算法分別降低11.07%、14.01%和36.47%。在相同的帶寬條件下,SAC-UNCO算法始終表現出最優的性能,保持最低的時延,尤其在低帶寬條件下,所提算法與各算法之間的性能差異較大。因此所提算法在信道資源有限的情況下能保證優良的性能,為系統帶來更好的整體性能。如圖8所示,SAC-UNCO算法在相同帶寬條件下相較于其他算法保持了最高的服務質量,在信道帶寬為1 MHz時,SAC-UNCO算法的視頻服務質量相較于TD3、DDPG和RANDOM算法分別提高了11.5%、18.09%和47.5%。隨著系統帶寬的增加,系統的視頻服務質量大幅升高, 帶寬條件對視頻任務服務質量的影響極大,在低帶寬條件下,各算法傾向于選擇更低的目標碼率以壓縮視頻任務數據大小,提高系統性能,這大幅犧牲了視頻質量,導致指標在低帶寬條件下極低。
圖9和10比較了四種算法在不同飛行高度下的任務完成時間和視頻服務質量的性能對比,飛行高度控制在80~120 m。SAC-UNCO算法在相同無人機飛行高度下顯示出最優的性能,在飛行高度為100 m時,SAC-UNCO算法的系統時延相較于TD3、DDPG和RANDOM算法分別降低7.43%、13.32%和35.67%。視頻服務質量分別提高7.75%、11.40%和44.55%。隨著無人機飛行高度增加,系統時延逐漸上升,服務質量逐漸下降,其原因是飛行高度的增加使無人機與地面設備的距離增大,增大了視頻數據傳輸時延,算法傾向于選擇更低的目標視頻碼率,導致服務質量下降。
4 結束語
本文重點針對面向視頻傳輸任務的無人機輔助移動邊緣計算系統卸載問題。通過聯合優化用戶設備關聯、無人機軌跡、視頻任務轉碼率、傳輸功率,實現整個時間段內的系統效益最大化。實驗結果表明,本文的SAC-UNCO算法在降低系統時延和保證視頻質量具有一定優勢,并在性能穩定性上也體現出較好的優勢。在未來的研究中,將會考慮多無人機在復雜環境下的視頻任務卸載問題。
參考文獻:
[1]
Burhanuddin L A, Liu Xiaonan, Deng Yanshan,et al. QoE optimization for live video streaming in UAV-to-UAV communications via deep reinforcement learning [J]. IEEE Trans on Vehicular Technology, 2022, 71 (5): 5358-5370.
[2]Chen Quan, Zhu Hai, Yang Lei,et al. Edge computing assisted autonomous flight for UAV: synergies between vision and communications [J]. IEEE Communications Magazine, 2021, 59 (1): 28-33.
[3]Zhang Jiao, Zhou Li, Tang Qi, et al. Stochastic computation offloa-ding and trajectory scheduling for UAV-assisted mobile edge computing [J]. IEEE Internet of Things Journal, 2019, 6 (2): 3688-3699.
[4]Zhang Liang, Jabbari B, Ansari N. Deep reinforcement learning driven UAV-assisted edge computing [J]. IEEE Internet of Things Journal, 2022, 9 (24): 25449-25459.
[5]Chen Yujia, Huang Dayu. Joint trajectory design and BS association for cellular-connected UAV: an imitation-augmented deep reinforcement learning approach [J]. IEEE Internet of Things Journal, 2022, 9 (4): 2843-2858.
[6]胡峰, 谷海洋, 林軍. 無人機協同車載邊緣網絡中任務卸載策略 [J]. 系統仿真學報, 2023, 35 (11): 2373-2384. (Hu Feng, Gu Haiyang, Lin Jun. UAV-enabled task offloading strategy for vehicular edge computing networks [J]. Journal of System Simulation, 2023, 35 (11): 2373-2384.)
[7]Zhang Kaiyuan, Gui Xiaolin, Ren Dewang,et al. Energy-latency tradeoff for computation offloading in UAV-assisted multiaccess edge computing system [J]. IEEE Internet of Things Journal, 2021, 8 (8): 6709-6719.
[8]Wang Di, Tian Jie,Zhang Haixia, et al. Task offloading and trajectory scheduling for UAV-enabled MEC networks: an optimal transport theory perspective [J]. IEEE Wireless Communications Letters, 2022, 11 (1): 150-154.
[9]Liu Boyang, Wan Yiyao, Zhou Fuhui,et al. Resource allocation and trajectory design for MISO UAV-assisted MEC networks [J]. IEEE Trans on Vehicular Technology, 2022, 71 (5): 4933-4948.
[10]Yao Jingjing, Ansari N. Task allocation in fog-aided mobile IoT by Lyapunov online reinforcement learning [J]. IEEE Trans on Green Communications and Networking, 2020, 4 (2): 556-565.
[11]Wang Yunpeng, Fang Weiwei, Ding Yi,et al. Computation offloading optimization for UAV-assisted mobile edge computing: a deep deterministic policy gradient approach [J]. Wireless Networks, 2021, 27 (4): 2991-3006.
[12]Chen Juan, Xing Huanlai, Xiao Zhiwen,et al. A DRL agent for jointly optimizing computation offloading and resource allocation in MEC [J]. IEEE Internet of Things Journal, 2021, 8 (24): 17508-17524.
[13]Peng Haixai, Shen Xuemin. Multi-agent reinforcement learning based resource management in MEC-and UAV-assisted vehicular networks [J]. IEEE Journal on Selected Areas in Communications, 2021, 39 (1): 131-141.
[14]Zhu Botao, Bedeer E, Nguyen H H ,et al. UAV trajectory planning in wireless sensor networks for energy consumption minimization by deep reinforcement learning [J]. IEEE Trans on Vehicular Technology, 2021, 70 (9): 9540-9554.
[15]陳釗, 龔本燦. 無人機輔助的雙層深度強化學習任務卸載算法 [J]. 計算機應用研究, 2024, 41 (2): 426-431. (Chen Zhao, Gong Bencan. UAV-assisted two-layer deep reinforcement learning algorithm for task offloading [J]. Application Research of Compu-ters, 2024, 41 (2): 426-431.)
[16]Xiong Jingyu, Guo Hongzhi, Liu Jiajia. Task offloading in UAV-aided edge computing: bit allocation and trajectory optimization [J]. IEEE Communications Letters, 2019, 23 (3): 538-541.
[17]Zhang Guangchi, Ou Xiaoqi, Cui Miao,et al. Cooperative UAV en-abled relaying systems: joint trajectory and transmit power optimization [J]. IEEE Trans on Green Communications and Networking, 2022, 6 (1): 543-557.
[18]Miao Jiansong, Bai Shanling, Mumtaz S,et al. Utility-oriented optimization for video streaming in UAV-aided MEC network: a DRL approach [J]. IEEE Trans on Green Communications and Networking, 2024, 8 (2): 878-889.
[19]李校林, 江雨桑. 無人機輔助移動邊緣計算中的任務卸載算法 [J]. 計算機應用, 2023, 43 (6): 1893-1899. (Li Xiaolin, Jiang Yusang. Task offloading algorithm for UAV-assisted mobile edge computing [J]. Journal of Computer Applications, 2023, 43 (6): 1893-1899.)
[20]Zhou Xiaoyi, Huang Liang, Ye Tong,et al. Computation bits maximization in UAV-assisted MEC networks with fairness constraint [J]. IEEE Internet of Things Journal, 2022, 9 (21): 20997-21009.
[21]嵇介曲, 朱琨, 易暢言, 等. 多無人機輔助移動邊緣計算中的任務卸載和軌跡優化 [J]. 物聯網學報, 2021, 5 (1): 27-35. (Ji Jiequ, Zhu Kun, Yi Changyan, et al. Joint task offloading and trajectory optimization for multi-UAV assisted mobile edge computing [J]. Chinese Journal on Internet of Things, 2021, 5 (1): 27-35.)