蘇 健 錢 震 李 斌
(南京信息工程大學計算機與軟件學院 南京 210044)
(南京信息工程大學江蘇省大氣環境與裝備技術協同創新中心 南京 210044)
隨著人工智能的快速發展,伴隨著各種新興的計算密集型應用,如圖像處理、虛擬現實等,對移動設備的計算和處理需求正在空前增長,但由于移動設備自身的局限性,如無線通信狀態不佳、計算資源不足等,用戶的服務質量得不到保證。為了提高用戶的滿意度,需要增強其通信和計算能力。因此,智能超表面(Reconfigurable Intelligent Surface, RIS)[1,2]和移動邊緣計算(Mobile Edge Computing, MEC)[3–5]作為兩種新范式應運而生。
RIS具有低成本、易部署、可重構無線傳播環境、無源波束成形等優點,引起了人們的高度關注[6–10]。MEC技術允許移動用戶通過無線鏈路將任務卸載到基站(Base Station, BS)的MEC服務器,將資源有限的用戶從繁重的計算中解放出來。因此,將RIS應用到MEC系統中不僅可以增強用戶通信能力,而且還是一種經濟高效且環保的方式。目前,關于RIS輔助MEC的研究已取得許多有價值的研究成果[11,12]。譬如,為了解決任務卸載速率低的問題,文獻[13]將RIS引入MEC系統中,通過聯合優化任務卸載量,MEC服務器的計算資源以及RIS相移實現系統總時延最小化。為了探索RIS對MEC系統計算性能的影響,文獻[14]在能耗和時延的約束下,研究了用戶最大卸載量的問題。為了最大化系統能效,文獻[15]通過聯合優化發射功率,本地計算頻率以及有源和無源波束成形,使得能量效率最大化。為了對比多址技術對RIS輔助MEC的影響,文獻[16]分別對比了非正交多址和時分多址協議之間的性能,文中數值實驗表明非正交多址協議可以提升系統的性能。在邊緣智能網絡中,文獻[17]通過聯合優化用戶的發射功率、基站的接收波束形成向量和RIS的相移矩陣,將所有參與用戶的最大學習誤差降至最低。對于RIS輔助的MEC系統,公式化的問題是非凸且多優化變量緊密耦合的。因此,解決耦合的多變量問題是必要的。迭代算法能夠提供接近最優的解決方案,但計算復雜度較高,這會阻礙它在實際網絡中的使用。
近年來,數字孿生(Digital Twin, DT)技術引起了國內外學術界和工業界廣泛關注,它是物理實體的數字副本,將真實的物理實體和環境實時地映射到虛擬空間。在虛擬空間中運用智能學習算法和DT提供的實時數據可以幫助物理實體做出更準確、更及時的卸載決策,降低用戶決策的資源消耗[18]。為此,DT為求解無線網絡中高復雜度問題提供了一種新思路。鑒于DT的優勢,已有相關工作將DT和MEC相結合,構建了數字孿生邊緣網絡(Digital Twin Edge Network, DTEN)。為了研究DT在多任務MEC系統中的作用,文獻[19]提出了一種基于MEC在線卸載方案,并利用李雅普諾夫優化求解其能效最大化問題。為了研究DT在聯邦學習中的作用,文獻[20]將DT引入區塊鏈輔助的聯邦學習系統中,并提出了一種低復雜度的訓練方案。為了探究DT針對用戶移動性系統的認知,文獻[21]將DT系統引入移動性系統中,有效地降低了用戶的卸載時延。為了任務能夠智能卸載到MEC服務器上,文獻[22]將DT引入進多小區網絡中,進而優化了系統的性能。
上述研究展示出DT和RIS分別在提升MEC網絡性能的優勢,然而在DT結合MEC研究中物理實體的無線通信大多僅考慮視距鏈路,現實中物理實體的通信鏈路通常為非視距鏈路,同時DT需要物理實體實時地更新感知數據,因此對無線信道質量要求較高。本文提出一種RIS賦能的DTEN,通過RIS改善無線信道環境,DT實時地監控網絡狀態信息,以集中的視角為用戶提供卸載決策,如何有效地求解RIS輔助DTEN中用戶卸載決策是一個新的挑戰。
本文的主要工作如下:(1)將RIS引入到DTEN中,從能耗和時延的角度聯合優化RIS相移、波束成形矢量、計算資源分配和用戶傳輸功率,構建一個非凸、多變量、耦合的能耗最小化問題。(2) 為了求解該非凸優化問題,首先將用戶卸載過程建模為馬爾可夫決策過程(Markov Decision Process,MDP),并探索DT輔助智能任務卸載的方式,采用深度雙Q網絡(Double Deep Q Network, DDQN)算法求解卸載決策,并使用網絡中物理設備的映射數據來訓練神經網絡模型。然后將交替優化算法求解RIS相移、波束成形矢量、傳輸功率和計算資源分配的部分嵌入到強化學習訓練中,提出一種能耗最小化的資源分配算法。
如圖1所示,本文考慮兩層DTEN模型,分別為物理實體層和數字孿生層。其中,K個用戶設備、Q個資源設備(Resource Device, RD)、1面具有N個反射單元的RIS和1個裝有M根天線并搭載MEC服務器的基站共同構成了物理實體層,所有物理實體的數字孿生和無線通信環境共同構成了數字孿生層。物理實體層中的設備單元都通過實時通道將當前運行狀態發送到DT, DT系統根據物理實體層的數據構建了真實世界的虛擬模型,在該模型中能夠對用戶卸載策略進行模擬,并直觀地評估系統總能耗。假設用戶和基站之間直連鏈路為非視距信道其余鏈路均為視距信道,因此部署RIS以增強用戶和基站之間的網絡的性能。此外,基站和資源設備的位置固定,用戶的位置隨時間變化,用戶和資源設備只考慮裝配單根天線。為了便于表達和分析,定義用戶、資源設備和RIS反射單元的集合分別 為?k ∈K?{1,2,...,K},?q ∈Q?{1,2,...,Q}和?n ∈N?{1,2,...,N}。

圖1 智能超表面輔助DTEN模型圖





本文目標是在時延、功率、計算資源和能量的限制條件下,通過聯合優化用戶卸載決策、智能超表面相移、基站端接收波束成矢量、用戶傳輸功率和計算資源分配以最小化任務周期T內用戶和資源設備處理任務的總能耗,因此該優化問題可以表述為


為了有效求解上述優化問題,將問題式(5)分解為3個子問題。首先,使用DDQN算法輸出用戶的卸載決策;然后,在DRL訓練環境中,使用交替迭代的方法,在給定用戶決策、傳輸功率和計算頻率下優化RIS相移和波束成矢量;最后,在給定用戶決策、RIS相移和波束成矢量下優化傳輸功率和計算頻率。為方便討論,本文首先闡述了基于D D Q N 的卸載決策算法流程,然后提出了在DRL環境中交替迭代的整體算法。
在給定RIS相移、波束成形矢量、傳輸功率和計算頻率時,問題式(5)可以描述為

由于問題式(6)是一個整數優化問題,難以求解用戶最優卸載策略。本節提出基于DDQN算法的用戶卸載策略優化方案。首先介紹了強化學習中MDP的基本要素,然后給出了基于DDQN算法優化用戶決策的算法流程。
3.1.1 MDP基本要素定義


3.1.2 基于DDQN的能耗最小化算法

基于DDQN卸載決策算法與DRL訓練框架如圖2所示。數字孿生層主要由智能體、回放經驗數組、主網絡、目標網絡和損失函數五大模塊構成,物理實體層由用戶和卸載方式模塊組成。在t時刻,用戶將任務信息和坐標數據發送給DT, DT根據用戶的數據和對實體環境監控的信息使用DDQN算法訓練用戶的卸載策略,訓練完成后智能體將卸載策略發送給用戶,用戶根據卸載策略來判斷任務的執行方式。

圖2 基于DDQN的DRL訓練框架圖

在給定卸載決策、RIS最優相移和最佳波束成形矢量時,優化傳輸功率和計算頻率的子問題可以描述為





表1 基于DDQN能耗最小化算法(算法1)

表2 DDQN訓練參數
圖3驗證了DDQN算法的收斂性。從中觀察到,隨著訓練次數的增加,智能體對用戶的任務卸載決策逐漸變好,曲線振蕩有明顯的下降趨勢,最終獎勵值穩定在–75左右,說明此時智能體已經能為用戶提供比較好的卸載決策。為驗證學習率對算法收斂性的影響,本文還比較了不同學習率下的曲線收斂情況。由圖可知,當學習率為0.001時,在經過75 k步后趨近于收斂;當學習率為0.005時,在經過10 k步后趨近于收斂。兩者曲線收斂后獎勵相差不大且穩定,這說明學習率對算法收斂速度有影響,但對性能影響不大。

圖3 DDQN算法收斂性圖
圖4描述了不同方案的收斂性能。由圖可知,隨著迭代次數的增加,4種方案下獎勵值逐漸趨于穩定。算法1在經過10 k步后趨近于收斂,而基于DQN方法的算法1在經過12 k步后趨近于收斂,DDQN算法收斂速度快于DQN算法,這與3.1.1節中分析吻合,進一步證明了所提算法能夠有效緩解DQN算法的高估問題。無RIS方案收斂后獎勵值最低。這是因為用戶和基站之間距離較遠,無線信道質量較差,導致用戶和基站之間無線傳輸速率較慢。當卸載至基站時,任務處理超時,智能體受懲罰,所以無RIS方案穩定后的獎勵值低于其他3種方案。RIS相移隨機方案在經過17 k步后趨近于收斂,收斂后的獎勵值略低于算法1但高于無RIS方案。這是因為隨機相移方案下用戶到基站的無線速率始終低于算法1,導致此方案下用戶卸載任務的開銷增大,獎勵值偏低。仿真結果充分說明了將RIS引入到DTEN中有較好的性能提升。

圖4 不同方案性能對比圖
圖5描述了RIS反射單元數目與用戶數量對系統能耗的影響。設置用戶任務量為500 kbit,單位比特數據所需計算周期為200 cycles。由圖可知,在用戶數目固定時,隨著RIS反射單元數目的增加,信道增益逐漸增大,無線信道質量明顯提升,用戶總能耗逐漸下降。當RIS反射單元數目和任務卸載周期T不變時,隨著用戶數量的增大,每位用戶分得的時隙變小,因此用戶需在時隙內以較大的功率進行傳輸任務,用戶的總能耗增加。此外,當RIS反射單元個數為36時,用戶總能耗始終保持最低。

圖5 用戶數量與用戶總能耗間的關系
為進一步探究DT對系統的提升作用,圖6描述了不同方案下DT對系統能耗的影響。設置用戶數K為6。所提算法1和采用貪心算法方案分別在DT和無DT下進行了對比。從中觀察到,隨著任務量的增加,系統能耗也逐漸增加,無DT方案和DT方案系統能耗差距越來越明顯。當任務量為280 kbit時,算法1的DT方案比無DT方案能耗降低約18.9%。這是由于DT根據用戶傳過來的信息輔助其進行決策,用戶只需要執行DT發送過來的指令,節省了用戶尋找最佳卸載方式的能耗。當使用貪心算法進行用戶決策時,DT和無DT的情況下能耗均比算法1降低1.2%左右。這是因為使用貪心算法可獲得最優解,但是使用貪心算法求解用戶卸載決策的時間復雜度較高,用戶數量較大時可能會影響用戶體驗。算法1雖然不能達到最優解,但隨著DT中模型不斷的訓練,DT能夠在較短的時間內為用戶提供一個比較好的卸載決策,節省用戶尋找最佳卸載點的能耗。仿真結果進一步驗證了DT可以對系統帶來較好的性能。

圖6 不同方案下系統能耗與任務量關系圖
本文研究了RIS輔助DTEN中計算任務卸載方案。以用戶和資源設備的總能耗最小化為目標,通過聯合優化用戶卸載策略、RIS相移、波束成形矢量、傳輸功率和計算資源分配,實現用戶任務的智能卸載,并提出了一種基于DDQN和交替迭代的任務卸載算法。仿真結果表明,在強化學習中嵌入優化方法能夠快速得到優化解。在未來工作中,考慮多用戶任務卸載過程中信道時變的DTEN方案。