基于MADDPG的邊緣網絡任務卸載與資源管理*

2021-05-08 06:10:18趙潤暉侯文靜

通信技術 2021年4期

趙潤暉，文紅，侯文靜

（電子科技大學，四川成都 611731）

0 引言

隨著第六代無線移動網絡的飛速發展，接入物聯網的智能設備急劇增加，并衍生出更多應用場景。面對萬物互聯產生的海量數據，在云計算、邊緣計算、人工智能、區塊鏈等技術的發展中，迫切需要一種新的方案來解決現有無線網絡因多維網絡資源、異構網絡設備和復雜時變網絡結構并存而無法滿足終端設備對超低時延、高可靠性和低功耗的需求[1-2]。邊緣計算架構被認為是一種很有前景的解決方案。利用就近布置的邊緣設備以分布式方式調度通信資源，與邊緣云、核心云、終端設備合作，提供可靠、高效的通信分發服務。為了保證通信資源在分配過程中的安全、可靠和高效協作，本文將人工智能融入邊緣計算架構中，提出了邊緣智能架構。然后，針對不同時延的任務，提出了邊緣協同任務分層處理策略，設計了分布式近端策略優化深度強化學習方法。通過聯合優化計算通信資源分配，使網絡資源使用成本最小化，任務數量最大化[3]。本文提出了一種多代理深度確定性策略梯度（MADDPG），通過分層卸載和資源分配的聯合優化，實現處理效率最大化。仿真結果表明，與DDPG相比，提出的MADDPG算法提高了系統效率，降低了成本。

1 系統模型

首先，邊緣設備采集終端設備的狀態信息。根據不同類型任務的不同處理需求，建立邊緣系統主導下的聯合任務時延約束和多維資源管理模型，建立不同任務處理方式的成本模型和效率模型，建立任務處理方式的效率函數模型和資源分配決策模型。最后，以任務執行總時間最小為目標，在邊緣云中執行基于深度強化學習的聯合任務卸載和資源分配算法，得到任務處理方法和資源分配策略[4]。當在邊緣云和核心云中執行計算任務時，根據無線資源分配策略，將任務處理結果發送到邊緣云和核心云，然后轉發到相應的終端設備[5]。

本文主要考慮了核心云、邊緣云、終端設備這幾個關鍵部分的協同計算任務場景。首先，中心云服務器部署在遠端云上，邊緣計算服務器部署在網絡邊緣側，增加中間層部署在虛擬網絡空間的邊緣側，作為邊緣云中的智能代理，從邊緣云和核心云中獲取協同任務，轉發給終端設備。邊緣云集群可以表示為K={1,2,…,k}，每個邊緣云可用的頻譜資源k∈K，可以表示為每個終端設備集群可以表示為N={1,2,…,N}，每個終端設備i∈N，在時隙t中產生的計算密集型任務表示為Di(t)={si(t),ωi(t),τi(t)}，其中si(t)、ωi(t)、τi(t)分別代表任務所需的計算資源量、數據大小和最大可容忍延遲。對于每個終端設備來說，其計算密集型的任務可以卸載到邊緣云，并通過邊緣云卸載到相鄰的邊緣云和更遠的核心云[6]。因此，選擇合適的任務卸載策略對系統的性能有著至關重要的影響。對于終端設備上的計算任務，終端設備的計算資源是有限的，難以滿足其對超低延遲、高可靠性、低功耗服務的需求。邊緣計算將云計算的計算和存儲資源擴展到網絡邊緣，通過計算卸載來滿足任務需求。因此，在邊緣計算下，針對時延敏感、計算密集的任務，設計一種邊緣協同計算處理方法，包括將任務卸載到邊緣云，通過邊緣云進一步將任務卸載到相鄰的邊緣云，以及將任務卸載到核心云進行處理。對于使用邊緣協同處理執行的任務，μi,c,μi,k,μi,k,h∈{0,1}表示終端設備任務選擇了哪種邊緣協同處理策略。其中，μi,c=1代表任務轉移到云服務器處理，μi,k=1代表終端設備選擇所屬的邊緣云卸載任務。μi,k,h=1代表終端設備選擇的那個邊緣云將終端用戶i∈N的任務轉移到邊緣云h上。

2 通信、成本、效率模型

本文提出了不同任務執行模式下的通信、成本和效率模型，以推導出不同場景下相關問題的解決方案。

2.1 通信模型

2.2 成本、效率模型

不同任務處理方式的成本與處理的時間和能耗有關。

任務卸載到邊緣云，邊緣云任務執行延遲可以表示為：

任務卸載到鄰近的邊緣云：邊緣云到相鄰邊緣云的執行任務延遲，表示為：

對于時間容忍度高的任務，可以選擇直接卸載到云服務器上進行處理，云服務器任務的執行延遲可以用以下方式表示：

這里忽略了任務在云上的執行時間，這是因為云有足夠的計算和存儲資源。

能耗可表示為:

參考大量的文獻，設備計算返回的處理結果相對較小，因此忽略了將處理結果返回給每個設備所需的時間和能耗[7]。

執行設備i產生的任務總成本為：

為了提高邊緣計算網絡的性能，使得網絡在降低系統處理成本的同時盡可能處理更多的任務。本文使用了任務處理成本和任務完成數量這兩個因素來構造系統的總的處理效率：

3 問題形成與解決

3.1 問題形成

聯合不同任務處理方式以及多維資源約束條件下，以系統總的處理效率最大化為目標的問題如下：

C1表示卸載決策變量，C2表示終端設備的任務執行模式，只能選擇邊緣云、相鄰邊緣云和核心云中的一種。C3和C4表示終端與邊緣云之間、邊緣云與邊緣云之間的通信通道必須分配給一個終端，并且在每個調度周期內只能分配給一個終端。約束條件C5表示任務需要在截止日期內完成。

3.2 問題解決

上述優化問題的主要目標是降低系統處理成本。用傳統的優化方法很難快速解決優化問題。故采用深度強化學習的方法來解決所提出的任務分層卸載和資源分配問題。

根據強化學習的主要思想，可以將上述優化問題建模為馬爾科夫決策過程（Markov Decision Process，MDP），描述通信資源分配決策過程，通過多代理深度確定性策略梯度（MADDPG）方法對模型進行訓練[8]。

MADDPG本質上也是一種DDPG算法，訓練的是一個全局的Critic和一個Actor，需要每個代理的局部信息，并允許每個代理有自己的獎勵函數，因此它可以用于合作或對抗性任務。而且因為它是由DDPG算法衍生出來的，所以行動空間可以是連續的。

接下來，本文將介紹Markov決策過程的狀態空間、動作空間和獎勵函數。

在這里可以將邊緣云k∈K上的系統狀態空間定義為s(t)，并將觀測狀態空間定義為其中，新的中間層在邊緣云k上的終端設備任務在其管轄的時間t采集時，表示為如果終端不受邊緣云管轄，則Di,k(t)=0。因此，由邊緣集群K組成的觀測狀態空間定義為代表邊緣云k在時隙t時刻可用的頻譜資源。

對于邊緣云k，這里將其作用定義為ak(t)=(φi,k(t),φi,h,k(t),φi,c,k(t))，總的作用空間可定義為a(t)=(a1(t),…,aK(t))。φi,k(t)=1表示任務在邊緣云中處理，反之φi,k(t)=0。φi,c,k(t)=1指邊緣云k收集終端i的任務請求，并將任務分配到云服務器上執行，反之φi,c,k(t)=0。

每個邊緣云都可以被看作一個代理。因此，根據約束條件和目標函數設置獎勵可以得到代表每個邊緣云k的失敗懲罰。

本文設計了用于解決JHORA問題的MADDPG算法。圖1給出了本文提出的MADDPG算法的偽代碼，具體描述如下：

4 實驗仿真與分析

本節將介紹仿真結果，驗證提出的基于MADDPG的任務分層卸載和資源管理方案。在假設的仿真場景中，系統中有1個核心云和3個邊緣云，其覆蓋范圍下隨機分布100～200個終端設備。本節比較的算法如下。單代理深度確定性策略梯度（DDPG），由一個代理集中管理系統中所有終端設備及其對應的邊緣云和核心云的狀態信息，即狀態空間。

圖2中顯示了MADDPG和DDPG算法下各代理的平均獎勵。隨著訓練集數量的增加，獎勵逐漸上升，最終保持穩定的正獎勵。具體來說，集數為50 000，保存率為1 000。隨著訓練集數/保存率的增加，MADDPG算法的平均獎勵總是高于DDPG算法，最終得到穩定的獎勵。原因是提出的MADDPG算法可以充分利用邊緣計算網絡的特點，更好地實現分層任務卸載和資源分配策略。而DDPG算法對所有中間層只有一個目標和評價網絡。

圖2 在MADDPG和DDPG算法下每個Agent的平均獎勵

5 結語

本文提出了一種基于多代理深度確定性策略梯度（MADDPG）的邊緣智能架構。通過對通信資源分配的聯合優化計算，使網絡資源使用成本最小化，任務數量最大化。相比于傳統的DDPG算法，實驗結果表明MADDPG算法的性能要優于DDPG。