米德昌 王霄 李夢麗 秦俊康



摘 要:針對傳統深度強化學習(deep reinforcement learning,DRL)中收斂速度緩慢、經驗重放組利用率低的問題,提出了災害應急場景下基于多智能體深度強化學習(MADRL)的任務卸載策略。首先,針對MEC網絡環境隨時隙變化且當災害發生時傳感器數據多跳的問題,建立了災害應急場景下基于MADRL的任務卸載模型;然后,針對傳統DRL由高維動作空間導致的收斂緩慢問題,利用自適應差分進化算法(ADE)的變異和交叉操作探索動作空間,提出了自適應參數調整策略調整ADE的迭代次數,避免DRL在訓練初期對動作空間的大量無用探索;最后,為進一步提高傳統DRL經驗重放組中的數據利用率,加入優先級經驗重放技術,加速網絡訓練過程。仿真結果表明,ADEDDPG算法相比改進的深度確定性策略梯度網絡(deep deterministic policy gradient,DDPG)節約了35%的整體開銷,驗證了ADEDDPG在性能上的有效性。
關鍵詞:災害應急;任務卸載;多智能體深度強化學習;自適應差分進化算法
中圖分類號:TP399?? 文獻標志碼:A??? 文章編號:1001-3695(2023)12-038-3766-06
doi: 10.19734/j.issn.1001-3695.2023.04.0159
Multiintelligence deep reinforcement learningbased task offloading strategy for disaster emergency scenarios
Abstract:For the problems of slow convergence and low utilization of empirical replay groups in traditional DRL, this paper proposed a multi agent deep reinforcement learning(MADRL) based task offloading strategy for disaster emergency scenarios. Firstly, it established a task offloading model based on MADRL for disaster emergency scenarios to deal with the problem of time slot changes in MEC network environment and multihop sensor data transmission when disasters occur. Secondly, for the slow convergence problem caused by highdimensional action space in traditional DRL, it used the mutation and crossover operations of the adaptive differential evolution algorithm (ADE) to explore the action space. And it proposed an adaptive parameter adjustment strategy to adjust the iteration number of ADE, this avoided a large amount of useless exploration of the action space by DRL in the early stages of training. Finally, it added the prioritized experience replay technique to speed up the network training process and improve the data utilization in the experience replay group of DRL. Simulation results show that this adaptive differential evolution algorithm improved deep deterministic policy gradient (ADEDDPG) saves 35% of the overall overhead compared with the improved original deep deterministic policy gradient (DDPG) network. This verifies the effectiveness of ADEDDPG in terms of performance.
Key words:disaster emergency; task offloading; MADRL; ADE
0 引言
貴州省是我國地質災害頻發地區,由于地處亞歐板塊和印度洋板塊的消亡邊界附近,地形十分破碎。同時,云貴高原地形十分崎嶇,坡度很大,加上年降水量豐富,使得滑坡、泥石流等地質災害多發[1,2]。對災害易發區域部署實時監測,對災害預判,做到迅速反應,能降低災害來臨時造成的危害[3]。隨著物聯網技術和5G通信技術的發展,可實現對高危區域的遠程監測,災害預判和迅速處理[4,5]。自然災害的特點是突發性,及時的應急反應是災后救援工作開展的關鍵[6]。傳統云框架下,邊端的無線傳感器節點(wireless sensor node,WSN)由于體量小導致計算能力有限,需要將數據全部上傳到云端進行集中式計算,但云端受限于距離因素,易帶來傳輸延遲和帶寬資源浪費等問題[7]。多接入邊緣計算(multiaccess edge computing,MEC)的提出可以提高物聯網系統整體的傳輸效率,它將云端的計算服務下沉到距離邊端較近的網絡邊緣,滿足系統對實時性任務的需求。相對于云服務器,MEC系統更具有靈活性,但它所配備的資源較少[8~10],因此如何在時變的無線網絡環境中結合計算任務的屬性,使用任務卸載策略和資源分配方案來保證服務的可靠性和任務卸載效率,最終提高災害應急系統的反應是當前需要解決的問題。
任務卸載作為邊緣計算的核心技術之一,眾多學者對其進行了相關的研究。Guo等人[11]對單個服務器和多個移動設備的任務卸載進行研究,提出了一種基于貪婪策略的啟發式算法運用于工業互聯網的MEC中,但所使用的卸載方式是傳統二進制卸載,卸載不靈活。類似地,Yong等人[12]研究了用戶子任務卸載策略和發射功率分配策略,并提出一種改進粒子群算法來優化發射功率分配策略。上述研究僅研究了單個MEC服務器,當多數用戶選擇將任務卸載到服務器執行時容易發生網絡堵塞,且使用的啟發式算法具有一定的限制,當卸載用戶和MEC服務器之間的信道狀態是時變的、任務屬性是動態變化時,啟發式算法的通用性和魯棒性是有爭議的。
深度強化學習已逐漸運用到任務卸載[13,14]。Xue等人[15]考慮了用戶設備的卸載成本和MEC服務器的定價,提出了多智能體深度強化深度學習算法(MADRL)解決收益定價問題,但所使用的DQN算法在收斂效果上得不到保證。Chen等人[16]研究了一種具有隨機無線信道的多輸入多輸出系統,并采用深度確定性策略梯度(DDPG)處理連續動作的DRL方法,但DDPG過度依賴評論家網絡,使得DDPG的性能對評論家敏感,從而導致計算卸載過程中穩定性差、收斂速度緩慢。Zhang等人[17]考慮了卸載過程中的延遲、能耗和運營商成本等方面的優化問題,并將其建立為馬爾可夫決策過程,提出基于深度強化學習的解決方案,但該方案對經驗重放組的利用率較低,存在學習效率不高的問題。Lakew等人[18]研究了無線資源協調和部分任務卸載調度的聯合優化方案,為了解決DDPG中由高維動作導致的收斂緩慢問題,在參與者網絡的輸出動作上加入噪聲探索,但該方法和DDPG一樣也需要遍歷整個動作空間。綜上所述,現有針對單MEC服務器卸載的研究中,卸載用戶更偏向于將任務卸載到MEC服務器執行,這帶來了網絡阻塞的風險;針對多用戶多MEC服務器的研究中,狀態空間和動作空間呈指數增加,因此帶來的收斂緩慢問題仍有待解決;并且現有研究大多使用二進制卸載模式,卸載不靈活,且對歷史經驗重放組利用率低,從而導致學習效率低。
基于上述問題,提出了在災害應急場景下基于多智能體深度強化學習的任務卸載策略。卸載策略總結如下:a)策略從本地MEC出發,將任務卸載比例和計算資源充足的MEC服務器進行卸載;b)結合數據處理任務的大小和網絡環境,帶寬分配方案和卸載策略,滿足系統對時延和能耗的要求。
本文在災害應急場景下構建多異構MEC服務器計算模型,考慮隨時隙變化的網絡狀態,將系統優化問題建模為基于無模型的MADRL任務卸載模型;針對高維動作空間引起的收斂緩慢問題,提出自適應混合差分進化算法改進DDPG的算法(adaptive differential evolution algorithm improved deep deterministic policy gradient,ADEDDPG),提高任務卸載效率,同時運用優先級經驗重放技術來加快網絡訓練過程。
1 系統模型和問題描述
1.1 系統模型
災害應急場景下,WSN由監控設備和多個數據傳感器組成。災害沒有發生時,WSN采集的數據較為平穩,將數據處理任務上傳至就近的MEC服務器處理;當災害發生時,WSN采集的數據會出現劇烈波動,需要對WSN上傳的傳感器數據特征提取,對災害進行等級評判和高清視頻流進行分析等,本地MEC服務器會出現計算壓力過大的情況。由此,本文運用多異構MEC服務器協作方式,完成災害事件發生時的WSN數據處理任務。計算模型如圖1所示。
設置WSN集合表示為N={1,2,…,n},n∈N,MEC服務器集合表示為M={1,2,…,m},m∈M。數據處理任務定義為Tk={Ik,Fk,τmaxk},其中,Ik為任務數據大小,Fk為計算任務所需資源,τmaxk為完成任務的最大延遲時間[19,20]。連續任務處理周期T={1,2,…}分為多個時隙,時隙的大小為T0,為突出災害發生時WSN數據多跳的特點,數據處理任務在每個時隙開始時隨機生成。為提高任務卸載效率和卸載靈活性,假設數據處理任務可分割,卸載比例決策由參數γ決定,它表示將比例為γ的計算任務卸載到其他服務器。符號匯總如表1所示。
災害沒有發生時,數據處理任務上傳至本地MEC服務器計算。本地的時延和能耗為
其中: f-Lm是MEC服務器的計算能力;Km是MEC的設備相關系數。
當災害發生時,本地服務器計算壓力過大,將比例為γ的計算任務卸載到其他服務器上進行計算,以下稱本地服務器為卸載用戶。假設MEC服務器之間的通信模式遵循正交頻分多址(orthogonal frequency division multiple access,OFDMA)[21~23]。假設MEC之間連接的宏基站的總帶寬被設置為Bi,可被分為E個子信道。假設每個時隙中MEC服務器之間的信道狀態是時變的,服從馬爾可夫分布,信道狀態可以建模為
其中:Euclid ExtrahApe為路徑損耗系數;Dm為MEC之間的距離;Pm是信道狀態預定義的轉移概率矩陣。
例如,MEC之間的信道狀態為[64,128,192,256,512],假設當前信道狀態hm(t)為192,則下一個時隙信道狀態hm(t+1)會以狀態轉移概率轉移到其他狀態,如256,用這種方式模擬MEC環境中不斷變化的信道狀態[24]。
由式(3)可以得到MEC之間的傳輸速率RMm(bps):
其中:Bi為傳輸帶寬;β為帶寬分配比例;pn為傳輸功率;N0為高斯白噪聲。
得到卸載用戶卸載任務到MEC的傳輸時延和能耗為
計算時延和能耗表示為
其中: fMm是MEC服務器分配給卸載用戶的計算資源。
1.2 問題描述
當災害發生時,需要對災害作出迅速響應,對數據處理任務的計算速度具有實時性要求;同時考慮到成本問題,災害應急環境下要求設備能長期運行,因此,需要兼顧時延和能耗要求,將系統的整體開銷表示為時延和能耗的加權和。系統的整體時延和能耗可以表示為
Ttotal=(1-γ)TLm+γ(TMTm+TMCm)(9)
Etotal=(1-γ)ELm+γ(EMTm+EMCm)(10)
于是可以得到系統的整體開銷為
Um=anTtotal+(1-an)Etotal(11)
其中:an是時延和能耗之間的權重系數。
為了高效利用系統信道資源和計算資源,降低系統的整體開銷,將系統目標轉換為系統整體開銷最小化問題,則系統優化問題表述為
其中:c1是MEC計算資源和本地計算資源的約束;c2表示數據處理任務的時間必須小于允許的最大處理時延;c3為時延和能耗的權重約束;c4是關于任務卸載比例的約束;α是卸載的目標服務器編號;γ是任務分割的比例;β是帶寬分配比例。
問題式(12)是在卸載動作作用下使得整體開銷最小化的優化問題。在MEC環境中網絡信道狀態是時變的,而且在每個時隙產生的任務是隨機生成的,隨著卸載用戶數量的增加,式(12)的求解集合規模呈指數增加。現有研究中較多使用DRL技術解決任務卸載問題[13,17]。本文在DDPG算法框架下,對DDPG進行改進,達到更好的卸載效果。
2 基于MADRL學習的任務卸載策略
傳統DDPG算法需要遍歷整個動作空間,導致學習效率低,收斂速度緩慢。引入HDE對DDPG的動作空間進行探索,HDE的交叉和變異概率可以提高對動作空間的探索效率,提高網絡訓練速度,且HDE的適應度函數對DDPG中的參與者網絡有矯正作用。經驗重放是DRL的核心技術,智能體利用與環境不斷交互產生的經驗進行學習,高效利用經驗重放組是可以提高DRL算法的學習效率的。在傳統DDPG算法中,抽取經驗重放組去訓練網絡的方法是隨機抽取,這忽略了不同經驗組的重要性。因此,為了提高對重放經驗組的重放組的利用率,加入了優先級經驗重放技術。
2.1 基于MADRL的任務卸載模型
優化式(12)取決于參數α、γ和β的確定。在災害應急場景中,當災害發生時,WSN采集的數據是劇烈變化,信道狀態也隨時隙變化,即使本文可以從環境中獲取當前狀態,但下一狀態也是無法預測的。為了解決這一難題,本文將問題式(12)建模為基于MADRL的任務卸載模型。卸載用戶被定為MADRL中的智能體代理,MADRL中狀態空間、動作空間和獎勵函數如下所示。
1)狀態空間
在每個時隙開始時,卸載用戶會接收到來自附近WSN的計算任務,為了有效利用系統的計算資源和MEC環境中的信道資源,將狀態空間定義為
St={TK,FLM,HM(t)}(13)
其中:TK是時隙開始時WSN的任務信息;FLM為當前時隙下所有MEC的計算能力;HM(t)是當前時隙下MEC之間的信道狀態。
2)動作空間
為最大化系統預期長期獎勵,根據任務屬性對帶寬資源合理分配,根據MEC集群計算資源選擇合適的卸載比例,將動作空間定義為
At={αm,Υm,βm}(14)
其中:αm為所有智能體選擇的MEC服務器編號集合;Υm為智能體選擇的任務卸載比例;βm為帶寬分配比例。
例如,當總帶寬為100 MHz時,如果智能體選擇動作為[3,0.5,70],則表示智能體選擇將0.5比例的計算任務卸載到編號為3的MEC服務器上,且為其分配70 MHz的網絡帶寬資源。
3)獎勵函數
優化目標是小化系統總體開銷,而DRL的目標是最大化預期長期獎勵,假設WSN全部在本地服務器執行,本地的整體開銷可以表示為
ULm=amTLm+(1-am)ELm(15)
完全合作下的智能體獎勵是一致的,將獎勵函數定義為系統相對于本地卸載所節約的整體開銷,因此,獎勵函數可表示為
2.2 基于MADRL的在線卸載算法
DRL在任務卸載領域運用廣泛,它在強化學習的基礎上使用深度神經網絡擬合狀態價值函數和策略π,旨在通過深度學習來最大限度地提高預期長期獎勵。提出的算法DDPGHDE是在DDPG的基礎上改進的。DDPGHDE算法框架如圖2所示。首先,智能體從MEC環境中獲取當前狀態St;然后,智能體的參與者網絡根據獲取到的狀態St,以卸載策略π輸出卸載動作At;接著,MEC環境根據卸載動作At反饋即時獎勵Rt;最后,評論家網絡對卸載動作At打分,輸出為動作狀態價值Q,同時收集經驗組(St,At,Rt,St+1),計算其優先級后存放到重放內存中,而參與者和評論家網絡的訓練正是基于重放內存中的經驗組。接下來對DDPGHDE算法的兩個重要部分進行闡述。
1)參與者—評論家網絡
卸載策略π輸出為一個確定性動作At,卸載策略π的目的是使得輸出的動作At能最大化動作狀態對價值Q。參與者網絡既是使用深度學習技術學習卸載策略π,卸載策略可以定義為映射:
π:St→A(17)
使用動作狀態對價值Q評判動作At的好壞,評論家網絡使用深度學習技術學習價值Q,評估狀態動作對的預期長期獎勵,用于修正策略π,使得策略網絡的決策越來越優。動作狀態對價值Q定義為映射:
Q:(St,A)→R(18)
接下來,將(St,At,Rt,St+1)存儲在重放內存Ω中。在每個訓練回合,從重放內存中選擇優先級經驗重放組作為訓練樣本,更新參與者網絡和評論家網絡中的參數,最大化長期獎勵。參與者網絡和評論家網絡的更新方式與DDPG一樣,參與者網絡使用梯度上升法更新,評論家網絡使用(time differenceerror)TDerror的梯度下降法更新[25]。由于在線網絡參數變化快,輸出動作不穩定,加入目標網絡,使用軟更新的方式更新目標網絡,使得輸出動作更加穩定。
2)ADE探索動作空間
在ADEDDPG訓練初期,參與者網絡和評論家網絡訓練不良好,這個時候參與者網絡輸出的動作是不準確的,環境回饋的獎勵值也較低。ADE是一種啟發式算法,它具有啟發式算法強大的搜索能力[26]。將ADE運用到參與者網絡和評論家網絡中,比較ADE探索后的動作和參與者網絡輸出后的動作的適應度值,將適應度值較高的輸入到評論家網絡。參與者輸出的動作經過ADE的探索后輸出的動作更加準確,這有利于評論家網絡的快速收斂,評論家網絡收斂后對參與者網絡有更好的指導效果,從而加速參與者網絡的收斂。ADE的探索過程如下:
首先,參與網絡輸出動作A與NP-1個隨機生成的卸載動作組成ADE的初始群體,其中NP為種群規模,每個個體由α、γ和β三個變量組成。ADE的初始化定義為
Xi=(xi,1,xi,2,xi,3,…,xi,NP-1)? i=1,2,3,…,NP-1(19)
第i個個體的第j個值取值方式為
xi,j=Lj_min+rand(0,1)(Lj_max-Lj_min)
i=1,2,3,…,NP-1? ?j=1,2,3(20)
其中:Lj_min和Lj_max是動作變量的邊界條件,在這項工作中,考慮了10個MEC服務器協同計算任務。所以α的邊界條件分別為1個和10個,γ的邊界條件是0~1,β的邊界條件為0~100。
接下來,對種群中的個體進行變異和交叉操作,引導種群中的個體變得優秀。在第g次迭代中,從種群中隨機抽取三個不同的個體,并從優到劣排序為xp1(g),xp2(g),xp3(g),它們的個體適應度值分別為進行變異操作:
Hi(g)=Xp1(g)+F(Xp2(g)-Xp3(g))(21)
其中:F是縮放因子,且是自適應變化的。
其中:FL為0.1;Fυ為0.8; f(x)是個體的適應度函數。
交叉操作為
其中:cr是交叉概率,交叉概率也是自適應變化的。
其中: fmax和fmin分別是當前種群中最差個體和最優個體的適應度值; f是當前種群的適應度平均值;crL和cru是cr的邊界條件。
適應度值的計算是衡量個體優秀與否的標準,ADE輸出動作的適應度值越高則表明個體越優秀,獎勵函數可以衡量適應度值的大小,因此將適應度函數定義為
f(x)=Rt(25)
最后,選擇適應度值高的個體作為ADE的輸出。
根據ADE的變異和交叉操作在動作空間中引導種群,達到迭代次數為K后停止探索。
在ADE的探索過程中,K值代表對動作空間探索強度,當網絡訓練效果不良好時,需要要求網絡去探索更多的可能性以不斷優化網絡參數。為解決這一問題,提出自適應參數K調整策略。
其中: fa是參與者網絡輸出動作的適應度值,它和當前ADE種群平均適應度值的差可以反映當前網絡訓練情況;φ(x)函數代表一個整數變化過程。當參與者網絡輸出動作的適應度值大于ADE種群平均適應度值到一定程度時,認為當前網絡的訓練情況良好,適當減少迭代次數可以避免由于多余的探索導致的計算資源浪費和迭代時間,使用參數Δ定量這種程度。同樣地,當參與者網絡輸出動作的適應度值小于ADE種群平均適應度值到一定程度后,這表明當前網絡的訓練情況差,需要增加迭代次數來探索更多優秀的動作。
算法1 HDE動作探索算法
2.3 優先級經驗重放技術
經驗重放技術是DRL中的關鍵技術,它使智能體記住并利用過去的經驗進行學習。傳統的深度強化學習DDPG中,使用隨機抽樣的方式對重放經驗組抽取,忽略不同價值的經驗組對訓練的重要性。因此使用優先經驗重放(priority experience replay,PER)技術抽取重放經驗組。不同的經驗組有不同的重要性,重要性更高的經驗組以更高的概率被抽中參與訓練。
PER中優先級的計算是核心問題,從而根據優先級計算出不同優先級的重放概率。TDerror作為評估經驗優先級的重要指標,TDerror絕對值較高時神經網絡對動作的真實價值估計并不準確,給予較高的權重有助于神經網絡減少錯誤預測的概率;同時任務整體開銷也是衡量網絡是否訓練良好的重要指標,因此對優先級的計算兼顧了TDerror絕對值和任務整體開銷,定義災害應急系統下的優先級機制。首先為經驗組打分:
scoreφt=δ|δφt|+(1-δ)+(1-δ)z(t)φ(28)
其中:δ是分數控制參數;|δφt|是TD誤差的絕對值;Z(t)φ是與任務整體開銷有關的函數。
得到式(20)后,將經驗組從小到大進行排序,經驗組的序號為rank(φ)={1,2,3,…},根據序號定義抽樣值:
根據抽樣值本文由下式可以得到抽樣概率:
分數越高的經驗組將會得到更高的抽樣概率,有效地運用更有訓練價值的重放經驗組,提高網絡的學習效率。
算法2 基于深度強化學習的在線卸載算法(ADEDDPG)
for 每個智能體m∈M do
隨機初始化參與者網絡μ(s|θμm)和評論家網絡Q(s,a|QQm)
初始化目標網絡權重θμ′m←θμm,QQ′m←QQm
初始化一個空的經驗重放內存Ω
end for
while epoch 重置多用戶MEC模型環境的模擬參數 為每一個智能體m∈M隨機生成初始狀態Sm,1 for 時隙T=1,2,…,Tmax do for每個智能體m∈M do 根據當前狀態選擇動作At,計算獎勵Rt ADE探索動作空間,輸出動作A*t,將A*t賦給At 交叉操作收集元組(St,At,Rt,St+1),賦予優先級后存入經驗重放緩沖區Ω 抽取優先級經驗組N*(St,At,Rt,St+1) 更新參與者網絡和評論家網絡 更新目標網絡: θμ′m=τθμm+(1-τ)θμ′m, QQ′m=τQQm+(1-τ)QQ′m end for end for end while 3 結果 3.1 仿真參數設置 仿真基于Python 3.9和PyTorch平臺,在VS Code軟件上運行。仿真場景半徑為1 000 m的圓形區,WSN隨機分布在該區域,WSN數目為50,MEC數目為10,假設所有MEC均可以覆蓋該區域,MEC計算能力在11~15 GHz中隨機生成,時間按t=1 ms劃分。 對于深度神經網絡,每個智能體的參與者和評論家網絡由具有兩個隱藏層的四層全連接神經網絡組成。兩個隱藏層的神經元數目分別為400和300,神經網絡激活函數使用ReLU函數,而參與者網絡的輸出函數為sigmoid函數。目標網絡的軟更新系數為τ=0.01,歷史經驗組內存大小設置為Ω=3×1025。仿真參數如表2所示。 3.2 收斂性能 對本文算法ADEDDPG進行仿真實驗,ADEDDPG的目標是最大化系統整體的預期長期獎勵,當系統整體平均獎勵趨于穩定時可以判定網絡收斂,而學習率是影響DRL學習效率的超參數,因此繪制不同學習率下參與者網絡和評論家網絡的平均獎勵變化情況。圖3為ADEDDPG算法下不同學習率對平均獎勵的影響。由于參與者網絡的更新依賴于評論家網絡,參與者網絡學習率(A_LR)的設置偏低于評論家網絡學習率(C_LR)。當訓練次數達到500回合后得到使得系統平均獎勵穩定的學習率,此時A_LR為0.01,C_LR為0.05。在以下的仿真設置中使用相同的學習率。 在訓練過程中,參與者網絡和評論家網絡的收斂性能是互相影響的,為了進一步驗證參與者網絡和評論家網絡的收斂性,繪制了參與者網絡損失值變化曲線。圖4表示所提算法中參與者網絡損失值隨著訓練回合變化的情況。通常認定當學習曲線變得平穩時神經網絡收斂。在ADEDDPG中參與者網絡的訓練基于評論家網絡對其打分的精確性,評論家網絡則是根據環境回饋獎勵以及目標網絡對下一個狀態的輸出進行指導學習。在網絡的訓練初期,參與者網絡的收斂性能較差,波動較大,這時網絡的訓練正在經歷大量的試錯過程。當訓練回合達到500后,參與者網絡開始趨于穩定,但還存在微小范圍內波動,這是由于時變的網絡環境決定的。 3.3 模型優化 對DDPGHDE的優化效果進行分析,對ADEDDPG與DDPG和加入優先級經驗重放技術方案(DDPGPER)進行對比。圖5為三種方案下WSN為50時,時延和能耗隨著訓練回合增加的變化情況。ADEDDPG在一開始時所需要的能耗和時延迅速下降,另外兩種方案也有一定降低,但對比其他兩個方案均表現出快速的收斂速度。對于所有方案,總的系統開銷隨著訓練次數增加而降低,因為隨著訓練回合增加,任務被有效地分配到不同的MEC上,系統的資源利用率得到提高。ADEDDPG所需的能耗和時延在一開始就迅速下降,這得益于ADE算法強大的搜索能力,它可以迅速找到能使得平均獎勵最大的動作。 3.4 性能對比 為驗證本文方案的有效性,使用ADEDDPG和以下幾個方案進行仿真對比,分別為本地MEC執行、隨機分配執行、DDPG、NoiseDDPG。在Lakew等人[18]的研究中,在動作的輸出后加入噪聲探索策略,這是解決DDPG由高維動作空間導致收斂緩慢問題典型的方案,因此將NoiseDDPG作為比較方案之一。首先分析WSN數目對時延和能耗的影響。圖6給出WSN為10~50的情況下,不同方案對能耗和時延的影響。MEC方案和隨機卸載方案產生的時延和能耗隨著WSN數目增加所消耗的時延和能耗明顯提升。而DDPG、NoiseDDPG和DDPG在WSN數目較低時消耗的時延和能耗相差不大,因為WSN數目低,產生的計算任務較少,MEC能夠有充足的計算能力。隨著WSN數目增加,三種方案相比于隨機和本地計算節約了更多的時延和能耗。其中ADEDDPG性能表現最好,DDPG效果最差。這驗證了本文算法ADEDDPG的有效性。 此外,為了驗證對DDPG改進后的算法ADEDDPG的收斂速度,繪制了對比方案和ADEDDPG的整體開銷隨訓練回合的變化情況,如圖7所示。任務全部在本地MEC服務器計算時的總體開銷,基本上不會發生太大的改變,但是所花費的系統開銷更多。而隨機卸載方案表現出較大的波動性,這是因為隨機卸載方式下沒有考慮卸載對象資源情況,如果卸載對象有較為充足的計算資源,那么表現的整體花銷比本地MEC更低;相反,如果卸載對象自身算力不足,那么不僅不能起到較好的效果,反而會造成網絡堵塞,產生更多的時延和能耗。NoiseDDPG算法在收斂情況和最終消耗的整體開銷相比于DDPG算法有了一定的提升,但比ADEDDPG差。雖然NoiseDDPG加入了噪聲探索,但它無法避免大量的訓練。而ADEDDPG在網絡訓練初期就可以通過ADE的探索和交叉探索到更多的動作,并使用適應度函數選擇出更好的動作個體。優秀的個體輸入到評論家網絡有助于評論家網絡快速學習并收斂,當評論家網絡收斂后對參與者網絡有更好的指導效果,到達整個網絡快速收斂的效果。當網絡訓練良好后,ADE對參與者網絡的輸出有著糾正作用,因為參與者網絡的輸出動作需要與ADE輸出的對比后才能作為真正的輸出動作,所定義的適應度函數保證了每一個真正輸出動作的優秀。仿真表明,ADEDDPG相比于本地MEC、隨機卸載、NoiseDDPG分別節約了約61.8%、55%、26%,35%的整體開銷。 為了直觀了解ADEDDPG方案的效果,本文給出了經過ADEDDPG卸載前后的對比情景圖。圖8給出使用ADEDDPG卸載前后MEC服務器計算壓力的對比。當某個監測區域發生自然災害后,數據傳感器會發生劇烈波動,同時需要對上傳的高清視頻進行分析。因此,本地服務器計算資源出現不足的情況,計算壓力增大。將本地服務器的任務卸載到MEC服務器集群后,有效利用其他MEC服務器的空閑的計算資源,同時也降低本地MEC服務器的計算壓力,不僅降低任務處理的延時和能耗,還提高了系統資源的利用率。 4 結束語 本文策略將任務卸載運用到災害應急場景下,做了以下工作:a)將該場景下的計算任務卸載到本地或不同計算能力的MEC服務器上進行計算,提高了災后應急反應的速度;b)將該任務卸載問題建模為多智能體深度強化學習問題,使用自適應差分進化算法改進傳統深度強化學習DDPG中對動作空間的探索過程,提高了系統對時變的MEC網絡環境的適應性;c)加入優先級經驗重放技術對網絡進行訓練,提高了對歷史經驗組的利用率。仿真結果表明,本文算法在收斂速度和整體開銷節約了35%。 在后續研究中,在算法方面,將會針對DDPG算法中高估偏差的問題,提出有效的解決方案,進一步提高ADEDDPG算法的準確性。在災害應急場景建模方面,將會考慮當災害發生時對WSN造成破壞后產生的影響,使得本文算法更適應災害應急場景。 參考文獻: [1]Joshi A,Grover J,Kanungo D P,et al. Edge assisted reliable landslide early warning system [C]// Proc of the 16th IEEE India Council International Conference. Piscataway,NJ: IEEE Press,2019: 1-4. [2]王付宇,王欣蕊. 突發自然災害下的兩階段多目標應急物資中心選址問題研究 [J/OL]. 安全與環境學報.(2023-03-17). https://doi.org/10.13637/j.issn.1009-6094.2023.2782. (Wang Fuyu,Wang Xinrui. A study on the siting of twostage multiobjective emergency material centers under sudden natural disasters [J/OL]. Journal of Safety and Environment.(2023-03-17). https://doi.org/10.13637/j.issn.1009-6094.2023.2782. [3]揣小明,杜樂樂,翟穎超. 基于應急管理全過程均衡理論的城市災害應急能力評價 [J]. 資源開發與市場,2023,39(4):385-391. (Chuai Xiaoming,Du Lele,Zhai Yingchao. Evaluation of urban disaster emergency response capacity based on the theory of whole process equilibrium in emergency management [J]. Resource Development & Market,2023,39(4):385-391.) [4]Lee M F R,Chien T W. Artificial intelligence and Internet of Things for robotic disaster response [C]// Proc of International Conference on Advanced Robotics and Intelligent Systems. Piscataway,NJ: IEEE Press,2020: 1-6. [5]Bourechak A,Zedadra O,Kouahla M N,et al. At the confluence of artificial intelligence and edge computing in IoTbased applications: a review and new perspectives [J]. Sensors,2023,23(3): 1639. [6]高娜. 淺談汶川地震后我國地震應急救援能力進展 [J]. 中國應急救援,2018,69(3): 20-24. (Gao Na. On the progress of Chinas earthquake emergency rescue capacity after the Wenchuan earthquake [J]. China Emergency Rescue,2018,69(3): 20-24.) [7]Keivanpour S. Internet of Things in optimizing emergency logistics of wildfire: a review and application perspective in Canada [C]// Proc of International Conference on Electrical,Computer and Energy Technologies. Piscataway,NJ: IEEE Press,2021: 1-6. [8]王子涵,王亮亮,茆啟凡. 面向MEC的V2G輕量級分層認證方案 [J]. 計算機應用研究,2023,40(7):2162-2169,2178. (Wang Zihan,Wang Liangliang,Mao Qifan. V2G lightweight layered authentication scheme for MEC [J]. Application Research of Computers,2023,40(7):2162-2169,2178.) [9]Luo Ruikun,Jin hai,He Qiang,et al. Costeffective edge server network design in mobile edge computing environment [J]. Sustainable Computing Repertoire,2022,7(4): 839-850. [10]Xu Jianwen,Kaoru O,Dong Mianxiong. Big data on the fly: UAV-mounted mobile edge computing for disaster management [J]. Trans on Network Science and Engineering,2020,7(4): 2620-2630. [11]Guo Min, Huang Xing, Wang Wei, et al. HAGP: a heuristic algorithm based on greedy policy for task offloading with reliability of MDs in MEC of the industrial Internet[J].Sensors,2021,21(10): 3513. [12]Yong Dongping,Liu Ran,Jia Xiaolin,et al. Joint optimization of multiuser partial offloading strategy and resource allocation strategy in D2DEnabled MEC [J]. Sensors,2023,23(5): 2565. [13]Wu Zhiwei,Yang Zilin,Yang Chao,et al. Joint deployment and trajectory optimization in UAVassisted vehicular edge computing networks [J]. Communications and Networks,2022,24(1): 47-58. [14]Yu Shuai,Chen Xu,Zhou Zhi,et al. When deep reinforcement learning meets federated learning: intelligent multitimescale resource management for multiaccess edge computing in 5G ultradense network [J]. Internet of Things,2021,8(4): 2238-2251. [15]Xue Jianbin,Wu Qingqing,Zhang Haijun. Cost optimization of UAVMEC network calculation offloading: a multiagent reinforcement learning method [J]. Ad hoc Network,2022,136: 102981. [16]Chen Zhao,Wang Xiaodong. Decentralized computation offloading for multiuser mobile edge computing: a deep reinforcement learning approach [J]. Wireless Communication and Network,2020,1: 1687-1472. [17]Zhang Xiangjun,Wu Weiguo,Liu Song,et al. An efficient computation offloading and resource allocation algorithm in RIS empowered MEC [J]. Computer Communications,2023,197: 113-123. [18]Lakew D S,Tuong V D,Dao N N,et al. Adaptive partial offloading and resource harmonization in wireless edge computingassisted IoE networks [J]. Trans on Network Science and Engineering,2022,9(5): 3028-3044. [19]Lu Haodong,He Xiaoming,Du Miao,et al. Edge QoE: computation offloading with deep reinforcement learning for Internet of Things [J]. Internet of Things,2020,7(10): 9255-9265. [20]Huang Yanyun,Wang Pichung. Computation offloading and userclustering game in multichannel cellular networks for mobile edge computing [J]. Sensors,2023,23(3): 1155. [21]Liu Song,Yang Shiyuan,Zhang Hanze,et al. A federated learning and deep reinforcement learningbased method with two types of agents for computation offload [J]. Sensors,2023,23(3): 2243. [22]You Changsheng,Huang Kaibin,Chae H,et al. Energyefficient resource allocation for mobileedge computation offloading [J]. IEEE Trans on Wireless Communications,2017,16(3): 1397-1411. [23]Kang Ling,Wang Yi,Hu Yanjun,et al. JUTAR: joint userassociation,taskpartition,and resourceallocation algorithm for MEC networks [J]. Sensors,2023,23(3): 1601. [24]Gao Zhen,Yang Lei,Dai Yu. Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing[J].Internet of Things,2023,10(8):6818-6835. [25]Luo Quyuan,Luan L H,Shi Weisong,et al. Deep reinforcement learning based computation offloading and trajectory planning for MultiUAV cooperative target search [J]. Selected Areas in Communications,2023,41: 504-520. [26]Jin Zilong,Zhang Chengbo,Jin Yuanfeng,et al. A resource allocation scheme for joint optimizing energy consumption and delay in collaborative edge computingbased industrial IoT[J]. Trans on Industrial Informatics,2022,18(9): 6236-6243. [27]Chen Yingqun,Han Shaodong,Chen Guihong,et al. A deep reinforcement learningbased wireless body area network offloading optimization strategy for healthcare services [J]. Health Information Science and Systems,2023,11 article No.8.