999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多約束邊環(huán)境下計(jì)算卸載與資源分配聯(lián)合優(yōu)化

2024-02-27 09:07:10張俊杰黃思進(jìn)陳哲毅于正欣
關(guān)鍵詞:動作優(yōu)化方法

熊 兵,張俊杰,黃思進(jìn),陳哲毅,于正欣,陳 星

1(福州大學(xué) 計(jì)算機(jī)與大數(shù)據(jù)學(xué)院,福州 350116)

2(福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室,福州 350116)

3(蘭卡斯特大學(xué) 計(jì)算與通信學(xué)院,英國 蘭卡斯特 LA1 4YW)

0 引 言

隨著通信技術(shù)與移動設(shè)備的快速發(fā)展與普及,各類新興的應(yīng)用不斷涌現(xiàn).這些應(yīng)用通常會收集大量傳感數(shù)據(jù)并伴隨著計(jì)算密集型的任務(wù)以支持其高質(zhì)量的智能服務(wù),這對移動設(shè)備的硬件性能提出了巨大的挑戰(zhàn)[1,2].但是,受限于設(shè)備尺寸與制造成本,移動設(shè)備通常只會配備一定容量的蓄電池與計(jì)算能力有限的處理器,這已無法支持新興應(yīng)用對高性能可持續(xù)處理的需求[3].云計(jì)算提供了充足的計(jì)算與存儲資源,移動設(shè)備可以借助云服務(wù)來彌補(bǔ)其在硬件性能上不足[4].因此,一種可行的解決方案是將移動設(shè)備上計(jì)算密集型的任務(wù)卸載到資源充足的遠(yuǎn)程云上執(zhí)行,完成任務(wù)后將結(jié)果反饋給移動設(shè)備.然而,移動設(shè)備與遠(yuǎn)程云之間的長距離會導(dǎo)致嚴(yán)重的數(shù)據(jù)傳輸延遲[5],不能很好地滿足延遲敏感型應(yīng)用的需求,也會顯著影響用戶的服務(wù)體驗(yàn).

相比云計(jì)算,移動邊緣計(jì)算(Mobile Edge Computing,MEC)將計(jì)算與存儲資源部署到更加接近移動設(shè)備的網(wǎng)絡(luò)邊緣.因此,利用MEC進(jìn)行計(jì)算卸載可以有效避免云計(jì)算中出現(xiàn)的網(wǎng)絡(luò)擁塞的情況,降低網(wǎng)絡(luò)服務(wù)響應(yīng)時間,同時也能更好地滿足用戶對隱私保護(hù)的基本需求[6,7].相對于云服務(wù)器,MEC服務(wù)器配備的資源更少,但靈活性更強(qiáng).因此,如何在資源受限的MEC系統(tǒng)中實(shí)現(xiàn)合理的資源分配是一個難點(diǎn).此外,移動設(shè)備往往需要持續(xù)運(yùn)行以支持各類智能應(yīng)用,但受限于電池容量,任務(wù)的計(jì)算卸載過程在一定程度上也會受到影響.MEC與基于射頻的無線電力傳輸(Wireless Power Transmission,WPT)的集成最近已成為一種可行且有前途的解決方案,可為無線移動設(shè)備的無線電收發(fā)器提供按需能量[8].但是,能量與延遲的多約束給邊緣環(huán)境下的計(jì)算卸載與資源分配又帶來了新的挑戰(zhàn).因此,需要設(shè)計(jì)一種有效的計(jì)算卸載與資源分配方法.

關(guān)于計(jì)算卸載與資源分配的經(jīng)典解決方案通常是基于規(guī)則[9]、啟發(fā)式[10]和控制理論[11].雖然這些方案在一定程度上可以解決計(jì)算卸載與資源分配問題,但它們通常利用了MEC系統(tǒng)的先驗(yàn)知識(如,狀態(tài)轉(zhuǎn)換、需求變化和能量消耗)來制定相應(yīng)的計(jì)算卸載與資源分配方案.因此,這些方案在特定的應(yīng)用場景中可能會運(yùn)行良好,但無法完全適應(yīng)具有多約束條件的動態(tài)系統(tǒng),并且可能由于不合理的計(jì)算卸載與資源分配而導(dǎo)致延遲過大和資源浪費(fèi)情況的出現(xiàn).此外,這些經(jīng)典方案需要通過極其多輪的迭代才能找到可行的解,導(dǎo)致了過高的計(jì)算復(fù)雜度和資源開銷.因此,這些經(jīng)典的解決方案已無法有效地解決動態(tài)MEC環(huán)境中的計(jì)算卸載與資源分配問題.強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)被視為一種具備高適應(yīng)性和低復(fù)雜度新興可行的方法.但是,傳統(tǒng)RL方法在面對復(fù)雜MEC環(huán)境時無法有效處理高維度狀態(tài)空間問題.為了解決這個問題,提出了深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL),利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)從高維度狀態(tài)空間中提取低維表征.盡管目前存在一些基于DRL的計(jì)算卸載與資源分配方法,但大多使用的是基于值的DRL方法(如,深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)和雙深度Q網(wǎng)絡(luò)(Double Deep Q Network,DDQN)等),在處理龐大動作空間時訓(xùn)練效率可能會較低下.這是因?yàn)榛谥档腄RL通過計(jì)算每個動作的概率來學(xué)習(xí)確定性策略.但是,在MEC環(huán)境下,資源分配量是一個連續(xù)值.因此,動作空間會相當(dāng)大以滿足資源分配的需求,這導(dǎo)致了基于值的DRL可能無法快速收斂至最優(yōu)策略.

為了解決上述問題,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的計(jì)算卸載與資源分配聯(lián)合優(yōu)化方法(Joint computation Offloading and resource Allocation with deep Reinforcement Learning,JOA-RL).本文的主要貢獻(xiàn)概括如下:

1)針對多約束條件下動態(tài)的MEC系統(tǒng)設(shè)計(jì)了一種統(tǒng)一的計(jì)算卸載與資源分配模型,并將執(zhí)行任務(wù)的時延與能耗作為優(yōu)化目標(biāo).特別地,本文設(shè)計(jì)了一種任務(wù)優(yōu)先級預(yù)處理機(jī)制,能夠根據(jù)任務(wù)的數(shù)據(jù)量與移動設(shè)備的性能為任務(wù)分配優(yōu)先級.相應(yīng)地,針對DRL框架,定義了MEC環(huán)境下計(jì)算卸載與資源分配問題的狀態(tài)空間、動作空間和與獎勵函數(shù),并上述優(yōu)化問題形式化表示為馬爾可夫決策過程(Markov Decision Process,MDP).

2)提出了一種基于深度強(qiáng)化學(xué)習(xí)的計(jì)算卸載與資源分配聯(lián)合優(yōu)化方法(JOR-RL),以有效地逼近動態(tài)MEC環(huán)境下計(jì)算卸載與資源分配的最優(yōu)策略.在JOA-RL方法中,critic網(wǎng)絡(luò)采用基于值函數(shù)的單步更新方式,用于評價當(dāng)前卸載方案與資源調(diào)度策略;而actor網(wǎng)絡(luò)采用基于策略梯度的更新方式,用于輸出卸載方案與資源調(diào)度策略.同時,JOA-RL方法利用了DNN處理優(yōu)化問題中存在的高維空間問題,克服了環(huán)境的不確定性以逼近目標(biāo)值.

3)大量仿真實(shí)驗(yàn)驗(yàn)證了所提出JOA-RL方法的可行性與有效性.實(shí)驗(yàn)結(jié)果表明,與其他基準(zhǔn)方法相比,JOA-RL方法能夠快速地做出計(jì)算卸載與資源分配決策,在任務(wù)最大時延與設(shè)備電量約束下能夠在時延與能耗之間取得更好的平衡,且展現(xiàn)出了更高的任務(wù)執(zhí)行成功率.

本文其余部分組織如下.第1節(jié)回顧并分析了相關(guān)工作.第2節(jié)描述了所提出的計(jì)算卸載與資源分配模型并形式化定義了相應(yīng)的優(yōu)化問題.第3節(jié)詳細(xì)介紹了所提出的JOA-RL方法.第4節(jié)評估了所提出的方法并與其他基準(zhǔn)方法進(jìn)行了對比實(shí)驗(yàn).第5節(jié)對本文的工作進(jìn)行了總結(jié).

1 相關(guān)工作

近年來,計(jì)算卸載與資源分配問題受到了廣泛的關(guān)注,許多學(xué)者都致力于解決這兩個重要問題.在本節(jié)中,本文將從經(jīng)典的方法和基于DRL的方法這兩個角度回顧與計(jì)算卸載與資源分配相關(guān)的研究工作.

1.1 經(jīng)典的計(jì)算卸載與資源分配方法

計(jì)算卸載與資源分配是MEC中常見的問題,已有許多工作來通過合理的計(jì)算卸載與資源分配方案以減少處理任務(wù)的延遲和能耗.許多關(guān)于計(jì)算卸載和資源分配的經(jīng)典解決方案通常是基于規(guī)則、啟發(fā)式和控制理論.這些傳統(tǒng)的優(yōu)化算法[12,13]制定合適的策略需要大量的迭代,不能滿足任務(wù)的實(shí)時需求.此外,為了減少移動設(shè)備在電池容量上的局限性,無線充電技術(shù)可視為一種可行的解決方案.Wang等人[14]提出了一種基于拉格朗日對偶的算法以最小化系統(tǒng)任務(wù)執(zhí)行延遲.Mao等人[15]的出了一種基于李雅普諾夫的算法以最小化能耗獲得合適策略.Zhang等人[16]研究了NOMA輔助MEC系統(tǒng)中計(jì)算卸載和資源分配的聯(lián)合優(yōu)化問題,旨在最大限度地減少總能耗.Chen等人[17]提出了一種將懲罰函數(shù)與直流變成相結(jié)合的迭代搜索算法用于探索最優(yōu)卸載和資源分配方案.Zhan等人[18]采用了可分離的半定松弛方案來進(jìn)行類似的聯(lián)合優(yōu)化.但是,上述研究沒有綜合考慮MEC系統(tǒng)種動態(tài)的任務(wù)到達(dá)以及多約束型條件對任務(wù)執(zhí)行的影響.

1.2 基于DRL的計(jì)算卸載與資源分配方法

計(jì)算卸載與資源分配問題通常是非凸的并且非常復(fù)雜難以求解.而基于規(guī)則、啟發(fā)式或控制理論的方法在面對多約束條件下動態(tài)的MEC環(huán)境時仍然存在明顯的局限性.而DRL能夠在動態(tài)的環(huán)境中根據(jù)不同系統(tǒng)狀態(tài)選擇合適的動作,因此可作為一種高效可行的解決方案.Huang等人[19]將卸載問題表述為部分可觀察的MDP并將博弈論應(yīng)用于策略梯度方法.Dai等人[20]研究了無線供電MEC系統(tǒng)下的資源分配問題并提出了一種基于DRL的在線學(xué)習(xí)方法,在訓(xùn)練過程中考慮小部分候選動作來逼近最優(yōu)策略.Alfakih等人[21]在DRL中結(jié)合了動作細(xì)化以優(yōu)化計(jì)算卸載和資源分配.Li等人[22]設(shè)計(jì)一種基于DQN的卸載算法,通過優(yōu)化每個用戶的卸載策略來最小化延遲和能耗的線性組合.Pan等人[23]實(shí)現(xiàn)了一個基于DQN的自適應(yīng)框架以解決MEC中的計(jì)算卸載和資源分配問題.Yan等人[24]研究了依賴任務(wù)的卸載決策問題,旨在優(yōu)化應(yīng)用程序的延遲.Guo等人[25]提出了一種低復(fù)雜度的評價網(wǎng)絡(luò),以在時變無線衰落信道和隨機(jī)邊緣計(jì)算能力下共同確定卸載和資源分配決策.上述工作大多是利用基于值的DRL方法來進(jìn)行計(jì)算卸載與資源分配.當(dāng)動作空間較大時,算法的訓(xùn)練結(jié)果很難接近最優(yōu)策略.尤其是當(dāng)資源分配的動作空間連續(xù)時,基于值的DRL算法由于離散化的動作采樣太少而導(dǎo)致每個時間步學(xué)到的動作不是非常準(zhǔn)確,導(dǎo)致最后的計(jì)算卸載和資源分配性能不理想.

2 系統(tǒng)模型與問題定義

如圖1所示,所提出MEC系統(tǒng)由一個基站(Base Station,BS)、一個MEC服務(wù)器和N個可充電移動設(shè)備(Mobile Devices,MDs)構(gòu)成,其中,N個MDs記為集合MD={MD1,MD2,…,MDN}.MDs通過5G或LTE方式接入BS,在BS上配備了MEC服務(wù)器.此外,所有MDs配備了能量收集(Energy Harvest,EH)組件并由無線電頻率(Radio Frequency,RF)信號收集的能量為其提供電力.本節(jié)中主要涉及的符號及其定義如表1所示.

表1 符號及其定義Table 1 Symbols and definitions

圖1 單邊緣多移動設(shè)備MEC系統(tǒng)Fig.1 Single-edge and multi-device MEC system

圖2 時序任務(wù)工作流程Fig.2 Workflow of time-series task

2.1 通信模型

(1)

因此,MDi傳輸計(jì)算任務(wù)的功率為

(2)

2.2 計(jì)算模型

在所提出的MEC系統(tǒng)中,當(dāng)MDs產(chǎn)生任務(wù)時,任務(wù)會先被添加到相應(yīng)MD的任務(wù)緩沖隊(duì)列上,先添加進(jìn)隊(duì)列的任務(wù)完成之后才能執(zhí)行后續(xù)的任務(wù).由于MDs和MEC服務(wù)器都可以提供計(jì)算服務(wù),兩種計(jì)算模式定義如下:

2.2.1 本地計(jì)算模式

假設(shè)不同MDs的計(jì)算能力(即CPU頻率)可能是不同的,但在任務(wù)執(zhí)行過程中是不會改變的.因此,本地計(jì)算模式的延遲和能耗分別定義為:

(3)

(4)

2.2.2 邊緣計(jì)算模式

當(dāng)MDs將任務(wù)卸載到MEC服務(wù)器上執(zhí)行時,MEC服務(wù)器會選擇分配部分當(dāng)前可用的計(jì)算資源給MDs,任務(wù)執(zhí)行完成后MEC服務(wù)器會將結(jié)果返回給MDs.通常,計(jì)算結(jié)果的數(shù)據(jù)量非常小,下載任務(wù)計(jì)算結(jié)果的延遲與能耗可忽略不計(jì).因此,邊緣計(jì)算模式的延遲和能耗分別定義為:

(5)

(6)

(7)

(8)

為了能夠針對不同任務(wù)做出快速的決策找到合適的計(jì)算模式,本文設(shè)計(jì)了一種任務(wù)優(yōu)先級預(yù)處理機(jī)制,能夠根據(jù)任務(wù)的數(shù)據(jù)量與移動設(shè)備的性能為任務(wù)分配優(yōu)先級.該機(jī)制衡量了不同任務(wù)上傳至MEC服務(wù)器執(zhí)行的合適程度,優(yōu)先級越高的任務(wù)將傾向于卸載至MEC服務(wù)器上執(zhí)行.具體地,上述優(yōu)先級被定義為:

(9)

2.3 能量收集模型

1)當(dāng)子時隙t內(nèi)的任務(wù)因決策失敗無法在MDi電量可支持范圍內(nèi)順利完成或當(dāng)前無任務(wù)執(zhí)行,則在子時隙t內(nèi)只有無線組件的充電電量變化.因此,在子時隙t+1開始時刻,MDi的電量為:

(10)

(11)

(12)

基于上述系統(tǒng)模型定義,所提出MEC系統(tǒng)的目標(biāo)是最小化執(zhí)行MDs上時序任務(wù)所產(chǎn)生的時延與能耗的加權(quán)開銷之和,可形式化為優(yōu)化問題P1如:

(13)

其中,w1和w2分別表示執(zhí)行任務(wù)所產(chǎn)生的時延與能耗的權(quán)重.C1表示一個任務(wù)只能本地或者卸載到MEC服務(wù)器上執(zhí)行.C2表示執(zhí)行任務(wù)產(chǎn)生的能耗不能超過當(dāng)前設(shè)備的可用電量.C3表示任務(wù)的執(zhí)行時間不能超過任務(wù)最大容忍時延Td.C4表示為卸載任務(wù)所分配上傳帶寬比例的約束.C5表示為卸載任務(wù)所分配MEC服務(wù)器計(jì)算資源比例的約束.

3 JOA-RL方法

針對優(yōu)化問題P1,所提出的JOA-RL方法可用于獲得最佳的計(jì)算卸載與資源分配策略,以最小化MEC系統(tǒng)中時延與能耗的加權(quán)開銷之和.如圖3所示,MEC系統(tǒng)中的計(jì)算卸載與資源分配被視為環(huán)境,DRL代理通過與環(huán)境交互來選擇相應(yīng)的動作.此外,本文為所提出的JOA-RL方法定義了狀態(tài)空間、動作空間和獎勵函數(shù),如下所示.

圖3 所提出JOA-RL方法概覽Fig.3 Overview of the proposed JOA-RL method

(14)

動作空間:DRL代理根據(jù)當(dāng)前系統(tǒng)狀態(tài)做出計(jì)算卸載與資源分配的動作.動作空間包含卸載決策αt、任務(wù)的上傳帶寬分配wt以及為任務(wù)所分配的MEC服務(wù)器計(jì)算資源pt.因此,在子時隙t時刻的動作可表示為:

at={αt,wt,pt}

(15)

獎勵函數(shù):所提出MEC系統(tǒng)的目標(biāo)是在滿足優(yōu)化問題P1的約束條件下最小化系統(tǒng)時延與能耗的加權(quán)開銷之和.因此,在子時隙t時刻,系統(tǒng)的即時獎勵可表示為:

(16)

其中,w1和w2分別表示執(zhí)行任務(wù)所產(chǎn)生的時延與能耗的權(quán)重.F表示歸一化函數(shù),用于將時延與能耗的數(shù)值歸一化到相同數(shù)值區(qū)間.Pu表示任務(wù)失敗的懲罰系數(shù).

在多約束MEC環(huán)境下的計(jì)算卸載與資源分配優(yōu)化過程中,DRL代理根據(jù)策略μ在當(dāng)前系統(tǒng)狀態(tài)(包含任務(wù)狀態(tài)和資源使用)st下選擇一個動作at(計(jì)算卸載與資源分配).環(huán)境根據(jù)動作at反饋獎勵rt并轉(zhuǎn)換到新的系統(tǒng)狀態(tài)st+1,該過程可表述為MDP過程.

由于難以刻畫精確的數(shù)學(xué)模型來解決具有高動態(tài)性的計(jì)算卸載與資源分配問題,在所提出的JOA-RL方法中利用了深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)用于訓(xùn)練DNN以獲取最優(yōu)的計(jì)算卸載和資源分配策略.在JOA-RL方法中,critic網(wǎng)絡(luò)負(fù)責(zé)評估每個動作相對應(yīng)的Q值,actor網(wǎng)絡(luò)負(fù)責(zé)在當(dāng)前系統(tǒng)狀態(tài)下生成相應(yīng)的計(jì)算卸載與資源分配動作.通過使用critic網(wǎng)絡(luò)可以有效降低策略梯度的誤差,因?yàn)閏ritic網(wǎng)絡(luò)可以引導(dǎo)actor網(wǎng)絡(luò)學(xué)習(xí)最優(yōu)的策略.此外,通過集成DNN,JOR-RL方法可以很好處理高維度狀態(tài)空間的問題.

JOA-RL方法的關(guān)鍵步驟如算法1所示.第1行:初始化actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù)θμ和θQ.第2行:將actor網(wǎng)絡(luò)參數(shù)θμ賦值給目標(biāo)actor網(wǎng)絡(luò)參數(shù)θμ′并將critic網(wǎng)絡(luò)參數(shù)θQ賦值給目標(biāo)critic網(wǎng)絡(luò)參數(shù)θQ′.特別地,JOA-RL方法中采用了獨(dú)立目標(biāo)網(wǎng)絡(luò),減少了數(shù)據(jù)之間的相關(guān)性,并增強(qiáng)了方法的穩(wěn)定性與魯棒性.第3行:初始化經(jīng)驗(yàn)回放池M、訓(xùn)練回合數(shù)P以及時間序列長度Tmax.由于DRL代理與環(huán)境交互得到的訓(xùn)練樣本不是獨(dú)立同分布的,本文通過引入經(jīng)驗(yàn)回放機(jī)制,降低了數(shù)據(jù)的相關(guān)性.在每個訓(xùn)練回合中,JOA-RL方法將每一步獲取的系統(tǒng)環(huán)境狀態(tài)st輸入actor網(wǎng)絡(luò),在環(huán)境中執(zhí)行actor網(wǎng)絡(luò)輸出動作at,執(zhí)行相應(yīng)的卸載計(jì)算與資源分配操作(第5~第11行).根據(jù)公式(16)計(jì)算相應(yīng)的獎勵如,環(huán)境反饋該步任務(wù)累積執(zhí)行獎勵rt與下一個狀態(tài)st+1(第12行).

由于MEC環(huán)境中的系統(tǒng)狀態(tài)與資源分配動作是一個連續(xù)值,JOA-RL方法考慮狀態(tài)與動作均為連續(xù)值的MDP.JOA-RL方法訓(xùn)練critic網(wǎng)絡(luò)θQ去擬合Q(st,at),當(dāng)Q(st,at)確定時,對于固定的st一定存在一個at使得Q(st,at)最大.但是,st~at之間的映射關(guān)系十分復(fù)雜,給定st后的Q值是一個關(guān)于at的高維多層嵌套非線性函數(shù).為解決這個問題,本文利用actor網(wǎng)絡(luò)θμ去擬合該復(fù)雜映射.具體而言,Q(st,at)表示為:

Q(st,at)=Eenvironment[r(st,at)+γQ(st+1,μ(st+1))]

(17)

其中,actor網(wǎng)絡(luò)θμ根據(jù)當(dāng)前狀態(tài)st輸出Q值的最大動作at,該過程可以表示為:

at=μ(st|θμ)

(18)

在JOA-RL方法中,actor網(wǎng)絡(luò)的性能目標(biāo)定義為:

J(θμ)=Eθμ[r1+γr2+γ2r3+…]=Eθμ[Q(st,μ(st|θμ)|θQ)]

(19)

算法1.所提出的JOA-RL方法

輸出:任務(wù)卸載動作任務(wù)的卸載決策αt、卸載任務(wù)的上傳帶寬分配wt以及卸載任務(wù)的MEC服務(wù)器計(jì)算資源分配pt

1. 初始化actor網(wǎng)絡(luò)θμ和critic網(wǎng)絡(luò)θQ

2. 初始化目標(biāo)actor網(wǎng)絡(luò)θμ′←θμ和目標(biāo)critic網(wǎng)絡(luò)θQ′←θQ

3. 初始化經(jīng)驗(yàn)回放池M、訓(xùn)練回合P、每回合時間序列長度Tmax

4. FORepisode=1,2,…,PDO

5. 獲取初始狀態(tài)s1:s1=env.reset() ;

6. FORt=1,2,…,TmaxDO

7. 獲取卸載動作:at=μ(st|θμ)+Nt;

10. ELSE

12. 執(zhí)行at后獲得rt和下一個狀態(tài)st+1:rt,st+1=env.step(at);

13. 將訓(xùn)練樣本存入M:M.push(st,at,rt,st+1);

14. 從M中隨機(jī)取出N個樣本:N*(st,at,rt,s+1)=M.sample(N);

15. 計(jì)算累積期望折扣獎勵:yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′

18. 更新目標(biāo)actor網(wǎng)絡(luò)和目標(biāo)critic網(wǎng)絡(luò)的參數(shù)θμ′←τθμ+(1-τ)θμ′,θQ′←τθQ+(1-τ)θQ′;

19. END FOR

20. END FOR

當(dāng)存入M中的訓(xùn)練樣本數(shù)達(dá)到N條時,隨機(jī)選出N條記錄用于訓(xùn)練網(wǎng)絡(luò)參數(shù)(第14行).JOA-RL方法在優(yōu)化損失函數(shù)時面臨的一個重要的問題是對含有max表達(dá)式進(jìn)行求導(dǎo)優(yōu)化時性能很不穩(wěn)定,更新參數(shù)不一定能使得max(st+1,at+1)向理想的方向變化.尤其當(dāng)動作空間是連續(xù)時該情況更為明顯,導(dǎo)致了訓(xùn)練Q(st,at)向目標(biāo)網(wǎng)絡(luò)移動過程時目標(biāo)網(wǎng)絡(luò)本身也在移動.為了解決這個問題,在JOA-RL方法中,本文分別定義了目標(biāo)actor網(wǎng)絡(luò)θμ′和目標(biāo)critic網(wǎng)絡(luò)θQ′,其中critic網(wǎng)絡(luò)負(fù)責(zé)計(jì)算當(dāng)前Q值Q(st,at),并定義了目標(biāo)Q值yt(第15行).接著,本文定義了critic網(wǎng)絡(luò)的損失函數(shù)(第16行),并使用梯度上升法去最小化critic網(wǎng)絡(luò)損失函數(shù).接著,使用梯度上升法逼近actor網(wǎng)絡(luò)的策略最優(yōu)解,并定義了actor網(wǎng)絡(luò)損失函數(shù)的梯度(第17行).

在每個訓(xùn)練步,目標(biāo)actor網(wǎng)絡(luò)與目標(biāo)critic網(wǎng)絡(luò)按照更新步伐τ向actor網(wǎng)絡(luò)與critic網(wǎng)絡(luò)靠近(第18行).相比于單純地復(fù)制網(wǎng)絡(luò)參數(shù),這種更新方式可以讓JOA-RL方法更加穩(wěn)定.

4 性能評估

在本節(jié)當(dāng)中,本文通過大量仿真實(shí)驗(yàn)評估并分析了所提出JOA-RL方法的性能.

4.1 實(shí)驗(yàn)設(shè)置

在實(shí)驗(yàn)中,所有MDs在AP的覆蓋范圍內(nèi)隨機(jī)分布并共享帶寬,且該AP配備了一臺MEC服務(wù)器.其中,每臺MD的計(jì)算能力的分布為[1,1.2]GHz/s,MEC服務(wù)器的計(jì)算能力為20GHz/s.在默認(rèn)實(shí)驗(yàn)設(shè)置下,10臺MDs共享帶寬10MHz,每個時隙T的持續(xù)時間為1s,子時隙t的持續(xù)時間為0.25s,一個訓(xùn)練回合合計(jì)48個時隙T.仿真實(shí)驗(yàn)在配備Intel i5-7300HQ的筆記本電腦上開展,其CPU時鐘頻率為2.5GHz、內(nèi)存為8GB.模型實(shí)現(xiàn)基于Python 3.6并利用開源機(jī)器學(xué)習(xí)框架Pytorch構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò).其中,actor網(wǎng)絡(luò)的學(xué)習(xí)率為0.0006,critic網(wǎng)絡(luò)的學(xué)習(xí)率為0.006,獎勵折扣因子gamma設(shè)置為0.95.當(dāng)JOA-RL方法完成訓(xùn)練后,可適用于多變MEC環(huán)境下計(jì)算卸載與資源分配的聯(lián)合優(yōu)化.具體的仿真參數(shù)設(shè)置如表2所示.

表2 仿真參數(shù)設(shè)置Table 2 Settings of simulation parameters

此外,本文將所提出的JOA-RL方法與以下5種基準(zhǔn)方法進(jìn)行了對比:

1)Local:所有任務(wù)皆在MDs上執(zhí)行;

2)MEC:所有任務(wù)皆卸載到MEC服務(wù)器上執(zhí)行;

3)Random:任務(wù)通過隨機(jī)的方式在MDs或MEC服務(wù)器上執(zhí)行;

4)Greedy:在滿足任務(wù)最大容忍時延的前提下,任務(wù)優(yōu)先選擇在MDs上執(zhí)行;

5)DQN:基于值的DRL方法,通過計(jì)算每個計(jì)算卸載與資源分配動作的概率來學(xué)習(xí)確定性策略.

4.2 結(jié)果分析

如圖4(a)所示,本文首先對比了不同方法的收斂性,Local、MEC、Random和Greedy等方法為單步?jīng)Q策,不存在學(xué)習(xí)和優(yōu)化的過程.在處理時序任務(wù)時,Local、MEC和Random等方法的性能表現(xiàn)不如其他3種方法.這是因?yàn)長ocal、MEC和Random等方法選擇任務(wù)的方式比較盲目,沒有充分考慮當(dāng)前系統(tǒng)狀態(tài)與任務(wù)特性,這導(dǎo)致了很大一部分任務(wù)因?yàn)槌鰰r延和電量約束而失敗.例如,相比于MEC服務(wù)器,MDs受限的計(jì)算能力可能會導(dǎo)致任務(wù)無法在時延約束條件內(nèi)完成.而如果將任務(wù)頻繁地卸載至MEC服務(wù)器上執(zhí)行,MDs的電池電量可能無法支持卸載的過程而導(dǎo)致任務(wù)失敗.相比于JOA-RL和DQN方法,Greedy方法只看重完成任務(wù)能獲取的即時獎勵,沒有很好考慮長期獎勵.在訓(xùn)練過程的前期,Greedy方法所表現(xiàn)出來的性能會比JOA-RL和DQN這兩種基于DRL的方法來得好.但是,在訓(xùn)練過程的后期,JOA-RL和DQN這兩種方法因?yàn)榭紤]了系統(tǒng)的長期獎勵,其性能表現(xiàn)超過了Greedy方法.本文所提出的JOA-RL方法整合了基于值的和基于策略的DRL方法,可應(yīng)對高維連續(xù)動作空間且收斂速度更快,使得JOA-RL方法的性能優(yōu)于DQN方法.如圖4(b)所示,本文對比了不同方法成功完成任務(wù)的平均消耗能量,MEC方法和Local方法分別展現(xiàn)出了最高和最低的平均任務(wù)消耗能量.Greedy方法在滿足任務(wù)最大容忍時延的前提下優(yōu)先在本地執(zhí)行任務(wù),因此其平均任務(wù)消耗能量僅高于Local方法.相比于DQN方法,JOA-RL方法收斂之后效果也優(yōu)于DQN方法.如圖4(c)所示,本文對比了不同方法的平均任務(wù)等待時間.JOA-RL方法在收斂后的平均任務(wù)等待時間上優(yōu)于其他5種方法,Local方法由于本地計(jì)算能力受限,完成任務(wù)所需的時間較長,所以平均任務(wù)等待時間遠(yuǎn)高于其他5種方法.如圖4(d)所示,本文對比了不同方法的任務(wù)成功率.

圖4 不同方法的收斂性對比Fig.4 Convergence comparison of different methods

相比于其他5種方法,JOA-RL方法在最大容忍時延與電池電量約束條件下能夠達(dá)到一種更好的均衡效果,所以其任務(wù)成功率高于其他方法.MEC方法的任務(wù)成功率是所有方法里面最低的,這是因?yàn)槿绻麑⑺腥蝿?wù)都卸載到MEC服務(wù)器上執(zhí)行,每個任務(wù)分配到的網(wǎng)絡(luò)帶寬會很低,這導(dǎo)致了過度的任務(wù)上傳時間,且很多任務(wù)也會因此無法滿足時延約束而失敗.另外,MEC方法將任務(wù)頻繁地卸載至MEC服務(wù)器上執(zhí)行,導(dǎo)致MDs的電池電量可能無法完全支持卸載而任務(wù)失敗.

接著,本文評估了網(wǎng)絡(luò)帶寬對不同方法的影響.如圖5所示,Local方法由于不存在計(jì)算卸載的過程,所以網(wǎng)絡(luò)帶寬的變化對其沒有影響.對MEC方法而言,當(dāng)網(wǎng)絡(luò)帶寬很低時,每個上傳的任務(wù)所分配到的帶寬就會很低,這導(dǎo)致了大量的任務(wù)上傳時間,也使得很多任務(wù)由于無法滿足最大時延遲約束而失敗,所以MEC方法反映出來的性能表現(xiàn)較差.隨著網(wǎng)絡(luò)帶寬的提升,除Local方法以外的5種方法的性能表現(xiàn)上也呈上升趨勢.其中,MEC方法的性能提升最為明顯,因?yàn)樵摲椒ǖ男阅鼙憩F(xiàn)非常依賴于網(wǎng)絡(luò)帶寬.本文所提出的JOA-RL方法相比DQN方法能更好地處理連續(xù)的資源分配問題,實(shí)現(xiàn)更低的時延與能耗.這表明JOA-RL方法在計(jì)算卸載與資源分配聯(lián)合優(yōu)化問題上更具優(yōu)勢.當(dāng)網(wǎng)絡(luò)帶寬提升到一定程度時,除Local方法以外的5種方法的性能都基本趨于穩(wěn)定.這是因?yàn)殡S著網(wǎng)絡(luò)帶寬的提升,在計(jì)算卸載過程中因超出時延約束而失敗的任務(wù)減少了,但由于依然存在MDs電池電量的約束,使得這些方法的性能無法得到進(jìn)一步的提升.

圖5 網(wǎng)絡(luò)帶寬對不同方法的影響Fig.5 Effect of network bandwidth on different methods

然后,本文評估了MEC服務(wù)器的計(jì)算能力對不同方法的影響.如圖6所示,Local方法由于不存在計(jì)算卸載的過程,所以MEC服務(wù)器計(jì)算能力的變化對其沒有影響.隨著MEC服務(wù)器計(jì)算能力的增加,除Local方法以外的5種方法的性能表現(xiàn)上也呈上升趨勢.本文所提出的JOA-RL方法相比于DQN方法能實(shí)現(xiàn)更低的時延與能耗,這是因JOA-RL方法能更好地處理連續(xù)的資源分配問題,表明JOA-RL方法在計(jì)算卸載與資源分配聯(lián)合優(yōu)化問題上更具優(yōu)勢.當(dāng)MEC服務(wù)器的計(jì)算能力增加到一定程度時,除Local方法以外的5種方法的性能也都基本趨于穩(wěn)定.這是因?yàn)殡S著MEC服務(wù)器計(jì)算能力的增加,在計(jì)算卸載過程中因超出時延約束而失敗的任務(wù)減少了,但存在MDs電池電量的約束,使得這些方法的性能無法得到進(jìn)一步的提升.

圖6 MEC服務(wù)器的計(jì)算能力對不同方法的影響Fig.6 Effect of computational capability of MEC server on different methods

最后,本文評估了MD蓄電池最大容量對不同方法的影響,如圖7所示.對Local方法而言,任務(wù)本地計(jì)算所消耗的電量低于蓄電池的最大容量,因此MD蓄電池最大容量的增加對Local方法沒有影響.對于其他5種方法而言,其任務(wù)上傳消耗的電量較大,因此當(dāng)MD蓄電池最大容量較小時,任務(wù)往往會因?yàn)樾铍姵仉娏坎蛔阋灾С钟?jì)算卸載而失敗.隨著MD蓄電池最大容量的增加,存儲的電量能夠支持更多的計(jì)算卸載,因此這5種方法的性能表現(xiàn)呈上升趨勢.當(dāng)MD蓄電池最大容量增加到一定程度時,因MD蓄電池最大容量不足而導(dǎo)致的計(jì)算卸載失敗的情況基本消失,這些方法的性能也趨于穩(wěn)定.本文所提出的JOA-RL方法相比DQN方法能更好地處理連續(xù)的資源分配問題,實(shí)現(xiàn)更低的時延與能耗.這表明 JOA-RL方法在計(jì)算卸載與資源分配聯(lián)合優(yōu)化問題上更具優(yōu)勢.

圖7 MD蓄電池最大容量對不同方法的影響Fig.7 Effect of maximum battery capacity of MDs on different methods

5 結(jié) 論

在本文中,本文首先將多約束動態(tài)MEC系統(tǒng)中的計(jì)算卸載與資源分配形式化為一個無模型DRL問題.接著,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的計(jì)算卸載與資源分配聯(lián)合優(yōu)化方法(JOA-RL)以提高任務(wù)執(zhí)行的成功率并降低任務(wù)執(zhí)行的時延與能耗.實(shí)驗(yàn)結(jié)果表明,所提出的JOA-RL方法在提升任務(wù)執(zhí)行成功率以及降低任務(wù)執(zhí)行時延與能耗方面優(yōu)于其他基準(zhǔn)方法.具體而言,隨著網(wǎng)絡(luò)帶寬和MEC服務(wù)器計(jì)算資源的提升,JOA-RL方法的效果也優(yōu)于其他方法.同時,與先進(jìn)的DQN方法相比,JOA-RL方法也展現(xiàn)出了更好的收斂效果.

猜你喜歡
動作優(yōu)化方法
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
動作描寫要具體
畫動作
動作描寫不可少
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
非同一般的吃飯動作
主站蜘蛛池模板: 国产精品第页| 欧美福利在线| 国产幂在线无码精品| 666精品国产精品亚洲| 欧美精品色视频| 欧美日韩va| 色综合天天综合| 人妻21p大胆| 91丨九色丨首页在线播放| 国产资源免费观看| AV片亚洲国产男人的天堂| 综合人妻久久一区二区精品 | 中文字幕第4页| 国产00高中生在线播放| 免费av一区二区三区在线| 暴力调教一区二区三区| 3344在线观看无码| 国产在线无码一区二区三区| 国产成人久久777777| 91丝袜在线观看| 亚洲无码视频图片| 天堂av综合网| 无码免费试看| 91九色视频网| 亚洲乱强伦| 免费一级毛片完整版在线看| 欧美成人一级| 亚洲精品第1页| 国产无人区一区二区三区| 国产门事件在线| 国产超薄肉色丝袜网站| 国产一级毛片yw| 无码国内精品人妻少妇蜜桃视频| 国产精品久久久久久久久| 亚洲欧美综合在线观看| 欧美日韩国产成人高清视频| 日韩AV无码免费一二三区| 国产国产人免费视频成18| 少妇露出福利视频| 欧美人人干| 在线观看国产精美视频| 九九这里只有精品视频| 日韩一区精品视频一区二区| 色九九视频| 日本不卡在线播放| 国产一级一级毛片永久| 亚洲 成人国产| 国产精品开放后亚洲| 亚洲伊人天堂| 亚洲综合日韩精品| 精品一区二区三区波多野结衣| 亚洲精品成人福利在线电影| 国产成人凹凸视频在线| 亚洲欧洲日韩综合| 无码综合天天久久综合网| 麻豆精品在线播放| 午夜精品久久久久久久2023| 国产成人综合亚洲欧美在| 一区二区理伦视频| 久久国产精品国产自线拍| 91精品国产一区自在线拍| 久久99国产综合精品1| 色有码无码视频| 57pao国产成视频免费播放| 亚洲天堂网在线播放| 国产人成网线在线播放va| 国产成人一二三| 国产亚洲精品97AA片在线播放| 亚洲综合中文字幕国产精品欧美| 亚洲国产中文欧美在线人成大黄瓜 | 美女视频黄频a免费高清不卡| 欧美有码在线观看| 丁香综合在线| 韩日无码在线不卡| 国产成人高清亚洲一区久久| 在线观看亚洲人成网站| 91精品小视频| 国产专区综合另类日韩一区| 亚洲毛片一级带毛片基地| 啪啪永久免费av| 九九九久久国产精品| 久久99久久无码毛片一区二区|