999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用BCQ算法優化移動邊緣計算任務卸載策略

2024-12-31 00:00:00張銘潔
數字通信世界 2024年11期

摘要:該文針對移動邊緣計算中的任務卸載問題,提出了BCQ(Batch Constrained Q-learning)算法,該算法是深度Q網絡(Deep Q-Network,DQN)的擴展,其利用之前收集的數據離線學習最優策略,然后將策略部署在移動設備上,其能夠利用本地信息進行實時決策。實驗結果表明,該方法相較于專家數據具有明顯的優越性。

關鍵詞:離線強化學習;邊緣計算;BCQ算法

doi:10.3969/J.ISSN.1672-7274.2024.11.030

中圖分類號:TP 18" " " " " " " " "文獻標志碼:B" " " " " " 文章編碼:1672-7274(2024)11-00-03

Mobile Edge Computing Task Unloading Strategy Optimized by BCQ Algorithm

ZHANG Mingjie

(Hiroshima University, Hiroshima 7390025, Japan)

Abstract: Aiming at the problem of task unloading in mobile edge computing, this paper proposes BCQ (Batch Constrained Q-learning) algorithm, which is an extension of Deep Q-Network (DQN for short), and uses the data collected previously to learn the optimal strategy offline. Then deploy the strategy on mobile devices, which can utilize local information for real-time decision-making. The experimental results show that this method has significant advantages compared to expert data.

Keywords: offline reinforcement learning; edge computing; BCQ algorithm

1" nbsp;研究背景

現今,隨著大數據和物聯網對海量數據的存儲和處理需求日益增長,給集中式數據處理中心帶來了壓力。然而傳統的集中式計算模式不足以處理大規模和復雜的數據,邊緣計算應運而生,成為一個重要的解決方案。邊緣計算是一種分布式框架,其使數據處理更接近用戶,減少了延遲和對云處理的依賴,已被廣泛應用于智能交通和醫療保健等多個領域。例如,Angelo Feraudo等人[1]提出了一種用于遠程資源獲取的車輛資源系統;Alain Hennebelle等人[2]提出了一種基于機器學習的醫療保健框架,用于邊緣云系統中的糖尿病預測。

邊緣計算常用于實時決策。延遲可能會導致嚴重故障,影響系統性能。因此我們提出了使用離線強化學習的BCQ-edge框架,將該框架應用于移動邊緣計算(Mobile Edge Computing,MEC)環境中,通過預收集的數據進行訓練,在實際運行中可以根據實時數據迅速做出反應。實驗結果表明,該方法優于專家數據。

2" "強化學習

2.1 強化學習基礎

強化學習是通過代理與環境交互來學習最優策略,旨在通過選擇動作,最大化長期累積獎勵。強化學習算法分為在線學習和離線強化學習。在線強化學習又分為在線策略學習(On-PolicyReinforcementLearning)和離線策略學習(Off-PolicyReinforcementLearning),不同的是,在線強化學習使用實時數據來訓練策略,而離線強化學習則依靠預先收集數據來學習和評估策略,無須與環境進行實時交互。

2.2 BCQ算法

強化學習是通過代理與環境交互來學習最優策略的,BCQ(Batch Constrained Q-learning)是DQN(Deep Q-Network)的擴展,其使用預先收集的離線數據對Q值網絡進行訓練,以預測行動值。其包含一個生成器網絡用于提出多個候選行動,以及一個過濾網絡用于選擇最佳行動。為了解決外推誤差問題,如數據缺失造成的估計誤差、覆蓋范圍不足造成的模型偏差以及訓練不匹配等,BCQ使用批量約束來改進非策略學習。

2.3 BCQ算法實現步驟

(1)擴展多個相似行動:在給定狀態s的情況下,生成多個候選動作。使用變分自編碼器(VAE)來完成動作的概率分布建模。引入VAE使BCQ能夠探索在原始訓練批次中未出現的動作,從而使生成的策略在應用中更加靈活和穩定。最后,使用擾動網絡添加噪聲或擾動,以增強智能體的探索能力。

(2)目標Q網絡的訓練:每個生成的狀態-動作對都會通過目標Q網絡進行訓練。由于使用了雙Q網絡,會生成兩組目標Q值(元素數量等于生成樣本數量)。這兩個向量中的每個元素對應相應的狀態-動作對的Q值,而不是將所有輸入的狀態-動作對簡化為兩個輸出。采用軟剪切策略選擇與最大Q值相關的動作,這有助于防止過度估計并提高訓練的穩定性。

計算當前Q值:根據給定的狀態和行動計算當前的Q值。最后,計算損失并進行優化反向傳播。在BCQ算法的訓練階段,利用經驗重放緩沖區更新策略網絡。一旦訓練階段結束,策略網絡的參數θ就會被凍結,在真實環境中執行時不會再進行更新。系統會繼續觀察當前狀態,并根據凍結的策略網絡為當前狀態選擇最優行動。

2.4 邊緣計算模型

移動邊緣計算環境中的幾個主要的組成如下。

(1)移動設備:移動設備是指用戶攜帶的如智能手機、平板電腦等便攜式計算設備。這些設備能夠執行輕量級的本地計算任務,并與邊緣節點通信,在邊緣云架構中也可稱為邊緣設備。

(2)邊緣節點:邊緣節點是分布于網絡邊緣的計算設備,通常位于與用戶更近的地方。這些節點可以是邊緣服務器、基站、路由器等,具備一定的計算和存儲能力,用于處理移動設備產生的數據和執行一些邊緣計算任務。

(3)網絡連接:網絡連接是移動設備和邊緣節點之間,以及邊緣節點與中心云之間的通信網絡。

(4)中心云(可選):在一些場景下,移動邊緣計算環境可能與中心云進行連接。中心云通常具有更強大的計算和存儲能力,用于處理復雜的任務或存儲大規模的數據。邊緣計算和中心云可以協同工作,以提供更全面的計算服務。

MEC允許移動設備將計算任務卸載到附近的邊緣服務器或節點,從而減少延遲和能耗,同時確保數據隱私和安全。

3" "框架

本文中的邊緣計算環境包括一組集合:M=[M0,M1,...Mn]代表所有邊緣服務器,U=[U0,U1,...Um]代表一組邊緣移動設備。每個邊緣云系統中都有一個基站,每個用戶都可以通過邊緣基站進行計算任務的計算和卸載。此外,每個移動設備都能與移動基站交互,并能將任務卸載到邊緣基站。

3.1 邊緣計算MDP元組定義

(1)狀態:在這種環境下,每個時隙t∈T開始時,每個邊緣設備m∈M監控邊緣節點的狀態,包括任務大小信息、隊列相關數據以及負載水平的歷史記錄。具體來說,每個邊緣設備m維護一個狀態向量,表示為sm(t),其中包括:

(1)

式中,km(t)為時間段t∈T開始時到達隊列的新任務數;為將卸載到第m個邊緣服務器的計算任務;lm(t)為每個移動用戶的位置,由矩陣中的二維坐標(x,y)表示;H(t)為每個邊緣節點的歷史負載水平,大小為Tstep×N的矩陣,顯示不同時間步長下的活動隊列數量。

在基于BCQ算法的卸載策略中,歷史狀態、行動和獎勵都是從真實環境或之前的訓練中收集的。這些數據可訓練Q值網絡,以預測特定狀態下各種行動的Q值。

(2)動作:在邊緣計算卸載中應用離線強化學習。離線強化學習可以通過使用預先收集的數據來訓練一個策略,該策略能夠將狀態映射到動作,以實現期望獎勵的最大化。因此,在執行過程中,系統可以根據當前狀態直接利用訓練好的策略模型選擇動作,提高了任務處理效率。動作選擇的過程如下,操作選擇如圖3所示。

am(t)={xm(t),ym(t)} " " " " (2)

式中,xm(t)為任務是在本地執行還是卸載到邊緣節點;ym(t)為任務被卸載到哪個邊緣節點執行。

(3)獎勵:在這種情況下,任務被分為已完成任務或超時未處理任務。已完成的任務會得到獎勵,而未完成的任務則會受到懲罰。系統的目標是使累計總獎勵最大化。如果所有任務都在嚴格的延遲限制內完成,代理將獲得總獎勵R;否則,代理將因錯過最后期限而受到懲罰。

3.2 任務處理隊列模型

在本文中,我們考慮了一個擁有n個移動設備的異構環境,在這個環境中每個時隙都會有新任務到來。邊緣設備的計算任務可能有多個,因此我們使用先進先出(FIFO)的排隊規則對計算任務進行管理,即所有計算任務的處理按照放入隊列的順序進行處理。如圖4所示。對于一個邊緣用戶的移動設備,每個移動設備包含一個調度器和兩個隊列,即本地計算隊列和傳輸隊列。在邊緣設備收到新任務時,調度器負責將任務放入本地計算隊列或者傳輸隊列中,本地隊列中的任務在本地執行,而傳輸隊列中的任務則發送到邊緣節點。

4" "框架總結

如圖4所示,基于BCQ算法的邊緣計算卸載策略的一般流程如下。

(1)數據收集階段:在每次訓練迭代中,BCQ算法會采樣一小批經驗數據,這些經驗可以從環境探索中獲得,也可以由專家策略生成。收集到的數據集以常用的強化學習狀態轉移格式存儲在緩沖區中。

(2)BCQ政策網絡訓練:使用收集到的數據或專家策略對數據進行訓練。首先,將確定的狀態輸入到生成器網絡和擾動網絡,以生成多個候選動作。然后使用雙重Q網絡及其對應的目標網絡來計算狀態-動作對的Q值,并選擇Q值最大的動作作為最終動作。采用軟更新策略來更新目標網絡的參數。

(3)實際部署:一旦策略網絡完成訓練并找到一個優秀的策略,其參數將保持固定,不會隨著實際數據的迭代而改變,從而節省大量的計算時間和資源。

5" "實驗

考慮到邊緣計算環境是一個動態多變的環境,為了生成移動數據,選擇了提供移動設備GPS定位信息的CRAWDAD數據集。在實驗中,我們首先使用深度確定性策略梯度(DDPG)算法進行訓練并收集相應的數據。通過這種訓練,智能體可以從模擬的專家數據中學習,并有可能提高其性能,甚至超越專家行為。

6" "結束語

本文針對移動邊緣計算(MEC)系統中的任務卸載問題,結合BCQ算法設計了一種離線訓練的分布式卸載系統,實現了更高效、更快速的邊緣計算任務卸載。利用真實環境中收集的數據集對設計的算法進行評估,該方法成功地減少了MEC系統中的卸載延遲,顯著提高了任務響應時間。此外,通過在MEC任務卸載中利用訓練有素的策略網絡進行直接決策,可有效地減輕移動設備的計算負擔,為移動設備提供了更高效、更快速的邊緣計算任務卸載。減少了移動設備的計算負擔,可為移動用戶提供更好的用戶體驗。

參考文獻

[1] 張冀,龔雯雯,朵春紅,等.面向多智能體與雙層卸載的車聯網卸載算法[J].計算機工程,2024,50(8):182-197.

[2] 成靜靜,魏鴻斌,陳浩源.基于5G邊緣云技術賦能智慧醫療應用創新[J].數據通信,2023(1):14-16.

主站蜘蛛池模板: 国产精品毛片一区| 婷婷色一二三区波多野衣| 亚洲性网站| 久草视频中文| 91丨九色丨首页在线播放| 欧美日韩在线亚洲国产人| 国产免费精彩视频| 国产人免费人成免费视频| 在线亚洲天堂| 国产福利免费视频| 亚洲人成影院午夜网站| 中文字幕第1页在线播| 亚洲免费成人网| 国产swag在线观看| 91无码人妻精品一区| 国内精品视频区在线2021| 国产精品林美惠子在线观看| 91亚洲免费| 欧美中文字幕在线二区| 国产福利小视频在线播放观看| 亚洲综合香蕉| 26uuu国产精品视频| 成人欧美在线观看| 国产亚洲高清视频| 国产一级一级毛片永久| 尤物国产在线| 欧美日韩精品一区二区在线线| 久久91精品牛牛| av在线人妻熟妇| 男女性色大片免费网站| 国产青榴视频在线观看网站| 熟女日韩精品2区| 三级国产在线观看| 国产福利在线免费| 欧美狠狠干| 狠狠做深爱婷婷久久一区| 成人夜夜嗨| 在线国产综合一区二区三区| 久久久亚洲色| 午夜国产在线观看| 91青青视频| 免费无码AV片在线观看中文| 丰满人妻中出白浆| 无码精品福利一区二区三区| 亚洲色无码专线精品观看| 国产亚洲欧美另类一区二区| 国产白浆视频| 亚洲日本中文字幕乱码中文| 免费国产在线精品一区| 久久黄色毛片| 国产日韩欧美在线视频免费观看| 国产尤物jk自慰制服喷水| 少妇精品久久久一区二区三区| 四虎永久在线视频| 91色在线观看| 在线永久免费观看的毛片| 国产69精品久久久久孕妇大杂乱| 久久青草精品一区二区三区 | 青青青伊人色综合久久| 久久综合色视频| 亚洲视频在线青青| 熟妇无码人妻| 亚洲午夜久久久精品电影院| 日韩一级毛一欧美一国产| 国产无码高清视频不卡| 亚洲高清国产拍精品26u| 国产精品美乳| 婷婷在线网站| 91福利免费| 精品第一国产综合精品Aⅴ| 久久黄色小视频| 72种姿势欧美久久久久大黄蕉| 久久久91人妻无码精品蜜桃HD | 在线日韩日本国产亚洲| 五月天婷婷网亚洲综合在线| 九九香蕉视频| 最近最新中文字幕在线第一页| 亚洲国产日韩在线成人蜜芽| 中国一级特黄大片在线观看| 成年人午夜免费视频| 激情无码视频在线看| 欧美啪啪网|