




摘要:移動邊緣計算(MEC)是一種新興的計算模式,旨在將計算和存儲資源部署在靠近用戶設(shè)備的網(wǎng)絡(luò)邊緣,以減少延遲和提高服務(wù)質(zhì)量,然而,MEC環(huán)境下的通信資源調(diào)度面臨著諸多挑戰(zhàn)。本文針對MEC環(huán)境下的通信資源調(diào)度問題,提出了一種基于深度強(qiáng)化學(xué)習(xí)的調(diào)度算法,該算法通過對網(wǎng)絡(luò)狀態(tài)進(jìn)行實(shí)時感知和學(xué)習(xí),自適應(yīng)地調(diào)整資源分配策略,以最大化系統(tǒng)的長期收益。仿真結(jié)果表明,與傳統(tǒng)的調(diào)度算法相比,所提算法能夠顯著提高系統(tǒng)的吞吐量和用戶體驗(yàn)質(zhì)量,同時降低時延和能耗。本文的研究成果對于優(yōu)化MEC環(huán)境下的通信資源管理具有一定的參考意義。
關(guān)鍵詞:移動邊緣計算;資源調(diào)度;深度強(qiáng)化學(xué)習(xí);吞吐量;時延
doi:10.3969/J.ISSN.1672-7274.2025.02.016
中圖分類號:TN 929.5" " " " " 文獻(xiàn)標(biāo)志碼:A" " " " " " 文章編碼:1672-7274(2025)02-00-03
Communication Resource Scheduling Algorithm in Mobile Edge Computing Environment
LI Yu1, WANG Xiang2
(1. Inner Mongolia Power Group Mengdian Information and Communication Industry Co., Ltd., Hohhot 010000, China; 2. Inner Mongolia Power (Group) Co., Ltd. Communication Branch, Hohhot 010000, China)
Abstract: Mobile edge computing (MEC) is a new computing model, which aims to deploy computing and storage resources near the network edge of user equipment to reduce latency and improve quality of service. However, communication resource scheduling in MEC environment faces many challenges. The article proposes a scheduling algorithm based on deep reinforcement learning for communication resource scheduling in MEC environment. This algorithm adaptively adjusts resource allocation strategies by perceiving and learning the network state in real-time, in order to maximize the long-term benefits of the system. The simulation results show that compared with traditional scheduling algorithms, the proposed algorithm can significantly improve the system's throughput and user experience quality, while reducing latency and energy consumption. The research results of the article have important guiding significance for optimizing communication resource management in MEC environment.
Keywords: mobile edge computing; resource scheduling; deep reinforcement learning; throughput; time delay
隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的迅猛發(fā)展,移動設(shè)備數(shù)量呈爆炸式增長,產(chǎn)生了海量的數(shù)據(jù)和計算需求。為了應(yīng)對這一挑戰(zhàn),移動邊緣計算(MEC)應(yīng)運(yùn)而生。然而,MEC環(huán)境下的通信資源調(diào)度面臨著諸多挑戰(zhàn),如用戶移動性導(dǎo)致的網(wǎng)絡(luò)拓?fù)鋭討B(tài)變化、資源異構(gòu)性引起的調(diào)度復(fù)雜度增加以及服務(wù)質(zhì)量保障等。因此,如何在MEC環(huán)境下實(shí)現(xiàn)高效的通信資源調(diào)度已成為亟待解決的關(guān)鍵問題。
1" "系統(tǒng)模型與問題描述
1.1 系統(tǒng)模型
本文考慮一個典型的MEC系統(tǒng),由一個中心云服務(wù)器、多個邊緣服務(wù)器和大量用戶設(shè)備組成。用戶設(shè)備通過無線接入網(wǎng)絡(luò)與邊緣服務(wù)器連接,邊緣服務(wù)器之間通過有線或無線鏈路相互連接,并與中心云服務(wù)器通信[1]。邊緣服務(wù)器配備了計算、存儲和網(wǎng)絡(luò)資源,用于處理用戶設(shè)備卸載任務(wù)和提供本地服務(wù)。用戶設(shè)備具有計算和通信能力,可以在本地執(zhí)行任務(wù)或?qū)⑷蝿?wù)卸載到邊緣服務(wù)器處理。
在圖1中,中心云服務(wù)器與多個邊緣服務(wù)器相連,邊緣服務(wù)器之間也可以相互連接(圖1未顯示)。每個邊緣服務(wù)器下連接了多個用戶設(shè)備,用戶設(shè)備可以與邊緣服務(wù)器進(jìn)行通信和任務(wù)卸載。
1.2 問題描述
在所描述的MEC系統(tǒng)模型下,本文主要研究如何設(shè)計高效的通信資源調(diào)度算法,以優(yōu)化系統(tǒng)性能和用戶體驗(yàn)。具體而言,我們考慮以下幾個關(guān)鍵問題。
①如何根據(jù)用戶設(shè)備的計算能力、任務(wù)特征和網(wǎng)絡(luò)狀況,動態(tài)決策任務(wù)在本地執(zhí)行還是卸載到邊緣服務(wù)器處理。
②如何在邊緣服務(wù)器之間進(jìn)行負(fù)載均衡,避免個別服務(wù)器過載而其他服務(wù)器利用率低的情況。
③如何在資源異構(gòu)和用戶需求動態(tài)變化的情況下,實(shí)現(xiàn)最優(yōu)的資源分配和任務(wù)調(diào)度。這些問題共同構(gòu)成了MEC環(huán)境下通信資源調(diào)度的核心挑戰(zhàn)。
2" "基于深度強(qiáng)化學(xué)習(xí)的資源調(diào)度算法
2.1 算法設(shè)計原理
為了應(yīng)對MEC環(huán)境下通信資源調(diào)度面臨的挑戰(zhàn),本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的調(diào)度算法。該算法的設(shè)計原理如下:首先,將資源調(diào)度問題建模為一個馬爾可夫決策過程(MDP),其中狀態(tài)表示系統(tǒng)當(dāng)前的網(wǎng)絡(luò)狀況和資源利用情況,動作表示對不同用戶設(shè)備的任務(wù)卸載和資源分配決策,獎勵函數(shù)反映了系統(tǒng)的性能指標(biāo),如吞吐量、時延和能耗等。然后,利用深度神經(jīng)網(wǎng)絡(luò)來近似表示狀態(tài)-動作值函數(shù),通過不斷與環(huán)境交互并優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù),使得智能體(即調(diào)度器)能夠?qū)W習(xí)到最優(yōu)的調(diào)度策略[2]。
2.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
在本文提出的基于深度強(qiáng)化學(xué)習(xí)的資源調(diào)度算法中,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計是實(shí)現(xiàn)智能調(diào)度策略的關(guān)鍵。我們采用了一種基于深度Q網(wǎng)絡(luò)(DQN)的結(jié)構(gòu),由一個輸入層、多個卷積層、全連接層和一個輸出層組成。輸入層接收狀態(tài)空間中的狀態(tài)向量,經(jīng)過卷積層提取特征并降維,再通過全連接層映射到動作空間中的Q值。輸出層輸出每個可能動作的Q值,表示在當(dāng)前狀態(tài)下采取該動作的長期累積獎勵期望。通過不斷與環(huán)境交互并更新神經(jīng)網(wǎng)絡(luò)參數(shù),使其逼近最優(yōu)的Q函數(shù),從而得到最優(yōu)的調(diào)度策略。同時,為了提高訓(xùn)練效率和穩(wěn)定性,我們還引入了經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)等技術(shù)。
在圖2中,輸入層接收狀態(tài)向量,經(jīng)過兩個卷積層提取特征并降維,然后通過兩個全連接層映射到Q值空間,最后由輸出層輸出每個動作的Q值[3]。通過合理設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合其他深度強(qiáng)化學(xué)習(xí)技術(shù),本文提出的算法能夠有效學(xué)習(xí)到最優(yōu)的資源調(diào)度策略,提升MEC系統(tǒng)的性能。
2.3 算法訓(xùn)練與測試
本文提出的基于深度強(qiáng)化學(xué)習(xí)的資源調(diào)度算法需要通過訓(xùn)練和測試來優(yōu)化模型性能。在訓(xùn)練階段,構(gòu)建了一個MEC環(huán)境模擬器,用于生成訓(xùn)練數(shù)據(jù)和評估算法性能。模擬器根據(jù)系統(tǒng)模型和實(shí)際場景設(shè)置參數(shù),如用戶數(shù)量、任務(wù)到達(dá)率、服務(wù)器配置等。智能體與模擬器交互,根據(jù)當(dāng)前狀態(tài)采取動作,并觀察下一狀態(tài)和獎勵,生成訓(xùn)練樣本。使用經(jīng)驗(yàn)回放機(jī)制來存儲和重用樣本,提高數(shù)據(jù)利用效率。在每個訓(xùn)練步驟中,從經(jīng)驗(yàn)回放池中隨機(jī)抽取一批樣本,計算損失函數(shù)并更新神經(jīng)網(wǎng)絡(luò)參數(shù)。同時,定期將當(dāng)前網(wǎng)絡(luò)參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò),以提高訓(xùn)練穩(wěn)定性。在測試階段,使用訓(xùn)練好的模型在不同的測試場景下進(jìn)行評估,包括用戶數(shù)量、任務(wù)類型、網(wǎng)絡(luò)條件等的變化。通過比較關(guān)鍵性能指標(biāo),如平均任務(wù)完成時間、系統(tǒng)吞吐量、資源利用率等,來驗(yàn)證算法的有效性和魯棒性。
3" "仿真結(jié)果與性能評估
3.1 仿真參數(shù)設(shè)置
為了評估本文提出的基于深度強(qiáng)化學(xué)習(xí)的資源調(diào)度算法的性能,我們使用Python和TensorFlow搭建了一個MEC環(huán)境模擬器。模擬器中的主要參數(shù)設(shè)置如表1所示。考慮了一個包含1個中心云服務(wù)器、3個邊緣服務(wù)器和20~100個用戶設(shè)備的MEC系統(tǒng)。每個邊緣服務(wù)器的計算能力、存儲容量和網(wǎng)絡(luò)帶寬根據(jù)實(shí)際場景進(jìn)行設(shè)置。用戶設(shè)備的計算能力和任務(wù)特征根據(jù)均勻分布隨機(jī)生成。任務(wù)到達(dá)率服從泊松分布,任務(wù)計算量和數(shù)據(jù)量服從均勻分布[4]。算法的訓(xùn)練和測試在一臺配備IntelCore i7處理器和NVIDIA GeForce RTX 2080 Ti顯卡的工作站上進(jìn)行。
3.2 算法性能評估
為了全面評估本文提出的基于深度強(qiáng)化學(xué)習(xí)的資源調(diào)度算法的性能,我們從吞吐量、時延和能耗三個方面進(jìn)行了測試。在不同的用戶設(shè)備數(shù)量、任務(wù)到達(dá)率和任務(wù)計算量等場景下,分別進(jìn)行了10次仿真實(shí)驗(yàn),每次實(shí)驗(yàn)持續(xù)1 000個時間步,并記錄了關(guān)鍵性能指標(biāo)的平均值和標(biāo)準(zhǔn)差。表2展示了在不同用戶設(shè)備數(shù)量下,算法的性能表現(xiàn)。可以看出,隨著用戶設(shè)備數(shù)量的增加,系統(tǒng)吞吐量呈上升趨勢,但增速逐漸放緩;平均任務(wù)時延和邊緣服務(wù)器能耗也隨之上升,但均控制在可接受的范圍內(nèi)。這表明,本文提出的算法能夠在不同規(guī)模的MEC系統(tǒng)中可保持穩(wěn)定的性能,有效平衡了吞吐量、時延和能耗之間的關(guān)系。
3.3 與其他算法的性能對比
為了進(jìn)一步驗(yàn)證本文提出的基于深度強(qiáng)化學(xué)習(xí)的資源調(diào)度算法的優(yōu)越性,我們將其與其他三種經(jīng)典算法進(jìn)行了性能對比,包括貪心算法、啟發(fā)式算法和基于隊列理論的算法[5]。在相同的仿真場景下,對四種算法分別運(yùn)行10次實(shí)驗(yàn),每次實(shí)驗(yàn)持續(xù)1 000個時間步,并記錄了關(guān)鍵性能指標(biāo)的平均值。表3展示了不同算法在系統(tǒng)吞吐量、平均任務(wù)時延和邊緣服務(wù)器能耗方面的性能對比。可以看出,本文提出的算法在三個指標(biāo)上都取得了最優(yōu)的性能表現(xiàn),相比其他算法,系統(tǒng)吞吐量提高了10.2%~25.6%,平均任務(wù)時延降低了8.3%~20.5%,邊緣服務(wù)器能耗降低了6.7%~18.4%。這些結(jié)果表明,深度強(qiáng)化學(xué)習(xí)算法能夠更好地適應(yīng)MEC環(huán)境的動態(tài)變化,學(xué)習(xí)到更優(yōu)的資源調(diào)度策略,從而在保證用戶體驗(yàn)的同時,提高了系統(tǒng)的整體效率和性能。
4" "結(jié)束語
本文針對移動邊緣計算環(huán)境下的通信資源調(diào)度問題,提出了一種基于深度強(qiáng)化學(xué)習(xí)的調(diào)度算法。該算法通過對網(wǎng)絡(luò)狀態(tài)進(jìn)行實(shí)時感知和學(xué)習(xí),自適應(yīng)地調(diào)整資源分配策略,以最大化系統(tǒng)的長期收益。仿真結(jié)果表明,所提算法能夠顯著提高系統(tǒng)的吞吐量和用戶體驗(yàn)質(zhì)量,同時降低時延和能耗。未來,我們將進(jìn)一步優(yōu)化算法性能,并考慮將其拓展至多層次、多場景的MEC環(huán)境中。此外,探索將區(qū)塊鏈、聯(lián)邦學(xué)習(xí)等新興技術(shù)與MEC相結(jié)合,以實(shí)現(xiàn)安全、隱私保護(hù)和高效的資源調(diào)度也是一個值得研究的方向。
參考文獻(xiàn)
[1] 吳昆澄.區(qū)塊鏈技術(shù)在移動邊緣計算資源分配場景中的應(yīng)用研究[D].杭州:杭州電子科技大學(xué),2023.
[2] 李沁穎,李佳儀,饒軼群.融合移動邊緣計算的5G智能網(wǎng)聯(lián)汽車資源調(diào)度策略研究[J].信息技術(shù)與信息化,2023(10):119-122.
[3] 呂奇.移動邊緣計算細(xì)粒度資源調(diào)度和任務(wù)卸載[D].南京:南京郵電大學(xué),2023.
[4]史可.基于深度強(qiáng)化學(xué)習(xí)的移動邊緣計算網(wǎng)絡(luò)資源分配算法研究[D].大連:大連海事大學(xué),2023.
[5]廖康康.面向移動邊緣計算的任務(wù)調(diào)度和資源分配策略研究[D].銀川:寧夏大學(xué),2023.
作者簡介:李" 煜(1990-),男,滿族,內(nèi)蒙古烏蘭察布人,工程師,碩士研究生,研究方向?yàn)殡娮优c通信工程。
王" 翔(1993-),女,蒙古族,內(nèi)蒙古阿拉善盟人,工程師,碩士,研究方向?yàn)橐苿油ㄐ拧?/p>