蘇志凱,楊 健,馬鵬飛
(中國電子科技集團公司第五十四研究所,河北 石家莊 050081)
近年來,隨著網絡流量的不斷增加和移動終端設備的指數性增長,第五代通信網絡(5G)中的大量新型應用業務如虛擬現實、自動駕駛、智慧醫療以及智慧工廠等爆發性增長[1]。此類業務具有高吞吐量、高帶寬、低時延的業務需求特性,需要消耗大量的無線網絡資源,而現有的移動終端計算能力和電池能量受限,無法滿足新型業務如工業物聯網和電子醫療等時延敏感的業務需求,對5G無線網絡中的通信資源、計算資源以及存儲資源等提出嚴峻挑戰。
現有的新型業務可為計算密集型和時延敏感型兩類[2]。其中,計算密集型具有高帶寬和高吞吐量的特性,如虛擬現實;而時延敏感型具有低延時的特性,如自動駕駛。面向上述業務,具有強大計算能力的云計算可以將移動終端的計算任務傳輸到云端服務器進行計算,從而為資源受限的移動終端提供充足的計算資源。然而,由于移動終端距離云端服務器距離較遠,導致傳輸時延大,傳輸能耗高。多接入移動邊緣計算作為5G無線網絡的新型技術,將云端的服務能力下沉到網絡邊緣,智能移動終端可以卸載計算任務到位于網絡邊緣的服務器上,滿足低能耗和低延時的業務需求。
其中,計算卸載問題是移動邊緣計算的關鍵問題,根據用戶移動終端的電池容量和計算能力等情景信息,選擇合適的MEC服務器進行高效地任務卸載,從而保證網絡延時性能,減少能量消耗。文獻[2]考慮不同接入技術的約束特性,提出了基于非正交多址接入技術的MEC任務卸載策略。文獻[3]中考慮到不同的業務服務質量(Quality of Service,QoS)約束,基于博弈理論提出了一種可以保證強延時邊界的卸載策略。在文獻[4]中,考慮到用戶移動終端的資源受限,提出了基于馬爾科夫決策的時延最優卸載策略。文獻[5]基于斯塔克爾伯格博弈理論,提出了一種基于價格的分布式MEC任務卸載算法,從而使得用戶可以自主決策。文獻[6]中考慮到智能移動終端的電池容量特性和業務時延特性,提出了基于能量和時延約束下計算資源和通信資源的聯合優化卸載算法。此外,在文獻[7]中,考慮超密無線網絡場景,提出了一種高能效的MEC任務卸載算法,通過最優化卸載決策變量和功率帶寬分配,從而最小化能量開銷。
現有的MEC任務卸載研究中,假設MEC的計算能力和存儲能力已知,基于單一MEC服務器的研究場景,以時延最優或能量最優為目標,進行計算任務的卸載決策。然而,隨著5G網絡中基站部署的密集化,大量的MEC服務器將部署在距離用戶移動終端較近的基站或者接入點(Acess Point,AP)點上。例如,自主駕駛的車聯網場景中,大量的MEC服務器部署在路側智能設備(Road Side Unit,RSU)及基站上,為自主駕駛的時延敏感業務提供低延時、高可靠的計算服務需求。不同MEC服務器的計算能力和存儲能力各不相同,因此用戶側的移動終端需要根據業務特性和網絡環境等情景信息,自主決策選擇最優的MEC服務器接入策略,從而保證網絡延時的同時降低網絡能耗,實現高能效的MEC服務器任務卸載策略。
假設在5G無線網絡場景中包含U個用戶,M個基站,每個基站包含一個MEC服務器(為簡化描述,基站和MEC服務器統一用M表示)。假設系統總帶寬為B,系統帶寬中假定一共有K個子載波。在t時刻,假設用戶只能接入一個基站,且最多只有一個用戶可以接入子載波。因此:

用戶終端i與基站m在k資源塊上的信干噪比為:

用戶到基站的傳輸速率為:

MEC網絡架構模型如圖1所示。

圖1 MEC網絡架構模型
對于時延敏感業務,假設數據包的到達率符合到達速率為λds的泊松分布且數據包的固定長度為Lds,為保障時延敏感業務的QoS約束,因此基于有效帶寬理論,定義具有傳輸時延界的有效寬帶為:

式中,W(θv)為有效帶寬,θv為用戶終端的QoS指數,Z(t)表示在時間(0,t)時間內達到的數據包數目,E(·)表示數學期望。傳輸時延的違反概率為:

式中,Dv表示用戶到基站的時延,Dmax表示延時界,ζ表示違反概率的最大時延邊界,Lds表示數據包的固定長度。為了保障違反概率的時延邊界,系統的最小傳輸概率應該等于系統有效帶寬,即:


式中,bi表示用戶側任務的計算負載,可以通過離線測量獲得。
對于用戶的計算任務而言,任務數據處理的總時延開銷包含數據傳輸時間、數據等待時間以及MEC服務器計算時間,表示為:

在實際系統中,網絡的全局信息很難獲得,因此在本文中的優化問題P中,基于隨機賭博機模型,設計了基于學習驅動的自主卸載決策算法,用戶移動終端i根據自身的電池容量和計算任務時延需求自主選擇MEC服務器進行任務卸載[8]。在MAB模型中包含N個賭博臂和一個玩家進行多輪次的選擇,玩家每次選擇其中的一個賭博臂并收到對應獎勵回報,且玩家在選擇該臂之后只能獲取該臂獎勵值,每個賭博臂的獎勵值服務某種未知的特定分布且相互獨立。玩家通過探索與利用學習不同賭博臂的獎勵分布,經過J輪游戲后,玩家的優化目標為最大化獎勵回報的期望值。在學習過程中,玩家主要采用利用策略和探索策略兩種策略,其中利用策略每次選擇到目前為止已知獎勵值最高的賭博臂作為最優臂;探索策略中玩家嘗試探索其他未知的可能可以獲得更高獎勵值的賭博臂。因此,玩家需要在探索策略和利用策略進行合理地選擇利用從而獲取最大化獎勵值[9]。
本文提出了學習驅動的MEC-MAB自主決策卸載算法,用戶移動終端i作為玩家,MEC服務器m作為賭博臂。如果用戶i選擇接入MEC服務器m,則對應的獲得隨機獎勵值Qi,m。其中,各個MEC服務器的獎勵值服從均值π=[π1,π2,…,πm] 的特定分布且相互獨立。πm表示為MEC服務器m的真實獎勵值[10]。由于用戶不能一直選擇到最高真實值的服務器,因此定義后悔值Rj為經過j次選擇后,實際獲得的獎勵值與期望獲得的最大獎勵值間的差值為:


本文采用Thompson-Sampling算法,將MAB模型中的每個選擇MEC服務器的獎勵值概率看作一個Beta(α,β)分布,則選擇MEC服務器行為的獎勵值分布概率函數為:

其中,對Beta分布的參數更新規則為:

在本文的MEC-MAB算法中,隨著在MEC服務器選擇觀測結果的增加,Beta分布的置信區間就越來越窄,從而使得用戶選擇可以獲得最大獎勵值的最優MEC服務器。具體算法流程如下所示[11]。
初始化時,用戶移動終端觀測自己的電池狀態和計算任務的QoS等情景信息,并設定t=0和γ=0。當(t≤T)時,t時刻,用戶移動終端進行MEC服務器選擇行為的獎勵估值滿足W(m)~Beta(αm,βm)。用戶選擇獎勵值最大的MEC服務器arg maxmW(m)→MECt,網絡應用此次選擇接入行為并觀測相應的回報值rt,參數更新 (α1,β1)+(rt, 1-rt)→ (α1,β1)。
本文對上述基于學習驅動的MEC任務自主決策卸載策略進行了仿真驗證,假設用戶個數為10。其中用戶移動終端計算任務量服從泊松分布,路徑損耗指數為2。MEC服務器節點數(基站數)分別為3、5以及10時,仿真后悔值與迭代次數的變化關系如圖2所示。在不同的MEC服務器數目下,網絡后悔值都可以在短時間內收斂。隨著MEC服務器數目的增多算法收斂速度逐漸變慢,但是整體收斂較快,因此說明了本文所提出的MEC-MAB自主決策卸載策略具有良好的收斂性能。

圖2 后悔值與迭代次數的變化關系
本文對所提的MEC-MAB算法和經典的e-greedy貪婪算法進行性能對比。圖3描述了不同算法的后悔值隨著迭代次數的性能變化情況。從圖3中可以看出,概率e越小,表示純探索階段越短,在所有MEC接入動作中均等的進行選擇,從而出現選擇動作時出現獎勵值最差的情況。本文提出的MEC-MAB算法與貪婪算法相比較而言,可以獲得更小的后悔值,即獲得的累計獎勵值最大,從而性能更優[12]。

圖3 算法性能對比分析
為滿足5G網絡中新型應用服務高吞吐量、低延時以及高能效的性能需求。本文在沒有MEC服務器計算和存儲能力以及信道狀態等先驗信息的情景下,自主選擇最優的MEC服務器進行任務卸載,所提出的卸載策略可以在保證用戶延時的同時最小化能量消耗。最后,通過仿真驗證了本文所提算法的良好性能。