多基站下基于DRL的RAN切片資源分配

2022-12-31 00:00:00馬英洪江凌云

計算機應用研究 2022年9期

收稿日期：2021-12-31；修回日期：2022-03-10" 基金項目：江蘇省重點研發計劃資助項目（BE2020084-4）；國家電網有限公司科研資助項目（DSY2021-005）

作者簡介：馬英洪（1997-），男，吉林松原人，碩士，主要研究方向為5G網絡和切片資源分配；江凌云（1971-），女（通信作者），安徽安慶人，副教授，碩導，碩士，主要研究方向為下一代網絡（jiangly@njupt.edu.cn）．

摘要：在第五代移動通信中，網絡切片被用來為各種業務提供一個最佳的網絡。針對多基站下的RAN切片場景，以往的資源分配方法在切片的數量發生變化時無法滿足切片的需求而且只適用于特定的場景，針對這個問題，提出了一種實現最佳資源分配且與切片數無關的方法。該方法先利用Ape-X方法（一種DRL方法）將資源分配給切片，再經過切片到基站的資源映射和用戶資源分配來滿足用戶的需求。仿真結果表明，所提出的方法能夠根據切片的狀態和需求分配資源，分配了必要數量的RB以滿足切片的需求而且不受切片數量變化的影響，同時該方法也具有很高的通用性能和擴展性。

關鍵詞：多基站；網絡切片；深度強化學習；無線接入網；資源分配

中圖分類號：TN929.5"" 文獻標志碼：A

文章編號：1001-3695（2022）09-036-2791-08

doi：10.19734/j.issn.1001-3695.2021.12.0706

RAN slice resource allocation based on DRL in multi base stations

Ma Yinghong，Jiang Lingyun

（School of Communications amp; Information Engineering，Nanjing University of Posts amp; Telecommunication，Nanjing 210003，China）

Abstract：In the 5th generation mobile communication，network slicing is used to provide an optimal network for various ser-vices.For the RAN slice scenario under multi base stations，the previous resource allocation methods couldn’t meet the demand of slices when the number of slices changed，and were only suitable for specific scenarios.To solve this problem，this paper proposed a method to achieve the best resource allocation independent of the number of slices.This method first used Ape-X me-thod（a DRL method） allocate resources to slices，and then met the needs of users through the resource mapping from slices to base stations and user resource allocation.The simulation results show that the proposed method can allocate resources accor-ding to the state and demand of slices，allocate the necessary number of RBs to meet the demand of slices，and is not affected by the change of the number of slices.At the same time，this method also has high general performance and scalability.

Key words：multi base station；network slice；deep reinforcement learning；radio access network；resource allocation

0 引言

第五代移動通信（5G）網絡作為解決日益增長的移動數據通信需求的解決方案引起了人們的關注。5G改善了第四代移動通信（4G）網絡中未得到適當解決的一些領域，如更高的數據速率、更低的端到端（end to end，E2E）延遲、更高的可靠性和大量的設備連接［1］。此外，5G中的服務類型也越來越多樣化，例如需要高數據速率和低延遲的虛擬現實（virtual reality，VR），以及需要大量設備連接和低延遲的工廠自動化［2］。傳統的通信網絡主要用來服務單一的移動寬帶業務，無法適應未來5G多樣化的業務場景。為了在同一個物理網絡基礎設施上同時支持多種具有不同性能要求的業務場景，滿足多樣化的業務需求，網絡切片（network slice）技術應運而生。5G使用網絡切片技術，以切片為單位提供適合各種服務的網絡［3］。切片設置了吞吐量、延遲和可靠性等要求。為了滿足這些需求，網絡資源被分配到切片上。網絡切片通常包括接入網切片（包括無線接入和固定接入）和核心網切片［4］。其中，無線接入網（radio access network，RAN）必須要面對資源短缺的問題，而且在實際分配無線資源時，切片的狀態會不斷變化，比如切片中的用戶數量、業務的到達率以及用戶的分布等。因此，需要一種能夠根據切片狀態有效地分配無線資源同時能夠滿足切片要求的方法［5，6］。

文獻［7］通過從沒有需求的切片中分配資源來滿足切片的需求，但沒有評估資源分配的利用率存在向切片分配過多資源的可能性；文獻［8］提出了一種考慮切片需求和資源利用率的方法，但無法對每個切片實現資源隔離，會受到其他切片的負載的影響；文獻［9］采用了一種最早截止時間優先（earliest deadline first，EDF）調度策略用于無線資源分配，可以使得在高負載下滿足切片對于時延的要求，但是會嚴重影響對于吞吐量有需求的切片的性能；文獻［10］提出了一種在C-RAN場景下基于在線學習的網絡切片虛擬資源分配算法，以最大化平均網絡切片和速率為目標，同時考慮到了平均網絡切片約束以及網絡平均回傳鏈路帶寬消耗約束，但是沒有考慮到切片的資源利用率；文獻［11］利用了深度強化學習，同時考慮到了切片的滿意度和資源利用率，而且實現了切片間的資源隔離，但是僅評估了特定的場景，5G中假設了各種服務場景，該方法可能并不適用；文獻［12］提出了一種基于在線雙向拍賣的網絡切片資源調度機制，能夠在為高優先級切片服務的同時可以保證低優先級切片用戶的QoS需求，但是沒有考慮到切片間的資源隔離問題。

以上文獻研究的都是在單基站下的無線資源分配方法，在多基站環境下的分配情況會不同。文獻［13］研究了RAN中混合業務的動態網絡切片策略，考慮到了用戶對時延和速率的QoS需求，但是對切片數量的設置不夠靈活；文獻［14］考慮到了基站的回傳容量，對不同切片的用戶時延和數據速率的需求也滿足得很好，但是在低負載的情況下資源的利用率不高；文獻［15］設計并實現了一個兩層網絡虛擬化基板（network virtua-lization substrate，NVS）算法，基于切片的優先級和可實現速率實現切片的資源調度，在這種方法中切片在各個基站上均勻分配資源，可能會導致在有的基站上分配資源過多，在有的基站上分配過少，從而導致用戶的滿意度和資源利用率不夠好。

針對上述文獻中的問題，本文提出了一種在多基站環境下使用DRL分配滿足切片要求的無線資源的方法，即使切片的數量發生變化，所提出的方法也能為各個切片分配資源以滿足用戶的QoS需求。

1 系統模型

1.1 網絡模型

本文考慮5G基站k（k∈K），K是一個基站集；基站為切片s提供服務，s∈S，S是切片集。為了滿足用戶的服務質量（quality of service，QoS）需求，必須在切片之間分配無線資源。在5G系統中，無線資源用資源塊（resource block，RB）來表示。RB是基于時域和頻域劃分的資源單位，一個RB由12個子載波組成，每個子載波的間隔為15 kHz。時域以傳輸時間間隔（transmission time interval，TTI）為單位，TTI的長度為1 ms。TTI是調度RB的最小單位，在每個TTI將RB分配給用戶。

基站k將RB分配給用戶以滿足用戶的需求，用戶u在一個RB上的可實現速率計算為rk，u=Blog2（1+pkgk，uN0B）。其中，B表示一個RB的帶寬，即15 kHz×12=180 kHz；pk表示基站k的發射功率，gk，u表示用戶u在基站k一個RB上的信道增益；N0 表示噪聲功率譜密度。用戶u在不同基站上的RB的可實現速率不同，因此，用戶按照不同基站上RB的可實現速率由大到小設立等級，用戶u對基站k的等級記為δu，k，可表示基站k對用戶u的重要性。

不同切片的用戶的QoS需求不同，本文將需求分為吞吐量需求和時延需求兩種。對于需要高吞吐量的用戶在每個TTI為其分配RB；對于有時延需求的用戶在數據包到達時分配RB。假設用戶u對吞吐量的需求為Ru，也就是對數據速率的需求，用戶u對時延的需求為Tu，用戶u的數據包大小為pu，因此用戶u對數據速率的需求Ru=Pu/Tu。由于TTI是最小的時間調度單位，用戶u的數據速率需求Ru需要轉換成1 ms上的速率需求。此外，本文將切片的需求設為用戶的QoS需求，同一切片內的用戶的QoS需求相同。

本文定義了兩個指標，即網絡切片需求滿意度（network slice demand satisfaction，NSDS）和RB利用率（RB usage ratio，RBUR）。第一個指標用來衡量網絡是否滿足了該業務的需求，表示為NSDS=∑|ks|k=1uk|ks|。其中，ks表示切片s中的用戶數量；uk表示用戶是否滿足了切片需求。

uk=1滿足切片需求

0未滿足切片需求（1）

NSDS越接近1，就說明切片中用戶的QoS需求滿足得越好，就可以為服務提供更合適的切片。RBUR是一個用來衡量資源利用率的指標，表示為RBUR=URBARB。其中，URB表示消耗的RB數量，ARB表示分配給切片的RB數量。RBUR越接近1，RB的利用率就越高，資源利用率就越高。

當NSDS很低而RBUR很高時，分配給切片的RB都被消耗掉，切片中有的用戶沒有滿足切片的需求，因此，給切片分配更多的RB可以改善NSDS。通過最大化NSDS和RBUR可以實現以最少的RB數量滿足切片的需求。

1.2 問題模型

RB分配問題可以分成兩步，即切片間資源分配和切片內資源分配。切片間資源分配問題包括分配RB給切片和切片到基站的資源映射。切片間資源分配問題建模如下：

max∑Si=1NSDSi×RBURi s.t. ∑Si=1ARBi≤AllRB

∑Si=1Rs，k≤Lk，k∈K（2）

目標是最大化切片的資源利用率RBUR和切片滿意度NSDS的乘積，以最小的RB分配滿足切片需求。式（2）中第一個約束表示所有切片所分配的RB數量不能超過基站所擁有的RB總數；第二個約束表示在每個基站下，所有切片獲得的RB的總數量不能超過該基站所擁有的RB數量。

在確定了切片在每個基站上的資源分布后，網絡切片控制器執行切片內資源分配。切片中的用戶優先接入RB等級最高的基站，這樣可以最大化滿足用戶的QoS需求。在基站k下，設定分配給切片s的RB集為Ms，k，切片內資源分配問題建模如下：

maxA{Us，k}，s∈S s.t.∑n∈Ms，k∑u∈Us，ka（u，n）≤Rs，k∑u∈Us，ka（u，n）≤1，n=1，…，Rs，k（3）

其中：A是分配矩陣，如果將第n個RB分配給第u個用戶，則元素a（u，n）為1，否則為0；Us，k表示第s個切片在第k個基站上的效用。本文考慮α-utility［16］，如式（4）所示。

Us，k=∑u∈Us，k（∑n∈Ms，ka（u，n）ru，n）1-α1-αα≠1

log（∑n∈Ms，ka（u，n）ru，n）α=1（4）

本文選擇α=1，即比例公平方式。在式（3）中，第一個約束表示在基站k下，每個切片內的用戶分配的RB的總數不能超過該切片可用的資源；第三個約束確保一個RB只能分配給一個用戶。

2 算法設計

2.1 方法概述

在RAN切片中，需要一種以最小RB分配滿足切片需求的方法，該方法與切片數量無關，因此本文提出了一種利用Ape-X［17］的靈活RB分配方法。由于使用了 Ape-X，learner學習的模型包括基于每個actor收集的各種經驗，當切片數量變化時無須重新訓練模型即可進行RB分配。在現有方法中，agent控制的切片數量是固定的，如果訓練和評估之間的切片數量不同，則需要重新訓練模型。在所提出的方法中，一個agent將RB分配給一個切片，當有多個切片時，agent會被多次調用，這種設計實現了與切片數量無關的 RB分配。在每次RB分配后，網絡切片控制器會更新切片在每個基站上的資源配置，以便BS可以在每個調度時期適應系統狀態。此外，代理學習以最少所需的 RB數量分配來滿足切片的需求，從而最大化滿足需求的切片數量，同時提高 RB 的利用效率。本文為每種服務類型定義一個切片，當切片中的用戶數變為1或更多時生成切片，在用戶數變為0時終止切片。所提出的算法的流程如圖1所示。

2.2 利用Ape-X的RB分配

所提出的方法采用Ape-X方法，將分布式學習應用于DRL。其中，一個actor控制一個切片，當切片的數量發生變化時actor的數量也隨之變化，切片的數量沒有限制，分配RB不依賴于切片的數量，所提出的方法可以靈活設置切片數量和分配RB；learner學習一種策略，該策略以最少的RB數量滿足切片的需求。分配方法的架構如圖2所示。由于切片數量沒有限制，所以有1～N個切片，每個切片包含多個用戶。除了管理切片之外，網絡切片控制器還橋接了基站和actor；actor是Ape-X代理，與切片的數量相同。由于actor使用了learner訓練的策略，所有actor都具有相同的控制策略。在每個資源調度時期執行RB的分配操作，基站收集每個切片的狀態信息，包括切片中的用戶是否滿足了QoS需求以及切片的資源利用率等信息；隨后，基站將切片狀態通知給網絡切片控制器，網絡切片控制器根據切片狀態生成狀態和獎勵，并將其傳遞給切片對應的actor；actor根據策略生成動作，將動作輸出到網絡切片控制器。當網絡切片控制器接收到每個切片的動作時，它會計算分配給它們的 RB數量。在學習過程中，獎勵、狀態和動作作為經驗傳遞給回放記憶（replay memory），在切片級資源更新后，資源需要映射到所有基站上。在進行基站級資源更新后，網絡切片控制器通知各基站每個切片在其上的資源分布，各個基站為每個切片中的用戶分配RB，以滿足用戶的吞吐量和時延需求。

本文利用深度強化學習解決切片間資源分配問題，作出最優決策，下面詳細介紹強化學習架構中各個要素的內容。狀態是代理確定動作的重要因素，如果狀態被設計為盡可能地消除不確定元素，則學習結果會更好?；谶@一點，本文將學習RB分配時的狀態分為表1中的三種類型，這三種類型分別是NSDS相關、RBUR相關和切片狀態。NSDS相關對于代理識別切片的需求很重要；RBUR相關幫助代理識別切片的RB分配情況；第三個是為了解決狀態的模糊性。

動作是代理對環境執行的控制，所提出的方法為每個切片分配RB。由actor輸出的動作記為a，a可以為負、0或正，a為負表示分配給切片的RB數量減少，a為0表示分配給切片的RB數量不變，a為正表示分配給切片的RB數量增加。動作a的取值為［-0.8，-0.6，-0.4，-0.2，0，0.2，0.4，0.6，0.8］，動作a為九個維度。在t+1時刻，分配給切片的RB數量可以計算為 ARBt+1=ARBt×（1+a），計算出的ARB不考慮分配給其他切片的 RB。然而，由于基站具有有限數量的RB，分配給切片的RB總數可能會超過基站的所有RB，所以網絡切片控制器根據算法1調整分配給每個切片的RB數量。對每個切片計算時間t處分配的RB數和NSDS的乘積，按照從小到大的順序進行排列并按照這個次序為切片分配資源。這使得需要較少RB的切片或具有較小NSDS的切片在時間t+1時優先分配，這樣可以避免需要更多RB的切片占用多余的資源，提高了資源利用率；另一方面可以改善切片的NSDS。

輸入：CRBst+1是在t+1時刻計算出的分配給切片s的RB數，ARBst是在t時刻分配給切片s的RB數，NSRSs是切片s的網絡切片需求滿意度，S是切片集，AllRB是所有基站所擁有的全部資源。

輸出：ARBst+1是在t+1時刻分配給切片s的RB數。

開始

for s∈S

W［s］ =ARBst×NSRSs

end for

remainRB=AllRB

for s∈S#按照W的升序提取s

if CRBst+1lt;remainRB

ARBst+1=CRBst+1；

remainRB=remainRB-ARBst+1

else

ARBst+1=remainRB

remainRB=0

end if

end for

結束

獎勵向代理表明一個動作對于一個狀態是好是壞。在所提出的算法中，目標是以最少的RB分配滿足切片的需求，最大化NSDS和RBUR是學習的目標。獎勵r被設計為

r=1ARB=0，Buff=0

0ARB=0，Buffgt;0

0ARBgt;0，Buff=0

NSRS×RBURARBgt;0，Buffgt;0（5）

其中：ARB是分配給切片的RB數量；Buff是存儲在緩沖區中的數據包的數量。當緩沖區為空時，不需要分配RB，因此如果ARB為0，則r為1；ARB不為0，r為0。當緩沖區有數據包而ARB為0，即切片有需求但沒有被分配RB，r為0。當數據包存儲在緩沖區中并且ARB不為0時，NSDS和RBUR會隨著分配的ARB而變化。因此，r是根據NSDS和RBUR計算得出的。

DQN的框架如圖3所示，其中包含兩個神經網絡，Q（s，a；θ）代表預測Q網絡，θ表示預測神經網絡的參數，用于評估當前狀態—動作對的價值；Q（s，a；θ*）代表目標Q網絡，用于計算目標值，θ*表示目標神經網絡的參數。損失函數L（θ）=E［（yt-Q（st，at；θ））2］，yt=rt+1+γmaxa∈AQ（st+1，a；θ*）。yt是目標值，yt-Q（s，a；θ）即為TD（temporal difference）誤差δt。利用損失函數計算梯度，計算表達式為

L（θ）θ=E［（yt-Q（st，at；θ））2］θ（6）

本文使用RMSProp優化算法更新網絡參數，每經過M步迭代，復制預測網絡的參數θ給目標網絡參數θ*。

Ape-X使用DDQN［18］，利用預測網絡選擇動作，目標網絡計算Q值，降低了高估。此外，Ape-X還使用多步引導目標（multistep bootstrap target）［19］，即考慮多步的獎勵，使學習的效果更好。因此，目標值yt變為

yt=rt+1+γrt+2+…+γn-1rt+n+γnQ（st+n，arg maxQ（st+n，a；θ）；θ*a∈A）（7）

由于采用了決斗網絡［20］，Q（st，at；θ）被劃分為狀態價值函數V（st；θ）和優勢函數Adv（st，at；θ）。狀態價值函數僅與狀態st有關，與動作at無關；優勢函數同時與狀態st和動作at都有關。Q值表示如下：

Q（st，at；θ）=V（st；θ）+（Adv（st，at；θ）-1|A|∑a∈AAdv（st，a；θ））（8）

其中：A表示動作集；|A|是動作集的維度；actor與環境交互產生經驗（s，a，r，s′）。本文采用ε-greedy策略，actor以ε的概率選擇動作值最高的動作，以概率1-ε選擇隨機動作。actor根據其網絡參數計算經驗的TD誤差，根據TD誤差設置經驗的優先級pk，pk=|δk|，k是經驗的編號。經驗（s，a，r，s′，pk）被存入經驗回放中，預測網絡和目標網絡使用優先級采樣代替隨機采樣，從經驗回放中提取經驗。經驗的采樣概率為pk∑kpk，每次抽取batch個樣本。在更新網絡參數后，計算batch個樣本的TD誤差和優先級，然后更新經驗回放中這些樣本的優先級。隨著學習的進行，動作值被更新，舊經驗的準確性降低，存儲在經驗回放中的舊經驗的優先級被更新為低。當經驗回放被裝滿時，刪除舊經驗。每隔N步，actor從預測網絡處復制經過訓練的參數，以將其參數更新為最新版本。這樣，通過優先學習具有較大TD誤差的經驗，同時執行分布式學習來加速學習，從而提高了學習效率。

圖4顯示了所提出方法的神經網絡結構。該網絡結構有一個輸入層、幾個隱藏層和一個輸出層。因為狀態維度被設計為輸入維度，所以輸入層是8維的；輸出層的維度為9維，與動作維度相同；隱藏層有128個神經元，第4個隱藏層分支到狀態值和優勢函數。使用這些規格進行了2×106步訓練。訓練大約需要2天。

2.3 切片到基站的資源映射

2.3.1 基站資源更新

在切片資源更新后，資源必須映射到所有基站上，算法2描述了基站資源更新過程?；举Y源更新依賴于基站對特定切片的權重。切片中的用戶在不同基站上的RB等級δu，k不同，可以得到切片s在基站k上的等級s，k=∑|Us|u=1δu，k，u∈Us。因此，切片s在基站k上的權重可以表示為r_rats，k=s，k∑Kk=1s，k，權重r_rats，k表示了基站k對切片s的重要性。在每個調度時間，這些權重都會更新，以更新基站資源。切片s在基站k上占有的資源計算為Rs，k=ARBs×r_rats，k。計算出的Rs，k沒有考慮到每個基站的容量限制，所有切片在基站k上分配的RB總數可能會超出基站k的容量。因此，需要調整切片在每個基站上所分配的資源，遍歷所有基站，將分配資源量超出基站容量的基站添加進待重新分配隊列Q_BS。

對于屬于Q_BS隊列的基站k，先確定屬于該基站k的用戶。根據用戶的RB等級得到切片s在基站k上的用戶集合 Us，k，k=max{δu，k（k）}，用戶u優先選擇RB等級最高的基站接入。切片s在基站k上的速率需求為Ws，k=∑|Us，k|u=1Ru，Ru表示用戶u的需求速率。因此，切片s在基站k上的權重可以計算為ωs，k=s，k×Ws，k∑|S|s=1s，k×Ws，k。由此得到在基站k上分配給切片s的RB數為Rs，k=Lk×ωs，k，Lk為基站k所擁有的RB總數。

在對基站的資源進行重新分配后，有的切片分配的資源總數可能會低于ARB，需要將基站剩余的資源分配給切片。首先檢查每個基站的剩余資源量以及分配資源不夠的切片；將還有剩余資源的基站隊列設為Q_reBS，分配RB數不夠的切片隊列設為Q_slice。遍歷基站隊列Q_reBS，比較切片隊列Q_slice中的所有切片在該基站上的權重ωs，k，按照權重由大到小的次序將基站的剩余RB資源分配給切片直到滿足切片的RB需求或基站的資源全部被分配。

算法2 基站資源更新

輸入：分配給切片s的RB數ARBs，切片s在基站k上的等級s，k，用戶u的請求速率Ru，切片集S，基站集K，切片缺少的RB數reRB，基站k的RB容量Lk，基站k剩余的RB資源Lk_remain，待重新分配切片隊列Q_slice，有剩余資源的基站隊列Q_reBS，在t+1時刻分配給切片s的RB數ARBst+1。

輸出：Rs，k是基站k分配給切片s的RB數。

開始：初始化Q_slice，Q_reBS隊列；

1）初步資源映射

for s∈S

for k∈K

Rs，k=ARBs×s，k∑Kk=1s，k；

end

for k∈K

BS_exceedk=∑|S|s=1Rs，k；

if BS_exceedkgt;Lk

for s∈S

獲取一個用戶集Us，k，k=max{δu，k（k）}

Ws，k=∑|Us，k|u=1Ru；

ωs，k=s，k×Ws，k∑|S|s=1s，k×Ws，k；

Rs，k=Lk×ωs，k；

end

if BS_exceedklt;Lk

Lk_remain=Lk-BS_exceedk；

Q_reBS.add（k）；

end

2）基站剩余資源分配

for s∈S

sumRBs=∑|K|k=1Rs，k；

if sumRBslt;ARBs

reRBs=ARBs-sumRBs；

Q_slice.add（s）；

end

for k∈Q_reBS

按照切片s，在基站k上的權重ωs，k 由大到小進行排序，得到rank；

if len（Q_slice）==0

break；

end

for s∈rank

if Lk_ramain≥reRBs

reRBs=0；

Q_slice.delete（s）；

Lk_remain=Lk_remain-reRBs；

else

reRBs=reRBs-Lk_remain；

end

if Lk_remain==0

Q_reBS.delete（k）；

break；

end

2.3.2 用戶資源分配和連接控制

為了解決切片內資源分配的問題，本文提出了一個迭代的解決方案。分配矩陣A最開始為空，然后通過迭代將RB分配給用戶。在這里定義一個增益因子g（i+1）u=log（R^（i）u+ru，）-log（R^（i）u）。其中，R^（i）u表示用戶u已分配的速率，ru，表示用戶u在上的可實現速率，是還未分配的RB。

如果用戶u具有最大的增益因子而且該用戶的數據速率需求還未得到滿足，則將分配給該用戶，然后進入下一次迭代。當所有的RB被分配完成或者所有用戶的需求都被滿足時，迭代停止。

當所有基站下的所有切片的迭代分配過程完成后，檢查是否所有用戶都滿足了需求以及切片的資源是否都被利用了。因為可能接入一個基站的用戶過多而分配的資源不夠，接入其他基站的用戶少而分配的資源很多。為了充分利用資源以及滿足用戶需求，將切片在其他基站上的資源分配給未滿足需求的用戶。對于未滿足需求的用戶，按照RB等級次序檢查其他基站是否有剩余的RB資源，如果有，就將用戶連接到下一個基站，根據比例公平方式迭代將該基站剩余的RB資源分配給重新接入該基站的用戶，直到切片中的用戶都滿足了需求或分配給切片的資源全部被利用就停止迭代。

3 仿真結果

3.1 仿真概述

所提出的方法是根據它是否達到滿足切片需求的最小RB分配來評估的，而且不受切片數量變化的影響，在所提出的方法中，必須首先訓練RB分配的模型，然后使用經過訓練的模型評估所提出的方法。評估分為三種：a）提出的方法在所創建的特定場景中適當地實現了RB分配；b）展示了基于隨機生成的多個場景評估模型的通用性能；c）評估切片數量與性能之間的關系，并描述了所提出方法的可擴展性。

3.2 訓練

所提方法中的模型從切片狀態中學習最大化NSDS和RBUR的RB分配。在5G中，假設了各種類型的服務，因此仿真場景是隨機生成的，模型使用各種類型的服務進行訓練。表2給出了用于訓練的場景，其中uniform［min，max］表示從min到max的均勻分布。表3給出了用于訓練和評估的共同參數。每次仿真后都會生成一個新場景，切片的數量固定為三個切片，但在仿真過程中，切片的數量從0～3不等，因為切片的開始和結束時間不同。此外，每個切片的用戶數量、數據包生成間隔和數據包大小都不同。切片的需求為吞吐量需求、時延需求或兩者都有。根據長期演進（long term evolution，LTE）規范，子載波間隔和TTI分別設置為15 kHz和1 ms；系統帶寬設置為20 MHz，每個TTI的RB總數為 100。由于 RB 是根據規范分組的，每個基站控制的RB數為25；RB分配的控制間隔為1 ms，與TTI一樣。

表4給出了 Ape-X 的參數值，與文獻［17］中的相同，actor的數量是根據計算機的性能設置的參數。訓練電腦的配置為AMD 3700x CPU，32 GB內存，RTX 2070 SUPER顯卡；進行仿真的電腦為3700x CPU，16 GB內存。本文使用一臺計算機進行學習，六臺計算機進行仿真。在一臺計算機上運行5個仿真，而一個仿真有4個actor，所以總共有 120個actor（6臺計算機×5個仿真×4個actor）。折扣因子決定了考慮未來獎勵的折扣因子。在RB分配中，切片狀態也會快速變化，因此根據狀態變化快速分配RB是很重要的。將折扣因子設置為0.5以最大化短期獎勵；出于同樣的原因，將n設為 1。

3.3 評估結果

3.3.1 RB分配評估

本節將評估所提出的方法是否能在切片數量不同的場景中將RB分配給切片。所考慮的移動網絡場景基于5G網絡標準，所使用的參數匯總在表3、5中。在給定的500 m×500 m區域內，四個基站均勻分布，每兩個相鄰的BS保持120 m的固定距離。路徑損耗（path loss，PL）模型定義如下：PL（dB）=20 log 10（d）+20 log 10（f）-27.55。其中，d（以m為單位）和f（以MHz為單位）分別表示用戶—基站的距離和信道頻率?；?G切片類別定義了消息業務、應用程序、音頻、視頻四個切片，每個切片匹配一種業務。每個切片具有不同的用戶數量、數據包長度和切片需求，通過設置每個切片的切片開始和結束時間來模擬切片數量的變化。在仿真中，切片數量從最少兩個切片到最多四個切片不等，具體的參數如表5所示。切片中的用戶數量隨時間而變，如圖5所示。

本文對比了兩種方法。方法描述如下所示：

a）hard-slicing。hard方法是一種將所有RB按切片數量劃分的方法，切片s的ARB可以計算為ARBs=AllRB切片數量。

b）NVS（network virtualization substrate）方法［18］。資源基于系統中切片的權重來分配，切片的權重ωs=∑|Us|u=1Ru，u∈Us。定義為切片s中的所有用戶的聚合數據速率請求。因此，分配給切片s的RB計算為ARBs=AllRB×ωs∑|S|s=1ωs。

在NVS方法中，為每個切片提供的資源量在基站之間平均分配，本文方法以及hard方法采用2.3節所述的資源映射方式。

圖6顯示了NSDS、RBUR、ARB和仿真時間之間的關系。這里，RB以1 ms的間隔分配給切片，但NSDS和RBUR是以1 ms為間隔測量的1 s的平均值，ARB是1 s的總ARB（100×1 000 RB）。NSDS的結果表明，所提出的方法幾乎完全滿足切片需求，當切片的數量在110 s、205 s、400 s發生變化時，NSDS不會下降。基于這些結果，即使切片的數量發生變化，切片的性能需求也能得到滿足。

在hard方法中，RB分配與切片的數量有關，因此，對數據速率需求低的切片1、3總是能夠滿足切片需求；切片2中的用戶數量多，在320～400 s時，切片2的用戶數量不斷增加，但是分配的RB數量沒有增加，資源分配不足，導致NSDS降低；切片4需要高吞吐量，在350～400 s時，用戶數量增加，對數據速率的需求也會增加，但是ARB不會變化，NSDS下降。

在圖6（c）中，依據NVS方法，分配給切片的資源和切片的數據速率需求有關。數據速率需求越高，獲得的資源就越多。從圖6（c）中可以看出，在90～160 s，切片1的需求都能得到滿足，在160～200 s，隨著切片2的用戶數量不斷增加，切片2對于數據速率的需求也越來越高，切片2獲得的資源也變多，導致切片1的NSDS下降；在200～500 s，切片4因為其高吞吐量需求而占用了過多的資源；在400 s左右時，切片4的用戶數量達到最大，獲得RB最多，其他切片的NSDS也達到最低。切片3由于其數據速率需求低而且用戶數量少，獲得的RB數量少，NSDS很低，無法滿足切片對于時延的需求。

根據RBUR結果，所提出方法的RBUR約為0.75或更高，這表明RB的過度分配低于25%。在hard方法中，由于將RB均勻地分配給切片而不管切片的狀態和需求，RBUR的表現很差，在每個切片中都存在過度分配，如圖6（b）所示。對于NVS方法，切片2和4的數據速率需求高，過度分配嚴重，RBUR性能表現很差；切片1和3對數據速率的需求低，導致分配的RB不足，所分配的RB都被利用了，因而資源利用率比較高。

綜上所述，基于NSDS和RBUR的結果，所提出的方法對比其他方法在NSDS和RBUR兩個指標上表現更好，能夠根據切片的狀態和需求分配資源，分配了必要數量的RB以滿足切片的需求而且不受切片數量變化的影響。

3.3.2 通用性能評估

本節通過模擬各種服務的場景來評估所提出方法的通用性能。作為包括 DRL 在內的通用機器學習，可以通過僅訓練特定數據來估計目標數據的最優解決方案，但是不能對其他未經訓練的數據進行正確的估計，這稱為過度適應環境。當只針對特定的時區、地點或服務時，這種模型是有效的。但是，如果模型只用于特定情況，則使用網絡切片的優勢就喪失了。這是因為在RAN中會有很多的服務類型，而網絡切片是一種將網絡適用于各種服務的技術。

使用3.2節中的隨機生成場景評估所提出方法的通用性能。由于該場景隨機確定用戶數量、數據包生成間隔和切片需求，可以模擬各種業務類型。需要注意的是，并非所有生成的場景都可以通過現有服務來解釋，本文使用與訓練中不同的種子值來評估未經訓練的場景，以顯示模型的通用性能。

總共測試了3 000個場景。評估指標為NSDS和RBUR，是1 s內測量值的平均值，結果表示為累積分布函數（CDF）和測量數據的平均值。如果 NSDS 和 RBUR 較高，則表明它們在各種隨機生成的場景中都較高。

圖7顯示了NSDS評估結果。本文方法的平均NSDS約為0.92，幾乎滿足了切片需求；對比方法的平均NSDS都在0.7以下。由圖7（b）可以看出，hard切片方法的NSDS在沒有用戶滿足需求的0.0處以大約28%分布，在所有用戶都滿足需求的1.0處以大約50%分布，結果表明切片中的一個用戶有28%的概率無法滿足需求；對于NVS方法，切片中的一個用戶有31%的概率無法滿足需求，切片中的用戶的需求全部得到滿足的概率是50%；本文方法的NSDS在0.0處以不到10%分布，在1.0處大約82%分布，結果表示切片中的一個用戶無法滿足需求的概率不到10%，切片中的用戶的需求全部被滿足的概率達到了82%。根據以上結果，表明所提出的方法實現了高水平的通用性能，幾乎可以滿足各種場景下的切片需求。

圖8顯示了RBUR評估結果。本文方法的平均RBUR約為0.77；對比方法的平均RBUR都在0.7之下，資源過度分配都超過了30%。其中，hard方法的平均RBUR最低，因為hard切片將所有RB平均分配給各個切片，有的切片會存在過度分配；NVS方法根據不同切片的數據速率請求進行分配，但是可能有的切片請求的速率比其他切片高太多，導致有的切片分配了過多資源從而RBUR很低。

綜上所述，對于隨機生成的場景，所提出的方法能夠有效地將RB分配給切片，幾乎滿足了各種切片的需求，實現了高水平的通用性能，同時資源利用率也很高。

3.3.3 擴展性評估

通過評估切片數量與性能之間的關系來評估本文方法中切片數量的可擴展性。此評估場景使用3.2節中使用的隨機生成場景，切片數量根據每個場景均勻分布在1～8中選擇。評估時的切片數量不是根據場景創建時設置的切片數量來計算，而是通過同時運行的切片數量來計算。例如，如果切片數量設置為7，但同時運行的切片數量為3，則計為3個切片。評估指標為NSDS和RBUR，測量結果為1 s內測量值的平均值。

圖9顯示了切片數量與NSDS的關系。對于所有測試方法，NSDS 隨著切片數量的增加而降低，當切片數量增加時，需要更多的RB，NSDS減少是因為無法保證切片所需的RB數。當切片數量達到4個及以上時，本文方法的NSDS比其他方法高出了0.2以上，實現了更好的效果；在切片數量少于8個時，NSDS為0.8以上，切片中有80%以上的用戶完全滿足了QoS需求；當切片數量為8時，NSDS約為0.78。對比方法中，NVS方法表現最差，因為一方面可能有的切片對于數據速率需求高，而有的切片對于數據速率需求低，導致對數據速率需求低的切片獲得的RB數量過少，也就使得NSDS很低；另一方面，NVS方法在基站之間均等分配資源，可能會使得在某個基站上分配過多資源，有的基站分配過少，導致用戶接入的基站資源過少而降低了需求滿意度。hard方法將資源均等分配給各個切片，當切片數量增多時。每個切片獲得資源變少，導致有的切片分配資源不足，需求滿意度下降。

圖10顯示了切片數量與RBUR之間的關系。本文方法中，當切片數量超過4個時，RBUR隨著切片數量的增加而降低，在切片數量為8時，RBUR為0.7。RB分配過多是為了在分配RB時能夠可靠地滿足切片的需求。本文方法學習了將NSDS優先于RBUR的分配方式，原因與獎勵的設計有關。在設計獎勵時綜合考慮了資源利用率和切片需求滿意度，如果所有用戶都不能滿足需求，則NSDS為0，如果有用戶使用了RB，RBUR就大于0；獎勵是NSDS乘以RBUR，如果其中一個變為0，則獎勵也為0。在學習時，接近0的NSDS會被優先考慮以改善切片的需求滿意度，導致RB的過度分配。

在NVS和hard方法中，當切片數量為1時，hard和NVS方法的RBUR不到0.3，因為這兩種方法會將所有的資源都分配給這個切片導致資源利用率過低；當切片數量增加時，會有更多的切片需要資源，也就使得切片的資源利用率得到了提高。但是因為這兩種方法的局限性，RBUR的表現比本文方法要差，過度分配嚴重。

基于NSDS和RBUR的結果，即使切片數量發生變化，本文方法也能分配RB以滿足切片對于吞吐量和時延的需求；此外，本文方法僅通過使用訓練模型創建或終止執行RB分配的actor來應對切片數量的變化。綜上所述，可以說本文方法在切片數量方面具有很高的可擴展性。

4 結束語

本文主要研究無線接入網（RAN）切片。在多基站環境下，為了能夠有效地分配無線資源同時滿足切片的需求，提出了一種使用Ape-X的RB分配方法，該方法不受切片數量的影響。仿真結果表明，本文方法能夠根據切片的狀態和需求分配資源，分配了必要數量的RB以滿足切片的需求而且不受切片數量的變化的影響，同時對于隨機生成的場景也實現了高水平的通用性能。本文方法是基于LTE中的TTI設計的，在5G中，TTI是可變的，未來會在這個方向上繼續研究。

參考文獻：

［1］NGMN Alliance.5G white paper［EB/OL］.（2015-02-17）.https：//www.ngmn.org/wp-content/uploads/NGMN_5G_White_Paper_V1_0.pdf.

［2］Elayoub S E，Fallgren M，Spapis P，et al.5G service requirements and operational use cases：analysis and METIS II vision［C］//Proc of European Conference on Networks and Communications.Piscataway，NJ：IEEE Press，2016：158-162.

［3］Afolabi I，Taleb T，Samdanis K，et al.Network slicing and softwarization：a survey on principles，enabling technologies，and solutions［J］.IEEE Communications Surveys amp; Tutorials，2018，20（3）：2429-2453.

［4］NGMN Alliance.Description of network slicing concept［EB/OL］.（2018-02-20）.https：//www.ngmn.org/wp-content/uploads/160113_NGMN_Network_Slicing_v1_0.pdf.

［5］Foukas X，Patounas G，Elmokash A，et al.Network slicing in 5G：survey and challenges［J］.IEEE Communications Magazine，2017，55（5）：94-100.

［6］Elayoubi S E，Jemaa S B，Altman Z，et al.5G RAN slicing for verticals：enablers and challenges［J］.IEEE Communications Magazine，2019，57（1）：28-34.

［7］Shrivastava R，Samdanis K，Bakry A.On policy based ran slicing for emerging 5G TDD networks［C］//Proc of IEEE Global Communications Conference.Piscataway，NJ：IEEE Press，2018.

［8］Chang C Y，Nikaein N，Spyropoulos T.Radio access network resource slicing for flexible service execution［C］//Proc of IEEE Conference on Computer Communications.Piscataway，NJ：IEEE Press，2018：668-673.

［9］Guo Tao，Suárez A.Enabling 5G RAN slicing with EDF slice scheduling［J］.IEEE Trans on Vehicular Technology，2019，68（3）：2865-2877.

［10］唐倫，魏延南，馬潤琳，等.虛擬化云無線接入網絡下基于在線學習的網絡切片虛擬資源分配算法［J］.電子與信息學報，2019，41（7）：1533-1539.（Tang Lun，Wei Yannan，Ma Runlin，et al.Online learning-based virtual resource allocation for network slicing in virtua-lized cloud radio access network［J］.Journal of Electronics amp; Information Technology，2019，41（7）：1533-1539.）

［11］Abiko Y，Mochizuki D，Saito T D，et al.Proposal of allocating radio resources to multiple slices in 5G using deep reinforcement learning［C］//Proc of the 8th IEEE Global Conference on Consumer Electro-nics.Piscataway，NJ：IEEE Press，2019：131-132.

［12］陳前斌，施穎潔，楊希希，等.基于在線雙向拍賣的虛擬網絡切片資源調度機制［J］.電子與信息學報，2018，40（7）：1738-1744.（Chen Qianbin，Shi Yingjie，Yang Xixi，et al.Resource scheduling mechanism for virtual network slice based on online double auction［J］.Journal of Electronics amp; Information Technology，2018，40（7）：1738-1744.）

［13］Sun Guolin，Xiong Kun，Boateng G O，et al.Autonomous resource provisioning and resource customization for mixed traffics in virtualized radio access network［J］.IEEE Systems Journal，2019，13（3）：2454-2465.

［14］Xiong Kun，Adolphe S S R，Boateng G O，et al.Dynamic resource provisioning and resource customization for mixed traffics in virtualized radio access network［J］.IEEE Access，2019，7：115449-115453.

［15］Kokku R，Mahindra R，Zhang Honghai，et al.NVS：a substrate for virtualizing wireless resources in cellular networks［J］.IEEE/ACM Trans on Networking，2012，20（5）：1333-1346.

［16］Caballero P，Banchs A，Veciana G D，et al.Network slicing games：enabling customization in multi-tenant networks［J］.IEEE/ACM Trans on Networking，2019，27（2）：662-675.

［17］Horgan D，Quan J，Budden D，et al.Distributed prioritized experience replay［EB/OL］.（2018-03-02）.https：//arxiv.org/pdf/1803.00933.pdf.

［18］Van Hasselt H，Guez A，Silver D.Deep reinforcement learning with double Q-learning［EB/OL］.（2015-12-08）.https：//arxiv.org/pdf/1509.06461.pdf.

［19］Sutton R S，Barto A G.Reinforcement learning：an introduction［J］.IEEE Trans on Neural Networks，1998，9（5）：1054.

［20］Wang Ziyu，Schaul T，Hessel M，et al.Dueling network architectures for deep reinforcement learning［C］//Proc of the 33rd International Conference on International Conference on Machine Learning.2016：1995-2003.

計算機應用研究2022年9期

計算機應用研究的其它文章: 聯合邊路和中路解碼特征學習的多描述編碼圖像增強方法; 基于條件生成對抗網絡的梯級表面高光去除方法; 面向無監督分割的雙分支上采樣域自適應網絡; 基于通道權重的順序精煉RGB-D顯著檢測網絡; 融合深層差異特征的RGB-T巢式語義分割網絡; 格上的簡短可鏈接環簽名