999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

5G基站自適應(yīng)天饋系統(tǒng)設(shè)計與建模

2023-01-01 00:00:00沈煜航王晟
重慶大學(xué)學(xué)報 2023年4期

作者簡介:沈煜航(1999—),男,碩士研究生,主要從事智慧通信網(wǎng)絡(luò)與智能信息處理方向研究,(E-mail)shenyh327@163.com。通信作者:王晟,男,教授,博士生導(dǎo)師,主要從事網(wǎng)絡(luò)規(guī)劃,下一代互聯(lián)網(wǎng)與下一代光網(wǎng)絡(luò)方向研究,(E-mail)wsh_keylab@uestc.edu.cn。

摘要:為了提供一個各方面更優(yōu)的全自動天面自適應(yīng)調(diào)整方案,在降低維護(hù)成本的同時實(shí)現(xiàn)更優(yōu)覆蓋效果,從5G天面的信號輻射方向調(diào)整方法入手,對5G基站自適應(yīng)天饋系統(tǒng)的智能調(diào)節(jié)系統(tǒng)設(shè)計關(guān)鍵技術(shù)進(jìn)行研究,提出對基于深度強(qiáng)化學(xué)習(xí)的基站天面自適應(yīng)調(diào)節(jié)策略?;诖嗽O(shè)計了5G基站自適應(yīng)天饋系統(tǒng),可以使用電信公司RSRP信號覆蓋地圖作為數(shù)據(jù)源,獲取當(dāng)前狀態(tài)的觀測值并自動分析數(shù)據(jù),對天面進(jìn)行自動調(diào)整。在虛擬環(huán)境下,對基于強(qiáng)化學(xué)習(xí)的系統(tǒng)進(jìn)行了模擬搭建與仿真訓(xùn)練,結(jié)果符合預(yù)期。

關(guān)鍵詞:5G基站;強(qiáng)化學(xué)習(xí);天饋系統(tǒng);自適應(yīng)調(diào)整;系統(tǒng)設(shè)計;仿真分析

中圖分類號:TN929.5" " " " " 文獻(xiàn)標(biāo)志碼:A" " " 文章編號:1000?582X(2023)04?089?08

Abstract: To provide a fully automatic antenna adaptive adjustment scheme with advantages of better performance, wider coverage and lower maintenance cost, the key design technologies of intelligent adjustment system of adaptive antenna feed system of 5g-based station are studied from the perspective of signal radiation direction adjustment of antenna panel. An adaptive adjustment strategy for base-station antenna based on deep reinforcement learning is proposed. The adaptive antenna feed system designed with the proposed strategy can use telecom RSRP coverage map as a data source, and obtain the current state of the observed values to automatically analyze data and adjust the antenna panels. In a virtual environment, the system based on reinforcement learning is simulated and trained, and the results are in line with expectations.

Keywords: 5G base-station; reinforcement learning; antenna feed system; adaptive adjustment; systematic design; simulated analysis

近年來,中國在第五代移動通信技術(shù)的研發(fā)上搶占先機(jī)[1?2]。移動通信網(wǎng)絡(luò)中,天饋系統(tǒng)是整個系統(tǒng)中最重要部分,它直接影響用戶的移動接入、數(shù)據(jù)傳輸質(zhì)量。電信公司為了提升優(yōu)化效率,設(shè)計了一套可視化的基站信號覆蓋地圖。但是,用覆蓋地圖優(yōu)化的工單系統(tǒng),大部分工單是在進(jìn)行天面的調(diào)整。現(xiàn)有研究過于糾結(jié)如何將移動網(wǎng)絡(luò)優(yōu)化經(jīng)驗(yàn)統(tǒng)合成專家系統(tǒng),這類研究比較適合應(yīng)用于基站建設(shè)初期的規(guī)劃布局,在移動網(wǎng)絡(luò)運(yùn)營中,難以在復(fù)雜多變的空間環(huán)境高效地達(dá)到最優(yōu)解。因此,電信公司開始將研究重心轉(zhuǎn)移到結(jié)合人工智能技術(shù)的5G網(wǎng)絡(luò)極簡化運(yùn)營方向。引入自適應(yīng)的機(jī)器學(xué)習(xí)[3?6]進(jìn)行系統(tǒng)優(yōu)化,消減不必要的成本開銷,提高5G網(wǎng)絡(luò)的效率,這將是天饋系統(tǒng)維護(hù)優(yōu)化與移動通信系統(tǒng)極簡化運(yùn)營的主要發(fā)展態(tài)勢。

為了提供一個各方面都更優(yōu)的全自動天面自適應(yīng)調(diào)整方案,讓天面調(diào)整優(yōu)化策略能夠完全脫離人工干涉,并在最大限度降低維護(hù)成本的同時實(shí)現(xiàn)更優(yōu)覆蓋效果,研究設(shè)計一個5G基站自適應(yīng)天饋系統(tǒng),它基于深度強(qiáng)化學(xué)習(xí)技術(shù)[7?13],用電信公司信號覆蓋地圖作為數(shù)據(jù)源,能夠自動分析數(shù)據(jù)、獲取當(dāng)前狀態(tài)的觀測值,并根據(jù)觀測值判斷哪些天面需要調(diào)整、應(yīng)該在什么方向上調(diào)整多少角度。希望該系統(tǒng)具有泛用性,最終的學(xué)習(xí)效果應(yīng)能快速適應(yīng)空間環(huán)境變化,可更快找到最優(yōu)的調(diào)整方案,且調(diào)整方案比人工更優(yōu)。針對5G網(wǎng)絡(luò)天饋系統(tǒng)的自適應(yīng)優(yōu)化策略,以天饋系統(tǒng)信號輻射方向的智能調(diào)整為切入點(diǎn),對5G基站自適應(yīng)天饋系統(tǒng)的智能調(diào)節(jié)系統(tǒng)設(shè)計關(guān)鍵技術(shù)進(jìn)行了研究,提出基于深度強(qiáng)化學(xué)習(xí)的基站天面自適應(yīng)調(diào)節(jié)策略,進(jìn)行系統(tǒng)設(shè)計分析與建模。

1 相關(guān)工作

在5G場景下,基站天面的角度可以進(jìn)行數(shù)字程控[14],且5G基站能夠進(jìn)行高效率的站間通信。移動網(wǎng)絡(luò)接入側(cè)部署有高算力的邊緣計算節(jié)點(diǎn)[15],這讓基于人工智能技術(shù)的天面自調(diào)整具有現(xiàn)實(shí)可行性??梢詫?G自適應(yīng)天饋系統(tǒng)分為了2個階段:1)云端訓(xùn)練階段。系統(tǒng)被部署在云端的計算密集型服務(wù)器上,根據(jù)所轄區(qū)域進(jìn)行虛擬環(huán)境建模,并在虛擬環(huán)境中執(zhí)行所有智能體策略的預(yù)訓(xùn)練。2)邊緣部署階段。云端服務(wù)器把完成預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)參數(shù)遷移到對應(yīng)的邊緣站中,基于該初始參數(shù),智能體在真實(shí)業(yè)務(wù)場景中進(jìn)行更安全的策略探索。

電信公司提供了實(shí)時的參考信號接收功率(reference signal receiving power, RSRP)信號覆蓋地圖。5G場景下,服務(wù)區(qū)內(nèi)的用戶被接入移動通信網(wǎng)絡(luò)后,移動終端將采集信道特征(信號強(qiáng)度、比特率、時延、丟包率等)反饋給接入站。接入站通過移動通信基站定位技術(shù)算出用戶坐標(biāo),并按地理區(qū)域劃分用戶集,將采集到的用戶數(shù)據(jù)分組匯集,得到實(shí)時的信號覆蓋情況分布數(shù)據(jù)。通過上述手段采集用戶信號質(zhì)量RSRP值,以?t為更新間隔,在地圖上對應(yīng)的位置上以不同的顏色呈現(xiàn)當(dāng)前時刻各位置的信號覆蓋情況。

如圖1所示的電信公司RSRP信號覆蓋地圖中,將區(qū)域劃分成了以邊長為 m的眾多方格,每個方格上

用不同的顏色表示出該 m2范圍內(nèi)的平均信號覆蓋質(zhì)量。因此,該馬爾科夫決策問題[7]的優(yōu)化目標(biāo)也可以表示成小區(qū)內(nèi)不同信號覆蓋等級的格子數(shù)量加權(quán)后進(jìn)行平均,即

其中:代表RSRP信號覆蓋等級為的方格數(shù)量,是從好到壞分成7個等級的RSRP取值范圍,其目的是對覆蓋較好的情況給予一個正向激勵,對覆蓋較差的情況給予負(fù)向激勵。同時,環(huán)境觀測值也可以抽象成小區(qū)內(nèi)不同顏色的格子分布,可以當(dāng)作一張灰度圖進(jìn)行處理。因此,整個過程也可以被描述為:根據(jù)當(dāng)前時刻小區(qū)的灰度圖特征,預(yù)測如何對小區(qū)內(nèi)所屬天面的角度進(jìn)行調(diào)整,從而讓整個小區(qū)的覆蓋情況趨向于最好。

2 基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)天饋系統(tǒng)的實(shí)現(xiàn)

2.1 MADDPG算法

在處理天饋系統(tǒng)這種復(fù)雜的合作-競爭環(huán)境時,不妨引入多智能體深度確定性策略梯度(MADDPG)算法的Actor-Critic框架設(shè)計[7?13]。MADDPG很容易解決天饋系統(tǒng)優(yōu)化過程中的非穩(wěn)定環(huán)境問題。在MADDPG中,每個智能體都有自己的執(zhí)行者 (Actor)網(wǎng)絡(luò)與評價者 (Critic)網(wǎng)絡(luò)。其中,Actor網(wǎng)絡(luò)中的算法和原始DDPG中相應(yīng)算法差別不大。用于訓(xùn)練過程的Critic網(wǎng)絡(luò)算法有較大改進(jìn)。在Critic網(wǎng)絡(luò)中,為了獲取全局信息,用系統(tǒng)中所有智能體的觀測值與行為作為參數(shù)傳入網(wǎng)絡(luò)。

除了小區(qū)內(nèi)的多智能體問題,相鄰小區(qū)之間也是合作-競爭共存的關(guān)系。在MADDPG中,Critic網(wǎng)絡(luò)負(fù)責(zé)集中式訓(xùn)練,需要區(qū)域內(nèi)的全局信息;Actor網(wǎng)絡(luò)負(fù)責(zé)分布式執(zhí)行,只需要智能體自己的環(huán)境觀測數(shù)據(jù)。因此,Actor與Critic網(wǎng)絡(luò)可以傳入不同的觀測數(shù)據(jù),不妨讓Critic網(wǎng)絡(luò)使用小區(qū)內(nèi)的環(huán)境狀態(tài)信息,讓Actor網(wǎng)絡(luò)不再局限于智能體所屬的小區(qū),而是使用智能體潛在覆蓋范圍內(nèi)的狀態(tài)信息。一個天面的潛在覆蓋區(qū)域包含它在調(diào)整過程中所有可能覆蓋的范圍,以潛在覆蓋區(qū)域作為Actor網(wǎng)絡(luò)的輸入,就可以讓智能體執(zhí)行決策時考慮到跨區(qū)域的信息。

在此,給出基于MADDPG自適應(yīng)優(yōu)化系統(tǒng)的流程總覽,如圖2所示。由于強(qiáng)化學(xué)習(xí)總是伴隨著大量的探索,為了避免造成服務(wù)區(qū)信號質(zhì)量下降,將系統(tǒng)流程劃分為預(yù)訓(xùn)練與業(yè)務(wù)場景部署2個階段。在預(yù)訓(xùn)練階段,根據(jù)真實(shí)業(yè)務(wù)場景的地理空間環(huán)境,為每個小區(qū)建立了一個虛擬環(huán)境。在一個計算密集型的高算力平臺上,基于該虛擬環(huán)境進(jìn)行虛擬智能體的訓(xùn)練。此時,虛擬智能體可以將行為信息簡單地同步,因此MADDPG

的訓(xùn)練過程可以像單智能體算法一樣,直接用一個共享的經(jīng)驗(yàn)回放池更新所有智能體的Actor與Critic網(wǎng)絡(luò)。整個過程可以是單線程枚舉的。每次迭代中,首先枚舉所有智能體,讓它們獲取自己的環(huán)境觀測值并執(zhí)行確定性行為預(yù)測。執(zhí)行所有智能體的行為后,對環(huán)境的更新就進(jìn)入下一個狀態(tài),并將本次交互信息放入全局的經(jīng)驗(yàn)回放池中。之后再次枚舉每個智能體,為它們隨機(jī)取出一批經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練,然后進(jìn)入下一次迭代。待環(huán)境狀態(tài)穩(wěn)定后,判斷算法是否收斂,若未收斂,則重置虛擬環(huán)境繼續(xù)進(jìn)行預(yù)訓(xùn)練。

2.2 環(huán)境歸一化算法

在多智能體強(qiáng)化學(xué)習(xí)中,Distributed-Q[16-17]、MA-DQN以及A3C等算法要求在不同智能體中,將環(huán)境狀態(tài)的維度與特征分布統(tǒng)一起來,這就是狀態(tài)統(tǒng)一性問題。在研究的場景中,狀態(tài)統(tǒng)一性問題源自潛在覆蓋范圍的形態(tài)和大小,取決于不同天面間的參數(shù)差異,尤其是鐵塔站高度、天面水平輻射范圍、垂直輻射范圍、主瓣參數(shù)等,讓天面的潛在覆蓋區(qū)域呈現(xiàn)為不同弧長與半徑的扇形,甚至某些部分可以為環(huán)形扇面。

MADDPG允許每個智能體關(guān)注毫不相關(guān)的局部環(huán)境狀態(tài),使用完全獨(dú)立的回報函數(shù),并不要求對環(huán)境狀態(tài)進(jìn)行統(tǒng)一化處理。不過,為了加速整個算法的收斂速度,讓虛擬環(huán)境下訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)能夠快速部署到業(yè)務(wù)場景中,依然需要對每個智能體的觀測值進(jìn)行歸一化處理。

2.3 歸一化采樣

在天面獲取狀態(tài)的局部觀測值時,可能會因?yàn)榛緟?shù)、地理環(huán)境等的影響,得到一個與其他天面維度不同的張量。同時,基于地面的RSRP覆蓋情況獲得,其分布情況并不能很好地對應(yīng)天面的角度朝向。所以,需要從天面的角度出發(fā)對環(huán)境狀態(tài)進(jìn)行采樣,以方位角為橫軸、俯仰角為縱軸,從而保證狀態(tài)分布的一致性。如圖3所示,對于每一個天面,先找出它的整個可覆蓋角度的區(qū)間范圍,并對其垂直角度區(qū)間范圍從上到下按照1:2:3:4的比例劃分成4組,每一組均勻采樣5個角度,得到20個縱軸刻度;對其水平角度區(qū)間,均勻地采樣20個角度值,作為20個橫軸刻度。這樣,就獲得了一個20×20的采樣矩陣。然后按照采樣的俯仰角和方位角來計算每個樣本信號輻射在地面上的坐標(biāo),采集該點(diǎn)的RSRP值作為樣本值。這樣,就能保證所有觀測值與智能體行為之間的映射關(guān)系具有普遍聯(lián)系。

該采樣過程有2個基本前提。首先,單個運(yùn)營商的基站都是同一規(guī)格,各天面的可調(diào)范圍基本一致。其主要影響因素是基站高度與預(yù)制傾角,因此可以通過分割角度的方式進(jìn)行采樣。另一方面,應(yīng)在最遠(yuǎn)覆蓋范圍內(nèi)進(jìn)行采樣,也就是說可調(diào)俯仰角的上限應(yīng)低于天面在可容忍衰減區(qū)間內(nèi)覆蓋到地面的角度。如果超過該角度,則天面的信號將在嚴(yán)重衰減后射到地面,此時可認(rèn)為天面對地面設(shè)備無覆蓋。

2.4 線性探測補(bǔ)點(diǎn)

在歸一化采樣時,根據(jù)天面不同角度到地面的投影來采集樣本點(diǎn),很容易導(dǎo)致部分樣本點(diǎn)采到空值。在預(yù)訓(xùn)練過程中,無論是在虛擬環(huán)境還是真實(shí)業(yè)務(wù)場景下,RSRP覆蓋地圖都可能存在大量無法獲得采樣的空白值區(qū)域,歸一化采樣將不可避免地取得部分空值。于是,希望找到一種方法來填補(bǔ)這些空白樣本。借鑒鄰插值的思想,對無法采樣的點(diǎn)使用二維線性探測的方式進(jìn)行修補(bǔ)。

圖4中給出了算法的具體流程。線性探測補(bǔ)點(diǎn)的方式保證了歸一化采樣的有效性。進(jìn)一步地,可以在業(yè)務(wù)場景下對該補(bǔ)點(diǎn)方式進(jìn)行優(yōu)化。在業(yè)務(wù)場景下采樣到空值,一般是由于在該區(qū)域,用戶稀疏,于是不一定在每次RSRP地圖更新期間內(nèi)都有用戶存在。所以,可以在一定程度上繼承該區(qū)域的歷史RSRP值,以增強(qiáng)線性探測補(bǔ)點(diǎn)的可靠性。具體做法是,接入站保留每個小區(qū)域的最近的一次非空RSRP平均值,在本輪更新信號覆蓋地圖時,如果在該區(qū)域無RSRP反饋信息,則先用線性探測補(bǔ)點(diǎn)方法預(yù)測出該區(qū)域的,再找到歷史數(shù)據(jù),并記錄本輪更新的更迭周期數(shù)。在本輪更新中,對該區(qū)域估計的填補(bǔ)值取為:, 其中,是歷史數(shù)據(jù)的權(quán)重因子,。

2.5 業(yè)務(wù)場景部署

前面詳細(xì)描述了整個系統(tǒng)的設(shè)計與算法訓(xùn)練過程,在此將給出系統(tǒng)部署到真實(shí)業(yè)務(wù)場景下的流程,以及基于帶約束的馬爾可夫決策問題(constraint markov decision process, CMDP)的站間通信過程。

為了保證系統(tǒng)的魯棒性,提出先在虛擬環(huán)境預(yù)訓(xùn)練,再將網(wǎng)絡(luò)參數(shù)遷移到業(yè)務(wù)場景的系統(tǒng)設(shè)計。在部署到業(yè)務(wù)場景之前,首先需要根據(jù)真實(shí)的小區(qū)環(huán)境,建立對應(yīng)的虛擬環(huán)境模型。該虛擬環(huán)境建模需要考慮真實(shí)的基站布局、信道衰減以及空間環(huán)境影響,并提供合理的干擾仿真機(jī)制?;谡鎸?shí)環(huán)境,為該小區(qū)搭建專屬的MADDPG網(wǎng)絡(luò),每一個基站的3個天面各擁有一張Actor-Critic網(wǎng)絡(luò),每個基站將在自己的移動邊緣計算節(jié)點(diǎn)上同時部署3個天面的強(qiáng)化學(xué)習(xí)算法。強(qiáng)化學(xué)習(xí)的訓(xùn)練過程是先探索再學(xué)習(xí)。為了避免在部署前期出現(xiàn)過于激進(jìn)的探索,可以借鑒遷移學(xué)習(xí)的思想,讓算法先在已建好模的虛擬環(huán)境中訓(xùn)練,然后取收斂到趨近平穩(wěn)狀態(tài)的神經(jīng)網(wǎng)絡(luò)梯度值作為初始值,部署到真實(shí)環(huán)境中,讓預(yù)訓(xùn)練后的網(wǎng)絡(luò)指導(dǎo)現(xiàn)實(shí)中的天面調(diào)整,同時也在真實(shí)環(huán)境下執(zhí)行下一步訓(xùn)練過程。

3 虛擬環(huán)境建模與訓(xùn)練

研究將天饋系統(tǒng)按地理位置與行政關(guān)系劃分成多個小區(qū),將單一小區(qū)內(nèi)部的信號覆蓋優(yōu)化問題建模成多智能體的馬爾可夫決策問題[7]。在該問題背景下,智能體之間既有合作又有競爭,導(dǎo)致該博弈環(huán)境具有非穩(wěn)定性。使用多智能體深度確定性策略梯度算法,通過集中式訓(xùn)練、分布式執(zhí)行的方式,在每個智能體中,將全局的行為決策作為環(huán)境的一部分。這種新環(huán)境具有馬爾可夫假設(shè)[7]的穩(wěn)定性。為了避免智能體在真實(shí)業(yè)務(wù)場景下進(jìn)行激進(jìn)探索,提出先預(yù)訓(xùn)練再遷移的算法部署流程,并為原問題引入約束條件進(jìn)行CMDP建模。在系統(tǒng)部署伊始,為對應(yīng)的業(yè)務(wù)小區(qū)進(jìn)行虛擬環(huán)境建模,并在該虛擬環(huán)境下進(jìn)行MADDPG算法的預(yù)訓(xùn)練。

3.1 虛擬環(huán)境建模

這里,虛擬環(huán)境基于電信公司RSRP信號覆蓋地圖。虛擬環(huán)境包含一個區(qū)域,區(qū)域內(nèi)有M個基站,每個基站上有3個天面,每個天面有其垂直覆蓋角度、水平覆蓋角度、俯仰角調(diào)整范圍、方位角調(diào)整范圍等參數(shù),每個基站有其高度、位置等參數(shù)。本系統(tǒng)以區(qū)域?yàn)閱挝贿M(jìn)行訓(xùn)練,區(qū)域內(nèi)的每一個天面都是單獨(dú)的智能體,因此智能體的數(shù)量有個。參考RSRP信號覆蓋地圖,以 m為每個格子的邊長,整個區(qū)域擁有個格子,每個格子的顏色代表該100 m2內(nèi)的平均RSRP值,從~均勻分成了個級別。其中,紅色、橙色、黃色代表以下的信號覆蓋水平,信號較好的部分細(xì)分成了4種由深到淺的藍(lán)色。

虛擬環(huán)境參考OpenAI Gym的格式設(shè)計接口,執(zhí)行的行為是調(diào)整方位角。與調(diào)整俯仰角 。,要達(dá)成的狀態(tài)空間是重組成一維數(shù)據(jù)后的RSRP覆蓋地圖??梢酝ㄟ^“reset”接口來重置環(huán)境,通過“step”接口來傳入行為(需要指定作為行動者的天面)并獲得執(zhí)行操作后的環(huán)境狀態(tài)。

為了模擬真實(shí)的城市環(huán)境,使用瑞利衰減模型[17]來計算天面輻射信號的傳輸增益。根據(jù)5G的空分特性[15],相鄰基站間只有的幾率會發(fā)生沖突。圖5給出了用Tkinter軟件繪制的虛擬環(huán)境可視化窗口界面。設(shè)置了的正方形虛擬小區(qū),每個方格區(qū)域的邊長m,虛擬RSRP信號覆蓋地圖的尺寸為m。在Tkinter的畫板上,用黑色圓點(diǎn)標(biāo)識出了小區(qū)內(nèi)的所有基站。

3.2 實(shí)驗(yàn)訓(xùn)練實(shí)施及其結(jié)果

實(shí)驗(yàn)基于 python 3.9 下的 pytorch 1.8 環(huán)境,在 macOS Big Sur 11.2(處理器 Intel Core i9 9880H,內(nèi)存 16 GB 2667 MHz DDR4,顯卡 AMD Radeon Pro 5500M 8 GB)平臺完成開發(fā)與可執(zhí)行性調(diào)試,并在Windows10 20H2(處理器 Intel Xeon Gold 6133,內(nèi)存256 GB DDR4 ECC,顯卡 GTX 1070ti 8 GB×2)平臺下使用 cuda_11.1 進(jìn)行模型訓(xùn)練。

在多智能體強(qiáng)化學(xué)習(xí)環(huán)境中,神經(jīng)網(wǎng)絡(luò)的尺寸相對較小,主要的時間開銷來自于環(huán)境更新與數(shù)據(jù)預(yù)處理過程。尤其是 CMDP 求解中的策略采樣算法,將在一次更新中花費(fèi)大量時間,多次進(jìn)行環(huán)境狀態(tài)轉(zhuǎn)移與線性探測補(bǔ)點(diǎn)操作。上述操作都是基于 CPU 的。選擇 40 核 80 線程的雙路 Intel Xeon Gold 6133 以提供較好的 CPU 計算能力。在顯卡方面,考慮到這并非核心需求,因此選用了2張 GTX 1070ti 以提供 16 GB 的顯存容量。為了直觀表現(xiàn)算法的有效性,可以通過可視化的方式呈現(xiàn)充分訓(xùn)練后算法在環(huán)境中的預(yù)測表現(xiàn)。如果取5 000次經(jīng)歷后的算法數(shù)據(jù),即50×104次更新后的神經(jīng)網(wǎng)絡(luò)參數(shù),對一個初始狀態(tài)的環(huán)境進(jìn)行10次更新,每次更新情況如圖6所示。

圖6給出了每一步更新時虛擬小區(qū)內(nèi)各智能體的平均回報值、整個小區(qū)的目標(biāo)函數(shù)值,以及為覆蓋率。在該測試中,將約束收縮到了(表示約束上限值),并允許智能體執(zhí)行的行為。分析該圖發(fā)現(xiàn),該系統(tǒng)經(jīng)過足夠的預(yù)訓(xùn)練后能快速將信號覆蓋率調(diào)整至約束條件下,并在10次更新內(nèi)實(shí)現(xiàn)令人滿意的覆蓋效果。

4 結(jié)" 語

結(jié)合電信公司提供的基站信號覆蓋地圖中收集到的實(shí)時覆蓋數(shù)據(jù),研究了5G基站自適應(yīng)天饋系統(tǒng)設(shè)計相關(guān)問題。通過改進(jìn)MADDPG算法和修改Critic網(wǎng)絡(luò)顯著以降低整個算法的空間復(fù)雜度;為自適應(yīng)天饋系統(tǒng)設(shè)計了一套基于人工智能算法的調(diào)度方案,從而實(shí)現(xiàn)真實(shí)業(yè)務(wù)場景下的CMDP策略采樣。在系統(tǒng)設(shè)計中,為每個天面劃分潛在的覆蓋區(qū)域,將該區(qū)域的RSRP分布作為每一個狀態(tài)下的觀測值,研究了天饋系統(tǒng)在各觀測值下的信號輻射方向調(diào)整策略。針對5G環(huán)境,在多智能體強(qiáng)化學(xué)習(xí)方面設(shè)計了一套環(huán)境觀測值的歸一化采樣方案,讓預(yù)訓(xùn)練出的算法模型可以遷移到真實(shí)業(yè)務(wù)場景下;提出線性探測補(bǔ)點(diǎn)的方法,從而避免觀測值中出現(xiàn)空值點(diǎn),保證預(yù)測的可靠性。所用智能調(diào)節(jié)算法能夠有效避免智能體的激進(jìn)探索,在大幅度提高算法收斂性能的同時,降低了算法的空間復(fù)雜性,可為整個系統(tǒng)在業(yè)務(wù)場景下的部署提供理論支撐。

參考文獻(xiàn)

[1]" 周俊, 權(quán)笑, 馬建輝. 5G無線優(yōu)化面臨的挑戰(zhàn)及應(yīng)對策略[J]. 電信科學(xué), 2020, 36(1): 58-65.

Zhou J, Quan X, Ma J H. Challenge and strategy of 5G radio optimization[J]. Telecommunications Science, 2020, 36(1): 58-65. (in Chinese)

[2]" 趙國鋒, 陳婧, 韓遠(yuǎn)兵, 等. 5G移動通信網(wǎng)絡(luò)關(guān)鍵技術(shù)綜述[J]. 重慶郵電大學(xué)學(xué)報(自然科學(xué)版), 2015, 27(4): 441-452.

Zhao G F, Chen J, Han Y B, et al. Prospective network techniques for 5G mobile communication: a survey[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2015, 27(4): 441-452. (in Chinese)

[3]" 杜威, 丁世飛. 多智能體強(qiáng)化學(xué)習(xí)綜述[J]. 計算機(jī)科學(xué), 2019, 46(8): 1-8.

Du W, Ding S F. Overview on multi-agent reinforcement learning[J]. Computer Science, 2019, 46(8): 1-8. (in Chinese)

[4]" 殷昌盛, 楊若鵬, 朱巍, 等. 多智能體分層強(qiáng)化學(xué)習(xí)綜述[J]. 智能系統(tǒng)學(xué)報, 2020, 15(4): 646-655.

Yin C S, Yang R P, Zhu W, et al. A survey on multi-agent hierarchical reinforcement learning[J]. CAAI Transactions on Intelligent Systems, 2020, 15(4): 646-655. (in Chinese)

[5]" Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.

[6]" Goodfellow I, Bengio Y, Courville A, et al. Deep learning [M]. US:MIT press Cambridge, 2016.

[7]" Littman M L." Markov games as a framework for multi-agent reinforcement learning [J]. Machine Learning Proceedings, 1994: 157-163.

[8]" Foerster J N, Assael Y M, de Freitas N, et al. Learning to communicate with deep multi-agent reinforcement learning[EB/OL]. 2016: arXiv: 1605.06676. https://arxiv.org/abs/1605.06676.

[9]" Hong Z W, Su S Y, Shann T Y, et al. A deep policy inference Q-network for multi-agent systems[EB/OL]. 2017: arXiv: 1712.07893. https://arxiv.org/abs/1712.07893.

[10]" Hessel M, Modayil J, Van Hasselt H, et al. Rainbow: combining improvements in deep reinforcement learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1): 3215-3222.

[11]" Foerster J, Nardelli N, Farquhar G, et al. Stabilising experience replay for deep multi-agent reinforcement learning[C]//Proceedings of the 34th International Conference on Machine Learning - Volume 70. August 6 - 11, 2017, Sydney, NSW, Australia. New York: ACM, 2017: 1146–1155.

[12]" Babaeizadeh M, Frosio I, Tyree S, et al. GA3C: GPU-basedA3C for deep reinforcement learning[EB/OL]. 2016: arXiv: 1611.06256. https://arxiv.org/abs/1611.06256.

[13]" Abbas N, Zhang Y, Taherkordi A, et al. Mobile edge computing: a survey[J]. IEEE Internet of Things Journal, 2018, 5(1): 450-465.

[14]" 高松濤, 程日濤, 鄧安達(dá). 5G天饋系統(tǒng)下傾角設(shè)置原則研究[C]//5G網(wǎng)絡(luò)創(chuàng)新研討會(2020)論文集. 北京:移動通信,2020: 272-275.

Gao ST , Cheng R T , Deng A D . Research on setting principle of dip angle of 5G antenna feed system [C]//5G Network Innovation Seminar (2020). Beijing, China: Mobile Communications, 2020: 272-275. (in Chinese)

[15]" Gupta A, Jha R K. A survey of 5G network: architecture and emerging technologies[J]. IEEE Access, 2015, 3: 1206-1232.

[16]" Galindo-Serrano A, Giupponi L. Distributed Q-learning for aggregated interference control in cognitive radio networks[J]. IEEE Transactions on Vehicular Technology, 2010, 59(4): 1823-1834.

[17]" Sklar B. Rayleigh fading channels in mobile digital communication systems Part II: Mitigation[J]. IEEE Communications Magazine, 1997, 35(7): 102-109.

(編輯" 侯湘)

主站蜘蛛池模板: 久久精品亚洲热综合一区二区| 精品国产aⅴ一区二区三区| 综合色在线| 欲色天天综合网| 粉嫩国产白浆在线观看| 91精品国产一区自在线拍| 免费jjzz在在线播放国产| 亚洲色图欧美在线| 成人国产免费| 日韩无码视频专区| 91麻豆国产精品91久久久| 精品撒尿视频一区二区三区| 欧美亚洲国产一区| 国产乱子伦视频在线播放| 欧美一级在线播放| 五月天婷婷网亚洲综合在线| 青青草原国产精品啪啪视频| 日本免费高清一区| 欧美日韩北条麻妃一区二区| 999国内精品久久免费视频| 九色视频线上播放| 都市激情亚洲综合久久 | 91亚洲视频下载| 国产18在线播放| 激情爆乳一区二区| 国产粉嫩粉嫩的18在线播放91| 精品久久久久久中文字幕女| 欧美精品在线免费| 成人精品区| 国产精品19p| 国产日产欧美精品| 久久五月天综合| 日韩欧美国产综合| 国产在线98福利播放视频免费| 亚洲国语自产一区第二页| jizz亚洲高清在线观看| 欧美精品亚洲二区| 亚洲av综合网| 亚洲一区网站| 黄色污网站在线观看| 国产一区二区三区免费观看| 中文字幕不卡免费高清视频| 99视频在线免费观看| 国产情精品嫩草影院88av| 亚洲青涩在线| 草草线在成年免费视频2| 亚洲日本www| 国产精品尤物铁牛tv | 国产成人精品男人的天堂下载 | 成人在线综合| 色香蕉影院| 少妇人妻无码首页| 欧美一级高清免费a| 午夜色综合| 亚洲一级毛片在线观播放| 一级成人a毛片免费播放| 日韩第九页| 中国国产高清免费AV片| 国产一线在线| 一级毛片视频免费| 综合网天天| 国产福利在线免费| 亚洲精品午夜无码电影网| 国产欧美精品一区二区| 亚洲欧洲日韩久久狠狠爱| 色偷偷一区| 亚洲精品无码在线播放网站| 人妻夜夜爽天天爽| 91人妻日韩人妻无码专区精品| a毛片免费看| 国产乱码精品一区二区三区中文 | 黄色一及毛片| 午夜福利无码一区二区| 日本一本正道综合久久dvd | 自拍欧美亚洲| 免费一级全黄少妇性色生活片| 国产福利微拍精品一区二区| 最新日本中文字幕| 亚洲精品视频免费| 91在线无码精品秘九色APP| 亚洲欧美日韩高清综合678| 亚洲自偷自拍另类小说|