999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙深度強化學習的切換算法分析

2021-09-26 03:23:42董春利王莉
無線互聯科技 2021年15期

董春利 王莉

摘 要:由于包括毫米波頻率,導致5G網絡中的切換更具挑戰性,基站(BS)部署更加密集。由于毫米波BS的占用空間較小,進一步增加了切換的數量,從而使切換管理成為一項更關鍵的任務。因為隨著切換數量的增加,降低了服務質量(QoS)和體驗質量(QoE),以及更高的信令開銷。文章討論了一種基于雙深度強化學習(DDRL)的離線方案,以最小化毫米波網絡中切換的頻率,從而減輕不利的QoS。由于考慮到的5G環境的固有特性,會產生連續且大量的狀態空間,因此與傳統的? ? ? ?Q學習算法相比,DDRL更可取。

關鍵詞:雙重深度強化學習;切換管理;毫米波通信

0 引言

數量眾多的狀態和動作會產生兩個問題。第一個問題是隨著狀態數量的增加,存儲和更新狀態動作表所需的內存量也隨之增加。其次,探索每個狀態以準確填充Q表所需的時間顯著增加。Q學習的另一個局限性是它只能在具有離散和有限狀態和動作空間的環境中工作,這意味著Q學習無法估計任何未學習狀態的Q值[1]。

1? ? 基于DDRL的最佳基站(BS)選擇

有學者指出,可以通過大量的動作和連續狀態來有效地進行操作,用不同的方式來實現RL[2]。新架構利用人工神經網絡(ANN)來存儲狀態和狀態動作值。給出狀態作為輸入,并生成狀態動作值,該值是所有可能動作的Q值,作為給定觀察狀態的輸出。本文出于兩個主要原因,采用了雙深度強化學習(DDRL),而不是 DRL。DRL在某些游戲中存在嚴重的高估問題,其次基于環境的設計,運行兩種算法后,得出與Van等專家相同的結論,在結果部分中包含了DDRL和DRL之間的比較結果[3]。

DDRL是使用和維護兩個單獨的深度Q網絡(DQN)的RL算法。DQN是多層感知器神經網絡,它針對給定的輸入狀態s估計輸出動作值Q(s,a;θ),其中θ是網絡的參數。根據Van等專家的研究,DDRL的兩個獨立網絡是目標網絡和在線網絡[3]。參數為θ-的目標網絡與在線網絡相同,不同之處在于其參數每隔τ步從在線網絡更新一次,使得θt-=θt,并在所有其他步驟中保持固定。DDRL通過分解目標網絡中的最大操作為動作選擇和動作評估,來減少過高估計。因此,根據在線網絡評估貪婪策略,并在目標網絡中估計值。該算法的重要內容解釋如下:

(1)動作:動作定義為發生A2事件時要連接的BS。將動作空間(a∈A(s))中的動作定義為狀態s下,服務BS指標的標量表示,集合A包括環境中的所有BS。

(2)狀態向量:傳統上,移動性管理和其他BS關聯策略通常考慮UE的位置,以將其與服務BS關聯。但是,這項研究考慮了UE從所有周圍BS接收到的SNR的組合,以表示感興趣的位置,而不是UE的確切位置(即UE位置的地理坐標)。實際上,獲取UE的確切位置是不切實際的。因此,可以沿著UE軌跡的所有BS中的γ視為關注點的代表,而不是地理坐標。

(3)獎勵設計:獎勵設計是為了激勵智能體采取行動,從長遠來看將使累積獎勵最大化,并且因為我們的目標是在給定的軌跡上實現最大的系統吞吐量(T)。可以通過最小化切換成本(βc)來最大化T。為了使βc最小,對于給定的速度(v)和切換時間延遲(td),參數H1應盡可能小。可以通過實現切換跳過策略來控制參數H1。從技術上講,智能體在不設置恒定值的情況下啟動間接觸發時間(TTT),并且應該智能地完成此過程以確保UE達到最大吞吐量,而無須跳過某些必要的切換。此方法已用于4G之前的微基站和宏基站,并且手動確定了TTT參數。另外在切換期間,使T最大化的同時,最小化βc的值,在滿足約束γs≥γth的情況下,智能體可以選擇將來事件A2的數目較少的BS,稱為有遠見的切換決策。

(4)經驗重放:經驗重放的目的是克服學習算法的不穩定性。經驗重放用于更新深度Q網絡,以便在基于監督學習的更新過程中,同時考慮當前和以前的經驗。這意味著在訓練過程中不僅要考慮從當前在線學習網絡獲得的樣本(s, a, r, s),還要考慮舊經驗樣本(s, a, r, s)。因此經驗重放會在一段時間內存儲觀察到的過渡,并從該存儲庫中統一采樣以更新網絡。

(5)學習算法:智能體如何與環境交互?在毫米波環境中,對于每個UE而言存在大量的BS,障礙物的出現主要是初始化事件A2。因此提出的解決方案確保當事件A2啟動時,UE便會切換到它的視距(LOS)連接暢通時間較長的BS或智能地跳過切換。提出的解決方案涉及兩個階段:學習階段和執行階段。

在學習階段,使用離線學習,智能體通過模擬環境中的UE軌跡來收集必要的信息。智能體模擬從UE路徑的起點到終點的軌跡,并且智能體以嘗試錯誤的方式執行切換。值得注意的是,我們假設軌跡感知的切換,因此,UE采取的路徑是明確已知的,并且在切換期間,如果跳過切換導致最大的累積獎勵,則智能體可以選擇提供少于γth的相同BS。通過反復試驗,智能體可以并行了解兩件事:首先,在切換事件中,與UE連接的哪個BS最好;其次,如果要發生切換,則在γs≥γth的情況下,在確定目標BS之前,UE應當保持多長時間與BS連接,后一信息可用于制定主動切換決策。

2? ? DDRL算法的智能體學習過程

該算法從智能體觀察環境狀態和服務類型開始。具體地,在訓練階段,UE根據所述條件之一,采取動作a。如果滿足條件γs≥γth,則UE繼續服務于BS;否則UE使用“貪婪策略”,以小于探索率的概率ε和隨機方式選擇BS;否則它將使用策略arg max Q (s, a; θ)選擇BS。UE接收獎勵r,并移動到下一位置p+1。在新位置中,UE生成狀態sp + 1,在當前狀態和相同過程從頭開始,并且受到上述相同規則的控制。經驗過渡樣本(s, a, r, s)存儲在重放存儲器緩沖區D中,以進行經驗重放。該過程一直持續到達到最終狀態為止,并且另一個迭代開始直到學習結束。經過一些學習步驟后,ε將從1降低到0.1。

在執行階段,智能體根據上述規則采取行動a。但是ε設置為0.002,這意味著智能體使用0.2%的時間進行探索,而其余時間使用arg max Q (s, a; θ)的策略。在模型的評估階段,使用相同的環境,但更改了表示軌跡中UE位置的點,以測試模型的魯棒性和泛化行為。值得注意的是在執行階段沒有學習更新。但是,為了使控制器使用新數據集進行更新,UE會持續將觀察狀態發送到控制器以更新在線策略。

3? ? 結語

本文為UDN場景中的毫米波通信,提供了一個智能的切換管理框架,以最大限度地減少切換發生的頻率,從而提高用戶的QoS。尤其是提出了一種具有離線學習框架的DDRL算法,以便利用歷史用戶軌跡信息來制定一種策略,通過同時考慮切換的數量和系統吞吐量來確保在切換期間選擇最佳BS。

[參考文獻]

[1]MICHAEL S M,ATTAI I A,METIN O.Intelligent handover decision scheme using double deep reinforcement learning[J].Physical Communication,2020(42):101-133.

[2]DULAC A G,EVANS R,VAN H H,ET AL.Deep reinforcement learning in large discrete action spaces[J].Computer Science,2015(v1):1512.

[3]VAN H H,GUEZ A,SILVER D.Deep reinforcement learning with double Q-learning[J].Computer Science,2015(A):1509.

(編輯 傅金睿)

Handover algorithm analysis based on dual deep reinforcement learning

Dong Chunli, Wang Li

(College of Electronic Information Engineering, Nanjing Vocational Technical Institute of Traffic, Nanjing 211188, China)

Abstract:Handovers (HO) have been envisioned to be more challenging in 5G networks due to the inclusion of millimeter wave (mm-wave) frequencies, resulting in more intense base station (BS) deployments. This, by its turn, increases the number of HO taken due to smaller footprints of mm-wave BS thereby making HO management a more crucial task as reduced quality of service (QoS) and quality of experience (QoE) along with higher signalling overhead are more likely with the growing number of HO. In this paper, we propose an offline scheme based on double deep reinforcement learning (DDRL) to minimize the frequency of HOs in mm-wave networks, which subsequently mitigates the adverse QoS. Due to continuous and substantial state spaces arising from the inherent characteristics of the considered 5G environment, DDRL is preferred over conventional Q-learning algorithm.

Key words:double deep reinforcement learning; handover management; millimeter-wave communication

主站蜘蛛池模板: 18禁影院亚洲专区| 天天做天天爱夜夜爽毛片毛片| 亚洲六月丁香六月婷婷蜜芽| 99热国产在线精品99| 91精品视频在线播放| 54pao国产成人免费视频| 国产特一级毛片| 91免费观看视频| 国产麻豆91网在线看| 波多野结衣第一页| 日本a∨在线观看| 国产无码性爱一区二区三区| 精品欧美一区二区三区在线| 欧美国产综合视频| 一区二区三区四区在线| 亚洲浓毛av| 人妻中文久热无码丝袜| 成年看免费观看视频拍拍| 精品亚洲国产成人AV| 人妻少妇久久久久久97人妻| 午夜小视频在线| 一区二区三区四区日韩| 国产乱人激情H在线观看| 香蕉伊思人视频| 亚洲色图综合在线| 无码精品国产VA在线观看DVD| AV网站中文| 久久综合干| 91久久国产成人免费观看| 精品人妻一区无码视频| 久久综合伊人77777| 91色在线观看| 久久婷婷五月综合色一区二区| а∨天堂一区中文字幕| 国产剧情国内精品原创| 99国产精品一区二区| 亚洲中文久久精品无玛| 欧美日韩免费| 国产夜色视频| 欧美日韩专区| 99久久精彩视频| 欧美天堂在线| 亚洲欧美成人在线视频| 国产激情第一页| 无码日韩视频| 免费中文字幕一级毛片| 国产理论最新国产精品视频| 国产在线97| 亚洲第一视频区| 成人国产精品网站在线看| 又黄又爽视频好爽视频| 韩日午夜在线资源一区二区| 在线色国产| 亚洲欧洲一区二区三区| 日韩午夜片| 在线观看亚洲精品福利片| 国产乱人激情H在线观看| 亚洲精品福利视频| 日韩欧美91| 日韩小视频在线播放| 国产日韩精品欧美一区灰| 国产精品美女网站| 四虎永久免费地址在线网站| 精品一区二区三区波多野结衣| 国产成人91精品免费网址在线| 亚洲 成人国产| 青青操国产视频| 国产99在线| 亚洲AV无码不卡无码| 97av视频在线观看| 日本亚洲最大的色成网站www| 久久a毛片| 亚洲精品国产精品乱码不卞| 国产无码精品在线| 亚洲中文字幕在线观看| 亚洲国产日韩欧美在线| 久久国产免费观看| 2021最新国产精品网站| 波多野结衣视频网站| 亚洲精品动漫| 国产精品.com| 国产手机在线观看|