999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

LAA/Wi-Fi共存時智能競爭信道算法研究

2022-02-15 02:48:38吳楚鑫
信息記錄材料 2022年12期
關(guān)鍵詞:動作智能

周 洋,周 琴,吳楚鑫

(湖北大學(xué) 湖北 武漢 430062)

0 引言

為了滿足頻譜需求,部署在授權(quán)頻段上的LTE開始轉(zhuǎn)向非授權(quán)頻段,Rel-13提出了在未授權(quán)頻譜上的授權(quán)輔助(licensed-assisted access,LAA)技術(shù)。5GHz頻段上有豐富的頻譜資源,但已部署有Wi-Fi技術(shù),因此LAA和Wi-Fi的公平高效共存問題一直在被研究。授權(quán)輔助(licensed-assisted access,LAA)引入先聽后說(listen before talk,LBT)公平機制,該機制主要是對信道進行監(jiān)聽,當(dāng)信道顯示忙碌時,等待數(shù)據(jù)傳輸?shù)墓?jié)點應(yīng)該延遲訪問進入回退階段,它需要從競爭窗口中隨機選擇一個回退時間,在回退階段結(jié)束后再傳輸數(shù)據(jù)。Wi-Fi采用與此類似的帶有沖突避免的載波偵聽多路訪問(carrier sense multiple access with collision avoid,CSMA/CA)機制[1],經(jīng)過一段空閑的分布式幀間間隙(distributed inter-frame spacing,DIFS)后,節(jié)點進入回退階段,當(dāng)回退時間減少至零時開始傳輸數(shù)據(jù)。

為了獲得更大的可用帶寬和更高的數(shù)據(jù)傳輸速率,LAA引入了多載波LBT機,通過聚合多個載波傳輸數(shù)據(jù)。該機制有兩種類型,類型A和類型B。在類型A中,每個候選載波都需要進行LBT過程,且使用率先完成LBT的載波來進行數(shù)據(jù)傳輸,顯然在每個載波上進行LBT過程會造成資源的浪費。而在類型B中首先在候選載波中選出一個載波作為主載波在其上進行LBT過程,當(dāng)主載波上的LBT快結(jié)束時,在其他的輔助載波上進行一個快速的CCA過程,然后將主載波與空閑的輔助載波進行聚合來傳輸數(shù)據(jù)。Wi-Fi引入了信道綁定技術(shù),信道綁定技術(shù)是指在根據(jù)選定主信道之后再盡可能地與其他空閑連續(xù)信道進行綁定。多信道的傳輸雖然可以提高數(shù)據(jù)的傳輸效率但是也有增加節(jié)點之間碰撞的風(fēng)險,因此節(jié)點在競爭信道時,信道的選取十分重要。Liu、Shen等[2]提出了一種針對B型LBT的主載波選擇機制,即先完成LBT過程的載波被選為主載波,不觀察信道情況而隨意選取主信道的方式過于隨意,會降低系統(tǒng)的性能。高通協(xié)議提出了一種基于自延遲的LBT機制來實現(xiàn)多載波運行。每個節(jié)點將獨立執(zhí)行LBT過程,如果其中一個節(jié)點完成了LBT過程,則需要繼續(xù)等待,直到LBT同步邊界(LSB)允許其他節(jié)點完成退避。這種方法會使得率先完成LBT過程的節(jié)點因為等待其他節(jié)點上的LBT過程而失去傳輸機會。Faridi A等[3]在不存在碰撞的假設(shè)下,提出了利用馬爾可夫鏈模型來提高系統(tǒng)性能的方法。這種方式過于理想,在現(xiàn)有的無線接入機制中,不可能忽略節(jié)點之間的碰撞。Kai、Liang等[4]提出了一種實現(xiàn)DCB無線局域網(wǎng)最大吞吐量的信道分配算法。將吞吐量最大化建模為整數(shù)非線性規(guī)劃問題,并采用基于分支定界法的最優(yōu)信道分配算法求解該問題。這種方法計算的過程較為復(fù)雜繁瑣,需要大量的計算。Lanante L等[5]提出了一種通過計算閾值來確定是否綁定更寬的信道方法,該算法需要的網(wǎng)絡(luò)參數(shù)較多,不便收集。

近年來對深度強化學(xué)習(xí)(deep reinforcement learning,DRL)的研究十分廣泛,DRL是強化學(xué)習(xí)(reinforcement learning,RL)和深度學(xué)習(xí)(deep learning,DL)的結(jié)合體,RL擅長學(xué)習(xí)解決問題的策略,但由于維度問題缺乏拓展性。DL具有強大的函數(shù)擬合能力和表示學(xué)習(xí)特性,能在一定程度上解決了自身高維度的本質(zhì)特性。DRL包含了強化學(xué)習(xí)(RL)的學(xué)習(xí)能力和深度神經(jīng)網(wǎng)絡(luò)的泛化和逼近能力。在無線通信中,可以采用DRL的方式來選擇最佳競爭窗口來提高系統(tǒng)的性能[6]。另外,流量達到的模式也可以通過DRL在線學(xué)習(xí)來適應(yīng)不斷變化的環(huán)境[7]。

在LAA和Wi-Fi的公平高效共存問題上,假如LAA或Wi-Fi系統(tǒng)其中一種使用多信道數(shù)據(jù)傳輸?shù)姆绞剑瑒t會對另一系統(tǒng)不公平。目前很少有論文研究當(dāng)這兩類異構(gòu)的網(wǎng)絡(luò)節(jié)點同時引入多信道數(shù)據(jù)傳輸?shù)募夹g(shù)的情況。

結(jié)合上述分析,本文提出了一種基于深度強化學(xué)習(xí)的智能算法。在將LAA的多載波LBT機制和Wi-Fi信道綁定技術(shù)同時引入信道競爭的情況下,節(jié)點通過智能信道選擇來提高系統(tǒng)性能。另一方面,單agent DRL會使動作空間的大小隨著網(wǎng)絡(luò)異構(gòu)節(jié)點的數(shù)量呈指數(shù)增長,嚴重影響了學(xué)習(xí)速度。為了加快學(xué)習(xí)速度,本文采用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)來快速達到收斂效果。

1 系統(tǒng)模型

假設(shè)考慮有NL個LAA節(jié)點和NW個Wi-Fi節(jié)點,以及K條20MHz的基本信道。Wi-Fi節(jié)點在綁定信道時嚴格按照如圖一所示的信道化標準[8],它可以將相鄰不重疊的基本信道綁定成20 MHz、40 MHz、80 MHz、160 MHz的寬信道,且Wi-Fi節(jié)點采用802.11 ac節(jié)點。假設(shè)K=4,Wi-Fi節(jié)點i可用信道集合Ci={[1],[2],[3],[4],[1,2][3,4][1,2,3,4]}。LAA節(jié)點j在使用多載波LBT機制時,只要聚合的載波數(shù)量在候選載波數(shù)量范圍之內(nèi),載波的數(shù)量以及載波是否為連續(xù)載波不受限制,因此LAA節(jié)點j可用載波(信道)集合Cj={[1],[2],[3,][4],[1,2],[1,3],[1,4],[2,3],[2,4],[3,4],[[1,2,3],[1,2,4],[2,3,4],[1,3,4],[1,2,3,4]}。在整個過程中,數(shù)據(jù)傳輸失敗的原因只考慮到節(jié)點之間發(fā)生碰撞。另一方面,時間被離散成若干個等距時隙,即t={t1,t2,t3…tend},在每一個等距的時隙內(nèi),節(jié)點要綁定的信道參數(shù)都不會發(fā)生變化。

圖1 802.11信道標準化

2 DDPG算法

節(jié)點競爭信道的過程可以被看成典型的馬爾可夫決策問題(markov decision process,MDP),該決策完全符合強化學(xué)習(xí)。強化學(xué)習(xí)是指智能體與環(huán)境進行交互的一個過程,它包含智能體、環(huán)境、動作、狀態(tài)、獎勵。智能體通過與環(huán)境交互,獲取狀態(tài)st并且經(jīng)過不斷地探索選擇出最佳策略π。具體來講,智能體在每一次探索中,都會執(zhí)行某個動作at,此時環(huán)境會發(fā)生變化達到一種新的狀態(tài)st+1,隨后智能體會被給出獎勵信號rt。根據(jù)這個獎勵信號,智能體會按照一定的策略執(zhí)行新的動作,通過不斷更新策略π尋找出最大預(yù)期的Q值,如式(1)。

其中,Q(s,a)表示智能體在接收到當(dāng)前信道的狀態(tài)s后,根據(jù)策略π執(zhí)行動作a,所獲得的未來累計獎勵。γ∈[0,1]為折扣因子。用未來的獎勵乘以該因子來減弱此類獎勵對智能體當(dāng)前動作的影響,隨后通過貝爾曼公式不斷更新值函數(shù)直到逼近最優(yōu)值函數(shù),此時智能體能夠?qū)W到最優(yōu)的策略π*,以及對應(yīng)的Q*值,如式(2)、式(3)。

傳統(tǒng)的RL受到維數(shù)限制,無法在大規(guī)模系統(tǒng)中應(yīng)用,它僅僅適用于當(dāng)動作空間和狀態(tài)空間都比較小的場景。為了克服傳統(tǒng)RL技術(shù)的維數(shù)限制,DRL技術(shù)被提出,它將DL集成到RL中,利用深度神經(jīng)網(wǎng)絡(luò)克服維數(shù)詛咒,從而能夠有效地解決大規(guī)模問題。目前一些研究已經(jīng)成功地將DRL引入到了無線應(yīng)用當(dāng)中[9-10]。本文針對具有連續(xù)高維狀態(tài)空間和動作空間的復(fù)雜任務(wù),進一步引入了深度確定性策略梯度(deep deterministic strategy gradient,DDPG)。DDPG屬于DRL中的一種,它能夠在連續(xù)的高維狀態(tài)空間和動作空間中進一步完成復(fù)雜任務(wù)。該算法基于Actor-Critic架構(gòu),通過相同的神經(jīng)網(wǎng)絡(luò)框架構(gòu)成當(dāng)前的Actor網(wǎng)絡(luò)和當(dāng)前Critic網(wǎng)絡(luò),目標Actor網(wǎng)絡(luò)以及目標Critic網(wǎng)絡(luò),共同來完成算法的決策和更新。當(dāng)前Actor網(wǎng)絡(luò)采用確定性策略μ來輸出動作at,at=at,at=μ(st|θμ),通過目標函數(shù)J來評價策略μ,用來找到最佳策略,即μ=argmaxμ J(μ),其中θμ表示產(chǎn)生確定性動作的參數(shù)。當(dāng)前Actor網(wǎng)絡(luò)通過鏈式規(guī)則更新,如式(4)。

當(dāng)前Critic網(wǎng)絡(luò)用于擬合參數(shù)化Q函數(shù)為Q(s,a|θQ),通過均方差函數(shù)梯度更新,具體如式(5)所示,式中yi=ri+γQ′(si+1,μ′(si+1|Qμ′)|θQ′),其中μ′和Q′分別對應(yīng)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)。

目標Actor網(wǎng)絡(luò)和目標Critic網(wǎng)絡(luò)的更新采用軟更新的形式,能夠使得目標網(wǎng)絡(luò)參數(shù)變化小,訓(xùn)練更易于收斂,軟更新的具體形式如(6)。

3 基于MADDPG的競爭信道算法

本文提出了一種基于DRL的信道競爭方法。由于競爭信道的節(jié)點個數(shù)較多,動作空間的大小呈指數(shù)增長,嚴重影響到學(xué)習(xí)速度。為了加快學(xué)習(xí)速度,本文采用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)來較快達到收斂效果。其動作、狀態(tài)、獎勵設(shè)計如下:

3.1 動作

有實驗和理論分析表明,信道綁定參數(shù)(P,B)對系統(tǒng)性能有重要影響,其中P表示主信道,B表示綁定的信道數(shù)量,為保證性能增益,應(yīng)謹慎選擇信道綁定參數(shù),當(dāng)基本信道K=4時,異構(gòu)節(jié)點在t時刻所對應(yīng)的動作空間如下。

LAA 節(jié)點i:

Wi-Fi節(jié)點j

3.2 狀態(tài)

LAA節(jié)點和Wi-Fi節(jié)點采用相同的狀態(tài),定義如下:

其中ι表示為隊長,λ表示數(shù)據(jù)包的到達率。

3.3 獎勵

整個實驗的目標是降低整個網(wǎng)絡(luò)的實驗,提高系統(tǒng)的吞吐量,因此獎勵設(shè)計如下:

3.4 MADDPG

算法一中給出了基于MADDPG信道競爭算法的偽碼,首先隨機初始化Actor網(wǎng)絡(luò)μi(s|θiμ)和Critic網(wǎng)絡(luò))Qi(s,a|θiQ),建立對應(yīng)的Actor目標網(wǎng)絡(luò)Q′i和Critic目標網(wǎng)絡(luò)μ′i以及一個緩沖區(qū)。在每一個episode的最開始,節(jié)點的初始狀態(tài)都為{0,0}。在時刻t,節(jié)點根據(jù)當(dāng)前Actor網(wǎng)絡(luò)選取動作,并根據(jù)動作改變信道綁定參數(shù),獲得對應(yīng)的獎勵以及達到的新狀態(tài),另外將全局動作、全局狀態(tài)、全局獎勵,和新的全局狀態(tài)放入到緩沖區(qū)中。接下來的每個節(jié)點都要在緩沖尺中采樣出一個尺寸大小為L的mini-batch并且通過所有節(jié)點的目標網(wǎng)絡(luò),緩沖區(qū)的樣本以及Critic網(wǎng)絡(luò)來計算損失,最后更新Critic網(wǎng)絡(luò),Actor網(wǎng)絡(luò)以及對應(yīng)的目標網(wǎng)絡(luò)。

算法一:初始化Actor網(wǎng)絡(luò)μi(s|θiμ)和Critic網(wǎng)絡(luò))Qi(s,a|θiQ),建立對應(yīng)的 Actor 目標網(wǎng)絡(luò)Q′i和 Critic目標網(wǎng)絡(luò)μ′i以及一個緩沖區(qū)R。

a)For episode in {1,2...}do

b)初始化狀態(tài)si,1= {0,0}

c)For t in {t1,t2,t3…tend}

d)For each agenti/j,選擇ai/j,t=Sample [μi/j(si/j,t)]

e)根據(jù)式(8)獲得獎勵ri/j,t并且達到新狀態(tài)si/j,t+1

f)在緩沖尺 R中存儲 (st,at,rt,st+1),其中st={s1,t…sN,t},at={a1,t…aN,t},rt={r1,t…rN,t},st+1={s1,t…sN,t+1}

g)For agenti/jin {1,2,3…,N}

h)在緩沖尺R中采樣出一個尺寸大小為L的minibatch

i)yi/j=ri+γQ′(si/j+1,μ′(si/j+1|Qμ′)|Qμ′)

j)根據(jù)式(3)更新actor網(wǎng)絡(luò)

k)根據(jù)式(4)更新critic網(wǎng)絡(luò)

l)結(jié)束

m)根據(jù)式 (6)為每一個代理更新目標網(wǎng)絡(luò)

n)結(jié)束

4 實驗

4.1 仿真環(huán)境

采用Python3.6+TensFlow1.5進行模擬仿真實驗??紤]到了不同節(jié)點數(shù)下的LAA和Wi-Fi競爭信道的情況,異構(gòu)節(jié)點上的流量包按照隨機模式到達,且在固定時間內(nèi)發(fā)生變換。其主要參數(shù)如表1、表2所示。

表1 仿真參數(shù)

表2 神經(jīng)網(wǎng)絡(luò)參數(shù)

4.2 對比試驗

為了證實MADDPG算法的優(yōu)越性,本文將該算法的性能與如下算法進行比較。

隨機選擇算法(Random select):不考慮信道環(huán)境,節(jié)點完全隨機選擇通道鍵合參數(shù)。

DQN算法:該算法是每個代理獨立學(xué)習(xí)并最大化其回報。對于單個agent,動作和狀態(tài)的設(shè)計與MADDPG算法相同,但不是整體的平均獎勵,每個agent有一個單獨的獎勵。

4.3 結(jié)果分析

圖2顯示了MADDPG算法在四種不同節(jié)點數(shù)情況下的收斂性。除波動較大的場景(c)外,其他三種場景的收斂相對穩(wěn)定。這表明該算法具有良好的收斂性。圖3顯示了在不同場景中使用MADDPG算法時Wi-Fi和LAA各自的吞吐量,表明使用該算法時Wi-Fi和LAA的共存相對公平。圖4和圖5顯示了四種場景下不同算法下所有節(jié)點的總吞吐量和平均延遲。結(jié)果表明,該算法的總吞吐量優(yōu)于其他算法。此外,該算法的平均延遲明顯低于其他兩種算法。

圖2 不同節(jié)點數(shù)在(a)、(b)、(c)、(d)情境下訓(xùn)練的總獎勵

圖3 不同情景下LAA和Wi-Fi各自的吞吐量

圖4 不同算法下LAA和Wi-Fi節(jié)點的總吞吐量

圖5 不同算法及不同總節(jié)點數(shù)下各個節(jié)點的平均時延

5 結(jié)語

本文提出了一種基于MADDPG的競爭信道智能算法,在該算法中,LAA和Wi-Fi節(jié)點通過不斷地探索、依據(jù)最佳策略選擇出最優(yōu)的主信道和信道的綁定數(shù)量來提高系統(tǒng)的性能,仿真結(jié)果表明MADDPG算法具有較好的收斂性,使得LAA/Wi-Fi保持相對的公平,且在吞吐量、平均時延等方面優(yōu)于其他對比算法。

猜你喜歡
動作智能
下一個動作
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
動作描寫要具體
畫動作
讓動作“活”起來
主站蜘蛛池模板: 成人在线观看不卡| 中国丰满人妻无码束缚啪啪| 亚洲av日韩综合一区尤物| 国产黄视频网站| 四虎精品国产永久在线观看| 日韩久草视频| 男人天堂亚洲天堂| 白丝美女办公室高潮喷水视频| 丰满人妻一区二区三区视频| 亚洲无码视频喷水| av午夜福利一片免费看| 欧美在线一二区| 色欲综合久久中文字幕网| 911亚洲精品| 国产精品尹人在线观看| 亚洲国产av无码综合原创国产| 67194在线午夜亚洲 | 在线观看无码av免费不卡网站| 国产欧美精品专区一区二区| 国产无码在线调教| 欧美在线精品一区二区三区| 国产日本欧美亚洲精品视| 国产精品亚洲精品爽爽| 国产91高清视频| 精品国产乱码久久久久久一区二区| 一级毛片网| 亚洲AV无码乱码在线观看裸奔| 无码AV高清毛片中国一级毛片| 91成人试看福利体验区| 亚洲美女一区| 国产精鲁鲁网在线视频| 欧美啪啪一区| 夜夜操国产| 美女亚洲一区| 伊人国产无码高清视频| 国产免费人成视频网| 看你懂的巨臀中文字幕一区二区| 日本在线国产| 日韩欧美国产成人| 思思热在线视频精品| 99久久精品免费看国产免费软件| 国产欧美视频在线| 国产va在线观看免费| 国产免费久久精品99re丫丫一| 亚洲色无码专线精品观看| 国产人人乐人人爱| 国产成人资源| 天天综合色网| 国产亚洲视频在线观看| 狼友视频一区二区三区| 亚洲国产中文欧美在线人成大黄瓜 | 亚洲国产成人精品一二区| 国产精品开放后亚洲| 白浆视频在线观看| 高清色本在线www| 一级毛片免费高清视频| 国产色偷丝袜婷婷无码麻豆制服| 熟女视频91| 亚洲精品午夜天堂网页| 国产成本人片免费a∨短片| 亚洲另类色| 91偷拍一区| 色婷婷成人网| 亚洲综合天堂网| 色偷偷综合网| 国产主播在线一区| av尤物免费在线观看| 国产区免费精品视频| 亚洲免费福利视频| 国内精品一区二区在线观看| 综合色区亚洲熟妇在线| 99视频精品全国免费品| 青青草欧美| 国产成人久久777777| 午夜不卡视频| 色婷婷视频在线| 青草国产在线视频| 影音先锋丝袜制服| 国产精品区网红主播在线观看| 亚洲日产2021三区在线| 国产精品嫩草影院视频| 国产精品 欧美激情 在线播放|