999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習信道智能接入方法與NS3仿真

2021-11-17 08:36:58程一強劉澤華譚惠文
計算機仿真 2021年5期
關鍵詞:動作智能用戶

趙 楠,程一強,劉澤華,譚惠文

(1. 湖北工業大學太陽能高效利用湖北省協同創新中心,湖北 武漢 430068;2. 湖北工業大學太陽能高效利用及儲備運行控制湖北省重點實驗室,湖北 武漢 430068;3. 湖北省能源互聯網工程技術研究中心,湖北 武漢 430068)

1 引言

隨著無線通信技術的迅速發展,頻譜資源的需求越來越高。頻譜資源日益匱乏且利用率低,已成為制約無線通信發展的嚴峻問題[1]。多信道接入方法因其能夠有效地提高頻譜資源的利用率,受到研究者的廣泛關注。文獻[2]提出了一種基于異步睡眠喚醒的動態信道接入方法,以提高認知無線電網絡的能量利用效率。文獻[3]討論了基于雙頻譜感知的隨機信道接入問題,以最大化利用信道和選擇最優信道。文獻[4]研究了一種基于啟發式算法的主信道選擇策略,以提高多信道用戶的網絡吞吐量。文獻[5]提出了一種基于博弈論的優化方法,以提高信道接入概率。文獻[6]提出了基于時隙分類的多信道多址接入協議,以解決鏈路沖突和鏈路不足的問題。文獻[7]通過采用隨機延遲的信道接入方法,以降低系統延遲。文獻[8]提出了一種基于深度神經網絡(Deep Neural Network,DNN)的信道估計器,以跟蹤信道環境變化。文獻[9]研究了一種基于DNN的多信道認知無線電網絡資源分配策略,可以在提高授權用戶頻譜利用率的同時,適當地減少對主用戶的干擾。然而,上述多信道接入方法往往需要大量的網絡信息;同時,當信道狀態發生變化時,很難有效地實現信道的智能接入。因此,如何實現多信道的智能接入是一個值得關注和研究的問題。

近年來,深度強化學習方法(Deep Reinforcement Learning,DRL) 因其強大的學習能力,在智能決策、無人駕駛、邊緣卸載等領域取得了一些研究進展。在文獻[10]中,作者設計了一種動態自適應DNN算法,真實還原了自動駕駛汽車的視頻數據集。 文獻[11]提出了一種基于DNN的綜合能源系統負荷預測方法,對負荷的時間序列分量進行了預測,提高了綜合能源系統負荷預測的準確性。Han G等人提出了基于DRL的二維抗干擾通信系統,借助于卷積神經網絡(Convolutional Neural Networks,CNN),能夠大幅提高學習速度,有效地減少外部干擾[12]。文獻[13]研究了一種基于DRL的異構無線網絡媒體訪問控制協議,即使沒有最佳地設置強化學習框架的參數,也能夠獲得近似最優的信道訪問策略。在文獻[14]中,作者通過設計DNN,提出了雙選擇性衰落信道估計算法,不僅可以從先前的信道估計中提取信道變化的特征,而且能夠從導頻和接收信號中提取額外的特征。

鑒于此,受到DRL的啟發,本文旨在將強化學習策略引入到多信道接入,以期實現多信道的智能接入。在建立多信道接入模型的基礎上,將多信道智能接入問題建模為離散狀態與動作空間的馬爾可夫決策過程。針對Q-learning狀態空間過大和收斂速度較慢等問題,通過設計DNN,并利用梯度下降法來訓練 DNN 的權值,采用經驗回放策略降低經驗數據的相關性,修正損失函數解決狀態-動作值函數過高估計的問題,以獲得近似最優的多信道智能接入策略。最后,搭建NS3仿真平臺,驗證本文所提出方法的性能。

2 基于DRL的多信道智能接入方法

2.1 基本模型

假設用戶在從N個信道的選擇接入某一信道的過程中,會受到從第1個到第N個信道的周期性外部干擾。同時,考慮到用戶在當前時刻接入信道所獲得的效用僅與當前信道狀態有關,與信道之前狀態無關,上述多信道接入過程可描述為一個馬爾可夫決策過程(S;A;p(s′|s,a);r;π(a|s)),具體描述如下:

狀態空間S:當前時刻各信道狀態s的集合。0表示某一信道正處于空閑狀態,1表示某一信道已被占用。于是,N個信道的狀態空間S為2N。

動作空間A:選擇某一信道動作a的集合。

轉移概率p(s′|s,a):在信道狀態s情況下,采用某一動作a時,信道狀態s轉變為下一信道狀態s′的概率。

獎勵r:用戶采取某一動作a時,信道狀態從s轉移到下一信道狀態s′所獲得的獎勵。如果用戶與干擾沒有發生碰撞,獎勵r=r+1,產生碰撞r=r-1。

策略π(a|s):在信道狀態s時,選擇某一信道動作a的概率。

這里,本文定義累積獎勵R為所有獎勵r的累積,即

(1)

其中,rn表示在第n個時刻信道所獲得的獎勵。γ為衰減因子且γ∈[0,1),衰減因子決定了未來時刻獎勵和當前時刻獎勵的重要性。當衰減因子接近0時,意味著當前時刻獲得的獎勵權重較多;反之,當衰減因子接近1時,則意味著用戶應該更注重未來時刻獲得的獎勵。

2.2 深度強化學習

作為解決上述馬爾可夫決策過程的常用方法,強化學習不斷以試錯的方式與環境進行交互,通過最大化累積獎勵以獲得最優策略。強化學習根據環境的評價性反饋實現決策的優化,當用戶執行的某一動作得到正向的獎勵或回報時,反饋信號就會增強,用戶以后執行該動作的概率便會加強;反之,用戶以后執行該動作的概率便會降低。本文將強化學習方法應用于多信道接入,用戶通過觀察當前時刻各信道占位情況,從歷史經驗中學習,選擇接入下一時刻的最佳信道,避免與干擾產生碰撞,從而實現多信道智能接入。

這里,本文定義信道狀態s處選擇信道a得到的期望獎勵為狀態-動作值函數Q(s,a)

Q(s,a)=E[R|s,a].

(2)

于是,通過貝爾曼方程[15]得到最優的狀態-動作值函數Q*(s,a)

(3)

同時,狀態-動作值函數Q(s,a)更新過程可以表示如下

Q(s,a)=(1-δ)Q(s,a)+δQ-,

(4)

其中,Q-=r+γmaxa′Q(s′,a′),δ為學習率,它影響了狀態-動作值函數Q(s,a)的更新速度。

值得注意的是,N個信道的狀態空間S為2N,當N較大時,整個狀態空間S非常巨大。在這種情況下,如果采用經典的強化學習方法Q-learning,通過查找狀態-動作值函數Q(s,a)表獲得最優的信道接入策略,將變得非常困難。因此,本文提出基于DRL的多信道智能接入方法,以解決狀態空間過大的問題。

本文將DNN引入到Q-learning的框架中,以獲得近似最優的策略和狀態-動作值函數Q(s,a)。DNN以層次分明的方式組織起來,是一個具有多個處理層的神經網絡,并且每一層都由許多神經元組成,每個神經元都將前一層的輸出通過加權線性組合作為下一層的輸入。在這里,DNN由Online網絡和Target網絡組成,Online網絡使用帶有權重θ的狀態-動作值Q函數,以近似最優的狀態-動作值函數Q*(s,a);Target網絡使用帶有權重θ-的狀態-動作值Q函數,以提高整個網絡的性能。在特定的回合數后,復制Online網絡的權重θ以更新Target網絡的權重θ-。利用梯度下降法更新Online網絡的權重θ,以獲得最小損失函數

L=(r+γmaxa′Q(s′,a′,θ-)-Q(s,a,θ))2.

(5)

同時,為了降低經驗數據的相關性,本文采用經驗回放策略。在信道狀態s情況下,用戶通過執行動作a,獲得獎勵r,然后將信道狀態s轉變為下一信道狀態s′,DNN將這轉移信息〈s,a,r,s′〉保存在經驗回放存儲器D中。在學習過程中,從經驗回放存儲器D中隨機抽取mini-batch樣本〈s,a,r,s′〉,以訓練神經網絡。通過不斷減少訓練樣本之間的相關性,幫助用戶更好地學習,以避免最優策略陷入局部最小值。另外,神經網絡經常會過擬合部分經驗數據,通過隨機抽取mini-batch樣本〈s,a,r,s′〉,可以降低過擬合。

此外,考慮到上述DNN經常會過高地估計狀態-動作值函數Q(s,a,θ)。本文在(5)基礎上,設置兩個獨立的狀態-動作值Q函數,且每個函數獨立學習,將權重為θ的狀態-動作值Q函數用來選擇動作,權重為θ-的狀態-動作值Q函數用來評估動作。于是,修正后的損失8函數如下:

L=(y-Q(s,a,θ))2,

(6)

其中,y=r+γQ(s′,arg maxa′Q(s′,a′,θ),θ-)。

于是,本文提出的基于DRL多信道智能接入算法流程詳細描述如下:

步驟1:初始化當前時刻中各信道狀態s;

步驟2:利用ε-貪婪策略來選擇信道:以概率ε隨機選擇下一時刻接入的信道,以概率(1-ε)選擇接入滿足最優狀態-動作值函數Q(s,a,θ)的信道;

步驟3:在信道狀態s下,選擇信道接入動作a,并得到獎勵r。如果信道沒有與干擾產生碰撞r=r+1,產生碰撞r=r-1;

步驟4:信道狀態s轉移到下一信道狀態s′;

步驟5:將上述狀態轉移信息〈s,a,r,s′〉保存在經驗回放存儲器D中;

步驟6:從經驗回放存儲器D中隨機抽取mini-batch樣本〈s,a,r,s′〉;

步驟7:利用(6)計算損失函數,并借助梯度下降法獲得最小損失函數;

步驟8:間隔一定回合數后,將Online網絡的權重θ復制給Target網絡權重θ-;

步驟9:重復第2到第8步驟。

3 實驗結果分析

為了驗證基于DRL的多信道智能接入算法性能,本文在Ubuntu環境下,利用常見的離散事件網絡模擬器NS3,搭建多信道智能接入NS3仿真平臺。在整個仿真環境中,處理器為Inter Core i7,內存為4GB,虛擬機的版本號為VMware Workstation 10.0.4,Ubuntu的版本號為16.04 LTS,部分實驗代碼基于NS3.27庫編寫,其余仿真參數具體如表1所示。

表1 仿真參數設置

圖1描述了不同的衰減因子γ對平滑獎勵的影響。從圖1可以看出,隨著回合數的不斷增加,平滑獎勵增加,且曲線波動變小,逐漸趨于平緩。當γ=0.9時,與其它衰減因子相比較,平滑獎勵的曲線波動幅度較小,更加穩定,收斂速度更快。實驗結果表明,在本實驗中,用戶在未來時刻獲得的獎勵權重較多。

圖1 不同衰減因子性能影響 (N=5)

圖2顯示不同的學習率δ下平滑獎勵的變化情況。當學習率較大時,梯度在局部最小值附近來回震蕩,損失函數難以取得局部最小值,甚至可能無法收斂。反之,當學習率較小時,狀態-動作值函數Q(s,a,θ)和損失函數的變化更新速度較慢,這樣就能夠更好地捕捉到狀態-動作值函數Q(s,a,θ)和損失函數的變化,更容易獲得近似最優的的信道選擇策略,因而,學習率δ為0.001的平滑獎勵明顯高于δ為0.1和0.01的平滑獎勵。然而,當學習率δ過小時,收斂過程將變得十分緩慢,導致長時間無法收斂,并且容易出現過擬合的情況。因此,本文在綜合考慮收斂效率和平滑獎勵性能基礎上,選用學習率δ=0.001。

圖2 不同學習率性能影響 (N=5)

不同的強化學習方法對平滑獎勵的影響如圖3所示。從圖3可以看出,本文提出的方法性能明顯優于Q-learning和隨機策略,且曲線波動幅度較小,較為穩定。在平滑獎勵方面,與隨機策略相比,本論文采用DRL和Q-learning等強化學習方法,具有較強的自主學習能力,通過不斷與環境進行交互,從以往經驗中學習,獲得了更優信道接入策略和更大的平滑獎勵。在收斂速度方面,相比于Q-learning方法,本論文通過引入DNN結構,不僅有效地解決了過高估計狀態-動作值函數Q(s,a,θ)的問題,也獲得了更快的收斂速度和更大的平滑獎勵。

圖3 不同強化學習方法性能影響 (N=5)

不同的信道數對平滑獎勵的影響如圖4所示。從圖中曲線可以看出,當衰減因子γ=0.9,學習率δ=0.001時,隨著信道數的增加,外部干擾對信道造成的影響減少,信道接入機會隨之增多,平滑獎勵不斷上升。當信道數過多時,信道有充分的接入機會,并且本文方法通過觀察當前時刻各信道占位情況,選擇接入下一時刻的最佳信道, 外部碰撞的機會大幅降低至不再產生,曲線逐漸趨于平滑。

圖4 不同信道數性能影響

4 結論

本文提出了一種基于DRL的多信道智能接入方法。針對多信道狀態的動態性,將多信道接入過程描述為馬爾可夫決策過程。在此基礎上,為了有效地解決強化學習狀態空間較大的問題,通過引入DNN,以獲得近似最優的信道選擇策略。在仿真方面,通過搭建NS3仿真平臺,驗證本文所提出方法的性能。仿真結果表明,本文提出的基于DRL多信道智能接入算法,能夠在較快收斂速度的前提下,獲得近似最優的多信道智能接入策略。

猜你喜歡
動作智能用戶
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
畫動作
動作描寫不可少
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 日本在线亚洲| 色综合中文| 在线观看国产精美视频| 国产视频大全| 国产在线一二三区| 亚洲AV一二三区无码AV蜜桃| 亚洲国产av无码综合原创国产| 在线观看国产精美视频| 自拍欧美亚洲| 亚洲综合中文字幕国产精品欧美| 456亚洲人成高清在线| 日韩免费毛片视频| 91在线精品麻豆欧美在线| 一级毛片高清| 国产浮力第一页永久地址| 极品私人尤物在线精品首页 | 久久一级电影| 国产久草视频| 日韩欧美国产另类| 国产九九精品视频| 国内精自线i品一区202| 麻豆精品在线视频| av一区二区三区在线观看| 亚洲午夜福利在线| 亚洲日韩精品无码专区97| 一本二本三本不卡无码| 毛片一级在线| 欧美精品v日韩精品v国产精品| 欧美一区二区三区欧美日韩亚洲| 麻豆精品在线| 日本人真淫视频一区二区三区| 久久综合亚洲色一区二区三区| 丝袜久久剧情精品国产| 午夜不卡视频| 亚洲经典在线中文字幕| 一级毛片免费观看不卡视频| 国产精品视频免费网站| 大香网伊人久久综合网2020| 免费一级无码在线网站| 国产精品午夜福利麻豆| 精品乱码久久久久久久| 97视频在线精品国自产拍| 99热亚洲精品6码| 亚洲精品无码高潮喷水A| 91麻豆精品国产91久久久久| 美女视频黄又黄又免费高清| 黄色网站不卡无码| 国产在线拍偷自揄观看视频网站| 精品国产美女福到在线直播| 日韩精品亚洲人旧成在线| 久久久久国色AV免费观看性色| 激情综合图区| 国产精品刺激对白在线| 欧美一级夜夜爽www| 亚洲美女一区| 五月天综合婷婷| 国产成人凹凸视频在线| 播五月综合| 丁香综合在线| 色综合天天娱乐综合网| 中国特黄美女一级视频| 一级毛片视频免费| 亚洲国产日韩欧美在线| 国产美女叼嘿视频免费看| www.91中文字幕| 波多野结衣久久高清免费| 日韩中文字幕免费在线观看| 在线高清亚洲精品二区| 国产又大又粗又猛又爽的视频| 国产精品女同一区三区五区 | 欧美亚洲欧美区| 国产精品香蕉| 亚洲VA中文字幕| 欧美在线精品怡红院| 中文字幕66页| 亚洲色图欧美| 丰满人妻中出白浆| 99视频在线免费观看| 欧美日韩国产综合视频在线观看| 午夜福利无码一区二区| 久久久91人妻无码精品蜜桃HD| 久久午夜夜伦鲁鲁片不卡|