999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進深度Q學習的網絡選擇算法

2022-02-24 08:58:06陳海波
電子與信息學報 2022年1期
關鍵詞:深度

馬 彬 陳海波 張 超

(重慶郵電大學重慶市計算機網絡與通信技術重點實驗室 重慶 400065)

(重慶郵電大學計算機科學與技術學院 重慶 400065)

1 引言

隨著無線移動通信的發展,由5G異構蜂窩網絡、無線局域網等多種接入技術構成的超密集異構無線網絡,可為終端提供多種接入方式,支持終端的無縫移動。超密集組網會帶來較高的能耗問題,引入休眠機制會一定程度降低能耗,同時,會進一步增強網絡的動態性,導致終端服務質量和網絡吞吐量等性能均下降。如何在高動態的超密集異構無線網絡,保證終端所獲得的吞吐量,并提升網絡系統綜合切換性能,成為當前研究需要解決的重要課題[1]。

目前,國內外相關研究工作較多,從采取的研究方法來劃分,網絡選擇算法大致可以分成兩類:(1)基于參數閾值的網絡選擇算法[2—5],主要是以接收信號強度(Receive Signal Strength, RSS)等參數進行網絡選擇判決。文獻[4]基于RSS的閾值,通過比較候選網絡的RSS數值大小,從而進行網絡選擇。該類算法實現簡單,選網參數易于獲取,計算復雜度較低;但是,該類算法容易導致乒乓效應,無法完全體現接入網絡的服務質量。(2)基于模糊邏輯或強化學習等人工智能方法的網絡選擇算法[6—14]。文獻[6]采用模糊邏輯算法,根據終端應用對QoS參數的需求,通過設計不同的隸屬度函數,合理地選擇網絡。該類算法選網效率較高,但是需要事先建立相應的模糊推理規則庫,在輸入參數增加的情況下,模糊規則庫的數量會激增,導致推理時間復雜度過大。文獻[8]基于神經網絡算法,根據不同業務類型,對分類后的參數進行訓練,從而進行網絡選擇。該類算法具有強大的學習能力,能夠根據環境自適應地進行調整。文獻[11]提出一種基于體驗質量(Quality of Experience, QoE)感知的網絡選擇方案,將QoS的網絡參數映射成QoE參數,然后利用QoE參數構造回報函數,最后采用Q學習算法進行網絡選擇。該類算法能夠通過不斷的學習強化已有收益,從而選擇高收益網絡;但是,如果網絡環境過于復雜,會導致網絡控制模塊學習效果下降,繼而導致無法選擇到最佳網絡。

對于引入休眠機制的超密集異構無線網絡環境,隨著該網絡環境下基站數量的激增,同時引入休眠機制以節能,導致基站數量發生動態改變,繼而導致網絡動態性增強,網絡拓撲結構時變性提高。同時,終端自身的移動性和基站之間由于密集布網所產生的干擾,導致網絡動態性進一步加劇,而現有的相關文獻,解決的是常規異構無線網絡下的網絡選擇問題,并未考慮到如此高動態的網絡環境,這樣會使終端在通過現有選網算法切換到目標網絡之后,可能因目標網絡突然休眠,導致所獲得的吞吐量出現快速下滑,無法為終端提供持續穩定的吞吐量,基站之間產生的干擾又會嚴重影響到終端的服務滿意度,最終發生系統切換性能嚴重降低的問題。因此,上述算法對于這一嚴峻問題,關注不足。

通過上述對引入休眠機制的超密集異構無線網絡環境進行動態性分析,可以得出,該網絡環境具有高動態特性,會使現有的網絡選擇算法出現切換性能嚴重下降的問題。因此,本文基于一種改進深度Q學習算法,以保證終端所獲得的網絡吞吐量,緩解系統因高動態性網絡環境導致的切換性能嚴重降低的問題。同時,針對傳統的深度Q學習算法在進行網絡選擇時,由于在線訓練神經網絡導致時延過大,出現算法失效的情況,本文利用遷移學習,加速訓練神經網絡,以降低在線選網的時間復雜度。綜上,本文的主要貢獻可概括為:

(1)針對由無線局域網絡和引入休眠機制的超密集蜂窩網絡異構而成的超密集異構無線網絡環境,進行動態性分析,以期緩解系統切換性能降低的問題。

(2)本文采用遷移學習對深度Q學習算法進行改良,提出一種基于改進深度Q學習的網絡選擇算法,降低了傳統深度Q學習算法在線上選網過程中的時間復雜度。

2 算法流程

本文算法的流程圖如圖1所示,主要包括參數采樣及初始化過程、深度Q學習選網模型、最優策略及網絡選擇3個階段。第1階段通過周期性采樣網絡參數的值來初始化深度Q學習選網模型,該模型由線下訓練模塊與線上決策模塊構成,上述兩個模塊均采用深度Q網絡構建;第2階段利用遷移學習對線下訓練模塊和線上決策模塊進行協同交互;第3階段通過深度Q學習選網模型得到最優策略并進行網絡選擇。圖1的歷史信息數據庫包含網絡參數的采樣值以及歷史選網信息數據,作為深度Q學習選網模型的訓練數據。

圖1 本文算法流程圖

3 參數采樣及初始化過程

3.1 參數采樣

由于本文采用深度Q學習算法對網絡選擇行為進行建模,因此,在通過深度Q學習算法進行建模的過程中,需要周期性采樣網絡參數的值來構建深度Q學習的動作空間、狀態空間和回報函數,以初始化深度Q學習選網模型,本文采樣的參數如下。

(1)接收信號強度表示為

其中,dij為用戶終端i到網絡接入點j的距離,ρij為用戶終端i接收到網絡接入點j的發射功率,η為路徑損耗因子,u1為服從均值為0、標準差為σ1的高斯白噪聲。

(2)終端所獲下行吞吐量可表示為

3.2 初始化過程

本文將超密集異構無線網絡環境中終端可以接入的候選網絡(基站和訪問點)用集合N={n1,n2,...,ni}表示;其中終端在t時刻接入候選網絡ni表示為at(ni),則本文的動作空間可定義為At={at,at ∈{at(n1),at(n2),...,at(ni)}}。

本文將狀態空間定義為St=(rsst,ct,ψt,pt),其中, rsst表示在t時刻各候選網絡的接收信號強度集合,ct表示在t時刻各候選網絡的吞吐量集合,ψt表示在t時刻各候選網絡的干擾影響因子集合,pt表示在t時刻各候選網絡的休眠概率集合。

4 深度Q學習選網模型

4.1 改進深度Q學習算法

本文將引入休眠機制的超密集異構無線網絡環境下的選網問題,基于深度Q學習算法進行建模求解,該算法過程利用Q函數實現。Q函數表示在狀態S下執行動作a,以及采取后續動作所產生累計回報值的期望,定義為

其中,γt ∈[0,1]為折扣因子,用于調整對未來回報的重視程度,隨著時刻t的增加而呈現指數型下降趨勢,E(·)為期望函數。

由式(6)可得,Q(S,a)在t →+∞時才能收斂到最佳Q值,在實際的網絡選擇過程中很難實現。因此,深度Q學習算法利用神經網絡構建Q(S,a;θ),其中,θ為權值,使得Q(S,a;θ)≈max(Q(S,a))來進行近似求解。

對于傳統的深度Q學習算法,終端需要多次進行交互以獲取足夠樣本,但是,這樣會使神經網絡的訓練時間過長,導致算法因延遲過高而失效。綜上,本文引入遷移學習[17],提出一種改進深度Q學習算法,來解決上述問題,該算法能夠減少終端與網絡環境實時交互的次數。同時,相比傳統深度Q學習算法以隨機賦權值的方法來訓練神經網絡,遷移線下訓練權值之后,使得訓練的起點更加接近神經網絡收斂條件,從而加速了算法的收斂性。

4.2 線上線下協同模塊

4.2.1 樣本與權重的生成及遷移

本文所提的深度Q學習選網模型由線下訓練模塊與線上決策模塊構成,而上述兩個模塊均由深度Q網絡構建。為了加速線上決策模塊的神經網絡訓練過程,通過遷移線下訓練模塊的訓練樣本與權值,并對遷移后上述兩個模塊產生的訓練誤差進行校正,直到誤差恒定,整個遷移學習過程結束。其中,訓練樣本與權值的生成及遷移過程如下:

神經網絡的訓練樣本是由歷史信息數據庫中不同時刻的當前狀態、動作、回報值以及未來狀態所構成的,即,其中,。在深度Q網絡中,為了高效地訓練神經網絡,通過設置經驗回放池,以緩解訓練過程中出現的迭代不穩定問題。因此,本文將線下訓練模塊的訓練樣本遷移到線上決策模塊中,利用遷移的線下訓練樣本以及線上學習樣本,構建線上決策模塊的經驗回放池,表示為

(St,at,Rt,St+1)t ∈(0,+∞)

4.2.2 遷移誤差調整

在神經網絡進行迭代訓練時,由于線下訓練模塊與線上決策模塊之間在訓練樣本、權值存在差異的情況,可能出現訓練樣本、權值遷移過后,線上決策模塊的神經網絡訓練效果不佳,從而導致神經網絡的收斂速度未能達到預期效果。為了解決上述問題,本文將線下訓練與線上決策模塊之間產生的訓練誤差定義為策略損失,為了將策略損失降至最低,采用策略模仿機制,通過線下訓練模塊中,預估Q值Qoff(St,at;θoff)的玻爾茲曼分布,將線下訓練模塊的估值網絡轉化為線下策略網絡πoff(St,at;θoff),表示為

5 最優策略及網絡選擇

圖2 終端移動模型圖

6 仿真結果與分析

6.1 系統模型和仿真參數設置

本文采用5G異構蜂窩網絡和無線局域網(Wireless Local Area Network, WLAN)組成超密集異構無線網絡環境,無線接入網絡均采用正交頻分復用(Orthogonal Frequency Division Multiplexing, OFDM)技術。仿真場景如圖3所示,并在MATLAB平臺進行仿真。仿真場景中,有2個5G宏基站、4個5G微基站和3個WLAN接入點,5G宏基站的半徑均為800 m,5G微基站的半徑均為300 m,WLAN的半徑均為80 m。假設用戶隨機分布在仿真區域內,每隔一段時間隨機改變運動方向。仿真過程中,假設終端在網絡選擇決策時刻k獲得的候選網絡參數如表1所示。

表1 候選網絡的參數值

圖3 超密集異構無線網絡仿真場景圖

仿真對比了本文算法與現有基于Q學習(Qlearning)的網絡選擇算法[11]、基于深度Q學習網絡(Deep Q-Network, DQN)的網絡選擇算法[12]以及基于長短期記憶神經網絡(Long Short-Term Memory,LSTM)的網絡選擇算法[13]。

6.2 時間復雜度分析

時間復雜度是網絡選擇算法的一個重要指標,本文算法與另外3種算法的時間開銷對比如圖4所示,隨著迭代次數的增加,4種算法所消耗的時間都在增加;但是,本文所采用的算法時間增加的幅度明顯慢于另外3種算法。這是因為本文算法采用遷移學習對傳統深度Q學習算法進行改進,極大地減少了神經網絡訓練時間,從而使整個算法的時間消耗降低。對于Q學習算法,在狀態與動作空間迅速增大的時候,計算能力持續下降,耗時逐漸加大,與本文算法的時間差距逐漸拉開。而DQN算法和LSTM算法,則直接采用深度神經網絡進行迭代運算,在迭代次數巨大的情況下,它們與本文算法的時間消耗差距將更為顯著。

圖4 算法時間開銷

6.3 信干噪比分析

圖5給出了隨著仿真次數的增加,終端在4種算法下受到的平均信干噪比數值情況。通過對比可以看到,采用本文算法所得到的平均信干噪比,高于另外3種算法。這是因為本文考慮到終端所受到的干擾,將干擾因素考慮進來,成功預測了基站未來對終端所造成的干擾影響情況,最大限度地降低了因基站所產生的干擾而對終端造成損失;同時,通過引用干擾影響因子參數來構建深度Q學習算法的回報函數,有效緩解了干擾對終端產生的影響,從而為用戶帶來更高的信干噪比。對于其他3種算法,由于沒有專門考慮終端受到干擾的情況,為用戶設計合適的回報函數來降低干擾影響,導致了平均信干噪比沒有本文算法高。

圖5 平均信干噪比

6.4 網絡吞吐量分析

圖6給出了隨著仿真次數的增加,終端在4種算法下平均吞吐量變化情況。通過對比可以得出,采用本文算法所得到的平均吞吐量,遠高于另外3種算法。這是因為本文采用深度Q學習算法成功預測了基站未來因休眠機制所導致的狀態變化情況,使得終端可以根據網絡未來發生的動態性變化合理地選擇網絡,極大地降低了由于基站干擾和休眠情況造成的吞吐量損失;同時,本文根據用戶獲得的吞吐量定義深度Q學習算法的回報函數,更加符合用戶的實際需求。對于3種算法,由于它們既沒有充分考慮在未來網絡環境下基站的狀態,也沒有為用戶設計合適的回報函數來增加網絡吞吐量,從而導致了吞吐量沒有本文算法高。

圖6 平均吞吐量

6.5 掉話率分析

圖7為4種算法的掉話率與用戶數之間的比較。由圖可以看出,雖然4種算法的掉話率都在緩慢增加,但是,在用戶數增加到40以后,本文算法的掉話率增加幅度最小,另外3種算法增加幅度明顯高于本文算法。這是因為本文算法相比較其他3種算法,在網絡動態性持續增加的情況下,能夠預測到未來網絡的變化情況,繼而為用戶提供較高質量的網絡進行選擇,有效地降低了切換失敗的可能性。對于Q學習算法,由于不能夠準確地對網絡狀態進行預測,在用戶數增加的情況下,掉話率急劇增加。同樣,對于DQN和LSTM算法,由于在訓練深度神經網絡的過程中,會造成選網時延較高的結果,使得掉話率上升明顯。

圖7 網絡掉話率

6.6 乒乓效應分析

圖8為用戶采用4種算法后產生的總切換次數。由圖可以看出,在用戶數不斷增加的情況下,采用本文算法產生的網絡總切換次數,在所述4種算法中始終處于最低。這是因為本文考慮了因網絡環境動態性增強,導致算法切換失效率增加,從而發生頻繁切換的情況。本文算法成功預測了用戶在進行網絡選擇之后的網絡狀態變化情況,從而使發生切換的次數大大降低。而另外3種算法,由于均未妥善解決基站因休眠機制帶來的網絡高動態性影響,導致網絡的切換頻發,乒乓效應加劇;因此,本文算法能夠有效地降低無謂的網絡切換。

圖8 網絡總切換次數

7 結束語

本文提出一種基于改進深度Q學習的網絡選擇算法,緩解了在引入休眠機制的超密集異構無線網絡中,由于網絡動態性的明顯提升而引發系統切換性能降低的問題。通過利用網絡參數來構建回報函數,從而盡可能地降低引入休眠機制后,網絡高動態性所造成的影響;同時,通過遷移學習對傳統的深度Q學習算法進行優化,使得算法的時間復雜度大大降低。實驗結果表明,該算法在提升網絡吞吐量的同時,降低了時間復雜度,減少了網絡切換次數。

猜你喜歡
深度
深度理解不等關系
四增四減 深度推進
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
深度觀察
芻議深度報道的深度與“文”度
新聞傳播(2016年10期)2016-09-26 12:14:59
提升深度報道量與質
新聞傳播(2015年10期)2015-07-18 11:05:40
微小提議 深度思考
主站蜘蛛池模板: 欧美综合激情| 六月婷婷激情综合| 久久久久久国产精品mv| 国产毛片基地| 成人在线观看不卡| 国产精品视频导航| 无码专区在线观看| 国产欧美精品午夜在线播放| 2020国产精品视频| 亚洲第一精品福利| 中文字幕2区| 欧美精品v日韩精品v国产精品| 国产无码性爱一区二区三区| 一区二区欧美日韩高清免费| 亚洲网综合| 蜜臀av性久久久久蜜臀aⅴ麻豆| 97在线观看视频免费| 国产一级在线播放| 2022国产无码在线| 国产人成乱码视频免费观看| 亚洲制服丝袜第一页| 国产精品免费电影| 国产成人综合在线观看| 色九九视频| 国产一区二区精品福利| 99免费在线观看视频| 国产国产人成免费视频77777 | 亚洲天堂视频在线播放| 国产靠逼视频| 中文字幕永久视频| 亚洲天堂网在线视频| 国产成人精品第一区二区| 亚洲日韩欧美在线观看| 国产办公室秘书无码精品| 四虎国产精品永久在线网址| 国产成人凹凸视频在线| 无码福利视频| 欧美在线天堂| 亚洲国产精品国自产拍A| 一级一级一片免费| 国产成人综合亚洲欧美在| 亚洲综合精品香蕉久久网| 九九久久精品免费观看| 在线观看av永久| 亚洲中文字幕国产av| 亚洲综合专区| 萌白酱国产一区二区| 中文字幕调教一区二区视频| 日韩福利视频导航| 特级毛片8级毛片免费观看| 欧美在线视频不卡| A级毛片无码久久精品免费| 久久黄色视频影| 美女被操黄色视频网站| 国产黑人在线| 日本成人精品视频| 国产成人三级| 国产免费高清无需播放器| 国产精品久久久久久久伊一| 国产污视频在线观看| 亚洲电影天堂在线国语对白| 亚洲熟女中文字幕男人总站| 中文字幕在线观看日本| 国产在线观看一区二区三区| 欧美精品成人一区二区视频一| 2020最新国产精品视频| 中文无码精品A∨在线观看不卡| 亚洲综合九九| 日本在线视频免费| 久久人妻xunleige无码| 好吊妞欧美视频免费| 亚洲欧美自拍一区| 亚洲欧洲天堂色AV| 91在线视频福利| 欧美 亚洲 日韩 国产| 亚洲a级在线观看| 超碰aⅴ人人做人人爽欧美| 午夜三级在线| 67194亚洲无码| 亚洲精品视频在线观看视频| 久久夜夜视频| 亚洲国产日韩欧美在线|