999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度確定性策略梯度學習的無線反向散射數據卸載優化

2021-03-05 00:56:32耿天立高昂王琦段渭軍胡延蘇
兵工學報 2021年12期
關鍵詞:優化

耿天立, 高昂, 王琦, 段渭軍, 胡延蘇

(1.西北工業大學 電子信息學院, 陜西 西安 710072; 2.物聯網技術及應用國家地方聯合工程實驗室, 陜西 西安 710072;3.長安大學 電子與控制學院, 陜西 西安 710072)

0 引言

隨著5G技術的落地,物聯網無線設備(WD)將迎來爆炸性增長。此時,時延和能耗便成為影響物聯網發展的重要因素。雖然,物聯網設備可以通過將計算密集型任務卸載至邊緣服務器運行以降低處理延遲,然而現有的物聯網通信技術大都采用主動射頻單元,傳輸功耗和電路功耗高,無法實現低功耗高能效的信息傳輸。反向散射技術可以通過改變天線阻抗形成不同的反射狀態,將自身信息調制到環境信號上實現被動式信息傳輸,既不需要高功耗的主動發射單元,也無須占用額外的頻譜。

無線驅動通信網絡(WPCN)是由反向散射通信和認知無線電網絡兩種不同的無線通信技術相結合形成的一種無線網絡[1-2]。一方面,WD可以采用收集再傳輸(HTT)方式,即收集基站或者環境輻射能量進行存儲,然后通過頻譜感知在基站和其他設備空閑時進行主動傳輸;同時也可采用環境反向散射(AmBC)的方法被動傳輸[3-5]。

受限于設備復雜度和能耗限制,WD通常只配備一套收發單元,通過軟切換在HTT模式和AmBC模式間選擇;同時,WPCN中的多個WD采用時分多址方式進行復用。因此,如何合理分配系統中設備主動傳輸和反向散射傳輸的工作模式及其對應的工作時間,從而實現最小的傳輸延遲,就顯得尤為必要[6]。目前,現有的研究大多采用凸優化[1-2,7]、博弈論[8-9]和基于機器學習[10-12]的算法來最大化系統的網絡吞吐量或者經濟收益。

凸優化算法[1-2,7]僅考慮單個時間幀內的時間分配,或者單用戶系統環境的優化問題。但是,在實際應用環境中,總是有多個用戶在同一時間卸載數據,且需要多個時間幀來完成傳輸任務。博弈論算法[8-9]將時間分配優化問題轉化為經濟模型進行求解,該算法中,次級發射機在綜合考慮網絡吞吐量和網關成本價格情況下確定反向散射時間,使經濟效益達到最大化。遺憾的是,這些算法并沒有考慮到卸載數據量的大小。

文獻[10-12]采用基于強化學習的方法解決單用戶網絡吞吐量最大化問題,為復雜通信場景下的系統性能優化提供了新的求解思路,但仍存在一些問題有待解決,例如:沒有考慮多用戶卸載數據大小的差異;同時,現有的強化學習方法如Q學習(Q-learning)和深度Q網絡(DQN)只能在低維、離散的動作空間上進行求解,并不適用討論環境中的多維、連續動作空間問題。

本文采用一種基于確定性策略梯度(DDPG)算法,對無線通信網絡中每個WD采取主動傳輸和反向散射傳輸兩種模式的時間分配在連續動作空間上進行優化,主要創新點包括:

1)與其他采用離散控制行為的強化學習算法不同,本文提出的基于DDPG深度強化學習方法能夠在連續動作空間內搜索多個WD的最優時間分配,并根據構建的獎勵函數對當前狀態下的分配策略進行評估。

2)在動態數據卸載過程中,同時考慮了各個WD之間的公平性和最大化卸載數據量。本文算法基于以往經驗的獎勵來優化各移動設備的時間分配和傳輸模式,可以最小化卸載的延遲、最大化用戶公平性。

3)實驗數值結果表明,DDPG算法可在有限時間步長內收斂,并且在不同實驗條件下,每個設備都能以最小的延遲同時完成數據卸載。與傳統的均分算法、貪心算法對比,DDPG算法可減少平均傳輸延遲77.4%和24.2%,并可有效提高WD的能耗效率。

1 多用戶數據卸載模型

圖1所示為多用戶數據卸載模型示意圖。圖1中:U1、U2、…、Uj、…、UN為環境中的WD,N為WD的數量;ta,j為Uj在主動傳輸階段(WIT)所分配到的時間長度;tb,j為Uj在能量收集階段(WET)所分配到的時間長度。由圖1可見,WPCN中存在一個混合訪問節點(HAP)和多個WD. 在下行鏈路上,HAP廣播主載波信號,為網絡中的WD提供用于能量收集和反向散射通信的環境載波,同時為網絡中的WD提供下行通信支持,如回傳數據卸載的處理結果;在上行鏈路上,作為數據卸載的接入點,接收通過主動傳輸或反向散射傳輸卸載的數據。事實上,WD并不一定必須將數據卸載給HAP,也可以卸載到其他中繼設備。不失一般性,本文假設所有卸載的數據均通過HAP傳輸給邊緣服務器。

圖1 系統模型圖和時間幀分配示意圖Fig.1 Schematic diagram of communnication model and time allocation

由于反向散射是通過調整天線阻抗對主載波進行反射而無法對載波頻率進行調整的,網絡中所有的反向散射設備都只配備了1根天線,并以時分多址的復用方式工作于同一頻帶。HAP以Duty-cycling方式工作,每個時間幀為兩個階段。其中:

1) WET:當HAP占用信道進行下行傳輸時,WD只能選擇進行能量收集或者采用反向散射模式進行數據卸載;

2) WIT:當HAP空閑時,WD可占用信道使用主動傳輸模式進行數據卸載。

不失一般性,一個時間幀可被歸一化為單位長度1,用w表示WET時間長度,則WIT時間長度為1-w.則有如下約束:

(1)

2 問題描述

對于WD,一個WPCN時間幀內卸載的數據由兩部分組成:WET反向散射卸載的數據和WIT主動傳輸的數據。因此,對于Uj,它在一個時間幀內卸載的總數據量可表示為

lj=rb,jtb,j+ra,jta,j,

(2)

式中:rb,j和ra,j分別表示Uj在反向散射和主動發射模式下的數據傳輸速率。

在該多用戶數據卸載場景下,有如下合理假設:

1)與卸載任務上行傳輸時間相比,從邊緣服務器返回處理結果至WD的回傳延遲非常小,可忽略不計[13]。

2)反向散射接收端通常是AmBC接收機和傳統接收機組成的協同接收機,通過連續干擾消除的方法,在接收端HAP能夠從混合信號(即反向散射+下行傳輸信號)中恢復出反向散射信號。因此,可忽略HAP的主信號對反向散射信號的干擾[11]。而不同WD的散射信號之間仍然無法分離,因此WPCN系統中同一時刻只能有一個WD進行反向散射通信。

3)在反向散射模式下,接收端換能器收集到的能量可以直接用于驅動反向散射和編解碼硬件單元,無須消耗額外能量[14]。

2.1 反向散射通信

在WET同一時刻只能有一個WD通過反向散射的傳輸方式來卸載數據,而其他WD仍然能夠收集能量。然而,由于譯碼器噪聲和上行信道噪聲會影響接收端的誤碼率[9],即

(3)

(4)

第j個反向散射二進制對稱信道的容量為

Cj=1+εjlgεj+(1-εj)lg(1-εj),

(5)

假設反向散射的速率固定為Rb不變[7],則Uj在反向散射模式下的實際數據卸載速率為

rb,j=Cj·Rb.

(6)

2.2 主動傳輸通信

當HAP處于WIT時,WD可以使用自身電池中收集的能量以主動傳輸的方式卸載數據,多WD以時分多址的方式分別占用不同的時間長度ta,j來卸載數據。在這種模式下,WD應用傳統的射頻無線通信技術進行傳輸,其主動傳輸速率為

(7)

式中:B為主動傳輸的帶寬;Pa,j為主動傳輸功率。

2.3 能量模型

WD通過電池存儲在WET采集的能量,并用于主動傳輸。因為忽略了反向散射電路的能量消耗,所以能量消耗ea,j主要由主動傳輸造成,即

ea,j=Pa,jta,j.

(8)

在WET,各個WD可以互不影響地采集能量,因此Uj在一個時間幀內采集的能量eh,j為

eh,j=ηgjPH(w-tb,j),

(9)

式中:η表示能量轉化效率,η∈(0,1)。

用Ej(k)表示Uj在第k個時間幀結束后電池中存儲的能量,

Ej(k)=min {Emax,Ej(k-1)+eh,j(k)-ea,j(k)},

(10)

式中:Emax表示電池的最大容量。WD在WIT用于主動傳輸的能量消耗應該受到電池能量的限制,即

Pa,j(k)·ta,j(k)=ea,j(k)≤Ej(k-1)+eh,j(k).

(11)

2.4 優化問題

本文的優化目標是在同時考慮公平性和能耗限制情況下最小化所有用戶的卸載時間。因此,定義以下度量指標:

(12)

假設采用三元組Tj(k){(tb,j,ta,j,Pa,j)}表示Uj在第k個時刻的數據卸載策略,則問題可以總結為以下優化問題:

s.t.:

(13)

(14)

ea,j(k)≤Ej(k-1)+eh,j(k).

(15)

式中:K為完成數據卸載所用總時間;γ為衰減系數,γ∈(0,1)。約束(13)式表示所有WD反向散射的時間總和不能超過WET時間;約束(14)式表示所有WD主動傳輸的時間總和不能超過WIT時間;約束(15)式表示用于主動傳輸的能量不能超過電池中存儲的能量。

3 基于DDPG的數據卸載算法

圖2 DDPG算法流程圖Fig.2 Flowchart of DDPG algorithm

作為一種無模型的深度強化學習算法,不同于其他強化學習算法,DDPG可以用來在連續的高維狀態空間以及動作空間上解決優化問題。在DDPG中,用由狀態、動作和獎勵組成的元組(Sk,Ak,Rk,Sk+1)對神經網絡進行訓練:

1)狀態:表示在一個迭代回合中第k個時刻開始前對WPCN系統當前環境信息的觀測結果:

Sk={E1(k),…,EN(k),data1(k),…,dataN(k)},

(16)

式中:dataj(k)為Uj截止到當前時刻已經卸載完成的數據總量。

2)動作:Ak={T1(k),…,TN(k)},即在第k個時間幀所有WD采取的卸載策略。

3)獎勵:Rk的計算如(12)式所示。

如圖2所示,DDPG中一共有4個網絡:

1)actor當前網絡:負責策略網絡參數θμ的迭代更新,根據當前狀態S選擇當前動作A,與環境交互生成下一個狀態S′和獎勵R.

2)actor目標網絡:負責從經驗回放緩存區采樣的下一狀態S′選擇下一動作A′.該網絡的網絡參數θμ′定期從actor當前網絡復制θμ更新。

3)critic當前網絡:負責價值網絡參數θQ的迭代更新,計算當前Q值Q(S,A|θQ)。定義目標Q值yk=R+γQ′(S′,A′|θQ′).

4)critic目標網絡:負責計算目標Q值中的Q′(S′,A′|θQ′)部分。該網絡的網絡參數θQ′定期從critic當前網絡復制θQ更新。

與DQN直接將當前網絡的網絡參數復制過來的硬更新方式不同,DDPG采取每次只更新一點點的軟更新方式,即

θμ′=τθμ+(1-τ)θμ′,

(17)

θQ′=τθQ+(1-τ)θQ′,

(18)

式中:τ為更新系數。這種更新方式可以大大提高學習的穩定性。

actor當前網絡采用確定性策略來產生確定性動作,損失梯度為

(19)

critic當前網絡的損失函數與DQN一樣采用均方誤差:

Los=E[(yk-Q(S,A|θQ)2].

(20)

基于DDPG的反向散射卸載優化算法具體步驟如下:

步驟1隨機初始化actor當前網絡和critic當前網絡,令構建actor和critic目標網絡,初始化經驗回放緩存區。

步驟2從迭代回合數T=1開始循環執行以下步驟。

步驟3初始化所有WD要卸載數據量大小,清零電池能量。

步驟4初始化一個均值為0、方差var=1的高斯噪聲n.

步驟5獲得初始觀測狀態S1.

步驟6從時刻k=1開始執行步驟7~步驟16.

步驟7選擇動作Ak=μ(Sk|θμ)+n.

步驟8令var=var×0.999 5.

步驟9WD執行動作并由(12)式計算獎勵Rk.

步驟10獲得新的狀態Sk.

步驟11將(Sk,Ak,Rk,Ak+1)保存到經驗回放緩存區。

步驟12從經驗回放緩存區隨機選取固定大小的樣本。

步驟13令yk=Rk+γQ′(Sk+1,μ′(Sk+1|θμ′)|θQ′).

步驟14由(20)式,通過神經網絡的梯度反向傳播更新critic當前網絡的網絡參數θ.

步驟15由(19)式,通過神經網絡的梯度反向傳播更新actor當前網絡的網絡參數μ.

步驟16如果所有的WD完成數據卸載,則執行步驟17;否則執行步驟6.

步驟17如果T/C等于1,C為設定的目標網絡參數更新間隔回合數,執行步驟18;否則,執行步驟19.

步驟18通過(17)式、(18)式更新目標網絡的網絡參數μ′和θ′.

步驟19如果T等于設定的最大迭代回合數,則結束算法迭代;否則執行步驟2.

4 仿真實驗結果與分析

假設環境中有N=4個WD,隨機分布在以HAP為中心,直徑50 m~3 km的范圍內,其各自要卸載的數據大小Ln=[50 kb,100 kb,150 kb,200 kb].電池的最大容量Emax為5 mJ/3.3 V,反射系數ρ和能量轉化效率η都是0.8.一個HAP時間幀長度為1 s,并且WET和WIT的時長均為0.5,即w=0.5.調頻信號的帶寬和頻率分別為100 kHz和100 MHz.上行信道增益和下行信道增益分別為10-5和2×10-5.actor網絡和critic網絡參數如表1所示。

表1 DDPG網絡參數表Tab.1 DDPG neural network configuration

4.1 算法收斂性

圖3 累積獎勵與完成卸載所用時間幀數的收斂情況Fig.3 Convergence of cumulative reward and frame number for completing data offioading

由圖3可知,基于DDPG的優化算法進行大約1 500次回合的學習后可以實現收斂,此時對應的累積獎勵V=20,所需時間幀數為32.

4.2 動態性能

圖4所示為當反向散射速率從Rb=32 kbit/s下降至Rb=24 kbit/s時系統數據卸載的動態性能,即在指定回合下(第2 000個回合)每個時間幀內的狀態和動作信息。

圖4 不同反向散射速率下系統的動態性能情況Fig.4 Dynamic performances of system at different backscattering rates

由圖4(a)可見,隨著反向散射速率的降低,系統卸載延遲從30個時間幀增加至45個時間幀。但受益于Jain公平指數的引入,所有WD仍可以在同一時刻完成各自的數據卸載。

由圖4(b)、圖4(c)可見,具有較大卸載數據量的U3和U4更傾向于采取反向散射傳輸模式,具有較小卸載數據量的U1和U2則更傾向于采用主動傳輸模式。

由圖4(d)可見,電池中的存儲能量Ej(k)非常低,表明大部分收集到的能量被用于主動傳輸,而過多的能量收集會造成反向散射時間的減少。

4.3 靜態性能

圖5所示為網絡隨著信噪比(SNR)和反向散射效率變化的靜態性能情況。

由圖5(a)可見,平均網絡吞吐量隨著SNR的增加而增加,同時數據卸載完成時間也隨之減少。值得注意的是,不同WD之間的平均網絡吞吐量并不相同,而是與自身要卸載數據量的大小呈正比。這是因為DDPG算法中引入了Jain公平指數,來保證所有WD的數據卸載可以同時完成。

由圖5(b)可見,此時SNR固定為60 dB,而數據卸載完成的時間還與反向散射速率Rb以及轉換效率ρ有關。由(3)式和(4)式可知,這是因為更高的反向散射速率和反向散射系數可以得到更大的主動傳輸速率以及更低的誤碼率。

圖5 不同SNR和反向散射速率下的系統靜態性能情況Fig.5 Static performance of system at different SNRs and Rb

4.4 算法比較

圖6比較了3種不同的優化算法即均分算法、貪心策略算法和DDPG算法,在相同SNR下完成數據卸載所需的時間幀數、隨能量轉化率η的變化,以及完成數據卸載后電池中的剩余能量。

圖6 算法性能比較Fig.6 Performance comparison of different algorithms

由圖6可見:

1)在貪心算法中,只要某一個WD的電池中存儲有剩余能量,便會盡可能占用更多的時間進行主動傳輸;均分策略算法不考慮多個WD之間要卸載數據量大小的差異,總是將時間平分給各個WD.

2)隨著SNR的增加,即信道條件變好,3種算法所需數據卸載完成時間均有顯著減少。但與傳統的均分算法、貪心算法對比,DDPG算法平均傳輸延遲減少了77.4%和24.2%,這主要是因為貪心算法只采取主動傳輸模式進行數據卸載;均分策略算法雖然采取兩種傳輸模式,但是當某一個WD完成其數據卸載后仍然會分配其時間,從而造成資源浪費。

3)均分算法和貪心策略算法在完成數據卸載后,每個WD中的冗余能量均比DDPG算法高,表明其能量利用率低。尤其是對于卸載數據量較小的U1和U2更為顯著,以U1為例,與均分算法和貪心算法相比,其在DDPG算法下能量利用率可提高7.75倍和1.25倍。以上結果表明,本文DDPG算法能夠在同時考慮每個WD剩余要卸載數據量大小、電池剩余能量情況下進行優化時間分配,在每個時間幀內最大化即時獎勵和未來獎勵,保證所有WD能夠在同一時刻完成數據卸載,并最大化能耗效率,以避免電池中積累過多冗余能量。

5 結論

本文提出一種基于DDPG的數據卸載優化算法,不僅可以在連續空間內搜索最佳動作(即每個WD的卸載策略),且同時考慮了各個WD之間的公平性和其卸載數據量大小的差異性。實驗結果表明,本文所提出的算法在不同的反向散射系數、能量轉換效率、反向散射速率以及信道條件下都比傳統算法表現出了更好的性能,實現了最小的卸載延遲和更高的能耗效率。

猜你喜歡
優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
PEMFC流道的多目標優化
能源工程(2022年1期)2022-03-29 01:06:28
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
圍繞“地、業、人”優化產業扶貧
今日農業(2020年16期)2020-12-14 15:04:59
事業單位中固定資產會計處理的優化
消費導刊(2018年8期)2018-05-25 13:20:08
4K HDR性能大幅度優化 JVC DLA-X8 18 BC
幾種常見的負載均衡算法的優化
電子制作(2017年20期)2017-04-26 06:57:45
主站蜘蛛池模板: 国产人妖视频一区在线观看| 日韩不卡高清视频| 91美女在线| 幺女国产一级毛片| 国产又粗又猛又爽| 亚洲乱强伦| 国产成人夜色91| 国产AV无码专区亚洲精品网站| 亚洲水蜜桃久久综合网站| aa级毛片毛片免费观看久| 日韩精品成人网页视频在线| 国产精品乱偷免费视频| 99这里精品| 国产激情在线视频| 18禁黄无遮挡网站| 热99re99首页精品亚洲五月天| 亚洲国产中文精品va在线播放 | 99偷拍视频精品一区二区| 国产成人午夜福利免费无码r| 国产一级毛片网站| 亚洲精品777| 特黄日韩免费一区二区三区| 免费av一区二区三区在线| 亚洲成肉网| 99久久无色码中文字幕| 毛片视频网址| 色妞www精品视频一级下载| 国产剧情一区二区| 国产欧美精品一区aⅴ影院| 国产97公开成人免费视频| 国产95在线 | 亚洲欧美日韩高清综合678| 久久不卡国产精品无码| 精品少妇人妻无码久久| 国产精品久久久精品三级| 亚洲视频在线观看免费视频| 91精品免费高清在线| 91麻豆精品视频| 超薄丝袜足j国产在线视频| 国产在线观看一区精品| 国产精品19p| 成人国内精品久久久久影院| 九色免费视频| 亚洲天堂网站在线| 91精品啪在线观看国产60岁| 四虎在线高清无码| 国产sm重味一区二区三区| 尤物在线观看乱码| 亚洲久悠悠色悠在线播放| 久久综合成人| 国产精品所毛片视频| 成人福利在线视频| 久久天天躁狠狠躁夜夜2020一| 六月婷婷精品视频在线观看| 免费激情网址| 香蕉国产精品视频| 老司机精品久久| 久久婷婷六月| 亚洲天堂久久久| 在线a网站| 激情视频综合网| a在线观看免费| 日韩小视频在线播放| 欧美色综合网站| 狠狠干欧美| 伊人久久大香线蕉综合影视| 亚洲资源站av无码网址| 日韩欧美国产另类| www.亚洲色图.com| 亚洲中文字幕无码爆乳| 伊大人香蕉久久网欧美| 亚洲成人动漫在线观看| 国产资源免费观看| 欧美精品亚洲日韩a| 国产精品自在线天天看片| 国产va欧美va在线观看| AV在线天堂进入| 91亚洲视频下载| 国产真实乱子伦视频播放| 在线人成精品免费视频| 精品自窥自偷在线看| 亚洲成人免费在线|