基于深度確定性策略梯度學習的無線反向散射數據卸載優化

2021-03-05 00:56:32耿天立高昂王琦段渭軍胡延蘇

兵工學報 2021年12期

關鍵詞：優化

耿天立，高昂，王琦，段渭軍，胡延蘇

(1.西北工業大學電子信息學院，陜西西安 710072； 2.物聯網技術及應用國家地方聯合工程實驗室，陜西西安 710072；3.長安大學電子與控制學院，陜西西安 710072)

0 引言

隨著5G技術的落地，物聯網無線設備(WD)將迎來爆炸性增長。此時，時延和能耗便成為影響物聯網發展的重要因素。雖然，物聯網設備可以通過將計算密集型任務卸載至邊緣服務器運行以降低處理延遲，然而現有的物聯網通信技術大都采用主動射頻單元，傳輸功耗和電路功耗高，無法實現低功耗高能效的信息傳輸。反向散射技術可以通過改變天線阻抗形成不同的反射狀態，將自身信息調制到環境信號上實現被動式信息傳輸，既不需要高功耗的主動發射單元，也無須占用額外的頻譜。

無線驅動通信網絡(WPCN)是由反向散射通信和認知無線電網絡兩種不同的無線通信技術相結合形成的一種無線網絡[1-2]。一方面，WD可以采用收集再傳輸(HTT)方式，即收集基站或者環境輻射能量進行存儲，然后通過頻譜感知在基站和其他設備空閑時進行主動傳輸；同時也可采用環境反向散射(AmBC)的方法被動傳輸[3-5]。

受限于設備復雜度和能耗限制，WD通常只配備一套收發單元，通過軟切換在HTT模式和AmBC模式間選擇；同時，WPCN中的多個WD采用時分多址方式進行復用。因此，如何合理分配系統中設備主動傳輸和反向散射傳輸的工作模式及其對應的工作時間，從而實現最小的傳輸延遲，就顯得尤為必要[6]。目前，現有的研究大多采用凸優化[1-2，7]、博弈論[8-9]和基于機器學習[10-12]的算法來最大化系統的網絡吞吐量或者經濟收益。

凸優化算法[1-2，7]僅考慮單個時間幀內的時間分配，或者單用戶系統環境的優化問題。但是，在實際應用環境中，總是有多個用戶在同一時間卸載數據，且需要多個時間幀來完成傳輸任務。博弈論算法[8-9]將時間分配優化問題轉化為經濟模型進行求解，該算法中，次級發射機在綜合考慮網絡吞吐量和網關成本價格情況下確定反向散射時間，使經濟效益達到最大化。遺憾的是，這些算法并沒有考慮到卸載數據量的大小。

文獻[10-12]采用基于強化學習的方法解決單用戶網絡吞吐量最大化問題，為復雜通信場景下的系統性能優化提供了新的求解思路，但仍存在一些問題有待解決，例如：沒有考慮多用戶卸載數據大小的差異；同時，現有的強化學習方法如Q學習(Q-learning)和深度Q網絡(DQN)只能在低維、離散的動作空間上進行求解，并不適用討論環境中的多維、連續動作空間問題。

本文采用一種基于確定性策略梯度(DDPG)算法，對無線通信網絡中每個WD采取主動傳輸和反向散射傳輸兩種模式的時間分配在連續動作空間上進行優化，主要創新點包括：

1)與其他采用離散控制行為的強化學習算法不同，本文提出的基于DDPG深度強化學習方法能夠在連續動作空間內搜索多個WD的最優時間分配，并根據構建的獎勵函數對當前狀態下的分配策略進行評估。

2)在動態數據卸載過程中，同時考慮了各個WD之間的公平性和最大化卸載數據量。本文算法基于以往經驗的獎勵來優化各移動設備的時間分配和傳輸模式，可以最小化卸載的延遲、最大化用戶公平性。

3)實驗數值結果表明，DDPG算法可在有限時間步長內收斂，并且在不同實驗條件下，每個設備都能以最小的延遲同時完成數據卸載。與傳統的均分算法、貪心算法對比，DDPG算法可減少平均傳輸延遲77.4%和24.2%，并可有效提高WD的能耗效率。

1 多用戶數據卸載模型

圖1所示為多用戶數據卸載模型示意圖。圖1中：U1、U2、…、Uj、…、UN為環境中的WD，N為WD的數量；ta,j為Uj在主動傳輸階段(WIT)所分配到的時間長度；tb,j為Uj在能量收集階段(WET)所分配到的時間長度。由圖1可見，WPCN中存在一個混合訪問節點(HAP)和多個WD. 在下行鏈路上，HAP廣播主載波信號，為網絡中的WD提供用于能量收集和反向散射通信的環境載波，同時為網絡中的WD提供下行通信支持，如回傳數據卸載的處理結果；在上行鏈路上，作為數據卸載的接入點，接收通過主動傳輸或反向散射傳輸卸載的數據。事實上，WD并不一定必須將數據卸載給HAP，也可以卸載到其他中繼設備。不失一般性，本文假設所有卸載的數據均通過HAP傳輸給邊緣服務器。

圖1 系統模型圖和時間幀分配示意圖Fig.1 Schematic diagram of communnication model and time allocation

由于反向散射是通過調整天線阻抗對主載波進行反射而無法對載波頻率進行調整的，網絡中所有的反向散射設備都只配備了1根天線，并以時分多址的復用方式工作于同一頻帶。HAP以Duty-cycling方式工作，每個時間幀為兩個階段。其中：

1) WET：當HAP占用信道進行下行傳輸時，WD只能選擇進行能量收集或者采用反向散射模式進行數據卸載；

2) WIT：當HAP空閑時，WD可占用信道使用主動傳輸模式進行數據卸載。

不失一般性，一個時間幀可被歸一化為單位長度1，用w表示WET時間長度，則WIT時間長度為1-w.則有如下約束：

(1)

2 問題描述

對于WD，一個WPCN時間幀內卸載的數據由兩部分組成：WET反向散射卸載的數據和WIT主動傳輸的數據。因此，對于Uj，它在一個時間幀內卸載的總數據量可表示為

lj=rb,jtb,j+ra,jta,j，

(2)

式中：rb,j和ra,j分別表示Uj在反向散射和主動發射模式下的數據傳輸速率。

在該多用戶數據卸載場景下，有如下合理假設：

1)與卸載任務上行傳輸時間相比，從邊緣服務器返回處理結果至WD的回傳延遲非常小，可忽略不計[13]。

2)反向散射接收端通常是AmBC接收機和傳統接收機組成的協同接收機，通過連續干擾消除的方法，在接收端HAP能夠從混合信號(即反向散射+下行傳輸信號)中恢復出反向散射信號。因此，可忽略HAP的主信號對反向散射信號的干擾[11]。而不同WD的散射信號之間仍然無法分離，因此WPCN系統中同一時刻只能有一個WD進行反向散射通信。

3)在反向散射模式下，接收端換能器收集到的能量可以直接用于驅動反向散射和編解碼硬件單元，無須消耗額外能量[14]。

2.1 反向散射通信

在WET同一時刻只能有一個WD通過反向散射的傳輸方式來卸載數據，而其他WD仍然能夠收集能量。然而，由于譯碼器噪聲和上行信道噪聲會影響接收端的誤碼率[9]，即

(3)

(4)

第j個反向散射二進制對稱信道的容量為

Cj=1+εjlgεj+(1-εj)lg(1-εj)，

(5)

假設反向散射的速率固定為Rb不變[7]，則Uj在反向散射模式下的實際數據卸載速率為

rb,j=Cj·Rb.

(6)

2.2 主動傳輸通信

當HAP處于WIT時，WD可以使用自身電池中收集的能量以主動傳輸的方式卸載數據，多WD以時分多址的方式分別占用不同的時間長度ta,j來卸載數據。在這種模式下，WD應用傳統的射頻無線通信技術進行傳輸，其主動傳輸速率為

(7)

式中：B為主動傳輸的帶寬；Pa,j為主動傳輸功率。

2.3 能量模型

WD通過電池存儲在WET采集的能量，并用于主動傳輸。因為忽略了反向散射電路的能量消耗，所以能量消耗ea,j主要由主動傳輸造成，即

ea,j=Pa,jta,j.

(8)

在WET，各個WD可以互不影響地采集能量，因此Uj在一個時間幀內采集的能量eh,j為

eh,j=ηgjPH(w-tb,j)，

(9)

式中：η表示能量轉化效率，η∈(0,1)。

用Ej(k)表示Uj在第k個時間幀結束后電池中存儲的能量，

Ej(k)=min {Emax,Ej(k-1)+eh,j(k)-ea,j(k)}，

(10)

式中：Emax表示電池的最大容量。WD在WIT用于主動傳輸的能量消耗應該受到電池能量的限制，即

Pa,j(k)·ta,j(k)=ea,j(k)≤Ej(k-1)+eh,j(k).

(11)

2.4 優化問題

本文的優化目標是在同時考慮公平性和能耗限制情況下最小化所有用戶的卸載時間。因此，定義以下度量指標：

(12)

假設采用三元組Tj(k){(tb,j,ta,j,Pa,j)}表示Uj在第k個時刻的數據卸載策略，則問題可以總結為以下優化問題：

s.t.：

(13)

(14)

ea,j(k)≤Ej(k-1)+eh,j(k).

(15)

式中：K為完成數據卸載所用總時間；γ為衰減系數，γ∈(0，1)。約束(13)式表示所有WD反向散射的時間總和不能超過WET時間；約束(14)式表示所有WD主動傳輸的時間總和不能超過WIT時間；約束(15)式表示用于主動傳輸的能量不能超過電池中存儲的能量。

3 基于DDPG的數據卸載算法

圖2 DDPG算法流程圖Fig.2 Flowchart of DDPG algorithm

作為一種無模型的深度強化學習算法，不同于其他強化學習算法，DDPG可以用來在連續的高維狀態空間以及動作空間上解決優化問題。在DDPG中，用由狀態、動作和獎勵組成的元組(Sk，Ak，Rk，Sk+1)對神經網絡進行訓練：

1)狀態：表示在一個迭代回合中第k個時刻開始前對WPCN系統當前環境信息的觀測結果：

Sk={E1(k)，…，EN(k)，data1(k)，…，dataN(k)}，

(16)

式中：dataj(k)為Uj截止到當前時刻已經卸載完成的數據總量。

2)動作：Ak={T1(k),…,TN(k)}，即在第k個時間幀所有WD采取的卸載策略。

3)獎勵：Rk的計算如(12)式所示。

如圖2所示，DDPG中一共有4個網絡：

1)actor當前網絡：負責策略網絡參數θμ的迭代更新，根據當前狀態S選擇當前動作A，與環境交互生成下一個狀態S′和獎勵R.

2)actor目標網絡：負責從經驗回放緩存區采樣的下一狀態S′選擇下一動作A′.該網絡的網絡參數θμ′定期從actor當前網絡復制θμ更新。

3)critic當前網絡：負責價值網絡參數θQ的迭代更新，計算當前Q值Q(S,A|θQ)。定義目標Q值yk=R+γQ′(S′,A′|θQ′).

4)critic目標網絡：負責計算目標Q值中的Q′(S′,A′|θQ′)部分。該網絡的網絡參數θQ′定期從critic當前網絡復制θQ更新。

與DQN直接將當前網絡的網絡參數復制過來的硬更新方式不同，DDPG采取每次只更新一點點的軟更新方式，即

θμ′=τθμ+(1-τ)θμ′，

(17)

θQ′=τθQ+(1-τ)θQ′，

(18)

式中：τ為更新系數。這種更新方式可以大大提高學習的穩定性。

actor當前網絡采用確定性策略來產生確定性動作，損失梯度為

(19)

critic當前網絡的損失函數與DQN一樣采用均方誤差：

Los=E[(yk-Q(S,A|θQ)2].

(20)

基于DDPG的反向散射卸載優化算法具體步驟如下：

步驟1隨機初始化actor當前網絡和critic當前網絡，令構建actor和critic目標網絡，初始化經驗回放緩存區。

步驟2從迭代回合數T=1開始循環執行以下步驟。

步驟3初始化所有WD要卸載數據量大小，清零電池能量。

步驟4初始化一個均值為0、方差var=1的高斯噪聲n.

步驟5獲得初始觀測狀態S1.

步驟6從時刻k=1開始執行步驟7～步驟16.

步驟7選擇動作Ak=μ(Sk|θμ)+n.

步驟8令var=var×0.999 5.

步驟9WD執行動作并由(12)式計算獎勵Rk.

步驟10獲得新的狀態Sk.

步驟11將(Sk，Ak，Rk，Ak+1)保存到經驗回放緩存區。

步驟12從經驗回放緩存區隨機選取固定大小的樣本。

步驟13令yk=Rk+γQ′(Sk+1,μ′(Sk+1|θμ′)|θQ′).

步驟14由(20)式，通過神經網絡的梯度反向傳播更新critic當前網絡的網絡參數θ.

步驟15由(19)式，通過神經網絡的梯度反向傳播更新actor當前網絡的網絡參數μ.

步驟16如果所有的WD完成數據卸載，則執行步驟17；否則執行步驟6.

步驟17如果T/C等于1，C為設定的目標網絡參數更新間隔回合數，執行步驟18；否則，執行步驟19.

步驟18通過(17)式、(18)式更新目標網絡的網絡參數μ′和θ′.

步驟19如果T等于設定的最大迭代回合數，則結束算法迭代；否則執行步驟2.

4 仿真實驗結果與分析

假設環境中有N=4個WD，隨機分布在以HAP為中心，直徑50 m～3 km的范圍內，其各自要卸載的數據大小Ln=[50 kb，100 kb，150 kb，200 kb].電池的最大容量Emax為5 mJ/3.3 V，反射系數ρ和能量轉化效率η都是0.8.一個HAP時間幀長度為1 s，并且WET和WIT的時長均為0.5，即w=0.5.調頻信號的帶寬和頻率分別為100 kHz和100 MHz.上行信道增益和下行信道增益分別為10-5和2×10-5.actor網絡和critic網絡參數如表1所示。

表1 DDPG網絡參數表Tab.1 DDPG neural network configuration

4.1 算法收斂性

圖3 累積獎勵與完成卸載所用時間幀數的收斂情況Fig.3 Convergence of cumulative reward and frame number for completing data offioading

由圖3可知，基于DDPG的優化算法進行大約1 500次回合的學習后可以實現收斂，此時對應的累積獎勵V=20，所需時間幀數為32.

4.2 動態性能

圖4所示為當反向散射速率從Rb=32 kbit/s下降至Rb=24 kbit/s時系統數據卸載的動態性能，即在指定回合下(第2 000個回合)每個時間幀內的狀態和動作信息。

圖4 不同反向散射速率下系統的動態性能情況Fig.4 Dynamic performances of system at different backscattering rates

由圖4(a)可見，隨著反向散射速率的降低，系統卸載延遲從30個時間幀增加至45個時間幀。但受益于Jain公平指數的引入，所有WD仍可以在同一時刻完成各自的數據卸載。

由圖4(b)、圖4(c)可見，具有較大卸載數據量的U3和U4更傾向于采取反向散射傳輸模式，具有較小卸載數據量的U1和U2則更傾向于采用主動傳輸模式。

由圖4(d)可見，電池中的存儲能量Ej(k)非常低，表明大部分收集到的能量被用于主動傳輸，而過多的能量收集會造成反向散射時間的減少。

4.3 靜態性能

圖5所示為網絡隨著信噪比(SNR)和反向散射效率變化的靜態性能情況。

由圖5(a)可見，平均網絡吞吐量隨著SNR的增加而增加，同時數據卸載完成時間也隨之減少。值得注意的是，不同WD之間的平均網絡吞吐量并不相同，而是與自身要卸載數據量的大小呈正比。這是因為DDPG算法中引入了Jain公平指數，來保證所有WD的數據卸載可以同時完成。

由圖5(b)可見，此時SNR固定為60 dB，而數據卸載完成的時間還與反向散射速率Rb以及轉換效率ρ有關。由(3)式和(4)式可知，這是因為更高的反向散射速率和反向散射系數可以得到更大的主動傳輸速率以及更低的誤碼率。

圖5 不同SNR和反向散射速率下的系統靜態性能情況Fig.5 Static performance of system at different SNRs and Rb

4.4 算法比較

圖6比較了3種不同的優化算法即均分算法、貪心策略算法和DDPG算法，在相同SNR下完成數據卸載所需的時間幀數、隨能量轉化率η的變化，以及完成數據卸載后電池中的剩余能量。

圖6 算法性能比較Fig.6 Performance comparison of different algorithms

由圖6可見：

1)在貪心算法中，只要某一個WD的電池中存儲有剩余能量，便會盡可能占用更多的時間進行主動傳輸；均分策略算法不考慮多個WD之間要卸載數據量大小的差異，總是將時間平分給各個WD.

2)隨著SNR的增加，即信道條件變好，3種算法所需數據卸載完成時間均有顯著減少。但與傳統的均分算法、貪心算法對比，DDPG算法平均傳輸延遲減少了77.4%和24.2%，這主要是因為貪心算法只采取主動傳輸模式進行數據卸載；均分策略算法雖然采取兩種傳輸模式，但是當某一個WD完成其數據卸載后仍然會分配其時間，從而造成資源浪費。

3)均分算法和貪心策略算法在完成數據卸載后，每個WD中的冗余能量均比DDPG算法高，表明其能量利用率低。尤其是對于卸載數據量較小的U1和U2更為顯著，以U1為例，與均分算法和貪心算法相比，其在DDPG算法下能量利用率可提高7.75倍和1.25倍。以上結果表明，本文DDPG算法能夠在同時考慮每個WD剩余要卸載數據量大小、電池剩余能量情況下進行優化時間分配，在每個時間幀內最大化即時獎勵和未來獎勵，保證所有WD能夠在同一時刻完成數據卸載，并最大化能耗效率，以避免電池中積累過多冗余能量。

5 結論

本文提出一種基于DDPG的數據卸載優化算法，不僅可以在連續空間內搜索最佳動作(即每個WD的卸載策略)，且同時考慮了各個WD之間的公平性和其卸載數據量大小的差異性。實驗結果表明，本文所提出的算法在不同的反向散射系數、能量轉換效率、反向散射速率以及信道條件下都比傳統算法表現出了更好的性能，實現了最小的卸載延遲和更高的能耗效率。