基于跨層優化的HE-PDS最優傳輸算法設計

2014-07-02 00:30:10趙治羽

電視技術 2014年23期

關鍵詞：動作

趙治羽，張娟

(西南科技大學信息工程學院，四川綿陽621010)

基于跨層優化的HE-PDS最優傳輸算法設計

趙治羽，張娟

(西南科技大學信息工程學院，四川綿陽621010)

針對信道狀態時變性以及無線設備電量有限性的影響，從跨層設計的角度出發，聯合物理層發送功率和信道狀態條件以及鏈路層的緩沖隊列擁塞控制來尋找最優傳輸策略，并提出一種啟發式評估后決策算法(HE-PDS)進行求解。仿真分析表明該算法在動態無線環境下能以較快的速度收斂于最優傳輸策略，對于不同的延時和吞吐量限制，該算法的性能要明顯優于傳統的Q學習算法和后決策狀態學習算法。

跨層優化;啟發式評估后決策算法;最優傳輸

對于靠電池提供有限電能的無線通信，最小化能量開銷已成為一項巨大的挑戰［1］。然而，受信道狀態、包到達速率和緩沖隊列的時變性以及業務特征的動態性等因素的影響，這一問題變得非常復雜［2］。目前關于無線傳輸節能問題的相關研究現狀如下。

文獻［3］分析了延時和能量開銷間的平衡，文獻［4-5］分析了吞吐量和能量開銷間的平衡。這些研究獲得了較好的節能效果，但沒有綜合考慮延時、吞吐量和能量開銷三者間的平衡。針對MDP模型特點，文獻［4-6］將最優包傳輸策略建模成一個控制策略，借助強化學習(Reinforcement Learning，RL)理論進行求解。然而，上述傳輸策略是通過離線計算來完成的，這使得其應用受到較大限制。文獻［3］經引入后決策狀態(Post Decision State，PDS)和PDS值函數來構建PDS算法，但其未考慮系統級的電源狀態對傳輸模型的影響。文獻［6］雖基于PDS算法考慮了電源狀態變化，并獲得了較好的節能策略，但卻未對學習中動作探索和利用進行動態平衡，因此算法的收斂性能有待提高。

為解決以上問題，本文綜合考慮系統的吞吐量和傳輸延時，提出一種基于啟發式評估后決策狀態(Heuristic Evaluation Post Decision State，HE-PDS)算法的包傳輸策略。該算法計算復雜度低、收斂速度快，使得其在延時和吞吐量的限制下能獲得較好的節能性能。

1 通信模型描述

如圖1所示，傳輸模型是收發雙方在時變信道條件下，通過有限緩沖隊列傳輸數據。本文把傳輸時間劃為等長的時隙，時隙周期為Δt，時隙n代表離散時間段［nΔt，(n+1)Δt］。設傳輸決策和電源管理決策在每個時隙前是確定的，系統狀態信息在每個時隙中不變。根據接收端反饋的延時、吞吐量和信道狀態信息，發送端對傳輸速率和傳輸功率分別進行自適應調整。

1.1 PHY信道模型

考慮一個帶有加性高斯白噪聲的離散塊狀衰落瑞利信道模型［7-8］，其功率譜密度為N0/2，無線信道帶寬為W。信道狀態轉移只發生在相鄰信道狀態之間，在一個時隙內，信道增益固定不變。如圖2所示，本文采用具有k個信道狀態的有限狀態馬爾科夫信道模型(Finite State Markov channel，FSMC)來描述無線信道。

圖1 無線通信模型

圖2 FSMC模型

式中:πk為信道平穩狀態概率，即

1.2 MAC緩沖隊列模型

如圖3所示，設緩沖隊列具有先進先出特性。緩沖隊列容量為B個數據包。緩沖隊列滿時，新到數據包被丟棄。每個時隙到達的數據包為獨立隨機分布，在第n時隙，發送端將上層到達的l個數據包存儲在緩沖隊列，并將緩沖隊列中一些數據包發送出去。

圖3 緩沖隊列時序圖

設發送端在第n時隙可傳輸zn包數據，其中，zn∈{0，1，…，B}，受系統誤比特率(Bit Error Ratio，BER)的影響，接收端所接收的數據包數fn(BERn，zn)≤zn，設傳輸的數據包間相互獨立，因此fn服從二項式分布

式中:PER是包丟失率(Packet Error Ratio)，且PERn= 1-(1-BERn)ln。

設緩沖隊列初始時有bint包數據，n時隙緩沖隊列有bn包數據，因此發送端緩沖隊列中的數據包數為

2 啟發式評估PDS算法——HE-PDS算法

傳統的Q學習算法在狀態—動作對的學習過程中，往往假設環境狀態信息是完全不確定的，然而，在許多通信模型中，可分類出確定的環境信息。這樣在學習中就能充分利用系統確定的狀態信息，縮短收斂到最優策略的時間。PDS算法是改進后的Q算法［6］，不同的是，它通過引入PDS來組織和構建對最優策略的搜索［9］。

2.1 HE-PDS算法描述

在RL中，PDS算法可利用已確定信息來減少動作的探索［6］，但卻不能對動作的探索與利用進行平衡。本文設計的HE-PDS算法解決了該問題，在HE-PDS算法中，使用啟發函數和評估函數來改進貪婪算法。啟發函數和評估函數分別為狀態sn時執行動作an的重要性和可行性。

式中:ε和ω用于權衡啟發函數和評估函數的影響;q是均勻分布在0～1間的隨機值;p(0≤p≤1)為探索與利用的比重，p越大，隨機選擇的概率越小。啟發函數Hn(sn，an)影響動作選擇，但因大部分動作不滿足最優策略要求，需經評估函數En(sn，an)來減少待選動作數量。為了最小化啟發函數和評估函數的誤差，其值要盡可能低，相應函數值分別定義為

式中:σ是一個較小的實數;πH(sn)是啟發式建議動作。另外，式(5)中arandom是sn下從所有可能動作中隨機選擇的動作，即故意執行一種非最優動作來獲得未知狀態的知識。為保證探索過程中所有狀態-動作對遍歷的有效性，本文采用文獻［10］中的模擬退火算法進行動作選擇。在當前狀態下執行動作a的概率為

式中:τ為溫度系數，其控制動作選擇的隨機程度。

無線傳輸節能模型的求解過程為:利用HE-PDS算法與環境交互，對第n次學習中系統觀察當前狀態為sn，選擇和執行動作an，接受立即回報r(s，a)和r)，再觀察后續狀態 sn+1，根據式(9)來調整的值。

2.2 算法步驟

根據上述分析，HE-PDS算法的算法步驟:

第二步:對于當前狀態sn，執行由式(8)所得到的動作an，觀察立即回報r()和下一個狀態an+1;

第四步:更新時間索引n←n+1;

第五步:如果n小于仿真次數N，轉向第二步，否則仿真結束。

3 仿真結果及討論

針對本文所提出的HE-PDS節能算法分別在固定延時和吞吐量限制、不同延時和不同吞吐量限制下，與傳統Q算法和PDS算法的節能算法進行了對比，并對三者的收斂性進行了仿真分析。

3.1 仿真環境及參數配置

為驗證HE-PDS算法對無線通信節能策略的有效性，假設物理層設計為處理QAM矩陣星座，并使用格雷碼將信息比特映射成QAM符號;緩沖隊列B=25，包大小為5 000 bit，包到達概率分布和信道轉移概率是先驗不確定的，其信道狀態及轉移概率見表1。

表1 信道狀態及其轉移概率

噪聲功率譜密度N0/2=10-11W/Hz，帶寬W與符號率相等(W=1/Ts)，1/Ts=500×103symbol/s。在典型IEEE802.11a/b/g無線網卡應用中，設定Pidle為0.05 W，Pon和Ptr為0.31W，時隙周期為1 ms，BER為{2，4，8，16，32}×10-6%，傳輸動作z為{0，1，2，…，10}packet/slot。因此仿真實驗共有7×26×2×5×11×2個狀態—動作對。設折現系數γ=0.98，啟發評估函數的參數設置為: ε=ω=1，p=0.78，σ=0.005，τ=5 000。

3.2 固定延時和吞吐量限制

圖4是三種算法在最大延時限制值和最大吞吐量限制值分別為4/B包和0.1/B包時進行80 000次仿真的結果對比圖。

從圖4a中可看出PDS算法和HE-PDS算法的平均累積總開銷較傳統的Q算法下降了10倍左右。同時，從圖4a，4b，4c知，相對于PDS算法，HE-PDS算法的平均累積總開銷、平均累積延時開銷、平均累積吞吐量開銷降低較為明顯，分別降低了8%，10%，9%左右。另外，從圖4d可知，Q算法在仿真初期能量開銷較小。但隨著仿真時間的增加，其能量開銷也隨之增加，并在第40 000時隙左右達到穩定。而PDS算法和HE-PDS算法在仿真初期由于沒有無線環境的全部先驗知識，其能量開銷較大，但隨著學習次數增加，其能量開銷也隨之減小。HE-PDS算法在滿足固定延時和吞吐量限制下，能較快降低系統的能量開銷，并具有快速的收斂速度。

3.3 不同延時和吞吐量限制

1)不同延時限制下的性能分析

為驗證不同延時限制下的算法性能，對延時限制值為［3，4，5，6，7，8，9，10，11］/B packet/slot分別進行仿真。圖5為三種學習算法的仿真結果。

圖4 固定延時和吞吐量限制下的仿真結果

圖5 不同延時限制下的能量開銷

從圖5可以看出，對不同延時限制值，HE-PDS算法的能量開銷較Q算法和PDS算法的能量開銷分別減小50%和28%左右。隨著延時限制值逐漸變大，三種算法的能量開銷也隨之變小，且Q算法和PDS算法分別在9/B packet/slot和8/B packet/slot達到穩定，而HE-PDS算法在5/B packet/slot達到穩定。因此，在不同延時限制下，HE-PDS算法在減少能量開銷方面有明顯優勢。

2)不同吞吐量限制下的性能分析

為驗證不同吞吐量限制的算法性能，對［0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9］/B packet/slot的吞吐量限制進行算法仿真，如圖6所示的仿真結果。

圖6 不同吞吐量限制下的能量開銷

從圖6可以看出，在不同吞吐量限制下，Q算法和PDS算法的能量開銷較HE-PDS算法要大100%和56%左右。Q算法和PDS算法在吞吐量為0.7/B packet/slot后趨于穩定，HE-PDS算法能較快尋找到最優策略，在吞吐量限制為0.5/B packet/slot后即趨于穩定。顯然，HE-PDS算法具有更好的學習性能。

4 結論

在滿足延時和吞吐量限制的動態業務特征下，降低能量開銷給無線通信帶來了巨大的挑戰。由于點對點無線業務傳輸過程中，受動態的緩沖隊列、時變的信道條件以及系統級的動態電源能量消耗對無線傳輸的影響，本文提出一種HE-PDS算法，通過配置跨層參數實現用戶在動態未知環境中的節能策略。仿真結果表明在固定的延時和吞吐量限制以及不同的延時、不同的吞吐量限制下該算法與傳統的Q算法、PDS算法相比具有更好的學習性能。

［1］MADAN R，CUIS，LALLS，etal.Cross-layer design for lifetimemaximization in interference-limited sensor networks［J］.IEEE Trans.Wireless Communications，2006(11)，3142-3152.

［2］YANG J，ULUKUSS.Optimal packetscheduling in an energy harvesting communication system［J］.IEEE Trans.Communications，2012，60(1): 220-230.

［3］SALODKAR N，BHORKAR A，KARANDIKAR A，et al.An on-line learning algorithm for energy efficient delay constrained scheduling over a fading channel［J］.IEEE Journal on Selected Areas in Communications，2008，26(4):732-742.

［4］ ZHONG X，XU C.Energy-efficient wireless packet schedulingwith qualityof service control［J］.IEEE Trans.Mobile Computing，2007，6 (10):1158-1170.

［5］HOANG A T，MOTANIM.Cross-layer adaptive transmission:optimal strategies in fading channels［J］.IEEE Trans.Communications，2008，56(5):799-807.

［6］MASTRONARDE N，SCHAAR M V D.Fast reinforcement learning for energy-efficient wireless communication［J］.IEEE Trans.Signal Processing，2011，59(12):6262-6266.

［7］白鷺，郭靜波.多徑衰落信道下混沌直擴通信的可破解性［J］.物理學報，2011，60(7):82-89.

［8］HUSSAIN S I，HASNA M O.Performance analysis of selective cooperation with fixed gain relays in Nakagami-m channels［J］.MS Physical Communication，2012，5(3):272-279.

［9］PANDANA C，LIU K JR.Throughputmaximization for energy efficient multi-node communicaitons using actorcritic approach［C］// Proc.Global Telecommunicaitons Conference.Dallas:IEEE Press，2004:3578-3582.

［10］BANDYOPADHYAY S，SAHA S，MAULIK U，etal.A simulated annealing-based multiobjective optimization algorithm:AMOSA［J］.IEEE Trans.Evolutionary Computation，2008，12(3):269-283.

Design of HE-PDSOptimal Transm ission Based on Cross-layer Optim ization

ZHAO Zhiyu，ZHANG Juan
(School of Information Engineering，Southwest University of Science and Technology，Sichuan Mianyang 621010，China)

Due to time-varying channel state and limited energy supply，in thispaper，a Heuristic Evaluation Post-decision State learning algorithm is proposed with the aspect in cross-layer design by analyzing the system cross-layer parameter adjustment，the transmitting power and channel state condition at the physical layer and the buffer congestion control at themedia access control layer are jointly considered to achieve a scheduling policingmechanism.The simulation results demonstrate that the proposed algorithm has better performance than the traditional Q learning algorithms and PDS learning algorithm.

cross-layer optimization;heuristic evaluation post decision;optimal transmission

TN92

?? 京

2014-03-14

【本文獻信息】趙治羽，張娟.基于跨層優化的HE-PDS最優傳輸算法設計［J］.電視技術，2014，38(23).

國家自然科學基金項目(61379005);西南科技大學博士基金項目(122x7127)