999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合改進強化學習的認知無線電抗干擾決策算法

2019-05-07 06:02:26馬永濤南亞飛張云蕾
計算機與生活 2019年4期
關鍵詞:動作用戶策略

朱 芮,馬永濤,南亞飛,張云蕾

天津大學 微電子學院,天津 300072

1 引言

隨著無線通信技術的發展,有限的無線電資源不能滿足日益激增的業務需求,同時也存在部分頻段利用率過低的情況。為了解決頻譜利用的不均衡,認知無線電(cognitive radio,CR)[1]技術應運而生。CR系統被定義為智能無線通信[2]系統,指系統能感知無線電頻譜環境,并且結合智能學習算法動態地調整傳輸參數,以達到合理占用授權用戶頻段的目的。針對頻譜資源的有效利用問題,不僅在分配管理方面引起了研究熱潮,而且出于對認知用戶性能的保障,認知用戶本身處于易受到干擾的無線電環境的問題也引起了相關重視。尤其在軍事認知無線電中,面對可能的動態干擾,需要探索更加有效的抗干擾決策算法。

在頻譜資源分配管理方面,對于典型的靜態干擾問題,采用與智能算法結合的決策方案??梢酝ㄟ^進化算法和粒子群算法等優化算法[3]來尋找未被干擾的頻段信息,通過神經網絡算法和支持向量機算法等監督式學習算法[4]訓練某種干擾場景下的數據,得到干擾的特征進而規避干擾頻點。本文主要研究對環境認知的要求低,適應動態變化的性能強的模式自由的強化學習[5](reinforcement learning,RL)算法。將RL算法融合到中心式認知系統的資源分配和管理中,能夠對認知系統的內部參數進行自適應調整[6],從而達到頻譜資源充分利用的目的。文獻[7-8]在結合5G通信技術的基礎上,給出RL算法未來應用于認知無線電感知和決策的構想。面對認知系統中存在智能干擾問題,文獻[9]用馬爾可夫參數化模型求解干擾和能量收集的聯合決策問題,并給出能量收集情況下合理的認知用戶策略尋優算法。對有固定干擾策略的認知環境,文獻[10]研究了以認知用戶的吞吐量為參考標準的RL算法模型,分析了系統的功率分配性能。文獻[11-12]中將RL融合到聯合感知和決策的寬帶自適應無線電系統中,以算法的收斂時間為反饋指標,提出了信道選擇的優化決策模型。

考慮認知用戶和干擾器之間的動態交互,聯系到博弈論模型中的競爭關系。文獻[13]利用博弈模型來解決CR干擾情況下功率控制問題,提高了CR決策性能。在博弈論的前景理論角度,文獻[14]對認知用戶和干擾之間的交互進行了系統的分析,通過設計效用函數找到博弈的納什均衡點,進而給出提高吞吐量的策略選擇。文獻[15-16]中將多認知用戶與干擾器的相互作用構建為零和博弈模型,借助RL算法對頻譜質量和多信道選擇策略進行了分析。以上文章介紹了融合RL算法的CR頻譜分配問題和結合博弈論思想的CR系統容量分析,但其主要是解決系統功率分配或者用戶信道選擇單個問題。

本文針對認知用戶面對的動態干擾問題,提出了一種聯合功率分配和信道選擇的決策算法,即存在智能干擾器的情況,在參考博弈思想的前提下構建效用函數,設計認知用戶能量效率[17]為RL算法的評價函數,將改進的在策略RL算法應用到不需要信道轉移概率信息的認知用戶與干擾環境的交互模型中。第2章描述了認知用戶與干擾器的CR交互的場景;第3章討論了改進的在策略SARSA(state-actionreward-state-action)算法,并把無線電場景與改進算法合理地聯系起來;第4章介紹了相關參數 設置、算法仿真以及系統性能分析;最后進行總結與展望。

2 認知系統模型

圖1是單個授權用戶系統中存在多個信道的場景。授權用戶將其授權頻段劃分為信道增益不等的多個信道,明確指出某時隙內,無論是認知用戶還是干擾器都只允許接入多個信道中的一個,圖中虛線代表可能選擇的信道,實線表示真正選擇的信道。假設信道感知部分已知,認知用戶能夠實時地監測信道情況,主動地對授權用戶的存在進行規避,當感知到授權用戶的存在時,立刻釋放當前占用信道。智能干擾器只對認知用戶進行干擾,因此當授權用戶存在時,認知用戶和干擾器都不占用信道。

本文主要研究單個認知用戶與單個干擾器的情況。將兩者的交互過程構建為強化學習模型,認知用戶以自主地選擇其發射功率和信道為目的,來保證其性能相對最優。如圖1所示,當認知用戶2不存在時,即單個認知用戶1與單個干擾器的交互。然后拓展場景到多用戶的中心式CR系統與單個干擾器模型[11]中,由一個認知中心管理不同認知用戶的發射功率和信道的分配,并假設此時干擾器能夠同時干擾多個信道。

認知用戶作為中心進行考慮時,將認知用戶感知到的無線電環境作為狀態信息,將認知用戶選擇的發射功率和所選信道標號作為動作信息。智能干擾器同樣可選擇自己的發射功率和占用信道來對認知用戶的傳輸造成干擾,但其作為認知用戶的狀態信息存在。在兩者交互過程中,假設認知用戶和干擾器同時做出策略選擇,兩者只能以彼此的上一歷史信息為學習參考進行動作選擇[13]。

CR系統中通用的性能衡量參數主要有信干噪比(signal to interference plus noise ratio,SINR)、吞吐量、中斷概率以及能量損耗等。借鑒基于博弈的無線電資源分配管理思想[18],認知用戶以干擾器的動作選擇為依據,綜合發射功率和信道選擇要求給出認知用戶的SINR定義形式:

式中,p表示發射功率,h表示信道增益,ε表示高斯白噪聲功率,i表示信道標號,s和j下標分別代表其屬于認知用戶或干擾器。S表示認知環境信息,a表示認知用戶的參數選擇,β表示授權用戶的存在信息,I(·)是指示函數,I(is,ij)代表認知用戶與干擾器選中同一信道。在發射功率的選擇上,發射功率越大,接收端將會得到更高的SINR,但會消耗更多的能量。同時考慮到認知用戶與干擾器的交互過程中,認知用戶為了規避可能的干擾選擇跳頻的情況,給出能量消耗的表達:

e表示單位發射能量損耗,c表示跳頻能量損耗,代表認知用戶是否跳轉信道。

傳統算法僅以滿足最低通信質量或者可達到的傳輸速率的最優化為單一目標,本文在可達速率的基礎上,加入能量消耗的考慮,從通信質量和通信條件兩方面來設計效用函數,更具有能效均衡[19]意義。以下定義系統能效的比率形式:

式中,W表示信道帶寬。將計算能效的函數表示為RL中的瞬時獎勵函數,通過兩者動態的交互,認知用戶能夠實時地改變策略選擇,進而改善頻譜效用。

3 融合強化學習的認知抗干擾算法

強化學習算法作為一種模式自由的在線機器學習算法,不需要狀態轉移概率作為先驗信息,在智能體與環境的交互過程中旨在通過試錯來學習,使得選擇的策略獲得最大的平均累計獎賞值。傳統RL算法中以狀態動作值函數Q(S,a)為標準衡量算法的性能,Q函數本質是狀態與動作之間的映射關系,代表不同狀態下不同動作選擇的一個策略參考。Q值函數更新規則表示如下:

式中,α是學習因子,表示算法學習速率,γ為折損因子。式(6)是狀態值函數,表示對當前狀態的一種動作選擇:總是選擇最大Q函數值的作為V(S)。

最初RL應用于迷宮中路徑尋優[20],不同的RL方法在不同的場景下具有各自的優勢和劣勢。由于認知用戶在接近實際的CR環境中,不能夠獲得完整的環境信息,因而融合RL算法于認知系統中。在未知信道轉移概率的情況下,將認知用戶與動態干擾之間的交互構建為RL算法模型,可憑借觀察到的狀態信息和對應的獎勵反饋信息對自身參數進行動態的策略選擇,從一定程度上減少了認知決策對環境信息的要求。本文根據認知場景考慮了從屬于時序差分[21](temporal difference,TD)強化學習算法的SARSA算法和TD(λ)算法。

結合RL算法的單個認知用戶與單個干擾器交互模型中,將認知用戶的動作表示為a=[p,i],其中p∈Ps,i∈Φ,a∈Α(Α:Ps×Φ);智能干擾器以同樣方式選擇自己的策略為d=[p,i],p∈Pj,i∈Φ,d∈Λ(Λ:Pj×Φ);將信道的情況與干擾器的策略選擇作為認知用戶的狀態信息S=[β,d],β∈B,d∈Λ,S∈Ω(Ω:B×Λ)。若空閑信道數量為M,將信道的增益集合表示為固定的常量形式H={Δ?m|0<m<M},對應的瞬時獎勵值用認知用戶的能效式(4)表示。在多認知用戶多信道的功率分配系統模型中,假設干擾器同時能夠干擾多個信道,系統模型的參數設置與單認知用戶類似。假設干擾器同時能夠干擾J個信道,狀態空間近似為S'=(S1×S2×???×SJ)。認知用戶的策略選擇由認知中心作為與環境交互的智能體,動作空間據認知用戶個數W變化近似為Α'=(Α1×Α2×???×Αw)。在認知中心的分配下,將單個用戶的能效分別計算,系統的總能效記為多個用戶的能效之和。

CR系統中的干擾具有不確定性和不穩定性,不能把當前的信息當作全部特征信息做認知決策和判斷,需要一段時間的信息收集。但傳統SARSA算法僅利用當前因素,不考慮其他未來因素的影響,具有局部性,不能保證整個過程的全局最優。TD(λ)學習算法[22]是對原始TD算法的改進,對不同的時間差分情況以參數λ給出一定的權重表達。綜合借鑒SARSA算法和TD(λ)算法的優勢,把場景適應性、當前的影響與未來步驟可能對當前的影響融合在一起,在犧牲少許復雜度的情況下,提出多步SARSA算法來有效提高收斂速度和性能。

本文據TD(λ)學習算法以權重的形式采取不同的步驟反饋情況,參考Watkins觀點[23]的某時刻的校正K步截止獎勵形式和文獻[24]中K步的TD(λ)加權平均值的獎勵形式,給出結合SARSA算法的某時刻的K步獎勵定義:

式中,rt表示當前的瞬時獎勵值,rt+i表示未來i步的瞬時獎勵值,λγ部分表示對應于不同的步驟權重影響。為了簡便記錄給出如下式子:

因此可重新改寫K步截止獎勵的形式如下:

將式(10)代入式(5)中,給出改進的多步SARSA學習的Q函數更新規則:

改進的SARSA算法將選擇的動作真正應用到算法的迭代當中,在更新時選擇的下一狀態和動作都需要執行,因此成為在線的學習算法。式(11)表示狀態動作對的Q值更新規則,對比于式(5),這個Q值的更新就綜合了未來K步的影響。

此外,傳統的動作選擇算法思想是在策略的基礎上結合隨機思想,將局部最優解接近整體最優解。如下給出貪心策略的定義:

其中,pr表示隨機生成的概率;ε表示探索與利用的均衡閾值參數,參數越小算法越傾向利用經驗對策略選擇,否則算法傾向于選擇一個隨機的動作。

選擇固定參數會使得算法不能隨著迭代的進行有效地均衡探索與利用,本文對固定參數的貪心算法進行改進,以交互次數的自然對數的倒數為均衡參數ε,來增強算法的學習靈活性。在算法的初始階段交互次數小,對環境信息沒有足夠的了解,對當前的狀態需要更多地探索不同動作會帶來的結果,充實不同狀態下動作選擇的Q值,此時設定的均衡參數較大,符合以大概率來探索可能的解的需求。在算法的后續階段,當收集到部分環境信息后,對不同狀態下的動作選擇有了初步的掌握,此時設定的均衡參數逐漸變小趨于0.1,能保證以較大的概率充分利用已獲得的歷史經驗的同時,以較小的概率對環境狀態的隨機動作選擇做出探索。

算法初始時隨機假定一個干擾動作,在交互過程中,認知用戶以感知到的信道信息和干擾的前一動作信息為當前狀態信息,以改進貪心算法選擇動作,結合獎勵值rk,λ對Q值函數內容更新。當授權用戶存在時β=0,認知用戶和干擾器都不進行動作選擇,記錄此次的獎勵值r=0。如下以認知用戶為主體,以前一次干擾策略和信道信息為狀態,給出算法核心步驟:

(1)初始化。初始數組Q、E、E'元素為0,對于初始環境狀態S=S0,默認以相等概率(|A|表示動作空間的大?。╇S機選取初始狀態的動作a=a0,并執行該動作。

(2)循環。設定算法執行的最大循環次數N:

①執行動作后,以認知用戶對信道的實時監測性能觀察到下一環境狀態情況St+1,進而用改進貪心算法選擇其動作at+1。每次選擇動作時,隨機生成一個概率值,并比較概率值與交互次數的自然對數的倒數值的大小,利用式(12)選擇動作。

②用式(4)計算當前狀態-動作選擇的能效即獎勵r,進行實時的記錄;并由式(8)、式(9)計算et和et'存放于E、E'數組中。

③采用式(11)更新Q(S,a),隨著算法進行其值逐漸變化,表示對當前S-a選擇的評價更新。

④將下一狀態和動作對當前的狀態和動作更新S=St+1,a=at+1,并判斷當前的執行次數是否到達N,未到達則開始新一輪迭代,否則算法結束。

4 系統仿真與性能分析

利用MATLAB仿真軟件,根據相關參考文獻數據設定認知決策系統模型中參數。將認知用戶和干擾的發射等級設置為3級Ps/j={1 dBm,3 dBm,6 dBm}??捎眯诺赖膫€數設置為M=4,Φ={1,2,3,4},單位信道增益設置為Δ=0.2,信道帶寬記為單位帶寬B=1 MHz。設置單位的發射功率能耗e=0.02,設置認知用戶跳頻的能耗c=0.02。噪聲功率設置為-60 dBm,折損因子δ=0.7,參數λ=0.85,授權用戶的存在用β=0/1表示。

4.1 收斂性

為了體現改進的SARSA學習算法對比于傳統算法的收斂性能,在相同的隨機選擇狀態場景下,以每次迭代的Q函數平均偏差為收斂參考標準。設定折損因子δ=0.7,權重參數λ=0.8,學習速率α根據迭代次數倒數來設計,迭代次數根據算法的狀態和動作空間合理選擇N=10 000。針對K步驟的確定,K的增加會導致算法復雜度的增加,僅在較低的復雜度情況下,討論了K=2,5,10不同步數的算法對比情況。

圖2曲線為算法執行100次后取其統計平均得到近似結果,能夠看出多步的學習算法比傳統的算法在初始階段收斂速率快。若以平均偏差0.05為界,改進算法約比原始算法收斂效果提高一倍,但后期趨于穩定。這是由于傳統算法在積累到一定的迭代次數后也能夠對環境信息進行學習,改進的算法在初始依靠未來步驟影響能夠較快地探索較優策略選擇。對比于不同的步數選擇上,考慮到計算復雜度與迭代次數足夠情況下,算法的效果都能較好收斂,在以后的仿真中固定步驟K=5。

Fig.2 Comparison of improved algorithm and original convergent圖2 改進算法與原始收斂比較

4.2 抗干擾性能

構建認知用戶與干擾器之間的交互過程,考慮到多步的改進算法對初始部分的收斂情況有提高,設置前部分的迭代次數用多步改進算法,后部分的迭代用原始算法。算法最終的結果以整個過程中迭代的累計平均獎勵的歸一化形式表示:

式中,N隨著迭代次數的增加而增加。累計平均獎勵以概率的形式表示算法選擇的動作的平均效果,其值越大代表算法選擇的策略對干擾存在場景越有效。另一有效的策略選擇評價準則定義為成功次數:將評價能效的瞬時r函數值在每次的交互過程中記錄下來,在給定性能閾值的條件下,大于閾值的效用記為1,小于閾值的效用記為0。閾值的選取依據得到的實時仿真數據,選擇中位數作為通用標準閾值。

動態干擾定義為在認知用戶對認知環境做出動作選擇后,具有信道感知能力的智能干擾器能在下一狀態對當前可能的用戶占用的信道進行干擾,為了更加貼近實際,設置干擾器以一定的感知誤差概率pe=0.1進行干擾。隨機干擾場景下設置干擾器以隨機概率的形式生成干擾策略,不依賴于其他條件。本文對比了三種不同的策略選擇,包括智能策略、固定策略和隨機策略。智能策略表示按照改進的算法或傳統算法進行動作選擇,固定策略以選擇信道增益最大信道為標準選擇動作,隨機策略則是在動作選擇上服從均勻分布。

隨機干擾場景下認知用戶無法得到干擾策略的任何信息。圖3僅表示某一次隨機干擾存在情況下的仿真結果,對比了不同策略的累計平均獎勵值的變化曲線。因為固定策略和隨機策略選擇動作的條件固定,不能夠動態地隨環境的變化而智能轉變,所以初始階段都會出現一段時間內的性能不穩定,且隨著迭代次數的增加性能不會有所提高。但智能策略通過強化學習對環境進行有效的策略嘗試和信息學習,以Q值函數評價標準,依然能夠選擇較優的信道和功率策略,使系統性能有明顯的提高。

Fig.3 Performance comparison of algorithm and other strategies in one stochastic interference圖3 某一次隨機干擾下算法與不同策略性能對比

Fig.4 Performance comparison of algorithm and other strategies in dynamic interference圖4 動態干擾下算法與不同策略性能對比

由于初始的狀態和動作選擇不同,可能會導致不同的狀態動作選擇軌跡。為了體現性能的穩定性,圖4是動態干擾場景下算法50次的統計平均曲線。結果顯示所提出算法可以使得累計平均能效收斂到0.755,傳統學習算法的累計平均能效收斂到0.626左右,固定策略的累計平均能效平穩于0.511,隨機選擇策略累計平均能效穩定在0.396。由于固定策略和隨機策略是不會隨環境改變的,因此決策效果收斂快且后期不會有所改進。智能算法在初期通過對環境大范圍地探索可能解,存在一個學習過程對應于曲線上升部分,后期以改進貪心思想更多地利用累計信息決策,使得算法效果逐漸收斂。改進算法的平均能效性能比傳統算法提高約20%,比固定策略大概提高47.8%,比隨機策略提高90.6%左右,說明改進SARSA算法能夠對動態的認知環境變化做出自適應的策略調整,為簡單的認知抗干擾問題提供有效的決策方案。

圖5為隨機干擾場景下不同策略的50次累計平均獎勵值的變化曲線。對比于動態干擾的效果,由于動態干擾策略相對隨機干擾存在一定的經驗規律,因此本場景的整體算法決策效果會比動態干擾場景的略差。結果表明改進的學習算法較傳統算法依然具有9%的性能提高,頻譜的能效比給出的固定策略提高25.5%,較隨機策略選擇性能提高61.1%左右。

Fig.5 Performance comparison of algorithm and other strategies in stochastic interference圖5 隨機干擾下算法與不同策略性能對比

圖6表示隨著算法的進行認知用戶與干擾器交互過程中成功的交互次數,與圖5的效果相對應。在單次的實驗結果中,由于認知用戶在嘗試不同的狀態動作選擇時首先經過一個探索的過程,算法初期階段的成功次數為0;經過交互次數的增加,成功次數曲線圖是階梯式增加的。圖6是保證效果穩定性的50次平均結果,階梯增加的效果不明顯,但成功次數整體上升的趨勢是不變的。

Fig.6 Relatively successful action selection in stochastic interference圖6 隨機干擾下相對成功的動作選擇

考慮本文參數設定,假定由一個認知中心管理兩個認知用戶,干擾器能同時干擾兩個信道,系統的總能效為兩個用戶的能效之和性。由于認知中心和干擾器的設定,導致強化學習算法的狀態空間和動作空間成平方倍增加。為了遍歷所有可能的狀態動作組合找到最優,在仿真的參數設置中需要合理地提高整個算法的迭代次數至50 000。仿真結果如圖7所示,改進算法的整體性能對比隨機策略約提高47.7%左右,說明所提出的算法在該環境中選擇的功率和信道策略同樣比隨機選擇策略有效。

Fig.7 Algorithm comparison of random state multi-user situation圖7 隨機狀態下多用戶情況算法對比

5 結束語

本文首先基于傳統強化學習算法提出了改進的SARSA算法,并用仿真結果證明了其收斂性能的提高。然后在合理利用認知環境信息的情況下,分析了認知用戶在干擾存在場景中的學習決策,將改進的SARSA算法融合進認知決策當中,提出了一種抗干擾決策算法。通過仿真環境與認知用戶的交互過程,以認知用戶的能效為性能參數,證明了不同策略下提出算法在該場景中的合理有效性,對未來復雜的CR場景認知進行了初步的探索。

猜你喜歡
動作用戶策略
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
非同一般的吃飯動作
主站蜘蛛池模板: 国产精品成人免费视频99| 欧美www在线观看| 午夜成人在线视频| 丝袜无码一区二区三区| 色精品视频| 91成人在线观看视频| 亚洲一级毛片| 本亚洲精品网站| 国产chinese男男gay视频网| 国产97视频在线| 亚洲成av人无码综合在线观看| 真实国产精品vr专区| 亚洲首页在线观看| 欧美综合一区二区三区| 凹凸精品免费精品视频| 亚洲精品第五页| 黄色国产在线| 国产精品99在线观看| 色婷婷电影网| 91色综合综合热五月激情| 日本国产精品| 一本大道AV人久久综合| 欧美日韩在线亚洲国产人| 国产xxxxx免费视频| 亚洲人成在线免费观看| 欧美亚洲国产日韩电影在线| 亚洲第一色网站| 97av视频在线观看| 成人午夜网址| 一区二区偷拍美女撒尿视频| 国产毛片基地| 国产欧美日韩综合一区在线播放| 亚洲综合天堂网| 婷婷99视频精品全部在线观看| 国产微拍一区| 日韩精品免费一线在线观看| 亚洲天堂区| 国产精品久久久久久久久| 国产导航在线| 丰满少妇αⅴ无码区| 不卡无码网| 97国产精品视频自在拍| 婷婷久久综合九色综合88| 欧美黄网站免费观看| 国产不卡一级毛片视频| 午夜限制老子影院888| 亚洲熟女中文字幕男人总站| 日韩毛片在线视频| 成人综合在线观看| 毛片在线播放a| 国产欧美日韩在线在线不卡视频| 制服丝袜 91视频| 91成人在线观看| 91麻豆精品国产高清在线| 中国精品久久| 极品私人尤物在线精品首页 | 成人免费网站在线观看| a免费毛片在线播放| 欧洲熟妇精品视频| 亚洲精品无码在线播放网站| 午夜欧美在线| 国产欧美视频综合二区| 欧美精品亚洲精品日韩专区| 色综合五月婷婷| 国产成人高清精品免费5388| 无码aaa视频| www.youjizz.com久久| 久久视精品| 亚洲成a人片在线观看88| 97狠狠操| 国产亚洲欧美另类一区二区| 国产一区二区精品福利| 精品午夜国产福利观看| 无码AV动漫| 一本大道视频精品人妻 | 久久网欧美| 国产成人综合亚洲欧洲色就色| 亚洲国产在一区二区三区| 国产日韩欧美一区二区三区在线 | 精品成人一区二区三区电影| 综合人妻久久一区二区精品| 国产自无码视频在线观看|