朱佳璐,馬永濤,劉開華
(天津大學微電子學院,天津 300072)
隨著無線通信技術的發展,信道環境變得越來越復雜,其中干擾攻擊對通信質量造成了嚴重威脅。近些年有許多關于干擾模式及抗干擾方法的研究[1-5]。針對這種無線通信抗干擾的頻譜決策問題,可以利用馬爾可夫決策過程(Markov Decision Process,MDP)[6]作為框架進行分析。MDP是一個離散時間隨機控制過程,它提供了一個數學框架來建模頻譜決策問題,以優化其結果。求解MDP的目標是為所考慮的用戶找到最優策略。在抗干擾場景中,它意味著為認知用戶找到最佳的信道進行通信,以避免被干擾。但是在存在干擾的無線通信場景下,得出確定的狀態轉移概率是不可能的,這個問題可以借助機器學習范疇內的強化學習算法來解決。例如,強化學習中經典的q-learning算法[7]。基于q-learning算法,文獻[8-9]中Slimeni等人主要研究了單用戶場景下的抗干擾問題,隨后Aref等人將單用戶場景拓展到了多用戶場景[10],同時引入了馬爾可夫博弈框架,構建模型中多個用戶之間的關系。文獻[11]提出了一種聯合功率分配和信道選擇的決策算法,可以有效解決動態干擾問題。文獻[12]提出了一種協同多智能體抗干擾算法(CMAA)以獲得最優抗干擾策略,同時考慮了虛警率以及誤檢率的影響。
隨著用戶數的增加,對于維度過大的狀態空間,傳統的強化學習方法難以收斂。傳統的強化學習已經與深度學習方法相結合繼而解決維度災難問題。谷歌DeepMind首次提出了將卷積神經網絡與qlearning結合在一起的深度強化學習算法,將傳統的q-table改進成神經網絡形式,根據神經網絡擬合出的函數值選擇動作。文獻[13]提出了進行干擾模式識別后決策的方法,同時還考慮了跳頻系統能量的消耗問題。對于無線網絡中,動態的頻譜接入問題,文獻[14-15]主要對單用戶場景進行研究。其中文獻[15]利用了DQN和Double DQN方法,使得單個用戶在復雜干擾條件下可以實現對干擾的規避,實現最優接入策略。文獻[16]中考慮了在多信道無線網絡中,網絡效用最大化的動態頻譜接入問題,dueling DQN[17]的引入改善了因連續的不良狀態對動作選擇的影響。
圖1是多用戶系統存在干擾影響的場景,用戶在多個信道中根據策略選擇信道進行通信,避免用戶之間沖突以及干擾影響。本文針對該干擾場景,在無需在線協調或用戶之間交換信息條件下,提出了一種融合了LSTM[18]和DQN算法的多用戶聯合抗干擾決策算法(MJADA),該算法同時考慮用戶之間的協調(即減少用戶接入同一信道的風險)以及對干擾的規避兩方面因素,目標是最大化傳輸成功率,在多種干擾模式以及用戶數目增加的場景下,都能進行有效收斂,得出最優的抗干擾策略。

圖1 干擾存在的場景圖
本文中所有用戶皆為認知用戶。認知用戶具有可以進行頻譜感知,主動檢測信道狀態的能力。在一定的區域內,多個認知用戶組成了一個認知無線網絡。假設信道感知部分是已知的,即每個認知用戶都可以感知到所有信道的狀態(是否被占用)。
如圖2所示,一個時隙中,用戶可以進行數據傳輸、頻譜感知[19]及信道選擇和學習決策等四個任務。在某個時隙t中,每個認知用戶只能選擇其中一個信道進行傳輸。假設接入無線網絡中的所有認知用戶在每個時隙都有傳輸任務,但是認知用戶可以選擇在某時隙不選擇信道進行傳輸。認知用戶可以選擇的信道集合跟干擾可以占用的信道集合是相同的。

圖2 傳輸時隙結構圖
圖3為智能體即認知用戶與環境的交互過程,在時隙t中,智能體從環境中感知到當前狀態s t∈S,其中S為狀態空間。根據狀態s t,在動作空間A中選擇動作a t,根據輸入狀態動作對(s t,a t),智能體會收到獎勵r t。在下一時隙t+1,狀態s t也會隨之轉變成新的狀態s t+1。在傳輸時隙的最后,智能體根據自己收到的獎勵來更新策略。智能體的目標就是使自己得到的獎勵最大化。在本文構建的模型中,認知用戶從環境中感知到的信道狀況作為狀態信息,認知用戶的聯合動作空間作為動作信息。

圖3 智能體與環境交互過程
本文考慮的認知無線網絡中,認知用戶集合為N={1,2,…,N},可用信道集合M={1,2,…,M}。認知用戶數目為N,可用信道的數目為M,其中(N 該場景下的抗干擾問題模型中,任意一個認知用戶的動作空間A n={0,1,2,…,M},即用戶可以選擇信道集合M中任意一條信道進行通信。所有認知用戶的聯合動作空間為A=?A n(n=1,2,…,N),?表示笛卡爾積。狀態空間S由每個信道的狀態來表示。0表示信道被占用,1表示信道處于空閑狀態,所以狀態空間內有2M種狀態。例如,S t=[0,1,1,1,0,1]表示系統中共有6個信道,在時隙t中信道1和5被占用。認知用戶n在時隙t中選擇信道進行傳輸后都會得到一個獎勵r n(S t,a n,t)。 式中:a n表示認知用戶n選擇的動作,a j表示干擾器的動作,a l表示認知用戶集合中除用戶n以外的任意用戶選擇的動作。每個用戶在一段時間內的累計折扣獎勵為: 式中:γ為折扣因子(0<γ<1),T為整個訓練過程的時域。 在這個多用戶的模型中某個時隙t的全局獎勵為: 目標是經過學習,生成一個可以使每個用戶的長期累計獎勵最大化的策略。 強化學習基本原理是在智能體與環境不斷地交互過程中,根據自身從環境中得到的獎勵或者懲罰來改進自己的策略,從而生成最優決策。傳統強化學習算法,例如q-learning,智能體是根據狀態動作值Q(s,a)來選擇動作的。通過不斷的迭代,Q(s,a)才會達到收斂。Q(s,a)的更新公式如下: 根據Bellman公式: 式中:α(0<α<1)是學習因子,可以調節更新的Q(s,a)幅度,表示算法的學習速率。一般會把它取為一個較小的接近0的數字。V?(st+1)是狀態值函數,總是選擇當前最大的Q(s,a)值。q-learning將存Q(s,a)存在在一個二維表格q_table中,智能體通過查表的方式獲取。當狀態空間過大或者動作連續的時候,需要進行降維操作,成本較大。 DQN算法是一種基于q-learning的無模型的強化學習算法。DQN中使用神經網絡作為函數逼近器來近似狀態動作值函數,即用q(s,a;θi)≈Q(s,a)。其中θi為神經網絡的權重參數。q(s,a;θi)即預測q值由神經網絡來迭代更新。 DQN網絡以最小化q(s,a;θi)的預測誤差為目標來進行訓練。誤差函數可以表示為: 式中:目標q值y i可以表示為: DQN算法通過梯度下降方法來更新權重并減小目標q值和預測q值之間的預測誤差。傳統的動作選擇原始策略π是總是選擇當前時隙最大的Q(s,a)的動作,容易陷入局部最優,這里我們采用ε-貪心策略: 式中:p e為0~1之間的隨機數。ε(0<ε<1)為探索概率。該策略以ε的概率在動作空間|A|中隨機抓取一個動作,避免陷入局部最優。ε為探索概率,1-ε為利用(選擇當前最優策略)概率。ε的值越大,利用的概率就越小。算法執行初始階段,由于狀態動作空間較大,探索概率應該取較大的值,隨著迭代次數的增加,逐漸策略接近最優,利用概率應該隨之增加。本文中為了平衡概探索與利用的關系,ε的值隨著迭代次數變化而變化。 式中:εmax,εmin為ε能夠取到的的最大值和最小值,ξ表示衰減因子,τ表示當前迭代次數。 為了打破馬爾可夫狀態下數據之間的相關性,適應神經網絡訓練不相關的數據的特性,DQN設有經驗回放(Experience Replay)功能。將智能體經歷過的(s t,r t,a t,s t+1)數據樣本存儲起來,在神經網絡更新參數的過程中隨機抽取部分數據樣本加入訓練,從而打破數據的關聯性。 LSTM結構是一種特殊的循環神經網絡(Recurrent Neural Network,RNN)結構。RNN可以利用歷史信息對序列數據進行處理和預測,LSTM的提出解決了RNN的長期以來存在的梯度消失問題,目前在自然語言處理領域中的應用取得了巨大的進展[20]。LSTM結構組成如圖4所示。 圖4中的遺忘門決定要丟棄的信息,輸入門決定讓多少新的信息加入,輸出門決定從本LSTM單元輸出到下一個單元的數據。遺忘門: 圖4 LSTM網絡結構及模型展開 輸入門: 輸出門: 式中:W i,c,o,b i,c,o為三個門的輸入權重、輸入偏置,x t 為當前時刻t的輸入,h t-1為t-1時刻LSTM單元輸出,f t為遺忘門輸出,C t,~C t為細胞狀態和候選值。 LSTM結構用三個門來對輸入的數據序列決定保留程度,可以實現通過歷史信息對未來進行預測。本文中的抗干擾場景是各個用戶無信息交換,所以無法確定其他用戶選擇了哪個信道。算法中加入LSTM結構,利用歷史信息的經驗來幫助用戶對其他用戶的行為進行預估,得出更好的頻譜決策策略,減少用戶之間的沖突,提升MJADA算法的抗干擾性能。 如圖5所示,用戶n從外界感知到的信道狀態以及ACK信號、用戶動作等內容構成了輸入內容X n(t)。假設一共有L個信道,那么X n(t)為一個的長度為2L+2的向量。向量中第1位表示用戶是否接入信道,1表示用戶未選擇信道通信,0則相反。第2至L+1位表示用戶在時隙t-1中選擇的動作,若用戶選擇了信道l(1≤l≤L),那么除了第l+1位為1,其他L-1個位置都為0。第L+2至2L+1位表示用戶檢測到的外部信道狀態,信道被占用置0,信道空閑置1。X n(t)中最后一位為1,則代表用戶接收到ACK信號且傳輸成功。若傳輸失敗或者用戶未成功接收到ACK信號則為0。 圖5 輸入信息結構圖 算法偽代碼如表1所示。 表1 算法偽代碼 在本文實驗利用python和MATLAB工具進行系統仿真和實驗分析。算法模型中的各種參數根據參考相關文獻以及本文場景因素綜合決定。本文的干擾場景掃頻干擾和隨機干擾。掃頻干擾是指干擾器在一定的時間段內對各個信道進行周期性的占用。隨機干擾是指干擾器隨機的選擇任意的信道進行占用,無經驗規律可循。本文將三種不同的抗干擾決策方法進行了對比。三種方法分別是MJADA、獨立DQN算法以及隨機策略。其中獨立DQN算法為用戶都各自使用DQN算法來進行抗干擾決策。 表2 參數設置 3.2.1 收斂性能分析 算法中的誤差函數是目標q值與預測q值的均方差。誤差函數的值越小,說明算法收斂的越好。為了比較不同算法的收斂性,我們對不同算法的誤差函數曲線進行對比。 圖6為掃頻干擾場景下MJADA與獨立DQN算法的誤差函數曲線,為50場仿真的平均結果。從圖6可知獨立DQN算法收斂速度較快,但是收斂效果較差,MJADA收斂效果較好。以圖6最后10000時隙為例,MJADA的平均誤差函數值為0.09,相較獨立DQN算法的平均誤差函數值0.43,收斂效果提升了近五倍。 圖6 不同算法誤差函數曲線對比圖 3.2.2 抗干擾性能分析 本文中的抗干擾性能可以用歸一化累計獎勵ˉRnormal作為衡量標準。根據式(4)可得: 式中:T為算法迭代次數,隨著時隙數增加而增加。Rsum為在某一時隙中,全部用戶可以獲得最大獎勵總和。另一個抗干擾性能評價標準可以定義為成功進行傳輸任務的次數。 r nt為用戶n在時隙t收到的獎勵。用戶收到獎勵為1即為傳輸成功。那么時隙T內全局傳輸成功次數為: 在算法收斂階段對一定時間的傳輸成功次數進行統計,從而評價頻譜決策策略的好壞。 圖7為掃頻干擾場景下應用不同抗干擾方法的歸一化累計獎勵曲線。該曲線為50次仿真數據平均。因為隨機策略不會從環境信息中進行學習,收斂很迅速但是抗干擾的效果差,歸一化累計獎勵基本維持在0.5132。獨立DQN算法的歸一化累計獎勵基本上能達到0.7037。MJADA的歸一化累計獎勵可以達到0.8189。在掃頻干擾場景下MJADA的性能相較獨立DQN算法提升了約16.4%,相較隨機策略提升了約59.6%。 圖7 掃頻干擾下不同抗干擾方法性能對比 圖8為某一次隨機干擾下不同抗干擾方法的歸一化累計獎勵曲線。從圖中可以看出,獨立DQN方法抗干擾效果最差,最終歸一化累計獎勵穩定在0.1482。隨機策略的歸一化累計獎勵迅速收斂維持在0.4089。MJADA的歸一化累計獎勵隨著時隙增加逐漸增長,最終達到0.4693。 圖8 隨機干擾下不同抗干擾方法性能對比 圖9為在掃頻干擾場景下算法收斂階段5000個時隙內全局傳輸成功次數曲線。為了避免偶然性,本圖數據為10次仿真數據平均,曲線較為光滑。仿真中兩個用戶的全局傳輸成功次數上限為100000。隨機策略下的平均全局成功傳輸概率次數為5597次。應用獨立DQN方法基本穩定在7212次。應用MJADA可以達到9645次。在收斂階段,MJADA性能比起隨機策略高出約72.3%,比起獨立DQN算法提升33.7%。MJADA在收斂階段有約3.6%的概率傳輸失敗,這是由于算法根據ε-貪心策略來選擇動作,會進行一定概率的探索動作,而非全部選擇當前最優策略,在探索的過程中用戶就會被干擾或者發生沖突,導致傳輸失敗。 圖9 隨機干擾下不同抗干擾方法性能對比 圖10為10個用戶在掃頻干擾場景下應用不同抗干擾方法的歸一化累計獎勵曲線。該場景下共有20個可用信道,共運行1.5×105個時隙。本圖數據為10次仿真平均。在該場景下,隨機策略的歸一化累計獎勵基本穩定在0.56左右。而MJADA的歸一化累計獎勵最后達到約0.81。雖然隨著用戶數的增加,收斂時間隨之增加,但是抗干擾效果仍然優于隨機策略。獨立DQN算法由于用戶間沖突,效果最差,歸一化累計獎勵收斂在0.24。 本文對不同用戶數目在掃頻干擾場景下利用不同抗干擾方法進行仿真,對算法收斂階段的傳輸成功概率進行了統計。根據式(19),傳輸成功概率可表示為P S=W/NT1。設置T1=10000。因為用戶數目的增加會導致狀態空間幾何式增長,為了快速遍歷所有狀態,避免陷入局部最優,重新設置參數εmax=0.4,εmin=0.1,仿真結果如表3所示,其中所有的傳輸成功概率精度為小數點后三位有效數字。 表3 傳輸成功概率統計表 如表3所示,隨機策略傳輸成功概率均在0.6以下。隨著用戶數目的增加,獨立DQN算法性能大幅下降,而本文提出MJADA算法均能夠實現有效的收斂,傳輸成功概率維持在0.9以上,可以實現良好的抗干擾性能。 本文結合了LSTM結構和DQN算法,將其應用到了多用戶抗干擾的問題場景中,提出了一種MJADA方法。仿真結果表明,在多用戶之間無信息交換的條件下,對于固定模式或以及變化的干擾,該算法均能夠有效的收斂,保持著良好的沖突避免及抗干擾效果,相較獨立DQN算法以及隨機策略,性能均有大幅提升。



2 多用戶聯合抗干擾決策算法
2.1 DQN算法







2.2 LSTM結構




2.3 MJADA算法


3 仿真分析
3.1 仿真條件與場景

3.2 仿真結果








4 結語