999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于正強化學習和正交分解的干擾策略選擇算法

2018-03-14 02:26:23顓孫少帥楊俊安黃科舉
系統工程與電子技術 2018年3期
關鍵詞:動作

顓孫少帥, 楊俊安, 劉 輝, 黃科舉

(1. 國防科技大學電子對抗學院, 安徽 合肥 230037; 2. 安徽省電子制約技術重點實驗室, 安徽 合肥 230037)

0 引 言

近年來,隨著各種信息技術在軍事領域的應用,信息戰的地位愈加重要,奪取戰場制信息權對戰場勝負的影響舉足輕重。對于干擾敵方信息傳遞通道以實現通信拒止而言,其難度隨著敵方在通信過程中使用認知無線電、加密、鑒權、新的信號調制樣式等技術而變得愈加困難,但是值得注意的是,無線通信的開放性使得對其干擾仍存在較大的可行性,而選擇合適的干擾策略對實現成功干擾至關重要[1-3]。當前許多參數優化理論如:博弈論、粒子群算法、遺傳算法等相繼被用于搜索最佳干擾策略[4-6],然而上述理論成功實施的前提條件是需要有關通信方、環境的部分先驗信息,鑒于部分先驗信息對干擾方而言是無法獲得的,即便獲得也與真實信息之間存在偏差,使得此類理論無法適用于缺乏先驗信息的場景。強化學習[7-8]作為在線的、與外界環境實時交互的機器學習理論,具有魯棒性強、實時交互、無需先驗信息的特點。文獻[8]提出了針對網絡優化問題的解決方法,所提方法對模型中的各種可行動作聯合操作,但要求明確知道每個動作對應的獎賞信息。文獻[9]提出了多臂老虎機算法,并就該算法在有限時間內的收斂性能和學習能力進行了理論論證。文獻[11]提出了利用強化學習的Q方法求取最優信道接入策略。文獻[12-13]深入研究了利用強化學習算法從物理層、MAC層搜索最佳干擾策略,得出在某些情況下最優干擾信號與被干擾信號具有不相同調制樣式,以及干擾MAC層某些幀具有更優干擾性能的結論。

強化學習理論在解決未知、復雜環境問題時具有優異的性能,然而當前強化學習算法卻面臨著收斂速度慢的困境,需要干擾機同環境進行長時間的交互,特別是當待求解的干擾參數數目較多時,往往會帶來“維數災難”難題。因此,從實用角度出發,如何加快算法收斂速度是亟需解決的問題。本文在對干擾問題建模后,將正強化學習的思想用于干擾動作選擇,以有目的性選擇動作取代貪婪算法中隨機選擇動作的做法,通過合理的設置正強化算法相關參數,使得該算法具有快速的收斂速度。此外,在選擇需要學習的干擾參數時,提出利用同相分量、正交分量構造不同類型的干擾樣式,取代當前利用BPSK、QPSK等干擾樣式直接進行干擾的方法,該方法豐富了干擾樣式的種類,便于干擾方學習到最佳干擾樣式。仿真結果表明,正強化算法能夠降低尋優過程中的交互次數,而正交分解算法能夠取得更優的干擾效果。

1 系統模型

以通信雙方采用MQAM調制(M=4,8,16,…)為例,根據通信協議,接收方對接收信號進行濾波、解調、抽樣判決、譯碼等相關處理后獲得信息。對于意圖實現通信拒止的干擾方而言,其可通過在特定頻率上發送干擾信號的方式擾亂通信信號波形,阻止接收方解調出正確信息。文獻[12]指出,干擾方在構造干擾信號時不僅需要準確選擇干擾樣式,還需要確定干擾信號的功率、脈沖率等干擾參數以實現最佳干擾,其中脈沖率定義為干擾時間與通信信號持續時間的比值。在無先驗信息的前提下,Amuru提出了基于強化學習理論的干擾老虎機(jamming bandit, JB)算法,在對功率、脈沖率等連續參數進行離散化處理后,建立了與干擾參數對應的多臂老虎機模型,并根據算法動態從干擾參數集{功率、干擾樣式、脈沖率}中選擇參數組對通信信號施加干擾,將接收方發射的ACK/NACK幀信息作為對選擇參數組的獎賞,經過長時間交互后確定最佳干擾參數組,即最佳干擾策略。當通信信號調制樣式為矩形QPSK時,Amuru給出3種干擾樣式即,AWGN、BPSK和QPSK。這樣設定的明顯缺點是:干擾信號的調制樣式只能選擇上述3種干擾樣式中的一種,除非最佳干擾樣式確定是三者中的一種,否則最終通過學習獲得的干擾樣式非最佳干擾樣式,進而學習到的功率、脈沖率也并非最優的。在JB算法中,為了能夠學習到最優干擾樣式,需要干擾方事先準備盡可能多的干擾樣式,但直接導致參數空間的維度成倍增加,更大的參數空間意味著需要更多次數的交互來尋找最優參數,進而極大地延長了學習到最佳干擾策略的時間。本文提出了基于正強化學習和正交分解的干擾策略選擇算法,該算法利用正交分解實現不同干擾樣式的選擇,同時利用正強化的思想建立起干擾參數組之間的聯系,在選擇參數組時更具目的性。

1.1 干擾樣式正交分解

文獻[12]中構造的多臂老虎機模型,干擾樣式、脈沖率以及信號功率的各種可能組合構成了不同的干擾參數組為{AWGN,BPSK,QPSK}×{1/M,2/M,…,1}×JNRmin+(JNRmax-JNRmin)*{1/M,2/M,…,1},該式中{AWGN, BPSK,QPSK}為備選干擾樣式集;{1/M,2/M,…,1}為離散后的脈沖率集;JNRmin+(JNRmax-JNRmin)*{1/M,2/M,…,1}為離散后的功率集;符號“*”表示乘積;“×”為笛卡爾積;JNR為通信方接收到的干擾信號平均功率與噪聲功率的比值,即平均干噪比,接收到的通信信號的平均功率與噪聲功率的比值,即平均信噪比用SNR表示;策略{BPSK,ρ,JNRt}表示干擾方應構造功率PJ=JNRt/ρ的BPSK信號,以概率ρ對通信信號施加干擾,該策略亦可理解為多臂老虎機的一個“臂”。在上述案例中,由于干擾樣式集內元素個數過少,致使干擾樣式的學習空間具有局限性,為此需要豐富干擾樣式的種類以便于學習到最優干擾樣式。通過對干擾信號進行正交分解(orthogonal decomposition, OD),可知信號由功率Pj、正余弦波形、調制信息jm及載波頻率fc組成,其表達式為

(1)

式中,Ac、As分別作為同相維和正交維的幅值,最優值為0或某一特定值[12]。

通過比較同相分量Ac和正交分量As之間的關系,得出以下結論:

(1) 當Ac=0(或As=0)時,構造BPSK干擾樣式,相位信息θ∈(0,2π)取值{0,π}。

(2) 當Ac=As時,構造QPSK干擾樣式,在該干擾樣式中相位信息θ∈(0,2π)分別為{π/4,3π/4,5π/4,7π/4}。

(3) 當Ac≠As≠0時,構造出另類的矩形4- QAM,相位信息θ∈(0,2π)取決于Ac和As的取值。

星座圖畸變通信信號對應的最佳干擾樣式如圖1所示。

圖1 星座圖畸變通信信號對應的最佳干擾樣式Fig.1 Distorted signal constellation and corresponding optimal jamming scheme

由圖1可知,采用矩形8-PSK調制樣式的通信信號由于噪聲、連續波干擾、載波抑制、壓縮增益等因素導致其理想星座圖(白色圓圈所示)出現畸變(黑色圓圈所示)。鑒于此,無噪聲時最佳干擾信號星座圖(六角星所示)也需要相應的改變(三角形所示)以實現最佳干擾,可以看出新干擾信號星座圖同相分量與正交分量的幅值已不再相等或成整數倍關系,而是與畸變后的星座圖息息相關,存在各種可能的關系。在構造具有此類特殊星座圖的干擾樣式時,只有利用正交分解方法才能學習最佳同相分量和正交分量值。

正交分解算法不再拘泥于選擇某種已知干擾樣式,而是從最根本的因素同相分量和正交分量的角度出發,將尋找最優干擾樣式問題轉化為搜索最優同相分量和正交分量問題。因此,在構造干擾參數組時以變化的同相、正交分量作為干擾樣式集的構造依據,可實現干擾樣式種類的增多,便于尋找到最優干擾樣式。

1.2 正強化學習

強化學習有4種方式,包括正強化、負強化、正懲罰及負懲罰。正強化是給予行為好的刺激,增加該行為出現的概率;負強化是指去掉壞的刺激,該刺激旨在為引發所希望行為的出現而設立;正懲罰是針對行為施加壞的刺激,即不當的行為出現時給予處罰的方法;負懲罰是指去掉好的刺激,指當不好的行為出現時不再給予原有獎勵。強化(正強化、負強化)與懲罰(正懲罰、負懲罰)的區別在于外界給予好的獎賞還是壞的刺激,如果是前者則為強化,后者為懲罰。正、負的區別體現在獎賞或刺激對動作出現概率的影響,提高則為正,降低則為負。

一般情況下,無論給予或去掉刺激,強化學習針對的對象均為具體的單個動作,即假設不同的動作之間是相互獨立的關系,從環境中獲得的獎賞僅與具體的動作有關,如果想要知道某個動作對應的獎賞值,需要將該動作至少執行一遍,否則無法獲悉該動作的任何獎賞信息。誠然,這樣的假設具有一般性,然而對于特定的任務如動作之間存在一定的關聯時,可適當地利用動作之間的關聯性對動作空間進行有目的性選取。以脈沖率參數選擇為例,利用動態參數M對區間[0,1]進行離散處理,無論是JB算法還是貪婪算法,對該空間內的動作進行選擇時無非采用窮舉法和隨機選擇法兩種挑選方式,不同脈沖率下符號錯誤率如圖2所示。

圖2 不同脈沖率下符號錯誤率Fig.2 Symbol error rate under different pulsing ratio

由圖2可知,一定距離內(陰影部分)的某些動作往往獲得相似的獎賞,帶來的啟示是:當得知某些動作的獎賞信息后,再一次選擇動作時可優先選擇最大獎賞動作附近的動作,類似于“愛屋及烏”的表現,但同時也要以一定的概率探索未知動作空間,將上述“愛屋及烏”的行為定義為正強化效應。

正強化效應:對于一個動作元素固定排列且相鄰動作間存在關聯的動作空間,當該空間內的某個動作被選中后,在該動作獲得相應獎賞的同時,對該動作某一維或若干維中距其一定距離δ內的動作相應地提高下一次被選擇概率,距離參數由人為根據經驗設定。

簡單來說,正強化效應具有以下3種性質:

性質1距離參數為非負值,其上限值取決于具體問題。

性質2受強化效應影響的動作應少于或等于動作元素的總數。

性質3動作空間每個維度的強化距離并非完全相同,相互間是獨立關系,可分別取不同的值。

特別地,上述動作選擇方法可理解為另類的貪婪算法——(ε1,ε2)-Greedy,算法以概率1-ε1-ε2對當前已知最大獎賞動作加以利用,以概率ε1選擇已知最大獎賞動作一定距離內的動作執行,以概率ε2對尚未執行過的動作加以探索,其中ε1和ε2的取值人為設定,可為固定值或動態變化值。此外,距離δ的取值依賴于人為經驗設置,不同δ對算法性能的影響將在下文給出。

圖2給出了脈沖率維度的強化效應,假設x1、x2、x3已被選中執行過且x2對應較大的獎賞,那么,以概率1-ε1-ε2執行動作x2,以概率ε1選擇區間[x2-δ,x2+δ]內(不包括x2)的動作執行,以概率ε2對區間[0,x1-δ]∪[x1+δ,x2-δ]∪[x2+δ,x3-δ]∪[x3+δ,1]內的動作隨機挑選并執行。

同理,可以將強化效應推廣至功率和脈沖率雙重維度,如圖3所示。

當動作空間功率-脈沖的某個動作被選中后,將提高一定區域內(圖中陰影部分)動作被選中的概率,且功率和脈沖率維度可選擇不同的強化距離δPower和δρ。

圖3 功率-脈沖率維度的正強化效應Fig.3 Positive reinforcement effect in power and pulsing ratio dimensions

2 正強化學習-正交分解算法

2.1 多臂老虎機的構造

對于多臂老虎機問題,面臨的任務是如何從有限的次數中盡可能多地選擇平均獎賞值較高的“臂”以便獲得最大獎賞。這里的“臂”是指采取的動作,當面臨的是干擾任務時,動作則具體為干擾信號參數的選擇。由于干擾樣式集元素數目太少時使得多臂老虎機模型的構造不具有一般性,致使系統學習不到最佳干擾策略;而數目過多時又嚴重影響系統的學習速度,需要消耗系統與環境間大量的交互次數,為此本節從正交分解的角度著手構造新型的多臂老虎機模型。

有別于文獻[12]中的構造方法,本節以{同相分量功率,ρ,JNR}構造多臂老虎機的“臂”,PJ*{1/N,2/N,…,1}×{1/M,2/M,…,1}× JNRmin+(JNRmax-JNRmin)*{1/K,2/K,…,1}。式中,PJ*{1/N,2/N,…,1}為同相分量功率集;后兩項分別為脈沖率集和平均干噪比集;N、M、K分別為各集合離散化參數,可分別取不同值或取相同值。此外,由于同相分量與正交分量的功率和為干擾功率,因此僅需要知道某一分量便能夠確定另一個分量的值,進而也就不需要在“臂”的構造中額外添加干擾策略集合{正交分量功率}。

2.2 強化距離

正強化效應用于提高某些已知動作周圍區域內動作被選中的概率,區域的大小與強化距離有關,該距離的取值可根據經驗選取某一合適值,過大或過小都不會對算法的尋優過程有所幫助。例如,當強化距離過大時,被正強化效應作用的區域隨之變大,如果該區域包含過多的動作,極端情況是包含所有可能的動作,此時正強化效應對動作的選取是沒有幫助的,對問題的求解退化為利用普通的貪婪算法。反之,如果強化距離過小,甚至比連續參數離散化后的最小粒度1/M(M值較大)還要小時,正強化效應作用的區域內除已知動作外將不包含任何動作,這種情況下同樣對動作的選取沒有任何幫助,反而徒增干擾方算法的計算復雜度,此時算法同樣退化為普通的貪婪算法。

2.3 基于正強化學習和正交分解的干擾策略選擇算法

將構造的新穎多臂老虎機模型與正強化效應相結合構成了本文提出的正強化學習-正交分解算法。詳細的算法流程如算法1所示。

算法1PRL-OD算法

(1)T←1,JNR

(2) WhileT≤ndo

(3)M=100,N=50,duration=M*N/10

(4) Fort=T,T+1,…T+durationdo

(5) 利用正強化選擇算法從行為集合PJ*{1/N,2/N,…,1}×{1/M,2/M,…,1}中選擇動作,其中“×”表示笛卡爾積。選擇行為at并估計相應的rt。

(6) 利用正強化效應確定影響區域。

“duration”表示對當前M值選擇執行動作的交互次數,由于適當的正強化效應有助于動作的選擇,因此無需對動作空間內的動作逐個進行嘗試,第3.1節實驗仿真部分根據仿真結果對“duration”值的設定進行分析,便于算法在應用過程中選擇合適的初始值。算法中將干擾信號功率N取值為50,這種由人為設定初始值的方法具有普適性,但也可以動態地改變N值。

算法2正強化選擇算法

(1) 設定初始值:強化距離δPower和δρ,計算(ε1,ε2)-Greedy算法中ε1和ε2。

(3) 確定區間[Powera-δPower,Powera+δPower]、[ρa-δρ,ρa+δρ]內包含的動作。

(4) 以概率1-ε1-ε2從已知獎賞的動作集合中選擇動作,以概率ε1從第3步動作集合中選擇動作,以概率ε2對強化區域外未知獎賞動作集合中的動作隨機抽取。

(5) 確定了下一步要執行的動作

貪婪算法作為高效策略搜索方法,盡管使用條件苛刻,但經過嚴格的證明該方法理論可行,可將其與多臂老虎機模型相結合用于搜索最佳干擾策略。與環境間持續不斷的交互是強化學習算法得以運行的關鍵,也是其能夠適應復雜變化環境的根本,交互是為了對所采取的動作進行評價,即算法1、算法2中提及的獎賞信息。將通信接收端的符號錯誤率(symbol error rate, SER)作為獎賞標準,以便于同文獻[5,12]中的算法進行性能比較。此外,參數諸如δPower、δρ、ε1、ε2可事先由干擾方根據經驗設定固定的值,還可以動態改變參數值的大小。

3 實驗仿真

為驗證正強化學習以及正交分解算法搜索最佳干擾策略的可行性,第3.1節、第3.2節分別對兩種方法的性能進行仿真驗證,并就算法中的若干參數對算法性能的影響進行分析。第3.3節驗證了PRL-OD算法的尋優性和收斂性,并將仿真結果同文獻[12]提出的JB算法及貪婪算法共同進行比較。此外,最佳干擾參數以獲悉各種先驗信息為前提,通過粒子群算法優化獲得,本文以此為依據衡量所提算法的尋優性能。

3.1 正強化學習的策略尋優性能

以通信雙方采取BPSK調制樣式進行通信為例,SNR=20 dB,JNR=10 dB,干擾信號調制樣式同樣為BPSK,信道中的噪聲均值為0,方差為1的AWGN。文獻[12]指出干擾脈沖率ρ=0.078為最優解,能夠給通信方造成最大SER。為此,人為將脈沖率區間[0,1]均勻離散成1 000個參數值,最小粒度為0.001,按照不同方法從1 000個值中選擇指定個數動作作為干擾信號的待選參數。JB算法采用的隨機選擇方法與本文提出的正強化方法在尋優性能方面的比較如圖4所示。

圖4 正強化算法與隨機選擇方法尋優性能比較Fig.4 Comparison of optimal searching performance between positive reinforcement learning and chose randomly

由圖4(a)可知正強化算法與隨機選擇方法在搜索最佳參數時性能之間的比較,當從1 000個參數值中隨機選擇400個作為干擾動作嘗試對象時,僅能以概率0.394搜索到最優脈沖率0.078,以概率0.606搜索到次優值如0.075、0.076、0.077、0.079等。而當采用正強化算法時,以概率0.995搜索到最優脈沖率0.078,以概率0.005搜索到其他次優值。因此,利用正強化算法能夠在有限的交互次數中以較大的概率搜索到最優脈沖率。由圖4(b)可知交互次數對兩種算法尋優性能的影響,強化距離固定為0.004,對于隨機選擇方法而言,其搜索到最優脈沖率的概率與交互次數呈線性增長關系,而正強化算法在交互次數超過一定閾值后幾乎以概率1搜索到最優脈沖率,一般情況下可設定該閾值為干擾動作總數的1/10。強化距離是正強化算法中一個重要參數,選擇合適的強化距離有助于提高搜索到最優脈沖率的概率。由圖4(c)可知強化距離對正強化算法的影響,交互次數設置為150次,由于隨機選擇方法與強化距離無關,因此其搜索性能不隨強化距離的改變而改變,搜索到最優脈沖率的概率近乎成水平直線。當強化距離為0時,正強化算法退化為普通隨機選擇方法,此時兩種算法的尋優性能相當;當強化距離介于一定范圍內時,如[0.001,0.04],正強化算法能夠以較高的概率(近似等于1)搜索到最優脈沖率;然而當強化距離過大時,算法的尋優性能反而呈下降趨勢,主要原因在于取值過大的強化距離限制了算法搜索強化距離以外區域的可能性,盡管如此,正強化算法較隨機選擇方法仍然具有更強的尋優能力;當強化距離為1時,正強化算法同樣退化為普通的隨機選擇方法,兩種算法的尋優性能幾乎一致。

3.2 OD算法的策略尋優性能

3.2.1 AWGN影響下算法的尋優性能

為盡可能準確地獲得最佳干擾樣式,排除人為、硬件等干擾因素的外在影響,首先考慮信道中僅存在AWGN的情況,并假設噪聲均值為0、方差為1。在僅考慮AWGN影響時,通信信號的星座圖會變得模糊但仍然關于坐標軸對稱,利用正交分解算法學習到的干擾信號最佳調制樣式與文獻[12]學習到的結果在大部分情況下具有相同的干擾效果。例如,當通信方采取BPSK、I型QPSK(相位分布為{0,π/2,π,3π/2})、4-PAM、Ⅱ型QPSK(相位分布為{π/4,3π/4,5π/4,7π/4},亦稱為矩形QPSK)、矩形8PSK、矩形16QAM,SNR=20 dB,JNRmin=0 dB,JNRmax=26 dB時,正交分解算法能夠根據干擾功率與通信功率之間的關系學習到不同的干擾樣式,使得干擾效果總體上等于或優于JB算法,不同平均干噪比下兩種算法的干擾效果如圖5所示。

圖5 加性高斯白噪聲條件下JB算法與OD算法干擾效果比較Fig.5 Comparison of jamming performance between JB and OD in AWGN scenarios

由圖5可知,利用OD算法獲得最優參數的干擾性能不比JB算法學習的參數差,且在某些情況下要優于JB算法的學習結果,如通信方采取I型QPSK通信,SNR=20 dB,JNR=16 dB的情況。因此,在僅考慮AWGN影響的前提下,OD算法能夠學習到最優參數。

3.2.2 星座圖畸變情況下算法的尋優性能

盡管在僅考慮AWGN影響的情況下,利用OD算法的學習結果在干擾性能方面與文獻[5]提出的算法性能相當,然而在現實情況下許多其他干擾因素是不容忽略且無法忽略的,它們的存在或多或少地會引起通信信號星座圖的畸變,正如第2.1節的分析結果,對星座圖畸變的通信信號施加干擾時,最佳干擾樣式并非是各種標準干擾樣式如BPSK、QPSK、矩形8PSK,而是信號的同相分量和正交分量存在各種可能的組合。同樣假設通信方采用BPSK、I型QPSK、Ⅱ型QPSK、8PSK、16QAM、4PAM等調制樣式進行通信,SNR=20 dB,JNR∈[0,26]dB,信道中噪聲是均值為0方差為1的AWGN,信號星座圖因I、Q路不平衡的原因向右偏移2單位,向上偏移1單位,分別利用JB算法和OD算法學習最優干擾參數,兩種算法在不同平均干噪比條件下學習策略的干擾性能如圖6所示。

圖6 星座畸變環境下OD算法的干擾效果Fig.6 Comparison of jamming performance between JB and OD in constellation distortion scenarios

由圖6可知,Ac∶As=1∶0意味著干擾功率全部集中在同相分量上,而Ac∶As=0.78∶0.22意味著干擾功率在同相分量和正交分量之間按照0.78∶0.22的比例進行劃分。從表中數據可以看出,當通信方以BPSK方式進行通信時,OD算法與JB算法學習到相同的干擾樣式BPSK,由圖6(a)可知兩種方法具有相同的干擾結果。當通信方以8PSK方式進行通信時,JB算法學習到的最優干擾樣式為Ⅱ型QPSK,即干擾能量在同相分量和正交分量之間均勻劃分,利用OD算法學習到的結果為0.78∶0.22,即較多的干擾能量應該分配給同相分量。由圖6(b)可知,利用OD算法學習的結果較JB算法具有更強的干擾性能,即利用OD算法學習的結果更優。

以SNR=20 dB,JNR=10 dB為例,針對通信方采取不同的調制樣式,兩種算法學習到的最佳干擾策略在不同條件下存在顯著區別,具體如表 1所示。

表1 利用OD算法獲得的最佳干擾樣式

3.3 PRL-OD算法的策略尋優性能

JB算法在計算過程中需要動態地改變連續參數離散值M,當M值尋優效果較差時改變M值并繼續嘗試,直至尋優效果達到期望值時終止嘗試。該算法的不足之處在于絕大多數情況下較小的M值對應的離散值與最優值誤差較大,盡管較大的M值對應的離散值與最優值更為接近,但同時又面臨需要大量交互次數的矛盾。因此,利用正交分解算法的思想對脈沖率、功率同相分量等參數進行精細劃分,如M=50,N=50。值得注意的是,精細的劃分在提高準確性的同時會帶來策略維數的增加,進而導致交互次數的增加。為解決維數過大的難題,可利用正強化算法降低交互次數以加快學習速度。以通信方采取矩形QPSK調制為例,假設SNR=20 dB,JNR=16 dB,由于各種人為、客觀因素的干擾致使星座圖向右偏移2單位,向上偏移1單位,JB算法、PRL-OD算法及不同劃分方式的貪婪算法各自對應的收斂曲線如圖7所示。其中貪婪算法I將脈沖率等分成6份,貪婪算法II將脈沖率等分成50份。

圖7 不同算法收斂曲線比較Fig.7 Convergence curve comparison between different algorithms

由圖7可知,經過前期不斷的試錯,3種算法的干擾性能曲線經過若干次數的交互后均收斂至穩定值。從實際造成的SER角度來看,PRL-OD算法學習獲得的干擾策略對應的干擾性能最優,由于JB算法無法將星座圖畸變因素納入考慮,干擾性能次之,而貪婪算法在選擇合適的劃分方式時,干擾效果與JB算法相接近,如貪婪算法II,該結論也與文獻[12]得出的結論相符,然而當選擇的劃分方式不恰當時,干擾效果將大打折扣,如貪婪算法I。從算法收斂需要交互次數的角度來看,PRL-OD算法從可選動作集(M×N=2 500個)中利用正強化算法選擇250個動作后便收斂至穩定值,而JB算法在經過517次交互后才收斂至穩定值,由于貪婪算法I和II劃分方式的原因,各自劃分得到18個和150個干擾動作,需要逐一嘗試后才能挑選出最佳動作,進而算法收斂至穩定值。因此,在構造的干擾任務中,PRL-OD算法能夠學習到比JB算法、貪婪算法更優的干擾策略,且需要更少的交互次數。

4 結 論

針對當前干擾策略優化算法過分依賴先驗信息及現有強化學習算法收斂速度慢的不足,提出了基于正強化學習和正交分解的干擾策略選擇算法。該算法利用正交分解方法豐富了干擾樣式的種類,并利用正強化的思想極大地降低了算法所需的交互次數。以干擾指定條件下的通信信號為例,分析了正強化學習-正交分解算法中參數設置對學習性能的影響。仿真結果表明,該算法能夠在更短的時間內學習到最佳干擾策略,且該最佳干擾策略具有更強的干擾能力。

通信干擾決策關注的重點是如何既快速又準確地學習到最佳干擾策略,因此文中被賦予了新意義的多臂老虎機模型和正強化思想具有一定普遍意義。今后的工作主要圍繞如何利用干擾方獲得的先驗信息進一步加快算法的學習速度,使得算法更加快速高效,向實用性進一步靠攏。

[1] 張春磊, 楊小牛. 認知電子戰與認知電子戰系統研究[J]. 中國電子科學研究院學報, 2014, 9(6): 551-555.

ZHANG C L, YANG X N. Research on the cognitive electronic warfare and cognitive electronic warfare system[J]. Journal of China Academy of Electronics and Information Technology,2014,9(6): 551-555.

[2] 賈鑫, 朱衛綱, 曲衛, 等. 認知電子戰概念及關鍵技術[J]. 裝備學院學報, 2015, 26(4): 96-100.

JIA X, ZHU W G, QU W, et al. Concept of cognitive electronic warfare and its key technology[J].Journal of Equipment Academy, 2015, 26(4): 96-100.

[3] PIETRO R D, OLIGERI G. Jamming mitigation in cognitive radio networks[J]. IEEE Network, 2013, 27(3): 10-15.

[4] BAYRAM S. Optimum power allocation for average power constrained jammers in the presence of non-Gaussian noise[J]. IEEE Communications Letters, 2012, 8(16): 1153-1156.

[5] AMURU S, BUEHRER R M. Optimal jamming strategies in digital communications-impact of modulation[C]∥Proc.of the Global Communication Conferance, 2014: 1619-1624.

[6] AMURU S, BUEHRER R M. Optimal jamming against digital modulation[J].IEEE Trans.on Information Forensics Security,2015,10(10): 2212-2224.

[7] 于乃功, 李倜, 方略. 基于直接強化學習的面向目標的仿生導航模型[J]. 中國科學:信息科學, 2016(3): 78-86.

YU N G, LI T, FANG L. Biological plausible goal-directed navigation model based on direct reinforcement learning algorithm[J]. SCIENCE CHINA Information Sciences, 2016(3): 78-86.

[8] GAI Y, KRISHNAMACHARI B, JAIN R. Combinatorial network optimization with unknown variables: Multi-armed bandits with linear reward[J]. IEEE/ACM Trans.on Networking, 2012, 20(5): 1466-1478.

[9] AUER P, BIANCHI N C, FISCHER P. Finite-time analysis of the multi-armed bandit problem[J].Machine Learning,2002,47(2):235-256.

[10] WU Y, WANG B, LIU K J R, et al. Anti-jamming games in multi-channel cognitive radio networks[J]. IEEE Journal on Selected Areas in Communications, 2014, 30(1): 4-15.

[11] GWON Y L, DASTANGOO S, FOSSA C E, et al. Competing mobile network game: embracing antijamming and jamming strategies with reinforcement learning[C]∥Proc.of the Communication Netword Security, 2013: 28-36.

[12] AMURU S, TEKIN C, SCHAAR M VAN DER, et al. Jamming bandits-a novel learning method for optimal jamming[J].IEEE Trans.on Wireless Communications,2016,4(15):2792-2808.

[13] AMURU S, BUEHRER R M. Optimal jamming using delayed learning[C]∥Proc.of the IEEE Military Communication, 2014: 1528-1533.

猜你喜歡
動作
動作不可少(下)
巧借動作寫友愛
下一個動作
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
非同一般的吃飯動作
動作喜劇電影周
電影故事(2015年30期)2015-02-27 09:03:12
神奇的手
主站蜘蛛池模板: 国产精品无码作爱| 亚洲精品男人天堂| 亚洲国产天堂在线观看| 激情無極限的亚洲一区免费| 国产jizzjizz视频| 久久6免费视频| 日韩最新中文字幕| 欧美中文字幕一区二区三区| 91色国产在线| 久久狠狠色噜噜狠狠狠狠97视色| 中文无码日韩精品| 精品久久久久成人码免费动漫| 97在线观看视频免费| 亚洲天堂精品在线| 茄子视频毛片免费观看| 免费一级无码在线网站| 国产免费久久精品99re不卡| 日本一本在线视频| 玖玖精品在线| 中文字幕自拍偷拍| 国产乱子伦视频在线播放| 亚洲首页在线观看| 亚洲精品无码专区在线观看| 国内精品久久久久久久久久影视| 香蕉蕉亚亚洲aav综合| 久久精品最新免费国产成人| AV天堂资源福利在线观看| AV熟女乱| 国产十八禁在线观看免费| 国产精品jizz在线观看软件| www.91在线播放| 国产亚洲精品无码专| 99免费视频观看| 久久96热在精品国产高清| 丁香综合在线| 香蕉99国内自产自拍视频| 4虎影视国产在线观看精品| 亚洲一区精品视频在线| 2021最新国产精品网站| 久久精品中文字幕少妇| 国产成人福利在线| 在线观看视频一区二区| 亚洲天堂久久新| 亚洲综合色区在线播放2019| …亚洲 欧洲 另类 春色| 99re视频在线| 青青草原国产| 黄色网在线| 亚洲天堂伊人| 手机在线国产精品| 免费高清毛片| 少妇被粗大的猛烈进出免费视频| 亚洲日产2021三区在线| 五月激激激综合网色播免费| 风韵丰满熟妇啪啪区老熟熟女| 国产一二视频| 毛片最新网址| 国产欧美日韩专区发布| 国产精品自拍露脸视频| 18禁影院亚洲专区| 久久香蕉国产线看观看亚洲片| 国产靠逼视频| 97人人模人人爽人人喊小说| 在线中文字幕网| 超清无码熟妇人妻AV在线绿巨人| 国产日韩久久久久无码精品| 免费毛片视频| 中文成人在线视频| 亚洲成年人片| 国禁国产you女视频网站| 国产丝袜第一页| 国产微拍精品| 国产人成在线视频| 91精品啪在线观看国产60岁| 综合色在线| 色偷偷综合网| 色天天综合久久久久综合片| 国产精品久久久久久搜索| 日韩精品毛片人妻AV不卡| 日本午夜三级| 萌白酱国产一区二区| 中文字幕在线视频免费|