999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DRL的抗干擾電視頻譜資源分配算法

2023-03-09 06:08:50鮑家旺丘航丁徐浩東
電視技術 2023年1期
關鍵詞:策略

鮑家旺,丘航丁,徐浩東,馬 馳

(福州大學 電氣工程與自動化學院,福建 福州 350108)

0 引 言

快速發展的物聯網會產生巨量的數據,這增加了對頻譜資源的需求,導致頻譜資源稀缺的問題[1]。認知無線電(Cognitive Radio,CR)是解決這一問題的有效工具。電視的空白頻段是第一個被考慮的頻譜共享案例。大多數物聯網設備通過無線通信技術進行互聯,由電池供電。電池容量限制所造成的能量問題是制約物聯網發展的另一問題。能量采集(Energy Harvesting,EH)技術可以從各種綠色能源(如光、熱、風和射頻源)中獲取能量,延長了能量限制網絡的使用壽命[2]。許多研究考慮將EH和CR技術與物聯網結合起來,提出了能量采集認知物聯網(EH-CIoT)。

CR網絡由于其開放的特點,比其他無線電網絡更容易受到安全威脅,受到的攻擊包括主用戶仿真攻擊、學習攻擊、竊聽和干擾等。其中,干擾攻擊被認為是最具有威脅性的攻擊,它會導致系統吞吐量下降、網絡癱瘓等。文獻[3]提出了一種基于批處理的安全感知協議。最近,深度強化學習(Deep Reinforcement Learning,DRL)技術被認為可以幫助物聯網在環境和干擾源之間存在連續交互的情況下實現最優的傳輸策略。文獻[4]將雙DQN(Deep Q-Network)算法和跳頻策略應用于多用戶環境下的干擾攻擊。然而,上述現有的工作以及對抗干擾策略的研究都只考慮了短視或離線模型。短視的政策只考慮即時獎勵,而忽略了長期回報,這不是連續CIoT系統的最優策略。離線策略假設環境動態是已知的,但在發射機或控制器上是非因果關系的。在上述文獻的基礎上,本文將研究在干擾攻擊下基于DRL的EH-CIoT傳輸算法,以最大限度地提高系統的長期吞吐量。

1 系統模型

本文考慮了CR的交織模式,即一種保護性的頻譜共享方案。EH-CIoT系統模型如圖1所示,主要由三部分組成:主用戶網絡(Primary User Network,PUN),由M個主用戶(Primary Users,PUs)和1個基站(Base Station,BS)組成;認知物聯網絡(CIoTN)由1個 代 理 基 站(Agent Base Station,ABS)和N個EH-C節點組成;1個惡意攻擊節點(Malicious Attack Node,MAN)。PUN覆蓋了K個正交電視頻譜信道,CIoTN位于PUN的覆蓋區域內,所有設備在同步的時隙模式下工作。假設ABS能獲得完美的頻譜感知,Ik(t)={0(busy),1(idle)}表示ABS在t時隙感知到的第k個信道的狀態,空閑通道數量為

圖1 EH-CIoT系統模型

1.1 EH-C節點的兩種模式選擇

在CIoTN中,每個EH-C節點都有相同的配置,節點不能同時執行射頻能量采集和信道接入。EH-C節點在每個時隙t的開始將自身的電池水平狀態集通過專用的控制信道發送到ABS。ABS在當前時隙t根據感知到的信息來確定所有EH-C節點的工作模式(采集模式或傳輸模式),分配所有EH-C節點的傳輸功率并廣播決策。表示第i個EH-C節點在第t個時隙的發射功率,設EH-C節點最大發射功率為即因此,在第t個時隙,所有EH-C節點的功率分配策略集合表示為第i個EH-C節點在第t個時隙的工作模式Mi(t)可以描述為

圖2 EH-C節點時隙

1.2 能量采集和更新

上述系統均有功率約束。主基站(Primary Base Station,PBS),MAN和ABS由電網供電,EH-C節點由可充電電池供電。

1.2.1 能量采集

第i個EH-C節點在第t個時隙采集的能量Ei(t)為

式中:η表示能量轉換率,表示與i不同的第s個EH-C節點的發射功率,為干擾功率。第t個時間隙內所有EH-C節點總的采集能量集合記為

1.2.2 電池更新

第t個時隙中所有EH-C節點的電池狀態集為電池容量標記為Bmax。第i個EH-C節點的電池狀態從第t個時隙到第t+1個時隙的演變可以表示為

2 問題定式化

本文考慮一種廣泛使用的主動干擾攻擊,它不知道設備的任何活動,只根據預定義的策略發射干擾脈沖,用策略表示,其中Ik(t),分別為在時隙t與信道k的干擾間隔、干擾概率和干擾功率。本文考慮兩種攻擊方法:

(1)隨機干擾器,在每個時隙t以功率Pk J(t)隨機選擇干擾一個信道;

(2)掃描干擾器,在一個時隙t內以概率Pk J(t)從K個信道中順序干擾KN個信道。

干擾器的最大發射功率為PJmax,ABS接收到的第i個EH-C節點的信噪比(Signal to Interference plus Noise Ratio,SINR)可用以下公式計算:

本文的主要目的是在惡意攻擊的環境下最大化長期信道吞吐量。CIoTN的瞬時和吞吐量為

式中:0<γ<1表示折扣函數。利用干擾模型,將累積吞吐量最大化問題表述如下:

式中:E[·]表示期望的給定值。式(11)所列的條件保證EH-C節點用于傳輸的能量不超過可用的剩余能量,保證接收的信噪比不小于接收閾值SINRthreshold,保證接入信道數不大于可用信道數。

3 基于DRL的傳輸優化算法

3.1 基于RL的EH-CIoT網絡框架

本文構建一個環境模型,用一個MDP來描述要解決的問題[5],即MDP=(S,A,Psa,R,γ),其中S表示狀態空間,A表示動作空間,Psa為狀態轉移概率,R為即時獎勵,γ是折扣因子。Agent是系統模型中的ABS。

狀態空間S:第t個時隙的狀態空間定義為

式中:I(t)={I1(t),…,IK(t)}表示信道狀態集。

動作空間A:第t個時間段的動作向量定義為:At=P(t)。ABS以連續功率分配作為動作值。

即時獎勵R:在采取行動后,ABS將獲得即時獎勵:

3.2 基于DDPG的資源分配算法

深度確定性策略梯度(DDPG)算法由策略網絡、價值網絡和經驗回放池三部分組成。網絡由4個深度神經網絡組成,即在線批評網絡θQ,在線策略網絡θ μ,目標批評網絡θQ′和目標策略網絡θ μ′。更新網絡參數時,從容量為C的經驗回放池D中抽取NB份數據,第i份表示為(sx,ax,rx,sx+1)。讓它們通過梯度上升/下降算法來訓練網絡參數。

在線批評網絡的損失函數為差值的均方誤差:

目標值yx的計算方法如下:

在線策略網絡的損失函數為:

對于兩個目標網絡的更新,采用軟更新方法:

式中:ξ∈(0,1]表示更新速率,具體步驟如算法1所示。每一步動作都從期望為μ(St|θ μ)方差εσ2的隨機過程中選擇,即At~N(μ(St|θ μ),εσ2),其中ε是一個參數,用于減弱訓練中動作的隨機性。

算法1干擾攻擊下基于DDPG的資源分配算法

初始化:初始化參數θQ和θ μ;清空D;動作隨機參數ε;EH-C節點的電池水平。

輸入:CIoT網絡仿真參數,惡意攻擊節點參數。

步驟1 for 迭代次數episode=1,2,...,F do

步驟2 初始化環境狀態s0

步驟3 for 訓練步數t=1,2,...,G do

步驟4 選擇動作At~N(μ(St|θ μ),εσ2)

步驟5 獲得R(St,At)和下一個狀態St+1。

步驟6 將數據(St,At,Rt,St+1)保存至D

步驟7 ifD已滿,do

步驟8 采樣NB個數據(sx,ax,rx,sx+1)

步驟9 最小化L(θQ)更新在線批評網絡

步驟10 最大化L(θ μ)更新在線策略網絡

步驟11 按式(17)軟更新目標網絡

步驟12 衰減動作的隨機性:σ2←εσ2

步驟13 end for

步驟14 end for

輸出:每個時隙的最佳動作At。

4 實驗仿真及結果分析

4.1 模擬設置

本文模擬了惡意攻擊的多用戶認知物聯網模型。在1 km×1 km區域內,PBS位于[500,500],ABS位于[250,250]。N=10,K=10,M=3,T=1 s,交換所消耗的能量ef=0.01 J,最大干擾功率,能量轉換率η=0.8。每個結果都在Pytorch 1.7.1工具上實現。本文與以下算法進行了比較:

(1)隨機算法,隨機選擇傳輸信道,并隨機分配節點的功率;

(2)貪婪算法,感知空閑信道,以允許的最大功率傳輸數據;

(3)SAC算法,連續控制的非策略DRL算法。

DDPG和SAC算法的在線和目標網絡分別包含L1=256和L2=256。激活函數設置為ReLU,并將優化器都設置為Adam,學習率為0.004和0.002。軟更新速率ξ為0.005。迭代次數為300,每次迭代的步數為10~100。

4.2 統計結果及分析

首先比較了無干擾下的算法性能,結果如圖3(a)所示。DDPG算法在150次迭代后趨于收斂。SAC算法的收斂速度優于DDPG算法。當迭代數為80時,它趨于收斂。但DDPG比SAC獲得了更高的平均吞吐量(>30%)。這表明,與基于SAC的算法相比,DDPG算法更適合在CIoT環境中使用。圖3(b)和圖3(c)比較了四種算法在隨機和掃描干擾兩種主動干擾策略下的性能。與無干擾的情況相比,DDPG算法在隨機干擾和掃描干擾下的性能僅降低了約5%,而收斂后的SAC的性能降低了約15%。這兩種RL算法都明顯優于傳統的隨機算法和貪婪算法。DDPG算法的性能是隨機算法的2.5倍,是貪婪算法的2倍。這表明,該算法能夠有效地學習主動干擾的固定策略,預測干擾,合理分配功率,從而減少干擾,提高吞吐量。

圖3 三種攻擊下的平均吞吐量

圖4顯示了這些算法在三種干擾情況下的能量效率。每焦耳能量可以通過系統發送的比特量稱為能量效率(b·J-1)。顯然,在三種干擾條件下,DDPG算法的能量效率最高,保證在6 b·J-1左右。SAC在干擾條件下的性能與隨機算法相當,均在3 b·J-1左右。貪心算法的性能最差,保持在1 b·J-1。這說明了該DDPG算法對每個EH-C節點的功率分配的合理性。

圖4 三種攻擊下的能量效率

5 結 語

本文研究了惡意攻擊環境下CIoTN的資源分配問題,目標是在抗干擾的同時使EH-CIoTN的長期吞吐量最大化。本文提出了一種基于DDPG的DRL算法,它的目標是在與動態環境交互、不斷學習攻擊策略、智能調整傳輸策略的過程中獲得最大的獎勵。仿真結果表明,無論是隨機干擾還是掃描干擾,DDPG算法都能更好地學習惡意節點的策略,系統性能明顯優于其他算法。

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 亚洲VA中文字幕| 丁香亚洲综合五月天婷婷| 日本伊人色综合网| 又黄又湿又爽的视频| 亚洲黄色激情网站| 亚洲国产综合精品一区| 毛片卡一卡二| 狠狠亚洲婷婷综合色香| 国产综合精品日本亚洲777| 国产久操视频| 婷婷六月天激情| 福利一区在线| 国产95在线 | 中文字幕永久视频| www成人国产在线观看网站| 亚洲中文字幕在线一区播放| 国产精品观看视频免费完整版| 在线永久免费观看的毛片| 色婷婷亚洲综合五月| 午夜视频免费试看| 国产又黄又硬又粗| 亚洲国产第一区二区香蕉| 久久精品这里只有国产中文精品| 欧美国产日韩另类| 香蕉久人久人青草青草| 欧美三级自拍| 波多野结衣一级毛片| 日韩资源站| 亚洲男人的天堂久久香蕉| 国产亚洲欧美在线中文bt天堂 | 97se亚洲| 成人欧美日韩| 欧美在线网| 亚洲无线一二三四区男男| 青青草原国产| 亚洲区视频在线观看| 九九视频免费看| 亚洲第一香蕉视频| 国产精品女主播| 国产尹人香蕉综合在线电影| 毛片免费在线视频| аⅴ资源中文在线天堂| 在线观看免费黄色网址| V一区无码内射国产| 四虎国产永久在线观看| 国产9191精品免费观看| 午夜性爽视频男人的天堂| 精品无码一区二区三区电影| 狠狠色噜噜狠狠狠狠色综合久| 国产麻豆aⅴ精品无码| 夜夜爽免费视频| 国产福利一区二区在线观看| 丁香综合在线| 欧美成人看片一区二区三区 | 日本国产精品一区久久久| 色成人亚洲| 在线播放精品一区二区啪视频| 成人福利在线看| 国产va免费精品观看| 欧美成人午夜在线全部免费| 国产日韩av在线播放| 亚洲美女一区二区三区| 天天色天天综合网| 国产精品尤物铁牛tv| 欧美日韩国产综合视频在线观看| 九九热这里只有国产精品| 国产欧美综合在线观看第七页| 永久成人无码激情视频免费| 国产黄在线免费观看| 情侣午夜国产在线一区无码| 亚洲二三区| 国产欧美日韩在线在线不卡视频| 四虎在线观看视频高清无码| 成人在线综合| 欧美日韩午夜| 亚洲欧洲日韩国产综合在线二区| 色窝窝免费一区二区三区 | 熟妇丰满人妻| 亚洲中久无码永久在线观看软件| 欧美人在线一区二区三区| 国产菊爆视频在线观看| 无码专区在线观看|