999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粒子濾波的強化學習算法建模研究

2017-02-23 05:45:20董春利
無線互聯科技 2017年1期
關鍵詞:重要性策略

董春利,王 莉

(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)

基于粒子濾波的強化學習算法建模研究

董春利,王 莉

(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)

文章對基于粒子濾波的強化學習算法進行了建模。該算法通過結合粒子濾波和Q-學習算法,得到一種基于粒子濾波和強化學習的算法。RLPF繼承了粒子濾波的很多優點:實現簡單、計算量小、占用內存非常低、能夠在策略空間直接進行全局搜索。

強化學習;粒子濾波;策略空間;全局搜索

認知無線電的機會頻譜接入(Opportunistic Spectrum Access,OSA)具有認知能力,能感知當前網絡條件并且作出規劃和決策,具有對以前決策的評判和未來決策判定的學習能力。因為OSA系統中的頻譜環境總是隨時間而變化,因此在不需要信道環境的先驗知識和動態模型的前提下,亟待通過不斷與環境進行交互學習,實現優越性能的革新技術出現[1]。圖1所示為OSA信道選擇和接入框架,即CR觀測和接入射頻環境示意圖[2]。

圖1 CR觀測和接入射頻環境示意

強化學習作為一種無模型、無監督的在線學習算法,是解決上述問題的有效途徑,近年來已經成為解決OSA問題的主流方法,得到了廣泛應用。

為了提高全局搜索能力,從而找到全局最優策略,將粒子濾波引入到機會頻譜接入,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。把強化學習的獎勵函數看作是粒子濾波的一個不恰當的概率密度函數(IPDF),是基于有限數量采樣的未知概率密度函數(PDF)的一種近似估計算法。文獻[3—4]提出了基于粒子濾波的直接策略搜索強化學習算法,在策略空間中具有進行全局搜索的能力,從而找到全局最優策略。

文獻[5]利用粒子濾波為一個大規模動態頻譜接入系統進行資源分配。按照每個用戶實現的吞吐量,分析了粒子濾波算法的性能,并將粒子濾波算法與Q學習算法進行了性能比較,驗證了所提出的粒子濾波算法的有效性。與卡爾曼濾波相比,粒子濾波適應于一般情況(非線性模型,非高斯噪聲,多模態分布)。

1 強化學習和粒子濾波的聯系

通過做下面的觀測,將粒子濾波和強化學習聯系起來。定義參數空間θ∈Θ,把獎勵函數R(θ)∈R看作是粒子濾波的一個不恰當的概率密度函數(IPDF)。即使獎勵函數R(θ)出現負值,也可在R(θ)中添加一個正的常數L=R(θ),從而得到一個新的非負的獎勵函數R'(θ)。R'(θ)和R(θ)是同一組優化器,優化R'(θ)也會優化R(θ)。

假設R(θ)是粒子濾波的一個IPDF,那么強化學習問題可從一個新觀點重新構建,每次試驗τ(π(θ))被看作是從這個未知IPDF的一次獨立采樣,強化學習可被看作是選擇一個有限數量采樣點的一種算法,以此獲得IPDF的數值。為了完成強化學習和粒子濾波之間的連接,可簡單地通過歸一化(除以它的積分)將IPDF轉換成PDF。

2 基于粒子濾波的強化學習算法(RLPF)建模

定義一個策略粒子pi,數組pi=〈θi,τi,Ri,ωi〉,通過運行強化學習策略π(θi)所執行的試驗τi得到粒子pi,θi是策略參數值的一個矢量,調節強化學習策略π的行為。策略粒子還存儲著評價這次試驗的獎勵函數值Ri=R(τi(π(θi)))。變量τi包含試驗期間記錄的特殊任務信息,這個信息被獎勵函數執行它的評價使用,變量ωi是該策略粒子的重要性權值,它的計算方法如下。

假定粒子集{pi}是由R(θ)定義的潛在的未知IPDF的一個近似的隱式表達。為了選擇遵循真正的IPDF分布的新粒子,可從近似分布采樣,由重要性權值變量ωi糾正它與實際分布之間的差異。

(1)策略粒子pi=被分配一個標量的重要性權值ωi,重要性權值ωi來自相應的獎勵Ri,ωi和Ri使用轉換函數ωi∝g(Ri)轉換,g(·)是任意的非負函數。將重要性權值歸一化,

(3)引入隨機變量z,在時間間隔(0,1)均勻分布,定義y=h?1(z),可知隨機變量y是按照期望的未知PDF(近似)分布的。

粒子濾波有兩種變量,相應地有兩種RLPF,分別是序貫重要性采樣(SIS)和序貫重要性重采樣(SIR)。

算法的詳細說明如下:

第3—5行,在主循環的每次迭代中,選擇exploration(執行全局隨機采樣)和exploitation(利用粒子濾波作為采樣機制選擇新的策略參數)。這個選擇是由一個用戶自定義的函數Pexplore(n)控制,它定義了在迭代次數n∈[1,N]下,RLPF算法選擇執行exploration的概率。這一機制允許用戶直接控制exploration/exploitation的取舍。實際上,開始時給exploration一個高的概率值,然后為了給exploitation優先權,把它降到最小,這樣重點就放在了策略空間中最有前途的領域。在退化情況下,當?nP Pexexpplolorere( n()n=)1=,1RLPF算法變成全局隨機采樣。

第9—20行,執行了主要的粒子濾波機制。第11—14行,計算了策略粒子的重要性權值。第15—18行,用基于逆密度函數的機制選擇粒子。第19—20行,在先前選定的粒子中,增加指數衰減噪聲來選擇新的粒子。

第22—23行,基于一次或多次試驗,評價新的策略粒子。在確定性情況下,評價每個策略粒子使用一個策略評價。在非確定性(隨機)情況下,執行策略粒子的多個評價,平均得到的回報可被用來作為預期策略回報的一個無偏估計。

RLPF繼承了粒子濾波的很多優點,實現簡單,計算量小,占用內存非常低。利用函數g( R),增加每個獎勵間的相對差異,例如,函數g( R)=(1+R)2,RLPF可把執行全局隨機采樣的努力集中到策略空間最重要的部分中。通過改變初始噪聲水平ε0和衰減因子λ,根據精度和時間的要求,RLPF可顯示自適應算法的收斂速度。

3 結語

RLPF作為一個全局搜索算法,因為搜索的范圍是盡可能最大的全部策略空間,一般需要更多次的試驗來收斂。另外,即便粒子濾波沒有收斂性的嚴格證明,在實踐中,粒子濾波的經驗已經證明,在實際應用中能獲得優異的結果。

[1]XU Y H, WANG J L, WU Q H, et al. Opportunistic spectrum access in unknown dynamic environment:a game-theoretic stochastic learning solution[J].Wireless Communication, 2012(4):1380-1391.

[2]JOUINI W, BOLLENBACH R, GUILLET M, et al. Reinforcement learning application scenario for opportunistic spectrum access[C].54th International Midwest Symposium on Circuits and Systems, 2011:1-4.

[3]PETAR K, DARWIN G, CALDWELL. Direct policy search reinforcement learning based on particle fltering[C].European Workshop on Reinforcement Learning, 2012:1-13.

[4]BORKAR V S, JAIN A. Reinforcement learning, particle filters and the EM algorithm[C].Information Theory and Applications Workshop, 2014:1-5.

[5]BEN G M, KHALFI B, HAMDAOUI B, et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering[C].Globecom Workshops, 2014:219-224.

Research on modeling by reinforcement learning algorithm based on particle flter

Dong Chunli, Wang Li
(Electronic And Information Engineering College of Nanjing Vocational Institute of Transport Technology, Nanjing 211188, China)

The reinforcement learning algorithm based on particle filter is modeled . An algorithm based on particle filter and reinforcement learning is presented by combining with particle filter and Q-, RLPF inherits many advantages of the particle filter to achieve a simple small amount of calculation, very low memory, and can direct carry on global in strategy space.

reinforcement learning; particle flter; policy space; global search

南京交通職業技術學院高層次人才科研基金項目;項目編號:No. 440105001。

董春利(1964— ),男,山東青島,博士,教授;研究方向:認知無線電網絡與下一代無線泛在網絡。

猜你喜歡
重要性策略
土木工程中建筑節能的重要性簡述
“0”的重要性
基于“選—練—評”一體化的二輪復習策略
論七分飽之重要性
求初相φ的常見策略
例談未知角三角函數值的求解策略
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
我說你做講策略
論七分飽之重要性
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 精品亚洲国产成人AV| 国产白浆视频| 欧美日韩精品一区二区在线线| 亚洲高清资源| 老熟妇喷水一区二区三区| 午夜丁香婷婷| 久久久久久国产精品mv| 六月婷婷激情综合| 亚洲欧美天堂网| 欧美精品一二三区| 久久a级片| 亚洲男人天堂久久| 亚洲精品老司机| 91人妻日韩人妻无码专区精品| 91午夜福利在线观看精品| 国产青榴视频| 午夜成人在线视频| 青青青视频91在线 | 国产青青草视频| 亚洲精品色AV无码看| 亚洲无码一区在线观看| 亚洲天堂精品视频| 在线欧美a| 国产精品露脸视频| 国产精品久久久久鬼色| 欧美一区二区福利视频| 99久久精品免费看国产电影| 国产精品深爱在线| 人妻丰满熟妇AV无码区| 亚洲成在人线av品善网好看| 国产日韩久久久久无码精品| 日韩大片免费观看视频播放| 成色7777精品在线| 亚洲水蜜桃久久综合网站| 久久亚洲中文字幕精品一区| 无码综合天天久久综合网| 亚洲福利一区二区三区| a在线亚洲男人的天堂试看| 国产精品19p| 色综合热无码热国产| 午夜欧美在线| 国产三级国产精品国产普男人| 欧美亚洲一区二区三区在线| 免费人成黄页在线观看国产| 日本人妻丰满熟妇区| 她的性爱视频| 欧美国产日韩在线| 国产精品人成在线播放| 午夜欧美理论2019理论| 国模粉嫩小泬视频在线观看| 广东一级毛片| 国产最爽的乱婬视频国语对白| 国产精品久线在线观看| 国产精品无码翘臀在线看纯欲| 国产亚洲精品自在线| yjizz视频最新网站在线| 最近最新中文字幕在线第一页| 国产乱人乱偷精品视频a人人澡| 老熟妇喷水一区二区三区| 永久天堂网Av| 狠狠做深爱婷婷久久一区| 国产一级二级三级毛片| 亚洲床戏一区| 日韩最新中文字幕| 九色视频一区| 国产拍在线| 综合社区亚洲熟妇p| 中文字幕亚洲另类天堂| 免费一级大毛片a一观看不卡| 四虎永久在线| 欧美国产综合视频| 久久午夜夜伦鲁鲁片无码免费 | 久久免费观看视频| 成人va亚洲va欧美天堂| 99久久精品国产自免费| 国产精品人成在线播放| 在线日韩日本国产亚洲| 国产成人精品第一区二区| 日韩区欧美国产区在线观看| 亚洲成人77777| 亚洲一区二区成人| 国产福利免费在线观看|