999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的智能決策方法*

2023-01-18 00:47:40熊蓉玲段春怡冉華明馮旸赫
電訊技術 2023年1期
關鍵詞:深度動作智能

熊蓉玲,段春怡,冉華明,楊 萌,馮旸赫

(1.中國西南電子技術研究所,成都 610036;2.西南交通大學 數學學院,成都 611756;3.國防科技大學 系統工程學院,長沙 410003)

0 引 言

強化學習通過智能體和環境不斷試錯交互的方式學習到能夠使獎勵最大化的最優策略[1]。深度強化學習結合神經網絡強大的表征能力來擬合智能體的策略模型和價值模型,求解復雜問題的能力大幅提升,近年來在各類智能決策問題上取得了巨大的進步,成為人工智能領域發展迅猛的一個分支[2]。實時策略類游戲作為典型的時序決策問題,成為國內外學者研究深度強化學習的試金石。Mnih 等[3]提出深度Q網絡(Deep Q Network,DQN)算法解決Atari2600游戲,在6個游戲中的表現優于以前的方法,在3個游戲中的表現優于人類專家。但Atari2600游戲的任務場景較為簡單,決策時序較短,決策空間較小,問題復雜性不高。Vinyals等[4]針對星際爭霸游戲問題,采用了強化學習和模仿學習相結合的方式,解決了非完全信息下的即時策略游戲問題。Jaderberg等[5]針對雷神之錘游戲問題,利用雙層流程來優化智能體的內部獎勵機制,再通過這些獎勵來優化強化學習模型,通過并行訓練多個不同的智能體集群相互配合,實現了完全無監督的自學機制。與Atari2600游戲相比,星際爭霸和雷神之錘的任務場景復雜,決策難度大幅提升,文中設計的算法架構復雜,計算資源需求大,訓練時間長,難以應用到其他任務場景中。

針對傳統深度強化學習方法難以快速解決長時序復雜任務的問題,本文提出一種引入歷史信息和人類知識的深度強化學習方法。……

登錄APP查看全文

猜你喜歡
深度動作智能
深度觀察
深度觀察
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
深度觀察
動作描寫要具體
動作描寫不可少
非同一般的吃飯動作
主站蜘蛛池模板: 亚洲香蕉久久| 青青网在线国产| 国产成人精品一区二区| 美女免费黄网站| 亚洲国产欧美国产综合久久 | 美女被躁出白浆视频播放| 亚洲日韩高清无码| 99久久精品国产自免费| AV无码无在线观看免费| 伊人无码视屏| 无码AV日韩一二三区| 成人av手机在线观看| 999精品视频在线| 最近最新中文字幕在线第一页| 亚洲精品桃花岛av在线| 老司国产精品视频| 亚洲精品成人片在线观看| 国产精品主播| 亚洲AⅤ波多系列中文字幕| 在线观看免费人成视频色快速| 亚洲一区第一页| 毛片免费试看| 熟女视频91| 熟女日韩精品2区| 热这里只有精品国产热门精品| 99人妻碰碰碰久久久久禁片 | 国产永久在线观看| 在线播放精品一区二区啪视频| 国产高潮视频在线观看| 伊人久久精品亚洲午夜| 亚洲精品动漫| 91香蕉视频下载网站| 日韩资源站| 亚洲综合专区| 99久久精品国产综合婷婷| 国产二级毛片| …亚洲 欧洲 另类 春色| 亚洲swag精品自拍一区| 秋霞午夜国产精品成人片| 5555国产在线观看| 久久综合色播五月男人的天堂| 97精品国产高清久久久久蜜芽 | 欧美午夜理伦三级在线观看 | 久热这里只有精品6| 伊人久久综在合线亚洲91| 91美女视频在线| 久热re国产手机在线观看| 色综合成人| 亚洲中文字幕无码mv| 免费又爽又刺激高潮网址| 色婷婷亚洲综合五月| 国产乱论视频| 不卡午夜视频| 九九热在线视频| 在线精品视频成人网| 一级做a爰片久久毛片毛片| 国产福利拍拍拍| 青青青国产视频| 国产成人高清亚洲一区久久| 中文无码毛片又爽又刺激| 老司机精品一区在线视频 | 欧美午夜视频| 无码中文AⅤ在线观看| 伊在人亚洲香蕉精品播放| 成人一级黄色毛片| 亚洲性影院| 日韩黄色在线| 女人18毛片水真多国产| a在线亚洲男人的天堂试看| 亚洲一级毛片| 亚洲成人在线网| 亚洲国产理论片在线播放| 欧美成人免费| 91精品国产一区| 大香网伊人久久综合网2020| 日本福利视频网站| 少妇精品在线| 日本午夜精品一本在线观看| 国内99精品激情视频精品| 亚洲日韩久久综合中文字幕| 91在线一9|永久视频在线| 欧美在线视频a|