999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度強化學習在Atari視頻游戲上的應用

2017-09-03 10:57:36沈陽理工大學自動化與電氣工程學院石征錦
電子世界 2017年16期
關鍵詞:深度人工智能融合

沈陽理工大學自動化與電氣工程學院 石征錦 王 康

深度強化學習在Atari視頻游戲上的應用

沈陽理工大學自動化與電氣工程學院 石征錦 王 康

考慮到深度學習在圖像特征提取上的優勢,為了提高深度學習在Atari游戲上的穩定性,在卷積神經網絡和強化學習改進的Q-learning算法相結合的基礎上,提出了一種基于模型融合的深度神經網絡結構。實驗表明,新的模型能夠充分學習到控制策略,并且在Atari游戲上達到或者超出普通深度強化學習模型的得分,驗證了模型融合的深度強化學習在視頻游戲上的穩定性和優越性。

強化學習;深度學習;神經網絡;視頻游戲

0 引言

2016年年初備受矚目的圍棋“人機大戰”對局中,最終以人類圍棋冠軍被擊敗落下帷幕。深智(DeepMind)團隊開發的圍棋機器人AlphaGo引起一波關于人工智能的熱議。這兩年谷歌公司的人工智能研究團隊DeepMind取得了兩項意義非凡的研究成果:基于Atari視頻游戲的深度強化學習算法[1]和計算機圍棋初弈號[2]。這些取得的研究成果開啟了人工智能學習算法的革命,作為人工智能重要一部分的深度學習和強化學習也成為廣大群眾討論的熱點話題。

從2010年開始,隨著計算機計算能力的提高,和預訓練技術的改進,深度學習在包括語音識別、視覺對象識別及檢測等人工智能領域取得了比傳統方式更大的優勢。深度學習的發展和進步把從原始的數據中提取高水平特征變成現實。深度學習在感知能力表現強勢,但是在決缺策能力上不盡人意;與此相反,強化學習在決策能力上表現上佳,但是對感知問題無特別優勢。因此,將兩者結合起來優勢互補,為解決復雜系統的感知決策問題提供了方法[3]。將具有感知能力的深度學習(deeplearning,DL)和具有決策能力的強化學習(reinforcement learning,RL)優勢互補的結合在一起,構成深度強化學習(deep reinforcement learning,DRL)算法。這些算法表現出來的性能超出人們的想象,對促進人工智能領域的發展具有極大的意義。

本文對深度神經網絡訓練模型進行了改進,充分利用深度強化學習網絡結構中儲存的經驗回放機制中的數據對整個神經網絡參數進行精調。采用不同模型中的經驗回放的數據更能提高神經網絡的訓練水平,該方法為深度神經網絡提供了較好的訓練效果,降低了深度神經網絡的優化難度。改進后的模型在神經網絡權值更新上效果更好,實驗驗證在Atari視頻游戲的得分達到了預期效果。

1 背景

深度學習起源于人工神經網絡,目前典型的深度學習模型包括:卷積神經網絡、深度置信網絡、堆棧自編碼網絡和遞歸神經網絡等。本文應用了卷積神經網絡。文獻[4]中提出的深度Q網絡(deep Q network,DQN),是將卷積神經網絡和Q學習結合,并集成經驗回放技術實現的。經驗回放通過重復采樣歷史數據增加了數據的使用效率,同時減少了數據之間的相關性[5]。深度Q網絡是深度強化學習算法上的重要創新,它采用游戲畫面作為原始圖像輸入,經過卷積層,抽樣層神經網絡和全連接層神經網絡,輸出狀態動作Q函數,然后選擇最好的動作實現學習控制的目標。深度Q網絡使用帶有參數θ的Q函數Q(s,a;θ)去逼近值函數。迭代次數為i時,損失函數函數為[5]:

其中:

該工作對深度強化學習很大的意義。

2 加入經驗回放機制的Q-learning

算法流程如下:

由于Atari采集的是時間比較接近的樣本,不可避免的是它們具有連續性,受樣本分布得影響,這樣更新的Q值效果不理想。因此,把樣本先存起來,然后隨機采樣就是一個比較實用可行的想法。這就是經驗回放的意思。算法要求就是反復試驗,將數據儲存起來,數據達到一定數量就每次隨機采樣數據進行梯度下降。在DQN中強化學習Q-Learning算法和深度學習的隨機梯度下降訓練是同步進行的,通過Q-Learning獲取無限量的訓練樣本,然后對神經網絡進行訓練。

3 基于模型融合的深度強化學習

3.1 模型融合的DRL網絡結構

將兩個不同結構的卷積神經網絡經過經驗回放機制儲存的歷史經驗數據互相使用來更新網絡的權值,我們稱之為模型融合的神經網絡。該方法的提出目的是提高訓練過程的穩定性,加速收斂速度。并且agent在測試集上仍然采用ε-greedy策略進行游戲,agent的采用這種隨機策略有可能導致這種不確定性。權重的細小的變化就有可能造成結果大不相同,狀態是游戲畫面,選擇不同的行為動作就會造成不同的畫面變化,這種細小的變化的累積影響實際是巨大的。神經網絡權重的微小變化可能造成策略掃過的狀態大不相同,而我們希望agent盡可能多的收集訓練數據用于訓練,所以通過從大量的歷史樣本中采樣并使用融合多個不同DNN架構的經驗回放中的數據,采樣經驗回放中的數據時,使用不同的采樣方法并且盡量采樣相關性比較小的樣本,比如兩個樣本之間相隔4幀以上,不采樣處于終結狀態的幀,處于終結狀態的幀不存在后續幀。不同的網絡結構也是間接地將歷史樣本增加了。DRL1使用和圖2不同的卷積神經網絡的架構:

(1)卷積步長不同,有(4,2)改為(2,2)。

(2)將mini-batch的采樣大小48改為16。

(3)改變輸入圖像的預處理方法。

(4)全連接層的層數或者節點數量不同,將全連接層節點由512改為256。

模型融合DRL流程圖見圖1。

圖1 模型融合DRL流程圖

3.2 網絡結構設計

為了減少計算對原始的游戲幀(210*160像素128)色處理,首先把圖像RGB三色圖像轉換為灰度圖并降采樣,其次將輸入圖像截斷成84*84像素大小,圖像區域大致覆蓋游戲區域。截取成84*84像素是因為我們使用的GPU實現2D卷積需要方形輸入。在后續的實驗中,函數負責將歷史幀中最近的4幀圖像進行預處理并作為網絡的輸入。卷積神經網絡如圖2所示。

圖2 卷積神經網絡結構

從序列中取的連續幀越多,那么網絡能觀察的全局信息就越多,對局勢的判斷也會越準確,但是網絡規模會成倍增長,所以需要權衡網絡規模和算法性能。使用連續4幀作為網絡的輸入,這里選用ReLU (Rectif i ed Linear Units)作為網絡的激活函數,ReLU具有計算速度快,準確率高等優點,函數形式f(x)=max(0,x)[6]。網絡的輸入是經過預處理生成的84*84*4的圖像;第一個隱藏層由32個8*8的卷積核組成,步長為4,并使用ReLu做非線性變換,經過卷積核的變換后該層有20*20*32個節點第二個隱藏層包含48個4*4的卷積核,步長為2,同樣使用ReLu做非線性變換,經過卷積核的變換后該層有9*9*48個節點。最后一個隱藏層包含512個與上一層進行全連接ReLU單元。輸出層單元是與上一層的全連接的線性函數,每一個輸出對應一個可能的動作。

4 實驗結果

openai中的Atari 2600模擬器運行狀態每秒生成60幀,我們設定每4幀發送1幀,由于神經網絡處理數據速度沒那么快,為避免造成卡頓。每個Atari的游戲得分評價標準不同,為了讓不同的游戲融合在一個框架下,這里將它劃為統一標準,即agent每次做出有利的動作得分+1,做出不利的動作-1,沒改變的是0[7]。算法在游戲中的評價方法如下:游戲被天然的分割為多個episode過程,每個episode開始于重置命令后的那一幀,結束于檢測到游戲結束條件,或者超過5分鐘的實際游戲時間,一個強化學習算法從1000個訓練episode中學習,接下來在200個非學習階段的episode中進行評價,agent的表現用評價階段的episode的均值分數來測量。

表1 3種模式下的游戲得分

表1記錄了Human,DRL和模型融合的DRL在4種不同的游戲中的得分表現。在多個不同游戲中的表現證明了深度強化學習的泛化性能優異。對比發現,DRL在打磚塊和乒乓球上比人類玩家更加出色,基于模型融合的DRL在打磚塊,太空侵略者和乒乓上比人類優異,且在4種游戲中都比DRL表現好。這也證明了該模型在玩游戲中效果更好。

5 結論

本文介紹了基于經驗回放的而改進的模型融合的深度強化學習模型。實驗證明了該網絡結構DRL在Atari 2600游戲中成功的學習到控制策略,并且在穩定性和學習效果上比較優異。通過分析不同游戲的特征發現,模型融合的DRL在靈敏度比較高的游戲中比較取得好的成績(如打磚塊,乒乓等)。但是在環境復雜需要全局考量的策略類游戲中的(如深海游弋,太空侵略者等)得分相對低一些,這個是需要繼續研究和改進的地方。

[1]MNIHV,KAVUKCUOGLUK,SILVERD,etal..Human-levelcontrol through deep reinforc ement learning[J].Nature,2015,518(7540):529-533.

[2]SILVER D,HUANG A,MADDISON C,et al.Mastering the game of Go with deep neural,networks and tree search[J].Nature,2016,529(7587): 484-489.

[3]趙冬斌,邵坤,朱圓恒,李棟,陳亞冉等.深度強化學習綜述:兼論計算機圍棋的發展[J].控制理論與應用,DOI:10.7641/CTA.2016.60173.

[4]MNIH V,KAVUKCUOGLU K,SILVER D,et al.Playing atari with deep reinforcement learning[C]//Proceedings of the NIPS Workshop on Deep Learning.Lake Tahoe:MIT Press,2013.

[5]WATKINS C J C H.Learning from delayed rewards[D].Cambridge:University of Cambridge,1989.

[6]Riedmiller M.Neural fitted Q iteration-first experiences with a data ecient neural reinforcement learning method[J].In:Proceedings of the 16th European Conference on Machine Learning.Porto,Portugal:Springer,2005.

[7]Marc G Bellemare,Yavar Naddaf,Joel Veness,and Michael Bowling. The arcade learning environment:An evaluation platform for general agents[J].Journal of Artificial Intelligence Research,47:253-279,2013.

The Application of Depth of reinforcement Learning in the Vedio Game

Shi Zhengjin Wang Kang
(School Of Automation And Electrical Engineering,Shenyang Ligong University Shenyang 110168,China)

Considering the advantage of depth learning in image feature extraction,In order to improve the depth study on the Atari game performance this paper proposes a depth neural network structure based on model fusion,convolution neural network and modif i ed Q-learning algorithm.Experiments show that the new model can fully study the control strategy,and it achieve or exceed the scores of the general learning model in the Atari game.Proving the deep reinforcement learning based on model fusion have the stability and superiority in the video game.

reinforcement learning;deep learning;neural network;vedio game

石征錦(1963—),男,遼寧沈陽人,碩士,教授,研究領域:人工智能,檢測技術與自動化裝置,先進控制理論及應用。

王康【通訊作者】(1992—),男,山東棗莊人,碩士,研究領域:人工智能,深度學習,先進控制理論與應用。

猜你喜歡
深度人工智能融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
深度理解一元一次方程
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
深度觀察
深度觀察
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
深度觀察
主站蜘蛛池模板: 性网站在线观看| 九九九久久国产精品| 在线观看视频一区二区| 国产精品视频观看裸模| 看国产一级毛片| 丝袜亚洲综合| 青青草欧美| 五月婷婷丁香综合| 五月婷婷丁香色| 三上悠亚精品二区在线观看| 55夜色66夜色国产精品视频| 99草精品视频| 真实国产精品vr专区| 国产一区二区三区在线精品专区| 国产精品va| 国产美女一级毛片| 国产精品密蕾丝视频| 久久久久久午夜精品| 欧美中文字幕无线码视频| 无码乱人伦一区二区亚洲一| 毛片在线播放a| 国产91丝袜在线观看| 久久综合伊人77777| 色吊丝av中文字幕| av大片在线无码免费| 亚洲欧洲日产国码无码av喷潮| 亚洲第一极品精品无码| 免费看黄片一区二区三区| 一边摸一边做爽的视频17国产| 国产激情在线视频| 国产黄网永久免费| 国产爽爽视频| 日韩a级片视频| 日韩在线网址| 久久精品波多野结衣| 日韩大乳视频中文字幕| 亚洲啪啪网| 精品国产美女福到在线不卡f| 成·人免费午夜无码视频在线观看 | 国产精品成人啪精品视频| 青青草原偷拍视频| 97se综合| 欧美.成人.综合在线| 制服丝袜无码每日更新| 青青操视频在线| 18黑白丝水手服自慰喷水网站| 亚洲精品无码日韩国产不卡| 91精品国产综合久久香蕉922| 国产一级α片| 欧美国产日韩在线| 精品無碼一區在線觀看 | 亚国产欧美在线人成| 欧美亚洲国产精品久久蜜芽| 无码有码中文字幕| 国产精品13页| 国产国拍精品视频免费看| 亚洲午夜综合网| 美女免费精品高清毛片在线视| 真人免费一级毛片一区二区| 青青青国产视频手机| 99re这里只有国产中文精品国产精品 | 国产精品性| 国产一级毛片yw| 国产在线精彩视频论坛| 思思99热精品在线| 99青青青精品视频在线| 国产成人精品一区二区| 中文字幕在线日韩91| 91精品啪在线观看国产91| 97国内精品久久久久不卡| 久久国产精品国产自线拍| 国产成人成人一区二区| 久996视频精品免费观看| 国产成人综合亚洲网址| 国产视频只有无码精品| 成人欧美日韩| 亚洲日韩高清在线亚洲专区| 在线欧美a| 综合天天色| 亚洲欧美激情小说另类| 国产精品久线在线观看| 视频二区亚洲精品|