999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度強(qiáng)化學(xué)習(xí)研究進(jìn)展

2019-05-24 14:11:40高振洋秦斌
電腦知識(shí)與技術(shù) 2019年4期
關(guān)鍵詞:深度學(xué)習(xí)人工智能

高振洋 秦斌

摘要:在高端人工智能領(lǐng)域中,感知力和決策能力都是衡量智能水平的重要指標(biāo)。將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,使得智能體能夠從高維的狀態(tài)動(dòng)作空間中感知信息,通過得到的信息對(duì)模型進(jìn)行訓(xùn)練、做出決策,以能夠通過端對(duì)端的學(xué)習(xí)方式來實(shí)現(xiàn)從原始輸入到輸出的直接控制。本文介紹了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí);闡述了深度強(qiáng)化學(xué)習(xí)主流算法中的DQN及其變種和應(yīng)用,分析了深度層次強(qiáng)化學(xué)習(xí)算法。最后對(duì)相關(guān)工作做了總結(jié)和展望。

關(guān)鍵詞:深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);深度強(qiáng)化學(xué)習(xí);層次強(qiáng)化學(xué)習(xí);人工智能

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)04-0157-03

Abstract:In the field of advanced artificial intelligence, perceptual ability and decision-making capacity are both important indicators to measure the level of intelligence.Combining the perceptual ability of deep learning with the decision-making capacity of reinforcement learning, which makes that the agent can perceive imformation from the high-dimensional state action space, train the model and make decisions through the information obtained. So that we can achieve the direct control from original input to output through end to end learning. In this paper, we introduce the basic knowledge of deep learning and reinforcement learning; Elaborating the DQN and its variants and applications, which is the mainstream algorithm of deep reinforcement learning, analysising the algorithm of deep hierarchies reinforcement learning. Finally, the related researches were summarized and prospected.

Key words:Deep learning; Reinforcement learning; Deep Reinforcement learning; Hierarchies reinforcement learning; Artificial Intelligence

2016年由Google擁有的人工智能(AI)研究團(tuán)隊(duì)DeepMind創(chuàng)新性地將具有感知能力的深度學(xué)習(xí)(Deep Learning:DL)和具有決策能力的強(qiáng)化學(xué)習(xí)(Reinforcement Learning:RL)相聯(lián)合,提出了深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning:DRL)算法。通過DRL算法訓(xùn)練得到的圍棋智能體——AlphaGo擊敗了人類頂尖職業(yè)棋手,引起了全世界的關(guān)注,開啟了AI領(lǐng)域研究的新時(shí)代。

近幾年,DRL算法被廣泛應(yīng)用于視頻預(yù)測(cè)、文本生成、機(jī)器人、機(jī)器翻譯、控制優(yōu)化、目標(biāo)定位、文本游戲、自動(dòng)駕駛等多個(gè)領(lǐng)域中,展現(xiàn)了強(qiáng)大的適應(yīng)和學(xué)習(xí)能力。因此,深入分析和研究DRL算法,對(duì)于促進(jìn)人工智能領(lǐng)域的發(fā)展及拓展其應(yīng)用具有極其重要的意義[1]。

1 深度強(qiáng)化學(xué)習(xí)理論基礎(chǔ)

1.1 深度學(xué)習(xí)

2006年,Hinton及其學(xué)生等人[2]提出了深度網(wǎng)絡(luò)的概念,開啟了DL研究的熱潮。DL的核心思想是對(duì)觀察數(shù)據(jù)進(jìn)行分層特征表示,實(shí)現(xiàn)由低級(jí)特征進(jìn)一步抽象到高級(jí)特征[3]。

深度學(xué)習(xí)的模型主要有:深度信念網(wǎng)絡(luò)(DBN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。

深度學(xué)習(xí)的發(fā)展階段包括:萌芽期:BP算法的發(fā)明(1970s-1980s)到2006年;發(fā)展期:從2006年Hinton等人提出的‘深度學(xué)習(xí)概念以及訓(xùn)練方法到2012年。該階段主要以深度無監(jiān)督學(xué)習(xí)為研究重點(diǎn);爆發(fā)期:從2012年Hinton團(tuán)隊(duì)的Alexnet模型[4]在Imagenet競(jìng)賽中取得驚人的成績(jī)至今。

當(dāng)今社會(huì),深度學(xué)習(xí)廣泛應(yīng)用于人工智能相關(guān)多個(gè)領(lǐng)域,極大促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展。受到世界各國(guó)高科技公司和研究人員的重視。

1.2 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)(RL)是機(jī)器學(xué)習(xí)中的重要學(xué)習(xí)工具。主要解決的是序貫決策問題,智能體(Agent)通過動(dòng)作與環(huán)境進(jìn)行交互時(shí),環(huán)境會(huì)返給Agent一個(gè)當(dāng)前的獎(jiǎng)勵(lì),Agent根據(jù)當(dāng)前的獎(jiǎng)勵(lì)評(píng)估所采取的動(dòng)作。經(jīng)過數(shù)次迭代學(xué)習(xí)后,Agent可以最終學(xué)到達(dá)到相應(yīng)目標(biāo)的最優(yōu)動(dòng)作(最優(yōu)策略[5])。

RL問題通常由馬爾科夫決策過程(Markov Decision Process, MDP)來建模。MDP通常由元組(S,A,P,R,γ)描述,其中:

(1) S為所有環(huán)境狀態(tài)的集合,s·S。

(2) A為有限的動(dòng)作集合,a∈A。

(3) P為狀態(tài)轉(zhuǎn)移概率,P(s/s,a)表示在s狀態(tài)下執(zhí)行動(dòng)作a時(shí),轉(zhuǎn)移到s的概率。

猜你喜歡
深度學(xué)習(xí)人工智能
我校新增“人工智能”本科專業(yè)
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
主站蜘蛛池模板: 亚洲欧美日本国产综合在线| 在线观看无码av免费不卡网站 | 2021国产精品自产拍在线观看| 成人日韩精品| 国产理论一区| 找国产毛片看| 国产亚洲欧美在线人成aaaa| 国产一区成人| 婷婷伊人久久| 亚洲欧洲美色一区二区三区| 免费在线播放毛片| 国产小视频网站| 国产视频欧美| 在线高清亚洲精品二区| hezyo加勒比一区二区三区| 中国精品自拍| 91伊人国产| 亚洲色大成网站www国产| 欧美亚洲日韩不卡在线在线观看| 亚洲69视频| 91视频青青草| 亚洲人成亚洲精品| 国产精品人成在线播放| 91最新精品视频发布页| 国产视频大全| 亚洲日本www| 国产一级α片| 欧美日韩免费观看| 高清不卡一区二区三区香蕉| 欧美成人亚洲综合精品欧美激情| 国产精品一区在线麻豆| 一区二区日韩国产精久久| 国产成本人片免费a∨短片| 韩日无码在线不卡| 国产AV无码专区亚洲精品网站| 国产鲁鲁视频在线观看| 国产青榴视频在线观看网站| 91精品国产麻豆国产自产在线| 亚洲AⅤ无码日韩AV无码网站| 91亚洲视频下载| 一本大道无码日韩精品影视| 97se亚洲综合在线| 美女无遮挡免费视频网站| 成人福利在线看| 亚洲免费黄色网| 一本色道久久88亚洲综合| 成人在线天堂| 久久香蕉国产线看观看式| 国产成人久久777777| 九九热精品视频在线| 久久毛片网| 日韩在线第三页| 国产成人乱无码视频| 在线观看无码av免费不卡网站| 性欧美精品xxxx| 99免费在线观看视频| 亚洲精品国产综合99| 亚洲精品成人片在线观看| 国产精品第一区| 亚洲综合网在线观看| 中文字幕久久亚洲一区| 亚洲国产系列| 亚洲男人的天堂在线观看| 欧美精品1区| 中文精品久久久久国产网址 | 久久久久久久97| 在线免费无码视频| 中国丰满人妻无码束缚啪啪| 亚洲欧洲美色一区二区三区| 日韩天堂视频| 综合社区亚洲熟妇p| 国产人人射| 国产成人无码AV在线播放动漫| 永久免费精品视频| 97国产成人无码精品久久久| 亚洲国产无码有码| 亚洲色图在线观看| 日韩无码真实干出血视频| 亚洲熟妇AV日韩熟妇在线| 精品无码国产一区二区三区AV| 九九热视频精品在线| 四虎AV麻豆|