999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度強化學習研究進展

2021-11-28 01:58:52張鵬昊秦斌
電腦知識與技術 2021年28期
關鍵詞:深度學習人工智能

張鵬昊 秦斌

摘要:隨著人工智能的發展深度強化學習越來越多進入人們的視線,它是以一種通用的形式把深度學習的感知力和強化學習的決策能力結合起來,繼而通過高維度的方式感知信息訓練模型發出決策,也可以通過分層強化學習來將復雜的深度學習問題化簡為單一的問題,從而解決了空間維數災難的問題。該文介紹了深度強化學習的理論知識還有幾種最新的前沿算法,以及在現實生活中的各種各樣的應用,最后對相關領域進行了總結和展望。

關鍵詞:深度學習;強化學習;深度強化學習;人工智能;智能應用

中圖分類號:TP3? ? ? ?文獻標識碼:A

文章編號:1009-3044(2021)28-0104-03

開放科學(資源服務)標識碼(OSID):

1949年春季,DONALD HEBB提出了歷史上大名鼎鼎的赫布理論(Hebbian theory),他解釋了在人類學習過程中大腦里的神經元[1]是怎么變化的,標志著機器學習[2](Machine Learning)的誕生。1956年的一個夏天,一群具有創新總結能力的年輕科學家一起聚會,其中包括麥卡賽、明斯基和羅切斯等人,坐在一起討論如何用計算機將人腦的思維模擬出來的問題,由此,人工智能(AI)這門未來最火熱的學科正式誕生。2016年秋季人工智能[3]團隊DeepMind把深度學習(Deep Learning:DL)和以決策能力聞名的強化學習(Reinforcement Learning:RL)創新性地結合起來,由此標志著深度強化學習(Deep Reinforcement Learning:DRL)算法第一次問世,這直接開啟了一波學習人工智能的新熱潮。

近些年來,DRL算法應用到了越來越廣泛的領域,比如圖像識別[4]分析,機器人,電子皮膚[5],目標識別,自動汽車,自動泊車等多個領域,顯示出了DRL的適應性和未來的潛在發展能力。所以,深入研究探索DRL算法無論對于人工智能領域還是未來人類智能家居方面都有著不可替代的意義。

1 預備理論

1.1 深度學習

1956年,能模擬人類感知能力的機器被一位心理學家Frank Rosenblatt首次提出,并為之進行過無數次試驗后,為之命名為感知機(Perceptron),而單層神經網絡[6]的出現就給DL的出現奠定了重要的基礎。直到2006年,Geoffrey Hinton提出了一個多層神經網絡,這個神經網絡對比單層神經網絡的話,是有更強的總結能力和學習能力的,對所學習的東西那些最根本的數據都有著最貼切地表達,這實現了低級特征到高級特征的過度。

深度學習的發展階段:起源階段:BP模型,海布規則,感知機。(1940s-1980s)發展階段:Hopfield神經網絡,BP算法,梯度消失[7]等問題。(1980s-2000s).

1.2 強化學習

強化學習是一個從屬于機器學習當中非常重要的學習工具,他的其他名字還有增強學習[8]等,是大類機器學習當中最重要的的方法論之一,智能體在和環境交互時,所在的環境會給予對應的反饋,通過這個反饋智能體[9]會自行決定應該采取什么動作來適應這個變化,馬爾可夫決策(Markov Decision Process, MDP)過程就是最常見的強化學習模型,如圖1所示。在另一方面,該決策過程會影響智能體的變化,直到智能體進入一個新的穩定的狀態,此時一次完整的迭代才算結束,智能體會將該過程中所有的變化全部記錄下來直到形成一個新的智能體。

2 深度強化學習主流算法

2.1 Q-LEARNING

1989年Q-LEARNING[10]的方法由Watkins提出。1992年,他和Dayan證明了其收斂性,對于智能體的某一個狀態,以及智能體執行的每一個動作,有很多動作是不是及時的,比如有些情況,買面包能買到好的和壞的,這并不是我們能決定的,而且也不是及時反饋的,所以最好的情況是智能體可以對未來的情況進行有效的期望總結,那么Q-LEARNING就都具備這些我們希望得到的結果。

有的時候我們還會引入一個概念折扣因子[-γ],如果在某一個時刻智能體獲得了一個獎勵[X],那么對于U時間前的動作的期望和獎勵獻是X*[γ^u],在經濟學當中這個公式也得到了廣泛的應用。這就叫Q函數,也就是現在我們經常說的Q-LEARNING,他能夠計算期望獎勵。如果智能體的空間狀態是有限的,轉移概率就是可估計的,我們就可以用期望動態規劃來解出來Q函數,一般情況下我們需要進行無數次的迭代探索來選擇Q學習的動作,這叫作Q-LEARNING。

2.2 DEEP Q-LEARNING

2013年,谷歌旗下的DEEPMIND位于英國倫敦,是一個致力于發展前沿人工智能的企業,首次將神經系統[11]的知識和人工智能領域結合在一起的企業,在NIPS WORKSHOP上提出了DEEP Q-LEARNING,主要的任務是讓AI智能體系統在像素中學會進行ATARI游戲,在之后2015年還登上了NATURE的封面,如果智能體的空間是連續的,那么規劃的狀態數就是無限的,我們用深度[Q]網絡來模擬這個[Q]函數,這個就是DQN,他會把智能體所有的信息(狀態、動作、獎勵、期望等等)存儲到內存中,這些東西在訓練的時候就可以多次使用,稱之為Memory Replay,我們注意到當前的每個動作的擬合的獎勵,還要擬合我們未來可能要引入的噪聲,來形成一個延遲更新的Q函數,來形成一個新的[Q]值,我們通常稱之為Target Network。

2.3 DQN改進算法

2015年,DQN有三個主要的改進,分別是Double DQN,Dueling Network和Prioritized Replay,我們來分別說一下每個算法的具體改進步驟,Double DQN是改進了Q值運算的計算方法,這個動作考慮到Q值以及他的狀態動作都相關。但是具體到現實情況以后,我們實際上更加注重動作所帶來的獎勵,Dueling Network則是對DEEP Q-LEARNING的網絡結構進行調整和改進,Prioritized Replay是在探討replay memory的采樣優先級的問題,這其中Double DQN,Dueling Network這兩種算法不困難只需要改幾行代碼就可以實現該功能,但是Prioritized Replay這個算法卻需要很多的工作,還有額外的維護數據結構等工作,會消耗很大量的時間和工作。

2.4 Policy Gradient

Richard S.Sutton在2000年在NIPS上提出了policy gradient的方法,policy gradient是一種用狀態來進行直接的輸入輸出的方法,他是更為直接的,輸入一個動作輸出一個動作,進而獲得獎勵來更新出智能提示如何決斷下一個動作出現的概率,但是這種方法并不是最優策略。

2.5 Deep Deterministic Policy Gradient

Deep Deterministic Policy Gradient的決定行為策略是由David Silver在前些年提出的,大致的算法是,當神經網絡的概率方差無限趨近于零的時候,就達成了我們需要的東西,運用了actor-critic算法框架,把DEEP Q-LEARNING和Policy Gradient混合了起來,在提高樣本利用率方面取得了長足的進步。

3? 深度強化學習的實踐

3.1 計算機視覺領域

多年來,深度強化學習實踐領域中最飽滿的研究方向之一就是計算機視覺[12]領域,該領域包含多種多樣的技術方面,從模仿人眼視覺觀看世界到拓展新的視覺領域方面都取得了新的突破(比如人臉識別領域),而我們所說的計算機視覺領域又包含以下幾個方面的五種應用技術:

一是目標跟蹤技術,目標跟蹤是指追蹤某一個或者多個目標的一種在特定場合才能用到的技術,這種技術的老牌應用是在視頻和真實世界的交互上的作用,在檢測到真實世界出現了視頻中存在的特定對象以后進行采集和捕捉跟蹤進而進行觀察。

二是圖像分類技術,具體例子就是選取幾個類別的數字圖片,集成圖像識別分類算法進行訓練以后,再取得不同的數字圖片集合,來進行驗證識別分類操作,最后得出分類成果和準確率。

三是對象檢測技術,這項技術通常會牽扯到一些對象的邊界化和標簽化問題,需要針對圖像上的各個標簽進行分類和定義,這是一項很大的工程,需要在很多地方大量的使用卷積神經網絡[13]來進行圖片的分類和標簽化識別,這通常會消耗大量的訓練時間,也很一項很重要的成本。

四是實例分割技術,該技術就是將一副復雜重疊圖象的各個要素進行識別和分割,并且用不同的顏色代表他們,后期對不同的物體進行不同的操作,并且確定內容和邊界以及彼此的差異關系。

五是語義分割技術,將一幅圖片分解成一個個的像素組,并且對他們進行分類和標簽化[14],比如在一個房間里面,除了識別桌子、椅子、杯子、臺燈、冰箱、電視以外,我們還必須要知道每個物體的邊界,用我們自己訓練好的算法模型來預測結果。

3.2 語音識別領域

近年來,將語音翻譯為文字等功能如雨后春筍般涌現出來,那么語音識別的任務主要就是將一段由自然語言發音的一段語音,每一個頻率聲段對應上人類的每一個語音序列片段即可。而這一任務又會由很多不同的技術方向串聯而成,其中包括語音識別聲段及其頻率的選取,語音識別[15]聲段的特征提取,對應語音識別聲段和頻率的模式配對準則,以及對應語音聲段和漢字翻譯之間的訓練技術等。

一是語音識別聲段及其頻率的選取,由單詞識別,音節識別,音素識別等選取方法,具體使用哪種選取方法根據特定的情況來看,具體問題具體分析,其中單詞識別使用最廣泛也最實用,音節識別多用在像漢語這種音節較多且能大部分覆蓋所有漢字的情況下。

二是語音識別聲段的特征提取,意為對語音信號的各種信息進行處理,去除掉對分析頻率頻段沒用的信息,篩選出對我們有用的頻段,簡而言之就是對語音信息的一個壓縮再處理的過程。

最后就是語音識別聲段和頻率的模式配對還有訓練技術,該技術意為將不同頻率的頻段信號和我們所熟悉的文字一一搭配起來,工作量很大,但是由于漢字很多,所呈現出來的結果并不理想,所以正在逐步被人工神經網絡取代。

3.3 游戲領域

在近幾年來深度強化學習在游戲領域的應用越來越廣泛,甚至在某些領域超過了人類操作的極限,會更加精準,取得了長足的進步,比如現在深度強化學習已經應用到了棋類游戲,策略[16]游戲等,通過深度強化學習,我們能在每一步選擇的時候都做出最正確的抉擇,來適應未來游戲的發展走向,或者說棋類游戲預知對手所有可能的行動方式,讓我們勝利的概率大大增加。也正是因為深度強化學習在游戲領域如此的如魚得水,很多游戲或者軟件開發商甚至開放了關于自家游戲的深度強化學習的測試平臺來更好地對游戲性能進行更加精準的測試和分析,效率大大提升。

3.4 汽車智能駕駛領域

自動泊車,高速公路的定速巡航,以及發生事故前的自動避障[17]功能近些年來被越來越多的應用到最新的汽車上面,這些最先進的功能都是得益于深度強化學習和汽車領域的傳感器[18]等器件的高度結合,傳統的自動泊車都是基于昂貴的激光距離傳感器還有人工算法相結合出來的產物,但是人們自己設計出來的算法總會出錯出現誤差,那么在泊車時候的磕碰,在定速巡航[19]時的事故也是可能發生的,而且后果不堪設想,在深度強化學習取得長遠進步的今天,將該技術與汽車領域結合后,就具備了很強的自適應能力,能很好的判斷絕大多數可能出現的場景,擺脫了人工設計算法的最大弊端,所有的算法都是由數據進行決策,給智能駕駛領域帶來了一個全新的未來。

4 結語

本文主要介紹了深度強化學習的歷史發展進程,當代的主流算法以及如何實現的過程,以及深度強化學習在我們的日常生活中各式各樣的應用。深度強化學習在目前AI領域也是一個極其熱門的研究方向,隨著社會的進步和發展,智能系統越來越多地應用在了人們的日常生活中,深度強化學習在這場人與數據的演變中發揮著不可替代的作用,可以預見到的是,在未來,深度強化學習扮演的角色將會越來越重要。

參考文獻:

[1] 劉星,王文雙,趙建印,等.自適應在線增量ELM的故障診斷模型研究[J].系統工程與電子技術,2021,43(9):2678-2687.

[2] 夏茂森,江玲玲.基于深度網絡CNN-LSTM模型的中國消費者信心指數預測[J].統計與決策,2021,37(7):21-26.

[3] 陳銳,孫慶春.人工智能司法決策的合法性辨疑[J].西安交通大學學報(社會科學版),2021,41(3):123-130.

[4] 曾國敘,吳德偉,代傳金.NCC特征匹配的類腦視覺識別記憶算法[J].信號處理,2021,37(5):780-787.

[5] Suresh Kumar V,Krishnamoorthi C.Development of electrical transduction based wearable tactile sensors for human vital signs monitor:Fundamentals,methodologies and applications[J].Sensors and Actuators A:Physical,2021,321:112582.

[6] 黃浩,葛洪偉.強化類間區分的深度殘差表情識別網絡[J].計算機科學與探索, 2021:1-10.

[7] 程玉,鄭華,陳曉文,等.基于密集殘差注意力網絡的圖像超分辨率算法[J].計算機系統應用,2021,30(1):135-140.

[8] Banerjee S,Singh G K.Deep neural network based missing data prediction of electrocardiogram signal using multiagent reinforcement learning[J].Biomedical Signal Processing and Control,2021,67:102508.

[9] 高巍,羅俊仁,袁唯淋,等.面向對手建模的意圖識別方法綜述[J].網絡與信息安全學報,2021,7(4):86-100.

[10] Vainer J,Kukacka J.Nash Q-learning agents in Hotelling's model:Reestablishing equilibrium[J].Communications in Nonlinear Science and Numerical Simulation,2021,99:105805.

[11] 凌園果,徐卡婭,仇文進,等.鈣衛蛋白S100A8/A9在神經系統疾病中作用的研究進展[J].醫學綜述,2021,27(7):1278-1283.

[12] 王宇,李濤,邢立冬,等.OpenVX高效能并行可重構運算通路設計與實現[J/OL].計算機工程,2021:1-16.

[13] 趙宏,孔東一.圖像特征注意力與自適應注意力融合的圖像內容中文描述[J].計算機應用,2021,41(9):2496-2503.

[14] 董紹江,吳文亮,賀坤,等.基于性能衰退評估的軸承壽命狀態識別方法研究[J].振動與沖擊,2021,40(5):186-192,210.

[15] 陳聰,賀杰,陳佳.混合連接時間/注意力機制端到端語音識別[J].控制工程,2021,28(3):585-591.

[16] 趙小軍,陳建,井宇航,等.地鐵車輛基于受電弓供電的控制策略研究及應用[J].科技風,2021(9):197-198.

[17] 房啟志,張樹寧,徐嵩,等.小型智能機器魚系統研究與設計[J].電子器件,2021,44(1):197-202.

[18] 洪婉玲,趙春柳,徐睿,等.涂覆介孔型Pt/WO_(3)膜的光纖布喇格光柵氫氣傳感器[J].光通信技術,2021:1-7.

[19] Ma F W,Yang Y,Wang J W,et al.Eco-driving-based cooperative adaptive cruise control of connected vehicles platoon at signalized intersections[J].Transportation Research Part D:Transport and Environment,2021,92:102746.

【通聯編輯:朱寶貴】

猜你喜歡
深度學習人工智能
我校新增“人工智能”本科專業
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網絡的人臉年齡分析算法與實現
軟件工程(2016年8期)2016-10-25 15:47:34
主站蜘蛛池模板: 欧美福利在线播放| 98超碰在线观看| 精品国产美女福到在线不卡f| 亚洲欧美综合另类图片小说区| 国产丝袜91| 男女男精品视频| 国产精品久久国产精麻豆99网站| 黄色在线网| 在线日韩一区二区| 国产永久在线视频| 精品一区二区三区四区五区| 九九久久精品国产av片囯产区| 日本成人精品视频| www精品久久| 亚欧成人无码AV在线播放| 日本一本在线视频| 午夜视频www| 香蕉蕉亚亚洲aav综合| AV无码无在线观看免费| 小说区 亚洲 自拍 另类| 91九色视频网| 欧美国产视频| 亚洲丝袜第一页| 91免费国产在线观看尤物| 噜噜噜久久| 国产区人妖精品人妖精品视频| 精品国产自| 亚洲中文无码av永久伊人| 狠狠躁天天躁夜夜躁婷婷| 国产无人区一区二区三区| 中国国产高清免费AV片| 毛片a级毛片免费观看免下载| 国产白浆一区二区三区视频在线| 草逼视频国产| 国产成人精品综合| 国产91无码福利在线| 中文字幕1区2区| 亚洲日韩高清在线亚洲专区| 伊在人亚洲香蕉精品播放| 99这里只有精品6| 乱系列中文字幕在线视频| 国产成人高清精品免费5388| 精品99在线观看| 大香网伊人久久综合网2020| 精品久久777| 国产欧美综合在线观看第七页| 亚洲一区二区三区香蕉| 久久香蕉国产线看观| 国产在线一二三区| 制服丝袜一区| 99伊人精品| 久久亚洲美女精品国产精品| 黄色网站不卡无码| 中文字幕资源站| 理论片一区| 国产色婷婷| 99久久精品视香蕉蕉| 国语少妇高潮| 国产精品免费入口视频| 亚州AV秘 一区二区三区| 波多野结衣二区| 国产成人亚洲精品无码电影| 伊人91在线| www.91在线播放| 欧美一级99在线观看国产| 中文字幕久久亚洲一区| a欧美在线| 国产日韩欧美视频| 2048国产精品原创综合在线| 亚洲国产天堂在线观看| 国产男女免费完整版视频| 无码中文字幕精品推荐| AV不卡在线永久免费观看| 亚洲毛片一级带毛片基地| 国产手机在线观看| 欧美专区在线观看| 香蕉精品在线| 亚洲香蕉久久| 无码国内精品人妻少妇蜜桃视频| 99热这里只有精品久久免费| 中文字幕在线播放不卡| 欧美精品亚洲精品日韩专区|