999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

強化學習成為人工智能的主流

2019-03-25 07:10:58JamesKobielusCharles
計算機世界 2019年7期
關鍵詞:人工智能環境模型

James Kobielus Charles

人工智能即將成為主流的革命性技術,而開發人員現在已擁有了可以開始使用這種技術的工具。

2018年人工智能領域最值得關注的趨勢之一,就是強化學習的逐漸成熟,已成為構建和訓練統計模型以投入實際使用的主流方法。

正如我在2018年年初時所談到的,強化學習在企業人工智能項目中扮演著越來越重要的角色。該技術已經突破了傳統的機器人、游戲和仿真應用領域,在IT運營管理、能源、醫療保健、商業、運輸和金融等領域的前沿人工智能應用中也大展身手。它甚至成為社交媒體、自然語言處理、機器翻譯、計算機視覺、數字助理等新一代人工智能解決方案不可或缺的組成部分。

為了加強強化學習算法在企業人工智能中的應用,開發人員需要用到在這些項目上進行協作以及將得到的模型部署到生產環境中的工具。在這方面,業界最近出現了一些重要的應用案例說明,提供給強化學習人工智能計劃的開源工作臺、庫和Devops流水線已經成熟。

迭代強化學習開發工作臺

不斷發展的強化學習正悄悄地滲透到我們的生活中——通過我們認為理所當然的主流應用(比如多人在線游戲),或者通過非常前衛的應用(比如機器人),以至于我們甚至意識不到該技術正在悄悄地滲透到主流中。強化學習代理已經達到了能夠像超人那樣玩游戲,例如開放人工智能五子棋比賽。

開發人員可以利用越來越多的開源強化學習框架來進行游戲和機器人開發,這包括OpenAI的Roboschool、Unity技術公司的機器學習代理,以及英特爾的Nervana教練。還可以使用能夠應對各種挑戰的開源強化學習框架。例如,谷歌的TensorFlow代理支持高效的分批強化學習工作流,UC Berkeley的Ray RLLib提供了一個靈活的基于任務的編程模型,用于在TensorFlow和PyTorch中開發基于代理的強化學習應用程序。

很多人工智能開發人員的建模工具包所缺少的是一個快速的迭代強化學習工作臺,它集成了現有的人工智能框架,并且能解決很多建模和訓練難題。對此,谷歌最近發布了Dopamine,這是一個基于TensorFlow的框架和代碼庫,用于在Python 2.7中快速迭代強化學習算法原型。Dopamine在GitHub的“最酷開源項目”內部排名中名列前茅,它支持以下核心功能:

● 根據新的研究思路來開發強化學習實驗:Dopamine包括緊湊的、詳細說明的Python代碼,其重點放在Arcade學習環境(一種成熟而且容易理解的基準方法)上,以及在單個GPU環境中執行的四個基于價值的代理:Deep Q-Networks(DQN)、C51、一個精心設計的Rainbow代理的簡化版本,以及Implicit Quantile網絡代理。

● 從強化學習實驗中獲得可再現的結果:Dopamine包括完整的測試套件,并且為利用Arcade學習環境實現了標準的經驗框架。

● 根據已建立的訓練方法對強化學習結果進行基準測試:Dopamine包括由Arcade學習環境支持的、在60個游戲中所提供的4個代理的所有訓練數據,可作為使用我們的框架所訓練的代理的Python文件,也可以作為JSON數據文件,以便與其他框架下訓練過的代理進行比較,還包括一個網站,用于為所有提供的代理在所有60個游戲中進行可視化訓練。

● 為強化學習開發團隊使用框架時提供加速器:Dopamine包括一組colabs,闡明怎樣在框架中創建和訓練強化學習代理,以及怎樣進行基準測試。它還包括可下載的訓練深度網絡、原始統計日志和用于Tensorboard繪圖的Tensorflow事件文件。

模塊化強化學習代理開發庫

強化學習的進展依賴于構建能夠在各種真實場景中自主采取最佳行動的智能代理。

人工智能研究人員正在不斷推動智能和分布式代理(由訓練過的強化學習模型提供支持)的發展。例如,UC Berkeley最近發表了關于分布式代理環境中加速循環迭代強化學習的研究結果。這涉及到一次訓練一個代理模塊,而其他代理模塊遵循簡單的腳本行為,然后環境“用神經網絡策略替換另一個模塊的腳本組件,在先前訓練過的模塊保持不變的情況下繼續訓練。”

為了加速強化學習優化智能人工智能機器人的開發,谷歌的DeepMind小組最近開源了TRFL,它是用于在TensorFlow中開發強化學習代理的一個新構件庫。它包括算法、損失函數和其他強化學習操作,DeepMind的研究工程團隊已經在內部成功地將其應用于強化學習代理(例如,DQN、深層確定性策略梯度(DDPG)和重要性加權參與者學習器體系結構)。使用一致的API,這些構建模塊可以用來構建新的強化學習代理。

DeepMind還開源了完整的強化學習代理實現,包括表示價值和策略的深度網絡計算圖等組件,以及環境的學習模型、偽獎勵函數和重放系統等。這樣做是為了幫助強化學習社區更快地識別和修復這些代理中的漏洞,同時提高使用這些代理的強化學習項目在社區中的結果可再現性。DeepMind將繼續維護、添加新功能,并接收社區對TRFL庫的貢獻。

端到端強化學習Devops流水線工具

強化學習建模通常是脫離生產應用完成的,只有經過訓練的模型在模擬器中經過驗證后才被提供給操作環境。

隨著強化學習成為更多人工智能應用的基礎,建模框架應不斷發展才能處理更多的實時在線應用的內嵌訓練。與其他人工智能方法一樣,越來越多的強化學習項目集成到了驅動數據準備、建模、訓練和其他流水線工作負載的Devops流水線中。

考慮到這一點,臉書最近開源編輯了強化學習工具包Horizon,它被設計為部署到人工智能Devops流水線中。可以通過GitHub下載開源Horizon代碼。Horizon結合了強化學習技術,臉書一直在運營中使用該技術開發可擴展的生產應用程序。例如,這一社交媒體巨頭將強化學習用于生產人工智能應用程序,預測用戶最可能對哪些通知作出響應,個性化臉書的虛擬消息助理的建議,以及根據用戶的位置或者他們的無線信號強度來決定要傳輸給用戶的視頻質量等級。

Horizon是一個端到端的流水線,用于以強化學習為中心的人工智能項目,這些項目的數據集非常龐大,來自目標應用程序的反饋循環很慢,并且由于涉及到生產應用程序,因此強化學習實驗失敗的商業風險很高。它支持在高維離散和連續動作空間中的強化學習建模。它包括離散動作空間具有競爭結構的DQN的實現,以及連續動作空間DDPG的實現。它包含自動化工作流程,用于在多GPU分布式環境中訓練流行的深度強化學習算法,以及用于在單機上進行CPU、GPU和多GPU訓練。它包括用于數據預處理、特征規范化、分布式訓練和優化服務的實用工具。

為滿足臉書的規模要求,Horizon被設計成支持強化學習建模和應用程序訓練,其數據集可能具有數百甚至數千種特征類型,每一特征類型都具有獨特的統計分布。它使用Spark進行數據準備和降維,使用PyTorch框架進行強化學習建模和訓練,使用Caffe2人工智能框架和開放神經網絡交換(Open Neural Network Exchange)進行強化學習建模,以便應用于數千種生產環境中。

為了減少將次優強化學習模型部署到生產應用程序中的風險,Horizon采用了一種稱為“反事實策略評估”的功能,該功能支持數據科學家在部署經過訓練的模型之前離線評估強化學習算法的性能。如果沒有這種自動化功能,開發人員需要進行昂貴而且耗時的A/B測試,才能在無數的選擇中搜索出最優強化學習模型和超參數。在強化學習訓練工作流程中,Horizon使用逐步重要抽樣估計器、逐步直接抽樣估計器、逐步雙穩健估計器和順序雙穩健估計器等反事實策略評估方法對訓練過的模型進行評分。

為了支持對強化學習算法的性能進行測試,臉書已經將Horizon與流行的基準測試庫OpenAI Gym的Cartpole和Pendulum環境以及定制的Gridworld環境集成在一起。Horizon包括用于對數據預處理、特征規范化和其他Horizon強化學習建模、訓練和服務特性進行單元、集成和性能測試的工具。它評估具有不同配置的離散動作DQN、參數動作DQN和DDPG模型——例如使用Q學習與SARSA進行對比,有或者沒有雙重Q學習等,以確保強化學習模型的魯棒性和正確性。它對目標平臺的預構建Docker鏡像執行集成測試。

可以采用這些工具來開始實際操作學習

如果你是人工智能開發人員,可能對這里列出的很多算法還不太熟悉。然而,你可能已經開始將強化學習引入到了開發項目中,至少嘗試使用了開源工具。

2019年,我們將看到,人工智能行業會把應用最廣泛的強化學習框架整合到工作臺中。隨著卷積和循環神經網絡在有監督學習環境下的應用,主流開發人員將更加熟悉這些技術。

不久之后,大多數人工智能開發工作流程將無縫地把強化學習與有監督和無監督學習結合在一起,為生產企業應用中更復雜的嵌入式智能提供支持。

James Kobielus是SiliconAngle Wikibon的人工智能、數據科學以及應用程序開發首席分析師。

猜你喜歡
人工智能環境模型
一半模型
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
孕期遠離容易致畸的環境
環境
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
主站蜘蛛池模板: 精品无码日韩国产不卡av| 91福利一区二区三区| 又粗又硬又大又爽免费视频播放| 欧美爱爱网| 91视频首页| 亚洲美女久久| 日韩不卡高清视频| 日韩精品亚洲人旧成在线| 国产主播喷水| 高清久久精品亚洲日韩Av| 成人在线观看一区| 综合人妻久久一区二区精品| 国产福利免费在线观看| 最新亚洲人成网站在线观看| 国产激情无码一区二区免费| 亚洲国产成人精品无码区性色| 亚洲精品波多野结衣| AV片亚洲国产男人的天堂| 国产交换配偶在线视频| 丰满的少妇人妻无码区| 国产又黄又硬又粗| 亚洲色欲色欲www在线观看| 午夜爽爽视频| 亚洲欧美激情另类| 婷婷色一区二区三区| 91伊人国产| 精品视频一区二区观看| 国产精品专区第1页| 亚洲综合专区| 欧美日韩国产高清一区二区三区| 亚洲一区国色天香| 国产一级在线播放| 亚洲人成成无码网WWW| Jizz国产色系免费| 91丝袜乱伦| 国产在线自乱拍播放| 人妻无码AⅤ中文字| 亚洲精品第一页不卡| 久久久无码人妻精品无码| 精品国产一区二区三区在线观看| 丁香五月亚洲综合在线| 精品国产香蕉伊思人在线| 欧美中文字幕无线码视频| 91精品国产福利| 一级高清毛片免费a级高清毛片| 亚洲一区二区成人| 456亚洲人成高清在线| 91精品国产91久久久久久三级| 国产91高跟丝袜| 都市激情亚洲综合久久| 色吊丝av中文字幕| 九九热视频在线免费观看| 91麻豆精品国产高清在线| 亚洲乱强伦| 国产毛片不卡| 91亚洲视频下载| 国产精品区视频中文字幕| 国产成人夜色91| 精品国产福利在线| 在线免费亚洲无码视频| 国产一线在线| 青青青草国产| 欧美一级片在线| 国产美女叼嘿视频免费看| 在线精品亚洲一区二区古装| 亚洲日本韩在线观看| 欧美中文字幕一区二区三区| 国产精品视频观看裸模| 亚洲国产理论片在线播放| 最新痴汉在线无码AV| 性69交片免费看| 特级精品毛片免费观看| 91久久精品日日躁夜夜躁欧美| 国产精品嫩草影院av| 中字无码av在线电影| 亚洲日韩在线满18点击进入| 久久亚洲精少妇毛片午夜无码| 亚洲日本中文字幕天堂网| 亚洲高清中文字幕| 91无码视频在线观看| 精品無碼一區在線觀看 | 国产精品亚洲va在线观看|