999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的智能機器人避碰方法研究

2013-12-31 00:00:00周鵬程
消費電子·下半月 2013年9期

摘 要:智能計算機面臨的環境是動態并且未知不可確定的狀態。傳統的機器人是通過人類事先設定好的規則和途徑完成行為動作,主要由人類控制操作,而智能機器人則是通過自身的學習來完成的行為動作,減少了大量人類干預的問題。本文簡介了有關智能機器人的發展背景以及當代智能機器人一些主要的自主學習方法。重點介紹了智能機器人自主學習方法中強化學習方法的基本概念和操作原理,闡述了智能機器人強化學習的系統計算方法,并且通過這種計算方法實現智能機器人避碰的仿真過程。

關鍵詞:智能機器人;強化學習;避碰方法

中圖分類號:TP242.6 文獻標識碼:A 文章編號:1674-7712 (2013) 18-0000-01

如今,日新月異的科技產品琳瑯滿目的呈現在大眾的視野之中,電子、通訊、計算機、人工智能、傳感、控制等各種高科技術的展現已經讓人們領略到世界的奇妙,生活也變得更加方便快捷。而現在機器人的技術也在不斷開發和應用之中,要制造出可以跟人一樣自由活動的智能機器人是現階段研究學者的重要課題。目前,智能機器人有幾種方法可以實現自主行為,例如:基于行為的方法、強化學習方法、進化算法等。而在智能機器人研究課題中通常選擇經典而又有代表性的典型任務對其研究分析,如避碰問題、導航任務、覓食任務等等。本文主要從強化學習方法來探究智能機器人實現避碰行為的仿真過程,并對基于強化學習的智能機器人避碰仿真過程進行詳細的闡述。

一、智能機器人的發展簡介

機器人學科是一門綜合性很強的學科,它的發展很大程度上可以反映一個國家高科技水平的狀態。目前,許多國家都在機器人研究領域上投入大量的人力、物力和財力,機器人的制造可以代替人類很多重要的做業,例如:水下機器人可以幫助人類水下活動做業、服務機器人可以為人類提供生活服務和軍用機器人可以在國家軍事方面有所幫助等。機器人從50年代開始制造到現階段,機器人的發展主要經歷了三個發展時期[1]。

第一代機器人是以示教在現的方式完成工作。示教再現的方式就是操作員“手把手”將各種做業的操作過程或者與計算機的編程相結合的方式給機器人演示,這種機器人裝有記憶存儲卡,它能記住操作員的操作過程和操作要領,當機器人再次接受到相同指令的時候,機器人就會模仿操作員的行為完成做業過程。

第二代機器人是通過感覺來完成做業過程。這種機器人裝有感覺裝置,能感知操作員的簡單信息以及做業環境,通過計算機的處理,可以做出一些簡單的分析推理。它們對自己的行為會進行反饋處理,能表現出低級智能,它比第一代機器人的制造要顯得更加靈活,更能適應環境。

第三代機器人就是智能機器人了。智能機器人比前兩種機器人要優越很多,它有多種感知能力,對外部的環境可以感知、提取、處理并可以做出快速的決策。它還可以在一定的環境中單獨完成某種做業。

智能機器人是目前主要繼續深入研究的高科技對象,它適應環境的能力以及技能的提升等問題還有待繼續發展探究,世界各國都希望可以研發出更多技能的智能機器人來代替人工各種做業的完成。

二、智能機器人強化學習的定義和原理

目前,在國際上對智能機器人的行為學習已經提出了幾種不同的理論以及方法研究。例如:提出基于行為方法學習(Behavior-based Robotices)的機器人Brooks、強化學習方法(Reinforcement Learning)以及遺傳算法(Evolutionary Algorithms)等學習方法。要了解強化學習方法能使智能機器人產生自主行為的仿真過程,先要了解強化學習方法的概念以及原理。

強化學習(Reinforcement Learning)是可以使智能機器人自主學習的方法。它指智能機器人在實際的環境工作中,根據外部的環境選擇自己所需的動作,然后執行該工作,根據動作的結果來對該動作進行評價,利用評價的結果來學習自己的行為規則的過程[2]。強化學習就是把學習當作是一種試探評價以及自我修正的過程,這種過程好比于人類試錯,當人們在很多種情況下不知道怎樣操作是最好的時候,就選擇一種操作方法,通過自己操作完后的好壞評價來自我修改的行為以達到最好的行為效果,從這種過程中來達到自我學習的目的,如圖1所示。

圖1 強化學習原理圖

Agent發出動作A給環境,環境接受到這個動作之后發生了狀態S的變化并且發出了強化信號r,強化信號r是一個成功或者失敗的反饋信息,這個反饋信息傳遞給Agent,當強化信號r趨向于成功反饋信息的時候,Agent才會根據這種成功反饋信息和當前的的狀態再選擇做下一下動作,然而選擇的動作會立刻影響強化值,而且還會影響下一動作的狀態和最終強化值。強化學習中Agent發出的動作給環境所產生的強化信號r只是一種成功與失敗的評價標準,而并不是直接告訴Agent正確的動作,由于外部環境給Agent的信號單一,所以Agent需要通過不斷的動作反應給環境,環境又將反饋強化信號r傳給Agent以判定動作的正確,通過反復操作判定成功與失敗來不斷修正自己的動作,從這種不斷地修復中學習一系列正確的動作行為,從而達到適應環境的目的。

三、強化學習系統的計算方法

強化學習系統的計算方法是一種動態的調整參數,以此來實現強化信號的最大。若已知動作A和強化信號的梯度信息,那么Agent就可以使用監督學習的算法,但是因為動作A和強化信號無法得到相關函數表現形式,所以動作A和強化信號的梯度信息無法得到。如果采取某種隨機單元,而這種機單元可以使Agent在動作空間中搜索并且可以產生正確的行為動作,那么這種強化學習系統就可以使Agent自主學習了。

機器人強化學習系統操作方法可以如圖2所示,由圖可知:

圖2 強化學習系統

ASE(The Associative Search Element)可以看作是網絡或者自聯想搜索原件,ACE(The Adaptive Critic Element)則可以看作是評價網絡或者自適應評價元件。

作用網絡ASE通過強化學習的方法而產生一個作用函數,這種系統在當前的狀態下表現為控制作用。但是在強化學習的過程中,ASE對權值wi的調整是除了基于輸入狀態的加權還有隨機動作的產生,所以,強化學習系統學習過程不能依賴權值決定系統做出的行為動作,強化學習系統的動作也不能完全當作是輸入狀態[3]。

評價網絡ACE是強化學習中用來評價行為動作正確而產生的一個作用函數,這種系統在當前的表現狀態為評價狀態。評價網絡輸出的信號為評價信號,它是強化系統中每一個動作被控制后,強化學習系統會根據原先系統狀態的報告以及現在狀態的一種調整信號。也就是說,當強化學習系統從一種動作的產生到另一種動作的產生,ACE輸出的信號就可以對原先的那個動作做出成功與失敗的評價。如果評價的信號顯示增強,那么這說明強化學習系統給出一個成功的反饋信息,原先的那個動作是正確的;如果評價信號顯示微弱,那么這說明強化體統給出的一個失敗的反饋信息,原先的那個動作時錯誤的,那么強化學習系統就要調整新的狀態來師評價信號變強,使錯誤的動作慢慢趨向于正確的動作[4]。

圖中解碼器的作用則是把外界環境的信息轉換成強化學習系統中內部的作用函數xi(其中i=1,2,3.....n),當強化學習系統為動作i時,xi=1,xj=0,(j=1,2,3...n,j≠i),而把機器人評價信號中的失敗信號標記為r,用來反映強化學習系統好壞的反饋信息,當機器人動作失敗時r=-1,反之,當機器人的動作是成功信息時,r=0。

四、智能機器人強化學習后實現避碰仿真過程

為了探究智能機器人運用強化系統學習之后的作用效果,通常選擇典型而又具有代表性的避碰反映強化學習之后的智能機器人是否可以很好的完成自主學習的任務。智能機器人實現避碰的檢測標準就是智能機器人通過在有障礙物的環境中可以躲避障礙物,尋找到一條從起始到結尾無碰撞的途徑。

假定一長度為L,寬度為W的的桿狀機器人,運動軌跡為平移和旋轉兩種相結合的運動方式。若該機器人是以勻速運動的方式平移,其躲避障礙物的方法為左旋轉或者右旋轉。通過將智能機器人的傳感器在這條途徑中從近到遠分為不同的等級,而傳感器根據劃分的不同等級來說明智能機器人所處在不同的特定狀態,以此來控制智能機器人不同的動作。例如,一個智能機器人有四個聲吶,而每個聲吶有4種等級,將這4種等級分別標為00、01、10、11,那么可以將這四種等級對應這四種符號的表示結果為:δ-L/4對應“00”;L/4-L/2對應“01;L/2-3L/4對應“10”;3L/4~L對應“11”,從此可以看出這4個等級組成44=256種狀態xi(i=1,2,3...256),其中設定δ為最小安全距離。

在這條有障礙的途徑中,如果智能機器人在通過障礙物的時候障礙物與機器人之間的距離小于δ的時候,那么說明機器人避碰失敗,如果機器人與障礙物之間的距離大于L,則說明機器人避碰成功,機器人可以通過左右旋轉達到向前移動的目的。對于機器人在δ-L的范圍內的避碰過程可以描述如下:

Step1:根據機器人配置的傳感器與障礙物之間的距離遠近,可以反應出機器人所處的不同狀態[5]。

(1)當智能機器人距離障礙物大于L時,機器人可以跨出一步長并且旋轉好方向,向終點走去。

(2)當智能機器人距離障礙物小于最小安全距離δ時,則說明機器人撞到障礙物,避碰失敗,這時,機器人配置中的ASE網絡發出一失敗的強化信號r=-1,這時候機器人的會重新初始化,并且回到原來的起始點,機器人會保留原來失敗狀態的ASE的權值再退回原來的狀態,繼續嘗試下一步的操作。

(3)當機器人距離障礙物的距離在δ-L之間的時候,智能機器人則返回一個成功的強化信號r=0,這時候,機器人將會轉為下一個步驟的操作中。

Step2:根據智能機器人配置的4個不同聲吶,確定目前唯一可行的狀態xi=1,其他的狀態xj=0(j=1,2,3...n;j≠i)。

Step3:智能機器人會根據網絡元件ASE的狀態變量隨權值wi的變化而變化,而此時ACE網絡原件則會輸出的評價信號y值,根據y值的變化,智能機器人選擇左旋轉或者是右旋轉,從而轉至為Step1。

智能機器人通過以上步驟的反復演練,直到ACE網絡狀態隨著權值的穩定而穩定,這時候機器人就可以避開障礙物,完成這條從開始到結尾有障礙物的途徑。

經過采用以上強化學習的避碰方法,分別在寬松條件下和密集條件下對智能機器人進行避碰實驗,從實驗中得出智能機器人可以順利避開障礙物,完成這兩條具有障礙物的途徑,實現無避碰操作。對這兩條寬松障礙物和密集障礙物條的兩條途徑示并完成避碰實驗仿真意圖如下圖3所示:

圖3 強化學習后智能機器人避碰仿真示意圖

五、結束語

在當代,智能機器人具備更多適應環境的能力以及技能的學習依然是研究者研究機器人技術的重心。本文主要通過以智能機器人強化學習避碰的實驗現象,反映出智能機器人可以通過自主的學習完成行為操作,并沒有人類干預,而傳統機器人主要依靠人類對機器人設定大量的規則和路徑,機器人按照人類已經設定好的程序和規則運動,那么這樣傳統機器人就需要耗費人類大量的精力和物力,需要人類大量干預,如果機器人面臨更加復雜多變的環境,那么人類去幫助完成機器人的行為操作顯得十分困難。在本次避碰實驗中,智能機器人通過強化學習,不斷的修正自己的錯誤以完成正確的操作,這種現象可以被理解為智能機器人剛開始學習的時候,由于學習經驗的不足導致經常犯錯,通過不斷完善自己而達到正確的行為。避碰仿真實驗猶如人類本身的學習機制,這種基于強化學習的智能機器人通過自身的學習提升了適應動態并且復雜多變的環境的能力,也避免了人類花費大量的時間去安排規則和途徑的困難。在未來,通過研究者的深入研究,智能機器人的技能學習將會更加完善。

參考文獻:

[1]張汝波,周寧,顧國昌.基于強化學習的智能機器人避碰方法研究[J].機器人,2013,12(03):45-50.

[2]孫羽,張英夫,張汝波.智能機器人避碰行為學習方法研究[J].計算機工程與應用,2011,13(09):132-134.

[3]邢高峰.淺談智能機器人避碰行為的學習方法[J].電腦知識與技術(學術交流),2010,15(12):829-837.

[4]段勇,陳騰峰.基于強化學習的多機器人避碰算法研究[J].信息技術,2012,06(10):100-103.

[5]張汝波,顧國昌,劉照德.強化學習理論、算法及應用[J].控制理論與應用,2011,05(02):637-642.

主站蜘蛛池模板: 久久青草热| 国产精品天干天干在线观看| 免费福利视频网站| 97人人模人人爽人人喊小说| 为你提供最新久久精品久久综合| 老熟妇喷水一区二区三区| 欧美日韩综合网| 免费毛片a| 久青草免费视频| 亚洲男人的天堂在线| 色哟哟色院91精品网站| 亚洲AV无码久久精品色欲| 久久久久久久97| 欧美午夜视频| 国产一级毛片yw| 国产爽妇精品| 91成人在线免费观看| 日韩专区第一页| 尤物在线观看乱码| 国产玖玖玖精品视频| 国产00高中生在线播放| 国产在线视频欧美亚综合| 一本大道东京热无码av | 久久黄色免费电影| 国产成人综合在线观看| 亚洲男人的天堂久久精品| 老司机aⅴ在线精品导航| 香蕉eeww99国产在线观看| 中文字幕av一区二区三区欲色| 欧美日本在线观看| 亚洲首页在线观看| 欧美成人免费一区在线播放| 国产草草影院18成年视频| 中文精品久久久久国产网址| 午夜少妇精品视频小电影| 日本不卡视频在线| 亚洲高清在线播放| 不卡午夜视频| 九九九精品视频| 亚洲乱码精品久久久久..| 欧美一区日韩一区中文字幕页| 亚洲另类第一页| 亚洲女同欧美在线| 久久精品人人做人人爽97| 婷婷伊人久久| 先锋资源久久| 超碰精品无码一区二区| 国产一区二区丝袜高跟鞋| 久无码久无码av无码| 伊人色综合久久天天| 婷婷99视频精品全部在线观看| 天天色综合4| 国产亚洲一区二区三区在线| 国产成人午夜福利免费无码r| 东京热一区二区三区无码视频| 亚洲AⅤ永久无码精品毛片| 亚洲色图在线观看| 亚洲天堂精品在线| 九一九色国产| 亚洲天堂精品视频| 久久黄色视频影| 成人在线不卡| 国产尤物在线播放| 日韩无码视频专区| 亚洲开心婷婷中文字幕| 2020国产免费久久精品99| 国产真实二区一区在线亚洲| 精品一區二區久久久久久久網站| 亚洲人成色在线观看| 99精品在线视频观看| 97在线视频免费观看| 免费啪啪网址| 嫩草影院在线观看精品视频| 香蕉国产精品视频| 免费国产好深啊好涨好硬视频| 久久这里只有精品国产99| 国产色爱av资源综合区| 免费毛片视频| 国产成人精品男人的天堂| 色婷婷亚洲综合五月| 激情综合网激情综合| 亚洲无码高清一区二区|