RL 算法(強(qiáng)化學(xué)習(xí))通常假設(shè)在獲取觀測(cè)值、計(jì)算動(dòng)作并執(zhí)行期間環(huán)境狀態(tài)不發(fā)生變化。這一假設(shè)在仿真環(huán)境中很容易實(shí)現(xiàn),然而在真實(shí)機(jī)器人控制當(dāng)中并不成立,很可能導(dǎo)致控制策略運(yùn)行緩慢甚至失效。為緩解以上問題,最近谷歌大腦與 UC 伯克利、X 實(shí)驗(yàn)室共同提出一種并發(fā) RL 算法,使機(jī)器人能夠像人一樣“邊做邊思考”。目前,該論文已被 ICLR 2020 接收。
該研究在如下情況中研究強(qiáng)化學(xué)習(xí):在受控系統(tǒng)隨著時(shí)間演變的過程中同時(shí)對(duì)動(dòng)作進(jìn)行采樣。換句話說,所研究的機(jī)器人必須在執(zhí)行上一個(gè)動(dòng)作的同時(shí)考慮下一個(gè)動(dòng)作。就如同人或動(dòng)物一樣,機(jī)器人必須同時(shí)思考及行動(dòng),在上一個(gè)動(dòng)作完成之前決定下一個(gè)動(dòng)作。

研究者分別在仿真與真實(shí)機(jī)械臂上進(jìn)行實(shí)驗(yàn)
為了開發(fā)用于此類并發(fā)性控制問題的算法框架,研究者從連續(xù)時(shí)間的貝爾曼方程開始,隨后以考慮系統(tǒng)延遲的方式進(jìn)行離散化。通過對(duì)現(xiàn)有基于價(jià)值(value-based)的深度強(qiáng)化學(xué)習(xí)算法進(jìn)行簡(jiǎn)單的架構(gòu)擴(kuò)展,該團(tuán)隊(duì)提出了一類新型近似動(dòng)態(tài)規(guī)劃方法,并在模擬基準(zhǔn)任務(wù)和大規(guī)模機(jī)器人抓取任務(wù)上進(jìn)行了評(píng)估(機(jī)器人必須邊走邊思考)。