馬澤倫,袁 亮,2*,肖文東,何 麗
(1.新疆大學(xué)機械工程學(xué)院,烏魯木齊 830047;2.北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100029)
路徑規(guī)劃是移動機器人的重要研究方向,它在一定程度上反映了移動機器人的智能水平。移動機器人的導(dǎo)航已經(jīng)廣泛應(yīng)用于工業(yè)、農(nóng)業(yè)、服務(wù)等領(lǐng)域[1]。在移動之前進行路徑規(guī)劃,可以提高移動機器人的精度和效率[2]。路徑規(guī)劃的目的是根據(jù)評估標(biāo)準(zhǔn),幫助移動機器人獲得從初始點到目標(biāo)點所需的運動路徑[3]。并且機器人在這條路徑上運動時不會相互碰撞,同時也會嘗試優(yōu)化路徑[4]。當(dāng)移動機器人完成各種任務(wù)時,還必須能夠處理各種突發(fā)事件[5]。
路徑規(guī)劃算法有蟻群算法、粒子群優(yōu)化算法和遺傳算法[6-8],使用上述算法進行路徑必須事先知道完整的環(huán)境信息[9],而強化學(xué)習(xí)不同,其學(xué)習(xí)過程是動態(tài)的,是不斷與環(huán)境相互作用的,故使用強化學(xué)習(xí)進行路徑規(guī)劃不需要事先知道完整的環(huán)境信息。因此,強化學(xué)習(xí)涉及許多對象,如動作、環(huán)境、狀態(tài)轉(zhuǎn)移概率和獎勵函數(shù)。強化學(xué)習(xí)中最廣為人知的算法是時間差分(TD)算法[10]。時間差分算法在動態(tài)規(guī)劃中借鑒了自舉法,在實驗結(jié)束前估計出值函數(shù),以加快學(xué)習(xí)速度,提高學(xué)習(xí)效率。TD 算法主要包括異策略的Q 學(xué)習(xí)和同策略的Sarsa 算法[4]。
2017 年,SHARMA A 等提出了一種利用Q學(xué)習(xí)算法的多機器人路徑規(guī)劃協(xié)作方法[11]。在Holonic 多智能體系統(tǒng)上,對原有的Q 值表進行改進,添加協(xié)同更新策略,使環(huán)境中的機器人可以通過自身經(jīng)驗學(xué)習(xí),同時也可以學(xué)習(xí)其他機器人的經(jīng)驗。……