基于改進Q－學習的導航知識獲取算法研究

2011-01-23 09:25:42鄭炳文

科學之友 2011年4期

關鍵詞：移動機器人動作優化

鄭炳文

（勝利油田海洋采油廠，山東東營 257000）

基于改進Q－學習的導航知識獲取算法研究

鄭炳文

（勝利油田海洋采油廠，山東東營 257000）

基本Q－學習算法總是利用當前最優策略進行動作的選取，這樣容易陷入局部最優。文章在模擬退火強化學習基礎上提出了基于探索區域擴張的Q－學習，加入原地探索策略，提高了找到目標的效率；引入了探索區域擴張策略，避免了初始時在整個環境中加入探索的盲目性，提高了學習效率；加入算法的自主學習結束條件，避免了找到最優路徑后的重復學習，節省了學習時間。仿真實驗驗證了算法的有效性。

強化學習；Q－學習；探索區域擴張；模擬退火；神經網絡

1 機器學習背景

移動機器人要在未知環境中安全、可靠地完成指定任務，除了應具有建模、定位、規劃、運動等基本能力外，還應能夠處理各種突發情況，逐漸適應環境，提高工作效率，這就要求其導航控制系統具有靈活性和適應性。近年來，機器學習已成為人工智能和機器人學的一個研究熱點，并且取得了不少突破性進展，其中包括神經網絡算法研究、模糊邏輯算法研究、進化學習算法應用研究、統計學習特別是支持向量機（Support Vector Machine，SVM）理論和算法研究、強化學習理論和算法研究等。上述機器學習理論和方法為復雜和未知環境中的信息提取、環境理解、任務規劃和行為決策提供了有效的解決途徑，應用機器學習方法來實現未知環境中移動機器人導航控制器的設計和優化，已成為近年來移動機器人導航控制技術的研究熱點。

2 機器學習在導航中的研究概況

隨著模糊邏輯方法和技術研究的進展，應用模糊邏輯方法實現移動機器人的導航成為一個研究熱點。在基于模糊邏輯的移動機器人導航方法中存在的另一個關鍵問題是參數的優化和對環境的自適應。雖然模糊規則的建立可以利用人類的語言知識，但仍然有許多參數需要調整和優化，才能獲得滿意的效果，而且一旦環境發生改變，模糊控制器往往缺乏自適應和自學習的能力。

神經網絡作為人工智能和機器學習研究的一個熱點，已成功地應用于模式識別、自適應控制、系統辨識等領域。神經網絡具有良好的非線性函數逼近能力和容錯能力，且能夠實現自適應和學習。基于神經網絡的導航方法采用了神經網絡的無監督學習或監督學習方法，其中無監督學習方法僅能夠實現對環境特征的自組織分類和識別，難以實現行為選擇的優化，而監督學習方法則要求構造各種條件下的教師信號，因此缺乏對未知和快速變化環境的自適應能力。

進化計算是模擬自然界生物進化過程的一種計算智能方法，目前已在算法和理論上取得了大量的研究成果，并成功地應用于組合優化、自適應控制、規劃設計、機器學習和人工生命等領域。利用進化計算方法雖然可以實現移動機器人導航控制器對環境的自適應和優化，但存在計算時間長、學習效率不高的缺點。

2.1 ε－greedy 策略

如果ka＝0，就定義Qt（a）為默認值，如Q0（a）＝0，當ka→∞時，Qt（a）一定收斂于Q*（a）。因為每次估計是相關回報抽樣的簡單的平均，因此稱此估計動作值的方法為抽樣平均法。這只是估計動作值的一種方法，不一定是最好的，下面討論怎樣用此估計來選擇動作。

2.2 Boltzmann分布

這里T為溫度參數。溫度高時，所有動作概率接近相等。溫度低時，動作選擇概率由于它們的估計值的不同而存在很大不同。當溫度趨近于0時，軟最大化動作選擇變為貪婪動作選擇。

2.3 基于Metropolis規則的Q－學習算法

模擬退火算法是求解組合優化問題的有效近似算法，它是對固體退火過程的模擬。該算法是局部搜索算法的一種擴展，解決優化解陷入局部最小的情形，其核心是Metropolis準則。模擬退火算法不是完全拒絕惡化解，因此，能夠跳出局部最優，避免陷入局部搜索。

3 實驗及結果分析

3.1 實驗環境描述

實驗環境為一個20×20的柵格世界，每個柵格代表智能體的一種狀態。S為智能體的初始點，T為目標點，黑色區域為障礙物。環境中的障礙物和目標都是靜態的，對于智能體而言，環境（即障礙物、邊界以及目標的位置）是未知的。以智能體為中心的二維空間內平均分布8個運動方向，代表它的8個可選動作。立即回報 r為｛－100，100，0｝，對應條件為｛碰到障礙物，到達目標，其他｝。

3.2 實驗結果分析

比較了3種算法的綜合指標，可以看出，環境越復雜，ERE－Q－learning算法的優勢越明顯。

表1 搜索路徑總長度的降低率比較

4 結束語

通過討論 Q－學習算法中探索與利用之間的平衡問題，首先介紹了平衡探索和利用的各種算法，然后分析了這些算法的不足之處，最后在基于Metropolis準則的Q－學習的基礎上，提出了基于探索區域擴張的 Q－學習算法。此算法加入原地探索策略，提高了找到目標的效率；引入了探索區域擴張策略，避免了初始時在整個環境中加入探索的盲目性，提高了學習效率；加入算法的自主學習結束條件，避免了找到最優路徑后的重復學習，節省了學習時間，而且環境越復雜，越能體現該算法的優越性。該算法的折算率、降溫率和最大限制步數還有必要進一步優化，以使算法具有更好的適應性。

Based on Improves the Q－study the Guidance Knowledge Gain Algorithm Research

Zheng Bingwen

The basic Q－learning algorithm always uses the current most superior strategy to carry on the movement the selection, such easy to fall into is partially most superior.Article proposed in the simulation annealing strengthening study foundation based on explores the Q－study which the region expands, joins in－situ exploration strategy, enhanced has found the goal the efficiency; Introduced has explored the region expansion strategy, has avoided initial when joined the exploration in the entire environment blindness, enhanced the study efficiency;Joined the algorithm the independent study termination condition, after having avoided found the optimal choice the redundant study, has saved study time.The simulation experiment has confirmed the algorithm validity.

strengthened study; Q－study; explores the region expansion; simulation annealing; neural network

TP242

1000－8136（2011）06－0141－02