一種用于工業機器人定位的局部優化控制與學習成本函數
最近的強化學習方法使得迭代線性二次高斯控制理論能夠處理未知動態下的高維度的機器人任務。這些算法基于通過與環境交互收集的數據構建動態的局部時變線性模型。在這樣的任務中,成本函數通常以狀態和控制變量的形式直接表示,以實現對其進行局部二次化運算。如果成本用其他變量表示,則另需要一個模型從所操作的變量中計算成本函數。
文中提出一種直接從數據中學習成本函數的方法,與動態相同。這樣,成本函數可以根據任何可測量的數量來定義,因此可以更好地選擇要執行的任務。使用文中的方法,可以使用任何傳感器信息來設計成本函數。文中通過使用V-REP軟件仿真展示了該方法的效率。實驗對具有不同特征的幾個工業機器人進行笛卡爾定位任務學習,其中機器人在聯合空間中被控制,且沒有提供模型。
將本文的結果與另一種免費模型進行比較,該技術包括將成本函數作為狀態變量編寫。盡管模擬驗證中所需的樣本數量可以被認為是很高的,我們希望強調已經在其他工作中存在并使用用于減少樣本數量和優化回歸的工具。本文的目的是說明在沒有任何系統的幾何模型的情況下,繪制一個成本函數用于所有可測量數據解決最佳控制問題是可以實現的。
刊名:IOP(英)
刊期:2017年1期
作者:Joris Guérin et al
編譯:張帥