999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動態系統的機器人模仿學習方法研究

2019-11-09 03:42:46于建均姚紅柯左國玉阮曉鋼安碩
智能系統學報 2019年5期
關鍵詞:實驗模型系統

于建均,姚紅柯,左國玉,阮曉鋼,安碩

(1. 北京工業大學 信息學部,北京 100124; 2. 北京工業大學 計算智能與智能系統北京市重點實驗室,北京100124)

目前,在機器人技術的研究中,如何使機器人具備類似于人類的智能行為已成為一大研究熱點[1]。而從人類學習中發展而來的模仿學習,作為機器人直接獲取知識和技能的一種方式,在機器人的智能性的提升方面越來越發揮出巨大的作用,越來越多地受到學術界的關注和研究[2-6]。一方面,相對于傳統的機器人編程控制,模仿學習將使機器人編程更加容易,提高了機器人的作業效率;另一方面,模仿學習賦予機器人獲取知識、學習知識的能力,使其更加具備智能性[7]。

機器人模仿學習一般分為3個步驟完成:示教過程、學習過程、再現過程。當前,模仿學習的研究,主要集中在對學習過程的研究,已經出現了多種模仿學習的算法用來實現機器人的學習過程[8-11]。其中基于軌跡匹配的機器人模仿學習算法主要有高斯混合模型(GMM)[12]和高斯混合回歸 GMR(gaussian maxture regression)[12-13]、局部加權回歸LWR(locally weighted regression)[14-15]、人工神經網絡ANN(artificial neural networks)[16-17]等,這些算法的特點是將示教運動軌跡數據建模為回歸過程,以期獲得控制策略指導機器人對示教運動進行再現。雖然基于軌跡匹配的回歸算法具有較強的數據表征能力和抗噪能力,但是也存在泛化能力差、穩定性差等缺點[18]。Ijspeert等[19]提出的一種基于動態運動基元DMP(dynamic morement primitives)的機器人模仿學習方法。該方法將運動行為軌跡建模為一組微分方程,并通過線性動態系統保證了目標的全局穩定性,可以從一個簡單的示教中學習較復雜的運動行為,已有廣泛的使用[19-22]。然而,DMP對時間具有依賴性,使其對時間擾動較為敏感,穩定性受到一定影響;而且泛化能力有限,其背后的物理意義也比較難于理解。

動態系統(DS)法[13,23]是近些年出現的一種對運動數據建模的機器學習方法。DS可以表征更豐富的行為,可以在狀態空間的不同部分學習不同的運動。然而,由于DS存在穩定性的問題,常規的基于GMR、GPR(gaussian process regression)[24]以及LWR的回歸方法與DS結合也沒有實現在目標點上的穩定收斂[25]。其往往是找到關于系統的一個局部最優模型,此局部最優模型的約束條件無法保證系統收斂到穩定的目標點,仍然存在穩定性差和泛化能力不足的問題。

針對以上問題,本文通過GMM將示教運動建模為非線性DS,附加約束條件以確保DS的全局漸近收斂,將動態系統模型的參數學習問題轉化為求解一個約束優化問題,通過優化問題的求解得到DS的參數,獲得關于示教運動的非線性DS模型,并將其作為控制策略應用于機器人以實現對示教運動的模仿。通過將動態系統方法引入模仿學習,并考慮其在目標點處全局漸近收斂的約束條件,相對于基于軌跡匹配的機器人模仿學習方法,其除了具有較強的數據編碼能力和抗噪能力,而且可以保證生成的軌跡收斂到目標點,避免了先前方法穩定性差的問題。同時,從未示教區域開始的再現運動軌跡也可以保證收斂到目標點,泛化能力將大大提高。以7bot機械臂為實驗對象,進行仿真實驗和機器人實驗研究,實驗結果表明:基于DS的模仿學習方法再現生成的模仿軌跡具有全局漸近收斂的特點,從不同起始位置開始的生成軌跡最終都可以到達目標點,學習得到的運動模型在穩定性和泛化能力兩方面表現較好。

1 基于動態系統的示教運動建模

1.1 示教運動的表示及動態系統模型

在機器人模仿示教者示教運動的過程中,示教者通過直接或者間接的方式指導機器人手臂完成一次或多次的運動,機器人通過其內部的關節傳感器或者位置傳感器,或者是外部傳感器,如:Kinect視覺傳感,來捕獲關于示教運動的相關信息。其中示教運動的軌跡信息可以表示為如下的集合形式

1.2 基于統計方法的高斯混合模型建模動態系統

為了得到動態系統具體的表達形式,考慮使用基于統計方法的GMM來建立對于DS的概率描述/估計。高斯混合模型是一種有限混合模型,其通過有限的高斯函數的混合來建立對示教運動數據的粗略的表示,同時消{除數}據的噪聲。給定一組次示教軌跡數據,GMM由以下概率密度函數表示

式(10)、(11)得到的動態系統表示為一組線性動態系統的非線性加權的形式,也即得到了關于示教運動的動態系統模型的具體表達形式。

2 動態系統全局穩定的充分條件

由以上得到的動態系統模型,為了保證動態系統模型在示教的目標點具有全局收斂的特性以及提高其泛化能力,也即將在不同的初始點開始最終到達同一目標點的模仿學習任務轉化為具有全局收斂的學習任務,則需要考慮其穩定性問題。對于由定義的動態系統,根據Lyapunov穩定性理論:其在點處全局漸近穩定的充分條件是存在一個連續可微的Lyapunov函數

為了得到式(10)中DS的穩定條件,可以構造如下的Lyapunov函數:

由式(12)、(13)可以求得保證DS全局穩定的充分條件

將式(14)作為DS的約束條件,則DS滿足全局收斂的特性。同時,考慮高斯混合模型的性質和式(14)的條件,其共同組成了具有全局漸進穩定的動態系統的完整的約束條件。此后,需要求解動態系統模型的相應參數,得到對于動態系統完整的描述。

3 動態系統參數學習

為了學習得到具有全局漸近穩定的DS,需要對其參數進行求解。由以上可知DS的未知參數為。本文通過將動態系統參數學習的過程轉化為求解一個非線性優化問題,在保證模型全局漸近穩定的約束條件下求解優化問題來計算的最優值。使用對數似然函數作為優化的目標函數

對于以上優化問題,可以將其化為非線性規劃問題,借助于標準的優化約束技術可以很好地解決,最終得到具有全局漸近穩定的動態系統的最優參數,實現對于動態系統的完整描述。

4 機器人模仿學習系統的設計

在以上內容的基礎上,設計了基于DS的機器人模仿學習系統。所設計的機器人模仿學習系統工作流程如圖1所示。在機器人模仿學習系統中,本文主要集中在對示教過程和學習過程的研究。

圖1 模仿學習系統工作流程Fig. 1 Workflow of imitation learning system

對應于模仿學習的3個基本的步驟,模仿學習系統工作流程,首先,對于某個固定的模仿任務(如:繪畫或書寫、拿放物品、籃球投籃等任務),通過手把手地抓取機器人手臂末端執行器進行多次目標點相對固定的軌跡示教,獲得示教軌跡數據;然后,將獲得的示教軌跡數據預處理后送入學習算法學習關于動態系統模型的參數,得到動態系統模型。最后,將動態系統模型作為機器人的控制策略,設置機器人手臂初始的運動位置,結合機器人的控制系統完成對示教任務的模仿。

5 機器人模仿學習實驗研究

為了驗證基于動態系統的機器人模仿學習方法的有效性,在已設計的模仿學習系統的框架下進行仿真實驗和機器人實驗研究。

5.1 機器人平臺和示教數據的獲取

實驗中的機器人平臺是7bot機械臂,如圖2所示。7bot機械臂是一款桌面應用級的機械臂,也是一款6軸的全金屬智能機械臂。借助于Processing和Arduino Due實現開發和控制,使用USB線與計算機之間完成數據通信,能夠實現在三維空間的多種運動,使用方便靈活。

實際中,對于示教數據的獲取,是在機械臂的運動空間內通過抓取7bot機械臂末端進行次運動軌跡示教。由機器臂自身攜帶的關節角度傳感器記錄運動軌跡信息。另外,也可以通過在仿真環境中拖動虛擬機械臂,進行示教并獲取示教數據。

具體地,實際中的示教數據是由上位機程序處理示教軌跡信息,得到關于(機械臂末端執行)器在笛卡爾坐標系中的位置,即為示教數據。對應于算法中的表述,經過計算,對于示教數據有、。

圖2 7bot機械臂Fig. 2 7bot manipulator

而對于具體的運動軌跡的示教,模仿學習示教過程如圖3所示。示教者通過抓取機械臂末端進行運動示教,此運動可以是一個拿放物品的運動。圖中的幾個關鍵子過程可以說明整個示教過程是如何完成的,黑色的圓點代表示教運動的起始點,黑色的星形點代表示教運動的終點或目標點,實線代表已完成的示教運動過程,虛線代表未完成的示教運動過程。

圖3 模仿學習示教過程示意Fig. 3 Imitation learning demonstration process diagram

5.2 實驗步驟

本文在MATLAB環境中進行相關仿真實驗,為了簡化實驗操作的復雜性,主要在MATLAB環境中進行二維平面的模仿學習仿真實驗,具體步驟如下:

1)將實際采集的或在仿真環境中生成的多次示教運動軌跡信息在MATLAB中進行預處理并可視化,完成模仿學習的示教過程。

2)設置算法的相關初始值,將示教運動數據由GMM模型編碼為一動態系統模型。

3)通過求解帶有全局漸近穩定性約束條件的動態系統相關參數集合,學習得到動態系統模型,完成模仿學習的學習過程。

4)由學習得到的動態系統模型生成新的模仿運動軌跡,并分析生成的運動軌跡的相關結果。

5)最后將學習得到的動態系統模型作為控制策略,結合機器人控制系統,完成對模仿學習過程中示教運動的模仿。

5.3 仿真實驗

本部分主要針對簡單示教運動和較復雜示教運動進行實驗仿真。通過將示教運動軌跡與提出的方法生成的軌跡相比較來驗證方法的有效性;并結合仿真環境中的兩連桿機械臂系統,展示最終的學習效果。其中,規定簡單示教運動是具有一定彎曲度的類直線運動。而較復雜示教運動相比于簡單示教運動其示教運動體現出更多的示教變化,如二次及以上的曲線形狀的運動、自相交運動或者它們的組合等。

模仿學習性能的量化指標可采用機械臂末端位置與目標點的距離、示教與再現運動的路徑模仿任務的時間與示教時間的差,以此來衡量。

5.3.1 簡單示教運動實驗

圖4給出了單次簡單示教的仿真結果。示教運動代表的任務類型可以是繪畫任務中的一筆或者是拿和放物品的運動等。圖4中,(a)為在MATLAB環境中簡單示教運動軌跡,起點是,目標點;(b)為使用文中的學習方法,模型生成的使機器人到達目標點的平滑軌跡流圖,可見所有生成軌跡均收斂到目標點;(c)、(d)中藍色虛線為在MATLAB中模擬的一個兩連桿機械臂系統,將學習得到的運動模型作為控制策略,從不同起點執行模仿的結果,起點分別為、。最終,機械臂末端與目標點的距離分別為、。

在實際示教過程中,機器人可能需要多次示教。圖5分別為多次示教運動軌跡和經算法學習后生成的平滑的軌跡流圖,可見生成的軌跡均收斂到示教運動的目標點。

圖4 單次簡單示教運動與仿真結果Fig. 4 Single simple demonstration motion and simulation results

圖5 多次簡單示教運動與仿真結果Fig. 5 Multiple simple demonstration motion and simulation results

由以上可知,學習得到的運動模型一方面具有很強的穩定性,軌跡均收斂到同一個目標點。另一方面,由未示教區域開始的再現運動也可以在具有一定模仿相似性的前提下到達目標點附近,誤差較小,體現出模型具有較好的泛化能力。

5.3.2 較復雜示教運動實驗

對于較復雜的示教運動,相應的仿真結果如圖6、7所示。其中圖6是對機器人進行單次示教后的實驗結果。單次示教的起點為,目標點為。通過算法學習后,模型生成的軌跡均收斂到目標點。類似地,分別從不同的起點和開始再現模仿,實驗結果如圖6(c)、(d)所示。機械臂末端與目標點的距離分別為、,誤差較小。

同樣地,在實際的機器人示教過程中,需要多次示教時,實驗結果如圖7所示。其中,經過算法學習后,學習得到的運動模型生成的軌跡收斂到同一個目標點。

圖6 單次較復雜示教運動與仿真結果Fig. 6 Single more complex demonstration motion and simulation results

圖7 多次較復雜示教運動與仿真結果Fig. 7 Multiple more complex demonstration motion and simulation results

由此可知,學習得到的運動模型對于此類較復雜的示教運動也有不錯的學習效果,模型的穩定性較好,未示教空間的泛化能力也較好。

5.4 機器人實驗

此部分結合實際的7bot機器人系統來驗證學習方法的有效性。

圖8、9分別展示了二維平面中單次示教時,機器人真實示教運動軌跡和經算法學習后的學習效果。紅色虛線為示教軌跡,藍色實線為生成軌跡。由圖可知,所有生成軌跡最終都收斂到目標點,體現了運動模型具有全局漸進穩定性的特點;但對于有交叉點的自相交運動,其在交叉點的學習效果并不明顯,忽略了部分的學習,學習效果有待提高。

圖8 二維真實示教運動與學習效果Fig. 8 Two-dimensional real demonstration motion and learning results

圖9 自相交運動與學習效果Fig. 9 Self-intersection motion and learning results

圖10 、11展示了通過7bot機械臂系統對示教運動進行模仿的結果。將學習得到的運動模型作為控制策略,設定機器人的初始位置,由機器人系統進行模仿實現。實驗結果顯示其成功實現了對運動的模仿,到達目標點附近。

圖10 機械臂模仿的結果Fig. 10 Results of the imitation of a manipulator

圖11 機械臂對于自相交運動的模仿結果Fig. 11 Results of the imitation of a manipulator for selfintersection motion

同樣,圖12中分別為在三維空間中的示教及學習效果。可以看出從起始點開始的三條生成軌跡均收斂到目標點,表明運動模型的穩定性很好。圖13是7bot機械臂對示教運動進行模仿的結果,可見其也很好地完成了對示教運動的模仿,到達目標點附近。

表1給出了機器人實驗中機器人模仿性能的量化結果。可以看出運動模仿結束后,機械臂末端距離目標點較近,誤差較小;示教時間和模仿時間相差不大;但是在自相交運動上軌跡長度之差比較大。

圖12 三維真實示教運動與學習效果Fig. 12 Three-dimensional real demonstration motion and learning results

圖13 機械臂對于三維運動的模擬結果Fig. 13 Results of the imitation of a manipulator for threedimensional motion

表1 機器人模仿性能的量化結果Table 1 Quantitative results of robot imitative performance

綜上實驗結果,基于DS的模仿學習方法在簡單示教運動、較復雜示教運動以及真實示教運動的學習上,通過附加穩定性約束條件的方法,再現的生成軌跡均收斂到目標點,一方面使運動模型的穩定性更強;另一方面,使運動模型具有較好的泛化能力。

6 結束語

本文針對當前機器人模仿學習過程中,運動模仿穩定性差,泛化能力不足,引入了一種基于動態系統的模仿學習方法來解決以上問題。首先,通過使用高斯混合模型將示教運動建模為一動態系統;然后,考慮穩定性問題,基于Lyapunov穩定性理論,給出動態系統全局漸近穩定的充分條件;最后,建立一個包含多約束的非線性優化問題,迭代求解以得到最優參數,進而得到動態系統模型,并作為機器人的控制策略實現對示教運動的模仿。從實驗中可以得到以下結論:

1)文中提出的模仿學習方法在簡單示教運動和較復雜的示教運動的仿真實驗中,學習得到的運動模型從示教起始點生成的軌跡均能夠到目標點,軌跡平滑,穩定性好。

2)將示教運動建模為動態系統,通過附加穩定性約束條件,保證了學習得到的運動模型生成的軌跡都收斂到目標點。

3)文中的方法可以實現從單一到多次示教運動的學習,對于未被示教的狀態空間其模型也可以生成平滑的軌跡收斂到目標點,具有較強的泛化能力。

4)存在的問題是對于復雜的自相交的示教運動,模型忽略了運動的關鍵信息,運動再現相似度將會稍差。同時,在其他機器人系統上的應用還有待進一步驗證。對于非精密要求場合、目的為導向的機器人工作場合,此方法的通用性和穩定性具有較大優勢。

在未來,可以結合具有高精度控制的機器人來實現實時調整再現軌跡提高模仿的相似性;同時,可以通過提高系統的階次來學習復雜的自相交運動;另外,結合快速控制技術可以將其擴展到快速捕獲運動目標的領域。

猜你喜歡
實驗模型系統
一半模型
記一次有趣的實驗
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产午夜无码专区喷水| 婷婷在线网站| 99久久精品免费看国产免费软件| 日韩高清成人| 国产人成乱码视频免费观看| 中文天堂在线视频| 伊人中文网| 97se亚洲综合在线天天| 亚洲国产天堂久久综合| 福利姬国产精品一区在线| 国产午夜福利亚洲第一| 精品国产中文一级毛片在线看| 成人在线观看一区| 国产一区二区三区日韩精品| 97超爽成人免费视频在线播放| 中文字幕丝袜一区二区| 三上悠亚在线精品二区| 国产毛片片精品天天看视频| 亚洲国产日韩欧美在线| 精品国产毛片| 国产一区二区影院| 久久6免费视频| 久久午夜夜伦鲁鲁片无码免费| 日韩一二三区视频精品| 尤物视频一区| 国模沟沟一区二区三区| a毛片基地免费大全| 亚洲色图欧美| 女人一级毛片| 熟妇丰满人妻av无码区| 欧美一区二区三区不卡免费| 九九热这里只有国产精品| 国产一二视频| 国产91精选在线观看| 亚洲精品国产自在现线最新| 黄色在线不卡| 91在线无码精品秘九色APP| 91小视频在线观看| 久草国产在线观看| 色香蕉影院| 伊人狠狠丁香婷婷综合色| 色香蕉影院| 亚洲天堂视频在线播放| 国产www网站| 小蝌蚪亚洲精品国产| 伊人五月丁香综合AⅤ| 国产91无码福利在线| 亚洲不卡无码av中文字幕| 国产成人精品免费视频大全五级| 国产精品成人免费视频99| 99久久精品国产麻豆婷婷| 尤物在线观看乱码| 成年人免费国产视频| 热99精品视频| 少妇露出福利视频| 亚洲va视频| 亚洲一区网站| 国产精品流白浆在线观看| 亚洲av色吊丝无码| 久久亚洲国产一区二区| 999精品视频在线| 国产91精品久久| 亚洲精品无码不卡在线播放| 亚洲日韩国产精品无码专区| 国产免费网址| 91免费精品国偷自产在线在线| 都市激情亚洲综合久久| 91美女视频在线| 国产精品一区在线观看你懂的| 久久久国产精品免费视频| 最新午夜男女福利片视频| 高清欧美性猛交XXXX黑人猛交 | 国产美女无遮挡免费视频| 亚洲国产天堂久久综合226114| 国产精品区视频中文字幕| 精品少妇三级亚洲| 国产乱子伦一区二区=| 无码国产伊人| 欧美在线综合视频| 在线看片免费人成视久网下载| 在线日本国产成人免费的| 国产尤物视频网址导航|