在日常生活中,我們接觸的家具多為“鉸接物體”。何謂鉸接物體呢?
比如,抽屜有一條可以抽拉的軌道,門有一個垂直的旋轉軸,烤箱有一個水平的旋轉軸。這種由關節連接起來的物品,我們就叫它“鉸接物體 ”。由于特定關節的存在,鉸接物體的零件會受到關節的運動學約束,讓這些零件只有一個自由度(DoF)。
鉸接物體在我們生活中無處不在,構成了我們日常生活重要的一部分。而作為人類的我們,無論是看到什么樣的鉸接結構的家具,我們都能快速地知道如何去操縱以及開動它。就像我們知道這些物體的每個關節都是如何運動的。
那么機器人能不能也像人類一樣,擁有這種可以預測家具如何開動的能力呢?如果可以的話,那將對居家機器人來說是一種很大的提升。
近日,來自美國卡耐基梅隆大學機器人學院大衛·海倫教授的R-PAD實驗室的兩名學生本和哈利在有效操控復雜鉸接物體方面取得了重大突破,推出了一種基于3D神經網絡,能有效表達和預測日常家具等鉸接物體的零件運動軌跡的算法FlowBot 3D。

該算法包含兩個主要子策略,其一是利用3D深度神經網絡(PointNet++)去預測被操縱的物體點云數據的瞬時運動軌跡(3D Articulated Flw/3DAF),其二是利用預測出來的運動軌跡去選擇機器人下一步的動作。二者完全在模擬器中學習,并可以直接部署到真實世界中,不需要重新訓練或者微調。在FlowBot 3D算法的幫助下,機器人可以像人一樣隨意操縱日常家具等鉸接物體。
以往的日常家具操控要么是已知被操縱物體的幾何特征(比如連接軸的位置及方向),要么通過模仿人類去學習如何操控一個給定的物體。二者都沒有較好的可泛化性并且需要大量人類數據去訓練。
與這些不同,FlowBot 3D是第一個基于模擬器學習,通過學習每個零件的瞬時運動軌跡,使機器人可以計算出一條最優的物體操縱路徑。這個特性使FlowBot 3D可以泛化到訓練沒有見到的物體上,并且可以直接部署到真實世界。
具體來說,FloBot 3D完全在模擬器中進行監督學習,從而學習出日常家具等鉸接物體零件的瞬時運動軌跡(3D Articulated Flow/3DAF)。3DAF是一種3D視覺表達方式,它能夠極大簡化策略的復雜度,從而提高操縱效率。機器人只需要緊密跟隨這條瞬時軌跡,并閉環地重新預測,就能成功操縱一個鉸接物體。

開動冰箱門

開動馬桶蓋

開動抽屜

這里的紅色向量就代表預測出的門的運動軌跡
手動編碼的策略可以提高機器人在受控環境中的性能,但是想要機器人真正的理解家用物品的操控方式,唯一的方法是教機器人像人一樣去預測這些物體的運動軌跡以及運動學約束。
想要賦予機器人預測物體運動軌跡能力,研究者通過監督學習在模擬器中訓練機器人的視覺模塊,因為家用物體的運動軌跡在模擬器中可以準確計算出來。
在訓練中,機器人觀測到一個被操縱物體的點云數據,然后在這個點云數據上,機器人的視覺模塊利用PointNet++來對每一個點預測其在受外力下的下一步的位置。此運動軌跡的真實數據可以通過順向運動學準確計算出來。將計算出來的下一步坐標減去目前的坐標就能得到被操控物體零件的運動軌跡(3DAF)。因此,訓練的時候只需要去最小化預測出的3DAF和真實數據的3DAF的最小平方誤差 。

FlowBot 3D通過在模擬器中學習多種鉸接物體在運動學約束下運動的軌跡,來預測新物體的操縱方向。常見的家用絞接物品分為抽動式和旋轉式兩種。對于這兩種類別,研究者用物理定律證明了直接跟隨長度最長的3DAF方向(比如最遠離門旋轉軸的點)是可以最大化物體的加速度來達到操縱目的最佳策略。
有了理論加成,機器人只需要選擇可抓取的最大3DAF預測點就可以有效率地操控這些物體。由于機器人的視覺模塊學習的是在運動學約束下的每點運動軌跡,此視覺模塊對機器人對物體可能的遮擋有一定的魯棒性。另外,由于FlowBot 3D算法是閉環算法,機器人可以在下一步對自己可能出現的錯誤進行修正。
FlowBot通過使用兩個子系統(視覺和操縱系統)克服了泛化性的挑戰。在真實世界中,FlowBot 3D可以準確預測出3D AF物體運動軌跡。只要這個軌跡可以準確預測出,那么操縱物體就只需要跟隨這個軌跡這么簡單。在真實世界中,FlowBot 3D只需要使用模擬器中訓練出來的一個模型就可以操控真實物體。

FlowBot3D在真實世界中部署的設置
即使真實世界中的物體和模擬器中的外貌上有很大不同,只要兩者的運動學約束相似(抽動式或者旋轉式),那么FlowBot 3D就可以準確預測出操控物體的策略。

在模擬器中,機器人使用部分類別的家用物品進行訓練。訓練的物體包括訂書機、垃圾箱、抽屜、窗戶和冰箱等。研究者在模擬器中利用這些物體去訓練出來一個能準確預測3DAF方向和大小的模型。
通過高準確度視覺模塊和比較簡單的操作策略模塊的這種組合,機器人可以快速的預測并且操控沒見過的物體。
相比較而言,先前基于模仿學習或者強化學習的方法訓練的機器人需要幾百萬的訓練數據,有時還需要人工指導才會學習新型物體的操控方式,使得這些機器人在現實世界中,尤其是家用機器人場景中不現實。
實驗表明,支持FlowBot 3D部署的機器人成功地在操控較有難度的新型鉸接物體時表現優于基于模仿學習部署的機器人。研究者使用相同的策略執行所有現實世界的部署,而不需要任何模擬校準或現實世界的微調。

實驗結果顯示,FlowBot 3D在操作多數物體時都能將對“全開”的距離達到10%以下。然而其他基于模仿學習或者強化學習的方法差了很遠。

FlowBot 3D是機器人技術一項激動人心的進步,它可以無需微調在現實世界中部署高效且準確性強的家用機器人。這項工作還表明,計算機視覺的進步可以改變機器人領域,增強機器人的能力,同時使這些改進更易于擴展到新的條件。純粹依靠模擬器學習的方法有可能在直接部署到真實世界里,并且有較強的泛化性,這將大大降低未來家用機器人訓練和學習的成本。
這些工作是在卡內基梅隆大學機器人學院的Robots Doing and Perceiving (R-PAD) 實驗室進行及完成的。R-PAD實驗室在可變形物體操縱(如學習理解布料)課題上處于世界領先地位。實驗室的負責人是畢業于斯坦福大學的大衛·海爾德副教授,師從薩瓦雷塞。實驗室的主旨是利用計算機視覺方法幫助機器人去完成復雜的任務。

大衛·海爾德副教授相信,即使端對端學習方式很簡單,但是真正部署到機器人上的時候會遇到許多問題,所以研究者應該將視覺與策略分開考慮,但是同時思考二者如何互相增加能力。在FlowBot 3D算法中,這個主旨深度體現了出來:3D Articulated Flow是一個可以極大簡化策略和規劃的視覺表示方式,在正確3D Articulated Flow預測的基礎上,策略會被簡化成追蹤flow向量。
本文的第一作者是R-PAD實驗室二年級學生本,他對3D視覺學習有極大興趣,本科畢業于普林斯頓大學,加入CMU之前,本曾在谷歌和三星北美研究所工作,從事機器人學習的研究。本文的共同第一作者是RPAD實驗室一年級學生Harry Zhang,他對視覺和控制學都有極大興趣,本科畢業于加州大學伯克利分校,加入CMU之前,哈利張在伯克利的BAIR實驗室負責可變形物體動態操縱項目。
下一步,論文作者在嘗試將這種視覺理解方式應用到鉸接物體以外的物體上面,比如如何用預測6自由度的物體軌跡。同時,作者在嘗試將應用到強化學習里,以增加強化學習的學習效率。