彭吉飛,吳清瀟
(1.中國科學院光電信息處理重點實驗室,沈陽 110016;2.中國科學院沈陽自動化研究所,沈陽 110016;3.中國科學院機器人與智能制造創新研究院,沈陽 110169;4.中國科學院大學,北京 100049)
機器人抓取在工業制造和生活場景中有著廣泛的應用前景,成功抓取的前提是根據物體的觀測信息獲得合適的抓取位姿。針對抓取檢測任務,目前大部分都是基于深度學習進行研究。早期,文獻[1]提出級聯式網絡在Cornell 數據集上進行實驗,達到73.9%的準確率。隨著更強大的特征提取網絡如AlexNet、ResNet 的出現,文獻[2]、文獻[3]使用單階段網絡直接預測抓取配置參數,抓取檢測更加精準。同時目標檢測技術得到越來越廣泛的應用,文獻[4]借鑒雙階段目標檢測網絡Faster-RCNN,在Cornell數據集上準確率達到96.0%,但設計了錨框作為先驗信息,模型的參數量和計算量過大,實時性較低。為了能夠滿足實時抓取,文獻[5]采用像素級的抓取姿態預測,每張圖片檢測速度達到4 ms,但準確率僅有84.3%。
為了平衡抓取檢測的實時性和準確率,有研究借鑒單階段的關鍵點目標檢測算法的思想,比如文獻[6]通過改進CornerNet[7]將其應用于抓取檢測。文獻[8-9]也成功將關鍵點檢測網絡CenterNet[10]應用到抓取檢測中,準確率和實時性得到進一步提升?;陉P鍵點檢測無需錨框設計,沒有過多的冗余計算能夠提高實時性,因此本文在CenterNet 思想基礎上進行改進,設計了基于注意力機制的輕量級神經網絡模型。由于實際場景中的物體往往更復雜,對于訓練過程中未曾見過的物體或顏色大小形狀變化較大的物體,難以獲取其準確的抓取位姿,這就需要算法能夠動態更新學習到的知識。MAML[11]是一種少樣本元學習算法,利用梯度下降尋找合適的初始化方法,能夠有效學習未知知識。因此本文設計了兩階段的學習過程,使用MAML 元學習方法提升了對新類目標的檢測效果。
抓取檢測框通常表達方式是一個旋轉矩形框,如圖1 中的虛線矩形框所示。在實際的物體抓取中,兩指機械手的夾持器長度h 本身固定,因此只需預測抓取框的中心點、抓取框寬度w 和抓取角度θ。

圖1 抓取框的表達方式Fig.1 Grasping position representation
抓取檢測框相比目標檢測框在表達方式上增加旋轉角度,因此改用旋轉橢圓高斯熱力圖進行映射。即對于抓取矩形標簽的中心點真實位置p,執行預測時所用的特征信息相當于原尺度經過T=4 倍的下采樣,標簽中心點位置變為,將其映射到高斯熱力圖Y,熱力圖Y 上的對應像素點映射關系為

圖2 Cornell 數據集中的物體和可視化熱力圖Fig.2 Objects in Cornell dataset and the visual heatmap
1.2.1 基于注意力機制改進的Ghost Bottleneck 模塊
GhostNet[12]是為移動端硬件設計的輕量化神經網絡,采取計算復雜度低的線性運算代替普通卷積輸出特征圖,去除了部分彼此相似的冗余特征圖。對于給定輸入X∈Rc×h×w,其中c 為輸入特征通道數,h和w 為特征圖的高和寬,若使用卷積核f∈對其進行普通的卷積操作,輸出特征圖Y∈,所需計算量為
Ghost Module 模塊在對輸入X 生成具有c′個通道的特征圖Y 時,先用普通卷積核f∈Rc×k×k×m進行卷積計算得到特征圖Y′∈,再進一步使用低計算代價的cheap 操作對這m 個通道的每個特征都生成s 個Ghost 特征,即:
式中:Φi,s是恒等映射以保留原始特征,其余Φi,j(j=1,…,s-1)為線性運算,每個線性運算的平均內核大小為d×d(其大小與k×k 近似),由此得到具有m·s=c′個特征的特征圖Y。以上操作總共所需的計算量為
因為d≈k,m·s=c′,且s?c 可知Ghost Module模塊的參數量只有普通卷積的1/s。
NAM[13]是一種輕量級的基于歸一化的注意力機制,不需要進行卷積計算和全連接層的計算,而是利用歸一化后的權重作為加權因子。首先對輸入X批量標準化:B=BN(X)=+β,其中γ 和β是縮放因子和偏移因子,μb和是小批量的均值和方差。再將其與歸一化后的權重相乘,經過sigmoid歸一化后與原始輸入X 相乘得到輸出特征Y,即Y=X·sigmoid(Wγ(BN(X))),計算如圖3 所示,其中Wγ=,利用縮放因子的大小反映不同通道的信息重要程度。

圖3 NAM 注意力機制Fig.3 NAM attention
利用上述Ghost Module 模塊和深度可分離卷積構建基礎殘差模塊Ghost Bottleneck,并在Ghost Module 前后分別加入NAM 注意力機制,以進一步加強特征提取能力,如圖4 所示。

圖4 嵌入注意力機制的Ghost Bottleneck 模塊Fig.4 Ghost Bottleneck embedded with the NAM attention
1.2.2 多尺度特征提取和特征融合模塊
為了更有效地提取特征,且在不損失語義信息的前提下增大感受野,引入膨脹率不同的空洞卷積。為此設計了2 個并行的雙層金字塔結構,如圖5中的虛線框(a)和(b)所示,用于提取不同尺度的特征,每個金字塔由2 個串聯的空洞卷積組成。這種級聯結構能夠在不減小感受野的同時提高信息利用率,而并行結構能夠避免多尺度特征之間的冗余。其中(a)部分獲得的特征信息不包含邊緣信息,適合用來預測抓取框的中心關鍵點。(b)部分所獲得的特征信息包含邊緣信息,適合預測抓取檢測框的抓取寬度、抓取角度以及關鍵點的偏移信息。上采樣操作采用輕量化的CARAFE 算子[14],該算子參數量相比反卷積更少,也擁有更好的性能。

圖5 多尺度特征提取和特征融合模塊Fig.5 Multi-scale feature extraction and feature fusion module
模型的主要框架如圖6 所示,該框架可以被定義為O(F(·|θ)|w),其中F(·|θ)是帶有參數θ的特征提取器,O(·|w)是帶有參數w 的對象定位器。學習過程分為基礎訓練階段和元學習階段。

圖6 算法模型框架Fig.6 Overview of the proposed model

圖7 元學習過程Fig.7 Meta-learning stage
1.3.1 基礎訓練階段
在基礎訓練階段使用基類樣本訓練獲得通用的特征提取器F(·|θ)和對象定位器O(·|w),輸入圖像經過特征提取器得到特征圖后再輸入到對象定位器,對象定位器部分都是二維卷積層,最終輸出相當于原輸入圖像4 倍下采樣的特征圖,經過解碼得到最終的抓取配置參數。
由于正負樣本不均衡,非關鍵點的數量多于關鍵點數量,采用Focal Loss 計算關鍵點熱力圖的損失,計算公式如下:
1.3.2 元學習階段
基礎訓練結束后,凍結特征提取器參數,引入一個元學習器,元學習器的結構和初始化參數與對象定位器相同。這一階段的學習目的是更新對象定位器的參數,以使模型適應新類樣本。
本文算法基于Pytorch 框架實現,操作系統為Ubuntu 16.04.7,模型在GeForce RTX2080Ti 顯卡上訓練,網絡輸入圖像分辨率為320×320。采用Cornell數據集進行實驗驗證,其中訓練集和測試集按照圖像分割和對象分割2 種方式進行劃分[1]。
其中式(7)表示預測矩形角度和真實抓取矩形角度相差小于30°,式(8)表示預測矩形和真實抓取矩形的Jaccard 相似系數大于25%,同時滿足式(7)和式(8)則代表預測抓取是合理抓取。
本文算法分別按照圖像分割和對象分割2 種方式在Cornell 數據集上進行實驗,在準確率和檢測速度上和其他算法對比效果如表1 所示。

表1 Cornell 數據集抓取檢測結果Tab.1 Grasping detection results on the Cornell dataset
可以看到本文提出的算法在檢測準確率和檢測速度上與當前性能最好的一些算法相當,相比同樣基于關鍵點檢測的文獻[6,8,9]中的算法在精度和檢測速度上均有優勢,很好地兼顧了準確率與實時性。尤其在對象分割實驗中,測試集中物體都是訓練集中未見過的類別,準確率有明顯優勢,這得益于元學習方法增強了對未知物體的學習能力。在參數量和計算量上雖然不及文獻[5]的算法,如表2 所示,但是準確率有明顯提高。而對比文獻[16]的算法,在準確率相差不多的情況下,參數量和計算量得到明顯降低??梢姳疚乃惴ㄔ诒WC高準確率的同時有更少的參數量和計算量,能夠更加適合低性能的硬件設備。

表2 算法參數量和計算量對比Tab.2 Comparison of the parameters and FLOPs
在Cornell 數據集上以對象分割的方式進行消融實驗,結果如表3 所示??梢钥吹絅AM 注意力機制在使用2 種不同熱力圖的情況下準確率分別提升0.53%和1.06%,能夠加強特征提取。多尺度的特征提取和特征融合模塊準確率分別提升了1.58%和2.12%。最終融合這2 個模塊的網絡檢測準確率分別提升了3.17%和3.71%,另外使用旋轉橢圓高斯熱力圖和原CenterNet 中的熱力圖相比,準確率能夠提高約2.65%。最后再經過元學習器的學習后,準確率有2.17%的提升。綜上可知改進的方法和模塊均能使模型性能得到提升。

表3 消融實驗Tab.3 Ablation experiment
對Cornell 數據集中的部分測試集圖片進行測試,效果如圖8 所示??梢娝惴▽τ诓煌螤畲笮〉奈矬w漏檢率低,均有較好的抓取效果。

圖8 Cornell 數據集上算法檢測效果Fig.8 Detection effect on the Cornell dataset
選取真實場景中的常見物體進行抓取實驗,結果如圖9 所示。實驗結果表明,對于在訓練數據集中從未見過的物體,算法依舊能夠得到合適的抓取角度和抓取位置。

圖9 真實場景物體抓取檢測效果Fig.9 Detection effect on the objects in real scenes
為了提升機器人抓取檢測的效果和效率,本文提出了基于元學習和關鍵點的實時抓取檢測算法。網絡模型基于關鍵點進行輕量化設計,并參考MAML 元學習方法優化模型參數。實驗結果表明算法擁有較少的參數量和計算量,兼顧抓取準確率和實時性,同時對未知物體的抓取有很好的泛化性。