基于三流聯合卷積神經網絡的機械臂抓取檢測

2020-05-14 07:09:24陳薈西

小型微型計算機系統 2020年5期

王勇，陳薈西

(重慶理工大學計算機科學與工程學院，重慶 400054)

E-mail：892654450@qq.com

1 引言

在機械臂抓取任務研究中，抓取檢測仍然是一個具有挑戰性的問題.基于深度學習的抓取檢測方法相對于傳統方法的優勢在于不再需要對物體進行完整的三維重建，也不需要人工設計抓取規則，并且能適應周圍環境變化，以及抓取新物體.I.Lenz等人第一次將深度學習用于抓取檢測，將抓取的本質看作一個檢測問題[1],而抓取的關鍵在于機械臂從當前所見的局部視圖中找到給定物體的一個最優抓取位置，使其抓取成功的概率得到最大化，這和目標檢測有所不同.

與簡單的二維圖像相比，RGB-D數據已被證明能顯著提高抓取檢測結果[2].在RGB-D數據處理方面，不同的多模態融合方式會決定傳感器獲取的視覺信息是否得到充分利用，從而影響最終的抓取結果.文獻[1]中將RGB圖像、深度圖像以及由深度信息計算的曲面法線的X、Y、Z分量融合成7個通道作為網絡輸入.文獻[3]則直接將RGB圖像與深度圖像在早期融合成RGB-D 4通道作為輸入.文獻[4]也采用早期融合的方式，不同的是它將深度通道D替換RGB圖像中的藍色通道B，形成RGD作為輸入.文獻[5]中將深度圖像轉換為3通道圖像，這類似于灰度圖到RGB圖像的轉換.然后將RGB圖像和轉換后的深度圖像作為兩個獨立的3通道輸入，分別進行訓練并在更深的網絡層次中進行后期融合.

抓取檢測和目標檢測都可以使用分類[6-8]或回歸[9-11]的方法解決.基于回歸的方法不利用任何滑窗或區域建議技術，也不用專門區分目標物體與背景，省略了中間很多復雜的設計過程，其通常比基于分類的方法計算速度快得多，并且支持端到端的訓練以及滿足實時檢測.然而其準確性還有待提高.文獻[4]將整個圖像放入淺層網絡Alexnet中進行單級回歸計算，直接預測出抓取位置；在模型輸出時固定維度，將輸出劃分成7×7的網格形狀，并假設每個網格最多輸出一個抓取位置.Park.D等人在文獻[4]的基礎上采用了兩個并行的深度卷積神經網絡ResNet-50進行抓取預測[3].S.Kumra等人在文獻[4]的基礎上設計了一種定向錨箱機制，并利用更深層次的網絡ResNet-101進行回歸預測[12].Lu Chen等人在文獻[4]的基礎上構造了一種新的抓取檢測模型，引入抓取路徑的概念[13].

本文提出一種用于抓取檢測的三流多模態融合方法，利用比ResNet更強大的ResNeXt進行特征提取.然后對文獻[4]中的回歸算法進行改進：使用更密集的20×20網格，每個網格預測兩個抓取矩形以提高精度；利用全卷積層代替全連接網絡，防止過擬合.并且提出一種新的置信度計算方法.實驗結果表明，該模型在滿足實時檢測的同時能更準確的預測出物體的最優抓取位置.

2 相關介紹

2.1 抓取位置表示

本文采用Y.Jiang等人提出的由五維參數(x,y,w,h,θ)組成的抓取矩形來表示物體的抓取位置[2],它同時考慮了位置，方向以及夾持器的開口寬度，適用于平行夾持器.如圖1所示，(x,y)代表矩形的中心點；w表示矩形長度，即夾持器張開的寬度；h表示矩形寬度，即夾持器兩邊放置的位置；θ(0°～180°)代表矩形相對于水平軸方向的順時針旋轉角度.其中w，h與夾持器的物理參數有關，w應該小于夾持器張開的最大寬度.

最終預測出的五維參數只是抓取位置的二維平面表示，我們需要計算出該位置在真實世界坐標系下基于機械臂末端執行器的三維表示，并且在移動時，應首先考慮矩形的中心位置.抓取時，夾持器從與圖像大致垂直的方向接近抓取位置，按照角度θ進行順時針旋轉，然后控制機械臂向垂直平面的方向移動一些距離(視情況而定)，最后閉合夾持器，抓取物體.

圖1 抓取位置表示—抓取矩形

2.2 ResNeXt網絡模型

先前的研究證明，深度卷積神經網絡的效果在檢測和分類問題方面明顯超越了淺層卷積神經網絡，文獻[5]、文獻[14]在抓取檢測中采用了ResNet-50模型，而文獻[12]中則利用更深層次的ResNet-101網絡.然而增加網絡的深度或寬度都會造成參數數量過多，使網絡的復雜度以及計算開銷更大.

ResNeXt的結構能夠保證在增加準確率的同時不改變或降低模型的復雜度[15].與ResNet相比，其優勢在于在相同的精度下，ResNeXt模型計算量更小，參數更少，并且ResNeXt 網絡模塊化設計更簡單合理，超參數量也更少.文獻[15]中的實驗結果表明ResNeXt-50 已接近 ResNet-101 的準確度，并且在目標檢測任務中，ResNeXt已經取得了最先進的結果.

3 用于抓取檢測的三流聯合卷積神經網絡模型

3.1 模型結構

在康奈爾抓取數據集中，獲取的點云數據包含三維坐標信息和顏色信息(Color Jet).在以往的研究中僅僅使用了三維坐標信息，而直接忽略顏色信息，這可能會導致損失一些有效的信息.

本文有效利用點云數據中常被忽略的顏色信息，并對文獻[16]中用于目標識別的三流聯合網絡進行改進，設計了一種用于抓取檢測的三流聯合網絡框架，網絡由三組深度卷積神經網絡ResNeXt-101和三個1×1的卷積神經網絡組成，如圖2.將RGB圖像，深度圖像，Color Jet圖像分別輸入至并行的三個流中，每個流都由一個深度卷積神經網絡ResNeXt-101組成.其中每個流的輸入大小都為320×320，并且每個流經過ResNeXt-101提取特征后均輸出1024個大小為20×20的特征圖.然后將三個流的輸出按通道數進行融合后得到3072個20×20的特征圖，再利用三個1×1的卷積神經網絡進行回歸預測.

我們的模型直接從融合后20×20的特征圖中進行預測抓取，要求每一個像素預測兩個抓取矩形.根據卷積的空間不變性，特征圖上每個像素與原圖中的一個小方塊一一對應，即可以認為將原圖劃分為20×20的網格，每個網格預測兩個矩形，并且必須保證預測矩形的中心落在每個網格內.網絡最后的輸出維度為20×20×12，即一共預測20×20×2個矩形，每個矩形的輸出為六維，其中第一維代表每個矩形的置信度(S)，即這個矩形為最優抓取矩形的概率，而剩下的五維為矩形的參數(x,y,w,h,θ).

圖2 用于抓取檢測的三流聯合網絡結構

3.2 改進的回歸算法

文獻[5]、[12]、[13]、[14]繼續使用了文獻[4]中的回歸框架，沒有對回歸部分有實質性的改進.

文獻[4]中的模型以224×224大小的圖像作為輸入，提取特征后得到7×7的特征圖，相當于將原始圖像劃分為7×7個網格；文獻[5]、[13]與文獻[4]中一樣；而文獻[12]以320×320作為輸入，將圖像劃分為10×10個網格；文獻[14]以227×227作為輸入，將圖像劃分為14×14個網格,相對提高了精度.然而它們劃分的網格都較為稀疏，并且每個格子只預測了一個矩形.值得注意的是，如果網格劃分得較為稀疏，在訓練時，一個格子可能容納多個矩形標簽的中心，這會導致訓練數據大量減少；而在預測時，更難計算矩形中心的偏移量，導致預測精度較低.再者，如果每個格子只預測一個矩形，可能會遺漏一些信息，同樣會導致結果不夠準確.

本文采用更密集的20×20網格，如圖3所示，(a)(b)(c)(d)分別代表文獻[4]、文獻[14]、文獻[12]以及我們的劃分方法，圖中黃色的點代表所有矩形標簽的中心，將它們進行對比可以看出(b)(c)的方法略優于(a)，而我們的方法是最優的，它可以完全區分所有矩形的中心，保留更多的標簽用于訓練，以及實現更密集的預測，從而提高精度.

對于每個流我們以320×320作為輸入，采用ResNeXt-101(32×4d)網絡進行特征提取，其中我們去除了ResNeXt-101(32×4d)網絡的最后一個卷積層，以保證輸出1024個20×20大小的特征圖.在回歸預測方面，文獻[12]中用3×3的卷積網絡代替文獻[4]中的全連接層進行回歸計算，而我們選擇用三個1×1的卷積網絡代替全連接層，以減少參數數量，防止過擬合.

圖3 四種網格劃分的方式

3.3 置信度的計算

我們模型只考慮單個物體的抓取，其目標并不在于要預測出給定對象所有可能抓取成功的位置，而是要找出一個最優的抓取位置.我們引入置信度的概念，對于每個矩形預測出其置信度(0～1)大小.置信度越大，表明該矩形分值越高，越易于抓取.最終將所有矩形按照置信度從大到小進行排序，其中置信度最大的矩形，就是我們要尋找的最優抓取矩形.

在用于目標檢測的YOLO V1模型[9]中，置信度的計算主要取決于根據IOU(交并比)的值，但用IOU值代表抓取檢測中矩形的置信度并不準確，原因如下：

文獻[13]已證明IOU值大的可能不是好的抓取矩形，而IOU值很小卻可能是很好的抓取矩形.這是因為抓取矩形的置信度更優先取決于矩形中心的位置.

目標檢測中的矩形邊框參數為(x,y,w,h,θ)，其IOU的計算不包括矩形的旋轉角度，而抓取檢測中還包括矩形旋轉角度的參數.

對于原因(1)，我們已利用更密集的網格劃分方式，對于原因(2)，我們提高旋轉角度在置信度計算中的重要性.本文提出一種適用于抓取檢測的置信度計算方法，其公式如下：

(1)

根據(1)可知，矩形的置信度S由兩個子分值組成，其中Sθ代表矩形旋轉角度的分值，SIOU代表兩個矩形的IOU值.而λθ，λIOU分別代表其角度，IOU所占的權重大小.經過多次實驗證明，λθ，λIOU的值分別取2，1.

Sθ=1-|rectθ-rectθ′|

(2)

在公式(2)中，rectθ，rectθ′分別代表預測矩形和矩形標簽的旋轉角度θ，此處對旋轉角度已經進行了歸一化.

此外將Sθ，SIOU以及S的取值范圍均按照公式(3)限制于(0,1)范圍內.

(3)

由公式(3)知，如果輸入值m小于0，那么將m賦值為0，如果m大于1，那么將m賦值為0，如果m在(0,1)之間，則保持不變.

4 實驗及結果

本文使用康奈爾抓取數據集對我們的網絡模型進行驗證.該數據集包含885張圖像，共計240個不同的物體.每張圖像都有對應的點云數據，并且對于每張圖像中的給定對象都有多個正矩形或負矩形的標簽，如圖4所示，其中(a)為部分正矩形標簽的例子，代表抓取成功的矩形標簽，(b)為部分對應負矩形標簽的例子，代表抓取失敗的矩形標簽.我們只保留正矩形標簽用來訓練，并將它們的置信度設置為1.盡管它們并不是詳盡的，但它們是幾個抓取效果特別好的多樣化例子.

圖4 數據集中部分矩形標簽

4.1 輸入預處理

我們首先對康奈爾抓取數據集中每幅圖像對應的點云數據進行處理，得到與原圖像大小相同的深度圖像和Color Jet圖像.將它們歸一化至0到255之間，得到均為單通道的灰度圖像，如圖5(a)所示.我們根據文獻[17]的轉換方式，將它們分別轉換為3通道的彩色圖像，以滿足預訓練要求，如圖5(b)所示.

為了防止過擬合，我們用水平鏡像和垂直鏡像的方法對訓練集進行數據增廣.然后將原RGB圖像，深度圖像，Color Jet均按照中心剪裁的方式轉換為320×320像素，注意這三種圖像的剪裁位置必須相同，因為它們的每個像素是一一對應的.然后再將它們歸一化到(0,1)之間，并按照給定均值(mean)和方差(std)進行標準化，其中mean和std是根據ResNeXt-101在Imagenet數據集上的訓練模型輸入所決定的，mean的值為[0.485,0.456,0.406],std的值為[0.229,0.224,0.225].

圖5 轉換前后的RGB圖像，深度圖像，Color Jet圖像

4.2 訓練過程

在訓練我們的網絡模型之前，首先要對其進行預訓練，我們利用ResNeXt-101模型為ImageNet數據集上的對象分類而訓練的參數作為每個流中ResNeXt-101的初始權重，然后在其基礎上進行訓練.

訓練過程共分為兩個階段，第一階段只對最后進行回歸預測的三個1×1的卷積神經網絡進行訓練，第二階段則是對整個三流聯合網絡進行端到端的聯合訓練.

4.3 實驗結果

與文獻[3]、[4]、[5]、[12]、[13]相似，我們也使用康奈爾抓取數據集上的矩形度量標準對訓練結果進行評估.在矩形度量中，如果預測出的抓取矩形rect與任意一個正矩形標簽rect’同時滿足以下兩個條件，則認為該矩形是一個正確的抓取位置.

條件1.|rectθ-rectθ′|<300

條件1為預測矩形與矩形標簽的角度大小相差小于300.條件2為預測的矩形與矩形標簽的Jaccard相似系數大于25%.

我們對實驗執行了五倍交叉驗證.表1顯示了我們的結果與先前的研究[1][4][5][13][19]分別在圖像分割和對象分割上的對比情況.我們避開了與文獻[12]、文獻[14]的比較是因為文獻[12]中采用了面向錨箱機制，而我們的模型相對簡單；文獻[14]主要討論多物體抓取，與我們討論的范圍不一致.我們給出了不同版本的抓取預測結果：

表1 正確率測試結果

Table 1 Accuracy test results

算法正確率/%圖像分割對象分割I.Lenz等人[1]73.975.6J.Redmon等人[4]88.087.1S.Kumra等人[5]89.2188.96Lu Chen等人[13]86.484.7喻群超等人[19]94.193.3(1)RGBD,改進的回歸算法92.494.9(2)三流聯合網絡模型94.993.7

1)如果僅改進回歸算法，我們在圖像分割和對象分割上的正確率分別為92.4%，91.6%.相比I.Lenz等人的回歸模型分別提高了18.5%，16%；并且領先于文獻[4]、文獻[5]、文獻[13]，但是還無法超過文獻[19]中復雜的三級網絡.

2)融合Color Jet的三級聯合網絡在圖像分割和對象分割上的正確率分別為94.9%，93.7%，相比(1)分別提高2.5%,2.1%.可以看出我們單級回歸模型在精度上不僅超過了先前的研究文獻[1][4][5][13]，并且領先文獻[19]中的三級復雜模型0.8%,0.4%.

表2 速度測試結果

Table 2 Speed test results

算法速度/fpsI.Lenz等人[1]0.02J.Redmon等人[4]3.31S.Kumra等人[5]9.71Wang等人[18]7.10(1)RGBD,改進的回歸算法21.32(2)三流聯合網絡模型14.20

表2顯示了我們的模型在檢測時的速度情況，并與之前同樣滿足實時抓取的研究文獻[1][4][5][18]進行對比.可以看出我們的三流聯合網絡利用GPU進行加速后比以往的模型速度更快，其中比I.Lenz等人的兩階段SAE模型快近710倍，比S.Kumra等人的多模態融合網絡快近1.46倍.總體而言，我們的模型在精度和速度方面都取得了比先前更好效果.

如圖6所示，圖6(a)中我們對在測試集上檢測的結果進行了部分可視化，其中邊框顏色較淺的矩形是測試集中給定對象的正矩形標簽，而邊框顏色較深的矩形是我們檢測出置信度排名第一的抓取矩形.對應在圖6(b)中，我們可視化出所有置信度大于0.2的矩形，其中置信度最高的矩形同樣用較深顏色的邊框表示，而剩余的矩形用較深顏色的邊框表示.可以看出置信度最高的矩形相比其他矩形具有同樣強或者更強的抓取性，因為它們幾乎和矩形標簽完全重合，證明我們提出的置信度計算方法能將抓取成功的概率最大化.

5 結論

本文提出了一種用于機械臂抓取檢測的三流聯合網絡模型，同時提高了檢測的速度和精度.實驗結果表明，融合Color Jet信息的三流聯合網絡能更好的提取特征；改進的回歸方法以及新的置信度計算方式能提高預測的準確率.我們的模型在康奈爾抓取數據集上獲得了良好的性能，并以實時速度進行檢測.

圖6 部分實驗結果

在未來的工作中，我們希望在此基礎上繼續優化模型，考慮將錨箱機制引入抓取檢測中并進行改進，從而進一步提高模型的準確率.