鐘志強,陳新度,吳 磊,刁世普
(廣東工業大學 a.廣東省計算機集成制造重點實驗室;b.省部共建精密電子制造技術與裝備國家重點實驗室,廣州 510006)
6D目標姿態估計一直是計算機視覺領域中的一個重要問題,過去已經有大量的研究致力于此。深度神經網絡(DNN)在實時姿態估計領域表現出卓越性能,但是,為了使DNN網絡具有更好的泛化能力,現有網絡本身的結構都是非常龐大且復雜的,從而導致它的計算效率低,實時性不夠好,并且需要在有很強的計算能力和足夠內存的計算機上才可以運行,這對一些計算能力不強和僅需要對單一目標姿態估計的場合非常不友好。
實時目標檢測和6D姿態估計對于醫學診斷、增強現實、虛擬現實和機器人技術至關重要[1]。6D目標姿態估計不僅需要對單幅RGB圖像中的目標進行定位,還需要檢測目標在三維空間中的旋轉角度。總結大部分前人的工作來看,姿態估計方法主要分為三類:基于RGB-D的方法[2]、基于模板匹配的方法[3]和基于卷積神經網絡的方法[4]。最近幾年的研究中表明,基于深度學習的方法在RGB圖像中的檢測和6D姿態估計可以獲得具有代表性的結果。SSD6D擴展了2D物體檢測器的思想,基于離散視點分類而不是用直接回歸法的6D姿態估計,以這種方式預測的結果是非常不準確的,因為它們是真實位置的近似離散,需要后期的優化提升精度[5]。BB8使用多階段方法,在前兩個階段中,執行了從整體到精細的分割,其結果是對象邊界框點的第三個或兩個投影之間的交集,但這是一種多階段的方法,從而導致計算的速度非常慢[6]。……