999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

局部特征表征的6D位姿估計算法

2022-12-31 00:00:00王晨露陳立家李珅范賢博俊王敏連晨軒王贊劉名果
計算機應用研究 2022年12期

收稿日期:2022-04-08;修回日期:2022-05-26" 基金項目:國家自然科學基金資助項目(61901158);河南省科技廳重點研發與推廣專項資助項目(202102210121);河南省科技發展計劃資助項目(科技攻關)(212102210500);開封市重大專項資助項目(20ZD014);開封市科技項目(2001016);開封平煤新型炭材料科技有限公司(2021410202000003)

作者簡介:王晨露(1995-),女,河南鄭州人,碩士研究生,主要研究方向為深度學習、圖像處理、人工智能;陳立家(1979-),男(通信作者),河南開封人,副教授,碩導,博士,主要研究方向為智能計算、數字信號處理、濾波器、人工智能算法(chenlijia_just@163.com);李珅(1982-),男,河南開封人,主要研究方向為深度學習、圖像處理;范賢博俊(1994-),男,河南義馬人,碩士研究生,主要研究方向為群智能算法、數字信號處理、人工智能、機器人;王敏(1997-),女,山東菏澤人,碩士研究生,主要研究方向為神經網絡、機器人、機器學習;連晨軒(1999-),男,河南鄭州人,碩士研究生,主要研究方向為深度學習、圖像處理、人工智能;王贊(1984-),男,河南開封人,副教授,碩導,博士,主要研究方向為雷達信號、神經網絡、機器學習;劉名果(1984-),男,河南鞏義人,副教授,碩導,博士,主要研究方向為群智能算法、人工智能.

摘 要:為解決有紋理模型在遮擋條件下6D位姿估計精確度不高的問題,提出了一種局部特征表征的端到端6D位姿估計算法。首先為了得到準確的定位信息,提出了一個空間—坐標注意力機制(spatial and coordinate attention),通過在YOLOv5網絡中加入空間—坐標注意力機制和加權雙向特征金字塔網絡(bidirectional feature pyramid network),YOLOv5-CBE算法的精確度(precision)、召回率(recall)、平均精度均值(mAP@0.5)分別提升了3.6%、2.8%、2.5%,局部特征中心點坐標誤差最高提升了25%;然后用 YOLOv5-CBE算法檢測局部特征關鍵點,結合3D Harris關鍵點通過奇異值分解法(singular value decomposition)計算模型的6D位姿,最高遮擋70%的情況下仍然可以保證二維重投影精度(2D reprojection accuracy)和ADD度量精度(ADD accuracy)在95%以上,具有較強的魯棒性。

關鍵詞:局部特征;6D位姿估計;YOLOv5檢測網絡;空間—坐標注意力機制;加權雙向特征金字塔網絡

中圖分類號:TP391.41"" 文獻標志碼:A

文章編號:1001-3695(2022)12-046-3808-07

doi:10.19734/j.issn.1001-3695.2022.04.0163

6D pose estimation algorithm for local feature representation

Wang Chenlu1,Chen Lijia1,Li Shen2,Fan Xianbojun1,Wang Min1,Lian Chenxuan1,Wang Zan1,Liu Mingguo1

(1.School of Physics amp; Electronics,Henan University,Kaifeng Henan 475000,China;2.Kaifeng Pingmei New Carbon Material Technology Co.,Ltd.,Kaifeng Henan 475000,China)

Abstract:In order to solve the problem of low accuracy of 6D pose estimation for textured models under occlusion,this paper proposed an end-to-end 6D pose estimation algorithm based on local feature representation.Firstly,this paper proposed a spatial and coordinate attention mechanism to obtain accurate localization information.A YOLOv5-CBE detection network formed by adding the attention mechanism to the backbone network and introducing a weighted bidirectional feature pyramid Network in the detection layer.The precision,recall and mAP@0.5 of YOLOV5-CBE algorithm rise by 3.6%,2.8% and 2.5% respectively,and the coordinate error of local feature center point decreases by 25% at most.Secondly,the YOLOv5-CBE network detected the local feature key points and calculated 6D pose of the model with 3D Harris key points by singular value decomposition,and the algorithm can guarantee 2D reprojection accuracy and ADD accuracy above 95% with 70% occlusion,which has a strong robustness.

Key words:local feature;6D pose estimation;YOLOv5 detection network;spatial and coordinate attention;bidirectional feature pyramid network

0 引言

機器人視覺識別技術是移動機器人平臺十分關鍵的技術,檢測物體及其6D位姿(3D位置和方向)是許多機器人應用的重要任務,包括物體的拾取操作、工廠零件裝配等。在復雜的現實環境中,6D位姿估計一般包括兩個階段:第一階段是目標檢測,在RGB圖片中使用目標檢測算法或者分割網絡獲取目標在圖片上的位置;第二階段則是對檢測出來的目標物體進行6D位姿估計。近幾年來,基于深度學習的目標檢測技術發展迅速,但是6D位姿估計仍然面臨很大的挑戰。傳統的6D位姿估計的方法主要是局部特征匹配,如SIFT[1],但是這種方法只適用于紋理豐富的對象,對于表面紋理較弱的物體,通常采用模板匹配[2]的方法,這種方法對于光照和遮擋情況較為敏感。

隨著深度學習的發展,特別是卷積神經網絡以及YOLO系列檢測算法的快速發展,使得深度學習算法在目標分類[3]、目標檢測識別[4]、目標分割[5]等方面都取得了顯著的進步,特別是YOLOv5目標檢測算法,對于物體的檢測速度快、精度高。目前也有很多學者將深度學習算法應用到有紋理模型的6D姿態估計,2017年Kehl等人[6]對SSD算法進行延伸,所提出的SSD-6D采用基于顏色的方法減少模型對深度數據的依賴,利用3D模型姿勢空間的分解處理對稱性并推斷物體6D姿勢,以此達到三維物體的位姿估計;2018年Xiang等人[7]提出了新的卷積神經網絡PoseCNN先預測2D圖片中心與攝像頭的距離,通過Hough投票來預測物體的中心位置,并很好地解決了有紋理對稱模型的姿態估計問題;2019年李飛飛等人在PoseCNN的基礎上提出了建立在三維物體RGB-D圖像的6D位姿估計的深度學習框架DenseFusion[8],該算法在YCB-Video和LineMOD兩個數據集上都表現優秀;谷歌提出的MediaPipe是一種實時的3D對象檢測管道,該管道在2D圖像中檢測物體,并通過在Objectron數據集上訓練機器學習(ML)模型來估計物體的姿態和大小,非常的靈活并且輕量化,但是該算法前期訓練的數據集大小達到4 TB,很難工程化部署。

以上深度學習方法對于三維物體的6D位姿估計在公共數據集上有著不錯的性能,但是工程化部署較難,并且對于物體的6D位姿估計的精確度會隨著遮擋程度的增大而導致精確度顯著降低。YOLOv5算法模型常用于物體的檢測和定位,圖像推理速度極快,識別檢測精度高,可以訓練自己的樣本模型[9]。

基于目前6D位姿估計算法出現的問題,以及YOLOv5檢測算法的優越性,本文主要工作如下:

本文針對有紋理模型提出了一個局部特征表征的端到端6D位姿估計算法。首先為了得到更加精確的定位信息,將空間注意力(spatial attention,SA)[10]與坐標注意力(coordinate attention,CA)[11]結合,提出了一個空間—坐標注意力機制(spatial and coordinate attention,SCAA),在原有的YOLOv5算法網絡的基礎之上,加入了空間—坐標注意力機制(SCAA)和加權雙向特征金字塔網絡(bidirectional feature pyramid network,Bi-FPN)[12],形成了一個YOLOv5-CBE目標檢測網絡。用YOLOv5-CBE網絡對模型的局部特征檢測并定位,結合深度信息,得到中心點坐標,并與3D Harris關鍵點通過奇異值分解法(singular value decomposition,SVD)[13]計算出旋轉矩陣R與平移矩陣T,可以實時估計樣本模型的6D位姿,并驗證實驗誤差。

1 6D位姿估計算法框架

本文提出的6D位姿估計算法的整體思路如圖1所示,首先將樣本的三維模型轉換成所需要的點云模型,然后利用3D Harris關鍵點提取算法[14]提取特征點作為點云的關鍵點,用標注軟件對自定義樣本模型數據集特征進行標注,使得點云模型的關鍵點與特征的中心點對應。然后用YOLOv5-CBE目標檢測算法對樣本數據集標注局部特征學習,此時特征的中心點即為樣本模型的關鍵點。得到兩組對應關鍵點以后,利用奇異值分解法(SVD)計算出旋轉矩陣R和平移矩陣T,得到6D位姿。YOLOv5目標檢測算法檢測速度快,檢測精度高,但是在物體的局部特征檢測與準確定位方面,性能還有待加強。本文選取的樣本模型,局部特征復雜且不易區分,定位不準確,為了更好地對樣本的局部特征進行檢測并定位,本文在YOLOv5算法的基礎之上,提出了一種YOLOv5-CBE目標檢測算法。

1.1 YOLOv5-CBE算法

YOLOv5算法結構如圖2所示,包括輸入端、主干網絡、檢測層和輸出端。輸入端用Mosaic數據增強的方式對輸入圖片自適應縮放。主干網絡包括Focus、Conv、C3和SPP模塊,可以從輸入圖像中獲取豐富的特征信息。檢測層則沿用了YOLOv4的多尺度檢測結構,通過兩次上采樣和三次卷積操作,分別在20×20、40×40、80×80三個尺度條件下,實現大中小目標的識別和位置預測。

針對YOLOv5算法對模型的局部特征檢測精度有所下降,定位不準等問題,本文通過在主干網絡加入SCAA模塊,在neck檢測網絡中加入BiFPN模塊,提升算法對于局部特征檢測以及定位的精度,改進后的算法在自定義數據集上測試具有很大的優越性,這為6D位姿估計實驗打下了基礎。

1.1.1 Backbone網絡加入SCAA模塊

對于整體的輸入圖像,局部特征信息在整體圖像中占比很小,其余的圖像信息均作為背景出現,在多次卷積后,背景信息會多次迭代累積,從而造成信息冗余的現象,對本文標記的特征信息造成干擾。本文通過對模型的局部特征進行檢測并定位,利用各部分特征的位置信息進行后續的6D位姿估計,因此精準的定位非常重要。為了得到更加精確的定位,本文將空間注意力機制(SA)與坐標注意力機制(CA)結合起來,特征信息通過空間注意力機制以后進行加權融合,再通過坐標注意力機制,將帶有空間信息的特征分別沿水平方向和垂直方向進行聚合加權,形成兩個獨立的特征圖;最后將帶有方向編碼信息的特征進行儲存,這樣對于局部特征信息的雙重定位將會使檢測更加準確。SCAA模塊結構如圖3所示。假設輸入的特征信息為N,在通道維度層面對輸入特征進行壓縮,然后對壓縮以后的特征進行最大池化和平均池化操作,也就是分別在兩個通道時提取最大值和平均值,最后將兩個通道的特征圖進行融合,經過一個卷積層,得到權重系數Ns,輸出特征Nf是輸入特征N與權重Ns的乘積,權重系數Ns表達式如式(1)所示。

Ns=σ(f7×7([AvgPool(N);MaxPool(N)])=

σ(f7×7([Nsavg;Nsmax]))(1)

整個空間范圍高為H,寬為W,在(H,1)的垂直范圍里,用池化核對垂直方向的坐標信息編碼并保存;在(1,W)的水平范圍里,用池化核對水平方向的坐標信息進行編碼并保存,用式(2)和(3)表示。

Dhc(h)=1W∑0≤ilt;WNf(h,i)(2)

Dhc(w)=1H∑0≤jlt;HNf(j,w)(3)

將具有精確編碼信息的特征進行拼接,然后經過1×1卷積變換函數F1和非線性激活函數δ,可以得到編碼空間信息的中間特征f,用式(4)表示。

f=δ(F1([Dh,Dw]))" f∈Euclid Math TwoRApC/τ×(H+W)(4)

然后用1×1卷積Fh和Fw生成注意力權重mh和mw,用式(5)表示。

mh=σ(Fh(fh)),mw=σ(Fw(fw))(5)

最終通過式(6)計算注意力模塊的輸出特征Nc:

Nc(i,j)=xc(i,j)×mhc(i)×mwc(j)(6)

為了突出目標的特征信息,本文在主干網絡backbone層的C3模塊后加入了SCAA模塊,在經過C3模塊獲得深層次的特征信息后,對空間權重大的特征信息在水平方向和垂直方向進行編碼,對目標模型局部特征更好的識別和定位,新的網絡結構如表1所示。

1.1.2 多尺度融合網絡

YOLOv5的neck結構同YOLOv4一樣,采用的是路徑聚合網絡(path aggregation network for instance segmentation,PANet)[15]和特征圖金字塔網絡網絡(feature pyramid networks,FPN)[16],本文引入的BiFPN模塊結構如圖4[12]所示。與YOLOv5的檢測網絡使用的PANet+FPN相比,BiFPN模塊刪除了對于特征融合網絡貢獻比較小的節點,簡化了雙向網絡;并且在原始輸入節點和輸出節點之間增加了一個跳躍連接,可以在不增加太多運算量的條件下融合更多的特征;每個雙向路徑(自頂向下和自底向上)可以多次重復,實現了高層次的特征融合。

鑒于BiFPN結構特征融合方式的優越性,本文將BiFPN結構融合到YOLOv5算法模型中,改進后的模型結構如圖5所示。

下面說明新型特征融合網絡的工作方式,將特征融合的方式用式(7)表示。

feature=[f1;f2;f3](7)

其中:f1、f2、f3表示雙向特征融合網絡的三個特征;[;]表示將兩個特征按照通道維度數進行兩兩拼接;feature表示特征按照通道維度拼接后生成的新的特征。在圖5中,Pi表示前饋深度神經網絡提取到的多尺度融合特征。

如圖5所示,N3、N4、N5是通過新型的雙向特征融合網絡后生成的多尺度融合特征,以特征N3生成為例,特征P3是特征P2通過下采樣生成的,特征F4通過上采樣并與特征P3按通道維度拼接生成特征F3,多尺度融合特征N3則是特征N2、特征F3和特征P3按照通道維度拼接后生成的,YOLOv5結構中的CSP算子記做函數F,downsample是指通過卷積二倍下采樣,特征N3融合方式如式(8)所示。

N3=F[downsample(N2);F3;P3](8)

同理,特征N4、N5融合方式如式(9)和(10)所示。

N4=F[downsample(N3);F4;P4](9)

N5=F[downsample(N4);P5](10)

這樣設計直接將底層特征信息與高級語義信息融合送入到損失函數中,既包含底層的定位信息,又包括了高層語義信息,有助于檢測局部小特征,性能更加優越。

1.2 用奇異值分解法計算6D位姿

首先,將樣本的三維模型轉換成所需要的點云模型,原始點云模型的點數太多,無法作為全部的特征點進行學習,需要提取代表性較強的關鍵點作為特征點。3D Harris關鍵點提取算法可以提取出具有關鍵特征的局部特征點,因此本文采用3D Harris關鍵點作為特征關鍵點,提取的點云特征關鍵點如圖6所示,提取的關鍵點分別代表樣本模型的局部特征較強的點,并以點云模型的質心為原點,輸出點云坐標系下關鍵點的三維坐標。假設點云坐標系和相機坐標系完全重合,將此時兩坐標系重合時的點云模型姿態定義為初始姿態。

樣本模型數據集中的圖片,保證在相機可以拍到的視角內,每個姿態的局部特征不少于四個,選取在相機視野下可以看到的點云3D Harris 關鍵點,并用標注軟件對樣本模型數據集特征標注,使點云模型的關鍵點與特征的中心點對應。YOLOv5-CBE算法網絡對樣本數據集的標注特征學習完以后,特征的中心點即為樣本模型的關鍵點,假設特征標注框的四個角點坐標分別是(x1,y1),(x1,y2),(x2,y1),(x2,y2),那么特征的中心點坐標(u1,v1),則可以用式(11)和(12)表示。

u1=(x1+x2)/2(11)

v1=(y1+y2)/2(12)

結合Intel D435i雙目相機,計算出中心點坐標(u1,v1)和此刻的深度信息Zc,根據坐標轉換式(13),結合第1章求出的相機內參,可以計算出此時每個關鍵點在相機坐標系下的相機坐標(Xc,Yc,Zc)。

Zcuv1=fx0u00

0fyv00

0010XcYcZc1(13)

由此得到了兩組對應的關鍵點集,即點云模型關鍵點和樣本模型的對應關鍵點,兩組點集分別命名為點集A和B,其中R是旋轉矩陣,T是平移矩陣。利用SVD方法計算A、B兩組對應點集之間的旋轉平移矩陣,可以分為以下步驟:

a)根據式(14)和(15)分別計算出兩組點集的平均中心centroidA和centroidB,這里的平均中心指的是點集中點的平均值。

centroidA=1N∑Ni=1Ai(14)

centroidB=1N∑Ni=1Bi(15)

其中:Ai和Bi都是3×1的向量,代表點的坐標值,表達形式為xyz。

b)尋找最優的旋轉矩陣。先將兩個點集A和B集中于原點,接著根據式(16)計算點集之間的協方差矩陣H,用SVD方法計算出矩陣的U、S、V,最后根據式(18)計算出旋轉矩陣R。

H=∑Ni=1(Ai-centroidA)(Bi-centroidB)T(16)

[U,S,V]=SVD(H)(17)

R=VUT(18)

c)計算平移矩陣。首先計算兩個坐標系之間的尺度,雖然點云坐標系和相機坐標系的原點和坐標軸重合,但是兩個坐標軸的尺度是不同的,設兩者的尺度比例為λ,則

λ=average‖A-centroidA‖‖B-centroidB‖(19)

等量關系變為

(B-centroidB)=1λR(A-centroidA)(20)

對以上等式化簡可得:

B=1λRA-1λR*centroidA+centroidB(21)

此時計算的旋轉矩陣為1λR,平移矩陣為-1λR*centroidA+centroidB,也就是求出的6D位姿。

2 實驗結果與分析

實驗分為兩個部分,第一部分是YOLOv5算法與改進后的YOLOv5-CBE算法在自定義數據集上的訓練效果與性能分析,并與當前主流的目標檢測網絡進行對比實驗,并分析性能;第二部分是利用改進后的YOLOv5-CBE算法網絡對單個模型、多個模型分別在復雜背景條件以及遮擋環境下進行6D位姿估計,并分析其性能。

2.1 實驗環境

本實驗所用的處理器為:Intel CoreTM i5-10200H CPU @ 2.40 GHz,16 GB運行內存,顯卡為NVIDIA GeForce RTX3050 Laptop GPU,操作系統為Windows 10,64位,所用的實驗軟件是Visual Studio 2017和PyCharm,整個實驗基于深度學習框架PyTorch1.9.0,實驗環境是Python 3.8,GPU加速軟件是CUDA 11.1和cuDNN8.1.1,實驗所用的深度相機是Intel D435i雙目相機。

2.2 相機內參

本實驗所用的攝像頭為Intel D435i雙目相機,YOLOv5在得到樣本模型各部分特征的像素坐標后,需要根據相機內參,將像素坐標轉換到相機坐標系下,因此用張正友標定法[17]對Intel D435i相機內參進行標定,得到的相機內參如表2所示。其中,fx、fy分別表示X方向和Y方向的等效焦距;u0、v0分別表示相機感光板中心在像素坐標系下的坐標。

2.3 實驗數據集

由于YOLOv5-CBE目標檢測算法在對樣本模型的局部特征識別時,特征的顏色和紋理是學習的重要信息,本文提出的6D位姿估計算法需要雙目相機同時獲取模型的深度信息和紋理特征信息,而現有的公共數據集無法滿足本實驗的要求,所以本次實驗的數據模型都是基于自定義的樣本模型數據集。

本實驗中自定義數據集使用的樣本模型為小貓(cat)、鴨子(duck)、相機(camera)、熨斗(iron)、熊貓(panda)和電鉆(drill),用Intel D435i雙目相機采集不同姿態環境下的樣本照片1 500張,通過鏡像、裁剪、旋轉、平移等方式將數據集擴充至3 000張,并用LabelImg軟件對每張圖片的樣本模型特征按照編號進行標注,樣本模型數據集按照8:1:1的比例被隨機劃分訓練集、測試集和驗證集,其中訓練集2 400張,測試集和驗證集各300張,標注后的特征如圖7所示。

2.4 YOLOv5-CBE算法的實驗驗證與性能分析

2.4.1 評估指標

為了驗證YOLOv5-CBE算法改進的性能,本文使用召回率R(recall)、精確度P(precision)、平均精度AP(average precision)、平均精度均值mAP@0.5(IOU=0.5)和mAP@ 0.5:0.95等評價指標[18]。召回率含義為在實際為正的樣本中被預測也為正的概率,可以用式(22)表示;精確度含義為在預測為正的樣本中實際為正的概率,可以用式(23)表示。其中TP代表預測為1,實際為1,預測正確;FP代表預測為1,實際為0,預測錯誤;FN代表預測為0,實際為1,預測錯誤。平均精度AP是P-R曲線中曲線與坐標軸圍成的面積,mAP含義是各類平均精度的均值,可以用式(24)(25)表示;mAP@0.5含義是當IOU=0.5時的平均精度均值。

recall=TPTP+FN(22)

precision=TPTP+FP(23)

AP=∫10P(R)(24)

mAP=∑cj=1APj/C(25)

2.4.2 模型訓練參數設置

用YOLOv5-CBE網絡訓練自定義數據集時,輸入圖片尺度為640×640,設置訓練迭代次數為150,采用隨機梯度下降策略(簡稱SGD)優化損失函數,具體的參數設置如表3所示。

2.4.3 實驗驗證與分析

為了驗證 SCAA模塊的性能效果,分別按照表1的組合方式,在主干網絡的相同位置加入CA和SCAA模塊,圖8是改進前后的邊框損失曲線。

由圖8可以看出,在主干網絡中加入CA和SCAA模塊邊框損失都比原始的YOLOv5算法要小,但是兩者相比較,加入SCAA模塊邊框損失收斂速度更快,損失更小,說明邊框定位更加準確,更加符合本文對于局部特征定位準確的要求。

基于第2章提出的改進策略,分別在YOLOv5算法網絡中加入空間—坐標注意力機制和多尺度特征融合網絡,并對兩個改進模塊做消融實驗(ablation experiment),改進后的實驗結果如圖9所示,橫軸代表迭代次數(epoch),縱軸分別代表精確度(precision)、召回率(recall)、IOU=0.5時的平均精度均值(mAP@0.5)和mAP@0.5:0.95。

由圖9(a)可知,當迭代次數在50~150次時,與原始的YOLOv5算法相比,YOLOv5+ SCAA模塊和YOLOv5+BiFPN模塊的精確度都要高于原始的YOLOv5算法,并且都比原始的YOLOv5算法達到收斂的速度快;YOLOv5+BiFPN模塊的精確度增幅要高于YOLOv5+SCAA模塊的增幅,當迭代次數達到60次時,YOLOv5+BiFPN模塊的曲線開始收斂,此時YOLOv5+SCAA模塊的曲線并沒有收斂,當迭代次數達到80次時,YOLOv5+SCAA模塊曲線開始收斂。這就說明這兩個改進模塊方案對于提高算法精確度方面起到的效果都是正向的,但加入BiFPN模塊比加入SCAA模塊的收斂效果顯著。對這兩個改進方案做消融實驗可知,與分別加入BiFPN和SCAA模塊相比,YOLOv5-CBE在提高精確度方面,優勢更加明顯;與原始的YOLOv5算法相比,YOLOv5-CBE收斂速度更快,性能更加優越。由圖9(b)可知,召回率的收斂性能曲線與精確度的收斂曲線的走勢大體上是相似的,但是又稍有不同,迭代到第10次以后,YOLOv5+SCAA模塊、YOLOv5+BiFPN模塊以及YOLOv5-CBE的召回率高于原始的YOLOv5算法,并且三者的收斂速度依次遞增,YOLOv5-CBE在迭代到75次時,達到收斂。說明加入SCAA和BiFPN模塊對于提高算法的召回率都起正向的效果,但是兩者相比,加入BiFPN模塊的效果更好;由圖9(c)(d)可知,兩者的收斂曲線與召回率的收斂曲線走勢大體一致,即與原始的YOLOv5相比,加入SCAA和BiFPN模塊對于mAP@0.5和mAP@0.5:0.95的提升都有正向促進作用,但是加入BiFPN模塊的正向促進作用更加明顯,消融后的YOLOv5-CBE算法的收斂速度較前三個都要快,性能最好。

以上是從曲線走勢分析各個改進模塊對于網絡性能提升的促進作用,表4則以量化的方式分析各改進模塊對于精確度(precision)、召回率(recall)、IOU=0.5時的平均精度均值(mAP@0.5)和mAP@0.5:0.95的影響。

由表4可知,加入SCAA和BiFPN模塊對于precision、recall和mAP@0.5均有提升,對于識別和檢測樣本模型的深層特征效果更好;將兩個改進點模塊同時作用于YOLOv5算法時,改進后的算法對于三項指標分別提高了3.6%、2.8%、2.5%,這些改進對于更好的識別和定位樣本模型的局部特征具有顯著的促進作用。

為了驗證YOLOv5-CBE算法網絡對于樣本模型的局部特征檢測的實驗效果,從測試數據集中挑選出不同姿態的樣本模型照片進行測試,實驗結果如圖10所示。改進后的YOLOv5-CBE算法對于局部特征檢測的置信度更高,目標檢測性能更好。

為了更加精確地對比算法改進前后的定位效果,對圖11改進前后計算出的四個特征的中心點坐標與實際測量出的中心點坐標進行了誤差分析,分析結果如表5所示,其中改進前代表YOLOv5算法,改進后代表YOLOv5-CBE算法。

由表5可知,改進后算法計算出的四個特征點的相機坐標與改進前的相比誤差有所減小,特征mouth誤差由2.7 mm減小到2.0 mm,準確度提升了25%;特征head誤差由4.2 mm減小到3.9 mm,準確度提升了6.7%;特征tail誤差由4.1 mm減小到3.3 mm,準確度提升了19.6%;特征wing誤差由3.2 mm減小到2.5 mm,準確度提升了21.4%。由此可以得出結論,相比于原始的YOLOv5算法,改進后的YOLOv5-CBE算法對局部特征的定位具有顯著的效果,最高可以提升25%。

為了驗證YOLOv5-CBE算法對于樣本模型局部特征檢測的優越性,將自定義的樣本模型數據集在現有的主流目標檢測算法YOLOv3、YOLOv4、YOLOv5、Faster-RCNN、SDD上進行訓練,并以精確度(precision)和每秒檢測幀數FPS作為衡量指標,檢測其性能的優越性,實驗結果如表6所示。

由表6可知,用主流檢測算法訓練自定義的樣本模型數據集,YOLOv5-CBE算法對于目標特征檢測的精確度最高,達到98.7%;YOLOv5-CBE算法每秒檢測幀數(FPS)位于第二位,比YOLOv5算法慢了1幀,原因是加入坐標注意力機制,主干網絡結構更加復雜,使檢測速率減慢,但是在檢測精確度上卻有很大的提升。YOLOv5-CBE算法網絡在檢測速率并沒有大幅降低的同時,檢測精確度有顯著的提升,為接下的位姿估計實驗奠定良好的實驗基礎。

2.5 6D位姿估計的實驗驗證與性能分析

2.5.1 評估指標

在6D位姿估計實驗中,有兩個精度檢測評價指標,分別是二維重投影精度[19] (2D reprojection)和ADD度量精度[20]:

1)二維重投影 二維重投影誤差是6D位姿估計在二維層面的一個衡量指標,指的是物體真實位姿的3D bounding box 8個頂點的二維投影與預測位姿的的3D bounding box 8個頂點的二維投影的平均距離小于5個像素時,則認為此時的位姿估計是正確的。

2)ADD度量精度 ADD度量是6D位姿估計在三維層面的一個衡量指標,是指物體真實位姿的3D bounding box 8個頂點與預測位姿的的3D bounding box 8個頂點的平均3D距離小于物體直徑的十分之一,則認為此時的位姿是正確的,可以用式(26)表示,其中M代表3D bounding box 8個頂點的集合,[R/T]代表真實的旋轉平移矩陣,[R^/T^]代表預測的旋轉平移矩陣。

ΔADD=1|M|∑x∈M‖(Rx+t)-(R^x+)‖(26)

2.5.2 實驗驗證與分析

如圖12所示,(a)組圖代表單目標物體的6D位姿估計,(b)組圖代表多目標物體的6D位姿估計,其中紅色框代表真實的6D位姿,藍色框代表預測的6D位姿框。可以看出在雜亂背景中,該算法對于不同姿態樣本模型,都可以正確估計其6D位姿。

位姿估計精度結果如表7所示,6個樣本模型的二維重投影精度和ADD度量精度都在90%以上,并且6個模型的二維重投影精度和ADD度量精度平均值都在95%以上,說明本文算法對模型的6D位姿估計具有不錯的效果。

物體遮擋的實驗結果如圖13所示,當遮擋情況在20%、40%、60%、70%時,都可以準確預測其6D位姿,并且與無遮擋時模型的6D位姿進行比較可知,遮擋后的6D位姿估計與遮擋前的6D位姿估計精確度并無明顯下降,表8則是不同遮擋條件下,本算法對于模型6D位姿估計的精確度。

當遮擋情況存在時,只要未遮擋區域的局部特征關鍵點數至少存在三個,此時就可以準確估計模型的6D位姿,而精確度并不因遮擋情況的存在而有較大波動,說明本算法引入的局部特征檢測對于處理遮擋情況具有很大的優越性,對于遮擋情況下的6D位姿估計具有很強的魯棒性。

圖14則是多目標物體在遮擋情況下的6D位姿估計情況,可以看出,多目標物體同時遮擋的情況下,本算法對于多目標物體6D位姿估計依然有較好的魯棒性,每個目標物體位姿都能夠準確估計。

本文提出的6D位姿估計算法需要輸入RGB圖片以及點云模型關鍵點,同時用雙目相機測量局部特征的深度信息,因此YCB-Video數據集在本實驗中是不適用的,表9是不同位姿估計算法在不同數據集中的平均精確度。

由表9可以看出,針對有紋理數據集的6D位姿估計算法,本文算法對于有紋理模型的平均精確度是95.2%,比其他三種6D位姿估計算法針對有紋理模型的平均精確度都高,說明本文提出的6D位姿估計算法針對有紋理模型的位姿估計是有效的。

本文提出的6D位姿估計算法結合Intel D435i雙目相機,可以實現對相機視角下場景模型實時性的6D位姿估計,檢測速率可以達到35 fps。表10是當前6D位姿估計算法中的檢測速率對比。

3 結束語

本文針對目前6D位姿估計算法中對于遮擋物體的6D位姿估計的精確度不高的問題,提出了一個局部特征表征的端到端6D位姿估計算法。首先將空間注意力(SA)與坐標注意力(CA)結合,提出了一個空間—坐標注意力機制(SCAA),然后在YOLOv5的主干網絡中加SCAA網絡,在檢測層引入加Bi-FPN網絡,組成一個新的YOLOv5-CBE檢測網絡,改進后算法的精確度、召回率、平均精度均值分別提升了3.6%、2.8%、2.5%,并且局部特征中心點坐標誤差較改進前的算法最高提升25%左右;其次,用 YOLOv5-CBE算法檢測局部特征關鍵點,并與3D Harris關鍵點通過奇異值分解法計算出模型的6D位姿,在最高遮擋70%的情況下,仍然可以保證二維重投影精度和ADD度量精度在95%以上,具有較強的魯棒性。該算法在RTX3050顯卡上幀率可以達到35 fps,具有很好的實時性。

目前該算法主要針對的是有紋理的模型,對于無紋理或者弱紋理的模型特征檢測可能比較困難,后續將考慮檢測模型的關鍵點,實現對于無紋理或者弱紋理模型的6D位姿估計。

參考文獻:

[1]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[2]Zhang Tielin,Yang Yang,Zeng Yi,et al.Cognitive template-clustering improved LineMod for efficient multi-object pose estimation[J].Cognitive Computation,2020,12(4):834-843.

[3]Qiu Linrun,Zhang Dongbo,Tian Yuan,et al.Deep learning-based algorithm for vehicle detection in intelligent transportation systems[J].The Journal of Supercomputing,2021,77(10):1-16.

[4]Yang Xi,Wu Tan,Wang Nannan,et al.HCNN-PSI:a hybrid CNN with partial semantic information for space target recognition[J].Pattern Recognition,2020,108:107531.

[5]Chen Zixuan,Zhou Huajun,Lai Jianhua,et al.Contour-aware loss:boundary-aware learning for salient object segmentation[J].IEEE Trans on Image Processing,2021,30:431-443.

[6]Kehl W,Manhardt F,Tombari F,et al.SSD-6D:making RGB-based 3D detection and 6D pose estimation great again[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:1521-1529.

[7]Xiang Yu,Schmidt T,Narayanan V,et al.PoseCNN:a convolutional neural network for 6D object pose estimation in cluttered scenes[EB/OL].(2017-11-01).https://arxiv.org/abs/1711.00199.

[8]Wang Chen,Xu Danfei,Zhu Yuke,et al.DenseFusion:6D object pose estimation by iterative dense fusion[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3343-3352.

[9]許德剛,王露,李凡.深度學習的典型目標檢測算法研究綜述[J].計算機工程與應用,2021,57(8):10-25.(Xu Degang,Wang Lu,Li Fan.Review of typical object detection algorithms for deep learning[J].Computer Engineering and Applications,2021,57(8):10-25.)

[10]Yu Tingzhao,Guo Chaoxu,Wang Lingfeng,et al.Joint spatial-temporal attention for action recognition[J].Pattern Recognition Letters,2018,112(9):226-233.

[11]Hou Qibin,Zhou Daquan,Feng Jiashi.Coordinate attention for efficient mobile network design[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13713-13722.

[12]Tan Mingxi,Pang Ruoming,Le Q V.Efficientdet:scalable and efficient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10781-10790.

[13]Kleibergen F,Paap R.Generalized reduced rank tests using the singular value decomposition[J].Journal of Econometrics,2006,133(1):97-126.

[14]趙萬金,龔聲蓉,劉純平,等.一種自適應的Harris角點檢測算法[J].計算機工程,2008,34(10):212-214.(Zhao Wanjin,Gong Shengrong,Liu Chunping,et al.Adaptive Harris corner detection algorithm[J].Computer Engineering,2008,34(10):212-214.)

[15]Liu Shu,Qi Lu,Qin Haifang,et al.Path aggregation network for instance segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern recognition.Piscataway,NJ:IEEE Press,2018:8759-8768.

[16]Tsung L Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:2117-2125.

[17]李洪海,王敬東.攝像機標定技術研究[J].光學儀器,2007,29(4):7-12.(Li Honghai,Wang Jingdong.Research on camera calibration techniques[J].Optical Instruments,2007,29(4):7-12)

[18]Zhu Xingkui,Lyu Shuchang,Wang Xu,et al.TPH-YOLOv5:improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision.Piscataway,NJ:IEEE Press,2021:2778-2788.

[19]Hung Y S,Tang W K.Projective reconstruction from multiple views with minimization of 2D reprojection error[J].International Journal of Computer Vision,2006,66(3):305-317.

[20]Hinterstoisser S,Lepetit V,Ilic S,et al.Model based training,detection and pose estimation of texture-less 3D objects in heavily cluttered scenes[C]//Proc of Asian Conference on Computer Vision.Berlin:Springer,2012:548-562.

[21]Li Yi,Wang Gu,Ji Xiangyang,et al.DeepIM:deep iterative matching for 6D pose estimation[C]//Proc of European Conference on Compu-ter Vision.2018:683-698.

[22]Wu Chenrui,Chen Long,He Zaixing,et al.Pseudo-Siamese graph matching network for textureless objects’ 6D pose estimation[J].IEEE Trans on Industrial Electronics,2021,69(3):2718-2727.

[23]Tekin B,Sinha S N,Fua P.Real-time seamless single shot 6D object pose prediction[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:292-301.

主站蜘蛛池模板: 成人一级免费视频| 99国产精品免费观看视频| 国产成人夜色91| 好久久免费视频高清| a亚洲视频| 亚洲国产成人精品无码区性色| 亚洲伊人久久精品影院| 欧美第一页在线| 视频二区中文无码| 国产精品无码AⅤ在线观看播放| 欧美日本一区二区三区免费| 中国精品自拍| 四虎永久免费在线| 88国产经典欧美一区二区三区| 欧美在线一二区| 亚洲侵犯无码网址在线观看| 粉嫩国产白浆在线观看| 日本尹人综合香蕉在线观看 | 国产你懂得| 在线欧美a| 欧美在线视频a| 欧美成人aⅴ| 亚洲欧美成人综合| 午夜国产小视频| 国产剧情一区二区| 成年人国产网站| 国产第一色| 欧美亚洲第一页| 欧美一级黄色影院| 国产极品美女在线观看| 无码专区国产精品一区| 亚洲日韩欧美在线观看| 国产成人狂喷潮在线观看2345| 狠狠色噜噜狠狠狠狠色综合久| 中国国产高清免费AV片| 日韩高清无码免费| 欧美成人日韩| 国产资源站| 亚洲国产天堂在线观看| 91精品小视频| 无码中文字幕精品推荐| 精品国产网站| 久久久精品无码一区二区三区| 国产一级做美女做受视频| 99在线观看国产| 色老头综合网| 中文字幕在线视频免费| 亚洲男人天堂久久| 91免费在线看| 无码网站免费观看| 国产午夜人做人免费视频中文| 国产av色站网站| 国产精品无码AV中文| 国产精品视频免费网站| 亚洲国产欧美国产综合久久 | 日本草草视频在线观看| 国产成人调教在线视频| 素人激情视频福利| 青青草原国产精品啪啪视频| 国产精品综合久久久| 浮力影院国产第一页| 亚洲中文无码av永久伊人| 国产女人在线观看| 免费观看男人免费桶女人视频| 五月综合色婷婷| 亚洲精品va| 久久久久久国产精品mv| 国产精品美女网站| 999福利激情视频| 亚洲中久无码永久在线观看软件| 国产精品永久免费嫩草研究院| 老司机精品一区在线视频| 欧美午夜视频在线| 久久精品亚洲热综合一区二区| 视频一区亚洲| 伊人查蕉在线观看国产精品| 国产精品亚欧美一区二区| 免费观看成人久久网免费观看| 国产午夜无码片在线观看网站 | 日韩精品资源| 国产丝袜啪啪| www精品久久|