999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用輔助學習的物體六自由度位姿估計

2024-04-07 01:29:54陳敏佳蓋紹彥達飛鵬俞健
光學精密工程 2024年6期
關鍵詞:特征方法模型

陳敏佳, 蓋紹彥*, 達飛鵬, 俞健,3*

(1.東南大學 自動化學院,江蘇 南京 210096;2.東南大學 復雜工程系統(tǒng)測量與控制教育部重點實驗室,江蘇 南京 210096;3.南京航空航天大學 空間光電探測與感知工業(yè)和信息化部重點實驗室,江蘇 南京 211106)

1 引 言

六自由度位姿估計(6-DoF Pose Estimation)是計算機視覺領域的重要研究課題之一,研究的是如何在相機坐標系中,精準描述物體在空間中的3D位置和3D姿態(tài),主要通過坐標系之間的3D平移矩陣和3D旋轉矩陣來表示物體和相機的幾何映射關系。物體六自由度位姿估計是許多智能操作任務的關鍵步驟和先決條件,已被廣泛應用于機器人環(huán)境感知、自動駕駛、增強現(xiàn)實等領域。RGB-D圖像,即深度圖像,包含了傳感器與視點場景對象表面的距離信息,每個像素值和RGB圖像都一一對應,利用3D點投影到2D平面的逆過程,可以獲取對應的三維點云,該點云包含豐富的幾何信息。與僅基于RGB圖像的六自由度位姿估計方法相比,基于RGB-D圖像的方法有利于提高準確性[1-2],能夠同時結合RGB圖像、三維點云兩種不同數據的優(yōu)點,極大地提升估計精度[3]。因此,基于RGB-D圖像的方法在過去十年中得到了廣泛關注和研究。

傳統(tǒng)的六自由度位姿估計算法建立在經驗性的人為設計的關鍵點檢測和特征匹配基礎上,利用SIFT[4](Scale Invariant Feature Transform),SURF[5](Speeded Up Robust Features)等特征描述子為每個像素或局部圖像塊生成稠密的姿態(tài)預測。Drost等人[6]提出了一種點對特征PPF(Point-Pair Feature),在推理階段,場景點的PPF特征和模型點的PPF特征進行匹配,并采用投票得到姿態(tài)。Guo等人[7]應用SURF算子的匹配特征點、雙極線約束、內部參數和特征點深度值等獲得旋轉矩陣和平移矩陣。然而,傳統(tǒng)的方法雖然能夠有效地檢測具有豐富紋理的對象的2D關鍵點,但不能處理無紋理對象,只能提取到很少的局部特征,且在一些存在光照變化和嚴重遮擋的場景,只能獲得有限的性能。

近年來,在深度學習和卷積神經網絡的發(fā)展推動下,許多傳統(tǒng)方法無法解決的問題已通過深度學習得到部分解決,物體六自由度位姿估計的性能取得了極大的提高。已有研究驗證[8-10]表明,在六自由度位姿估計中,基于RGB-D圖像的點級特征比基于RGB圖像的像素級特征更有效、更魯棒,且基于RGB圖像的方法通常需要兩階段甚至多階段推理[11],并在很大程度上依賴2D-3D對應點匹配的精度,因此,國內外研究者們對基于RGB-D圖像的位姿估計進行了大量研究。Wang等人[12]提出的DenseFusion在像素級上融合RGB圖像和深度值。PVN3D[13]采用異構結構,通過PointNet++[14]獲取點云特征,再利用索引操作將點云特征與RGB特征連接起來。Hua等人[15]利用網絡進行關鍵點回歸,并用可微幾何位姿估計器進行位姿誤差的反向傳播。Xu等人[16]提出了雙向對應映射網絡BiCo-Net,通過標準位姿和觀測位姿之間有向點對的局部匹配進行的位姿計算。Zhai等人[17]融合截斷最小二乘-半定松弛算法和最近點迭代算法,建立目標六自由度位姿估計模型,最終保證目標點云和模型點云在重合率較低情況下的精準配準。然而,目前大多數基于RGB-D圖像的稠密融合網絡往往通過索引操作融合特征,這使得網絡能夠獲得魯棒的特征,但也會帶來隨機內存訪問的問題,導致網絡并不高效。

輔助學習(Auxiliary Learning)是一種有效提高網絡效率的方法,目前在計算機視覺領域已有許多成功應用的例子。單任務學習和多任務學習在訓練和推理階段都執(zhí)行單個任務或多個任務,而輔助學習與這兩者不同的地方在于:在訓練階段,同時執(zhí)行一個或多個主要任務以及一個或多個輔助任務,但在性能評估(即測試和推理)階段只執(zhí)行主要任務。如Zhang等人[18]的人臉模型主要任務是人臉關鍵點檢測,而輔助任務為估計頭部位姿和預測臉部屬性;Liu等人[19]的檢測模型中提出了一種學習單目上下文信息的方法作為訓練中的輔助任務,得到豐富且定位良好的二維投影監(jiān)督信號,用于單目三維目標檢測。這些工作都表明,適當的輔助約束有利于目標結果的穩(wěn)定性和魯棒性。

為了在具有挑戰(zhàn)性的場景下,如少紋理和嚴重遮擋等,實現(xiàn)更高精度的物體位姿估計,就必須充分發(fā)揮點云數據的作用,這就需要有效地提取并融合來自二維圖像的顏色信息和三維點云的幾何信息。在這一背景下,受輔助學習思想的啟發(fā),本文提出了一種采用輔助學習的物體六自由度位姿估計方法,旨在提高網絡效率的同時簡化網絡結構。這一方法的核心思想是通過輔助學習在訓練過程中引入額外的任務和信息,以幫助網絡更好地理解和利用點云數據,從而實現(xiàn)更精確的位姿估計。具體而言,在訓練階段,主干網絡采用點云配準策略,并利用一個輔助學習網絡,將其直接回歸得到的全局位姿作為先驗,用于優(yōu)化整個網絡的損失計算;推理階段,僅將主干網絡的輸出用于位姿計算,再基于點對特征PPF對模型點和場景點進行匹配,得到最終的位姿輸出。

2 位姿估計模型構建

采用輔助學習的物體六自由度位姿估計網絡架構如圖1所示。給定一幅RGB-D圖像和物體的三維CAD模型(如圖1左側所示),位姿估計的任務是預測一個變換矩陣T,T=[R|t],其中旋轉矩陣R∈SO(3),平移矩陣t∈R3,矩陣T將目標從自身物體坐標系轉換到相機坐標系,表示了圖像中目標剛體物體在相機坐標系中的位置。

圖1 采用輔助學習的物體六自由度位姿估計網絡架構Fig.1 Network architecture of object 6-DoF pose estimation based on auxiliary learning

圖1中,本文設計的六自由度位姿估計網絡主要包括三個部分:雙分支點云配準(Dual-Branch for Point Cloud Registration,DBR)、輔助學習網絡(Auxiliary Learning Network,ALNet)、點對特征匹配(Point-Pair Feature Matching,PPF)。其中,DBR為主干網絡,在訓練、測試和推理階段均使用,并在測試和推理時利用PPF匹配估計位姿;AL-Net為輔助學習網絡,僅在訓練階段用于直接回歸位姿。

2.1 雙分支點云配準

點云配準根據處理過程可分為初始配準和精確配準。近年來,國內外的研究[20-21]更多關注的是精確配準算法及相應改進應用。然而,初始配準可以為精確配準提供良好的位姿初值,減少精確配準的迭代次數,同時避免算法局部最優(yōu)。本文主干網絡基于點云初始配準思想[16],采用如圖2所示的雙分支點云配準模型DBR。

圖2 雙分支點云配準模型Fig.2 Dual-branch for point cloud registration

首先,對原始圖像進行裁剪,得到包含目標物體的圖像塊I;同時,將物體區(qū)域對應的深度值轉換為點云數據,并根據主成分分析法估計法向量,得到相機空間下的場景點云S。圖2中,第一個分支為相機空間-模型空間(Camera Space to Model Space,C2M)映射,將圖像塊I和場景點云S分別經過CNN(Convolutional Neural Network)和MLP(Multilayer Perceptron)進行特征編碼,提取顏色特征和幾何特征,并利用類似PointNet的方法對特征進行像素級融合,再通過MLP和平均池化得到全局特征。最后經過上采樣解碼得到與輸入點云尺寸大小相同的模型空間下的點云M?。第二個分支為模型空間-相機空間(Model Space to Camera Space,M2C)映射,以CAD模型點云M為輸入,該點云包含了點云坐標、法向量、RGB信息,利用一個簡單的編碼器提取幾何和顏色特征,并同樣進行像素級融合,再經過上采樣解碼得到相機空間下的點云S?。

在C2M分支中,將相機空間下的場景點云S作為模板點云,預測的模型空間下的點云M?作為源點云;在M2C分支中,將模型空間下的CAD模型點云M作為模板點云,預測的相機空間下的點云S?作為源點云,目的是通過這樣雙向映射的方式更好地獲取源點云與模板點云之間的變換關系,便于提高后續(xù)2.3節(jié)中六自由度位姿估計的準確性。

2.2 輔助學習網絡

輔助學習的目的是在訓練階段增加一些網絡分支,對其計算損失項,但在評估階段忽略這些分支,以求取得更好的特征表示。增加的這些分支可能與任務預測的參數并不相關,只是單純地希望網絡特征能具有這個能力。在本方法中,借鑒輔助學習的思想,考慮到主干網絡進行點云配準的本質是為了獲取一對點云之間的變換矩陣,但最終的輸出并沒有涉及具體的旋轉矩陣和偏移矩陣,因此,為了在訓練過程中得到豐富且良好的監(jiān)督信息,設計了一個輔助學習網絡用于直接回歸全局位姿,核心思想是將回歸的結果作為一種先驗,對損失計算進行約束。輔助學習網絡結構分為兩部分:多模態(tài)特征提取及融合模塊(Multi-modal Feature Extraction and Fusion Module,MFEF)和由粗到細的位姿估計網絡(Coarseto-Fine Net,C2F-Net)。

2.2.1 多模態(tài)特征提取及融合模塊

由于給定的RGB-D圖像是良好對齊的,因此,可以使用三維點云作為連接像素和點特征的橋梁。即利用相機內參矩陣將每個像素的深度提升到其對應的三維點,獲得與RGB圖像對齊的Depth-XYZ。考慮到二維卷積運算的一個特點是對相鄰信息進行分組來提取局部特征,于是在MFEF模塊中,通過二維卷積同時提取RGB和點云的局部特征。

MFEF模塊的輸入有兩項:一是同主干網絡一樣的包含目標物體的圖像塊I;另一個是由深度圖轉換得到的點云信息Depth-XYZ。Depth-XYZ表示每個圖像像素的標準化三維坐標,與圖像塊I具有同樣的尺寸,嚴格對齊。給定一幅深度圖像,每個像素(u,v)中存儲的深度值為D,且深度值和相機坐標系下的Z軸值相同,因此,可以通過公式(1)所示的深度圖像和相機坐標系下點云之間的轉換關系獲得Depth-XYZ圖像:

其中:cx,cy是相機中心,fx,fy是x軸和y軸的焦距,[u,v,1]T為圖像像素坐標,[X,Y,Z]T為轉換后相機坐標系下的點云坐標。

為了有效提取來自異構數據源的信息,盡可能防止丟失點云的空間信息,同時提取語義信息和幾何信息,對提取的來自二維圖像和三維點云的多模態(tài)特征進行融合,本模塊共包含三個部分:局部特征提取、空間信息編碼及特征融合。

局部特征提取器將圖像塊I和Depth-XYZ一起作為輸入,通過ResNet18的一個變體提取局部的語義和幾何特征,設置不同的卷積核大小和下采樣率擴大感受野。具體結構如圖3所示,輸出大小為(1 024×32×32)的局部特征。

圖3 局部特征提取器Fig.3 Local feature extractor

空間信息編碼器通過一個類似PointNet的全卷積網絡對具有局部特征的點云進行編碼,用全局信息增強特征。將第一部分獲得的局部特征和Depth-XYZ下采樣的結果進行連接后,用二維卷積操作對每個點的局部特征和坐標進行編碼,然后通過自適應最大池化獲得全局特征,并與點級特征相連接,提供全局上下文。具體結構如圖4所示,輸出大小為(1 024×32×32)的全局特征。

圖4 空間信息編碼器Fig.4 Spatial information encoder

特征融合部分將前兩部分提取的局部特征和點云特征整合在一起,輸出大小為(2 048×32×32)的特征圖。最終形成既具有局部和全局特征,又具有語義和幾何特征的點級特征,這樣的融合有利于使位姿估計對少紋理和嚴重遮擋的情況具有魯棒性。

2.2.2 由粗到細的位姿估計網絡

圖像塊I是對原始RGB圖像語義分割的結果,由于語義分割結果的背景帶來的干擾以及存在遮擋等問題,若對位姿進行直接回歸,則不可避免地存在誤差。為了充分利用點云數據,更好地使用圖像顏色信息和點云幾何信息,進而對粗略的初始姿態(tài)進行細化,設計了C2FNet,目的是使網絡能夠學習糾正自己的位姿估計誤差,改進之前的逐點預測,最終獲得新的全局的預測。

C2F-Net網絡包含兩個步驟:粗(Coarse)位姿估計和細(Fine)位姿估計,是一個由粗到細的過程。

粗位姿估計部分的輸入為經過MFEF模塊后輸出的融合特征,在經過四個卷積層后,得到大小分別為(num_obj×4×N)和(num_obj×3×N)的位姿R和t,即為所有類別的每個點都預測了位姿,其中,num_obj表示物體類別總數,N表示點云的采樣點數,4表示四元數的4個參數(ω,x,y,z),3表示平移矩陣的3個參數(tx,ty,tz)。然后根據類別找到當前輸入物體類別下對應的位姿,經過該操作后的輸出位姿大小為(N×4)和(N×3),也就是為輸入目標物體的每個采樣點都預測了位姿。此時,將當前輸出的位姿結果輸入粗預測過程,即進行粗略的位姿預測。該過程包含以下操作:

2.2.2.1參數轉換

首先將把預測的旋轉參數轉化為旋轉矩陣。網絡回歸出的是四元數的4個數值,要轉換成原始的9個數值。旋轉矩陣R可以由四元數Q=(ω,x,y,z)表示為:

2.2.2.2 點云變換

為每個點求取平均的旋轉矩陣R和平移矩陣t后,由深度數據轉換過來的點云p0,根據剛體變換公式:

其中:p0是相機坐標系下的點云,pnew為預測得到的模型坐標系下的點云。獲得的變換后的新點云pnew包含了空間信息,因此,可以對其提取幾何特征。

細位姿估計具體實現(xiàn)過程如圖5所示。根據當前輸入幀,利用PSPNet(Pyramid Scene Parsing Network)提取包含了顏色信息的color embeddings特征,將其同pnew一起作為輸入,進入細預測過程,利用PointNet思想將兩者進行特征融合,輸出細化后的位姿。此時的輸出位姿R和t的大小分別為(1×4)和(1×3),也就是為當前幀輸入的目標物體預測了一個整體的、全局的位姿。最后,將細化后的位姿輸入損失函數,同樣用類似上述參數轉換和點云變換操作進行損失計算,與粗位姿估計過程不同的是,此時每個采樣點都共享同一個位姿。

圖5 細位姿估計流程圖Fig.5 Pipeline of fine pose estimation

2.3 六自由度位姿估計

Drost等人[6]提出了一種基于有向點對特征PPF的“全局建模,局部匹配”的識別框架,只在點云上操作。點對特征PPF為兩個有向點的相對位置和方向進行編碼,示意圖如圖6所示。

圖6 點對特征示意圖Fig.6 Illustration of point pair feature

給定參考點p1和目標點p2,其法向量分別為n1和n2,PPF可由式(4)形式化定義:

其中:d=p2-p2,∠(a,b)∈[0,π]為向量a和向量b之間的夾角。

基于PPF方法,通過匹配有向點對生成的局部特征來描述目標位姿[22]。在2.1節(jié)的主干網絡中,已經能夠獲得兩組相機空間和模型空間的有向點云,即可以對S中任意一個有向點對與中相應的有向點對進行軸角計算,進而確定位姿。類似地,對M和采用同樣的方式進行處理。采用基于PPF的方法估計六自由度位姿,僅依賴單個點對進行預測,因此對于稀疏點和分布不均勻的點具有良好的魯棒性,在嚴重遮擋的情況下也能取得較好的性能。

最后,將兩個分支的兩組結果取平均,得到最終預測的目標物體的六自由度位姿,這樣的做法能夠充分利用兩個集合的互補信息,獲得更準確的結果。

3 損失函數

對于主干網絡的兩個分支,使用源點云與模板點云之間的L2距離作為損失函數:

其中:N為由深度圖轉換得到的點云的采樣點數,M為從CAD模型表面采樣點數,λ為權重超參數(實驗中根據文獻[16]設置為0.05),(mi,ni)和(aj,bj)分別為C2M和M2C分支的有向點真值為對應的預測點。

在訓練過程中,評估位姿估計網絡可以簡單地對旋轉和平移分別使用單獨的損失函數,例如使用角距離度量旋轉誤差,使用L2距離度量平移誤差。然而,在六自由度位姿估計中,旋轉和平移通常是耦合的,它們相互影響,物體的平移變化可能會導致物體的旋轉變化,反之亦然。因此,將它們分別處理可能會導致不一致性或不穩(wěn)定性。此外,位姿使用一個4×4的變換矩陣表示,該矩陣同時包含了旋轉和平移信息,它們在本質上是相關聯(lián)的,分別處理也會帶來數學表達上的不一致。同時,單獨設計旋轉和平移的損失函數可能會增加模型的復雜性,并需要更多的數據參與訓練。綜合以上考慮,在本方法中,對于輔助學習網絡的直接回歸分支,采用基于ADD(-S)度量的點匹配損失變體來耦合旋轉和平移的估計。位姿估計的點匹配損失定義為真實位姿下目標模型點云上的采樣點,與經過預測位姿變換后同一目標模型點云上的對應點之間的距離。即對于非對稱物體,損失計算定義為:

其中:xk表示K個采樣點中的第k個點,T=[R|t]為位姿真值為預測的位姿,需要注意的是,這里的為全局位姿,即每個點都共享同一個位姿,而不是同文獻[12]和文獻[16]等方法中所采用的每個采樣點都有各自的位姿。

而對于對稱物體,考慮到其具有非唯一性,將優(yōu)化目標定為最小化預測目標模型上的每個點與真實目標模型上最近點之間的距離,損失計算定義為:

因此,整體的損失函數可由式(11)表示:

4 實驗與結果

本文在YCB-Video、LineMOD和LineMOD-Occluded(以下簡稱LM-O)三個常用的公開數據集上進行實驗。實驗硬件配置為Intel i9-12900K CPU,內存為32 GB,單張NVIDIA Ge-Force RTX 3080顯卡,顯存為12 GB。網絡模型通過Pytorch框架搭建。

4.1 數據集與評價指標

4.1.1 數據集

YCB-Video:具有強遮擋、背景雜波和多個對稱物體,包含了21個不同形狀、不同紋理的YCB對象,共有92個RGB-D視頻序列,其中80個序列用于訓練,其余12個序列中的2 949個關鍵幀用于測試,并另外將80 000張合成圖像包含在訓練集中。

LineMOD:由13個序列組成,每個序列包含約1 200張雜亂場景中單個無紋理物體的RGB-D圖像和三維模型。該數據集的主要挑戰(zhàn)是雜亂場景、無紋理對象和光照變化。遵循該領域常規(guī)的數據集劃分方式,將約15%的圖像用于訓練,85%用于測試。

LM-O:是LineMOD的子集,由來自LineMOD序列的1 214張圖像組成,包含了8個帶標注的具有嚴重遮擋的物體。該數據集的主要挑戰(zhàn)是嚴重遮擋,尤其是對于小目標。在本章實驗中,LM-O數據集僅用于測試,訓練在LineMOD數據集上完成。

4.1.2 評價指標

本文使用常用的六自由度物體位姿評價指標進行性能評估。對于YCB-Video數據集,考慮對稱和非對稱物體的總體評價,遵循其他模型常用的評估方法,采用平均距離ADD(-S)和曲線下面積AUC(Area under Curve)作為性能評價指標。給出ADD-S<2 cm的百分比結果,并將AUC的最大閾值設置為10 cm,通過改變距離閾值(0~10 cm)計算ADD-S的AUC。

針對LineMOD和LM-O數據集,對非對稱物體,計算經過預測位姿和真實位姿變換后,目標物體點對之間的平均距離ADD(Average Distance of Model Points);對對稱物體,計算基于最近點距離的ADD-S。將計算距離小于目標物體直徑10%(ADD-0.1d)的結果認為是預測正確的位姿,作為準確性度量。

4.2 實驗結果分析

4.2.1 六自由度位姿估計結果

為了證明所提方法的有效性,將本文方法與國內外現(xiàn)有的其他基于RGB-D圖像的物體六自由度位姿估計方法進行了對比,包括基于直接回歸的方法DenseFusion[12],REDE[15]和PRGCN[23],基于對應學習的方法PVN3D[13],BiCo-Net[16]和DCL-Net[24]。

表1展示了YCB-Video數據集上21個目標物體的評估結果,其中,“<2 cm”表示ADD-S<2 cm預測結果百分比,加粗的物體為對稱物體。可以看出,本文方法與基準網絡BiCo-Net[13]相比,在AUC和ADD-S<2 cm這兩個指標上均能達到較好的估計效果,且在ADD-S<2 cm指標上提高了0.2%。在表中所列方法中,綜合評估結果僅次于DCL-Net[24]。圖7(彩圖見期刊電子版)展示了YCB-Video數據集上部分幀的定性估計結果,將采樣點利用預測的位姿變換后投影到原始二維圖像中,從左到右依次為RGB圖像、對應的深度圖、BiCo-Net[16]預測結果、DCL-Net[24]預測結果以及本文方法預測結果。可以看到,本文方法能夠獲得相對更優(yōu)的估計結果,與基準網絡BiCo-Net[16]相比,在第一行中的大型夾具(天藍色)和超大型夾具(紫色)都有明顯的準確性提高,這兩類物體由于僅具有尺寸上的不同也被認為是有挑戰(zhàn)性的;再如第二行中的金槍魚罐頭(綠色)、第三行中的餅干盒(深藍色)、第四行中的剪刀(珊瑚紅),這些物體都具有不同程度的遮擋或自遮擋情況,本文預測結果較BiCo-Net[16]均更加貼近目標物體,除了網絡本身帶來的作用外,還因為本方法在設計損失函數時,對待測物體的每個采樣點都使用同一個共享位姿,彌補了遮擋區(qū)域部分采樣點可能存在的誤差。此外,與DCL-Net[24]相比,也有一定程度的改進。

表1 YCB-Video數據集上的定量評估結果Tab.1 Quantitative evaluation results on YCB-Video Dataset(%)

圖7 YCB-Video數據集上的位姿估計定性結果Fig.7 Qualitative results of pose estimation on YCB-Video Dataset

表2總結了不同方法在LnieMOD數據集上全部13個目標物體的ADD(-S)結果。根據表2可以看到,本文方法的評估結果略優(yōu)于BiCo-Net[16],同樣僅次于DCL-Net[24]。然而,DCLNet[24]在獲得兩個坐標系下的點云特征并進行匹配后,還通過了一個迭代的基于置信度的位姿優(yōu)化后處理網絡,這樣的設置在一定程度上增加了網絡模型的復雜性,而本文方法則在性能評估階段舍棄輔助學習直接回歸分支,大大減少了網絡參數。因此,相比較而言,本文所提方法仍具有一定優(yōu)勢。圖8(彩圖見期刊電子版)展示了LineMOD數據集上的部分幀的位姿估計定性結果,同樣將采樣點利用預測的位姿變換后投影到原始二維圖像中,從左到右依次為RGB圖像、對應的深度圖、位姿估計真值預測結果、BiCo-Net[16]預測結果、DCL-Net[24]預測結果以及本文方法預測結果。從圖中也可以看出,本文方法較基準網絡BiCo-Net[16]能夠在雜亂場景中具有單色、少紋理特征的物體,如大猩猩擺件、鉆頭、水壺模型上獲得更加準確的位姿估計結果,與DCL-Net[24]也有可比性,這表明本文方法針對少紋理情況也能達到良好的估計效果。

表2 LineMOD數據集上的定量評估結果Tab.2 Quantitative evaluation results on LineMOD Dataset(%)

圖8 LineMOD數據集上的位姿估計定性結果Fig.8 Qualitative results of pose estimation on LineMOD Dataset

表3列出了不同方法在LM-O數據集上8個具有不同程度嚴重遮擋的目標物體位姿估計的定量評估結果。可以看到,本文方法在所有方法中取得了最優(yōu)的性能,與其他模型相比,獲得了較大的提升,ADD(-S)結果較BiCo-Net[16]提升了1.8%,較DCL-Net[24]提升了0.7%,表明本文方法在處理具有不同程度的遮擋情況時有較為突出的優(yōu)勢。

表3 LM-O數據集上的定量評估結果Tab.3 Quantitative evaluation results on LM-O Dataset(%)

由表1~3可以看出,本文方法在進行定量評估的過程中,部分單個目標估計的準確性稍遜于其他方法,但所有物體的平均位姿估計準確率尚佳,這是由于圖像噪聲、光照變化等不確定性因素帶來的結果不穩(wěn)定性;此外,物體在不同視角和遮擋條件下的外觀可能會發(fā)生較大變化,這也會導致單個目標估計容易受到外部因素的干擾,通過平均估計,可以減小這些噪聲和不確定性的影響,提高魯棒性。

表4給出了本文方法與BOP Challenge 2022上部分基于RGB數據、RGB-D數據方法的比較。對于YCB-Video數據集,本文方法僅在AUC這一指標上略低于RCVPose3D[29];對于LM-O數據集,較基于RGB數據的GDR-Net[25]和PFA[26]分別提高了9.1%和7.2%,與ZebraPose[27]和RCVPose3D[29]還有一定的差距。在后續(xù)研究中,將思考學習這些方法中對PBR(Physicallybased Rendering)以及3D Mesh數據的有效利用,不斷挖掘模型潛力。

表4 與BOP Challenge 2022上部分方法的比較Tab.4 Comparison on BOP Challenge 2022(%)

為了進一步驗證本文所提方法在提高網絡運行效率方面的有效性,在LineMOD數據集上對平均推理時間進行評估,同時,為確保實驗結果的公平性和可比性,采用與同行研究中所報道的相同硬件配置,在單張NVIDIA GeForce GTX 1080 Ti顯卡上進行實驗,每幀圖像的平均推理時間如表5所示,其中,Seg表示Segmentation分割,PE表示Pose estimation位姿估計,Refine表示位姿優(yōu)化。從表中可以看出,本文方法雖然在位姿估計部分比DenseFusion[12]和PRGCN[23]耗時略久,但由于不需要位姿優(yōu)化后處理,每幀圖像的平均推理時間總計為69ms,與表中所列方法相當,這在機器人抓取等下游任務中能夠滿足實時性需求。

表5 LineMOD數據集上的推理時間比較Tab.5 Comparison of inference time on LineMOD dataset(ms)

本文還對相關模型的參數量進行了比較,用于驗證所提方法在空間復雜度上所占的優(yōu)勢,比較結果如表6所示。根據表6,本文方法由于在推理階段舍棄了輔助學習網絡,極大程度地減少了模型參數,降低了網絡復雜度。此外,與DCLNet[24]相比,不需要對主干網絡的位姿估計結果進行優(yōu)化后處理,也體現(xiàn)了所提方法在網絡構建方面的優(yōu)越性。

表6 模型參數量比較Tab.6 Comparison of model parameters(M)

4.2.2 消融實驗

為了驗證提出的網絡中各模塊的有效性,本文設置了一系列消融實驗進行驗證,實驗均在LM-O數據集上進行。實驗結果如表7~表8所示。

表7 不同分支下的實驗結果Tab.7 Experiment results of different branches

表8 輔助學習網絡模塊實驗結果Tab.8 Experiment results of auxiliary learning network(%)

表7中,C2M表示雙分支點云配準模型中的相機空間-模型空間映射分支,M2C表示模型空間-相機空間映射分支,AL-Net表示輔助學習網絡分支。這里需要注意的是,當不采用AL-Net分支時(即表格中的前三行),由于網絡的損失函數需要一個六自由度位姿的估計值對雙分支點云配準網絡的輸出進行計算,因此,使用類似Bi-Co-Net[16]中的直接回歸分支(Pose Reg)計算位姿變換矩陣;而采用AL-Net時(即表格中的最后一行),直接將AL-Net的輸出結果作為損失計算的位姿估計值。從表中可以看出,本文提出的輔助學習網絡分支大大提高了模型在LM-O數據集上的估計結果,相較于未使用該分支時提升了2.5%,這表明輔助學習分支在網絡學習的過程中能夠提供更加豐富并有效的監(jiān)督信息,利用良好的先驗估計結果增強網絡的學習能力,進而提升位姿估計的準確性。

表8中,LFE表示局部特征提取器,SIE表示空間信息編碼器,Coarse表示僅使用粗位姿估計,即輸出的是物體每個點的位姿,C2F表示采用由粗到細的位姿估計。根據表8的實驗結果,當同時使用局部特征提取器和空間信息編碼器,并將兩者得到的融合特征輸入C2F-Net時,能夠取得所有方案中的最佳性能,表明多模態(tài)特征提取及融合模塊獲得的來自二維圖像和三維點云的特征為物體位姿估計提供了良好的信息。此外,由粗到細的位姿估計方法也證明對提高估計準確性有較大的幫助。

5 結 論

本文提出了一種采用輔助學習策略的物體六自由度位姿估計網絡,以雙分支點云配準網絡為主干網絡,并設計了一個直接回歸全局位姿的輔助學習網絡,利用輔助學習的思想大大降低了網絡模型的復雜度,提升網絡效率。針對具有少紋理和嚴重遮擋的場景,在三個常用的公開數據集上對所提方法進行實驗,實驗結果表明,本文方法在YCB-Video數據集上所有物體的AUC結果為95.9%,ADD-S<2 cm的估計結果為99.0%;在LineMOD數據集上所有物體的平均ADD(-S)結果為99.4%;在LM-O數據集上所有物體的平均ADD(-S)結果為71.3%。相比于國內外現(xiàn)有的基于RGB-D數據的物體六自由度位姿估計方法而言,本文所提方法利用輔助學習網絡簡化模型,在模型性能上具有明顯優(yōu)勢,在位姿估計準確率上較基準網絡有一定提升,與目前最新的一些方法相比也有較好的競爭力,能夠對少紋理和遮擋情況具有良好的魯棒性。實驗中大部分數據集是從相關工程應用中采集的數據,通過實驗已驗證了本文方法的可行性,可應用于自動化和機器人等領域的實際場景。后續(xù)的工作將進一步優(yōu)化模型,以在實時應用中具有更高的效率,減少推理時間,并考慮在嵌入式系統(tǒng)中部署的可能性,如將本文方法運用在機器人抓取、AGV小車跟蹤等具體場景下,結合實際的精度及實時性需求,探索引入更多多樣性的數據以改進模型的性能,包括在不同環(huán)境、不同光照條件和不同物體紋理下進行數據采集,以增加模型對各種情況的適應能力。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 中文无码影院| 国产成人禁片在线观看| 欧美曰批视频免费播放免费| 天天综合色网| 欧美国产另类| 99久久99视频| 国产人妖视频一区在线观看| 婷婷六月天激情| 免费看的一级毛片| 国产情侣一区| 91精品国产自产在线老师啪l| 日韩精品久久无码中文字幕色欲| 国产成人a毛片在线| WWW丫丫国产成人精品| 国产精品美女网站| 国产免费精彩视频| 国产在线精品99一区不卡| 欧美亚洲国产精品第一页| 亚洲成aⅴ人在线观看| 日本在线免费网站| 国产不卡网| 日本精品视频一区二区| 黄色a一级视频| 色天天综合久久久久综合片| 国产综合色在线视频播放线视| 欧美成人精品在线| 国产第一页亚洲| 99精品这里只有精品高清视频| 欧美国产日产一区二区| 午夜不卡视频| 日本成人精品视频| 久久黄色影院| 欧美精品不卡| 国产高颜值露脸在线观看| 久久久精品国产SM调教网站| 国产最爽的乱婬视频国语对白| 午夜日本永久乱码免费播放片| 日本91视频| 91免费精品国偷自产在线在线| 欧美黄色网站在线看| 看国产毛片| 国产精品va免费视频| 波多野结衣亚洲一区| WWW丫丫国产成人精品| 国产网站一区二区三区| 日韩高清欧美| 亚洲三级片在线看| 欧美精品影院| 亚洲人成人无码www| 成人年鲁鲁在线观看视频| 妇女自拍偷自拍亚洲精品| 久爱午夜精品免费视频| 国产亚洲欧美日韩在线一区| 国产日本视频91| 特级精品毛片免费观看| 一本色道久久88| 中文字幕不卡免费高清视频| 国产肉感大码AV无码| 亚洲精品视频网| …亚洲 欧洲 另类 春色| 精品91视频| 亚洲成人福利网站| 欧美自慰一级看片免费| 中文字幕资源站| 婷婷开心中文字幕| 奇米影视狠狠精品7777| 亚洲精品大秀视频| 天堂va亚洲va欧美va国产| 高清欧美性猛交XXXX黑人猛交| 九九免费观看全部免费视频| 日韩高清无码免费| 国产免费a级片| 免费看黄片一区二区三区| 久久国产高清视频| 日本国产精品一区久久久| 精品一区国产精品| 午夜a视频| 欧美精品在线免费| 这里只有精品在线播放| 久久久噜噜噜久久中文字幕色伊伊| 亚洲色婷婷一区二区| 日本91在线|