999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多任務(wù)學(xué)習(xí)CNN輔助Transformer的手部mesh重建

2022-12-31 00:00:00謝蘇張孫杰王永雄顏婷麗
計(jì)算機(jī)應(yīng)用研究 2022年12期

收稿日期:2022-04-03;修回日期:2022-05-20" 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61673276,61603255)

作者簡(jiǎn)介:謝蘇(1998-),男,江西鷹潭人,碩士研究生,主要研究方向?yàn)槭謩?shì)姿態(tài)估計(jì)、人體姿態(tài)估計(jì);張孫杰(1988-),男(通信作者),上海人,副教授,碩導(dǎo),博士,主要研究方向?yàn)榉蔷€性控制、圖像處理(zhang_sunjie@126.com);王永雄(1970-),男,上海人,教授,博導(dǎo),博士,主要研究方向?yàn)橹悄軝C(jī)器人與機(jī)器視覺;顏婷麗(1998-),女,吉林長春人,碩士研究生,主要研究方向?yàn)榉蔷€性復(fù)雜系統(tǒng).

摘 要:針對(duì)當(dāng)前手勢(shì)姿態(tài)估計(jì)算法未充分利用2D信息輔助3D手部mesh重建的問題,首次在手部Mask、2D熱力圖的基礎(chǔ)上提出引入RGB圖像的HOG特征圖,通過多任務(wù)學(xué)習(xí)CNN的框架對(duì)2D信息進(jìn)行特征提取,并針對(duì)手的拓?fù)浣Y(jié)構(gòu)進(jìn)行信息融合增強(qiáng)。為了解決Transformer encoder中的隱層embeddings維度一致性以及參數(shù)過大問題,設(shè)計(jì)了一種新的 MLP(multi-layer perception)模塊嵌入Transformer encoder之間,達(dá)到embeddings的數(shù)量漸進(jìn)增加以及其維度漸進(jìn)減少的目的,從而完成手部mesh精細(xì)化的預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明該CNN與Transformer混合的新框架在 FreiHAND 和 RHD 數(shù)據(jù)集均取得了較好效果。

關(guān)鍵詞:手勢(shì)姿態(tài)估計(jì);手部mesh重建;HOG 特征;多任務(wù)學(xué)習(xí);Transformer

中圖分類號(hào):TP391.41"" 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2022)12-050-3830-07

doi:10.19734/j.issn.1001-3695.2022.04.0161

Hand mesh reconstruction based on Transformer with assist of multi task learning CNN

Xie Sua,Zhang Sunjiea,Wang Yongxionga,Yan Tinglib

(a.School of Optical-Electrical amp; Computer Engineering,b.School of Science,University of Shanghai for Science amp; Technology,Shanghai 200093,China)

Abstract:Aiming at the current hand pose estimation which doesn’t fully use 2D information to assistance 3D hand mesh reconstruction,this paper further introduced HOG feature of the RGB image based on the use of hand Mask and 2D heatmaps.This paper designed the framework of multi task learning CNN to extract the 2D information,and used the topology of the hand to fused the relevant information.In order to solve two problems:the consistency of hidden embeddings dimensions in Transformer encoder as well as requires heavy computational resources,the model introduced a new MLP(multi-layer perception) module into transformer encoder to increase the length of embeddings and decrease the dimensions of embeddings,thereby the hand mesh was completed in the way from coarse to fine.The proposed new method has achieves better results in two FreiHAND and RHD datasets.

Key words:hand pose estimation;hand mesh reconstruction;HOG feature;multi task learning;Transformer

0 引言

手憑借著強(qiáng)大的機(jī)動(dòng)性和靈敏性成為人類日常生活中使用最頻繁的器官之一,主要用來與外界環(huán)境進(jìn)行互動(dòng)、表達(dá)人類情感等等,被稱為“人類外部的大腦”。手物交互的姿態(tài)估計(jì)是實(shí)現(xiàn)沉浸式人機(jī)交互體驗(yàn)的重要基礎(chǔ)[1,2],可以應(yīng)用于 VR(virtual reality)、AR(augment reality)以及元宇宙中。目前基于深度學(xué)習(xí)的單目 RGB 圖像2D、3D 關(guān)節(jié)點(diǎn)的手勢(shì)姿態(tài)估計(jì)已取得了良好的性能,但是2D、3D 關(guān)節(jié)點(diǎn)的信息難以完全還原手的全部信息,近年來受到3D 計(jì)算機(jī)圖形學(xué)提出的用多邊形網(wǎng)格(mesh)來進(jìn)行三維物體重建[3]的影響,手勢(shì)姿態(tài)估計(jì)開辟三維手部mesh重建的新分支。基于mesh的手勢(shì)姿態(tài)估計(jì)不僅包含了豐富的3D手勢(shì)關(guān)節(jié)點(diǎn)的信息,還包含有手的姿態(tài)形狀、紋理、明亮程度等,因此可以完整地還原手部的運(yùn)動(dòng)姿態(tài)。然而由于手勢(shì)的關(guān)節(jié)自由度高、左右手的高度相似性、雙手或者手與物體的遮擋問題以及RGB圖像固有的深度和尺度模糊性等問題,基于RGB圖像的手部mesh重建是一個(gè)亟待解決且具有挑戰(zhàn)的任務(wù)[4~6]。基于深度學(xué)習(xí)的手部mesh重建或者3D姿態(tài)估計(jì)的方法常用2D、3D等信息作為監(jiān)督。比如文獻(xiàn)[7]利用深度圖轉(zhuǎn)換為三通道圖像使用三級(jí)神經(jīng)網(wǎng)絡(luò)進(jìn)行3D 手勢(shì)估計(jì);Ge等人[8]利用深度圖像生成的3D點(diǎn)云作為網(wǎng)絡(luò)的輸入,針對(duì)手的拓?fù)浣Y(jié)構(gòu)改進(jìn)PointNet;Iqbal等人[9]將由編解碼網(wǎng)絡(luò)生成的中間隱層熱力圖特征和深度特征融合為2.5D表征進(jìn)而預(yù)測(cè)手勢(shì)的3D姿態(tài);同樣Moon等人[10]利用3D點(diǎn)云信息使用V2V-PoseNet進(jìn)行體素到體素的預(yù)測(cè);Chen等人[11]利用手部Mask和2D熱力圖的信息以及3D mesh標(biāo)簽實(shí)現(xiàn)了相機(jī)坐標(biāo)下手部mesh的估計(jì),文獻(xiàn)[12]提出通過高分辨率的RGB圖片以圖像到圖像的形式生成UV圖像,分別使用改進(jìn)型U-Net和SRCNN(super resolution CNN)來預(yù)測(cè)UV圖進(jìn)而通過匹配算法合成手部mesh。

當(dāng)前的大多數(shù)手勢(shì)數(shù)據(jù)集的2D、3D標(biāo)簽的標(biāo)注方式一般采用人工標(biāo)注、機(jī)器標(biāo)注以及兩者相互結(jié)合的方式,但這些方法標(biāo)注的精度是有限的,特別是復(fù)雜手勢(shì)的3D關(guān)節(jié)點(diǎn)以及手部mesh的標(biāo)注。上述提到的3D點(diǎn)云信息以及高分辨率的UV圖等也存在內(nèi)存占用大或者冗余性過大的問題,而原始圖像所提供的信息是完備精確的,因此可以考慮從原始RGB圖像的HOG特征入手,將其作為一種新的2D信息來輔助手部mesh的重建。2020年ViT[13]掀起了視覺領(lǐng)域的Transformer熱潮,但經(jīng)典的ViT通過不斷的堆疊Transformer塊形成柱式結(jié)構(gòu),而非CNN的方式學(xué)習(xí)層次化的特征,而且在網(wǎng)絡(luò)前向傳播時(shí)embeddings的數(shù)量和維度均不改變,因此Heo等人[14]提出將CNN中的pooling層引入ViT網(wǎng)絡(luò),構(gòu)建embeddings數(shù)量減少4倍、維度增大2倍的PiT網(wǎng)絡(luò)結(jié)構(gòu);Transformer在人體姿態(tài)估計(jì)和手勢(shì)姿態(tài)估計(jì)領(lǐng)域也取得了一定的進(jìn)展,傳統(tǒng)Transformer encoder中存在隱層embeddings維度一致性問題,而手勢(shì)姿態(tài)估計(jì)的輸出embeddings為3D關(guān)節(jié)點(diǎn)(21,3)或者mesh頂點(diǎn)(778,3),因此文獻(xiàn)[15,16]采用Transformer的輸出加上FFN層(feed forward neural network)或者在Transformer encoder之間加上全連接層實(shí)現(xiàn)embeddings的維度一步或者逐步地降維。但文獻(xiàn)[15,16]基于Transformer的方法仍然存在著參數(shù)量過大的問題,本文在對(duì)Transformer encoder的embeddings維度進(jìn)行漸進(jìn)降維的基礎(chǔ)上,將embeddings的數(shù)量以類似的方式進(jìn)行漸進(jìn)升維,使得Transformer的輸入embeddings的數(shù)量大大減少,提高整體網(wǎng)絡(luò)的效率并實(shí)現(xiàn)以coarse-to-fine的方式對(duì)手部mesh不斷優(yōu)化。

針對(duì)上述存在的問題,本文提出了一種新的基于CNN和Transformer的混合框架,主要?jiǎng)?chuàng)新和貢獻(xiàn)如下:

a)本文首次將HOG特征引入到基于深度學(xué)習(xí)的手部mesh重建領(lǐng)域,提出了一種基于手部Mask、HOG特征以及2D熱力圖的多任務(wù)學(xué)習(xí)模塊,設(shè)計(jì)了2D信息交叉增強(qiáng)模塊來融合不同任務(wù)輸出的有效特征信息,為后續(xù)手部mesh重建提供更豐富的2D信息特征。

b)通過Grid Mask數(shù)據(jù)增強(qiáng)方式線性擦除RGB圖像中的像素點(diǎn),來模擬手與物體或者手與手之間的遮擋情況,以提高網(wǎng)絡(luò)模型的魯棒性。

c)從人類手的生物學(xué)拓?fù)浣Y(jié)構(gòu)以及正逆運(yùn)動(dòng)學(xué)角度出發(fā),提出使用HOG、Mask的輪廓紋理信息以及2D熱力圖的關(guān)節(jié)點(diǎn)位置信息對(duì)五個(gè)指尖關(guān)節(jié)點(diǎn)和手腕關(guān)節(jié)點(diǎn)進(jìn)行2D信息增強(qiáng)。

d)為解決Transformer encoder隱層embeddings維度的一致性以及參數(shù)量大的問題,提出使用ENUDS_MLP(embeddings number upsampling dimensionality subsampling MLP)模塊嵌入到Transformer encoder之間實(shí)現(xiàn)手部mesh的coarse-to-fine式重建。

1 本文方法

該工作的目標(biāo)是通過對(duì)多個(gè)2D視覺信息分布式進(jìn)行特征提取,使用解碼器預(yù)測(cè)輸出相應(yīng)的2D信息對(duì)原始RGB圖像進(jìn)行信息增強(qiáng)來進(jìn)一步提取更豐富的特征,最后使用帶有ENUDS_MLP模塊的Transformer encoder重建手部mesh并得到21個(gè)3D關(guān)節(jié)點(diǎn)。本文網(wǎng)絡(luò)框架為CNN與Transformer的混合框架,如圖1所示,主要為2D多任務(wù)學(xué)習(xí)、MTFF信息增強(qiáng)、3D重建三個(gè)模塊。

1.1 基本知識(shí)

本文使用如圖2(a)所示的21個(gè)關(guān)節(jié)點(diǎn)手部模型,該模型具有較好的普適性。本文使用的手部mesh是由778的頂點(diǎn)組成,每個(gè)頂點(diǎn)包含了如顏色、法向量和紋理坐標(biāo)等信息,由頂點(diǎn)組成線進(jìn)而形成多邊形網(wǎng)格的mesh,其示例如圖2(b)所示。手勢(shì)3D關(guān)節(jié)點(diǎn)預(yù)測(cè)以及mesh重建的任務(wù)目標(biāo)是:從包含手部的RGB圖像中預(yù)測(cè)出mesh的頂點(diǎn)坐標(biāo)以及21個(gè)3D關(guān)節(jié)點(diǎn)坐標(biāo)。

1.2 引入 HOG 特征

HOG(histograms of oriented gradients)特征是一種在局部區(qū)域檢測(cè)梯度和邊緣方向的特征描述符,其首先對(duì)圖像進(jìn)行歸一化,使用梯度濾波器來計(jì)算圖像中各個(gè)像素的梯度的幅度和方向,然后對(duì)周圍一定數(shù)量的像素點(diǎn)組成的cell(細(xì)胞單元)以及由相鄰細(xì)胞單元組成的block(塊單元)進(jìn)行統(tǒng)計(jì)得到梯度直方圖特征。傳統(tǒng)的機(jī)器學(xué)習(xí)中,梯度直方圖特征在行人檢測(cè)[17]中取得突破性成果;Wei等人[18]將傳統(tǒng)的手工特征HOG首次引入深度學(xué)習(xí)領(lǐng)域的視頻自監(jiān)督預(yù)訓(xùn)練;文獻(xiàn)[19,20]指出2D信息例如手部Mask、2D熱力圖可以有效幫助回歸3D手勢(shì)姿態(tài)和mesh重建。

受以上觀點(diǎn)的啟發(fā),本文在手勢(shì) Mask和2D熱力圖的基礎(chǔ)上進(jìn)一步提出將HOG特征作為2D的監(jiān)督信息之一,相比于3D點(diǎn)云數(shù)據(jù)、體素信息、高分辨率的UV圖,HOG特征具有內(nèi)存占用小、計(jì)算速度快以及由圖像生成的算法簡(jiǎn)單高效等優(yōu)點(diǎn)。如圖3所示為 FreiHAND數(shù)據(jù)集中圖像、Mask標(biāo)注以及本文制作的HOG特征圖標(biāo)注,由圖3第二列和第三列可以看出Mask和HOG均注重關(guān)注手勢(shì)的邊緣信息,為網(wǎng)絡(luò)模型提供了手的輪廓性位置信息,有利于提高網(wǎng)絡(luò)的效率和精度。但是手部Mask在手指全部彎曲狀態(tài)下會(huì)導(dǎo)致部分關(guān)節(jié)紋理信息丟失,而且人工標(biāo)注的Mask存在精度低甚至錯(cuò)誤的情況,如圖3第一行Mask列方框區(qū)域所示;而HOG特征通過算法對(duì)每個(gè)像素進(jìn)行計(jì)算統(tǒng)計(jì),因而包含了更多的局部信息;同時(shí)HOG特征具有圖像的形狀不變性和光度抗干擾性,如圖3第一行所示,HOG特征對(duì)光度顏色變換具有較好的魯棒性;當(dāng)存在手與物交互的情況,如圖3第三行所示,物體的HOG特征也有助于對(duì)手的姿態(tài)進(jìn)行約束性確定。因此將HOG特征與Mask相結(jié)合可以實(shí)現(xiàn)對(duì)整體手勢(shì)輪廓和局部彎曲關(guān)節(jié)點(diǎn)的全部紋理信息進(jìn)行捕獲,并可以有效糾正由于人工標(biāo)注Mask帶來的誤差問題。

1.3 2D多任務(wù)學(xué)習(xí)模塊

假設(shè)bs為輸入網(wǎng)絡(luò)訓(xùn)練時(shí)的batchsize,則輸入圖像維度為bs×3×224×224,上述Mask、HOG特征圖以及2D熱力圖三種2D信息均使用ResNet18作為編碼網(wǎng)絡(luò)來提取低層至高層的特征 F1~F4,分別為經(jīng)過圖4所示的Mask_HOG decoder和heatmaps decoder得到預(yù)測(cè)的Mask、HOG、2D熱力圖以及由Mask和 HOG經(jīng)過信息增強(qiáng)生成的權(quán)重系數(shù)圖,記為I_mask(bs×1×112×112)、I_hog(bs×1×112×112)、I_heatmaps(bs×21×112×112)和I_weight(bs×1×112×112)。

Mask_HOG decoder模塊如圖4所示,該模塊的輸入為經(jīng)過編碼器輸出得到的Mask和HOG各四個(gè)高低語義特征,首先分別將Mask和HOG的高級(jí)特征F4通過MFCSA(multiple features cross self-attention)模塊后得到各自的交叉注意特征與上一層 F3特征首先進(jìn)行concat拼接,后經(jīng)過起降維作用的conv卷積層進(jìn)行特征融合作為下一階段的輸入,其內(nèi)部結(jié)構(gòu)將在1.4節(jié)詳細(xì)闡述,循環(huán)3個(gè)MFCSA模塊和1個(gè)MFCSA_C模塊,該過程張量的維度變化過程如圖4所示,最終得到輸出張量大小分別為bs×64×112×112的中間特征以及通過MFCSA_C模塊中的1×1卷積、sigmod激活函數(shù)計(jì)算后上采樣為bs×1×112×112的權(quán)重系數(shù)圖,中間特征再經(jīng)過1×1卷積分別得到Mask和HOG的預(yù)測(cè)結(jié)果。heatmaps decoder結(jié)構(gòu)與Mask_HOG decoder類似,輸入為heatmaps和HOG的相應(yīng)特征,將輸出端的1×1卷積輸出轉(zhuǎn)換為21×112×112對(duì)應(yīng)21個(gè)關(guān)節(jié)點(diǎn)的熱力圖。

1.4 Mask模擬遮擋

由于手勢(shì)姿態(tài)估計(jì)存在著雙手交互以及手與物交互的情況下的遮擋問題,如何提高網(wǎng)絡(luò)對(duì)遮擋部分關(guān)節(jié)點(diǎn)的預(yù)測(cè)是關(guān)鍵的一步。文獻(xiàn)[18,21]均對(duì)輸入的像素進(jìn)行隨機(jī)部分擦除,在圖像修復(fù)和視頻自監(jiān)督預(yù)訓(xùn)練取得了 SOTA 效果;Huang等人[22]提出AID(augmentation by information dropping)數(shù)據(jù)增強(qiáng)手段運(yùn)用于人體姿態(tài)估計(jì);Lin等人[16]提出使用Transformer框架進(jìn)行手勢(shì)mesh重建,并借鑒自然語言處理領(lǐng)域的MLM(masked language modeling)思想將Transformer的輸入embeddings進(jìn)行隨機(jī)掩碼來模擬手勢(shì)遮擋情況。不同于上述方法,本文提出使用Grid Mask[23]數(shù)據(jù)增強(qiáng)的方法對(duì)圖像的部分像素進(jìn)行線性遮擋,起到擦除部分手的關(guān)節(jié)點(diǎn)信息來模擬手勢(shì)遮擋情況,使得網(wǎng)絡(luò)在真實(shí)標(biāo)簽的監(jiān)督下學(xué)習(xí)利用周圍有效信息對(duì)遮擋部分的關(guān)節(jié)點(diǎn)進(jìn)行預(yù)測(cè)。

1.5 2D信息交叉注意以及多任務(wù)特征融合

為了增強(qiáng)原始圖像的手勢(shì)紋理信息以輔助后續(xù)3D重建預(yù)測(cè)手部mesh和3D關(guān)節(jié)點(diǎn),本文設(shè)計(jì)了2D信息交叉注意以及多任務(wù)特征融合模塊。如圖5所示,MFCSA_C模塊為對(duì)多任務(wù)的特征進(jìn)行交叉注意力增強(qiáng)模塊。以Mask_HOG decoder為例,將Mask和HOG的特征記為Fa、Fb,該模塊首先通過concat將兩個(gè)特征進(jìn)行拼接,圖5中1×1卷積和sigmod激活函數(shù)的作用分別為通道降維、計(jì)算得到特征大小為1×W×H的中間權(quán)重系數(shù)圖A;接著采用兩個(gè)和為1的權(quán)重系數(shù)分別對(duì)原始特征進(jìn)行像素級(jí)相乘,即用不同的空間注意力作用于兩者原始特征,達(dá)到在動(dòng)態(tài)保留不同原始特征的有效紋理信息的同時(shí),為后續(xù)上采樣2倍后相加實(shí)現(xiàn)兩者內(nèi)在紋理信息的交叉增強(qiáng)的目的,該操作過程見式(1)。

Up(FaA)+Up(Fb(1-A))(1)

其中:表示哈達(dá)瑪積;1-A表示使用全1矩陣減去中間權(quán)重系數(shù)圖A。MFCSA_C 模塊兩個(gè)輸出分別為兩個(gè)經(jīng)過空間注意力的特征上采樣2倍后再張量相加得到的中間特征、由1×1卷積和sigmod 激活函數(shù)得到的中間權(quán)重系數(shù)圖A上采樣2倍作為交叉增強(qiáng)生成的權(quán)重系數(shù)圖I_weight。MFCSA模塊則直接輸出經(jīng)過空間注意力的特征再上采樣2倍后的兩個(gè)交叉注意特征作為后續(xù)階段使用。

有研究者以手的生物學(xué)的拓?fù)浣Y(jié)構(gòu)為出發(fā)點(diǎn)對(duì)網(wǎng)絡(luò)進(jìn)行特定的設(shè)計(jì),Chen等人[24]提出將手視為五分支的樹型結(jié)構(gòu),使用Pose-REN網(wǎng)絡(luò)對(duì)每個(gè)關(guān)節(jié)點(diǎn)獨(dú)立的使用全連接層預(yù)測(cè),接著分層次的連接起來形成3D手勢(shì)姿態(tài);文獻(xiàn)[19]認(rèn)為對(duì)手部2D關(guān)節(jié)點(diǎn)熱力圖進(jìn)行分組的方式可以更有效地表明2D關(guān)節(jié)點(diǎn)之間的語義關(guān)系;文獻(xiàn)[25]提出一種探索人體關(guān)鍵點(diǎn)之間關(guān)系用于強(qiáng)化結(jié)構(gòu)特征的方法;文獻(xiàn)[16]認(rèn)為人體可以看成連接體結(jié)構(gòu),其內(nèi)部關(guān)節(jié)點(diǎn)可以由末端關(guān)節(jié)點(diǎn)根據(jù)逆運(yùn)動(dòng)學(xué)原理估算出來。受以上觀點(diǎn)啟發(fā),本文認(rèn)為可以結(jié)合2D熱力圖、Mask以及HOG特征的關(guān)節(jié)紋理和位置信息進(jìn)行信息增強(qiáng)處理手部的指尖(末端關(guān)節(jié)點(diǎn))和手腕(根關(guān)節(jié)點(diǎn))共六個(gè)關(guān)節(jié)點(diǎn),從而提高整體關(guān)節(jié)點(diǎn)的預(yù)測(cè)精度。為了將Mask、HOG、權(quán)重圖、2D heatmaps以及權(quán)重圖的特征進(jìn)行有效融合,本文提出了MTFF(multi-task-feature fusion)模塊,具體做法如下:首先在融合2D 熱力圖中時(shí)將五個(gè)指尖和手腕關(guān)節(jié)點(diǎn)的權(quán)重設(shè)置為1,其他關(guān)節(jié)點(diǎn)的權(quán)重設(shè)置為0.8,來對(duì)末端關(guān)節(jié)點(diǎn)和根關(guān)節(jié)點(diǎn)進(jìn)行位置信息增強(qiáng);接著用2D 信息中的Mask和 HOG 豐富的手部邊緣紋理信息來進(jìn)一步加強(qiáng)手勢(shì)末端關(guān)節(jié)點(diǎn)語義關(guān)系。其計(jì)算方法如式(2)所示(式中i=0,4,8,12,16,20表示手腕和指尖末端關(guān)節(jié)點(diǎn),Cat表示張量拼接,表示哈達(dá)瑪積)。經(jīng)過MTFF模塊融合輸出F_Inter維度為bs×6×112×112,如圖6所示。

Cat[RGB,I_enweight,I_mask,I_hog]

其中:I_enweight=I_weight(∑20i=0a·Ii_heatmaps)

(當(dāng)i=0,4,8,12,16,20,a=1;否則a=0.8)(2)

通過使用2D heatmaps手工設(shè)置關(guān)節(jié)點(diǎn)權(quán)重及用Mask和HOG提供的邊緣紋理信息自適應(yīng)關(guān)注結(jié)合關(guān)節(jié)點(diǎn)的方法具有對(duì)手勢(shì)姿態(tài)預(yù)測(cè)的強(qiáng)魯棒性。

1.6 3D重建模塊

對(duì)于2D模塊輸出的包含豐富關(guān)節(jié)點(diǎn)信息的F_Inter,本文采用ResNet50作為編碼器提取高級(jí)語義特征,輸出為F_Mesh(bs×256×14×14)。傳統(tǒng)方法大多采用MANO模型的方法輸出MANO模型的形狀參數(shù)(shape)和姿態(tài)參數(shù)(pose),但是該方法往往具有高度非線性,而手部mesh包含大量的頂點(diǎn),并且Transformer的多頭注意力機(jī)制可以很好地建立mesh頂點(diǎn)之間的關(guān)系。文獻(xiàn)[16]指出的是在人體部分關(guān)節(jié)存在遮擋情況下,Transformer具有更好的全局交互能力,可以充分利用全局和局部信息交互能力解決遮擋問題。本文參考METRO模型[16]進(jìn)行輕量化以及新模塊設(shè)計(jì),并受Ge等人[26]使用圖卷積網(wǎng)絡(luò)(GCN)對(duì)手的mesh網(wǎng)格實(shí)現(xiàn)由粗略到精細(xì)優(yōu)化啟發(fā),本文提出如圖7所示的帶有ENUDS_MLP的Transformer encoder,整個(gè)框架稱為ENUDS_Former,實(shí)現(xiàn)手部mesh重建以及3D關(guān)節(jié)點(diǎn)的預(yù)測(cè)。

為進(jìn)行網(wǎng)絡(luò)輕量化設(shè)計(jì),首先將F_mesh轉(zhuǎn)換大小為(bs×196×256),196近似等于將MANO模型的778頂點(diǎn)下采樣4倍,相比于METRO模型大大減少了輸入的維度,達(dá)到降低計(jì)算量和減少冗余性的目的,位置編碼為原始ViT[13]使用的正余弦函數(shù)。在ViT的encoder中,單個(gè)embeddings輸入的大小為二維矩陣(N×C),N表示embeddings的數(shù)量,C表示單個(gè)embeddings的維度,該模型設(shè)計(jì)中embeddings的維度為超參數(shù),在所有Transformer encoder層中均為固定值,即隱層embeddings維度一致性。不同于METRO提出在Transformer encoder中加入漸進(jìn)線性降維層解決隱層embeddings維度一致性問題,本文提出的ENUDS_MLP模塊作用是在減少embeddings維度的同時(shí)上采樣embeddings數(shù)量,經(jīng)過3個(gè)帶有ENUDS_MLP模塊的Transformer encoder后,最后得到embeddings的大小為(bs×778×3),即組成了MANO模型778個(gè)三維頂點(diǎn),其中embeddings數(shù)量變化過程為194→388→776→778,embeddings維度變化為256→32→4→3,該模塊使用兩個(gè)全連接層實(shí)現(xiàn)embeddings數(shù)量和維度的變化。圖7左側(cè)為通過ENUDS_MLP實(shí)現(xiàn)mesh的coarse-to-fine方式可視化結(jié)果,由于embeddings的維度難以可視化,均以紅點(diǎn)表示,將mesh通過預(yù)定義的轉(zhuǎn)換矩陣得到手勢(shì)3D關(guān)節(jié)點(diǎn)。

2 損失函數(shù)

為了訓(xùn)練整個(gè)CNN和Transformer的混合結(jié)構(gòu),本文對(duì)CNN和Transformer的輸出結(jié)果進(jìn)行有監(jiān)督和自監(jiān)督的方式來減少預(yù)測(cè)值和真實(shí)值的誤差并加快網(wǎng)絡(luò)的收斂速度。對(duì)于數(shù)據(jù)集D={Ii,i,i3D,i2D,,i,i}T,T表示數(shù)據(jù)集圖片的數(shù)量,上橫線表示真實(shí)值,I∈Euclid Math TwoRApw×h×3表示原始RGB圖像,∈Euclid Math TwoRApm×3表示MANO模型的頂點(diǎn)真實(shí)坐標(biāo),用m表示頂點(diǎn)個(gè)數(shù)778,3D∈Euclid Math TwoRApn×3表示3D關(guān)節(jié)點(diǎn)真實(shí)坐標(biāo),用n表示關(guān)節(jié)點(diǎn)的個(gè)數(shù)21,2D∈Euclid Math TwoRApn×w×h×3表示2D關(guān)節(jié)點(diǎn)真實(shí)熱力圖,∈Euclid Math TwoRApw×h×3表示圖片中手部剪影Mask圖,∈Euclid Math TwoRApw×h×3表示手部的HOG特征圖。

本文使用各個(gè)損失函數(shù)公式如下:BCE表示二值交叉熵,除mesh法向量和mesh邊長外其余均為L1正則化。

首先定義2D分支相關(guān)損失函數(shù),分別為Mask、HOG、heatmaps三者的損失函數(shù),組成L2D,如式(3)~(5)所示。

Lmask=BCE(M,)(3)

Lhog=BCE(H,)(4)

Lheatmap=1n∑n1‖J2D,2D‖1(5)

其次定義在三維空間中,關(guān)節(jié)點(diǎn)和mesh定點(diǎn)的相關(guān)損失函數(shù),組成L3D,如式(6)~(9)所示。

L3D joint=1n∑nj=1‖JregV-3D‖1(6)

Lverts=1m∑nj=1‖V-‖1(7)

Lnorm=∑K∈F ∑(a,b)∈K|Va-Vb‖Va-Vb‖·nk|(8)

Ledge=∑K∈F ∑(a,b)∈K|‖Va-Vb‖2-‖a-b‖2|(9)

其中:Jreg∈Euclid Math TwoRApm×n表示由mesh生成3D關(guān)節(jié)點(diǎn)的矩陣;Va、Vb表示頂點(diǎn)V上第a個(gè)和第b個(gè)頂點(diǎn)坐標(biāo);F表示MANO模型mesh的真實(shí)表面網(wǎng)格面;nk表示F的法向量;Lreg3D joint表示由預(yù)測(cè)的mesh通過Jreg矩陣生成的3D關(guān)節(jié)點(diǎn)與真實(shí)3D關(guān)節(jié)點(diǎn)之間的損失函數(shù);Lverts表示預(yù)測(cè)的mesh與真實(shí)mesh各個(gè)頂點(diǎn)坐標(biāo)之間的損失函數(shù);為了使得生成的mesh更加逼真光滑[27],使用Lnorm、Ledge對(duì)mesh的表面網(wǎng)格面進(jìn)行優(yōu)化。

由于2D關(guān)節(jié)點(diǎn)、Mask、HOG以及heatmaps與3D中的關(guān)節(jié)點(diǎn)和mesh是手在不同空間的表現(xiàn)形態(tài),所以兩種形態(tài)之間必然有類似的結(jié)構(gòu)性質(zhì)。為了使得2D、3D保持結(jié)構(gòu)的一致性,本文使用Lrenmask、Lrenhog表示由預(yù)測(cè)的mesh渲染成Mask和HOG圖與對(duì)應(yīng)真實(shí)值之間的損失函數(shù);取預(yù)測(cè)的2D熱力圖的中各通道的最大值作為2D關(guān)節(jié)點(diǎn),用Lproj2D joint表示由3D關(guān)節(jié)點(diǎn)通過正交投影矩陣K生成的2D關(guān)節(jié)點(diǎn)與由熱力圖生成的關(guān)節(jié)點(diǎn)之間的損失函數(shù),如式(10)~(12)所示。

Lrenmask=BCE(Mren,)(10)

Lrenhog=BCE(Hren,)(11)

Lproj2D joint=1n∑nj=1‖KJregV3D-max(2D)‖1(12)

為了使模型達(dá)到較快的收斂速度,用超參數(shù)來平衡誤差的范圍,因此總的損失函數(shù)見式(13)。

Lall=Lmask+aLhog+bLheatmap+L3D joint+

Lverts+cLnorm+dLedge+Lproj2D joint+Lrenmask+Lrenhog(13)

其中:a=0.5,b=2.0,c=d=0.1。

3 實(shí)驗(yàn)與評(píng)價(jià)指標(biāo)

3.1 數(shù)據(jù)集

本文使用的手勢(shì)數(shù)據(jù)集為FreiHAND和RHD,F(xiàn)reiHAND數(shù)據(jù)集包含13 024張的訓(xùn)練集和3 960張測(cè)試集,其中含有訓(xùn)練集的真實(shí)標(biāo)簽為圖片Mask、3D關(guān)節(jié)點(diǎn)坐標(biāo)、MANO模型參數(shù)、相機(jī)內(nèi)外參數(shù)。由于缺少本文所需要的2D關(guān)節(jié)點(diǎn)熱力圖、HOG特征,本文通過對(duì)訓(xùn)練集圖片使用文獻(xiàn)[16]提出的梯度直方圖算法生成手部HOG特征圖;再使用相機(jī)參數(shù)將真實(shí)標(biāo)簽世界3D關(guān)節(jié)點(diǎn)坐標(biāo)轉(zhuǎn)換為RGB圖像中的2D關(guān)節(jié)點(diǎn)坐標(biāo)并進(jìn)行高斯模糊化得到2D關(guān)節(jié)點(diǎn)熱力圖。RHD數(shù)據(jù)集為合成數(shù)據(jù)集,包含41 258個(gè)訓(xùn)練樣本和2 728個(gè)測(cè)試樣本,本文使用該數(shù)據(jù)集來進(jìn)行模型泛化能力測(cè)試。整個(gè)網(wǎng)絡(luò)模型的輸入為圖像以及相應(yīng)的數(shù)據(jù)增強(qiáng)圖像,并裁剪大小為224×224,其中數(shù)據(jù)增強(qiáng)的方法包括旋轉(zhuǎn)、縮放變形、顏色抖動(dòng)以及Grid Mask。

3.2 實(shí)驗(yàn)細(xì)節(jié)

本文使用PyTorch進(jìn)行實(shí)驗(yàn),使用ImageNet數(shù)據(jù)集的預(yù)訓(xùn)練模型初始化多任務(wù)學(xué)習(xí)的編碼主干網(wǎng)絡(luò)以及3D編碼網(wǎng)絡(luò)的ResNet,Transformer Encoder采用Xavier初始化的方法。采用初始學(xué)習(xí)率為10-4的Adam優(yōu)化器,訓(xùn)練batch size為24,訓(xùn)練周期為100 epoch,訓(xùn)練到40和80 epoch時(shí)學(xué)習(xí)率乘以0.1。由于Mask和HOG在80 epoch時(shí)非常小,將這兩者的損失函數(shù)值置為0。本文所提出的框架在帶有3080Ti的Ubuntu 18.04操作系統(tǒng)運(yùn)行。數(shù)據(jù)處理和數(shù)據(jù)增強(qiáng)見3.1節(jié)。

3.3 評(píng)價(jià)指標(biāo)

本文在定量分析中使用以下指標(biāo):

a)MPJPE/MPVPE(mean per joint/verts position error):這兩個(gè)指標(biāo)用來衡量每個(gè)關(guān)節(jié)點(diǎn)或者mesh頂點(diǎn)的位置坐標(biāo)在歐幾里德距離(mm)下與真實(shí)值的誤差。

b)PA-MPJPE/PA-MPVPE(Procrustes analysis mean per joint/verts position error):該指標(biāo)通常用于三維重建,是上述指標(biāo)的改進(jìn)型,在計(jì)算預(yù)測(cè)值和真實(shí)值的誤差前,使用普氏分析方法(Procrustes analysis)[28]對(duì)齊,從而解決了由于三維模型旋轉(zhuǎn)和平移帶來的尺度問題。

c)3D PCK(3D percentage of keypoint):該指標(biāo)是在給定誤差閾值下,以每個(gè)關(guān)節(jié)點(diǎn)的真實(shí)坐標(biāo)值作為球心,以給定閾值為半徑組成球體,預(yù)測(cè)的關(guān)節(jié)點(diǎn)坐標(biāo)值在球體內(nèi)占所有預(yù)測(cè)關(guān)節(jié)點(diǎn)的百分比。

d)F-scores5/F-scores15:該指標(biāo)是在給定距離閾值(5 mm或者15 mm)下,由預(yù)測(cè)值和真實(shí)值組成的兩個(gè)關(guān)節(jié)點(diǎn)集合之間的召回率和精度計(jì)算調(diào)和平均值得來。

4 消融實(shí)驗(yàn)

本章針對(duì)本文提出的HOG特征圖、2D信息增強(qiáng)模塊、Grid Mask數(shù)據(jù)增強(qiáng)、ENUDS_MLP 模塊這些創(chuàng)新改進(jìn)點(diǎn)進(jìn)行消融實(shí)驗(yàn)分析。表1第一行表示為baseline,采用雙分支結(jié)構(gòu)分別預(yù)測(cè)Mask和熱力圖,并使用簡(jiǎn)單的concat連接兩者輸入到ResNet50提取特征,最后使用METRO模型[16]中的Transformer encoder模塊預(yù)測(cè)mesh和手勢(shì)的3D關(guān)節(jié)點(diǎn),得到了PA-MPJPE和PA-MPJVE結(jié)果為7.5 mm和7.7 mm。

2D信息交叉增強(qiáng)模塊作用:該模塊包括1.5節(jié)提到的MFCSA和MTFF模塊。在baseline的基礎(chǔ)上,將Mask和熱力圖進(jìn)行信息融合增強(qiáng),結(jié)果如表1第二行,可以看出關(guān)節(jié)點(diǎn)和頂點(diǎn)的誤差均減少近1 mm,表明融合Mask紋理信息有助于確定手的輪廓位置;而后融合HOG特征后進(jìn)一步提高了效果,說明這兩個(gè)2D信息模塊能夠融合有效的紋理信息,同時(shí)去除了無效信息的干擾。

HOG特征圖作用:由表1第三行可以看出簡(jiǎn)單地加入HOG特征反而增大了關(guān)節(jié)點(diǎn)和頂點(diǎn)的誤差;而繼續(xù)加入2D信息增強(qiáng)模塊后,如表1第六行所示,效果得到了大幅度提升,說明單純加入HOG特征會(huì)造成了信息冗余,進(jìn)一步說明2D信息增強(qiáng)模塊的對(duì)紋理信息的有效提取能力,以及HOG特征對(duì)局部彎曲關(guān)節(jié)點(diǎn)的定位提供了更多紋理信息,進(jìn)一步增強(qiáng)對(duì)末端關(guān)節(jié)點(diǎn)的定位,起到更充分地結(jié)合與手交互物體的信息輔助手勢(shì)的確定作用。

Grid Mask數(shù)據(jù)增強(qiáng)作用:如表1第四行所示,加入Grid Mask數(shù)據(jù)增強(qiáng)方式同樣造成了網(wǎng)絡(luò)性能的降低;而在引入HOG特征并添加2D信息增強(qiáng)模塊后才起到正作用。原因可能在于通過擦除像素點(diǎn)模擬遮擋情況造成了部分關(guān)節(jié)點(diǎn)信息的丟失,引入HOG特征和2D信息增強(qiáng)模塊則通過信息融合的方式彌補(bǔ)了丟失的信息,此時(shí)該數(shù)據(jù)增強(qiáng)手段起到了進(jìn)一步提高了網(wǎng)絡(luò)整體魯棒性的作用。

ENUDS_MLP模塊作用:baseline中輸入維度為(778,2051),為使得輸出(778,3)維度的mesh頂點(diǎn),采用在最后一層Transformer encoder后加入MLP層起到將輸入維度降維作用;本文方法采用帶有ENUDS_MLP模塊的Transformer encoder后,其輸入維度為(196,256),可以看出采用逐步增加embeddings數(shù)量并減少其維度的方法大大減少了計(jì)算參數(shù)量。表1第五行和第八行均表明該模塊可以顯著減少頂點(diǎn)和關(guān)節(jié)點(diǎn)的誤差,結(jié)合上述四種方法后得到了PA-MPJPE和PA-MPJVE結(jié)果均減少近4 mm,表明通過引入HOG特征并進(jìn)行信息增強(qiáng)來輔助Transformer以coarse-to-fine的方式優(yōu)化手部mesh重建更加有效。

5 定性分析與定量分析

表2展示了本文方法與一些SOTA(state of the art)方法比較,包括提出FreiHAND、YouTubeHand數(shù)據(jù)集所使用的方法以及采用線素Lixel方法的I2L-MeshNet和2021年提出的CMR方法,其中I2L-MeshNet方法采用了手勢(shì)框作為輔助信息,結(jié)果表明本文提出的采用CNN與Transformer混合的框架在無須手勢(shì)邊框的信息輔助下取得了更好的結(jié)果。

同時(shí)為了驗(yàn)證本文方法的魯棒性,使用本文提出的網(wǎng)絡(luò)模型在RHD數(shù)據(jù)集上進(jìn)行微調(diào)實(shí)驗(yàn),由于RHD的數(shù)據(jù)集沒有提供mesh頂點(diǎn)的真實(shí)值,將本文的ENUDS_Former輸入輸出改為3D關(guān)節(jié)點(diǎn)并進(jìn)行相關(guān)改動(dòng),在不考慮mesh的相關(guān)損失函數(shù)的情況下,與其他方法的對(duì)比結(jié)果如圖8所示。可以看出該網(wǎng)絡(luò)模型在3D PCK指標(biāo)下優(yōu)于其他方法,同樣取得了很好的泛化效果。圖9(a)~(c)為本文網(wǎng)絡(luò)模型在FreiHAND數(shù)據(jù)集與開源代碼I2L-MeshNet方法進(jìn)行可視化比較的結(jié)果,可以看出本文方法所得到的mesh更加真實(shí)光滑,在手物交互場(chǎng)景中具有更好的預(yù)測(cè)能力。圖9(d)(e)為RHD數(shù)據(jù)集以及作者拍攝的包含手物交互以及場(chǎng)景亮度變化的情況下的圖片測(cè)試結(jié)果展示圖,結(jié)果表明本文方法具有較好的魯棒性。

6 結(jié)束語

為了充分利用2D信息來輔助3D手部mesh重建任務(wù),本文首次引入HOG特征作為2D信息之一,并使用多任務(wù)學(xué)習(xí)的框架對(duì)2D信息進(jìn)行特征提取融合到原始圖像中實(shí)現(xiàn)信息的增強(qiáng);提出使用Grid Mask的數(shù)據(jù)增強(qiáng)來模擬雙手交互以及手與物交互的遮擋問題;針對(duì)手的特殊的拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)了MTFF信息融合增強(qiáng)模塊;通過實(shí)驗(yàn)證明本文提出帶有ENUDS_DMLP模塊的Transformer encoder框架可以更好地實(shí)現(xiàn)mesh精細(xì)化的預(yù)測(cè)。雖然本文提出的手部mesh重建框架以及近年相關(guān)方法均取得了較好的結(jié)果,但是實(shí)際運(yùn)用部署到VR、AR應(yīng)用中仍存在以下難點(diǎn):a)本文包括當(dāng)前大多數(shù)手勢(shì)姿態(tài)估計(jì)或者手部mesh重建的算法均假設(shè)相機(jī)的內(nèi)外參數(shù)為已知條件,采用弱透視相機(jī)模型是一種可行方法,但實(shí)際運(yùn)用效果仍待提高;b)目前針對(duì)視頻流的手部mesh重建較少,對(duì)于快速變化的手勢(shì)姿態(tài),往往存在預(yù)測(cè)誤差過大的問題;c)在VR、AR運(yùn)用中不可避免地存在多人雙手交互以及手與物交互而導(dǎo)致的左右手判別問題、遮擋問題以及交互物體的預(yù)測(cè)問題。因此后續(xù)工作考慮針對(duì)相機(jī)內(nèi)外參數(shù)、多人雙手交互以及手與物交互問題并針對(duì)視頻流三大方面展開研究;方法上則可以進(jìn)一步向弱監(jiān)督、無監(jiān)督的學(xué)習(xí)方式進(jìn)行深入研究。

參考文獻(xiàn):

[1]Sarma D,Bhuyan M K.Methods,databases and recent advancement of vision-based hand gesture recognition for HCI systems:a review[J].SN Computer Science,2021,2(6):1-40.

[2]Tang Xiao,Wang Tianyu,F(xiàn)u C W.Towards accurate alignment in real-time 3D hand-mesh reconstruction[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:11698-11707.

[3]Wang Nanyang,Zhang Yingda,Li Zhuwen,et al.Pixel2mesh:generating 3D mesh models from single RGB images[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:52-67.

[4]王麗萍,汪成,邱飛岳,等.深度圖像中的3D手勢(shì)姿態(tài)估計(jì)方法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2021,42(6):1227-1235.(Wang Liping,Wang Cheng,Qiu Feiyue,et al.A survey of 3D hand estimation methods in depth images[J].Journal of Chinese Computer Systems,2021,42(6):1227-1235.)

[5]張繼凱,李琦,王月明,等.基于單目RGB圖像的三維手勢(shì)跟蹤算法綜述[J].計(jì)算機(jī)科學(xué),2022,49(4):174-187.(Zhang Jikai,Li Qi,Wang Yueming,et al.Survey of 3D gesture tracking algorithms based on monocular RGB image[J].Computer Science,2022,49(4):174-187.)

[6]Huang Lin,Zhang Boshen,Guo Zhilin,et al.Survey on depth and RGB image-based 3D hand shape and pose estimation[J].Virtual Reality amp; Intelligent Hardware,2021,3(3):207-234.

[7]鄒序焱,何漢武,吳悅明.基于三級(jí)神經(jīng)網(wǎng)絡(luò)的魯棒3D 手姿估計(jì)[J].計(jì)算機(jī)應(yīng)用研究,2022,39(3):925-930.(Zou Xuyan,He Hanwu,Wu Yueming.Robust 3D pose estimation based on the three levels of neural network[J].Application Research of Computers,2022,39(3):925-930.)

[8]Ge Liuhao,Cai Yujun,Weng Junwu,et al.Hand PointNet:3D hand pose estimation using point sets[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8417-8426.

[9]Iqbal U,Molchanov P,Gall T B J,et al.Hand pose estimation via latent 2.5 D heatmap regression[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:118-134.

[10]Moon G,Chang J Y,Lee K M.V2V-PoseNet:voxel-to-voxel prediction network for accurate 3D hand and human pose estimation from a single depth map[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5079-5088.

[11]Chen Xingyu,Liu Yufeng,Ma Chongyang,et al.Camera-space hand mesh recovery via semantic aggregation and adaptive 2D-1D registration[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13274-13283.

[12]Chen Ping,Chen Yujin,Yang Dong,et al.I2UV-HandNet:image-to-UV prediction network for accurate and high-fidelity 3D hand mesh mode-ling[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:12929-12938.

[13]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16×16 words:transformers for image recognition at scale[EB/OL](2021-06-03).https://arxiv.org/abs/2010.11929.

[14]Heo B,Yun S,Han D,et al.Rethinking spatial dimensions of vision transformers[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:11936-11945.

[15]Hampali S,Sarkar S D,Rad M,et al.HandsFormer:keypoint transformer for monocular 3D pose estimation of hands and object in interaction[EB/OL].(2021-04-29).https://arxiv.org/abs/2104.14639.

[16]Lin K,Wang Lijuan,Liu Zicheng.End-to-end human pose and mesh reconstruction with transformers[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:1954-1963.

[17]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2005:886-893.

[18]Wei Chen,F(xiàn)an Haoqi,Xie Saining,et al.Masked feature prediction for self-supervised visual pre-training[EB/OL].(2021-12-16).https://arxiv.org/abs/2112.09133.

[19]Chen Xingyu,Liu Yufeng,Ma Chongyang,et al.Camera-space hand mesh recovery via semantic aggregation and adaptive 2D-1D registration[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13274-13283.

[20]Du Kuo,Lin Xiangbo,Sun Yi,et al.CrossInfoNet:multi-task information sharing based hand pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9896-9905.

[21]He Kaiming,Chen Xinlei,Xie Saining,et al.Masked autoencoders are scalable vision learners[EB/OL].(2021-12-19).https://arxiv.org/abs/2111.06377.

[22]Huang Junjie,Zhu Zheng,Huang Guan,et al.AID:pushing the performance boundary of human pose estimation with information dropping augmentation[EB/OL].(2020-12-17).https://arxiv.org/abs/2008.07139.

[23]Chen Pengguang,Liu Shu,Zhao Hengshuang,et al.Grid Mask data augmentation[EB/OL].(2020-01-14).https://arxiv.org/abs/2001.04086.

[24]Chen Xinghao,Wang Guijin,Guo Hengkai,et al.Pose guided structured region ensemble network for cascaded hand pose estimation[J].Neurocomputing,2020,395:138-149.

[25]黃程遠(yuǎn),宋曉寧,馮振華.ARGP-Pose:基于關(guān)鍵點(diǎn)間關(guān)系分析與分組預(yù)測(cè)的3D人體姿態(tài)估計(jì)[J].計(jì)算機(jī)應(yīng)用研究,2022,39(7):2178-2182,2202.(Huang Chengyuan,Song Xiaoning,F(xiàn)eng Zhenhua.ARGP-Pose:3D human pose estimation based on the keypoint relationship analysis and grouping prediction[J].Application Research of Computers,2022,39(7):2178-2182,2202.)

[26]Ge Linhao,Ren Zhou,Li Yuncheng,et al.3D hand shape and pose estimation from a single RGB image[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:10833-10842.

[27]Zhang Xiong,Huang Hongsheng,Tan Jianchao,et al.Hand image understanding via deep multi-task learning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:11281-11292.

[28]Gower J C.Generalized Procrustes analysis[J].Psychometrika,1975,40(1):33-51.

[29]Zimmermann C,Ceylan D,Yang Jimei,et al.FreiHAND:a dataset for markerless capture of hand pose and shape from single RGB images[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:813-822.

[30]Kulon D,Guler R A,Kokkinos I,et al.Weakly-supervised mesh-convolutional hand reconstruction in the wild[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:4990-5000.

[31]Moon G,Lee K M.I2I-MeshNet:image-to-lixel prediction network for accurate 3D human pose and mesh estimation from a single RGB image[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:752-768.

主站蜘蛛池模板: 亚洲精品va| 国产探花在线视频| 91亚瑟视频| 亚洲高清无码久久久| 91午夜福利在线观看| 精品国产99久久| 国产av色站网站| 亚洲浓毛av| 亚洲VA中文字幕| 丁香婷婷综合激情| 国产麻豆另类AV| 美女扒开下面流白浆在线试听| 日韩精品一区二区深田咏美| 91破解版在线亚洲| 日本www在线视频| 国模粉嫩小泬视频在线观看| 国产在线一二三区| 久久人人妻人人爽人人卡片av| 亚洲精品另类| 亚洲精品国产综合99久久夜夜嗨| 91精品国产91欠久久久久| 五月天综合网亚洲综合天堂网| 二级特黄绝大片免费视频大片| 亚洲国产成人精品一二区| 欧美亚洲国产日韩电影在线| 91精品国产自产91精品资源| 亚洲欧美日韩天堂| 色综合久久88| 国产精品一区二区不卡的视频| 青青操视频免费观看| 国产成人乱码一区二区三区在线| 国内毛片视频| 国产精品亚欧美一区二区| 日本在线免费网站| 华人在线亚洲欧美精品| 国产激情第一页| 好久久免费视频高清| 2048国产精品原创综合在线| 日本午夜影院| 亚洲成a人片7777| 国产不卡国语在线| 午夜日b视频| 综合网久久| 国产主播在线一区| 激情在线网| 中文字幕乱码中文乱码51精品| 美女潮喷出白浆在线观看视频| 免费一级无码在线网站| 国产一区二区三区夜色| 国产精品人成在线播放| 国产新AV天堂| 日韩av无码DVD| 国产主播一区二区三区| 麻豆a级片| 亚洲国产精品日韩欧美一区| 人妻一区二区三区无码精品一区 | 人妻无码一区二区视频| 国产日韩精品一区在线不卡| 精品久久高清| 免费福利视频网站| WWW丫丫国产成人精品| 国产精品jizz在线观看软件| 日本亚洲最大的色成网站www| 欧美亚洲一二三区| 国产精品9| 天天爽免费视频| 欧美成人日韩| 色偷偷男人的天堂亚洲av| 色播五月婷婷| 国产精品无码在线看| 日韩国产欧美精品在线| 狠狠色婷婷丁香综合久久韩国| 夜夜操天天摸| 小说 亚洲 无码 精品| 亚洲一级毛片免费观看| 五月婷婷中文字幕| 免费AV在线播放观看18禁强制| 久久精品午夜视频| 国产91在线|日本| 无码中字出轨中文人妻中文中| 亚洲色偷偷偷鲁综合| 精品伊人久久久大香线蕉欧美 |