999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多源圖像弱監督學習的3D人體姿態估計

2020-01-02 09:08:00蔡軼珩王雪艷胡紹斌劉嘉琦
北京航空航天大學學報 2019年12期
關鍵詞:深度模型

蔡軼珩,王雪艷,胡紹斌,劉嘉琦

(北京工業大學 信息學部,北京100124)

基于圖像的人體姿態估計是指獲得給定圖像中人體各部位相對位置信息的過程,可廣泛用于視頻監控、行為識別及人機交互等多方面領域[1-3]。

目前,使用單一的彩色圖像或深度圖像進行人體姿態估計均已取得了一定的成果[4-8]。相對來說,由于彩色圖像更易獲得,所以針對單一彩色圖像的人體姿態估計的研究更為廣泛[9-13],可供利用的公開數據集也更為充足,如用于2D人體姿態估計研究的LSP[14]和MPII[15],以及用于3D人體姿態估計的Human 3.6M[16]等。而對于深度圖像,由于其記錄的是深度相機到目標人體之間的距離信息,不包含顏色及紋理細節等信息,因此,基于深度圖像的3D人體姿態估計方法,一方面不易因人體著裝、膚色和光照等復雜外界環境的變化而受到影響,另一方面使用該圖像在保護用戶隱私方面也具有很好的優勢。但由于深度相機對光照、背景等較為敏感,深度圖像獲取的條件較為嚴苛。現有的深度圖像數據集一般是在實驗室環境下拍攝獲得的,其姿態變化有限。而關節點標簽基本采用先相機標定后人工檢錯的方式獲得[8]。由于人工檢錯仍存在隨機性等問題,因而很少有公開的深度圖像數據集可以提供充足且準確的3D關節點標簽。而為獲得較為準確的深度圖像3D關節點標簽,需要研究者準備訓練樣本及標簽,使得研究成本增加,同時也限制了深度圖像在3D姿態估計領域的研究進程。因此,對現有缺乏準確深度標簽的深度圖像數據集進行研究,提出可行的算法,實現對深度圖像的3D人體姿態估計是值得探索與鼓勵的。

為此,本文提出了一種端到端的多源圖像弱監督學習方法。該方法利用多源圖像融合訓練的方法解決深度圖像姿態單一引起的模型泛化能力不高的問題,同時使用弱監督學習技術來解決標簽不足的問題,并對網絡中的殘差模塊進行改進,提高姿態估計的準確率。

1 相關方法

在深度學習領域,基于圖像的2D或3D人體姿態估計均已取得一定的成果。其中,對于單一深度圖像來說,在2D人體姿態估計上,文獻[3]采用MatchNet[17]計算全卷積網絡(Fully Convolutional Networks,FCN)預測的關節區域和模板之間相似度的方法,并結合相鄰關節之間的配置關系,來達到優化關節點位置的目的。文獻[18]介紹了一種基于模型的遞歸匹配(MRM)人體姿態的新方法,先對深度圖像進行預處理以獲得個性化參數,再使用模板匹配和線性擬合來估計人體骨架信息。在3D人體姿態估計上,文獻[8]采用長短期記憶網絡架構(Long Short-Term Memory,LSTM),學習局部視點不變特征,并利用自頂向下的錯誤反饋機制,糾正姿態位置,從而獲得良好的3D人體姿態估計,但該方法采用強監督學習的方式完成3D人體姿態估計,其訓練樣本及標簽為研究者自行準備,研究成本較高,同時也存在訓練樣本關節點標注不準的問題。

對于彩色圖像的研究,在2D人體姿態估計上,文獻[11]提出卷積姿態機器的方法,利用多階段聯合訓練的方式,充分學習圖像中的特征信息,來提高網絡的姿態回歸結果。文獻[12]則提出了沙漏網絡結構,利用多尺度特征來識別姿態,從而提高估計姿態的準確性。而對于3D人體姿態估計的研究方法,文獻[19]提出強監督學習技術訓練3D回歸模型的方法。文獻[1,13,20-23]采用了2D人體姿態估計結果輔助3D回歸模型訓練的方法。其中,文獻[1]證明了該方法相較于直接訓練3D回歸模型,姿態估計準確率更高,而文獻[21]則介紹了一種分別學習2D回歸模型和深度回歸模型的網絡框架;不同于文獻[1,20-23]分階段分別訓練3D回歸模型的方法,文獻[13]針對室外人體姿態數據庫缺乏深度標簽的問題,提出一種端到端聯合訓練2D模型和深度模型的網絡結構,該方法充分利用了實驗室環境下充足且準確的標簽數據及室外環境下的復雜人體姿態信息,通過該弱監督學習技術,以端到端的方式,獲得較好的室外圖像3D人體姿態估計。最近,文獻[24]提出一個Graph-CNN網絡,在網絡中使用SMPL模板網格來回歸人體姿態。文獻[25]提出了一種基于單目圖像的3D人體姿態估計的全卷積網絡,使用肢體方向作為一種新的3D表示方法。

從上述研究可以發現,研究者基本采用強監督學習技術來完成對圖像的3D人體姿態估計,利用充足的3D關節點標注信息來輔助回歸模型的訓練。但當訓練樣本中缺乏標簽時,上述強監督學習方法不再適用,而弱監督學習技術的優點便顯露出來。基于弱監督學習的網絡模型不要求訓練樣本提供充足的標簽,即可完成對回歸模型的訓練,可有效解決本文深度圖像缺乏深度標簽的問題。因此,基于上述研究背景,受文獻[13]的啟發,本文提出了一個基于多源圖像弱監督學習的3D人體姿態估計方法。該方法使用多源圖像作為訓練樣本,利用彩色圖像姿態多變且3D標簽充足的特點,來彌補深度圖像姿態單一和缺乏深度標簽的問題;同時為提高姿態估計準確性,還對現有的殘差模塊進行改善設計,從而實現對深度圖像的3D人體姿態估計。

2 多源圖像弱監督學習方法

面對深度圖像缺乏準確深度標簽的問題,可利用實驗室環境下獲取充足的彩色圖像及其準確的人體運動關節點深度信息,輔助深度圖像學習到相應的人體關節點深度信息,以實現對深度圖像的3D人體姿態估計。基于上述研究思想,本文提出了一個基于多源圖像端到端弱監督的3D人體姿態估計框架,通過多源圖像混合訓練的方式,完成對缺乏標注的深度圖像3D回歸模型訓練任務。

2.1 多源圖像3D人體姿態估計框架

本文基于多源圖像弱監督學習的整體架構如圖1所示。訓練樣本由多源圖像構成,包含帶2D標簽的深度圖像和彩色圖像,以及帶3D標簽的彩色圖像。網絡結構分為2D回歸子網絡模塊和深度回歸子網絡模塊兩部分。

圖1 3D人體姿態估計整體框架Fig.1 Overall framework of 3D human pose estimation

整個框架的具體訓練流程如下:①將多源圖像訓練樣本作為網絡的輸入;②利用所有帶2D標簽的訓練樣本訓練2D回歸子網絡模塊,得到2D回歸模型;③帶3D標簽的彩色圖像經過2D回歸子網絡模塊輸出熱圖特征,將其作為深度回歸子網絡模塊的輸入進行訓練,得到深度回歸模型;④將2個回歸模型的結果進行連接,從而完成對3D回歸模型的訓練任務。

本文的網絡結構分為2D回歸子網絡模塊和深度回歸子網絡模塊兩部分,具體結構如圖2所示。其中,2D回歸子網絡模塊由2個沙漏模塊構成,通過重復使用自頂向下和自底向上的方式對2D關節點坐標位置進行推導,在每個沙漏模塊后均使用了熱圖對關節點坐標進行預測,即在網絡結構中引入了中繼監督技術,可有效避免訓練過程中,由于網絡層數過深而導致的梯度消失問題,加快網絡模型收斂速度;同時由于熱圖中包含了關節點之間的相互關系,因此,將熱圖預測結果作為下一個沙漏模塊的輸入特征繼續訓練,有助于提高整體網絡結構的回歸性能。而深度回歸子網絡模塊則采用文獻[13]網絡設計,由殘差模塊、池化層及線性回歸器構成,緊接在2D回歸子網絡模塊的后面,使其可利用2D回歸子網絡模塊中充分學習到的特征作為輸入進行訓練,同時由于2D回歸子網絡模塊的輸出特征中包含關節點熱圖結果,因而使得該模塊也可充分利用熱圖中關節點相互關系,有助于在弱監督學習下獲得更為準確的關節點深度值。

在網絡測試階段,將測試圖像輸入到本文網絡中,2D回歸模型輸出各關節點的預測熱圖,即2D關節點坐標,而深度回歸模型則對上述關節點的熱圖進行回歸,用于預測出關節點的深度值對2個模型回歸出來的結果進行連接,即可完成對測試圖像的3D人體姿態估計。

為改善現有網絡結構的關節點回歸性能,本文對上述網絡結構提出改進設計,使得本文方法可以在提高回歸模型準確度的同時,降低網絡的訓練時間及存儲空間。

圖2 基于弱監督學習網絡結構框架Fig.2 Network structure framework based on weakly-supervised learning

2.2 殘差模塊設計

一個較好的回歸網絡結構能在較少的訓練時間內獲得較優的關節點回歸精度。但模型的訓練時間及回歸準確度與卷積網絡的構成有很強的關聯性。若適當地加深網絡深度及特征維度,雖可獲得較好的回歸精度,但網絡參數也大幅增加,同時也會加大模型的存儲空間及訓練時間;而若簡單的降低網絡深度及特征維度,雖可降低訓練時間,但模型性能則會隨之下降。因此,本文針對上述問題,為提高網絡回歸模型的準確度,同時降低模型訓練時間,對網絡結構的殘差模塊進行了改善。

圖2為本文基于弱監督學習的3D人體姿態估計網絡結構框架,其中每個矩形塊(C1,…,C4,C1a,…,C4a,C1b,…,C4b)均表示的是2個殘差模塊,因而可以說本文網絡結構基本是由殘差模塊構成的。而現有的殘差模塊(見圖3(a)),其輸入和輸出特征維度均為256,通過交叉使用1×1、3×3和1×1的卷積進行充分的特征提取,并通過Shortcut連接,將卷積之后的特征和原始輸入特征進行融合,使得殘差模塊可在提取較高層次特征的同時,又保留了原有層次的信息,這一多尺度特征信息在精準人體關節點預測方面,提供了較好的幫助[12-13]。但較高的特征維度也引起了訓練時間變長,因此本文降低了殘差模塊的輸入維度,從256降為128,降低特征維度后,1×1卷積的特征重組效果則會大大降低,因而,本文將3×3的卷積替換了1×1卷積,使得網絡可對輸入特征進一步提取,從而彌補特征維度降低造成的性能損失,甚至提高網絡的回歸精度,本文改進的殘差模塊如圖3(b)所示。

圖3 殘差模塊Fig.3 Residual module

2.3 3D人體姿態估計

2.3.1 2D回歸子網絡模塊

本文利用沙漏網絡可提取多尺度特征的特點,采用沙漏網絡作為2D回歸子網絡模塊訓練2D回歸模型,用于預測人體各關節點的位置坐標,以實現對圖像的2D人體姿態估計。由于深度圖像是在實驗室環境下獲取的,姿態單一且有限,因此,為提高2D回歸模型的泛化能力,本文提出同時使用深度圖像和彩色圖像的混合多源圖像的方式來訓練2D回歸模型。即輸入數據為帶2D標簽的多源圖像,輸出一系列J(J=16)的低分辨率的關節點熱圖。

由于深度圖像記錄的是目標距離相機的距離信息,不包含顏色及紋理信息,若直接將深度圖像和彩色圖像混合作為網絡的輸入,會對模型訓練造成干擾。因此,需對圖像做預處理。考慮到深度圖像在視覺上也可看做是灰度圖像,因此使用加權平均法將訓練所需的彩色圖像進行灰度處理,去除里面的顏色干擾信息,減少由于訓練樣本變化而引起的模型精度損失,提高模型的回歸精度。

圖4 ITOP數據集的2D人體姿態估計及其對應的熱圖結果Fig.4 Two-dimensional human pose estimation and corresponding heat-map results in ITOP dataset

沙漏網絡訓練的輸入為上述預處理后的所有帶2D標簽的混合多源圖像,圖像分辨率為256×256,輸出為預測到的各關節點的熱圖,圖像分辨率為64×64,其關節點坐標為熱圖中概率最高的點。2D估計效果及其對應熱圖結果如圖4所示,(a)、(c)為深度圖像,(b)、(d)為預測的熱圖結果,從左到右,從上到下依次為:右腳踝、右膝蓋、右胯、左胯、左膝蓋、左腳踝、臀部、胸部、脖子、頭、右手腕、右手肘、右肩膀、左肩膀、左手肘、左手腕,共16個關節點熱圖,在熱圖中概率最高,也就是亮度最高的點即為預測的該關節點坐標位置。

本文2D回歸模型訓練的loss函數使用L2距離[13],其公式如下:

2.3.2 深度回歸子網絡模塊

此階段的主要目標是獲得人體各關節點的深度值,而現有的針對無深度標簽的數據,一般是采用模板匹配的方式預測關節點深度值。但這種方法未考慮圖像中人體信息在深度值預測的重要性。

本文在一個網絡結構中構建了2個回歸子網絡,并將深度回歸子網絡模塊接在2D回歸子網絡模塊的后面,將2D回歸子網絡模塊中學習到的包含語義信息及多尺度信息的輸出特征作為輸入繼續訓練,可有效利用端到端網絡訓練的優勢,充分利用權重共享功能從而獲得更好的姿態估計結果。

深度回歸網絡訓練收斂的loss函數使用L2距離,其公式如下:

3 實驗及結果分析

在本節中,為探討本文弱監督學習姿態估計方法的預測性能,分別在深度圖像數據集ITOP[8]和K2HGD[3]、彩色圖像數據集MPII[15]和Human 3.6M[16]上進行訓練及測試,并與相關姿態估計模型進行對比[13],用以評估本文方法的性能。

3.1 數據庫

3.1.1 深度圖像數據庫

ITOP[8]是由20個人各做15個動作序列拍攝而成的,包含側拍和頂拍2個視角的圖像,其標簽使用Kinect自帶的SDK預測,雖然已通過人工檢測的方式檢錯,但3D標簽標定仍存在較大誤差。因此本文僅使用經過前期標簽檢錯篩查后的側拍圖像數據庫進行實驗,其中訓練樣本中僅使用了提供的2D關節點標簽,約11000張,而測試圖像則使用了3D標簽糾正后的圖像數據,約2 979張,用于判斷本文回歸模型3D關節點的預測性能。

K2HGD[3]由30個人拍攝獲得,共有10萬張深度圖像,提供相應的2D關節點標簽。本文使用其中約6萬張作為訓練圖像。

3.1.2 彩色圖像數據庫

MPII[15]是一個大型室外姿態估計數據庫,提供相應的2D關節點標簽。本文使用約25 000張圖像進行訓練。

Human 3.6M[16]由11個人各做17組動作,由4個角度上拍攝獲得,共包含有360萬張帶3D標簽的彩色圖像,本文使用其中30萬張圖像作為訓練圖像,2 874張圖像作為測試圖像。

3.2 評價標準

為評估回歸的關節點坐標準確性,本文使用PDJ(Percentage of Detected Joints)[3]作為評定標準,若關節預測坐標與標簽之間的誤差與歸一化軀干長度的比值在一定閾值內,便可將其判定預測正確。使用閾值不同,檢測到的關節點準確率也不同。

3.3 訓練細節

本文訓練平臺為Torch7[22],并基于公開代碼[12-13]構建本文2D回歸子網絡模塊及深度回歸子網絡模塊,如圖2所示。輸入圖像分辨率為256×256,2D回歸子網絡模塊的輸出為預測的人體各關節點的熱圖,分辨率為64×64,其熱圖概率值最高的點,作為此關節點的2D坐標預測結果,同時深度值由深度回歸模型輸出獲得。

為達到快速訓練的目的,本文網絡結構的主體由2個沙漏模塊串聯而成。在訓練時,采用的學習率為2.5×10-4,mini-batch的尺寸為6。為獲得更好的3D回歸模型準確率,本文分2個階段訓練3D 回歸網絡,每個階段均迭代了28萬batch[13]。第1階段,利用混合多源圖像僅訓練2D回歸模型,第2階段則以端到端的方式,訓練3D回歸模型。其中,2D回歸模塊的參數采用第1階段的2D回歸模型的權重進行初始化,在繼續訓練2D回歸模型的同時,利用帶深度標簽的彩色圖像更新深度回歸子網絡模塊的權重參數,從而訓練獲得更好的3D回歸模型。

由于存在訓練圖像中包含多個目標人體的現象,因此,本文在訓練前,首先將樣本進行預處理,對于每張訓練及測試樣本,均以人體臀部為中心進行裁剪,將目標人體放在圖像的中間,其裁剪尺寸比在1.3~1.7之間,并歸一化圖像大小分辨率為256×256,同時對圖像做加權平均的灰度處理,盡量保證訓練圖像的一致性。為提高模型的泛化能力,本文對數據進行了擴充處理,即對樣本進行左右翻轉及旋轉處理,旋轉角度在-6°~6°之間隨機選擇。本文訓練及測試樣本的標簽統一為頭、脖子、左右肩、左右肘、左右手腕、左右胯、左右膝蓋、左右腳踝、胸部及臀部共16個關節點。

3.4 結果對比

由于使用的網絡結構及訓練數據不同,本文共獲得的模型如表1所示。其中,M-H36M、I-H36M、IK-H36M及IKM-H36M模型均是在本文改善后的網絡結構上,通過不同的多源圖像組合方式訓練獲得的,用于探討本文所提使用多源圖像混合訓練的方式,對3D回歸模型準確率的影響。其中,M-H36M 訓練樣本同文獻[13],即以MPII和Human 3.6M作為訓練樣本,而網絡結構中的殘差模塊則使用了本文所提的改善設計(見圖3(b)),用于探討本文改善后的網絡結構在訓練準確率及訓練時間上的優越性能。

表1 不同模型對應的訓練圖像Table 1 Training images corresponding to differ ent models

3.4.1 網絡性能對比

為驗證本文殘差模塊改進方案對關節點位置回歸精度的影響,分別使用不同的殘差模塊網絡結構在相同條件下進行實驗,其對比結果如表2所示。其中文獻[13]的131~256表示殘差模塊(見圖3(a))對應的卷積依次為1×1、3×3和1×1,輸入和輸出通道數為256,表內其他方法數據物理含義同上。與文獻[13]結果相比,本文模型(131~128)的準確率最低,降低約2.16%左右;而本文模型(333~256)的準確率最高,提升約0.66%左右,但其參數量和訓練所需時間均成倍增加。這說明在保持殘差模塊卷積核大小不變的情況下,僅是簡單地將輸入輸出通道數降低,其準確率會有所降低;而在保持輸入輸出特征維度不變的情況下,將卷積核大小放大,提高模型感受野,雖能提高模型的回歸精度,但其參數量和訓練所需時間也大幅增加。故本文選用333~128的殘差模塊改善方案(見圖3(b))以獲得更優的回歸性能。該方法可在減少模型參數的同時提高訓練準確率,并且訓練一個batch的時間與原始沙漏網絡相比,下降了約28%。因此,實驗表明,本文改善殘差模塊后的網絡結構可在有效降低訓練時間的同時提高模型準確率。

本文還驗證了沙漏模塊的數量對回歸模型準確率的影響,如表3所示。其中,本文模型(4 stack)代表的是將2D回歸子網絡模塊中的沙漏模塊增加至4個,并基于本文改善后的殘差模塊結構訓練獲得的3D回歸模型,與使用2個沙漏模塊的本文模型(2 stack)相比,回歸準確率提高了約0.35%左右,但每個batch的訓練時間會增加約52%,即每個epoch訓練周期會增加近一半的訓練時間。實驗表明,增加網絡層數可進一步提升回歸模型的準確率,但其訓練時間和模型參數量會大幅增加,因此,為達到快速訓練的目的,將使用本文模型(2 stack)對應的網絡結構進行實驗。

表2 不同模型準確率、參數量及訓練時間對比Table 2 Comparison of accuracy rate,parameter quantity and training time among different models

表3 不同沙漏網絡個數準確率、參數量及訓練時間對比Table 3 Compar ison of accuracy rate,parameter quantity and training time with different numbers of hourglass network

3.4.2 深度圖像3D人體姿態估計的模型對比

為驗證不同訓練數據庫對回歸模型性能的影響,本文基于PDJ評判標準,使用本文基于不同訓練數據獲得的3D回歸模型,分別在ITOP深度圖像數據集的測試圖像上進行人體姿態估計(該測試圖像標簽已經過人工糾正)。將測試結果進行對比,探討最優的基于弱監督學習的3D回歸模型。

使用本文不同數據集訓練得到的回歸模型,在ITOP深度圖像數據集測試圖像手腕和膝蓋3D關節點的預測結果對比,如圖5所示。可以看出,本文IKM-H36M模型的性能最優,IK-H36M 性能次之,說明對深度圖像的3D人體姿態估計任務中,隨著深度圖像訓練樣本的增多,其回歸模型在大部分關節點的預測精度也會逐步提高。并且從IKM-H36M和IK-H36M曲線對比可以看出,在訓練樣本中引入帶2D標簽的彩色圖像數據MPII,可進一步提高模型的預測準確率,驗證了本文所提使用多源圖像進行混合訓練的方法,可有效提高模型的關節點回歸精度。

圖5 基于PDJ評價指標,不同訓練模型在ITOP數據集手腕和膝蓋3D關節點的準確率Fig.5 Three-dimensional articulation point accurary rate of wrist and knee using different training models based on PDJ evaluation criteria in ITOP database

3.4.3 彩色圖像3D人體姿態估計的模型對比

圖6 基于PDJ評價指標,不同訓練模型在Human 3.6M數據集腳踝和膝蓋3D關節點的準確率Fig.6 Three-dimensional articulation point accurary rate of ankle and knee using different training models based on PDJ evaluation criteria in Human 3.6M database

本節測試了本文方法針對彩色圖像的3D人體姿態估計效果。使用本文不同數據集訓練得到的回歸模型,在Human 3.6M 彩色圖像數據集測試圖像上腳踝和膝蓋3D關節點的預測結果對比,如圖6所示。可以看出,各回歸模型的檢測性能相近,說明利用多源圖像混合訓練的回歸模型,雖在訓練樣本中引入了深度圖像,但并不會對彩色圖像上的3D人體姿態估計精度造成太大的影響。圖6中畫圈部分為各回歸模型檢測精度提升由快到慢轉變的區域,其中在歸一化閾值0.25處為檢測精度變化轉折點,意味著在該歸一化閾值之后,回歸模型的檢測精度即將趨于平穩,此時各回歸模型已能將測試樣本中絕大部分關節點正確定位。因此,為更清楚地看到各關節點在不同模型的檢測差別,比較了各關節點在歸一化閾值0.25處的準確率,如表4所示。可以看出,使用本文改善殘差模塊后的網絡M-H36M,對彩色圖像的預測性能最優,相比文獻[13]的預測精度提升了約4%,而基于多源圖像混合訓練獲得的模型,其平均檢測精度由高到低,分別為IKMH36M>IK-H36M >I-H36M,這也說明了使用多源圖像進行訓練回歸模型,訓練的數據越多,其檢測精度越高,同時這3個模型的平均檢測精度均高于文獻[13]方法,這也又一次證明了本文改善后的網絡結構有助于提高姿態估計準確性。而從M-H36M和IKM-36M平均檢測結果比較來看,使用多源圖像訓練獲得的IKM-H36M 模型,平均檢測性能略低于M-H36M 模型,檢測準確度下降約0.50%,這是因為在訓練樣本中,除彩色圖像外,還引入了深度圖像,即等于引入了干擾項,使得模型的回歸性能略有下降。但從下降0.50%的結果上來看,使用多源圖像訓練的3D回歸模型,雖然在關節點檢測精度上具有輕微下降,但并不影響測試圖像在各關節點的總體回歸性能。

3.4.4 可視化3D估計結果

為更直觀地看到本文模型在深度圖像和彩色圖像上的3D估計結果,本文可視化了使用IKMH36M模型分別在ITOP和Human 3.6M 測試圖像上的姿態估計圖,如圖7和圖8所示。其中每幅估計圖中均包含測試圖像、groundtruth及本文估計結果3部分,(b)和(e)為groundtruth姿態效果,(c)和(f)為本文模型估計效果。

從圖7和圖8中可以看出,使用本文弱監督學習方法的IKM-H36M 模型可對深度圖像和彩色圖像預測其相應的3D人體姿態,并且預測結果也較為接近groundtruth姿態。圖7為本文針對ITOP深度圖像數據集上進行的3D人體姿態估計效果圖,可以看出,即使是對較為復雜的自遮擋人體側視圖,也可獲得較好的3D人體姿態估計。由于人體下肢的自由度比上肢自由度大,使得該方法在膝蓋和腳踝處的深度預測結果不如上肢預測效果理想,但本文方法也對無深度標簽的深度圖像實現3D人體姿態估計提供了可能。同時從圖8結果圖中可看出,本文模型對彩色圖像同樣可實現較為理想的3D人體姿態估計。

表4 基于PDJ評價指標,不同訓練模型在Human 3.6M 測試圖像上的3D人體姿態估計結果Table 4 Three-dimensional pose estimation results of different regression models on Human 3.6M test images base on based on PDJ evaluation criteria

圖7 ITOP數據集上的3D人體姿態估計Fig.7 Three-dimensional human pose estimation on ITOP dataset

圖8 Human 3.6M數據集上的3D人體姿態估計Fig.8 Three-dimensional human pose estimation on Human 3.6M dataset

4 結 論

本文針對缺乏深度標簽的深度圖像訓練樣本進行研究,提出了一種基于多源圖像弱監督學習的3D人體姿態估計方法,以實現對深度圖像的3D人體姿態估計任務。同時為改善網絡的估計性能,本文對網絡結構中的殘差模塊進行了改善設計。

1)針對深度圖像訓練樣本中3D標注不足的問題,使用弱監督學習技術來完成3D回歸模型訓練任務。

2)針對深度圖像姿態單一造成的模型泛化能力不高的問題,提出一種多源圖像融合訓練技術。該方法主要利用彩色圖像姿態多變的特點,在網絡訓練階段引入較為充分的人體姿態信息,提高模型的回歸性能。

3)為提高姿態估計結果,基于提升回歸模型準確率的基本思想,對殘差模塊的構成提出改善設計,并且通過實驗結果證明該設計方案可在降低訓練時間及模型存儲空間基礎上提高對圖像的3D人體姿態估計準確度。

實驗驗證了在訓練回歸模型的網絡結構中,一個合適的殘差模塊對提高回歸模型準確率、降低參數量及訓練時間等均有重要影響,因此接下來,本文將對如何更好地改善殘差模塊進行研究。

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产精品美乳| 国产精品黄色片| 波多野结衣爽到高潮漏水大喷| 亚洲av色吊丝无码| 啪啪免费视频一区二区| 小说区 亚洲 自拍 另类| 日本不卡免费高清视频| 日本三区视频| 国产大片喷水在线在线视频| 国产欧美中文字幕| 国产91特黄特色A级毛片| 国产精品亚洲精品爽爽| 欧美三级日韩三级| 久久综合丝袜日本网| 国产H片无码不卡在线视频| 久久女人网| 国产一级毛片高清完整视频版| 亚洲性一区| 中国黄色一级视频| 久久久久九九精品影院| 欧美日韩中文字幕在线| 在线高清亚洲精品二区| 婷婷丁香色| 国产综合在线观看视频| 欧美视频二区| 国产呦视频免费视频在线观看| 黄片在线永久| 青草视频在线观看国产| 欧美亚洲日韩不卡在线在线观看| 欧美a网站| 毛片免费网址| 成人在线不卡| 久久精品视频亚洲| 91久久青青草原精品国产| 亚洲天堂精品视频| 欧美精品v| 欧美午夜在线观看| 丁香婷婷久久| 再看日本中文字幕在线观看| 久久精品国产亚洲麻豆| 亚洲人妖在线| 日韩欧美国产三级| 自拍欧美亚洲| 精品视频一区在线观看| 亚洲国产成人在线| 制服丝袜 91视频| 日本久久免费| 91精品网站| 国产激爽大片高清在线观看| 国产成+人+综合+亚洲欧美| 免费看黄片一区二区三区| 啦啦啦网站在线观看a毛片| 欧美一级高清免费a| 在线视频一区二区三区不卡| 国产无吗一区二区三区在线欢| 中国美女**毛片录像在线| 狠狠色丁香婷婷综合| 亚洲第一区欧美国产综合| 亚洲国产日韩在线观看| 9久久伊人精品综合| 欧美日韩国产在线观看一区二区三区| 亚洲欧美另类专区| 国产激情无码一区二区APP| av免费在线观看美女叉开腿| 国产成人精品一区二区秒拍1o| 欧美成a人片在线观看| 日本一区高清| 尤物在线观看乱码| 就去吻亚洲精品国产欧美| 欧美日韩国产精品综合| 精品国产99久久| 国产精品自在在线午夜| 国产麻豆福利av在线播放| 中文字幕66页| 亚洲精品无码成人片在线观看| 热re99久久精品国99热| 亚洲日韩Av中文字幕无码| 91久久国产综合精品女同我| 国产成人久久777777| 亚洲日韩高清无码| 青青草原国产一区二区| 色婷婷在线播放|