侯珊珊 尹揚帆 梁聰
摘要:人體姿態估計是計算機中的一個重要而熱門的研究課題,該文使用卷積神經網絡算法對RGB圖像進行人體姿態估計的研究。基于改進的殘差結構,應用層疊沙漏網絡對RGB圖像進行精確的關節位置預測,通過二維的關節點信息估計人體姿態狀況。本文重點研究了利用RGB圖像恢復二維人體姿態的挑戰性設置,提出了一種在多個公共數據集上從RGB圖像中進行二維人體姿態估計的有效方法。
關鍵詞:卷積神經網絡;人體姿態估計;RGB圖像
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2019)08-0135-02
從圖像測量推斷人體姿態恢復是計算機視覺中的經典任務。這種技術在各種任務中具有直接的應用,例如動作理解[1]、監視、人機交互[2]和運動字幕等。然而,由于關節遮擋、背景雜亂、光照以及人體的動態變化,人體姿態估計是一項具有挑戰性的任務。各種膚色和衣服也使得估計困難。近年來,利用卷積神經網絡(CNN)[3-5]實現了人體姿態估計的最新性能。基于RGB圖像的人體姿態估計在CNN中取得了很大的成功。強大的表現力和解開潛在變異因素的能力是CNN的特征,這些特征使得能夠自動學習判別特征,并顯示出自動學習特征的優越性能[6]。
1 卷積神經網絡的概述
在機器學習中,卷積神經網絡是一種深度前饋人工神經網絡,已成功地應用于圖像識別。卷積神經網絡模型由輸入層、卷積層、采樣層以及全連接層和輸出層構成。通常狀況下會取若干交替設置的卷積層和池化層,每個卷積層連接一個池化層,每個池化層后也連接一個卷基層。卷積神經網絡的輸入是局部連接的,通過局部輸入和相應的連接權值求和加上偏置值得到該神經元的輸入值,這是一個相當于卷積的過程,卷積神經網絡也是因此被命名的。
卷積神經網絡的每一個卷積層都包含一定數量的特征面,與多重神經網絡模型相比,卷積神經網絡模型中通過卷積層的權值共享可以減少訓練參數,降低了多層神經網絡的復雜程度,降低了出現過擬合的可能性,因此,能夠獲得一個擁有泛化能力的模型,同時可以通過池化操作大量減少運算中神經元的數量,網絡模型的魯棒性也得到了加強,能夠處理更為復雜的分類問題。此外,由于卷積神經網絡模型比傳統神經網絡模型多了局部連接、權值共享以及降低模型復雜度的池化操作,使得網絡模型更容易訓練,所以卷積神經網絡擁有比傳統多層神經網絡更加出色的性能,更適合于處理復雜問題。
2 算法分析
2.1算法及過程分析
首先,利用卷積神經網絡構造坐標預測的網絡框架[3]進行特征提取,并為關節位置生成小的熱圖(heatmaps),然后從特征和小的熱圖中使用IK(反向動力學)推斷出人體的姿態。
近年來,許多現有的2D關節點回歸技術,如DeepPose[3]、CPM[5]和HG-Stacked網絡等都能夠從彩色圖像中獲得一定的成功。CPM[5]和HG疊加網絡[6]是近年來在RGB圖像上進行2D人體姿態估計的典型網絡。CPM是位姿機框架的一種改進的網絡結構。該結構利用快捷結構和級聯回歸來學習長距離空間相關性,并改進二維聯合點預測。HG-Stacked網絡[6]設計的剩余模塊,并在通過每個沙漏之后生成預測,其中網絡有機會在本地和全局上下文中處理特征。我們使用分層、并行和多尺度殘差模塊,這種結構類似于其他姿態估計方法,該方法在多個迭代階段和中間監督下表現出了較強的性能。
2.2實驗過程及分析
我們假設卷積神經網絡(CNN)是一個非線性函數,返回N2D個熱圖,其中N是關節的數目。在本文中,不使用大于3x3的濾波器,并且在我們的網絡中使用的模塊如圖1(b)所示。提出的分層并行多尺度結構通過增加接收場大小,增強了網絡捕獲信息的能力,提高了地標定位預測的精度。
圖1:(a)原始瓶頸層,(b)提出的分層并行多尺度結構:我們的塊增加了接收場大小,改進了梯度流,在每個3x3卷積之前的BN層和Relu層。注意:一個層被描繪成一個矩形塊,包含:它的過濾器大小,輸入和輸出通道的數量;“C”表示連接和“+”一個元素式的和。
在256x256的完全輸入分辨率下操作需要大量的GPU存儲器,因此沙漏的最高分辨率(最終輸出分辨率)是64x64。整個網絡從7x7卷積層開始,步長為2,接著是剩余模塊和最大池循環,以便將分辨率從256降低到64。剩余模塊是HG-Stacked網絡的主要組成部分,HG-Stacked網絡是最新的用于地標定位的體系結構,它以完全卷積的方式預測一組熱圖。剩余模塊的設計是由于需要在每一個尺度上捕獲信息。我們模型的條件下的二維姿態給定的圖像作為結果。
實驗對于人體姿態估計有各種各樣的基準。在本文中,為了驗證我們的方法,我們在兩個著名的公共姿態估計或動作識別基準上評估所提出的方法:MPII;Human3.6M。
2.3數據集集合
MPII數據集是一個大規模的野外人體姿態數據集,由大約25k張訓練圖像和2957張驗證圖像組成,帶有注釋,供多人使用。40K注釋樣本。這些圖像是從網上采集的。我們使用25k訓練圖像訓練基于網絡的二維姿態估計模型,并用2957圖像驗證精度。
Human3.6M數據集被用作二維姿態估計的測試集。這個數據集包含3.6百萬RGB圖像。為了使數據更加精確,我們對同一位置的多次測量得到的物體的高度和寬度進行平均。從該數據集的2874幅圖像驗證我們的訓練二維姿態回歸模型的準確性。
2.4實現細節
在給定的輸入圖像中通常存在多個可見的人,但是沒有圖形模型或后處理步驟,圖像必須傳達網絡確定哪個人值得注釋的所有必要信息。我們通過訓練網絡來專門對直接中心的人進行注釋。對于每個樣本,尺度和中心注釋被用來裁剪圍繞目標人的圖像。然后將所有輸入圖像調整為256x256像素。在測試階段,圖像在中心附近進行裁剪,調整大小為256x256像素,作為網絡的輸入,并基于二維姿態估計模型預測地標定位。然后利用預測來計算原始圖像的關節定位。
使用Trink7對網絡進行訓練。沙漏組件是基于[6]中的公共代碼。并用提出的分層并行多尺度結構代替原點殘差塊。為了快速訓練,我們使用了一個淺層的堆積沙漏,即每一個沙漏有2個堆棧,2個剩余模塊[6 ]。網絡的最終預測是給定關節的熱映射的最大激活位置。
2.5二維姿態估計
(a)MPII結果(PCKh@ 0.5)(b)Human3.6M結果(PCKh@ 0.5)
我們使用標準度量PCKh@0.5來評估2D姿態估計的精度。其結果可以在圖2中看到,圖2顯示了隨著訓練的進展,驗證圖像的平均準確度,圖3分別顯示了MPII和Human3.6M測試圖像的平均準確度。表明我們提出的網絡具有很強的學習能力,能夠得到較高的估計精度。
3 結論
介紹了一種基于RGB圖像的利用卷積神經網絡算法進行人體姿態估計的方法。首先,我們提出了一種分層的并行多尺度殘差結構,以提高二維姿態預測的精度。然后,根據獲得的2D關節位置,估計人體具體姿態。在不同的人體姿態數據集下的估計實驗證明了本文的人體姿態估計方法具有很好的魯棒性,對基于RGB圖像的人體姿態估計能夠得到較好的效果
參考文獻:
[1] 朱煜, 趙江坤, 王逸寧, 等.基于深度學習的人體行為識別算法綜述[J]. 自動化學報. 2016,42(6):848?857.
[2] ShottonJ,Girshick R, Fitzgibbon A, et al. Efficient human pose estimation from single depthimages. In Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence[M]. IEEE Computer Society Press, 2013:2821–2840.
[3] Toshev A, Szegedy C. DeepPose: Human pose estimation via deep neural networks. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[J]. IEEE Computer SocietyPress, 2014:1653-1660.
[4] Cao, Z., Simon, T., Wei, S. E., et al. Realtime Multi- Person 2D Pose Estimation using Part Affinity Fields. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[M].IEEE Computer Society Press,2016:7291- 7299.
[5] Wei S E, Ramakrishna V, Kanade T, et al. Convolutional pose machines. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[M]. IEEE Computer Society Press. 2016:4724-4732.
[6] Alejandro, Newell.,kaiyu, Yang., and Jia, Deng. Stacked Hourglass Networks for Human Pose Estimation[M].In ECCV. 2016:483-499.
【通聯編輯:代影】