林浩翔,李萬益,鄔依林,黃靖敏,黃用有
(廣東第二師范學院計算機學院,廣州 510303)
長期以來,人體姿態估計是計算機視覺中一個熱門研究課題。近年來,由于該技術的應用需求不斷增加,它受到越來越多的關注。盡管先進的深度學習技術在這一領域已經取得了重大進展,但遮擋問題比較困難,人群場景中的姿態估計仍然極具挑戰性。人群姿態估計的趨勢模型強烈依賴于熱圖表示來估計關節: 雖然這些方法對可見關節有效,但在遮擋上的性能卻不夠完善。迄今為止,許多研究人員在遮擋問題中付出了艱苦的努力,采取了許多對應的措施。然而,遮擋問題受到的關注很少,解決它的方法也比較少。 由于復雜的背景圖、復雜的人體姿態和隨機的遮擋形狀,最先進的SOTA 法仍會產生不準確的姿勢。為了揭示隱藏的關節,我們提出了一種方法進行全面推理,例如:人類可以利用來自動作類型和圖像上下文的線索推斷出不可見關節的位置。因此,我們提出一個新的框架OPEC-Net并深入研究了隱形關節推理所需的線索,并將這些線索納入多人姿態估計,最后實驗得出結果。

圖1 兩種方法的比較
基于熱圖的用于姿態估計的模型。多人姿態估計模型(MPPE)可分為兩類,即自下而上兩種方法和自上而下兩種方法。
自下而上的方法:首先檢測關節,然后將它們分配給匹配的人。作為自下而上方法的先鋒工作,試圖設計不同的聯合分組策略。DeepCut提出了一個整數線性規劃(ILP)。根據學習的評分功能數將關節分組,提出了一種新的二維向量場部分親和場(PAFs)來進行關聯。然而,之前的工作都存在一個嚴重的缺陷,隱形關節會大大降低性能。
自上而下的方法:首先檢測場景中的所有人,然后對每個人進行姿態估計。現有的大多數自上而下的方法都集中于提出一種更有效的人體探測器,以獲得更好的結果。大多數主流的方法都是基于熱圖的,因此僅限于估計缺乏視覺信息的無形關節。因此,我們提出了一個與這些工作完全不同的OPEC-Net,它能夠通過推理而不是本地化來估計不可見的關節。


圖2 管道示意圖(描述了一個項目的兩個評估階段單體式)
在此階段,使用AlphaPose+作為基礎模塊來生成可見關節的熱圖,我們將在下面描述一個實例級的人體姿態估計的過程。
首先,基本模塊的三層解碼器生成三個不同層次的對應特征圖: 粗糙特征圖、中間特征圖和精細特征圖。基本模塊輸出一個熱圖,從熱圖H 中估計的姿態可以表示為P,其中包含了每個關節的估計結果:

其中x和y是第一個關節的位置,c是置信度得分,是骨架中關節的數量。
我們提出了一種圖像引導圖來校正網絡,采用上述模塊生成的初始姿勢并調整關節的隱式關系來估計結果。




我們用G∈R 作為訓練集中第個姿態的輸入特征,其中為特征維數。



我們建立了一個新的數據集Occluded Pose(OCPose),它包含了具有挑戰性的隱形關節和復雜的相互交織在一起的人體姿勢。我們大多考慮雙人互動的姿勢場景,如舞蹈、滑冰和摔跤, 因為它們有更可靠的注釋和實用價值。當遮擋非常嚴重時,人體姿態的關鍵點位可能很難識別。我們首先使用拳擊、舞蹈和摔跤等關鍵詞從互聯網上搜索視頻。然后,手動篩選剪輯網上視頻,在隱私問題許可下,選擇高質量的圖像。各數據集的比較見表1。

表1 光遮擋水平的比較
(1)實施細節。對于訓練,我們設置了參數= 0.3、= 0.5、= 1 和epochs=30。每 批提供10 張圖像來訓練整個框架。初始學習速率設置為1,并以余弦函數的規律衰減。MSCOCO 的輸入圖像尺寸大小為384×288,其他數據集的輸入圖像尺寸大小為320×256。采用自適應優化算法對參數進行反向傳播優化。
(2)評價指標。我們遵循MSCOCO 的標準評價度量,報告了平均精度(mAP)值為0.5∶0.95、0.5、0.75、0.80和0.90。建議姿態必須包含超過5 個可見點,OKS 值大于0.3。這是現有工作和廣泛使用的指標。
(3)基線。為了進行比較,我們使用三種最先 進 方 法 的MPPE: Mask RCNN, Alpha-Pose+和SimplePose來評估性能。這是現有工作和廣泛使用的基線。
各數據集的定量結果見表2。

表2 OCPose數據集的比較
與所有基線相比,本文的方法獲得了最好的映射。與AlphaPose+ 相比,該方法提高了2.0mAP@0.5:0.95。與定位方法相比,本文的OPEC-Net 推理能力比較準確。總之,這些結果驗證了本文的OPEC-Net 模塊在MPPE 任務上的顯著有效性。雙聯曲線圖的評價結果見表2和圖3。與OPEC-Net 相比,雙聯曲線圖基線也顯示提升了0.8mAP@0.5∶0.95,這驗證了人類的互動線索是相當突出的。如圖3 所示,CoupleGraph曲線圖在質量上顯著優于OPEC-Net。

圖3 人體姿態估計CoupleGraph和OPEC-Net的定性評價

圖3 人體姿態估計CoupleGraph和OPEC-Net的定性評價(續)
在大量基準數據集上的廣泛評估證明了我們的模型對遮擋問題的有效性。在現有基準測試上的實驗結果如表3、表4、圖4 所示。我們的模型超過了所有的基線。

表3 關于數據遮擋數據集的定性結果

表4 MSCOCO 2017 測試-開發集

圖4 不同數據集的評估結果對比
CrowdPose 如表3 所示,OPEC-Net 在AlphaPose+上的估計結果提高了2.1mAP@0.5∶0.95。
在最大的基準測試MSCOCO 上的結果顯示,我們的模型只略微提高了精度的準確性。此外許多不可見的關節在MSCOCO上缺乏注釋。
為了分別研究對不可見(Inv)和可見(V)關節的有效性,我們根據類似的OKS 規則報告了每種類型關節的統計數據。從表5 可以看出,本文的OPEC 網絡主要改進了看不見的關節,而不是可見的關節。

表5 CrowdPose和OCPose上可見和不可見關節的結果
在本文中,我們提出了一個新的OPEC-Net模塊和一個具有挑戰性的遮擋姿態(OCPose)數據集來解決群體姿態估計中的遮擋問題。兩個復雜的組件,圖像引導漸進GCN 和級聯特征適應,設計利用自然人體約束和圖像上下文。我們對四個基準和消融研究進行了徹底的實驗,以證明其有效性并提供各種見解。熱圖和坐標模塊可以協同工作,在各個方面都取得了顯著的改進。通過提供該數據集,我們希望能引起人們的注意,并增加人們對姿態估計中的遮擋問題的研究興趣。