關鍵詞: 復雜場景; 多人人體姿態估計; 分組卷積; 空間注意力機制; 輕量化中圖分類號: TP391 文獻標志碼: A 文章編號: 1671-6841(2025)04-0001-07DOI: 10. 13705 / j. issn. 1671-6841. 2024027
Abstract: The cross-obscuration of individuals in complex scenes led to low accuracy and incorrect skeleton connections in existing human pose estimation algorithms. Therefore, a multi-person pose estimation optimization algorithm in complex scenes was proposed. Firstly, the ordinary convolution was replaced with the grouped cascade convolution, which was combined with feature fusion to promote the exchange of information between channels. The accuracy of the algorithm was improved without incurring additional computational costs. Secondly, the spatial attention mechanism was introduced to mine the spatial semantic features related to the human pose estimation task, and the network structure was parallelized to enhance the performance of the algorithm. Finally, the embedding positions of the large convolutional kernel and the attention mechanism were lightweighted to reduce temporal overhead. Compared to the existing bottom-up pose estimation algorithm OpenPifPaf++, the proposed algorithm improved the average accuracy by 0. 8 percentage points on the COCO 2017 dataset. Compared with the OpenPifPaf algorithm, the proposed algorithm improved the average accuracy by 1. 2 percentage points on the CrowdPose dataset, and the corresponding accuracy for complex scenes by 1. 5 percentage points.
Key words: complex scene; multi-person pose estimation; group convolution; spatial attention mechanism; lightweight
0 引言
近年來,深度學習的飛速發展使得基于圖像、視頻的人體姿態估計技術取得了日新月異的進步。 在簡單清晰的場景下,現有的人體姿態估計算法在保證實時性的同時還擁有優異的準確度[ 1] 。 然而,當面臨諸如火車站臺、候車大廳等人群密集的復雜擁擠場景時,人體骨架丟失、遮擋、錯連等問題使得現有的人體姿態估計算法的性能下降[ 2] 。 如何有效地提高復雜場景下人體姿態估計算法的準確度,是目前此類問題研究的重點和難點。
人體姿態估計算法大多采用基于卷積神經網絡的方法,它們在性能上優于基于圖形結構和可變部件模型的傳統方法[ 3] 。 基于卷積神經網絡的 2D 多人人體姿態估計技術分為自頂向下和自底向上 2 種方法。
自頂向下的方法利用人體檢測器構建出人體邊界框,然后在人體邊界框內估計目標關鍵點的位置以及關鍵點之間的關聯。 該方法依靠檢測器的更新優化以及大量人為標記的邊界框,展現出優異的準確度和效率。 但當面對復雜場景時,自頂向下的方法中人體邊界框會出現重疊,進而導致不同關鍵點之間匹配混亂,性能大打折扣。
自底向上的方法首先估計出人體中的每個關鍵點,然后將預測關鍵點分組組合,構成多個人體姿勢。 憑借全局關鍵點關聯匹配的姿態估計方式,在面對復雜場景時展現出較好的抗干擾能力,但是存在方法整體精度不高、關鍵點冗余以及不同個體之間關鍵點錯連的問題。
為了解決上述問題,本文提出一種面向復雜場景的多人人體姿態估計優化算法。 該算法充分關注復雜場景下人體關鍵點的定位和關聯,有效地緩解了復雜場景對多人人體姿態估計任務的干擾。 主要貢獻如下:
1) 采用分組分塊的卷積方式[ 4] ,結合特征融合獲取不同特征通道間的關鍵點語義信息,促進特征通道之間的信息交互。2) 引入 CC Attention 機制[ 5] ,并串聯組成 CCA模塊,獲取更加全面的關鍵點語義特征,提高算法性能。3) 對算法進行輕量化處理,采用輕量型卷積,同時改變 CCA 模塊的嵌入位置,降低算法額外的參數量。
1 相關工作
復雜場景下自底向上的多人人體姿態估計算法可以保持較好的魯棒性。 Pishchulin 等[ 6] 首次提出了一種自底向上的算法 DeepCut,使用一個整數線性程序將屬于同一個體的關鍵點關聯起來,但處理時間需要數小時。 為此,Cao 等[ 7] 提出了 OpenPose,采用將貪婪解碼器與其他定義場相結合的思路,使用多階段反復迭代的卷積神經網絡結構,結合部分置信圖和部分關系場,大幅提高了多人人體姿態估計算法的效率。
上述方法在高分辨率圖像中表現優異,不僅可以提高多人人體姿態估計的準確度,還減少了預測時間。 但在分辨率有限、人員擁擠等復雜場景下,這些方法的表現往往不盡如人意。 Kreiss 等[ 8] 提出了PifPaf,首次引 入 了 級 聯 場 的 概 念。 與 OpenPose 中的部分關系場[ 7] 、PersonLab 中 的 中 間 域[ 9] 相 比,級聯場在復雜場景下可以產生更加精確的關鍵點關聯。 此外,PifPaf 還可以解決不同人員之間骨架交叉的問題。 后續,Kreiss 等[ 10] 又提出了 OpenPifPaf,該算法主要由基礎網絡、2 個級聯場網絡和解碼器構成,很好地解決了個體之間關鍵點錯連的問題,但在人體預測關鍵點完整度方面還存在改進的空間。
2 多人人體姿態估計算法
2. 1 整體架構
本文提出輕量型卷積,使用 3 個小卷積核以級聯表示的形式代替 7×7 大卷積核。 姿態估計算法改進前后對比如圖 1 所示。 改進后的姿態估計算法由 CC-ResNest 基礎網絡和 CIF、CAF 級聯場網絡組成編碼器,獲取圖像的關鍵點特征信息。 其中 CC-ResNest 用于提取圖像的高級語義信息,CIF 用于表征語義關鍵點的強度,CAF 用于表征不同關鍵點間的關聯強度。 最后,利用解碼器將 CIF 字段和 CAF字段轉換為一個包含 17 個關鍵點的人體骨架姿態,每個語義關鍵點最終由坐標 (x,y) 和置信度分數表示。
2. 2 ResNest 基礎網絡
ResNest 塊內架構如圖 2 所示。 為獲取不同特征通道間的關鍵點語義信息,促進通道間的信息交互,對 ResNet 網絡進行分組分塊,并引入 Split Attention以特征融合 的 方 式 構 成 ResNest。 借 鑒 ResNext[ 11]中分組卷積的原理,將特征圖沿著通道維度依次進行分組和分塊處理。 每組的特征圖表示都是由組內各個 Split 加權確定,利用 Split Attention 實現特征融合,構成一個跨通道信息交互表示的 ResNest 基礎網絡。
圖 1 姿態估計算法改進前后對比

圖 2 ResNest 塊內架構

Split Attention 塊 內 架 構 如 圖 3 所 示, 由 r 個Split 組成一個組,融合多個 Split 并按元素進行求和。 隨后,沿著空間維度進行全局平均池化,獲得1×1×c 的通道表示 Sk∈Rc/K , 以此收集通道的全局上下文信息,即

其中: Uc′k(i,j) 表示像素點數據; H 和 W 分別表示三維矩陣的行和列。
將輸出特征圖按通道進行軟注意力聚合得到基數組表示
, 加權在初始的輸入塊上實現通道間的信息交互,即
圖 3 Split Attention 塊內架構
Figure 3 The intra block architecture of Split Attention


其中: aik(c) 表示軟分配權重; Ui 表示初始的特征矩陣。
相較于 ResNet,ResNest 利用 Split Atention 將特征圖感受野覆蓋到不同的特征圖組,更加關注不同特征圖組和不同通道之間的信息交互。 憑借簡單、模塊化、不引入額外計算成本等優點,ResNest 更有助于下游任務性能的提升,如姿態估計、目標檢測、語義分割等任務。
2. 3 CCA 模塊
復雜場景下易出現不同人體骨架之間遮擋的問題,單個骨架左右兩側區域的關鍵點之間仍然可能存在語義聯系,為此引入 CCA 模塊。 CCA 模塊由2 個 CC Attention 機制串聯組成,用于收集空間內像素點附近以及遠處的各種語義信息,緩解骨架遮擋對多人人體姿態估計的干擾。 CCA 模塊的架構如圖 4 所示。
圖 4 CCA 模塊的架構
Figure 4 The architecture of CCA module

相較于 CC Attention,CCA 模塊可以更有效地從遠程依賴項中捕獲上下文信息。 輸入特征圖 H 經過 CC Attention 生成新的特征圖 H′ ,該注意力機制僅在水平和垂直方向上聚合空間信息。 將特征圖H′ 再次輸入 CC Attention 中生成 H′′ ,確保結果特征圖中每個像素點都可以收集空間中所有的像素信息,提取更加豐富的空間信息。 此外,2 個 CC Atten-tion 共享相同的參數,避免了添加過多的參數。
CC Attention 機制在像素點的水平和垂直方向上收集空間信息,每個像素點都會獲取從其他位置收集的語義信息,達到增強空間語義信息的目的,CC Attention 機 制 的 架 構 如 圖 5 所 示。 使 用 2 個1×1 卷積對輸入特征圖 H 進行降維后,得到空間大小為 C′×W×H 的 Q 和 K ,將 Q 和 K 通過仿射變換生成 A ,具體過程為
di,u=QuMi,uT,i∈[1,W+H-1],
其中: Qu 表示位置 u 處的通道特征; Mu 表示位置 u 對應路徑上的特征向量。 最后,對 A 和 V 進行聚合操作并加權到初始的 H 上生成 H′ ,

其中: ?u 表示 V 中位置 u 的十字特征向量。 上下文信息被添加到局部特征圖 H ,以增強空間特征表示。
圖 5 CC Attention 機制的架構
Figure 5 The architecture of CC Attention mechanism

3 實驗
3. 1 數據集
借助公開的 COCO 2017[ 12] 數據集來確定 CC-ResNest 基礎網絡的具體分組分塊方案,并驗證本文算法的場景普適性。 此外,利用 CrowdPose[ 13] 數據集進行準確度測評,通過準確度和時間指標來體現本文算法在復雜場景下實現多人人體姿態估計的優勢。 CrowdPose 數據集中包含許多具有挑戰性的復雜圖像,符合復雜場景下多人人體姿態估計的數據集要求。
3. 2 訓練細節
在基礎網絡部分,首先使用 ImageNet 對模型進行預 訓 練, 其 中 SGD 優 化 器 的 Nesterov 動 量 為0. 95,批次為 32,權 重 衰 減 為 10-5 。 學習率初始值為目標值的 10-3 ,學習率每經過 10 個批次以指數形式衰減 1 次,衰減系數為 10。 在優化步驟中更新模型參數的指數加權,衰減常數為 10-2 。
3. 3 實驗對比
在 COCO 2017 數據集上以 CC-ResNest 50 為基礎網絡訓練 20 個批次,依據不同的分組分塊方案進行消融實驗,結果如表 1 所示。 其中, 4s2g 表示分為 2 組,組內分為 4 塊。 實驗結果表明,分組數和組內分塊數的增加可以提高姿態估計的準確率,同時增加時間和內存開銷。 綜合考慮算法性能以及準確率和內存指標,將后續實驗中 Split Attention 的參數設置為 2s2g 。
利用 COCO 2017 數據集評估本文算法的性能,并與現有的多人人體姿態估計算法進行對比。 不同算法在 COCO 2017 數據集上的實驗結果如表 2 所示,其中 AP0.50 和 AP0.75 分別表示 IoU 閾 值 為 0. 50和 0. 75 時的準確率, APM 和 APL 分別表示中等目標和大目標對應的準確率。 由表 2 可以看出,本文算法的平均準確率 (AP) 達到 72.6% ,處理一幅圖像的平均時間為 85ms ,幀數為 23 幀/ s。 準確度方面雖不及一些自頂向下的姿態估計算法,但均優于自底向上的姿態估計算法。 其中,相比 OpenPifPaf
算法,本文算法的平均準確率提高 0. 8 個百分點。 表明本文算法具有不錯的場景普適性,滿足通用場景下姿態估計的任務需求。
表 1 Split Attention 在 COCO 2017 數據集上的消融實驗結果

表 2 不同算法在 COCO 2017 數據集上的實驗結果
Table 2 Experimental results of different algorithms on

表 3 各優化模塊在 COCO 2017 數據集上的消融實驗結果Table 3 The ablation experimental results of eachoptimization module on the COCO 2017 dataset

隨后,針對算法中的各優化模塊進行了消融實驗研究,結果如表 3 所示。 可以看出,相較于 CC At-tention 機制,CCA 模塊可以捕獲更加豐富的空間語義特征。 CCA 模塊和 ResNest 伴隨著額外的時間開銷,提高了多人人體姿態估計算法在通用場景下的準確度。 輕量化處理后的多人人體姿態估計算法雖犧牲少量準確度,但減少了 35% 的額外時間開銷,并且在某些準確率指標上(如 AP0.50 ) 還有細微的提升。 這表明輕量化處理帶來的梯度回溯在某些指標上出現了更加合適的參數選擇,同時緩解了 CCA 模塊過擬合圖像空間特征信息的問題。
將本文算法與現有的多人人體姿態估計算法在CrowdPose 數據集上進行定量對比,結果如表 4 所示。 其中 AP、AP0.50、AP0.75 指標與 COCO 2017 數據集中的含義相同, APE?APM?APH 指標分別表示算法在簡單、中等難度、復雜場景下的準確率。 從表 4可以看出,本文算法的平均準確率達到 71.7% ,相比 OpenPifPaf 算 法 提 高 1. 2 個 百 分 點; 在 簡 單、 中等、復雜場景下分別獲得 78.6%.73.8%.65.3% 的準確率。 相比其他的多人人體姿態估計算法,本文算法在多個指標上均獲得不同程度的提升。 對于中等難度和復雜場景下的指標 APM 和 APH , 相 比OpenPifPaf 算 法, 分 別 提 升 了 1. 7 個 百 分 點 和 1. 5個百分點,這是本文算法的主要貢獻點。
表 4 不同算法在 CrowdPose 數據集上的實驗結果
Table 4 Experimental results of different algorithms on the

以 AlphaPose[ 14] 和 OpenPifPaf[ 10] 分別代表自頂向下和自底向上的方法,場景復雜化帶來的準確率波動如表 5 所示。 結果表明,場景復雜化致使 Al-phaPose 和 OpenPifPaf 算法整體的平均準確率分別下降了 6.3% 和 1.3% ,并且對 APM?APH 指標的影響更大。 實驗結果證明,隨著場景復雜度的提高,姿態估計算法的準確率也會出現明顯降低。 在復雜場景下,相較于自頂向下的算法,自底向上的算法具有更加優異的魯棒性和準確率,場景復雜化對算法準確度的干擾更小,更加適配于復雜場景下的多人人體姿態估計任務。
表 5 場景復雜化帶來的準確率波動Table 5 Accuracy fluctuations caused by scene complexity 單位: %

在 CrowdPose 數據集上對基礎網絡進行消融實驗研究,重點關注 AP、APu 和 APH3 個指標的數據表現。 經過 40 個輪次訓練后,ResNet 不同變體網絡在 CrowdPose 數據集上的定量評估結果如表 6 所示。 相較于經典的 ResNet 變體網絡,CC-ResNest 表現出了更高的準確度,可以捕獲更加豐富的特征信息,更加適配于復雜環境下的多人人體姿態估計任務。
表 6 ResNet 不同變體網絡在 CrowdPose 數據集上的定量評估結果
Table 6 Quantitative evaluation results of different variant networks of ResNet on the CrowdPose dataset

在 COCO 2017 和 CrowdPose 數據集上的實驗結果表明,本文算法面向復雜場景和通用場景均表現出較高的準確度和場景普適性。 在復雜場景下對不同的多人人體姿態估計算法進行可視化數據對比,結果表明,OpenPose 算法可以快速有效地實現簡單場景下的多人人體姿態估計,但在復雜場景下往往會產生許多冗余、錯連、糾纏的關鍵點。 OpenPifPaf 算法可以很好地區分不同人體之間的關鍵點,與復雜場景下的多人人體姿態估計任務相適配,但在姿態估計關鍵點的完整度方面[20] 還有提升的空間。 本文算法在OpenPifPaf 算法的基礎上有了較為明顯的提升,人體關鍵點的預測完整度平均提高 10% ,有效緩解了復雜場景對多人人體姿態估計算法的干擾。
4 結語
針對復雜場景下多人人體姿態估計存在骨架遮擋、丟失、糾纏的問題,本文提出了基于雙注意力機制的多人人體姿態估計算法。 設 計 Split Attention和 CCA 模塊分別關注通道域和空間域的關鍵點信息,結合分組分塊卷積,有效降低了復雜場景對多人人體 姿 態 估 計 任 務 的 干 擾。 在 COCO 2017 和CrowdPose 數據集上的實驗結果表明,所提算法在較小的時間開銷下能夠增強圖像中語義關鍵點相關信息的獲取能力,在復雜場景下對姿態估計的準確度有明顯的提升。 未來的工作將關注特定場景下基于姿態估計的異常行為識別研究,通過減緩背景噪聲干擾以及利用圖卷積網絡挖掘異常行為識別相關的深層語義信息。
參考文獻:
[1] 張國平, 馬楠, 貫懷光, 等. 深度學習方法在二維人 體姿態估計 的 研 究 進 展 [ J] . 計 算 機 科 學, 2022, 49 (12) : 219-228. ZHANG G P, MA N, GUAN H G, et al. Research progress of deep learning methods in two-dimensional human pose estimation[ J] . Computer science, 2022, 49 ( 12) : 219-228.
[2] 褚真, 米慶, 馬偉, 等. 部位級遮擋感知的人體姿態 估計[ J] . 計算 機 研 究 與 發 展, 2022, 59( 12) : 2760- 2769. CHU Z, MI Q, MA W, et al. Part-level occlusion-aware human pose estimation[ J] . Journal of computer research and development, 2022, 59(12) : 2760-2769.
[3] LIU W, BAO Q, SUN Y, et al. Recent advances of monocular 2D and 3D human pose estimation: a deep learning perspective [ J ] . ACM computing surveys, 2021, 55(4) : 80.
[4] ZHANG H, WU C R, ZHANG Z Y, et al. ResNest: split-attention networks [ C] ∥ IEEE / CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway:IEEE Press, 2022: 2735-2745.
[5] HUANG Z L, WANG X G, HUANG L C, et al. CCNet: criss-cross attention for semantic segmentation [ C ] ∥ IEEE / CVF International Conference on Computer Vision. Piscataway:IEEE Press, 2019: 603-612.
[6] PISHCHULIN L, INSAFUTDINOV E, TANG S Y, et al. DeepCut: joint subset partition and labeling for multi person pose estimation [ C] ∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2016: 4929-4937.
[7] CAO Z, HIDALGO G, SIMON T, et al. OpenPose: realtime multi-person 2D pose estimation using part affinity fields[ J] . IEEE transactions on pattern analysis and machine intelligence, 2021, 43(1) : 172-186.
[8] KREISS S, BERTONI L, ALAHI A. PifPaf: composite fields for human pose estimation[ C]∥IEEE / CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2019: 11969-11978.
[9] PAPANDREOU G, ZHU T, CHEN L C, et al. PersonLab: person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model [ C ] ∥ European Conference on Computer Vision. Cham: Springer International Publishing, 2018: 282 - 299.
[10] KREISS S, BERTONI L, ALAHI A. OpenPifPaf: composite fields for semantic keypoint detection and spatiotemporal association[ J] . IEEE transactions on intelligent transportation systems, 2022, 23(8) : 13498-13511.
[11] XIE S N, GIRSHICK R, DOLLáR P, et al. Aggregated residual transformations for deep neural networks [ C ] ∥ IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2017: 5987-5995.
[12] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [ C ] ∥European Conference on Computer Vision. Cham: Springer International Publishing, 2014: 740-755.
[13] LI J F, WANG C, ZHU H, et al. CrowdPose: efficient crowded scenes pose estimation and a new benchmark[ C]∥ IEEE / CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 10855 - 10864.
[14] FANG H S, XIE S Q, TAI Y W, et al. RMPE: regional multi-person pose estimation [ C ] ∥ IEEE International Conference on Computer Vision. Piscataway:IEEE Press, 2017: 2353-2362.
[15] CHEN Y L, WANG Z C, PENG Y X, et al. Cascaded pyramid network for multi-person pose estimation [C]/AA IEEE / CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 7103 - 7112.
[ 16] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation [C]/AA IEEE / CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 5686 - 5696.
[17] ZHANG F, ZHU X T, DAI H B, et al. Distribution-aware coordinate representation for human pose estimation [ C ] ∥IEEE / CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 7091-7100.
[18] CHENG B W, XIAO B, WANG J D, et al. HigherHRNet: scale-aware representation learning for bottom-up human pose estimation [ C ] ∥IEEE / CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 5385-5394.
[19] QIU L T, ZHANG X Y, LI Y R, et al. Peeking into occluded joints: a novel framework for crowd pose estimation[ C]∥European Conference on Computer Vision. Berlin: Springer Press , 2020: 488-504.
[20] 王珂, 陳啟騰, 陳偉, 等. 基于深度學習的二維人體 姿態估計綜述[ J]. 學報( 理學版), 2024, 56(4) : 11-20. WANG K, CHEN Q T, CHEN W, et al. Review of 2D human pose estimation based on deep learning[ J] . Journal of Zhengzhou university ( natural science edition ) , 2024, 56(4) : 11-20.