江春靈,曾 碧,姚壯澤,鄧 斌
廣東工業(yè)大學(xué)計算機學(xué)院,廣州510006
人體姿態(tài)估計一直是計算機視覺中一個基本但具有挑戰(zhàn)性的問題,其目標是定位圖像中所有人的關(guān)鍵點(例如,肘部、手腕、膝蓋等)。人體姿態(tài)估計廣泛應(yīng)用于動作識別[1-4]、人機交互以及動畫制作等領(lǐng)域。
在深度學(xué)習(xí)迅速發(fā)展的情況下,基于深度卷積神經(jīng)網(wǎng)絡(luò)[5]的人體姿態(tài)估計方法已經(jīng)取代傳統(tǒng)的圖結(jié)構(gòu)模型算法成為主流的人體姿態(tài)估計方法。2016年Newell等[6]使用堆疊沙漏網(wǎng)絡(luò)進行熱力圖預(yù)測和分組,但堆疊的沙漏網(wǎng)絡(luò)會導(dǎo)致大量的有效信息在不斷地上下采樣過程中丟失。SimpleBaseline[7]使用反卷積操作代替上采樣,在一定程度上緩解了這一點,提升了人體姿態(tài)估計的精度,但沒有本質(zhì)上解決這個問題。2017年OpenPose[8]提出一個雙分支、多階段的網(wǎng)絡(luò)結(jié)構(gòu),其中一個分支用于熱力圖預(yù)測,一個分支用于分組。同時OpenPose 提出一種部件親和向量場(part affinity fields,PAFs)的分組方法,該方法學(xué)習(xí)連接兩個關(guān)鍵點之間的二維向量場,通過計算兩個關(guān)鍵點之間的線積分,并對具有最大積分的一對關(guān)鍵點進行分組,但分組效率有所降低。2018年P(guān)ersonLab[9]使用深度殘差網(wǎng)絡(luò)[10]并通過直接學(xué)習(xí)每對關(guān)鍵點的二維偏移場來對關(guān)鍵點進行分組。2019 年Sun 等[11]提出高分辨率網(wǎng)絡(luò)HRNet,在始終保留高分辨率分支的同時采用并聯(lián)的方式將不同分辨率子網(wǎng)并行連接進行多尺度特征融合,充分利用不同尺度下的特征信息。2020 年Cheng 等[12]在HRNet 的基礎(chǔ)上提出HigherHRNet,通過在HRNet 的末端加入反卷積模塊,進一步提高特征圖的分辨率,同時聚合不同尺度下的熱力圖進行推理,進一步提高了預(yù)測的準確性,但并未解決前后背景不平衡的問題。2021 年Luo 等[13]在HigherHRNet的基礎(chǔ)上增加一個尺度感知分支,通過自適應(yīng)調(diào)節(jié)每個關(guān)鍵點的標準差,增加模型在人體尺度差異和標注歧義問題上的魯棒性。同年Geng等[14]提出解構(gòu)式人體關(guān)鍵點回歸(disentangled keypoint regression,DEKR),使用自適應(yīng)卷積和多分支結(jié)構(gòu),使模型專注于關(guān)鍵點區(qū)域的表示,直接回歸關(guān)鍵點的位置,但未充分利用高分辨率網(wǎng)絡(luò)豐富的通道及空間信息。
由于在自底向上的人體姿態(tài)估計方法中存在前景和背景樣本之間不平衡的問題,同時人體姿態(tài)估計方法主要采取的高分辨率網(wǎng)絡(luò)在特征提取和特征融合時不能有效獲得通道信息和空間位置信息。本文以HigherHRNet為基礎(chǔ),提出了一個融合權(quán)重自適應(yīng)和注意力的自底向上人體姿態(tài)估計網(wǎng)絡(luò)。主要貢獻如下:(1)提出一種權(quán)重自適應(yīng)損失函數(shù),解決前景和背景樣本之間不平衡的問題。(2)設(shè)計高效全局自注意力模塊,充分利用高分辨率網(wǎng)絡(luò)的通道和空間信息。(3)引入熱力圖分布調(diào)制模塊,解決熱力圖在最大激活值附近出現(xiàn)多個峰值的問題,提高熱力圖解碼出關(guān)鍵點位置的準確性。(4)算法在公開數(shù)據(jù)集COCO[15]數(shù)據(jù)集上進行驗證,平均準確率為72.3%,優(yōu)于其他自底向上人體姿態(tài)估計主流算法。
目前主流的多人人體姿態(tài)估計方法可以分為兩類:自頂向下(Top-down)人體姿態(tài)估計和自底向上(Bottom-up)人體姿態(tài)估計。
自頂向下的人體姿態(tài)估計算法主要包含兩個部分,人體檢測和單人人體關(guān)鍵點檢測:首先通過目標檢測算法將每一個人檢測出來,然后在人體提議框的基礎(chǔ)上做單人人體關(guān)鍵點檢測。谷歌提出的G_RMI[16]采用fasterrcnn[17]作為人體檢測器,通過ResNet[18]預(yù)測每個關(guān)鍵點的熱力圖以及偏移量,將熱力圖以及偏移量進行融合來獲得關(guān)鍵點的定位。Huang等[19]則是提出一種無偏估計的方法,將熱力圖的最大值對應(yīng)的坐標加上偏移量得到關(guān)鍵點的坐標。Alphapose[20]從人體檢測器的人體提議框的優(yōu)化角度出發(fā),添加一個對稱空間轉(zhuǎn)換網(wǎng)絡(luò)分支,在不精準的區(qū)域框中提取到高質(zhì)量的人體區(qū)域。同時采用參數(shù)化姿態(tài)非極大值抑制,消除冗余的姿態(tài)。由于自頂向下的方法可以通過裁剪和調(diào)整被檢測到的人體邊界框,將所有人標準化為近似相同的尺度,它們通常對人體的尺度不敏感。因此,在各種多人人體姿態(tài)估計基準上的最佳成績大多是通過自頂向下的方法來實現(xiàn)的。
相比之下,自底向上人體姿態(tài)估計通過預(yù)測不同人體關(guān)鍵點的熱力圖,定位圖像中所有人的無身份關(guān)鍵點,然后將它們分組到不同的人體實例中。早期的自底向上人體姿態(tài)估計方法DeepCut[21]先檢測出圖像中所有的關(guān)鍵點,將每個關(guān)鍵點作為一個圖節(jié)點,關(guān)鍵點之間的關(guān)聯(lián)性作為節(jié)點之間的權(quán)重,形成密集連接圖。最后根據(jù)整體線性規(guī)劃,將屬于同一個人的關(guān)鍵點關(guān)聯(lián)起來。Openpose[8]則是提出部件親和向量場,利用關(guān)鍵點之間的向量點乘的值關(guān)聯(lián)兩個關(guān)鍵點,根據(jù)匈牙利算法進行匹配。Newell[6]提出關(guān)聯(lián)嵌入[22](associate embedding)的方法來進行關(guān)鍵點分組,該方法為每個關(guān)鍵點分配一個標簽(一個向量表示),并根據(jù)標簽向量之間的L2 距離對關(guān)鍵點進行分組。自底向上的方法一次性檢測圖像中所有的人體關(guān)鍵點,只需對整體圖像特征提取一次,即使人體數(shù)目增加也不會導(dǎo)致重復(fù)的卷積操作,因此這類方法往往效率更高。
計算機視覺領(lǐng)域有很多任務(wù)是位置敏感的,比如目標檢測、語義分割、實例分割等。為了這些任務(wù)位置信息更加精準,很容易想到的做法就是維持高分辨率的特征圖,HRNet[11]之前幾乎所有的網(wǎng)絡(luò)都是這么做的,通過下采樣得到強語義信息,然后再上采樣恢復(fù)高分辨率以恢復(fù)位置信息,然而這種做法,會導(dǎo)致大量的有效信息在不斷地上下采樣過程中丟失。而HRNet 通過并行多個分辨率的分支,加上不斷進行不同分支之間的信息交互,同時達到獲取強語義信息和精準位置信息的目的。HigherHRNet[12]在HRNet 的末端加入反卷積模塊,得到1/2初始大小的特征圖,同時在推理過程中聚合1/2和1/4特征分支的熱力圖,解決自下而上的多人姿態(tài)估計中的尺度變化挑戰(zhàn),并更精確地定位關(guān)鍵點。因此本文采用HigherHRNet作為基礎(chǔ)框架。
HRNet網(wǎng)絡(luò)結(jié)構(gòu)總體分為4個階段,第一階段由一個高分辨率子網(wǎng)構(gòu)成,第二階段至第四階段分別在前一個階段的基礎(chǔ)上增加一個子網(wǎng),新增的子網(wǎng)分辨率為上一階段最低分辨率的一半,通道數(shù)為原來的兩倍。將每一階段的多分辨率子網(wǎng)以并行的方式進行連接,各階段之間通過多尺度特征融合來交換信息。根據(jù)基礎(chǔ)通道數(shù)的不同,HRNet分為HRNet-w32和HRNet-w48。
注意力機制的本質(zhì)是通過學(xué)習(xí)卷積特征得到一組權(quán)重系數(shù),通過給重要信息分配高權(quán)重使網(wǎng)絡(luò)更加關(guān)注重要的信息,從而提高網(wǎng)絡(luò)的性能。
2015 年Jaderberg 等[23]提出STN(spatial transformer networks)空間注意力模塊,在特征圖層面上實現(xiàn)全局的縮放、旋轉(zhuǎn)等變換,從而使網(wǎng)絡(luò)具有縮放、旋轉(zhuǎn)等空間變換不變性。2018 年Hu 等[24]提出SE(squeeze-andexcitation)通道注意力模塊,通過壓縮和激勵構(gòu)建通道間的關(guān)系。同年Woo等[25]提出CBAM(convolutional block attention module)模塊,同時融合空間注意力和通道注意力,特征圖將得到通道和空間維度上的注意力權(quán)重,自適應(yīng)細化特征。2020年Wang等[26]提出ECA(efficient channel attention)模塊,提出了一種不降維的局部跨通道交互策略,有效避免了降維對于通道注意力學(xué)習(xí)效果的影響,在保持性能的同時顯著降低模型的復(fù)雜性。
本文提出的WA-HRNet網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖1所示。首先將圖像輸入特征提取網(wǎng)絡(luò),分別得到關(guān)鍵點熱力圖和標簽值熱力圖。在訓(xùn)練階段,根據(jù)預(yù)測的關(guān)鍵點熱力圖與真值熱力圖計算權(quán)重自適應(yīng)損失,根據(jù)預(yù)測的標簽值熱力圖計算分組損失。在測試階段,將預(yù)測的關(guān)鍵點熱力圖輸入熱力圖分布調(diào)制模塊,將調(diào)制后的熱力圖進行解碼得到所有關(guān)鍵點的位置信息。然后根據(jù)關(guān)鍵點的位置信息在預(yù)測的標簽值熱力圖中找到關(guān)鍵點對應(yīng)的標簽值。最后根據(jù)標簽值將關(guān)鍵點進行聚類,將它們分組到不同的人體實例中。

圖1 整體框架Fig.1 Overall framework
特征提取網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖2所示,在HRNet的末端加入注意力模塊,同時在訓(xùn)練階段引入多分辨率監(jiān)督,生成具有不同分辨率的真值熱力圖以便計算不同分辨率下預(yù)測熱力圖的損失。在推理階段,使用熱力圖聚合推理,對所有尺度的預(yù)測熱力圖進行平均處理以得到最后的預(yù)測。

圖2 特征提取網(wǎng)絡(luò)Fig.2 Feature extraction network
在自底向上的人體姿態(tài)估計方法中,存在前景和背景樣本不平衡的問題,可能會使得模型更傾向于過擬合背景樣本。Lin等[27]提出Focal Loss用于緩解分類任務(wù)中正負樣本嚴重不平衡的問題。受此啟發(fā),本文提出針對熱力圖的權(quán)重自適應(yīng)損失函數(shù)。
在基于熱力圖的人體姿態(tài)估計方法中,熱力圖的損失函數(shù)如公式(1)所示:
式中,P為預(yù)測熱力圖,H為真值熱力圖,為了解決樣本間不平衡的問題,給原始的L2 損失直接添加一個權(quán)重W,如公式(2)所示:
其中,W可以定義為公式(3)所示:
式中,{k,i,j}代表熱力圖P中的像素位置。然而在熱力圖中,像素的值是連續(xù)的而非離散的0或1,因此很難區(qū)分正負樣本。為此提出權(quán)重自適應(yīng)損失函數(shù),損失函數(shù)的權(quán)重W定義如公式(4)所示:
其中,τ是控制軟邊界的超參數(shù),‖ ‖? 為絕對值函數(shù)。區(qū)分正負樣本的軟邊界表示為真值熱力圖的閾值h,定義為1-hτ=hτ。基于熱力圖的人體姿態(tài)估計方法通過以人體關(guān)鍵點作為中心位置,利用高斯函數(shù)生成真值熱力圖,越接近人體關(guān)鍵點的位置,真值熱力圖的值越接近1。在本文的權(quán)重自適應(yīng)損失函數(shù)中,對于真值熱力圖值越大于閾值h的樣本,Hτ的值越接近1,則樣本權(quán)重更接近正樣本(1-P),使得模型更加關(guān)注人體關(guān)鍵點的中心區(qū)域。反之對于真值熱力圖值越小于h的樣本,Hτ的值越接近0,則樣本權(quán)重更接近負樣本P,模型對其關(guān)注度更低。模型通過自適應(yīng)調(diào)節(jié)樣本的權(quán)重,使得模型更關(guān)注關(guān)鍵點周圍區(qū)域,也就是前景區(qū)域,從而緩解前景和背景樣本不平衡的問題。在實驗中,使用τ=0.01。
為了充分利用高分辨率網(wǎng)絡(luò)的通道和空間信息,受CCNet[28]和Coord attention[29]的啟發(fā),本文提出一種高效的全局注意力模塊,如圖3所示。既能獲取通道之間的依賴也能很好地建模位置信息和遠距離依賴,獲取豐富的上下文信息。

圖3 注意力模塊Fig.3 Attention module
對于輸入的特征圖F∈?C×W×H,首先利用兩個具有1×1 濾波器的卷積層生成兩個特征圖Q、K。其中{Q,K}∈?C′×W×H,為了對通道進行降維,減少計算量,使得C′小于C。得到特征圖Q和K后,通過Affinity操作進一步生成特征圖A∈?(H+W-1)×W×H。在特征圖Q的空間維度上的每個位置u,可以獲得一個向量Qu∈?C′。同時,也可以通過從K中提取與u位置相同的行或列的特征向量來獲得集合Ωu∈?(H+W-1)×C′。Ωi,u∈?C′表示Ωu中的第i個元素。Affinity 操作如公式(5)所示:
其中,di,u∈D代表特征Qu和Ωi,u之間的關(guān)聯(lián)程度,然后對D在通道維度上進行softmax操作計算出特征圖A。
同時對特征圖F利用另一個具有1×1 濾波器的卷積層生成特征圖V∈?C×W×H用于特征適應(yīng)。在特征圖V的空間維度上的每個位置u,可以獲得一個向量Vu∈?C和集合Φu∈?(H+W-1)×C。集合Φu是特征圖V中與u位置相同的行或列的特征向量的集合。然后通過Aggregation 操作來獲取上下文信息,如公式(6)所示:
然后對特征圖F′,分別使用尺寸為(H,1)和(1,W)的池化核沿著水平坐標方向和垂直坐標方向?qū)γ總€通道進行編碼。因此,第c個通道在高度為h處的表示如公式(7)所示:
上述兩種轉(zhuǎn)換分別沿兩個空間方向聚集特征,產(chǎn)生一對方向感知的特征圖。這兩種轉(zhuǎn)換也使注意力塊能夠沿一個空間方向捕捉長距離的依賴性,并沿另一個空間方向保留精確的位置信息。這有助于網(wǎng)絡(luò)更準確地定位物體感興趣的對象。
然后連接公式(7)和公式(8)中生成的兩個特征圖,再使用共享的1×1卷積變換函數(shù)F1生成f,如公式(9)所示:
其中,[?,?]代表沿著空間維度的連接操作,δ為非線性激活函數(shù),f∈?C/r×(H+W)是在水平方向和垂直方向上編碼空間信息的中間特征圖,r表示下采樣的比例。
然后將f沿著空間維度切分為兩個單獨的張量f h∈?C/r×H和f w∈?C/r×W,利用兩個1×1卷積變換函數(shù)Fh和Fw分別將f h和f w變換到和F′一樣通道數(shù)的張量,如下式所示:
將輸出的gh和gw分別拓展作為注意力權(quán)重,最后輸出的特征圖F′如公式(12)所示:
綜上本文所設(shè)計的注意力模塊可以獲取豐富的上下文信息,獲得空間方向的遠距離依賴,同時可更準確地定位感興趣對象的確切位置。
在訓(xùn)練過程中,通過關(guān)鍵點坐標生成對應(yīng)的真值熱力圖用來監(jiān)督模型預(yù)測的熱力圖。假設(shè)代表第p個人第k個關(guān)鍵點的坐標,hp代表與其相關(guān)的真值熱力圖,如公式(13)所示:
“除了劃定常年禁漁區(qū)外,從今年開始,我們還將全縣84條河流列入季節(jié)性禁漁區(qū),千島湖全域均實現(xiàn)了禁漁。”淳安縣漁政局局長吳福建說。
其中,{k,i,j}代表hp中的像素位置,σ為高斯函數(shù)的標準差。
然而與真值熱力圖數(shù)據(jù)相比,人體姿態(tài)估計模型預(yù)測的熱力圖并沒有表現(xiàn)出良好的高斯結(jié)構(gòu),預(yù)測的熱力圖存在多個峰值的情況,可能會影響熱力圖解碼的性能。為了解決這個問題,根據(jù)DARK[30](distribution-aware coordinate representation of keypoint),本文引入熱力圖分布調(diào)制來改善預(yù)測熱力圖。
利用與訓(xùn)練數(shù)據(jù)相同的高斯核G來平滑熱力圖中多個峰值的影響,如公式(14)所示:
其中,?表示卷積操作,p表示初始預(yù)測熱力圖。
為了保持原始熱力圖的大小,對p′進行縮放,使其最大激活值與p相等,轉(zhuǎn)換如公式(15)所示:
在消融實驗中驗證了熱力圖分布調(diào)制進一步提高了熱力圖解碼的性能。
在本文中采用關(guān)聯(lián)嵌入[22]的方法將圖像中所有人的無身份關(guān)鍵點分組到不同的人體實例中。其采用類內(nèi)最小,類間最大的思想,即同一個人的所有關(guān)鍵點的標簽值的間距越小越好,而不同人的關(guān)鍵點之間的標簽值差距越大越好。
具體來說,設(shè)tk=?W×H代表預(yù)測的第k個關(guān)鍵點的標簽值熱力圖,t(x)是像素x處的標簽值。對于給定的N個人,其真實關(guān)鍵點坐標為S={(xnk)},n=1,2,…,N,k=1,2,…,K,其中xnk代表第n個人的第k個關(guān)鍵點的真實像素位置。假設(shè)所有的K個關(guān)鍵點都被標注了,第n個人的參考標簽值如公式(16)所示:
則分組損失定義如公式(17)所示:
其中,第一項表示第n個人的所有關(guān)鍵點標簽值與其參考標簽值之間的損失,第二項表示第n個人的參考標簽值與其他人參考標簽值之間的損失。
本文實驗使用Python 語言,基于Pytorch 框架實現(xiàn)。CPU為i9-9900x,顯卡為NVIDIA GTX 2080ti。
本文算法使用在ImageNet[31]上預(yù)訓(xùn)練的HigherHRNet網(wǎng)絡(luò)作為backbone,使用Adam[32]優(yōu)化器對模型進行優(yōu)化,初始學(xué)習(xí)率為0.001 2,動量為0.9,模型訓(xùn)練360 個epoch。
本文通過隨機翻轉(zhuǎn)([-30°,30°]),隨機縮放([0.75,1.25]),隨機平移([-40,40])和隨機水平翻轉(zhuǎn)來進行數(shù)據(jù)增強。
本文模型分別在COCO數(shù)據(jù)集和Crowdpose[33]數(shù)據(jù)集上進行驗證。COCO 數(shù)據(jù)集包含超過20萬張圖片和25 萬個人體實例,每個人體實例標注17 個關(guān)鍵點。將COCO數(shù)據(jù)集中5.7萬張圖片用于訓(xùn)練,0.5萬張圖片用于驗證,2萬張圖片用于測試。
CrowdPose 數(shù)據(jù)集由2 萬張照片組成,包含8 萬個人體實例,每個人體實例標注14 個關(guān)鍵點,根據(jù)5∶1∶4的比例劃分訓(xùn)練集、驗證集和測試集。相比于COCO數(shù)據(jù)集,CrowdPose 數(shù)據(jù)集有更多的擁擠場景,對多人人體姿態(tài)估計模型更具有挑戰(zhàn)性。
COCO數(shù)據(jù)集采用官方的目標關(guān)鍵點相似性(object keypoint similarity,OKS)作為評價標準。其中包括AP(在OKS=0.50,0.55,…,0.90,0.95 時關(guān)鍵點預(yù)測的平均準確率)、AP50(OKS=0.5 時的準確率)、AP75(OKS=0.75時的準確率)、APM(中型目標的檢測準確率)、APL(大型目標的檢測準確率)。OKS的定義如公式(18)所示:
其中,di檢測到的關(guān)鍵點與其對應(yīng)的真值之間的歐氏距離,vi是真值的可見性標志位,s表示目標的尺度因子,ki是控制衰減的常量。
CrowdPose數(shù)據(jù)集也是采用OKS作為評價標準,相比于COCO數(shù)據(jù)集增加了APE(簡單樣本的檢測準確率)、APM(中等難度樣本的檢測準確率)和APH(困難樣本的檢測準確率)作為評價指標。
本文方法與一些先進的人體姿態(tài)估計方法分別在COCO數(shù)據(jù)集和CrowdPose數(shù)據(jù)集上進行了比較。
首先與一些先進的自底向上人體姿態(tài)估計方法在COCO測試集上進行比較,結(jié)果如表1所示。通過結(jié)果可以看到,不管是在單尺度測試還是多尺度測試上,WA-HRNet 都取得了最好的結(jié)果。在使用HRNet-W48作為backbone,多尺度測試的情況下可以在COCO 測試集上AP 值達到72.3%。與基線HigherHRNet 相比,WA-HRNet只增加了少量計算成本,且在不同backbone和輸入尺寸的情況下都能取得穩(wěn)定的提升。

表1 COCO測試集實驗結(jié)果對比Table 1 Experimental result comparison on COCO test-dev set
同時與一些先進的自頂向下人體姿態(tài)估計方法進行了比較,結(jié)果如表2 所示。WA-HRNet 已經(jīng)超過了很多自頂向下方法,進一步減小了自底向上和自頂向下人體姿態(tài)估計方法之間的差距。

表2 COCO測試集結(jié)果Table 2 Result on COCO test-dev set
表3為WA-HRNet 與其他先進的人體姿態(tài)估計方法在CrowdPose 數(shù)據(jù)集上的實驗結(jié)果對比。在密集場景下,自頂向下人體姿態(tài)估計方法[20,34]失去了優(yōu)勢。這是因為自頂向下的方法假定所有的人都能被人體檢測器完全捕獲,并且每個檢測框只包含一個人。然而,這一假設(shè)在密集場景中并不成立,在密集人群中,人通常是嚴重重疊的。相比之下,自底向上人體姿態(tài)估計方法不依賴于人體檢測器,在處理密集場景時可能會更好。在使用HRNet-W48 作為backbone,多尺度測試的情況下在CrowdPose 測試集上的AP 值達到73.4%。與基線HigherHRNet 相比,WA-HRNet 的AP 值提升了5.8 個百分點。

表3 CrowdPose測試集結(jié)果Table 3 Result on CrowdPose test set
為了驗證本文算法各個模塊的有效性,對本文模塊進行消融實驗。圖4 展示了引入權(quán)重自適應(yīng)損失函數(shù)以及高效全局注意力模塊后熱力圖的可視化結(jié)果對比,結(jié)果表明引入權(quán)重自適應(yīng)損失函數(shù)和高效全局注意力模塊后,模型生成的熱力圖更加關(guān)注于關(guān)鍵點的中心區(qū)域。表4顯示了各個模塊在COCO驗證集上的結(jié)果,消融實驗均采用HRNet-W32 作為backbone。實驗表明,WA-HRNet 的各個模塊都能有效提升人體姿態(tài)估計的準確率。使用權(quán)重自適應(yīng)損失函數(shù)比基線AP值提升了1.6個百分點,融合權(quán)重自適應(yīng)和注意力比基線AP值提升了2.1 個百分點,加上熱力圖分布調(diào)制后的最終效果比基線AP值提升了2.3個百分點。

表4 消融實驗Table 4 Ablation experiment
為了驗證本文注意力模塊的高效性,表5顯示了引入本文注意力模塊和主流的SE、ECA 注意力機制前后運算量和參數(shù)量的變化,以及在COCO數(shù)據(jù)集上的準確率。與基線相比,本文提出的注意力模塊在基本不增加參數(shù)量和計算量的情況下AP 值得到了0.5 個百分點的提升。與主流的SE、ECA模塊相比,本文提出的注意力模塊在參數(shù)量及計算量方面相差不大,但準確率顯著提升。SE 注意力提升較小的原因是SE 對特征圖通道進行了壓縮,會對通道注意力的預(yù)測產(chǎn)生負面影響,同時獲取所有通道的依賴關(guān)系是低效的。ECA 雖然避免了SE 的降維,但其需要人為設(shè)置相鄰?fù)ǖ佬畔⒌慕涣鞣秶@個重要的人為參數(shù)使得其泛化性不佳。

表5 注意力模塊對比實驗Table 5 Comparative experiment of attention module
本文對WA-HRNet 在COCO 數(shù)據(jù)集上的測試結(jié)果進行了可視化操作,隨機選取遮擋、單人、多人的圖片,結(jié)果如圖5 所示。可以看到,不論是在單人、多人還是遮擋的場景下,WA-HRNet都能獲得較好的結(jié)果。這表明本文提出的方法具有一定的魯棒性,可以在大部分情況下保持良好的人體姿態(tài)估計性能。

圖5 可視化結(jié)果Fig.5 Visual display of result
本文提出了一個融合權(quán)重自適應(yīng)和注意力的自底向上人體姿態(tài)估計方法。通過權(quán)重自適應(yīng)損失函數(shù),解決前景和背景樣本之間不平衡的問題。并設(shè)計一種高效全局自注意力,充分利用高分辨率網(wǎng)絡(luò)的通道和空間信息,獲取豐富的上下文信息,獲得空間方向的遠距離依賴,更準確地定位人體關(guān)鍵點的準確位置。引入熱力圖分布調(diào)制模塊,解決熱力圖在最大激活值附近出現(xiàn)多個峰值的問題,提高熱力圖解碼出關(guān)鍵點位置的準確性。本文算法在只增加少量計算成本的情況下,有效提升了自底向上人體姿態(tài)估計方法的性能,同時在COCO數(shù)據(jù)集和CrowdPose 數(shù)據(jù)集上取得的成績優(yōu)于其他自底向上人體姿態(tài)估計主流算法。