王柳程,歐陽(yáng)城添,梁 文
(江西理工大學(xué)信息工程學(xué)院,江西贛州 341000)
通過(guò)識(shí)別人類(lèi)姿態(tài)和行為動(dòng)作解析人的需求是實(shí)現(xiàn)人體關(guān)鍵點(diǎn)定位的過(guò)程。人體姿態(tài)在醫(yī)療安全監(jiān)控、醫(yī)療殘疾人監(jiān)護(hù)、運(yùn)動(dòng)目標(biāo)檢測(cè)、高級(jí)人機(jī)交互、游戲體感操作、體育運(yùn)動(dòng)分析、視頻圖像檢索等領(lǐng)域具有較高的應(yīng)用價(jià)值。
基于深度學(xué)習(xí)方法,人體姿態(tài)估計(jì)對(duì)二維和三維的人體進(jìn)行建模,檢測(cè)出人體關(guān)鍵點(diǎn)位置信息。由于傳統(tǒng)模型匹配方法的局限性[1-3],人體姿態(tài)估計(jì)主要用深度學(xué)習(xí)方法解決,其中卷積網(wǎng)絡(luò)為首選。混合部件模型基于HOG 等手工特征對(duì)人體姿態(tài)進(jìn)行處理[2],但并未得到關(guān)鍵點(diǎn)之間空間結(jié)構(gòu)關(guān)系。基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的姿態(tài)估計(jì),利用訓(xùn)練關(guān)鍵點(diǎn)的熱點(diǎn)圖獲得關(guān)鍵點(diǎn)之間的局部和全局空間關(guān)系。
文獻(xiàn)[4]提出DeepPose 對(duì)人體關(guān)鍵點(diǎn)進(jìn)行深度神經(jīng)網(wǎng)絡(luò)回歸學(xué)習(xí),在人體姿態(tài)估計(jì)上優(yōu)于傳統(tǒng)方法,常作為深度學(xué)習(xí)模型的主干網(wǎng)絡(luò)。目前人體姿態(tài)估計(jì)主要采用CNN 檢測(cè)關(guān)鍵點(diǎn),雖然CNN 的深層特征利于類(lèi)別識(shí)別,但不利于對(duì)象的定位。大多數(shù)神經(jīng)網(wǎng)絡(luò)檢測(cè)器只在網(wǎng)絡(luò)的頂層進(jìn)行關(guān)鍵點(diǎn)檢測(cè),而特征金字塔網(wǎng)絡(luò)(Feature Pyrapaid Networks,F(xiàn)PN)[5]在前向傳播過(guò)程中形成一個(gè)特征金字塔,獲取不同語(yǔ)義信息并提高檢測(cè)小目標(biāo)的性能。由于FPN 缺乏上下文信息結(jié)合,一旦IOU 增大,檢測(cè)性能就下降,在人體姿態(tài)估計(jì)上很難判斷關(guān)鍵檢測(cè)位置。文獻(xiàn)[6]利用級(jí)聯(lián)金字塔方法改善檢測(cè)關(guān)鍵點(diǎn)的性能。文獻(xiàn)[7]利用反卷層將低分辨率特征擴(kuò)張為原尺度預(yù)測(cè)關(guān)鍵點(diǎn)熱點(diǎn)圖,但并未預(yù)測(cè)其坐標(biāo)。大多數(shù)人體姿態(tài)估計(jì)方法對(duì)人體關(guān)鍵點(diǎn)高斯熱點(diǎn)圖回歸訓(xùn)練并未直接輸出坐標(biāo)。文獻(xiàn)[8]采用積分回歸坐標(biāo)的方法和文獻(xiàn)[9]提出soft-argmax 訓(xùn)練關(guān)鍵點(diǎn)坐標(biāo),均使用微分計(jì)算取代不可微的argmax 運(yùn)算,實(shí)現(xiàn)關(guān)鍵點(diǎn)坐標(biāo)回歸。
本文提出一種基于改進(jìn)特征金字塔網(wǎng)絡(luò)的人體姿態(tài)跟蹤方法。在原特征金字塔網(wǎng)絡(luò)的采樣模型基礎(chǔ)上增加多尺度卷積的分支結(jié)構(gòu)和坐標(biāo)變換層。分支結(jié)構(gòu)提取高分辨率強(qiáng)語(yǔ)義信息的特征,坐標(biāo)變換層將關(guān)鍵點(diǎn)的高斯熱點(diǎn)圖轉(zhuǎn)為關(guān)鍵點(diǎn)的坐標(biāo)。該網(wǎng)絡(luò)具有橫向連接的自頂向下體系結(jié)構(gòu)、提取多尺度特征、判斷關(guān)鍵點(diǎn)上下文信息定位難檢測(cè)部位、熱點(diǎn)圖到坐標(biāo)轉(zhuǎn)換等功能。改進(jìn)特征金字塔網(wǎng)絡(luò)結(jié)合特征金字塔結(jié)構(gòu)的低級(jí)和高級(jí)語(yǔ)義信息特征,實(shí)現(xiàn)關(guān)鍵點(diǎn)端到端的訓(xùn)練過(guò)程。
整體網(wǎng)絡(luò)如圖1 所示。第1 部分為原始特征金字塔結(jié)構(gòu),由主干網(wǎng)絡(luò)前向傳播中產(chǎn)生的特征層組成;第2 部分為改進(jìn)特征金字塔結(jié)構(gòu),由原始特征金字塔經(jīng)過(guò)采樣模塊和并行殘差層(Parallel Residual Layers,PRL)后改進(jìn)而得到;第3 部分為預(yù)測(cè)模塊,負(fù)責(zé)對(duì)級(jí)聯(lián)金字塔特征結(jié)合上下文信息對(duì)關(guān)鍵點(diǎn)進(jìn)行檢測(cè)和分類(lèi);第4 部分為高斯熱點(diǎn)圖轉(zhuǎn)換為坐標(biāo)的過(guò)程。

圖1 改進(jìn)特征金字塔網(wǎng)絡(luò)架構(gòu)Fig.1 Improved pyramid feature network architecture
主干網(wǎng)絡(luò)主要以ResNet 結(jié)構(gòu)為主獲取圖片特征。從空間結(jié)構(gòu)分析,主干網(wǎng)絡(luò)由從底向上的分支、從頂向下的分支和橫向分支組成。在原始特征金字塔結(jié)構(gòu)基礎(chǔ)上,將采樣模塊和PRL 融合到特征網(wǎng)絡(luò)進(jìn)一步提取圖像特征。為提取關(guān)鍵點(diǎn)部位的紋理和形狀等低級(jí)語(yǔ)義特征,并增強(qiáng)對(duì)難檢測(cè)關(guān)鍵點(diǎn)部位的搜索性能,在橫向分支增加PRL,串聯(lián)PRL 數(shù)量依據(jù)目標(biāo)值的分辨率與特征層分辨率關(guān)系來(lái)定義,改善特征金字塔。
從底向上的分支是由主干網(wǎng)絡(luò)前向傳播計(jì)算而得,計(jì)算不同步長(zhǎng)多尺度特征映射組成的特征通道。通常有許多特征通道產(chǎn)生相同尺度的輸出映射,這些通道位于同一個(gè)網(wǎng)絡(luò)階段,并定義每個(gè)階段為一個(gè)金字塔網(wǎng)絡(luò)層,將conv2、conv3,conv4 和conv5 的輸出特征分別表示為C1、C2、C3和C4,相對(duì)于輸入圖像,其步長(zhǎng)分別為4、8、16 和32 個(gè)像素值寬度。該部分網(wǎng)絡(luò)參數(shù)如表1 所示。

表1 網(wǎng)絡(luò)參數(shù)Table 1 The network parameters
若輸入圖片特征為X∈RH×W×C,第0 層x(0)=X,第l層輸入特征為x(l)和網(wǎng)絡(luò)權(quán)值為W(l),卷積函數(shù)為F(·),主干網(wǎng)絡(luò)總層數(shù)為L(zhǎng),則其前向傳播如式(1)所示:

由式(1)得到特征C1、C2、C3和C4,采樣模型得到的特征如式(2)所示:

其中,yc 為第c 層金字塔變換特征,F(xiàn) (·)為1×1卷積函數(shù),U(·) 為上采樣函數(shù)。原始卷積特征經(jīng)式(2)計(jì)算和PRL 處理后組成新的特征金字塔結(jié)構(gòu),該計(jì)算方法如式(3)所示:

其中,F(xiàn)PRL(·)為PRL函數(shù),輸入特征x0=yc,c為第c層改進(jìn)特征金字塔的特征。
實(shí)現(xiàn)改進(jìn)特征金字塔,過(guò)程如下:
1)主干網(wǎng)絡(luò)對(duì)圖片特征提取,如式(1)所示,建立4 個(gè)分辨率和通道數(shù)不同的卷積特征。
2)按從上往下的順序取4 層網(wǎng)絡(luò)特征{C4,C3,C2,C1}進(jìn)行2 倍上采樣并壓縮通道數(shù)為256 維度。
3)取后3 層網(wǎng)絡(luò)特征{C1,C2,C3},分別經(jīng)過(guò)1×1卷積降維處理,壓縮特征的通道數(shù)為256 維度。
4)將步驟2)的后3 層網(wǎng)絡(luò)特征與步驟3)的3 層特征,結(jié)合式(2)計(jì)算得到3 層特征。
5)將步驟4)3 層特征與步驟2)的最頂層特征經(jīng)過(guò)式(3)得到新特征金字塔。
并行殘差層是本網(wǎng)絡(luò)的重要檢測(cè)器。普通的特征金字塔在橫向增加一個(gè)3×3 卷積,以消除上采樣混疊效應(yīng)。但單尺度小型卷積對(duì)其進(jìn)行全卷積滑窗操作,使得滑動(dòng)窗口對(duì)應(yīng)的特征信息不均勻,采用多尺度卷積使得每層得到均勻的特征[10]。基于多尺度卷積的分支結(jié)構(gòu)能消除混疊影響,獲取均勻特征,并擴(kuò)大感受野檢測(cè)難樣本,壓縮通道數(shù),獲取高分辨率強(qiáng)語(yǔ)義信息的特征,結(jié)合上下文判斷較難的關(guān)鍵點(diǎn)信息。PRL 如式(4)所示:其中,x為輸入特征,W為對(duì)應(yīng)網(wǎng)絡(luò)權(quán)重,U(·)為上采樣,σ(·)為激活函數(shù),N為分支數(shù)量,y為輸出特征。

本文取分支數(shù)量N=2,PRL 結(jié)構(gòu)如圖2 所示,主要由2 個(gè)分支組成。第1 個(gè)分支是瓶頸模塊[11](Bottleneck),由3 個(gè)卷積層、歸一化層和激活層構(gòu)成:第1 個(gè)1×1 卷積核用于特征維度降維,第2 個(gè)3×3卷積核對(duì)特征下采樣,第3 個(gè)1×1 卷積核用于特征維度升維;第2 個(gè)分支由3 個(gè)卷積層、歸一化層、激活層和上下采樣層構(gòu)成;對(duì)2 個(gè)并行分支輸出的結(jié)果進(jìn)行殘差連接獲得新特征。殘差連接符號(hào)⊕為元素加法運(yùn)算,使網(wǎng)絡(luò)在反向傳播中深層的梯度能有效傳播到上一層和訓(xùn)練淺層的網(wǎng)絡(luò)層參數(shù)。在圖2 中輸入特征向量[d,wc,hc]為原始特征金字塔第c層的特征,經(jīng)過(guò)PRL 輸出為新特征。PRL 保證不同卷積操作輸出的特征圖大小一樣,以便于特征拼接;原始特征在1×1 卷積核降維后由于減少了通道數(shù),經(jīng)過(guò)3×3卷積操作后網(wǎng)絡(luò)有效地訓(xùn)練數(shù)據(jù)和提取特征;由1×1卷積核恢復(fù)特征的原始維度,最終2 倍上采樣對(duì)特征分辨率增加2 倍。原始特征經(jīng)過(guò)PRL 串聯(lián)結(jié)構(gòu),得到新特征金字塔作為預(yù)測(cè)模型1 的輸入特征。

圖2 并行殘差網(wǎng)絡(luò)層框架Fig.2 Network framework of parallel residual layers
在人體姿態(tài)估計(jì)的算法中常用關(guān)鍵點(diǎn)的高斯熱點(diǎn)圖監(jiān)督學(xué)習(xí),通過(guò)線(xiàn)下用argmax 處理關(guān)鍵點(diǎn)概率響應(yīng)圖得到其坐標(biāo)。雖然在人體姿態(tài)估計(jì)中以回歸熱力圖的方法將人體關(guān)鍵點(diǎn)坐標(biāo)映射到熱力圖中高亮部分,產(chǎn)生很好的效果,但仍存在一定缺點(diǎn):1)高斯熱點(diǎn)圖尺度不能太小,與原圖成1/n倍數(shù)關(guān)系,本文為1/4;2)原坐標(biāo)與高斯熱點(diǎn)圖概率最大的位置坐標(biāo)之間存在量化誤差,即后者返回原圖位置時(shí)不能完全對(duì)齊,即,比值n越大,其量化誤差變大,則還原原坐標(biāo)過(guò)程的偏差就會(huì)越大。
將熱點(diǎn)圖轉(zhuǎn)為坐標(biāo)可以解決熱點(diǎn)圖量化后精度缺失的問(wèn)題。本文提出一種轉(zhuǎn)換坐標(biāo)層(Cordinate Transformation Layer,CTL),部分理論參考文獻(xiàn)[12]和文獻(xiàn)[13]。從尺度(wg,hg)的熱點(diǎn)圖到坐標(biāo)點(diǎn)過(guò)程,轉(zhuǎn)換坐標(biāo)層如式(5)所示:

根據(jù)上述理論,坐標(biāo)轉(zhuǎn)換層結(jié)構(gòu)如圖3 所示。函數(shù)softmax 對(duì)預(yù)測(cè)模塊2 輸出的高斯熱點(diǎn)圖歸一化處理得到,并聯(lián)合概率分布的期望值,均分層將關(guān)鍵點(diǎn)坐標(biāo)轉(zhuǎn)為均勻分布,生成矩陣X和矩陣Y。將兩個(gè)矩陣與進(jìn)行F 范數(shù)運(yùn)算得關(guān)鍵點(diǎn)坐標(biāo)的置信度,用該置信度求得坐標(biāo)。

圖3 坐標(biāo)轉(zhuǎn)換層結(jié)構(gòu)Fig.3 Coordinate transformer layer structure
預(yù)測(cè)模型的基本組成結(jié)構(gòu)如圖4 所示。通過(guò)結(jié)合特征金字塔的上下文信息獲得高語(yǔ)義特征,實(shí)現(xiàn)分類(lèi)關(guān)鍵點(diǎn)熱點(diǎn)圖的功能。預(yù)測(cè)模型1 主要由2 個(gè)卷積和1 個(gè)上采樣組成,先合并新特征金字塔,經(jīng)過(guò)1×1 卷積降維,再經(jīng)過(guò)3×3 卷積分類(lèi)出k個(gè)關(guān)鍵點(diǎn)熱點(diǎn)圖。k個(gè)關(guān)鍵點(diǎn)熱點(diǎn)圖由上采樣增加尺度。該尺度為預(yù)設(shè)的高斯圖尺度(wg,hg),其預(yù)測(cè)結(jié)果與標(biāo)簽值進(jìn)行損失計(jì)算。預(yù)測(cè)模型2主要由瓶頸模型和3×3卷積構(gòu)成,瓶頸模型對(duì)特征降維減少計(jì)算量,有效提取特征,進(jìn)一步獲取較高層次的特征及其感興趣區(qū)間,進(jìn)而判斷較難檢測(cè)的關(guān)鍵點(diǎn)部位,分類(lèi)出k個(gè)關(guān)鍵點(diǎn)的熱點(diǎn)圖。人體姿態(tài)估計(jì)流程如圖5 所示,預(yù)測(cè)模型對(duì)標(biāo)簽熱點(diǎn)圖進(jìn)行監(jiān)督訓(xùn)練,通過(guò)網(wǎng)絡(luò)對(duì)人體姿態(tài)估計(jì)的流程說(shuō)明訓(xùn)練標(biāo)簽到坐標(biāo)輸出的過(guò)程。

圖4 預(yù)測(cè)模型結(jié)構(gòu)Fig.4 Prediction mode structure

圖5 人體姿態(tài)估計(jì)流程Fig.5 Flow of the human pose estimation
預(yù)測(cè)模塊1的損失函數(shù)采用均方誤差,如式(6)所示:

其中,N為行人樣本數(shù),Si為第i個(gè)關(guān)鍵點(diǎn)高斯熱點(diǎn)圖標(biāo)簽值,S^i為預(yù)測(cè)第i個(gè)關(guān)鍵點(diǎn)高斯熱點(diǎn)圖。
圖1 中L2損失函數(shù)如式(7)所示:

其中,λ=1 為正則項(xiàng)系數(shù)為CTL 損失函數(shù),第k個(gè)關(guān)鍵點(diǎn)坐標(biāo)(x,y)均勻化處理后為向量zk=[(2x-(wg+1))/wg,(2y-(hg+1))/hg],μk為網(wǎng)絡(luò)預(yù)測(cè)坐標(biāo)值為在預(yù)測(cè)模塊2 中的熱點(diǎn)圖損失函數(shù)為歸一化的熱點(diǎn)圖標(biāo)簽值。
預(yù)測(cè)模塊2 的損失函數(shù)不同于預(yù)測(cè)模塊1 的損失函數(shù)。前者將坐標(biāo)和熱點(diǎn)圖值當(dāng)概率形成聯(lián)合概率分布,且坐標(biāo)則均分處理組成兩個(gè)矩陣,與熱點(diǎn)圖歸一化后的矩陣進(jìn)行F 范數(shù)運(yùn)算,則理想輸出聯(lián)合概率分布是二元高斯分布,用MSE 計(jì)算概率分布并不合適;而后者并未歸一化處理熱點(diǎn)圖,用MSE 度量損失仍會(huì)存在量化偏差[12]。另一方面,由于KL 散度大量用于衡量?jī)蓚€(gè)分布相似性上,但并非具有對(duì)稱(chēng)性,即兩個(gè)分布概率值交換位置運(yùn)算結(jié)果是不一樣的,影響網(wǎng)絡(luò)學(xué)習(xí)高斯熱點(diǎn)圖。因?yàn)榫W(wǎng)絡(luò)更傾向于學(xué)習(xí)對(duì)稱(chēng)的高斯聯(lián)合概率分布,而其變種JS 散度(Jensen-Shannon)值域范圍是[0,1],且是對(duì)稱(chēng)的。最終本文使用JS 散度,則該損失函數(shù)為:

其中,P=N為標(biāo)簽訓(xùn)練的高斯分布,σt為標(biāo)簽的高斯核為預(yù)測(cè)的聯(lián)合概率分布,D(·||·)為JS 離散度。
JS 散度基于KL 散度,求兩種概率分布的相似性,該散度越小則比較的分布越相似,反之相似性低。該離散度如式(9)所示:

綜合式(6)和式(7),網(wǎng)絡(luò)損失函數(shù)表示為式(10)。

驗(yàn)證本算法的平臺(tái)是Ubuntu19.04,64 位操作系統(tǒng),i7-4790k CPU,內(nèi)存24 GB,顯卡GTX 1070 的硬件條件以及CUDA10、cuDNN7.5 和Python3.6 的軟件平臺(tái)上進(jìn)行訓(xùn)練。網(wǎng)絡(luò)預(yù)訓(xùn)練參數(shù)使用在Imagenet 數(shù)據(jù)集的預(yù)訓(xùn)練模型的參數(shù)。人體姿態(tài)估計(jì)數(shù)據(jù)集采用MPII 和COCO,及其兩種評(píng)價(jià)指標(biāo)。
2.1.1 PCKh 評(píng)價(jià)標(biāo)準(zhǔn)
通過(guò)對(duì)測(cè)試圖像中每個(gè)人進(jìn)行明確的邊界限定來(lái)獲得檢測(cè)準(zhǔn)確率。給定邊界框(h,w),框內(nèi)的候選區(qū)域包含原始關(guān)鍵點(diǎn)坐標(biāo)位置,控制相關(guān)閾值得到不同準(zhǔn)確率來(lái)判斷預(yù)測(cè)的關(guān)鍵點(diǎn)是否定位合理,選擇閾值r=0.5。PCKh 用人體軀干大小替代頭部框大小,將該尺度作為歸一化其他部件的距離。如果檢測(cè)關(guān)鍵點(diǎn)與標(biāo)簽關(guān)鍵點(diǎn)的歐氏距離在該閾值范圍內(nèi),則該檢測(cè)結(jié)果是正確的。以第k類(lèi)人體關(guān)鍵點(diǎn)為例,PCKh 的計(jì)算方式如下:

其中,Pc(k)是第k個(gè)關(guān)鍵點(diǎn)PCKh 的值,其累加和的均值為最終結(jié)果為第i個(gè)圖片中第k類(lèi)人體關(guān)鍵點(diǎn)的標(biāo)簽值為對(duì)應(yīng)關(guān)鍵點(diǎn)的預(yù)測(cè)結(jié)果,N為樣本總數(shù),以頭部框的尺度sh結(jié)合距離歸一化系數(shù)r為判斷條件,該閾值越小表示評(píng)價(jià)標(biāo)準(zhǔn)越嚴(yán)格,PCKh@0.5則表示當(dāng)r=0.5 時(shí)以距離閾值為0.5sh進(jìn)行對(duì)真值與預(yù)測(cè)值距離比較。
2.1.2 OKS 評(píng)價(jià)標(biāo)準(zhǔn)
基于COCO 評(píng)估指標(biāo)OKS,AP 是對(duì)不同關(guān)鍵點(diǎn)類(lèi)型和人物尺寸的歸一化,是關(guān)鍵點(diǎn)之間的平均關(guān)鍵點(diǎn)相似度,在[0,1]之間,預(yù)測(cè)結(jié)果越接近原值則越趨向于1,反之為0。OKS 定義如式(12)所示:

其中,d為真值坐標(biāo)θ(p)與預(yù)測(cè)坐標(biāo)之間的度量距離為人體在圖像中所占面積,ki為歸一化因子,δ(νi>0)表示關(guān)鍵點(diǎn)可見(jiàn)性大于0。
對(duì)人體姿態(tài)估計(jì)AP為平均精確度,如式(13)所示:

其中,t為給定OKS 的閾值處理,該式預(yù)測(cè)準(zhǔn)確率由測(cè)試集所有圖片中人物的OKS 指標(biāo)計(jì)算得到。
在網(wǎng)絡(luò)中輸入圖片尺寸,對(duì)應(yīng)MPII 數(shù)據(jù)集為256像素×256 像素,對(duì)應(yīng)COCO 數(shù)據(jù)集為256 像素×192 像素和384 像素×288 像素。圖片預(yù)處理參數(shù)均值M=[0.485,0.456,0.406]和標(biāo)準(zhǔn)差S=[0.229,0.224,0.225]。將人體處于圖像中間,采用隨機(jī)旋轉(zhuǎn)[-45°,45°]、翻轉(zhuǎn)、鏡像、縮放等數(shù)據(jù)增擴(kuò)。MPII 數(shù)據(jù)集訓(xùn)練迭代次數(shù)為50 次,每批次數(shù)據(jù)為32;當(dāng)COCO 數(shù)據(jù)集圖片尺寸為256像素×192像素和384像素×288像素時(shí),訓(xùn)練迭代次數(shù)分別為30 次和24 次,每批次數(shù)據(jù)分別為34 和16。優(yōu)化器為Adam。其參數(shù):計(jì)算梯度平方系數(shù)為0.5,增加分母的數(shù)值為10e-8,權(quán)重懲罰系數(shù)1e-5;學(xué)習(xí)速率為5e-4,每隔5 次迭代減少為原來(lái)的一半。高斯核大小從底層到頂層分別為7、9、11 和15。
本文分別在MPII、COCO 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
2.3.1 對(duì)比實(shí)驗(yàn)結(jié)果分析
參考文獻(xiàn)[7]處理MPII 測(cè)試集的方法,共2 958張圖片,當(dāng)輸入圖片尺寸為256 像素×256 像素時(shí),不同方法的關(guān)鍵點(diǎn)檢測(cè)結(jié)果如表2 所示。從表2 可知本文IPFN 在關(guān)鍵點(diǎn)平均預(yù)測(cè)精度高于其他方法,在腳踝、膝蓋、肘、手腕和肩較難檢測(cè)的部位,精度高于文獻(xiàn)[5]、文獻(xiàn)[14]和文獻(xiàn)[15],與文獻(xiàn)[16]肘部指標(biāo)接近,對(duì)比文獻(xiàn)[17],手腕和膝蓋精度略低,肘部指標(biāo)則接近。對(duì)比文獻(xiàn)[16],本文IPFN 在腳踝、膝蓋和手腕檢測(cè)精度上分別提升了6.94、4.4 和1.13 個(gè)百分點(diǎn);對(duì)比基線(xiàn)模型[5],在腳踝、膝蓋、手腕和肘較檢測(cè)精度上,IPFN 分別提升了3.95、2.80、2.52 和1.05個(gè)百分點(diǎn);而在較易檢測(cè)到的部位提升效果并不明顯。本 文IPFN 無(wú)需像Openpose[14]、文 獻(xiàn)[18]、MultiPoseNet[19]等方法對(duì)關(guān)鍵點(diǎn)進(jìn)行多個(gè)階段校準(zhǔn)獲得多尺度特征信息,輸出關(guān)鍵點(diǎn)的坐標(biāo),只需要進(jìn)行一次網(wǎng)絡(luò)推理得到了更高的精度。對(duì)比文獻(xiàn)[17]使用遞歸卷積神經(jīng)網(wǎng)絡(luò)增大感受野區(qū)域來(lái)獲取圖片特征的方法,本文IPFN 在檢測(cè)腳踝上提升了3.04 個(gè)百分點(diǎn),在臀部和肩部分別提升了1.97 和0.65 個(gè)百分點(diǎn)。在MPII 驗(yàn)證集上IPFN 與基線(xiàn)模型的效果對(duì)比如圖6 所示。不同迭代次數(shù)下兩種模型性能對(duì)此如圖7 所示。

圖6 在MPII 驗(yàn)證集上兩種模型效果Fig.6 The model effect of two algorithms on MPII validation dataset

圖7 不同迭代次數(shù)下兩種模型性能對(duì)比Fig.7 Performance comparison of two models in different epoch

表2 不同算法在MPII 數(shù)據(jù)集上的性能比較(PCKh@0.5)Table 2 Performance comparison of various algorithms on MPII dataset(PCKh@0.5)
IPFN方法在整體上要優(yōu)于基線(xiàn)模型[5]和其他方法,對(duì)較難檢測(cè)部位的精度普遍高于其他方法,且計(jì)算量較少。
從圖7 可以看出,對(duì)比基線(xiàn)模型[5],IPFN 在各個(gè)訓(xùn)練階段都保持較好的檢測(cè)性能,在難檢測(cè)的部位也具有優(yōu)良的性能。對(duì)COCO 數(shù)據(jù)集則采用2017 年測(cè)試集,不同方法的平均準(zhǔn)確度如表3 所示。對(duì)比采用多尺寸方法CPN,當(dāng)輸入256 像素×192 像素尺寸的圖片時(shí),本文網(wǎng)絡(luò)的AP提高了1.3個(gè)百分點(diǎn);當(dāng)輸入384像素×288像素尺寸的圖片時(shí),AP 提高了2.1 個(gè)百分點(diǎn)。對(duì)比文獻(xiàn)[8]采用積分回歸坐標(biāo)的方法,本文網(wǎng)絡(luò)的AP 提高了2.9 個(gè)百分點(diǎn)。網(wǎng)絡(luò)計(jì)算量較低,分別為9.06×109和6.81×109參數(shù)時(shí),對(duì)比基線(xiàn)模型[5],對(duì)應(yīng)PCKh 均值和AP 分別提升了2.05和3.2個(gè)百分點(diǎn)。當(dāng)輸入圖片尺寸為384像素×288像素時(shí),對(duì)比尺寸256像素×192像素,在增加計(jì)算量8.52×109下,AP提高了3.5個(gè)百分點(diǎn),說(shuō)明增大圖片尺寸利于對(duì)關(guān)鍵點(diǎn)定位,且能有效提高檢測(cè)精度。

表3 不同模型在COCO 測(cè)試集上性能比較(AP 和AR)Table 3 Performance comparison of different models on COCO dataset(AP and AR)
在256 像素×192 像素尺寸的圖片訓(xùn)練中基線(xiàn)模型和IPFN的訓(xùn)練差異如圖8所示。從圖8可以看出,IPFN網(wǎng)絡(luò)在COCO 測(cè)試集上的平均準(zhǔn)確率和召回率得到明顯提升。

圖8 不同迭代次數(shù)下兩種模型性能對(duì)比Fig.8 Performance comparison of two models in different epoch
在可視化COCO 測(cè)試集上不同方法的預(yù)測(cè)對(duì)比如圖9所示。采用其驗(yàn)證集測(cè)試效果,從圖9中可以看出,本文模型在整體上要優(yōu)于其他方法,從不同視角上對(duì)關(guān)鍵點(diǎn)部位檢測(cè)效果更好,在外物遮擋和肢體交互掩蓋等復(fù)雜情況下表現(xiàn)更佳。

圖9 在COCO 測(cè)試集上不同方法效果Fig.9 The effect of different algorithms in COCO test dataset
2.3.2 消融實(shí)驗(yàn)結(jié)果分析
該試驗(yàn)對(duì)數(shù)據(jù)增強(qiáng)設(shè)置均一致,并得出不同模塊對(duì)算法性能的影響。由于COCO 訓(xùn)練過(guò)程耗時(shí)較多,選擇在MPII 訓(xùn)練和測(cè)試的結(jié)果如表4 所示。與基線(xiàn)模型相比[5],網(wǎng)絡(luò)增加PRL 使PCKh@0.5 指標(biāo)提升了1.71%,在難檢測(cè)部位中檢測(cè)指標(biāo)明顯提升,如肘部、手腕、膝蓋和腳踝分別提升了1.33、1.59、2.63 和3.40 個(gè)百分點(diǎn)。在PRL 基礎(chǔ)上網(wǎng)絡(luò)增加CTL,肘部、手腕、臀部、膝蓋和腳踝的檢測(cè)指標(biāo)有提升,對(duì)比PRL 分別提升了0.72、0.93、0.14、0.17 和0.55 個(gè)百分點(diǎn),說(shuō)明坐標(biāo)轉(zhuǎn)換層在解決熱點(diǎn)圖量化后精度缺失問(wèn)題上有一定效果。

表4 在MPII 測(cè)試集上不同組件的PCKh@0.5 比較Table 4 PCKh@0.5 comparison of different components on MPII test dataset
本文針對(duì)人體姿態(tài)估計(jì)問(wèn)題,提出一種改進(jìn)特征金字塔網(wǎng)絡(luò)模型。該模型結(jié)合低級(jí)和高級(jí)語(yǔ)義信息特征以實(shí)現(xiàn)關(guān)鍵點(diǎn)端到端訓(xùn)練過(guò)程。實(shí)驗(yàn)結(jié)果表明,在MPII和COCO 數(shù)據(jù)集上,IPFN 模型檢測(cè)精度高于傳統(tǒng)特征金字塔網(wǎng)絡(luò),模型計(jì)算量對(duì)難檢測(cè)部位的檢測(cè)效果具有較高準(zhǔn)確率。在人體姿態(tài)估計(jì)中,多尺度檢測(cè)具有運(yùn)算量大、訓(xùn)練和測(cè)試復(fù)雜度極高等特點(diǎn),下一步將通過(guò)改進(jìn)的IPFN 模型降低復(fù)雜度和優(yōu)化網(wǎng)絡(luò)推理速度,并結(jié)合不同損失函數(shù)加強(qiáng)網(wǎng)絡(luò)泛化能力和提高關(guān)鍵點(diǎn)識(shí)別精度。