龍辰志,陳平,李傳坤
(中北大學(xué)信息探測與處理山西省重點(diǎn)實(shí)驗(yàn)室,山西 太原 030051)
多人姿態(tài)估計(jì)旨在預(yù)測圖像中所有人體目標(biāo)各個(gè)重要關(guān)鍵點(diǎn)的位置,在許多視覺應(yīng)用中對理解人體行為至關(guān)重要[1]。多人姿態(tài)估計(jì)通常有自頂向下和自底向上2種實(shí)現(xiàn)方法。自頂向下的方法[2-4]把多人姿態(tài)估計(jì)分解為多個(gè)單人姿態(tài)估計(jì):首先利用目標(biāo)檢測模型預(yù)測圖像上的人體檢測框,然后根據(jù)檢測框從圖像中裁剪出對應(yīng)區(qū)域,并作為單人姿態(tài)估計(jì)模型的輸入得到對應(yīng)的所有關(guān)鍵點(diǎn)輸出。自底向上的方法[5-7]直接預(yù)測所有人體目標(biāo)的關(guān)鍵點(diǎn):首先檢測出圖像中所有目標(biāo)的關(guān)鍵點(diǎn),之后采用關(guān)鍵點(diǎn)匹配算法把所有的關(guān)鍵點(diǎn)進(jìn)行分組,從而獲得每個(gè)人體目標(biāo)對應(yīng)的關(guān)鍵點(diǎn)。自頂向下方法相比于自底向上方法最大的優(yōu)勢在于顯式地解耦了圖像中的不同目標(biāo),使得姿態(tài)估計(jì)模型只需要預(yù)測關(guān)鍵點(diǎn)位置而不用考慮關(guān)鍵點(diǎn)和目標(biāo)之間的相關(guān)關(guān)系。雖然2種多人姿態(tài)估計(jì)方法都能夠有效地識別正常尺度大小的目標(biāo),但對于小尺度的目標(biāo),由于像素信息有限,因此2種方法均難以有效識別。自底向上的方法不依賴于目標(biāo)檢測模型,一次性得到所有目標(biāo)的關(guān)鍵點(diǎn),但無法有效處理尺度變化問題以及目標(biāo)信息冗余問題,導(dǎo)致小目標(biāo)的姿態(tài)丟失或預(yù)測錯(cuò)誤。而自頂向下方法因存在目標(biāo)檢測框,能夠從圖像中裁剪出不同目標(biāo)對應(yīng)的圖像區(qū)域,并通過仿射變換和插值實(shí)現(xiàn)不同目標(biāo)的尺度統(tǒng)一,使得該方法的識別精度更高。盡管如此,自頂向下方法嚴(yán)重依賴于人體目標(biāo)檢測,而當(dāng)前的目標(biāo)檢測模型在識別小目標(biāo)上仍是1個(gè)難點(diǎn)。
為此,本文提出一種融合全局-局部上下文信息的多人姿態(tài)估計(jì)方法。采用自底向上的方法實(shí)現(xiàn)小目標(biāo)的多人姿態(tài)估計(jì),無須額外的目標(biāo)檢測階段,結(jié)合多解剖中心和可變形采樣對多尺度目標(biāo)進(jìn)行精確定位,同時(shí)從聚類的角度,利用交叉注意力機(jī)制融合全局-局部上下文信息,實(shí)現(xiàn)高效準(zhǔn)確的小目標(biāo)多人姿態(tài)估計(jì)。
自頂向下的方法首先利用目標(biāo)檢測模型得到人體檢測框,然后對檢測框裁剪的區(qū)域執(zhí)行單人姿態(tài)估計(jì)。自底向上的方法直接預(yù)測所有可能的關(guān)鍵點(diǎn),再將不同目標(biāo)的關(guān)鍵點(diǎn)進(jìn)行組合。文獻(xiàn)[8]提出的高分辨網(wǎng)絡(luò)(HRNet)在整個(gè)過程中保持多分支多分辨率表示,并通過融合多分辨率特征來豐富高分辨率特征表示。文獻(xiàn)[9]提出的上下文實(shí)例解耦(CID)通過每個(gè)目標(biāo)的中心位置線索來構(gòu)建不同目標(biāo)的空間和通道特征,實(shí)現(xiàn)不同目標(biāo)的特征解耦。文獻(xiàn)[10]提出的對偶解剖中心(DAC)采用多尺度訓(xùn)練的方法以及多解剖中心的姿態(tài)偏置回歸,實(shí)現(xiàn)小目標(biāo)姿態(tài)估計(jì)。文獻(xiàn)[11]通過結(jié)構(gòu)化空間學(xué)習(xí)和中途時(shí)間評估來學(xué)習(xí)豐富的特征結(jié)構(gòu)信息和時(shí)序一致性信息,確保視頻數(shù)據(jù)下姿態(tài)的連貫性和穩(wěn)定性。文獻(xiàn)[12]提出的Bi-Pose通過圖像輔助的3D偏移預(yù)測和雙向2D-3D轉(zhuǎn)換策略提出一種利用圖像信息和2D姿態(tài)進(jìn)行3D姿態(tài)估計(jì)的方法,并利用2D誤差和反投影網(wǎng)絡(luò)進(jìn)一步提高3D姿態(tài)的精度。
現(xiàn)有的姿態(tài)估計(jì)算法缺乏對小目標(biāo)的研究,小目標(biāo)識別多見于目標(biāo)檢測領(lǐng)域。文獻(xiàn)[13]通過生成對抗網(wǎng)絡(luò)學(xué)習(xí)大目標(biāo)與小目標(biāo)之間的殘差表示,為小目標(biāo)生成媲美大目標(biāo)的超分辨率特征。文獻(xiàn)[14]針對小目標(biāo)像素區(qū)域小的問題,對包含小目標(biāo)的圖像進(jìn)行過采樣,并在保證沒有重疊的情況下復(fù)制粘貼小目標(biāo)數(shù)量來增加小目標(biāo)的像素。文獻(xiàn)[15-16]采用多尺度特征學(xué)習(xí)的方式,通過逐層上采樣融合淺層特征和深層特征以獲得空間定位能力和目標(biāo)表征能力更強(qiáng)的特征。其他方法[17]利用環(huán)境和物體之間的關(guān)系以及物體與物體之間的關(guān)系來識別目標(biāo),通過1組對象的外觀特征和幾何特征實(shí)現(xiàn)關(guān)系建模,實(shí)現(xiàn)目標(biāo)上下文信息的提取。
隨著注意力機(jī)制[18-19]的發(fā)展,直接基于Transformer的模型已被廣泛應(yīng)用于多人姿態(tài)估計(jì)領(lǐng)域[20-23]。TokenPose[20]利用Transformer模塊解碼卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征,并引入關(guān)鍵點(diǎn)Token從圖像中學(xué)習(xí)視覺線索和關(guān)鍵點(diǎn)約束。PETR[21]利用Transformer編碼器細(xì)化CNN提取的多尺度特征,并采用Transformer解碼器直接捕捉關(guān)鍵點(diǎn)與目標(biāo)之間的關(guān)系。GCEHNet[22]采用雙分支輸入把Transformer模塊編碼的全局上下文信息與CNN特征進(jìn)行融合,擴(kuò)大了CNN網(wǎng)絡(luò)的感受野。CAPose[23]利用交叉注意力模塊實(shí)現(xiàn)高分辨率特征和不同尺度低分辨率特征的有效融合,提高了Transformer編碼器的學(xué)習(xí)效率。
對于1張包含多人的RGB圖像I,多人姿態(tài)估計(jì)的目的在于定位出M個(gè)人體實(shí)例以及對應(yīng)的K個(gè)關(guān)鍵點(diǎn)位置。本文通過多中心點(diǎn)對小目標(biāo)進(jìn)行定位,并利用注意力機(jī)制提取有效的小目標(biāo)上下文信息,實(shí)現(xiàn)小目標(biāo)的姿態(tài)估計(jì),模型的整體架構(gòu)如圖1所示。

圖1 模型整體架構(gòu)Fig.1 Overall architecture of model
考慮到小目標(biāo)所占圖像的像素區(qū)域小,不容易進(jìn)行定位,本文通過設(shè)置多個(gè)解剖中心對小目標(biāo)樣本進(jìn)行數(shù)據(jù)增強(qiáng),保證在1個(gè)中心點(diǎn)無法定位的情況下通過多中心點(diǎn)對小目標(biāo)進(jìn)行定位。同時(shí),多中心點(diǎn)的結(jié)果可以互相修正小目標(biāo)的定位精度。在定位過程中可以不需要精確的結(jié)果,但必須定位出所有可能存在小目標(biāo)的位置。中心點(diǎn)劃分策略如圖2所示,以COCO數(shù)據(jù)集為例,采用3種關(guān)鍵點(diǎn)劃分方式。對于中等目標(biāo)和大目標(biāo),只設(shè)置了1個(gè)中心點(diǎn)進(jìn)行監(jiān)督,圖2(a)、圖2(b)和圖2(c)對小目標(biāo)分別設(shè)置了1個(gè)、3個(gè)和5個(gè)中心點(diǎn)進(jìn)行監(jiān)督。對于不同的關(guān)鍵點(diǎn)劃分方式,本文通過計(jì)算其內(nèi)部的所有關(guān)鍵點(diǎn)坐標(biāo)的均值點(diǎn)來表示監(jiān)督的中心點(diǎn)坐標(biāo)信息。

圖2 中心點(diǎn)劃分策略Fig.2 The strategies of center point partition
基于CenterNet等方法[9,24-25]的啟發(fā),本文通過回歸中心點(diǎn)熱圖來定位目標(biāo)的中心點(diǎn)坐標(biāo),并利用中心點(diǎn)的坐標(biāo)從多尺度的特征中采樣目標(biāo)對應(yīng)的局部上下文信息。
假設(shè)HRNet網(wǎng)絡(luò)提取的第l級尺度特征為F(l)∈Cl×Hl×Wl。不同尺度的特征首先通過1×1卷積和上采樣操作實(shí)現(xiàn)尺度和特征通道數(shù)的統(tǒng)一,然后把所有特征沿通道維度進(jìn)行拼接,并通過1×1卷積頭輸出通道數(shù)量為K+C的關(guān)鍵點(diǎn)熱圖H∈(K+C)×H×W,額外的C個(gè)通道表示中心點(diǎn)數(shù)量,H和W表示輸入圖像高和寬的1/4。上下文信息提取的結(jié)構(gòu)如圖3所示。

圖3 上下文信息提取結(jié)構(gòu)Fig.3 Structure of contextual information extraction
模型在訓(xùn)練過程中需要計(jì)算K+C個(gè)熱圖,K個(gè)多人關(guān)鍵點(diǎn)熱圖用于輔助訓(xùn)練,在推理階段可以直接舍棄,只保留C個(gè)中心點(diǎn)的熱圖。熱圖的標(biāo)簽通常根據(jù)平滑的高斯分布生成,對于第k類關(guān)鍵點(diǎn)坐標(biāo)(xk,yk),由式(1)計(jì)算其在熱圖標(biāo)簽H*∈(K+C)×H×W上的響應(yīng):

(1)
其中:σ表示人體目標(biāo)的標(biāo)準(zhǔn)差,采用文獻(xiàn)[9]中的方法,通過計(jì)算目標(biāo)所有關(guān)鍵點(diǎn)的最小外接矩陣自適應(yīng)地計(jì)算目標(biāo)標(biāo)準(zhǔn)差,以緩解不同目標(biāo)的尺度變化問題。
在訓(xùn)練階段,對模型生成的多人熱圖采用Focal loss[26]進(jìn)行監(jiān)督訓(xùn)練,以平衡熱圖回歸中前景點(diǎn)和背景點(diǎn)之間數(shù)量的不平衡。Focal loss的計(jì)算如式(2)所示:

(2)

由于教育教學(xué)督導(dǎo)和評價(jià)機(jī)制的主要目的是督促和引導(dǎo)教學(xué)良性發(fā)展,使教師的教學(xué)工作和學(xué)生的學(xué)習(xí)效果都有提升,所以,教育教學(xué)督導(dǎo)和評價(jià)機(jī)制的建立、發(fā)展和完善都與學(xué)校和學(xué)院的教學(xué)質(zhì)量保障和建設(shè)息息相關(guān)。因此針對教師的教育教學(xué)督導(dǎo)和評價(jià)機(jī)制提出以下的改進(jìn)辦法:
小目標(biāo)通常包含較少的像素區(qū)域,在網(wǎng)絡(luò)下采樣的過程中很可能會(huì)進(jìn)一步丟失小目標(biāo)的空間信息。而上下文信息提供了除目標(biāo)區(qū)域以外的信息,能夠彌補(bǔ)小目標(biāo)缺少的信息,有效提高小目標(biāo)的識別精度。對于1個(gè)人體目標(biāo),其形狀通常是不規(guī)則的,用完全包裹的矩形框進(jìn)行采樣可能會(huì)引入無關(guān)的背景信息或其他目標(biāo)信息。為此,基于可變形卷積[28]的思想,以中心點(diǎn)向量v∈D為輸入,利用全連接網(wǎng)絡(luò)輸出1個(gè)S×S大小的中心點(diǎn)采樣偏置,用中心點(diǎn)坐標(biāo)加上偏置得到的坐標(biāo)對不同尺度的特征進(jìn)行雙線性插值采樣,得到S×S長度的目標(biāo)局部上下文信息。圖4所示為可變形采樣的實(shí)現(xiàn)過程。

圖4 可變形采樣的實(shí)現(xiàn)過程Fig.4 The implementation process of deformable sampling
為了獲取可區(qū)分的目標(biāo)上下文信息,本文采用對比學(xué)習(xí)中的InfoNCE[29]損失函數(shù),通過最小化第m個(gè)目標(biāo)向量與其他目標(biāo)向量之間的余弦相似度,推斷不同目標(biāo)局部上下文信息之間的距離。對比損失如式(3)所示:

(3)
其中:sim(·,·)表示計(jì)算輸入之間的余弦相似度;vm∈D表示采樣第m個(gè)目標(biāo)的平均局部上下文信息;τ=0.07表示模擬退火參數(shù),用于控制輸出的平滑程度,該值越趨近于0,輸出越接近于獨(dú)熱編碼的形式。
受圖像分割[30]工作的啟發(fā),Transformer模型可以解釋為帶參數(shù)的聚類過程,Query可作為初始化的聚類中心,Query與Key計(jì)算注意力權(quán)重的過程相當(dāng)于計(jì)算簇分配矩陣,注意力權(quán)重與Value的計(jì)算實(shí)現(xiàn)了聚類中心的更新,多層Transformer模型的堆疊相當(dāng)于多次迭代的聚類過程。以采樣的局部上下文信息作為初始化的聚類中心即Query,圖像的全局上下文信息作為Key和Value,通過Transformer模型的聚類過程,實(shí)現(xiàn)局部和全局上下文信息的融合,即聚類中心的迭代更新,最終的聚類中心作為增強(qiáng)的目標(biāo)上下文信息用來解耦得到不同目標(biāo)對應(yīng)的關(guān)鍵點(diǎn)熱圖。目標(biāo)上下文信息與多尺度特征的計(jì)算實(shí)現(xiàn)了隱式的聚類過程,即通過計(jì)算上下文信息與每個(gè)空間像素特征之間的距離實(shí)現(xiàn)聚類,無須采用任何關(guān)鍵點(diǎn)后處理分組方法,實(shí)現(xiàn)自底向上的多人姿態(tài)估計(jì)。
采用ViT[31]方法添加可學(xué)習(xí)分類Token的思想,本文增加1個(gè)可學(xué)習(xí)的姿態(tài)TokenP∈K×D來表示最終融合的K個(gè)D維關(guān)鍵點(diǎn)上下文信息,把局部上下文信息Q∈L×D和姿態(tài)TokenP的拼接結(jié)果當(dāng)作Transformer解碼模塊的輸入Query。對于HRNet提取的深層低分辨率特征經(jīng)過傅里葉位置編碼[19]后直接鋪平為1維的圖像塊,作為全局上下文信息G∈(H×W)×D,用于映射為Transformer解碼模塊中交叉注意力的Key和Value。圖5所示為Transformer解碼器結(jié)構(gòu)。

圖5 Transformer解碼器結(jié)構(gòu)Fig.5 Structure of Transformer decoder
整個(gè)Transformer解碼模塊共3層,注意力頭設(shè)置為8,交叉注意力計(jì)算式如下:
(K+L)×(H×W)
(4)
Z=A*(G*Wv),Z∈(K+L)×D
(5)
其中:Wq,Wk,Wv∈D×D為映射矩陣,把輸入映射為Query、Key、Value;*表示矩陣乘法;Z作為注意力的輸出,當(dāng)作新的Query作為下一層Transformer的輸入。
最后,根據(jù)多層Transformer輸出的姿態(tài)TokenP,從全局特征F中解耦得到不同的實(shí)例熱圖,如式(6)所示:
Hk=σ(Norm(pk)*Norm(F))
(6)
其中:σ表示Sigmoid激活函數(shù);Hk∈1×H×W表示解耦的第k類熱圖;Norm表示對特征維度進(jìn)行L2歸一化;F∈D×H×W表示降維后的多尺度特征;pk∈1×D表示經(jīng)過多層Transformer解碼模塊得到的姿態(tài)Token。模型根據(jù)不同目標(biāo)的上下文信息生成不同的關(guān)鍵點(diǎn)熱圖,無須采用后處理方法對關(guān)鍵點(diǎn)進(jìn)行分組,輸出熱圖中只包含1個(gè)目標(biāo)對應(yīng)的關(guān)鍵點(diǎn)。該輸出結(jié)果同樣采用Focal loss進(jìn)行監(jiān)督訓(xùn)練,模型的整體損失如式(7)所示:
=λ1multi+λ2contrastive+λ3single
(7)
其中:λ1、λ2、λ3表示不同損失的權(quán)重系數(shù);multi表示多目標(biāo)中心點(diǎn)熱圖的Focal loss;contrastive表示上下文信息之間的對比損失;single表示單目標(biāo)關(guān)鍵點(diǎn)熱圖的Focal loss。
本文在COCO多人姿態(tài)估計(jì)數(shù)據(jù)集上訓(xùn)練和驗(yàn)證模型。COCO關(guān)鍵點(diǎn)數(shù)據(jù)集包含64 000張帶有270 000個(gè)人體實(shí)例標(biāo)注的圖像,每個(gè)實(shí)例標(biāo)注17個(gè)關(guān)鍵點(diǎn)。
實(shí)驗(yàn)平臺采用Ubuntu 18.04.5 LTS,顯卡為NVIDIA Tesla V100,顯存32 GB,CUDA 11.4,cudnn470.57.02,實(shí)驗(yàn)代碼采用PyTorch1.7.1和Python3.6.9實(shí)現(xiàn)。優(yōu)化器采用Adam,初始學(xué)習(xí)率設(shè)置為0.000 5,學(xué)習(xí)率衰減系數(shù)為0.1,共訓(xùn)練140個(gè)周期,在90個(gè)和120個(gè)周期時(shí)進(jìn)行學(xué)習(xí)率衰減。本文采用包含隨機(jī)旋轉(zhuǎn)[-30°, 30°],隨機(jī)縮放[0.75,1.50],隨機(jī)平移[-40,40]和隨機(jī)水平翻轉(zhuǎn)(0.5)等數(shù)據(jù)增強(qiáng)方式進(jìn)行訓(xùn)練。
本文對于COCO數(shù)據(jù)集采用平均精度(AP)進(jìn)行評估,并采用目標(biāo)關(guān)鍵點(diǎn)相似度(OKS)來計(jì)算預(yù)測關(guān)鍵點(diǎn)和真實(shí)關(guān)鍵點(diǎn)的相似度,并比較不同相似度下的AP值。OKS計(jì)算式如下:

(8)

根據(jù)不同的OKS值計(jì)算不同的AP,AP50表示當(dāng)OKS=0.5時(shí)的平均精度,同理AP75表示當(dāng)OKS=0.75時(shí)的平均精度,AP表示OKS=0.5∶0.05∶0.95之間的平均精度均值,APM表示像素區(qū)域32×32像素96×96像素范圍內(nèi)目標(biāo)的平均精度。
本文對比所提的方法與其他自底向上多人姿態(tài)估計(jì)方法在COCO test-dev2017和COCO val2017數(shù)據(jù)集上的結(jié)果,如表1所示。本文方法在COCO test-dev2017數(shù)據(jù)集上實(shí)現(xiàn)了69.0%的AP,比DEKR方法提高了1.7個(gè)百分點(diǎn),在APM上提高了3.3個(gè)百分點(diǎn),比SWAHR方法的AP提高了1.1個(gè)百分點(diǎn),在APM上提高了2.4個(gè)百分點(diǎn)。盡管本文方法的AP結(jié)果比CID方法提高了0.1個(gè)百分點(diǎn),但是對比中等目標(biāo),APM實(shí)現(xiàn)了1.6個(gè)百分點(diǎn)的提升。與同樣針對小目標(biāo)姿態(tài)的DAC方法相比,本文方法的AP提高了0.5個(gè)百分點(diǎn),APM也提高了1.4個(gè)百分點(diǎn),與基于Transformer的PETR方法相比,本文方法的AP提高了0.5個(gè)百分點(diǎn),但APM顯著提高了2.3個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果證明了融合全局-局部上下文信息方法的有效性。

表1 不同方法在COCO test-dev2017和COCO val2017上的性能比較Table 1 Performance comparison among different methods on COCO test-dev2017 and COCO val2017
為了詳細(xì)說明不同模塊對模型性能的影響,本文在COCO val2017數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),分別探究了中心點(diǎn)數(shù)量、可變形采樣、對比學(xué)習(xí)損失、Transformer數(shù)量、損失函數(shù)權(quán)重系數(shù)的影響,并對算法效率進(jìn)行分析。
表2所示為不同Transformer層數(shù)對模型性能的影響。隨著Transformer層數(shù)的增加,模型的性能先提高后降低,可能的原因是隨著層數(shù)的增加,模型開始過擬合。考慮到模型的計(jì)算效率和性能,本文最終選擇3層的Transformer,后續(xù)的消融實(shí)驗(yàn)同樣采用3層Transformer進(jìn)行測試。

表2 Transformer層數(shù)的消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experiment results of Transformer layers number
表3所示為不同的中心點(diǎn)數(shù)量對模型性能的影響。從表3可以看出,1個(gè)中心點(diǎn)取得68.7%的AP,而3個(gè)中心點(diǎn)取得69.3%的AP。因?yàn)樾∧繕?biāo)的單一中心點(diǎn)容易被遮擋,多中心點(diǎn)保證在有部分中心點(diǎn)遮擋的情況下還可以利用可見的部分對小目標(biāo)進(jìn)行姿態(tài)估計(jì)。隨著中心點(diǎn)數(shù)量的增加,模型的AP開始降低,AP50卻進(jìn)一步增加,表明多中心點(diǎn)的確利于預(yù)測被遮擋的目標(biāo),但因引入了冗余的上下文信息,反而降低了模型的性能。

表3 中心點(diǎn)數(shù)量的消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experiment results of center point number
表4所示為不同的損失權(quán)重系數(shù)對模型性能的影響。由于對比損失的數(shù)量級遠(yuǎn)小于熱圖損失,且模型的輸出結(jié)果更容易受到單目標(biāo)熱圖損失single的影響,因此本文固定λ1=1,λ2=1,僅改變?chǔ)?的大小。實(shí)驗(yàn)結(jié)果表明,隨著λ3的變大,模型的精度在穩(wěn)步提升,直到λ3=3之后精度開始飽和,進(jìn)一步增大λ3的值反而導(dǎo)致精度降低。

表4 損失權(quán)重系數(shù)對模型性能的影響Table 4 Influence of loss weight factors on model performance
表5所示為本文方法與其他自底向上方法的參數(shù)量大小和浮點(diǎn)運(yùn)算量,以及在Tesla V100 GPU上對比了batch size=1下的算法推理速度。從表5可以看出,本文方法在引入額外的多層Transformer的情況下,推理速度媲美其他方法。本文方法并行計(jì)算效率高,因此在參數(shù)量和計(jì)算量都不占優(yōu)的情況下,仍能在GPU上取得很快的推理速度。圖6所示為在不同人員數(shù)量下的推理時(shí)間。隨著圖像中人員數(shù)量的增加,本文方法的推理時(shí)間增長緩慢。

表5 算法效率分析Table 5 Analysis of algorithms efficiency

圖6 在不同人員數(shù)量下的推理時(shí)間Fig.6 Inference time under different numbers of person
表6所示為消融實(shí)驗(yàn)結(jié)果。第1組實(shí)驗(yàn)在不采用任一種模塊的情況下AP只有68.0%,加入對比損失后的AP相比第1組實(shí)驗(yàn)有0.7個(gè)百分點(diǎn)的提升,加入多中心監(jiān)督后的AP有0.9個(gè)百分點(diǎn)的提升,同時(shí)加入對比損失和多中心監(jiān)督后的AP有1.3個(gè)百分點(diǎn)的提升,同時(shí)加入上述3種模塊后的AP有2.2個(gè)百分點(diǎn)的提升,APM甚至有3.0個(gè)百分點(diǎn)的提升。消融實(shí)驗(yàn)結(jié)果表明本文提出的多個(gè)模塊均能有效提高模型的性能。

表6 消融實(shí)驗(yàn)結(jié)果Table 6 Ablation experiment results %
對于訓(xùn)練好的模型,本文在COCO test-dev2017數(shù)據(jù)集上選取了部分帶有小目標(biāo)的圖像進(jìn)行測試。本文方法在COCO test-dev2017數(shù)據(jù)集上的可視化結(jié)果如圖7所示。本文方法在一定程度上提高了小目標(biāo)的姿態(tài)估計(jì)性能,對于512×512像素的輸入圖像,如圖7中第1行的第2列所示,模型最小能識別19×19像素的目標(biāo)(用矩形框標(biāo)出)。然而,在圖7中,對于擁擠場景下的目標(biāo),本文方法無法得到滿意的結(jié)果,面對嚴(yán)重遮擋的情況也只能對未被遮擋的部分進(jìn)行預(yù)測。

圖7 本文方法在COCO test-dev2017數(shù)據(jù)集上的可視化結(jié)果Fig.7 Visualization results of the proposed method on COCO test-dev2017 dataset
本文提出一種融合全局-局部上下文信息的多人姿態(tài)估計(jì)方法。利用多中心監(jiān)督信息來增強(qiáng)小目標(biāo)的定位能力,基于粗糙的定位結(jié)果,采用可變形的雙線性插值采樣方式有效提取小目標(biāo)的上下文信息,結(jié)合HRNet提取的全局上下文信息和Transformer解碼器對不同小目標(biāo)的上下文信息進(jìn)行聚類增強(qiáng),實(shí)現(xiàn)了準(zhǔn)確的小目標(biāo)多人姿態(tài)估計(jì)。在COCO test-dev2017和COCO val2017公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法有效改善了小目標(biāo)的識別精度。下一步將針對遮擋和擁擠場景下的多人姿態(tài)估計(jì),在保持小目標(biāo)檢測性能的同時(shí)實(shí)現(xiàn)對遮擋目標(biāo)的有效識別。