張?chǎng)鞐睿?,白芮,陳娜
(1.貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽(yáng) 550025;2.貴陽(yáng)鋁鎂設(shè)計(jì)研究院有限公司,貴陽(yáng) 550009)
人體姿態(tài)估計(jì)作為計(jì)算機(jī)視覺(jué)領(lǐng)域的主要研究方向[1],應(yīng)用范圍十分廣泛。目前,姿態(tài)估計(jì)存在2 個(gè)方面的難點(diǎn)[2]:不同攝影機(jī)角度和遮擋目標(biāo)的檢測(cè)與識(shí)別以及運(yùn)算效率。姿態(tài)估計(jì)最初基于圖像結(jié)構(gòu)[3],即使用樹(shù)形結(jié)構(gòu)來(lái)模擬身體各部分之間的空間關(guān)系。但是當(dāng)身體存在遮擋時(shí),會(huì)導(dǎo)致重復(fù)計(jì)算。隨著機(jī)器視覺(jué)的快速發(fā)展,研究者開(kāi)始采用卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行計(jì)算,大幅提高了姿態(tài)估計(jì)的準(zhǔn)確性[4]。近年來(lái),動(dòng)物姿態(tài)估計(jì)在動(dòng)物學(xué)、生態(tài)學(xué)、生物學(xué)和農(nóng)業(yè)等領(lǐng)域廣泛應(yīng)用[5]。動(dòng)物姿態(tài)估計(jì)的基本目標(biāo)是定位并解析動(dòng)物關(guān)鍵點(diǎn),如下巴、腿和臀部等。目前,用于研究動(dòng)物姿態(tài)估計(jì)的網(wǎng)絡(luò)主要是深度卷積神經(jīng)網(wǎng)絡(luò),其按階層結(jié)構(gòu)對(duì)輸入信息逐層提取抽象特征并學(xué)習(xí)計(jì)算,最終得到動(dòng)物關(guān)鍵點(diǎn)。
現(xiàn)有包含動(dòng)物圖像的數(shù)據(jù)集多數(shù)都是為分類和檢測(cè)而構(gòu)建的,只有極少數(shù)是為解析動(dòng)物關(guān)鍵點(diǎn)而構(gòu)建的[6],而為動(dòng)物標(biāo)注大量數(shù)據(jù)集代價(jià)非常高。目前,采用深度學(xué)習(xí)方法進(jìn)行人體姿態(tài)估計(jì)已經(jīng)獲得了顯著的成果,但由于缺乏大量動(dòng)物標(biāo)注數(shù)據(jù)集,深度學(xué)習(xí)方法并不適合解析動(dòng)物,將現(xiàn)有的深度學(xué)習(xí)方法直接應(yīng)用于動(dòng)物姿態(tài)估計(jì)是不可行的。由于合成動(dòng)物數(shù)據(jù)集[7]的成本較低,產(chǎn)生具有豐富真實(shí)地面的合成動(dòng)物數(shù)據(jù)集也更容易,因此許多研究者在進(jìn)行實(shí)驗(yàn)時(shí)使用合成數(shù)據(jù)。然而,合成數(shù)據(jù)和真實(shí)數(shù)據(jù)之間存在很大的域間隙[8],從而使得在合成數(shù)據(jù)上訓(xùn)練的模型不能很好地應(yīng)用到真實(shí)數(shù)據(jù)上。
研究者經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),通過(guò)聯(lián)合使用合成動(dòng)物數(shù)據(jù)集和真實(shí)動(dòng)物數(shù)據(jù)集,可使成本最小而效果達(dá)到最優(yōu)[9]。CHANG等[10]創(chuàng)建了包含多種3D 模型的ShapeNet,但其中SMPL 是為人類構(gòu)建的;CAO等[11]提出一種跨域自適應(yīng)方案來(lái)學(xué)習(xí)人類和動(dòng)物圖像之間的共享特征空間,從現(xiàn)有的人類姿勢(shì)數(shù)據(jù)集中進(jìn)行學(xué)習(xí),此外,還根據(jù)置信度得分選擇偽標(biāo)簽進(jìn)入訓(xùn)練;ZUFFI等[12]為了恢復(fù)更詳細(xì)的動(dòng)物三維形狀,提出從真實(shí)動(dòng)物復(fù)制紋理,并以端到端的方式預(yù)測(cè)動(dòng)物的3D 網(wǎng)格;VAROL等[13]為研究可變形對(duì)象的解析,渲染了真實(shí)的合成人體模型以縮小合成數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的差距;TOSHEV等[14]提出深度姿態(tài)DeepPose 估計(jì)網(wǎng)絡(luò),針對(duì)人體關(guān)鍵點(diǎn)進(jìn)行深度神經(jīng)網(wǎng)絡(luò)回歸學(xué)習(xí),但該網(wǎng)絡(luò)很難檢測(cè)到精確的小目標(biāo);CHEN等[15]提出的級(jí)聯(lián)金字塔網(wǎng)絡(luò)(Cascaded Pyramid Network,CPN),使人體被遮擋關(guān)鍵點(diǎn)的檢測(cè)性能得到改善,但因缺乏關(guān)節(jié)間的結(jié)構(gòu)信息,該方法對(duì)多尺度的姿態(tài)估計(jì)泛化性能較差;NEWELL等[16]提出用于姿態(tài)估計(jì)的堆疊沙漏網(wǎng)絡(luò)(Stacked Hourglass Network,SHN),其改進(jìn)版本在人體姿態(tài)估計(jì)領(lǐng)域得到了成功應(yīng)用[17],但在高低分辨率恢復(fù)過(guò)程中會(huì)產(chǎn)生誤差,導(dǎo)致檢測(cè)精確度不高。
本文將堆疊沙漏網(wǎng)絡(luò)作為動(dòng)物姿態(tài)的基本網(wǎng)絡(luò)框架并進(jìn)行改進(jìn),聯(lián)合使用合成動(dòng)物數(shù)據(jù)集和真實(shí)動(dòng)物數(shù)據(jù)集訓(xùn)練模型,解決動(dòng)物姿態(tài)估計(jì)缺乏數(shù)據(jù)標(biāo)簽的問(wèn)題。設(shè)計(jì)基于SE(Squeeze-and-Excitation)注意力機(jī)制的多尺度最大池化模塊 MMPM-S,融合4 種不同尺度下的圖像特征,解決池化操作后特征信息大量丟失的問(wèn)題。針對(duì)沙漏網(wǎng)絡(luò)在編碼-解碼過(guò)程中丟失網(wǎng)絡(luò)淺層定位信息的問(wèn)題,設(shè)計(jì)基于 CBAM(Convolutional Block Attention Module)注意力機(jī)制的改進(jìn)沙漏模塊IHNM-C,并進(jìn)行多級(jí)特征融合,從而提高網(wǎng)絡(luò)對(duì)多通道信息的提取能力,優(yōu)化需要融合的特征信息,以最小的參數(shù)代價(jià)有效提高網(wǎng)絡(luò)精度。
堆疊沙漏網(wǎng)絡(luò)(SHN)利用多尺度特征來(lái)識(shí)別姿態(tài),其由多個(gè)沙漏模塊(Hourglass Module,HM)串聯(lián)而成,能夠在多尺度空間中進(jìn)行特征提取及融合,解決模型參數(shù)量大和計(jì)算量大的問(wèn)題[18]。如圖1 所示,HM 形狀呈沙漏狀,結(jié)構(gòu)類似鏡像結(jié)構(gòu)(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML版,下同)。

圖1 沙漏模塊結(jié)構(gòu)Fig.1 Structure of hourglass module
HM 使用編碼-解碼(encode-decode)的結(jié)構(gòu),主要由下采樣和上采樣操作構(gòu)成。下采樣的目的是降低分辨率和計(jì)算的復(fù)雜度,上采樣通過(guò)最近鄰插值法進(jìn)行,目的是提高圖像特征的分辨率,這種自上而下和自下而上的設(shè)計(jì)使得網(wǎng)絡(luò)在每個(gè)尺度上都能提取關(guān)節(jié)點(diǎn)特征,層層疊加后得到最后一層特征圖,既保留了所有層的信息,又能和原圖的大小一致。
本文使用的堆疊沙漏網(wǎng)絡(luò)由4 個(gè)主要的沙漏網(wǎng)絡(luò)構(gòu)成。由于沙漏網(wǎng)絡(luò)整合了局部和全局的信息,因此SHN 對(duì)每個(gè)沙漏網(wǎng)絡(luò)的輸出熱圖和真實(shí)熱圖都進(jìn)行了損失計(jì)算,通過(guò)級(jí)聯(lián)結(jié)構(gòu)的沙漏網(wǎng)絡(luò)和多階段中間監(jiān)督對(duì)整個(gè)圖像的初始特征和檢測(cè)結(jié)果進(jìn)行預(yù)測(cè),如圖2 所示。

圖2 中間監(jiān)督過(guò)程Fig.2 Process of intermediate supervision
本文以SHN 作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn),設(shè)計(jì)多尺度最大池化模塊MMPM-S,解決模型容易丟失網(wǎng)絡(luò)淺層信息的問(wèn)題;同時(shí)設(shè)計(jì)單個(gè)沙漏模塊IHNM-C,提高網(wǎng)絡(luò)對(duì)多通道信息的提取能力,對(duì)需要融合的特征信息進(jìn)行優(yōu)化。此外,本文還提出一種多級(jí)特征融合方法,將深淺層的特征進(jìn)行融合,以獲得更準(zhǔn)確的特征信息。本文總體網(wǎng)絡(luò)模型如圖3 所示,通過(guò)聯(lián)合使用未標(biāo)記的真實(shí)動(dòng)物數(shù)據(jù)集和合成動(dòng)物數(shù)據(jù)集訓(xùn)練該網(wǎng)絡(luò)模型,從而實(shí)現(xiàn)動(dòng)物的姿態(tài)估計(jì)。

圖3 總體模型Fig.3 The overall model
2.1.1 SE 注意力模塊
SE 注意力模塊[19]通過(guò)明確建模通道之間的相互依賴,自適應(yīng)地重新校準(zhǔn)通道方面的特征響應(yīng),從而提高網(wǎng)絡(luò)生成的表示的質(zhì)量,其中分為Squeeze 壓縮和Excitation 激發(fā)兩個(gè)步驟,如圖4 所示。

圖4 SE 注意力模塊Fig.4 SE attention module
在SE 注意力模塊中,將輸入X∈RH′×W′×C′特征映射為U∈RH×W×C,將U經(jīng)過(guò)Squeeze 壓縮,實(shí)際操作就是全局平均池化,將特征圖壓縮為1×1×C向量,得到統(tǒng)計(jì)量z∈RC,z的第c個(gè)元素計(jì)算公式為:

為利用壓縮操作中聚合的信息,在壓縮之后進(jìn)行Excitation 激發(fā)操作,目的是完全捕獲與通道相關(guān)的依賴關(guān)系。通過(guò)兩層全連接的bottleneck 結(jié)構(gòu)得到特征圖中每個(gè)通道的權(quán)值,并將加權(quán)后的特征圖作為下一層網(wǎng)絡(luò)的輸入,如式(2)所示:

為限制模型復(fù)雜性,在得到1×1×C向量后,對(duì)原來(lái)的特征圖進(jìn)行Scale 操作:

2.1.2 MMPM-S 模塊
本文提出基于SE 注意力機(jī)制的多尺度最大池化模塊MMPM-S,融合4 種不同尺度下的圖像特征,如圖5 所示。

圖5 MMPM-S 模塊Fig.5 MMPM-S module
在MMPM-S 模塊中,對(duì)輸入特征F進(jìn)行4 個(gè)不同尺度的最大池化操作,得到不同尺度的圖像特征,以防止池化后特征信息的大量丟失。該模塊能夠聚合不同區(qū)域的上下文信息,提高獲取全局信息的能力。MMPM-S 生成的不同級(jí)別的特征圖,經(jīng)過(guò)卷積(Conv)、上采樣(Upsample)操作,最終通過(guò)特征融合(Concat)拼接在一起。MMPM-S 獲取了多尺度特征信息,最后能夠融合合適的全局特征,將局部和全局信息融合到一起。最后,為減小卷積池化過(guò)程中因特征圖的不同通道所占的重要性不同帶來(lái)的損失,引入SE 注意力模塊,通過(guò)卷積還原特征圖通道數(shù),得到提取后的特征圖F′。
2.2.1 堆疊沙漏網(wǎng)絡(luò)的特征融合
深度卷積神經(jīng)網(wǎng)絡(luò)淺層特征包含較多的位置信息,但是語(yǔ)義信息不足;網(wǎng)絡(luò)深層特征蘊(yùn)含豐富的語(yǔ)義信息,有利于熱圖中心點(diǎn)回歸預(yù)測(cè),但是定位信息很粗略,并且在堆疊沙漏網(wǎng)絡(luò)編碼-解碼過(guò)程中容易丟失網(wǎng)絡(luò)淺層定位信息。因此,本文提出對(duì)深淺層特征進(jìn)行融合。將原始圖像經(jīng)過(guò)圖像預(yù)處理后輸入到每個(gè)沙漏模塊中進(jìn)行特征傳遞,以獲得更準(zhǔn)確的特征信息。由于每一階段的熱圖都是對(duì)整個(gè)圖像的初始特征和檢測(cè)結(jié)果進(jìn)行評(píng)估的全局特征信息,因此本文將每個(gè)沙漏模塊的熱圖結(jié)果作為下一個(gè)沙漏模塊卷積層的輸入,從而使下一階段的熱圖估計(jì)結(jié)果更加準(zhǔn)確。
2.2.2 單個(gè)沙漏模塊的特征融合
堆疊沙漏網(wǎng)絡(luò)疊加了多個(gè)沙漏模塊,每個(gè)沙漏模塊又疊加了多個(gè)上采樣、下采樣和殘差模塊,這會(huì)使得局部特征信息大量丟失,不利于更細(xì)致地提取動(dòng)物關(guān)節(jié)部位紋理和形狀等特征,并且隨著網(wǎng)絡(luò)訓(xùn)練的進(jìn)行,網(wǎng)絡(luò)會(huì)更加傾向于識(shí)別的動(dòng)物關(guān)節(jié),而動(dòng)物被遮擋的關(guān)節(jié)部分更容易被忽略,不利于提取被遮擋部分的特征信息。因此,本文在沙漏模塊進(jìn)行編碼-解碼的過(guò)程中,將輸入的特征信息疊加在最外層的輸出,避免丟失大量的局部特征信息。
2.3.1 CBAM 注意力模塊
CBAM 注意力模塊[20]分為通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)。CBAM 是一個(gè)輕量級(jí)的通用模塊,可以集成到任何CNN 架構(gòu)中與基本CNN 一起進(jìn)行端到端的訓(xùn)練。CBAM 注意力模塊如圖6 所示。

圖6 CBAM 注意力模塊Fig.6 CBAM attention module
假設(shè)輸入的特征F∈RC×H×W發(fā)送到通道注意力模塊,通道注意力模塊將最大池化(Maxpool)和平均池化(Avgpool)并行連接能夠減少信息的丟失,與單一的池化相比,丟失的信息更少,得到的效果更好。得到兩個(gè)一維向量RC×1×1經(jīng)過(guò)共享多層感知機(jī)(Shared MLP)處理后相加,再經(jīng)過(guò)Sigmoid 激活后得到一維通道注意力Mc∈RC×1×1,所得的Mc與輸入特征F按元素相乘得到新的特征F′,如式(4)所示:

其中:F為輸入特 征;Mc∈RC×1×1為一維通道注意力;σ表示Sigmoid函數(shù);MLP 為多層感知機(jī);W0∈RC/r×C和W1∈RC×C/r為MLP 兩個(gè)隱藏層的參數(shù);為兩種池化在每個(gè)通道上聚合空間信息得到的特征表示符。
空間注意力模塊的輸入就是通道注意力模塊的輸出,假設(shè)輸入特征是F′∈RC×H×W,按空間進(jìn)行最大池 化(Maxpool)和平均池化(Avgpool)產(chǎn)生兩個(gè)R1×H×W的通道描述,經(jīng)過(guò)拼接后進(jìn)行7×7 卷積和Sigmoid 激活,最后得到二維空間注意力Ms∈Rc×1×1,如式(5)所示:

其中:F′為輸入特征;Ms∈Rc×1×1為二維空間注 意力;f7×7為濾波器尺寸為7×7 的卷積運(yùn)算;F′savg和F′smax為兩種池化在每個(gè)空間位置上聚合通道信息得到的特征表示符。
將所得的Ms與特征圖F′按元素相乘得到提取后的特征圖F′,如式(6)所示:

其中:?表示逐個(gè)元素相乘的符號(hào);F′為注意力模塊內(nèi)部?jī)?yōu)化的特征圖;F′為注意力模塊優(yōu)化后輸出的特征圖。
2.3.2 IHNM-C 模塊
由于深度卷積神經(jīng)網(wǎng)絡(luò)淺層特征包含更豐富的信息,而原始的沙漏模塊定位信息粗略,因此本文設(shè)計(jì)基于CBAM 注意力機(jī)制的改進(jìn)沙漏模塊IHNM-C,如圖7 所示。

圖7 IHNM-C 模塊Fig.7 IHNM-C module
在IHNM-C 的編碼階段,每層網(wǎng)絡(luò)通過(guò)Residual block[21]及Maxpool操作,最終得出分辨 率逐漸降低的特征圖。在IHNM-C 的解碼階段,網(wǎng)絡(luò)通 過(guò)Interpolation block、Residual block 和多次特征融合,逐漸恢復(fù)出高分辨率的特征圖。同時(shí),IHNM-C跳躍層經(jīng)過(guò)逐步提取關(guān)節(jié)特征,向IHNM-C 后半部分傳遞,將跳躍層保留的各尺度特征與后半部分特征進(jìn)行融合,聯(lián)合網(wǎng)絡(luò)低層次和高層次的特征圖,實(shí)現(xiàn)網(wǎng)絡(luò)淺層特征和深層特征的融合,從而減少定位信息的丟失,提高動(dòng)物姿態(tài)的檢測(cè)精度。在跳躍層向IHNM-C 后半部分傳遞時(shí),以拼接的方式融合獲得的多尺度特征,容易將無(wú)效的特征輸入到最終的特征圖中,影響檢測(cè)精度。因此,本文使用CBAM 模塊學(xué)習(xí)特征融合權(quán)重,從而抑制無(wú)效特征,提高檢測(cè)精度。
本文將損失函數(shù)L(n)定義為源數(shù)據(jù)集(Xs,Ys)和目標(biāo)數(shù)據(jù)集Xt熱圖的均方誤差,如式(7)所示:

其中:f(n)為訓(xùn)練的模型;為訓(xùn)練生成的偽標(biāo)簽。
從僅使用合成數(shù)據(jù)訓(xùn)練模型開(kāi)始,獲得初始模型f(0),然后重復(fù)迭代訓(xùn)練n次,當(dāng)?shù)趎次迭代時(shí),用(Xs,Ys)和(Xt,)聯(lián)合使用L(n)訓(xùn)練模型。
本文采用堆疊沙漏網(wǎng)絡(luò)作為實(shí)驗(yàn)的基礎(chǔ)網(wǎng)絡(luò),使用合成動(dòng)物數(shù)據(jù)集和TigDog 真實(shí)動(dòng)物數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練、驗(yàn)證以及測(cè)試。
TigDog 數(shù)據(jù)集為馬和老虎提供關(guān)鍵點(diǎn)注釋,其中馬的圖像取自YouTube,訓(xùn)練集與測(cè)試集比例為5∶1,8 380 幅圖像用于訓(xùn)練,1 772 幅圖像用于測(cè)試;老虎的圖像取自國(guó)家地理紀(jì)錄片,訓(xùn)練集與測(cè)試集比例為4∶1,6 523 幅圖像用于訓(xùn)練,1 765 幅圖像用于測(cè)試。
合成動(dòng)物數(shù)據(jù)集包含5 種動(dòng)物類別的圖像,包括馬、老虎、羊、狗和大象,每種動(dòng)物類別有10 000 幅圖像,8 000 幅圖像用于訓(xùn)練,2 000 幅圖像用于驗(yàn)證。
此外,本文還在VisDA2019 數(shù)據(jù)集上測(cè)試網(wǎng)絡(luò)的泛化能力,該數(shù)據(jù)集涉及6 個(gè)領(lǐng)域,包括真實(shí)圖像、素描、剪貼畫(huà)、繪畫(huà)、信息圖表和快速繪圖。采用草圖、繪畫(huà)以及剪貼畫(huà)進(jìn)行泛化能力測(cè)試,并驗(yàn)證本文方法的先進(jìn)性和有效性。
本文使用正確關(guān)鍵點(diǎn)百分比(Percentage of Correct Keypoints,PCK)作為評(píng)價(jià)指標(biāo),即計(jì)算檢測(cè)的關(guān)鍵點(diǎn)與其對(duì)應(yīng)的groundtruth 間的歸一化距離小于設(shè)定閾值的比例。PCK@0.05 是指閾值為0.05 時(shí)的正確關(guān)鍵點(diǎn)百分比,計(jì)算公式如下:

其中:i表示id為i的關(guān)鍵點(diǎn);k表示第k個(gè)閾值的Tk;p表示第p個(gè)動(dòng)物;dpi表示第p個(gè)動(dòng)物中id為i的關(guān)鍵點(diǎn)預(yù)測(cè)值與人工標(biāo)注值的歐式距離;表示第p個(gè)動(dòng)物的尺度因子;Tk表示人工設(shè)定的閾值;表示Tk閾值下id為i的關(guān)鍵點(diǎn)的PCK 指標(biāo);表示Tk閾值下算法的PCK 指標(biāo)。
本文實(shí)驗(yàn)使用的軟件平臺(tái)是Python3.8,服務(wù)器的系統(tǒng)是Ubuntu 20.04 版本,顯卡是NVIDIA GeForce GTX 3090,使用PyTorch1.7.0 構(gòu)建基礎(chǔ)網(wǎng)絡(luò)。
堆疊沙漏網(wǎng)絡(luò)的堆疊次數(shù)為4。在本文實(shí)驗(yàn)中,選用 RMSProp[22]優(yōu)化器對(duì)模型進(jìn)行優(yōu)化。訓(xùn)練周期epoch 為200,batchsize 大小為10,初始學(xué)習(xí)率 為2.5×10-4,學(xué)習(xí)率衰減系數(shù)為0.1,分別在120 和180 周期時(shí)進(jìn)行一次學(xué)習(xí)率衰減,每次衰減學(xué)習(xí)率將會(huì)減少10倍。輸入圖像被裁剪為256×256 像素,通過(guò)縮放、旋轉(zhuǎn)、翻轉(zhuǎn)和顏色擾動(dòng)進(jìn)行數(shù)據(jù)增強(qiáng)。
通過(guò)上述的實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)設(shè)置中的參數(shù),在TigDog 數(shù)據(jù)集和合成數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比本文模型與其他先進(jìn)的動(dòng)物姿態(tài)估計(jì)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果。圖8 所示為訓(xùn)練后得到的熱圖結(jié)果。在訓(xùn)練過(guò)程中,對(duì)圖像進(jìn)行隨機(jī)旋轉(zhuǎn)和翻轉(zhuǎn),以增強(qiáng)數(shù)據(jù)。

圖8 熱圖結(jié)果Fig.8 Heatmap results
在TigDog 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),當(dāng)動(dòng)物分別為馬和老虎時(shí)本文模型與其他模型的PCK@0.05 精度對(duì)比分別如表1 和表2 所示。其中:加粗?jǐn)?shù)據(jù)表示最優(yōu)值;Real 表示僅用真實(shí)動(dòng)物數(shù)據(jù)集訓(xùn)練的模型;Syn 表示僅用合成數(shù)據(jù)訓(xùn)練的模型;Eye、Chin、Shoulder、Hip、Elbow、Knee 和Hooves 分別代表眼睛關(guān)節(jié)點(diǎn)平均值、下巴關(guān)節(jié)點(diǎn)平均值、肩膀關(guān)節(jié)點(diǎn)平均值、臀部關(guān)節(jié)點(diǎn)平均值、肘關(guān)節(jié)點(diǎn)平均值、膝蓋關(guān)節(jié)點(diǎn)平均值和蹄關(guān)節(jié)點(diǎn)平均值;Mean 代表所有關(guān)節(jié)點(diǎn)平均值。實(shí)驗(yàn)結(jié)果表明,本文方法相比于CycGAN[24]、BDL[25]、CyCADA[9]、CC-SSL[23]性能得到了較大提升。相較于有較好表現(xiàn)的CC-SSL,本文模型在對(duì)于馬的實(shí)驗(yàn)上PCK@0.05 提高了4.6%,在對(duì)于老虎的實(shí)驗(yàn)上PCK@0.05 提高了3.5%,結(jié)果與直接在真實(shí)圖像上訓(xùn)練的結(jié)果接近。由于老虎通常生活在森林中,經(jīng)常會(huì)被周圍的生物遮擋,而用于訓(xùn)練的合成動(dòng)物數(shù)據(jù)集沒(méi)有這種遮擋,因此導(dǎo)致模型很難適應(yīng)遮擋比較嚴(yán)重的場(chǎng)景,這使得表1和表2 中所有模型對(duì)于老虎的精度都沒(méi)有達(dá)到和馬一樣的效果。

表1 不同模型的PCK@0.05 精度對(duì)比結(jié)果(馬)Table 1 Comparison results of PCK@0.05 accuracy of different models(Horse)

表2 不同模型的PCK@0.05 精度對(duì)比結(jié)果(老虎)Table 2 Comparison results of PCK@0.05 accuracy of different models(Tiger)
圖9 是本文模型的姿態(tài)估計(jì)以及局部分割可視化結(jié)果。可以看出,即使對(duì)于一些極端的姿勢(shì),如趴下和騎馬等,本文模型也能產(chǎn)生準(zhǔn)確的預(yù)測(cè)結(jié)果。此外,如圖10 所示,本文模型可以對(duì)其他動(dòng)物類別進(jìn)行很好的姿態(tài)估計(jì),如羊、大象和狗。

圖9 TigDog 數(shù)據(jù)集上的可視化結(jié)果Fig.9 Visualization results on TigDog dataset

圖10 其他動(dòng)物的可視化結(jié)果Fig.10 Visualization result of other animals
本文采用來(lái)自視覺(jué)領(lǐng)域適應(yīng)性挑戰(zhàn)數(shù)據(jù)集(VisDA2019)的圖像進(jìn)行模型泛化能力的測(cè)試,該數(shù)據(jù)集包括6 個(gè)模塊:真實(shí)圖像,草圖,剪貼畫(huà),繪畫(huà),信息圖,快速繪圖。本文采用草圖、繪畫(huà)以及剪貼畫(huà)進(jìn)行泛化能力測(cè)試,可視化結(jié)果如圖11 所示。

圖11 VisDA2019 的可視化結(jié)果Fig.11 Visualization results of VisDA2019
不同模型在VisDA2019 數(shù)據(jù)集上的PCK@0.05精度對(duì)比如表3 所示。其中:Visible Kpts 精度表示只考慮直接可見(jiàn)的關(guān)鍵點(diǎn)的精度;Full Kpts 精度表示還包括自遮擋的關(guān)鍵點(diǎn);加粗?jǐn)?shù)據(jù)表示最優(yōu)值。可以看出:CC-SSL 和本文模型都優(yōu)于在真實(shí)圖像上訓(xùn)練的模型,從而證明了聯(lián)合使用合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集訓(xùn)練模型的重要性;此外,本文模型性能也優(yōu)于CC-SSL 模型。

表3 VisDA2019 數(shù)據(jù)集上的PCK@0.05 精度Table 3 PCK@0.05 accuracy on VisDA2019 dataset
本文模型以堆疊沙漏網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn),設(shè)計(jì)多尺度最大池化模塊MMPM-S,從而解決模型容易丟失網(wǎng)絡(luò)淺層信息的問(wèn)題;設(shè)計(jì)基于注意力機(jī)制CBAM 的改進(jìn)沙漏網(wǎng)絡(luò)模塊IHNM-C,從而提高網(wǎng)絡(luò)對(duì)多通道信息的提取;同時(shí)還提出多級(jí)特征融合方法,以獲得更準(zhǔn)確的特征信息。為證明模型中每個(gè)關(guān)鍵模塊的有效性和先進(jìn)性,以馬為實(shí)驗(yàn)對(duì)象對(duì)TigDog 數(shù)據(jù)集和合成動(dòng)物數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn),同時(shí)與CC-SSL 進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表4 所示。其中:“ √ ”表示模型包含這一模塊。
實(shí)驗(yàn)結(jié)果表明:相較于目前取得較好表現(xiàn)的CC-SSL,分析PCK@0.05 指標(biāo)可知,添加多尺度最大池化模塊使精度提高3.28%,而添加多級(jí)特征融合模塊提升0.69%,在此基礎(chǔ)上添加注意力機(jī)制提升0.13%,這是由于學(xué)習(xí)了特征融合權(quán)重,突出了有效特征;最終模型比基線CC-SSL 提升4.6%,證明了本文方法的可行性。
本文以堆疊沙漏網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò)并進(jìn)行優(yōu)化,提出多尺度最大池化模塊,提高模型獲取全局信息的能力,同時(shí)設(shè)計(jì)一種多級(jí)特征融合方法,使網(wǎng)絡(luò)充分提取和融合特征信息。此外,通過(guò)使用注意力機(jī)制學(xué)習(xí)特征融合權(quán)重,突出有效特征,從而提升總體網(wǎng)絡(luò)模型的識(shí)別效果。在TigDog 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型相比于CC-SSL 模型PCK@0.05提高了4.58%。下一步將在保證精度的前提下降低模型參數(shù)量和復(fù)雜度,并提高其在動(dòng)物被遮擋情況下的效果。