徐貴冬,徐 楊,2,鄧 輝,莫 寒
1.貴州大學 大數據與信息工程學院,貴陽550025
2.貴陽鋁鎂設計研究院有限公司,貴陽550009
動物姿態估計在動物學、生物學等領域有著許多潛在應用,因而動物姿態估計相關工作受到了越來越多的關注[1]。動物姿態估計的研究在實際應用中,如動物行為理解[2]、野生動物保護[3]和動物園養殖管理[4]等領域都具有重要意義。而姿態估計作為計算機視覺的一項基本任務,在許多現場景中得到了應用,如動作識別[5]、行為理解[6]、人機交互[7]等。人體姿態估計也因擁有大規模標注數據和基準,如MPII 數據集[8]和COCO 數據集[9]等,成為熱門研究內容,并出現了大量先進的人體姿態估計算法[10]。但是在動物姿態估計中,由于缺乏大規模的動物姿態標注數據集,導致現有方法在動物姿態估計上不能擁有很好的性能[11]。因此,針對動物姿態估計模型的進一步研究具有重要價值。
在目前的動物姿態估計相關研究中,主要通過聯合使用合成動物數據集和真實動物數據集對模型進行訓練[1,12],可以讓動物姿態檢測精度得到一定提升,但是在復雜遮擋的野外環境下,其檢測性能會下降。估計多種動物的姿態是一個具有挑戰性的計算機視覺問題:頻繁的互動會導致遮擋,并使檢測到的關鍵點與正確個體的關聯復雜化;存在高度相似的動物,這些互動比典型的多人類場景更接近[13]。多目標動物姿態估計中存在的遮擋情況主要有自遮擋、重疊遮擋、環境遮擋以及密集接觸遮擋等。因此,本文針對多目標動物姿態估計遮擋關鍵點檢測展開研究。
最新公開的針對哺乳動物姿態估計的大規模基準數據集AP10K[14],包含大約1萬張標記有姿態信息的哺乳動物圖片,包括了23 個動物科和54 個物種。該數據集標注的關鍵點包括眼睛、鼻子、肩部、肘部、膝關節、爪子等,其中還包括多動物姿態和多動物互動的遮擋關鍵點標注等。通過使用該數據集可以更好地提升模型的泛化性能,同時可以驗證模型多目標動物姿態估計性能以及在復雜環境下動物遮擋關鍵點的檢測效果。
當前針對動物姿態估計的模型中,主要以檢測某單一動物姿態為主,但是當存在遮擋和復雜環境時,檢測效果下降[4,15]。Cao等人[11]提出了一種跨域自適應方法,將動物姿態知識和人類姿態先驗知識轉化為未標記的動物類別,通過共享空間的方式進行學習。Mu 等人[12]通過CAD 合成動物圖像應對缺乏標記數據的限制,在未標記真實圖像的合成數據上進行模型訓練。Li等人[1]設計了一個多尺度域自適應模塊,從合成數據中進行學習。Zhou 等人[16]基于圖像模型的結構化上下文增強網絡對鼠類進行姿態估計,用于鼠類行為分析。Lauer等人[13]通過構建姿態估計工具箱DeepLabCut,對多動物場景的動物進行跟蹤。上述的動物姿態估計研究主要是通過聯合使用合成數據集或針對某單一物種的無監督動物姿態估計,而在復雜多目標動物姿態估計背景下,其檢測效果并不理想。
在人體姿態估計的相關研究中,Newell等人[17]提出的堆疊沙漏網絡(stacked hourglass network,SHN),采用的是分辨率對稱的網絡結構,但是分辨率在恢復過程中會產生誤差。Chen 等人[18]提出的級聯金字塔網絡(cascaded pyramid network,CPN),在人體遮擋關鍵點檢測性能方面得到提升,但因缺乏關節結構中的細節信息,導致了對多尺度的姿態估計泛化性能下降。Xiao等人[19]提出的Simple Baseline網絡,只在主干網絡末端增加一些反卷積來進行熱圖預測,就能提高網絡檢測精度。Sun等人[20]提出的高分辨率網絡(high resolution network,HRNet),通過使用并聯方式將不同子網分辨率進行連接,然后進行反復多尺度特征融合,使得網絡的整個過程都維持一個高分辨率,因而對細節特征敏感。之后Cheng等人[21]在HRNet網絡基礎上提出了HigherHRNet,通過加入多尺度監督和在網絡末端增加反卷積模塊提升特征圖分辨率,從而在多人姿態中獲得更好的檢測效果。雖然人體姿態估計模型在單人或者多人的姿態估計上的表現不錯,但是在遷移到動物姿態估計上時,其檢測效果下降,這是因為多種動物互動過程中其姿態存在復雜行為和遮擋,導致模型檢測效果下降。
Liu等人[22]提出了極化自注意(polarized self-attention,PSA)模塊,通過聯合使用通道注意力機制和空間注意力機制,在姿態估計任務上達到了當前最優的性能。Pan 等人[23]提出了一個混合卷積ACmix,將自注意和卷積通過共享1×1卷積的方式聚合,在下游任務中取得了不錯的成績。
基于上述研究,當前在二維動物姿態估計任務中,不僅缺少相應的動物姿態估計模型,而且在多目標動物姿態估計中存在各類遮擋情況,會導致動物姿態關鍵點的檢測效果不佳。因此針對以上問題,本文以高分辨率網絡HRNet為基礎網絡,通過引入PSA注意力和ACmix模塊,提出一種能夠檢測多目標動物姿態中各類遮擋關鍵點的姿態估計網絡PAENet。首先,本文提出了一種融合自注意機制的瓶頸模塊ACmixneck,用以替換高分辨率網絡中的瓶頸模塊,新的瓶頸模塊ACmixneck能夠在大尺度特征提取中有效提取動物姿態中關鍵點特征。然后,結合PSA 注意力模塊重新設計基礎模塊PSAsblock,能夠在網絡的不同分辨率分支中挖掘到更加細膩的特征,從而捕捉被遮擋的關鍵點。最后,重新設計網絡輸出的特征融合方式并加入反卷積模塊,進一步提高網絡的熱圖預測準確率。
高分辨率網絡(HRNet)改變以往串聯網絡的模式,采用并行多分辨率分支的方式來獲取強語義信息和精確的位置信息。最重要的是,HRNet網絡能夠從頭到尾保持高分辨率,不同分支信息的交互可以彌補通道數減少帶來的信息損耗。該網絡作為各種任務中的基礎網絡,在語義分割、目標檢測和姿態估計中均有很好的表現。因此,本文采用HRNet作為多目標動物姿態估計的基礎框架。
HRNet 網絡共有4 個階段。第一個階段主要維持一個高分辨率,從第二個階段開始,每個階段分出一個低分辨率子網,新增的低分辨子網分辨率是上一階段分辨率的一半,通道數是原來的兩倍。圖1為多分辨率卷積組。然后,各階段進行重復多尺度特征融合。圖2為第三階段的多尺度分辨率特征融合。因此,使用高分辨率網絡在關鍵點檢測精度、計算復雜度和參數效率等方面都具有一定優勢。

圖1 多分辨率卷積組Fig.1 Multi-resolution convolution group

圖2 第三階段的多尺度特征融合Fig.2 Multi-scale feature fusion in the third stage
傳統卷積核提取局部特征在卷積神經網絡中一直是一項優秀的技術,而隨著注意力機制的發展,通過將自注意力機制不斷融合到卷積神經網絡中,能夠幫助網絡提高性能。ACmix 混合卷積的提出者通過巧妙的范式將自注意力機制和卷積融合,讓它同時擁有自注意和卷積優點的同時具有最小的計算開銷[23]。圖3為ACmix混合卷積結構。

圖3 ACmix混合卷積結構Fig.3 ACmix convolution structure
類似人類的視覺關注點,將注意力關注在圖像中最重要的區域而忽略不相關部分的方法稱為注意力機制。由于注意力機制近年來的快速發展,基于注意力的模型獲得了越來越多的關注[24]。Hu 等人[25]率先進行了通道關注,它的核心是一個擠壓和激勵(squeeze-andexcitation,SE)模塊,用于收集全局信息,捕獲信道關系和提高表示能力。但是,它在擠壓模塊中全局平均池化過于簡單,無法捕獲復雜的全局信息。通過結合通道注意力和空間注意力,可以自適應地選擇重要的對象和區域[26]。為了增強信息通道和重要區域,Woo等人[27]提出了CBAM(convolutional block attention module)模塊,將通道注意和空間注意串聯在一起。為了提高計算效率,它解耦了通道注意圖和空間注意圖以提高計算效率,并通過引入全局池化來利用空間全局信息。然而,在通道和空間注意機制方面仍有改進的空間。極化自注意力PSA的提出,在通道分辨率和空間分辨率與低參數量之間達到平衡的同時,通過在注意力機制中加入非線性,使得擬合的輸出更加細膩[22]。
本文以HRNet 網絡為基礎框架進行改進,提出了PAENet網絡模型。網絡共有4個階段:首先通過兩個標準3×3 卷積將圖像分辨率降為原來的1/4,將該分辨率作為第一階段的分辨率并保持到網絡最后輸出。然后從第二個階段開始,每個階段漸進式分出一個低分辨率子網,新增的低分辨子網的分辨率是上一階段分辨率的一半,通道數相應變為上一階段的2倍。PAENet網絡結構如圖4 所示。網絡整體分辨率在4 個階段中逐步下降,可以避免快速降低分辨率過程中導致動物姿態的細節信息大量丟失的情況。

圖4 PAENet網絡結構Fig.4 PAENet network structure
網絡第一階段中通道數首先從3 變為64,將4 塊ACmixneck用于初步特征提取并將通道由64變為256。第二、三、四階段均使用4 塊PSAsblock 充分提取特征,相應的通道數變為32、64、128 和256,圖像分辨率相應變成最初的1/4、1/8、1/16和1/32。在網絡的每一個分支特征提取后都要跨分支進行多尺度特征融合,使得每個分支都能與其他網絡分支的特征信息進行交換。在網絡的第四階段特征提取完成后,將該階段的3個低分辨率分支的特征圖依次進行雙線性上采樣,然后與最高分辨率的特征圖進行融合。最后將融合后的特征輸入到反卷積模塊,進而實現多目標動物姿態關鍵點的估計。
本文提出了如圖5 所示的ACmixneck 模塊,作為PAENet 中的瓶頸模塊,它主要由兩個1×1 普通卷積和一個3×3ACmix 混合卷積構成。ACmixneck 模塊在幾乎不增加計算開銷的同時,還能帶來一定的性能提升。

圖5 ACmixneck模塊Fig.5 ACmixneck module
ACmix能夠同時享有自注意力和卷積的優點,同時與純卷積或自注意相比,具有最小的計算開銷。如圖6(a)所示,一個傳統卷積核大小為k×k的卷積,可以分解為k2個單獨的1×1卷積[23],因此ACmix模塊的結構主要分兩個階段:

圖6 ACmix結構Fig.6 ACmix structure
第一階段:用3個1×1卷積對輸入特征圖進行投影,獲得一組豐富的中間特征;
第二階段:按照不同的范式對中間特征進行重用和聚合,即分別以自注意力機制和卷積的方式進行聚合,然后將兩個路徑的特征進行聚合作為最終的輸出。
在第一階段中,兩個模塊共享了相同的1×1卷積操作,因此只執行了一次特征圖的投影,且主要的計算開銷也在第一階段中。而在第二階段的聚合操作中都是輕量級的,并沒有獲得額外的學習參數。這樣ACmix模塊能夠在結合兩個模塊優點的同時,有效避免了采用兩次計算帶來的開銷。
圖6(a)的自注意力機制部分,中間特征進行了N組聚合,每組聚合包括3 個特征片段和1 個聚合后的特征。對應的3 個特征映射作為查詢(query)、鍵(key)和值(value),遵循傳統的多頭自注意模塊的映射方式。設標準N頭自注意模塊的輸入和輸出對應像素張量(i,j)。注意力機制部分的輸出表達如式(1):
對于式(4),可以通過Shift 操作來進行簡化,Shift操作(f,Δx,Δy)定義為式(5):
其中,Δx、Δy分別表示水平位移和垂直位移,其移位方向對應于圖6(b)中s(i,j)的張量移位方向。因此式(4)可以改寫為式(6):
而式(6)中的移位操作通過使用如圖6(c)中的分組卷積核快速實現,使用它取代了圖6(b)中低效的張量移位。以Shift(f,-1,-1)為例,移位特性計算如式(7):
式中,c表示輸入特征的每個通道。另一方面,如果將內核大小k=3 的卷積核表示為矩陣(8):
則相應的輸出可表示為式(9):
因此,圖6(c)中特定偏移方向使用的核權重可以等價于圖6(b)中的簡單張量位移,如式(7)。特別在移位計算過程中,通過使用多組卷積核的方式來匹配卷積和自注意力路徑的輸出通道,才能在聚合后與自注意力通道的輸出進行融合。
最后,對于卷積通道,在對k2特征圖進行式(6)的平移后,聚合為如式(10):
因此,圖6(a)ACmix混合卷積的最后輸出由兩條路徑的輸出相加,并由兩個可學習標量α和β進行控制,輸出Fout如式(11):
本文參考PSA 注意力機制[22]的原理,使用通道自注意和空間自注意串聯得到的PSAs 模塊,重新構建PAENet 中的基礎模塊PSAsblock,模塊的結構如圖7 所示。極化注意力機制相比較于其他注意力機制,優勢主要在于保持了內部的高通道分辨率和高空間分辨率,減少了中間特征的損失。同時,PSA的兩個通道中均加入非線性,使得擬合輸出更具有細膩度,因此PSA 的通道注意力盡可能突出像素所屬分類,更加關注通道維度的學習;其空間注意力通道盡可能檢測出屬于同一語義的像素位置,增強特征空間信息的感知。因此,通過加入PSAs模塊,在增加少量的計算開銷和計算量的前提下,能夠有效提升網絡對遮擋關鍵點的捕捉能力,提取更加細膩的特征。

圖7 PSAsblock模塊Fig.7 PSAsblock module
PSAs模塊因為在通道維度和空間維度上保持高分辨率,所以保證了特征變化過程中的質量,而且在壓縮維度的分支采用Softmax 函數增強注意力,最后采用Sigmoid 函數進行動態映射[22]。通道維度PSAs 模塊結構如圖8所示。輸入張量X先經過通道自注意(channelonly self-attention),得到通道注意關注后,串聯輸出到空間自注意(spatial-only self-attention),最后輸出為Z。

圖8 PSAs模塊結構Fig.8 PSAs module structure
圖8 中,設通道自注意Ach(X)∈?C×1×1,其中C是通道數,通道自注意的權重計算公式如式(12):
其中,Wq、Wv和Wz分別表示1×1卷積,σ1和σ2是兩個張量重塑算子,θ是通道卷積的中間參數,FSM(·) 是Softmax 運算,×表示矩陣點積運算。Wq、Wv和Wz的內部通道數為C/2,通道自注意先將輸入X投影為q和v,其中對特征q進行壓縮,然后使用Softmax函數進行特征信息增強。之后對特征q和特征v進行矩陣點積運算,得到中間特征z,再通過1×1 卷積將通道恢復到C通道,并使用Sigmoid函數保持輸出在0-1之間,得到通道分支的輸出Zch=Ach(X)⊙chX∈?C×H×W,這里⊙ch表示信道級乘法運算符,H和W表示高和寬。然后將通道分支輸出到空間通道。
設空間自注意Asp(X)∈?1×H×W,其中H和W分別是特征維度的高和寬,空間自注意通道的權重計算公式如式(13):
其中,Wq和Wv分別表示1×1 卷積,σ1、σ2和σ3是兩個張量重塑算子,FSM(·)是Softmax運算,FGP(·)是全局池化操作,×表示矩陣點積運算。空間通道得到通道自注意的輸出后,先通過兩個1×1 卷積將特征投影為q和v。對于特征q,先進行空間維度壓縮,然后進行全局池化,通過Softmax 函數對信息增強后與特征v進行點積運算,并恢復通道數為C,最后使用Sigmoid 函數保持輸出在0-1 之間,得到空間注意分支的輸出Zsp=Asp(X)⊙spX∈?C×H×W,這里⊙sp是一個空間乘法運算符。因此極化注意力PSAs的最終輸出表示為式(14):
本文在特征提取的各網絡分支中都進行了多尺度特征融合,這樣每個網絡分支都能跨分支地獲得其他分支的信息。各階段的特征融合方式分三種情況,相同分辨率的分支融合時不做處理,高分辨率分支到低分辨率分支特征圖進行下采樣以降低分辨率,對于低分辨到高分辨率的特征使用最近鄰上采樣方法提高分辨率,對于跨分支超過2的情況,則進行多次上采樣或下采樣將分辨率變化到對應維度。如圖2第三階段的融合方式所示。
在網絡的輸出層,受級聯金字塔網絡[18]特征融合方式的啟發,對網絡最后階段所有分支的特征圖,依次使用雙線性上采樣提高分辨率與上一分支的特征圖進行融合,直到與最高分辨率的特征圖融合得到最高分辨率的輸出。如圖4最后特征融合部分所示。
最后,將融合后的高分辨率輸出通過一個反卷積模塊,采用提升特征圖分辨率的方式來提取更精細的特征。反卷積輸出結構如圖9所示。

圖9 反卷積輸出結構Fig.9 Deconvolution output structure
圖9 中,輸入特征先經過1×1 的卷積將通道進行轉換,得到的結果再與輸入特征在維度上進行特征拼接,然后使用一個卷積核大小為4×4的反卷積,將分辨率提升為原來的兩倍,再使用4 層PSAsblock 模塊進一步提取特征,最后使用卷積進行通道數轉換,使網絡的輸出與輸入的分辨率一致,從而進行動物姿態關鍵點的熱圖預測。
本文選擇AP10K數據集進行訓練驗證。AP10K數據集包括了23 科54 種動物,動物物種多樣性是當前動物姿態數據集中涵蓋最大的,同時還包括多動物姿態,多動物互動的遮擋關鍵點標注等。標注順序如表1所示。

表1 AP10K數據集關鍵點標注Table 1 Key annotation on AP10K dataset
AP10K 數據集包括10 015 張動物姿態關鍵點標注圖像,與定義人類姿態關鍵點相似,也定義了17個動物姿態的關鍵點。17個動物姿態關鍵點包括兩只眼睛、一個鼻子、一個脖子、一條尾巴、兩個肩膀、兩個肘部、兩個膝蓋、兩個臀部和四個爪子。
本文采用7∶1∶2的比例劃分訓練集、驗證集和測試集,其中7 023 張圖像用于訓練,995 張圖像用于驗證,1 997張圖像用于測試。同時,為測試模型的泛化性能,使用Animal-Pose數據集[11]進行了跨動物姿態數據集泛化性能測試。
本文采用OKS(object keypoint similarity)[9]作為評價指標,其標準遵循人類和動物姿態估計中的規范[11,19],如式(15):
其中,di表示動物姿態預測的關鍵點與實際關鍵點之間的歐氏距離,s是目標尺寸,ki是歸一化因子,δ(vi >0)表示關鍵點可見性大于0。OKS 取值在[0,1]之間,完美預測則OKS=1,誤差過大則OKS=0。
OKS 評價標準中AP50表示OKS 為0.5 時的預測準確率,AP75表示OKS 為0.75 時的準確率,mAP 表示在OKS 為0.50,0.55,…,0.90,0.95 之間的所有預測關鍵點準確率的平均值,APM表示中尺寸物體檢測關鍵點的準確率,APL表示大尺寸物體檢測關鍵點的準確率。
本文實驗使用的服務器系統為Ubuntu20.04LTS,CPU版本是i7-12700KF,顯卡為NVIDIA GeForce RTX 3090Ti 且顯存大小為24 GB。選擇的深度學習框架是PyTorch1.8.0,Python版本是Python3.7。本文使用Adam優化器進行優化訓練,訓練周期為210,批量大小為30。初始學習率為5E-4,訓練周期到190時調整為5E-5。
數據集中圖片大小不一,因此采用圖片預處理方式進行預處理。輸入圖片大小統一裁剪為256×256,然后通過隨機翻轉(-45°,45°)和隨機縮放(-0.65,1.35)來做數據增強處理。
為了評估本文方法的先進性和有效性,采用上述實驗環境與參數,在AP10K數據集上進行實驗,對比本文方法和其他先進姿態估計模型的實驗結果。圖10是熱圖訓練的結果,通過熱圖回歸的方式進行關鍵點預測,其中圖像還進行了隨機旋轉、翻轉和縮放,作為數據增強。

圖10 熱圖預測結果Fig.10 Heat map prediction results
表2 為多種方法在AP10K 數據集上進行實驗的結果,輸入圖片尺寸在數據預處理階段均裁剪為256×256。通過對比以ResNet_50[28]和ResNet_101[28]為基礎網絡的SimpleBaseline[19]網絡、堆疊沙漏網絡SHN[17]、姿態估計網絡HRT[29]中的HRFormer-B 網絡,以及用于動物姿態估計的HRNet 網絡[14],本文提出的PAENet 方法在mAP上的評估精度得到了較好的提升。可以發現,與用于動物姿態估計的HRNet_32 相比,本文PAENet_32 模型在參數量和計算量上只增加3.2×106和1.8 GFLOPs,但AP50提高了1.9 個百分點,AP75提高了2.8 個百分點,APL提高了2.2個百分點,APM提高了3.6個百分點,且平均精度mAP整體上提高了2.4個百分點。

表2 AP10K測試集上不同方法的實驗結果對比Table 2 Comparison of experimental results of different methods on AP10K test set
通過實驗結果可以發現,本文方法在改進后對中尺寸物體關鍵點檢測準確率提升最為明顯。因此,本文方法在僅增加少量計算復雜度的情況下,對動物姿態估計中的一些困難關鍵點的檢測更具有優勢。
表3 為本文方法在Animal-Pose 數據集[11]上進行的跨動物姿態數據集的泛化測試,同時對比了HRNet 網絡。在跨動物姿態數據集實驗中,本文首先在AP10K數據集上進行了訓練,然后選擇Animal-Pose 數據集中物種為狗(dog)的1 511張標注數據集上進行微調,最后分別在另外4個物種貓(cat)、羊(sheep)、馬(horse)和牛(cow)上進行測試。由表3 可以看出,相比于HRNet 網絡,本文方法在Animal-Pose 數據集的其余4 個物種上mAP均獲得了更優秀的表現。

表3 PAENet跨動物姿態數據集評價結果Table 3 Evaluation results of PAENet trans-animal posture data
本文消融實驗選擇在AP10K數據集上進行訓練驗證,以HRNet_32為基礎,分別驗證ACmixneck、PSAblock、ACmixneck+PSAblock和網絡輸出特征融合部分對HRNet的改進,從而驗證PAENet 中各模塊對動物姿態關鍵點預測精度的影響程度。實驗結果如表4所示。

表4 消融實驗結果Table 4 Results of ablation experiment
由表4 可以發現,在僅使用ACmixneck 模塊時,在幾乎不增加網絡計算復雜度情況下,網絡的平均精度mAP 提升了0.3 個百分點,而在僅使用PSAsblock 模塊的情況下,雖然網絡參數量增加了2.4×106,計算量增加了0.6 GFLOPs,但網絡性能提升了1.6 個百分點。這主要是因為瓶頸模塊中的混合卷積避免了重復的計算開銷,只對特征進行初步提取,而PSAsblock 模塊的通道注意力和空間注意力雖然增加了部分計算開銷,但是對細節特征進行了更加細膩的提取。當同時使用ACmixneck模塊和PSAsblock 模塊的情況下,網絡性能進一步提升了1.9 個百分點。而只使用改進特征融合部分時,因為融合階段增加了一定計算量,所以相比于HRNet網絡,計算量增加了1.4 GFLOPs,參數量僅增加8.0×105,但網絡性能提升了0.6個百分點。最后在加入ACmixneck模塊和PSAsblock模塊后,網絡特征融合部分發揮出更好的效果,網絡僅增加少量計算復雜度的情況下,最終的mAP提升了2.4個百分點。
從以上的實驗結果中可以看到,通過使用本文提出的ACmixneck 模塊和PSAsblock 模塊可以增強動物姿態估計網絡對通道信息和空間信息的關注,同時對于本文改進的特征融合部分,可以充分利用低分辨率網絡分支中提取的特征信息,從而提升網絡的預測精度,在復雜的動物姿態估計中取得不錯的成績。
為進一步驗證極化注意力機制PSAs中不同通道注意力對本文模型的影響效果,以及對比不同注意力模塊之間的差距,分別在PSAsblock 中添加PSA 空間注意力、PSA 通道注意力、CBAM 注意力以及PSAs 注意力,在HRNet 網絡中進行定量消融實驗。實驗結果如表5所示。
從表5 中可以發現,和PSAsblock 模塊中不添加注意力相比,單獨添加PSA 空間注意力和通道注意力,模型精度分別提升0.3 個百分點和0.7 個百分點。表明PSAs 中不同通道對模型性能都有一定的性能提升,這得益于PSAs中各通道注意力對動物姿態關鍵點特征進行了有效學習。其次,當串聯PSA通道注意力和空間注意力,也即是使用PSAs 模塊后,相較于單通道,僅增加少量計算量的情況下,網絡精度提升了1.6 個百分點。實驗表明,相比于使用PSA單通道的方法,使用PSAs模塊對動物姿態關鍵特征關注更好。而添加CBAM模塊后,相比于不添加注意力的網絡精度提升0.9 個百分點。但采用PSAs 模塊比采用CBAM 模塊,在網絡僅增加2.2×106參數量和0.6 GFLOPs 計算量的情況下,精度提升了0.7 個百分點。這是因為PSAs 模塊在空間和通道維度上都保持內部的高分辨率,保證了特征變化過程中的質量,減少了特征信息的損失。實驗結果表明,采用PSAs模塊可以有效提升網絡模型的預測精度。
圖11為本文方法和HRNet方法在AP10K測試集中的部分結果展示。圖11(a)~(d)是多目標動物姿態中不同程度遮擋下的可視化結果。可以發現,在無遮擋的情況下中,HRNet方法和本文方法都能夠準確檢測出多目標動物姿態的關鍵點。但在遮擋比較嚴重的情況下,如圖11(c)和(d)中的一些遠景遮擋和小目標檢測中,本文方法的檢測性能比HRNet方法更優、更有優勢。圖11(e)~(h)是單目標動物姿態不同程度自遮擋或環境遮擋的可視化結果。同樣,在無遮擋或輕微遮擋的情況下,可以發現本文方法和HRNet 方法檢測效果均表現良好。但在一些復雜的環境遮擋和復雜的姿勢中,如在圖11(f)熊貓的髖部、圖11(g)獅子的尾根和圖11(h)黑猩猩的髖部和尾根,和HRNet方法檢測錯誤或檢測不到的關鍵點相比,本文方法都進行了正確檢測。因此本文方法在一些復雜環境下,具有更好的檢測性能。
圖12是本文方法直接在Animal-Pose數據集上5個物種的部分可視化結果。從圖12可視化結果中可以看出,除了嚴重遮擋的情況,在一些半身遮擋或者自遮擋的情況下,本文方法在跨數據集檢測中都能夠準確檢測被遮擋的關鍵點。

圖12 本文方法在Animal-Pose數據集上各物種可視化結果結果Fig.12 Visualization results of each species of this paper method on Animal-Pose dataset
本文以高分辨率網絡HRNet 為基礎網絡進行優化改進,提出的ACmixneck 瓶頸模塊和PSAsblock 基礎模塊通過融入通道注意力及空間注意力機制,有效增強了網絡在多目標動物姿態估計中遮擋關鍵點的特征提取能力,同時優化了網絡輸出的特征融合方式,使得高分辨率網絡的低分辨率分支中的細節特征得以充分利用。在AP10K 大型動物姿態數據集上的實驗結果表明,相比當前用于動物姿態估計的HRNet,本文方法的mAP綜合評價指標提高了2.4個百分點,有效改善了網絡在復雜的多目標動物姿態中細節特征的提取能力。但是本文所做工作仍有待改進,比如在不犧牲模型預測準確度的情況下降低網絡模型的參數量和運算復雜度,這些將是接下來需要進一步研究的內容。