張云絢 董綿綿
(西安工業大學電子信息工程學院,陜西 西安 710021)
隨著科技迅速發展,信息化聯合作業逐漸成為協作的基本形式,對有效偵察和監視情報的信息智能處理能在一定程度上提高作業人員的能力和效率[1]。因此,在新技術、新產品的推動下,可以進一步提高系統整體的信息處理能力,尤其在矯正人員位姿、理解傳信員肢體語言以及訓練機器人模仿作業人員等方面[2]。
多人姿態估計主要分為自上向下和基于構件的框架。方法一,先定位人體區域,然后進行姿態點定位,可以應對復雜場景下的姿態任務;方法二,先檢測圖像中所有關鍵點并組成肢體,然后對肢體構件進行匹配,受空間約束易出現關鍵點重疊,導致檢測效果較差。同時,不同偵察設備反饋的監測圖像不同,存在圖像多尺度問題。易對關鍵點正樣本進行檢測,將困難點檢測歸為負樣本,樣本不均衡會影響檢測結果。針對上述問題,該文提出一種多人姿態估計方法,首先,基于YOLOv4模型加入Ghost卷積模塊,減少計算參數量,提高模型的響應速度。其次,基于高分辨率網絡融合不同尺度圖像的特征,結合特征金字塔融合不同層之間的特征信息。最后,使用梯度均衡機制解決關鍵點正負樣本不均衡的問題,提高人體姿態估計準確率。
空間變換網絡(STN)是1個可學習的模塊,能在網絡中有效增加圖像空間的不變性,空間反變換網絡(SDTN)將估計結果仿射變換到原始圖像數據中。二者合稱為對稱空間變換網絡,其網絡結構如圖1所示。其中,θ表示空間變換參數,λ表示空間反變換參數,Tθ(G)表示二維放射變換函數,Tλ(G)表示二維反變換函數,{xiS,yiS}表示原圖像第i個坐標點,{xiT,yiT}表示仿射變換后圖像第i個坐標點。首先,通過定位網絡得到回歸輸出參數θ。其次,經過網格生成器對特征圖進行空間變換,將像素位置與得分進行映射。第i個輸出坐標點位置的像素值如公式(1)所示。

圖1 對稱空間變換網絡結構圖

式中:Unm為原始圖像通道中坐標為(n,m)的像素值;Vi為第i個坐標點的像素值; k(·)為線性插值函數;φx和φy為插值函數參數;*表示卷積運算。
該文選擇函數k(·)并采用立方卷積插值,如公式(2)所示。

該文所提出的多人姿態估計選擇了自上向下的框架,其整體結構如圖2所示。模型主要由人體探測器、對稱空間網絡、姿態估計網絡以及姿態非極大值抑制網絡4個部分組成[3]。首先,采用融入Ghost模塊的輕量級YOLOv4目標檢測模型,有效提高了人體探測器的運行速度。其次,基于高分辨率網絡融合不同分辨率的圖像特征,采用梯度均衡機制(GHM)解決關鍵點正負樣本不均衡的問題,在改善模型尺度泛化性的同時提高模型的準確率。最后,采用歐式距離計算關鍵點的空間距離,除去冗余姿態。

圖2 多人姿態估計模型整體結構圖
通過選擇使用輕量化的卷積模塊有效地對卷積神經網絡中的特征冗余問題進行處理。進行卷積運算時,輸入數據為X∈Rc×h×w,c為通道數,h和w為數據的長和寬;卷積核為f∈Rc×k×k×n,k為卷積核尺寸,n為卷積核數量。由經典卷積公式得到特征圖,如公式(3)所示。

式中:b為偏置項;Y為輸出特征圖;*表示卷積運算。
采用經典卷積生成m個通道層的原始特征Y',利用簡單的線性變換得到陰影特征,如公式(4)所示。

式中:yi'為Y '中第i個原始特征圖;φi,j為第j次線性運算,可以生成陰影特征yij。
最終得到m×s個特征圖作為Ghost模塊輸出,在整個YOLOv4的網絡中,將所有經典卷積替換為Ghost卷積模塊,如圖3所示。

圖3 基于Ghost模塊的重構人體探測器示意圖
針對實際目標存在多尺度識別率低、關鍵點正負樣本不均衡等問題,該文提出了姿態估計網絡模型。首先,骨干網絡選取高分辨率網絡HRNet-32,將圖片輸入高分辨率卷積流中,逐步增加高分辨率到低分辨率的流,形成新的階段,并將多分辨率流并行連接,即后一階段的并行流的分辨率由前一階段的分辨率和1個額外的、更低的分辨率組成。不僅可以使模型一直保持高分辨率表示,而且還融合了更多分辨率表示,有利于更加有效地從輸入圖像中提取特征,進而獲得高質量的特征圖,將語義信息豐富為基本特征。其次,將骨干網絡輸出的高質量、不同分辨率的特征圖作為特征金字塔的輸入,連接不同層特征圖后對其進行多尺度的若干特征圖聚合并輸出,再結合梯度均衡機制解決人體關鍵點正負樣本不均衡問題,實現單個人體的關鍵點檢測。最后,采用姿態非極大值抑制消除姿態估計網絡中生成的冗余姿態,以產生最終結果。
骨干網絡分為4個階段且4個階段并行連接,使采樣后的特征圖分辨率為輸入圖像的1/4,各層分辨率逐漸減少為1/2,與之對應的通道數是上一個階段的2倍。第一階段先選取2個3×3的卷積組成子網,降低原始圖片的分辨率;第二階段由上一層分辨率子網和下采樣后的子網并聯組成;第三階段再次對鄰近的上一層分辨率子網進行下采樣,與第一階段、第二階段的分辨率子網并聯連接;第四階段,最近的一層分辨率子網繼續進行下采樣,將4個不同分辨率的子網并聯連接。此時,將骨干網絡的輸出送至特征金字塔結構,經由逐級采樣后的融合作為最后的輸出。涵蓋了更多的層次與尺度信息的交互,找出圖像中人的所有關鍵點(例如頭部、腕關節和腳踝等)。對于檢測受到尺度變換影響的關鍵點,可能將易檢測關鍵點轉為困難關鍵點檢測,從而增加關鍵點難例(負樣本),造成關鍵點正負樣本不均衡的現象,采用梯度均衡機制并根據梯度分布角度進行均衡,通過改變正負樣本的權重讓網絡模型多學習復雜的困難關鍵點。姿態非極大值通過標簽歸一化的IoU預測分支來預測每個候選框的定位置信度,利用IoU所產生的預測值作為邊框排列的依據,以抑制與當前選框IoU超過設定閾值的其他候選框,且采用積分的方式實現了更為準確的感興趣區域池化,有效提升了關鍵點檢測的準確度。
考慮人體關鍵點檢測正負樣本的不均衡程度,結合梯度均衡機制(GHM)對關鍵點進行檢測。因為在逐漸加深的訓練過程中,網絡會關注比例較多的正樣本,也就是易識別的關鍵點,對于負樣本即受到尺度變換影響、被遮擋等識別困難的關鍵點,網絡的關注會逐漸降低,所以該文根據對訓練損失函數的重構實現對關鍵點正負樣本的關注平衡,使模型訓練更加高效和穩健,并可以收斂到更好的結果。梯度密度函數如公式(5)~公式(7)所示。

式中:gk為第k個樣本的梯度;GD(g)為梯度落在區域的樣本數量;?為梯度值的分布間隔;g為樣本的梯度范數;δ?(x,y)為x在y鄰域內的樣本數量;l?(g)為計算樣本量的鄰域區間長度。
再定義密度協調參數β(其中,N為樣本數量),可以保證均勻分布時損失函數不變。
該文姿態估計模型數據集為2017MS COCO數據集,試驗環境為Ubuntu 18.04操作系統,內存為32 GB的Intel? CoreTM i7-8700CPU@3.20GHz,Geforce RTX 1080Ti顯卡,并分別將算法的準確率與人體探測器的參數進行對比。
具體試驗結果如下:分析對比了該文模型與YOLOv4檢測模型的參數量,數據見表1;模型與其他姿態估計模型性能在驗證集的對比見表2;(其中, AP為所有10個目標關鍵點相似性閾值的平均精確率;AP@0.5為目標關鍵點相似性為0.5時AP值;AP@0.75為目標關鍵點相似性為0.75時的AP值;APm為中等目標的AP值,面積大小范圍為(322,962);APl為大目標的AP值,面積大小范圍為(962,-));梯度均衡機制的作用對比見表3;部分模型可視化結果如圖4所示。

表3 梯度均衡機制的消融試驗
由表1可知,經過Ghost模塊的操作后,模型運算量約減少了48%,模型體積縮小了46%,幀率提高了約8 f/s。

表1 人體檢測算法參數規模對比
由表2可知,在使用了高效的人體探測器后,該模型對人體關鍵點的準確率相對HRNet有提高了大約1.1%,主干網絡HRNet的使用為模型提供了可靠的分辨率,銜接的特征金字塔進一步對提取的高質量多尺度特征進行不同層之間的融合,最大化地使用圖像的空間信息和上下文語義信息,并盡可能平衡關鍵點正負樣本的比例,實現對負樣本困難關鍵點的檢測。

表2 不同模型姿態估計性能對比
為了驗證該文模型中使用的梯度均衡機制解決關鍵點樣本均衡性這一問題的有效性,該文進行了關于GHM的消融試驗。
由表3可知,通過使用梯度均衡機制,該文模型的AP提升了2.1%,該機制可以有效地提升模型的性能。
圖4(a)~圖4(c)為不同角度與距離的結果對比。圖4(d)~圖4(f)表示在多人情況下不斷改變距離的遠近進行模型對比的結果。圖4(g)~圖4(i)是在光線不明亮的情形下,由單人至多人的姿態估計結果,圖4(h)是帶有部分遮擋條件下的姿態估計結果。可以看出,該文能夠在尺度變換的影響、光照條件的改變以及帶有部分輕微遮擋的情況下,很好地完成人體關鍵點檢測工作。

圖4 部分模型可視化結果
該文所提出的自上向下的人體姿態估計模型將Ghost卷積加入了人體探測器的YOLOv4中,有效地提高了模型關鍵點的檢測效率;基于高分辨率網絡結合特征金字塔網絡對尺度目標的人體關鍵點進行檢測,采用梯度均衡機制的方式改善關鍵點正負樣本不均衡的問題,提高關鍵點檢測的準確率。在2017COCO數據集上,該文模型關鍵點檢測的準確度比CPN提高了7.2%,比Alphapose提高了5.1%,比HRNet提高了1.1%,在該文的測試環境下,模型實時運行的幀率達到了25 f/s。今后,可以逐漸加大任務難度,構建面對密集偽裝人群也能實現高精度、體積小以及運行效率高的多人姿態估計模型。