馬明旭,馬宏,宋華偉
(1.鄭州大學網(wǎng)絡空間安全學院,河南 鄭州 450000;2.戰(zhàn)略支援部隊信息工程大學信息技術研究所,河南 鄭州 450000)
隨著計算機視覺各個分支領域的不斷發(fā)展,深度學習、卷積神經(jīng)網(wǎng)絡等技術的不斷成熟,業(yè)界提出了人體姿態(tài)估計這一研究方向。姿態(tài)估計相比于傳統(tǒng)的目標檢測,能夠在檢測的過程中提供更多維度、更深層次的人體特征信息,可以實時掌握人體二維空間的姿態(tài)和位置變換,為計算機視覺的應用和人體行為解讀等諸多方向提供了巨大的可拓展性。在城市街道場景中,如十字路口工廠園區(qū)、養(yǎng)老院、醫(yī)院、體育場等公共區(qū)域,經(jīng)常會發(fā)生一些異常行為(如摔倒、打架斗毆、溺水、區(qū)域入侵等),帶來的影響可能非常嚴重,因此在發(fā)生異常行為初期,通過監(jiān)控采集和算法分析,由相關單位提供及時的響應和援助是至關重要的。通過對人體姿態(tài)估計的研究,以及充分地理解單個人或人群在視頻中的交互信息,開發(fā)設計一個能夠滿足工業(yè)應用部署的行人姿態(tài)估計算法,對于公共安全、醫(yī)療監(jiān)護、安防、虛擬現(xiàn)實等領域都有著巨大的應用價值。
人體姿態(tài)估計作為計算機視覺中備受關注的重要任務之一,也是人類利用計算機理解人體動作、行為信息的重要一環(huán),近年來逐漸成為了國內(nèi)外學術界和工業(yè)應用的熱門研究方向。傳統(tǒng)的多人姿態(tài)估計根據(jù)方法的不同,分為自底向上和自頂向下兩大類[1-2]。自頂向下[3-5]的方式首先通過檢測算法獲得人形輪廓,然后檢測出輪廓內(nèi)的關鍵點,進而連接所有關鍵點獲取人體姿態(tài),這種方式較為直觀,易于理解,骨骼信息提取的精度較高。文獻[6]提出的DeepPose最早將卷積神經(jīng)網(wǎng)絡(CNN)應用于人體關節(jié)點檢測,將人體姿態(tài)估計轉換為關節(jié)點回歸問題,并提出了將CNN應用于人體關節(jié)點回歸的方法,將整幅圖像輸入到7層CNN來做關節(jié)點回歸,更進一步,使用級聯(lián)的CNN檢測器來增加關節(jié)點定位的精確度。AlphaPose[7]是由上海交通大學研究團隊提出的一種新的區(qū)域多人姿態(tài)估計(RMPE)框架,能夠實現(xiàn)在人體候選框不準確的情況下進行姿態(tài)估計。自底向上[8-10]的方法需要先檢測出一幅圖像內(nèi)的所有人體部位,然后通過聚類等方法將所有關鍵點進行連接并分組,拼接成每個人的骨架,這種方法的最大特點是只需對圖片進行一次檢測,并且檢測速度不受圖像內(nèi)人數(shù)的影響。文獻[11]提出的OpenPose通過部分親和場(PAFs)的非參數(shù)表示,首次提出了關聯(lián)分數(shù),用學習的方法將身體部位與圖像中的個體關聯(lián)起來。文獻[9]提出的Higher HRNet通過提高輸出分辨率大幅提升了預測精度。文獻[12]提出了一種基于流行的YOLOv5[13]目標檢測框架的二維多人姿態(tài)估計算法YOLO-Pose,該算法使用了一種新型的無熱力圖聯(lián)合檢測方法,能夠實現(xiàn)端到端的訓練并且優(yōu)化目標關鍵點相似度(OKS)指標,該方法不需要對自底向上的方法進行后處理,而是通過將檢測到的關鍵點分組到一個框架中,每個包圍框都包含一個相關聯(lián)的姿態(tài),從而實現(xiàn)關鍵點的固有分組。除了傳統(tǒng)的二維姿態(tài)估計[2]外,三維姿態(tài)估計[14]和視頻流場景下連續(xù)的姿態(tài)估計也是近期的熱門研究方向。文獻[15]提出了一種雙向交換二維和三維信息的框架,利用單目相機采集到的視頻信息,該框架能夠估計出高精度的三維人體姿態(tài)。文獻[16]采用三階段多特征網(wǎng)絡生成初始姿態(tài)關節(jié)點數(shù)據(jù),通過自底向上的樹形結構學習身體部位之間的空間特征,并將相鄰3幀圖像進行融合來保證視頻估計前后的一致性。
雖然上述算法在某些場景下取得了不錯的表現(xiàn),但是在實際的城市街景中,在待檢測行人目標有效面積較小的條件下,檢測精度會受到嚴重影響,同時會出現(xiàn)較高的漏檢率,且部分算法效率低,無法滿足工業(yè)應用的實時性要求。導致小目標行人檢測困難的主要原因有2個:1)小目標標注區(qū)域的面積占比少;2)訓練數(shù)據(jù)集中小目標的實例少。針對問題1),可通過進一步提升神經(jīng)網(wǎng)絡模型對小目標區(qū)域的感興趣程度、加強各層級網(wǎng)絡所提取到的有用特征信息的有效融合、優(yōu)化錨框(anchor)的聚類手段等方法解決;針對問題2),則需要豐富數(shù)據(jù)集中標注目標尺度的多樣性,在數(shù)據(jù)層面就聚焦解決小目標行人檢測難的問題。
近年來,基于深度學習的計算機視覺技術不斷進步,針對小目標行人檢測問題的優(yōu)化方法層出不窮[17-18]。文獻[17]提出的TPH-YOLOv5將即插即用的注意力模塊(CBAM)集成到YOLOv5模型中,幫助網(wǎng)絡在大區(qū)域覆蓋的圖像中找到感興趣的區(qū)域,同時增加一個更小尺度的檢測頭來預測更小的物體,該文證實了CBAM模塊能夠注意到更有價值的目標區(qū)域,提升了對小目標物體的預測精度。文獻[19]提出了一種高效的加權雙向特征金字塔網(wǎng)絡(BiFPN),通過在同一水平的節(jié)點之間增加一條額外的通道,在不增加太多計算成本的情況下融合更多尺度的特征信息,該方法改進了路徑聚合PANet[20]網(wǎng)絡結構,豐富了特征融合的來源。文獻[21]提出的SIoU Loss[21]考慮到預測框與真實框之間的向量角度信息,重新定義了懲罰指標,證明了SIoU損失函數(shù)能夠提高神經(jīng)網(wǎng)絡的訓練速度和準確性。文獻[22]通過使用k-means++[23]算法重新聚類錨框,避免聚類中心過近所導致的局部最優(yōu)解問題,提升了目標檢測算法的預測精度,加快了模型的收斂。
針對YOLO-Pose算法在城市街景中對小目標行人的預測效果不佳的問題,本文提出一種基于YOLO-Pose算法改進的小目標行人姿態(tài)估計算法YOLO-Pose-CBAM。
YOLO-Pose[12]基于當前流行的YOLOv5[13]目標檢測算法,使用CSP-darknet53網(wǎng)絡[24]作為特征提取骨干網(wǎng)絡(Backbone),使用PANet[20]網(wǎng)絡融合多尺度特征作為頸部結構(Neck),最后使用4個不同尺度的解耦頭用于預測候選框和關鍵點。YOLO-Pose的網(wǎng)絡模型結構如圖1所示(彩色效果見《計算機工程》官網(wǎng)HTML版,下同)。

圖1 YOLO-Pose網(wǎng)絡結構Fig.1 YOLO-Pose network structure
輸入的圖像通過CSP-darknet53骨干網(wǎng)絡產(chǎn)生4種不同尺度的特征圖:p1(80×80),p2(40×40),p3(20×20),p4(10×10),相比于原始的YOLOv5目標檢測算法多添加了一個尺寸的特征圖,通過在更多尺度上采集特征信息,能夠實現(xiàn)更好的檢測效果。使用PANet網(wǎng)絡來融合不同尺度的特征圖,將PANet的輸出作為4個尺度檢測頭的輸入,傳到每個檢測頭中的box候選框檢測器和關鍵點檢測器中。最終使用CIoU[25]損失作為邊界框的監(jiān)督,將IoU的損失概念從邊界框擴展到關鍵點,使用OKS作為關鍵點的IoU,針對特定部位的關鍵點傾斜重要性,比如耳朵、鼻子、眼睛會比肩膀、膝蓋、臀部等在像素級別上受到更多的錯誤懲罰??倱p失函數(shù)公式如下:
λkptsLkpts+λkpts_confLkpts_conf)
(1)
為了平衡不同規(guī)模之間的損失,超參數(shù)的值設置為:λcls=0.5,λbox=0.05,λkpts=0.1,λkpts_conf=0.5。
對于每個邊界框,存儲對應的一套姿態(tài)信息,針對每一個單獨的關鍵點計算OKS指標,并累加到最終的OKS損失,公式如下:

(2)
其中:OOKS表示OKS指標;dn代表第n個關鍵點預測和真實坐標的歐氏距離;kn代表關鍵點的特定權重;s代表目標的比例;δ(vn>0)代表每個關鍵點的可見性標識。
針對每個關鍵點學習一個置信度參數(shù),它表示該關鍵點對于目標人體是否存在,關鍵點置信度的損失公式為:
Lkpts_conf(s,i,j,k)=

(3)

YOLOv5目標檢測算法主要著眼于COCO數(shù)據(jù)集[26]在目標檢測上的挑戰(zhàn),其每個候選框預測85種元素,包含80個類別的目標分數(shù)、邊界框的4個位置坐標和置信度分數(shù)。對于YOLO-Pose算法而言,檢測到的一個人的anchor會存儲整個二維姿態(tài)信息和邊界框信息,而它需要檢測的只有人體這一種類別。COCO keypoints人體關鍵點數(shù)據(jù)集中每個人體信息使用17個關節(jié)點表示,并且每個關節(jié)點使用坐標和置信度{x,y, conf}確定,也就是對于每個檢測到人的anchor,關鍵點頭預測3×17=51個元素,候選框頭預測6個元素{Cx,Cy,W,H,Bconf,Sconf},其中,Bconf、Sconf表示為候選框和類別的置信度。因此,對于YOLO-Pose預測到的每個anchor,所有需要的元素可以表達為一個向量,即:

(4)
與自上而下的方法相比,YOLO-Pose對于關鍵點沒有限制約束其必須在檢測的邊界框內(nèi),因此,如果關鍵點被遮擋或位于邊界框外,也仍然能被正確識別[13]。但筆者在實際測試中發(fā)現(xiàn),YOLO-Pose算法對城市街景中較小的行人目標不夠敏感,經(jīng)常出現(xiàn)漏檢情況。針對該問題,本文對YOLO-Pose算法模型進行了改進。
如圖2所示,本文算法主要有以下技術創(chuàng)新點:1)在YOLO-Pose算法的特征提取網(wǎng)絡中加入CBAM注意力機制[27],構建了一個全新的特征提取網(wǎng)絡,從通道和空間2個維度提取更有效的特征信息,增加對小目標特征信息的關注度;2)構建跨層級聯(lián)特征融合通道[28],加強淺層特征與深層特征之間的信息交流,進一步豐富人體姿態(tài)估計特征融合的尺度和來源,緩解漏檢和誤檢問題;3)引入SIoU[21]代替CIoU[25],使用真實框與預測框之間的向量角度重新定義損失函數(shù),加速收斂并提升預測的準確度;4)使用k-means++[23]算法代替k-means算法,規(guī)避初始聚類中心過近的問題。

圖2 改進的YOLO-Pose-CBAM網(wǎng)絡結構Fig.2 Improved YOLO-Pose-CBAM network structure
1.2.1 CBAM輕量化注意力模塊的引入
為了解決YOLO-Pose在城市街景中對小目標行人不敏感的問題,本文提出改進的YOLO-Pose-CBAM算法,提升了算法模型對小目標行人的敏感度,同時增強了姿態(tài)估計的穩(wěn)定性和可靠性。
文獻[27]提出了一種輕量化的CBAM注意力模塊,它可以同時在通道和空間2種維度上進行Attention操作,能賦予網(wǎng)絡更大的感受野,使網(wǎng)絡更關注識別的物體。同時其輕量化的設計,能夠忽略開銷無縫集成到YOLO-Pose的架構中。本文將CBAM注意力模塊放到每個檢測頭的前一層,使其從空間和通道2個維度進行注意力特征融合。
CBAM注意力機制包含了通道注意力模塊(CAM)和空間注意力模塊(SAM),如圖3~圖5所示,給定的中間特征圖的信息沿著通道和空間2個單獨的維度依次生成注意力映射。

圖3 CBAM注意力機制Fig.3 CBAM attention mechanism
如圖4所示,通道注意力模塊將維數(shù)為C×H×W的中間層特征圖作為輸入,使用AvgPool和MaxPool對特征圖進行空間維度壓縮后生產(chǎn)2個通道注意力向量,分別用Favg,c、Fmax,c來表示。隨后將Favg,c、Fmax,c輸入一個由3層全連接網(wǎng)絡組成的共享多層感知器W0,并生成2個維數(shù)為C×1×1的注意力向量,最終將2個注意力向量相加,通過Sigmoid函數(shù)融合為一個維度C×1×1的通道注意力向量Mc,如式(5)所示:

圖4 通道注意力模塊Fig.4 Channel attention module
Mc(F)=
σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=
σ(W1(W0(Favg,c))+W1(W0(Fmax,c)))
(5)
如圖5所示,空間注意力模塊將CAM輸出的結果進行MaxPool和AvgPool操作,隨后將得到的2個1×H×W特征圖進行Concat拼接操作,通過7×7卷積將其變?yōu)?×H×W的特征圖,經(jīng)過Sigmoid激活函數(shù)得到SAM的輸出結果。最終將空間注意力模塊的輸出結果乘上原特征圖變回C×H×W大小,即為CBAM整體的輸出結果,如式(6)所示:

圖5 空間注意力模塊Fig.5 Spatial attention module
Ms(F)=
σ(f7×7([AvgPool(F);MaxPool(F)]))=
σ(f7×7([Favg,s;Fmax,s]))
(6)
本文的實驗在引入CBAM注意力機制的同時,將YOLO-Pose網(wǎng)絡中的空間金字塔池化(SPP)結構替換為快速SPP(SPPF)結構,網(wǎng)絡模型整體訓練速度相較于SPP提升7.67%。將CBAM模塊集成到YOLO-Pose的每一個檢測頭前,使模型的性能得到了較大的提升,對小目標行人姿態(tài)估計的增強尤為明顯。
1.2.2 跨層級聯(lián)的特征融合
在單階段的目標檢測器[1]中,骨干網(wǎng)絡主要負責提取數(shù)據(jù)中更復雜的紋理特征,而頸部網(wǎng)絡放在骨干網(wǎng)絡之后,可以更好地利用提取到的特征信息,提升特征的多樣性和魯棒性。YOLO-Pose采用的PANet[20]結構引入了自底向上的路徑,雖然在頸部提取到了較為復雜的特征信息,但忽略了行人目標淺層特征較為明顯這一特性。因此,為進一步加強算法對小目標行人的特征提取能力,防止有效信息在傳遞過程中丟失,增強網(wǎng)絡對小目標行人的回歸能力,本文對YOLO-Pose的網(wǎng)絡結構進行改進。
如圖6所示,本文在骨干網(wǎng)絡和頸部之間增加2條跨層的級聯(lián)通道[4]。第1條級聯(lián)通道將骨干網(wǎng)絡中8倍下采樣的特征圖A1∈C×H×W(C、H、W分別代表通道數(shù)、高度和寬度)、頸部上采樣特征圖B1∈(C/2)×H×W、頸部下采樣特征圖C1∈(C/2)×H×W通過Concat拼接操作融合為特征圖M1∈(2×C)×H×W,第2條級聯(lián)通道同理。

圖6 跨層級聯(lián)的特征融合結構Fig.6 Cross layer cascading feature fusion structure
不同通道數(shù)的特征圖融合公式如下:
Mi=Concat(Bi,Ci,Ai)
(7)
通過將淺層網(wǎng)絡中提取到的原始行人輪廓特征與深層網(wǎng)絡中提煉的輪廓特征進行跨層級聯(lián)融合,加強了淺層特征與深層特征之間的信息交流,使網(wǎng)絡可以有選擇性地提取特征信息,改善了原網(wǎng)絡中融合特征來源單一導致的漏檢、誤檢等問題,提升了預測精度。
1.2.3 SIoU改進損失函數(shù)的引入
在YOLO-Pose中,損失函數(shù)中使用CIoU[25]作為邊界框的監(jiān)督指標。CIoU Loss公式如下:

(8)

(9)

(10)
其中:CCIoU表示CIoU;IIoU表示IoU;(b,bt)分別表示預測框和真實框的中心點;ρ2(b,bt)表示預測框與真實框中心點的歐氏距離;c表示預測框與真實框的最小外接矩形對角線長度;a是權重函數(shù);v用于衡量預測框與真實框的長寬一致性。
在本文算法中,引入了最新的SIoU Loss[21]重新定義了邊界框回歸的定位損失函數(shù)。SIoU相較于CIoU,進一步考慮了真實框和預測框之間的向量角度,具體包含4個部分:角度損失,距離損失,形狀損失,IoU損失。SIoU Loss回歸損失函數(shù)公式如下:

(11)
其中:SSIoU表示SIoU。
1)角度損失公式如下:

(12)

(13)
ch=max(bcy,t,bcy)-min(bcy,t,bcy)
(14)

2)距離損失公式如下:

(15)

(16)
γ=2-Λ
(17)
其中:(cw,ch)為預測框與真實框最小外接矩陣的寬和高。
3)形狀損失公式如下:

(18)

(19)
其中:(w,h)和(wt,ht)分別為預測框和真實框的寬和高;θ負責控制對形狀損失的關注程度,避免過于關注形狀損失而減少了對預測框的移動。
4)IoU損失公式如下:

(20)
綜上,引入SIoU后的邊界框定位損失函數(shù)定義為:

(21)

1.2.4 k-means++改進錨框聚類
k-means算法是一種廣泛使用的聚類算法,在YOLO系列算法中默認使用k-means算法聚類COCO數(shù)據(jù)集標注的錨框,并且采用遺傳算法在訓練的過程中調(diào)整錨框[29]。但k-means算法在正式聚類之前要先初始化k個聚類中心點,k-means存在的巨大缺陷就是收斂情況嚴重依賴于聚類中心的初始化情況,如果初始點選擇不當會導致精度和效果不佳。

在開展本文算法模型實驗時,首先進行數(shù)據(jù)集的構建,其次對YOLO-Pose算法進行網(wǎng)絡結構的優(yōu)化和參數(shù)的調(diào)優(yōu),最后對比其他姿態(tài)估計算法,驗證本文算法在城市街道等場景監(jiān)控視頻下的有效性和先進性。
COCO keypoints數(shù)據(jù)集[26]是一個可以用于同時檢測目標并定位其關鍵點的大規(guī)模數(shù)據(jù)集。COCO keypoints將人體關鍵點的定義為17個關節(jié)點,分別為nose、left_eye、right_eye、left_ear、right_ear、left_shoulder、right_shoulder、left_elbow、right_elbow、left_wrist、right_wirst、left_hip、right_hip、left_knee、right_knee、left_ankle、right_ankle。在城市街景環(huán)境中,監(jiān)控攝像頭中的行人目標的待檢測區(qū)域往往比較小,且可能出現(xiàn)擁擠的情況,這些場景在MS COCO數(shù)據(jù)集上有67.01%的圖片沒有重疊的人群[30],因此,有必要引入符合應用場景的數(shù)據(jù)集作為評判標準。WiderPerson數(shù)據(jù)集[31]是戶外行人檢測基準數(shù)據(jù)集,圖像選自廣泛的場景,不再局限于單一場景,其多樣化、密集型、室外的特點非常符合小目標行人姿態(tài)估計的應用場景。
本文著眼于改進YOLO-Pose算法在城市街道等場景中檢測小目標行人姿態(tài)的性能,為了驗證算法在小目標行人姿態(tài)估計方面的先進性,本文通過數(shù)據(jù)采集以及使用標注軟件對WiderPerson目標檢測數(shù)據(jù)進行人體關鍵點標注,得到高質(zhì)量的小目標人群數(shù)據(jù)集WiderKeypoints。本文實驗訓練和驗證數(shù)據(jù)集均為WiderKeypoints,數(shù)據(jù)集概況如表1所示,其中,訓練集、驗證集、測試集的比例為8∶1∶1。

表1 實驗數(shù)據(jù)集概況Table 1 Overview of experimental datasets 單位:個
在目標檢測任務中,常見的評價指標有精度、召回率和平均精度均值(mAP)。精度表示預測中正確的目標占全部預測目標的比例,召回率表示所有已標注目標中模型預測正確的比例,也稱為查全率。這2個指標的計算方式如下:

(22)

(23)
其中:P表示精度;R表示召回率;NTP表示被正確劃分為正例的個數(shù),即實際為正例且被分類器劃分為正例的實例數(shù);NFP表示被錯誤劃分為正例的個數(shù),即實際為負例但被分類器劃分為正例的實例數(shù);NFN表示被錯誤劃分為負例的個數(shù),即實際為正例但被分類器劃分為負例的實例數(shù)。
平均精度均值是P和R這對變量的融合指標,表示網(wǎng)絡模型預測的識別精度,是所有類別平均精度(AP)的均值,如下所示:

(24)

(25)
其中:AAP表示AP;AmAP表示mAP;m代表類別的個數(shù),在本文中為1(person),此時mAP等價于AP。
參考COCO數(shù)據(jù)集中姿態(tài)估計任務的判定標準,本文使用OKS來測量預測關鍵點與真實關鍵點之間相似度,實驗的評價指標包括:1)OKS=0.5條件下的預測平均精度AP50;2)OKS=0.5,0.55,…,0.95這10個閾值點的模型預測平均精度均值;3)算法速度(FPS)。
2.3.1 環(huán)境設置與訓練結果
本文實驗平臺服務器配置如表2所示。

表2 實驗平臺配置Table 2 Experimental platform configuration
本文算法網(wǎng)絡模型共460層,總參數(shù)量為14 372 140,每秒10億次的浮點運算數(shù)(GFLOPs)為19.6,經(jīng)過37.943 h完成300個epoch訓練,模型權重大小為30 MB。在模型訓練的超參數(shù)設置中,初始學習率lr0=0.01,最終學習率lrf=0.2,隨機梯度下降的動量momentum=0.937,權重衰減weight_decay=0.000 5,采用3個輪次的warmup,共訓練300輪,輸入圖像大小為640×640像素。
圖7為本文網(wǎng)絡模型的訓練損失曲線,損失曲線在訓練剛開始階段下降幅度較大,在迭代250輪左右時下降趨勢開始變緩,在迭代300輪后,總體損失函數(shù)值收斂于0.196,相較于YOLO-Pose原損失函數(shù),引入SIoU后改進的損失函數(shù)能使網(wǎng)絡更快收斂,因此,本文網(wǎng)絡損失函數(shù)改進合理。

圖7 損失函數(shù)變化曲線對比Fig.7 Comparison of change curve of loss function
2.3.2 消融實驗
為了進一步驗證本文算法在小目標行人場景下具有更先進的檢測效果,使用YOLO-Pose作為基準模型對網(wǎng)絡逐步改進,對于每個步驟改進后的新模型,在融合數(shù)據(jù)集上進行實驗和測試,得出模型消融實驗結果,如表3所示。

表3 消融實驗結果Table 3 Ablation experiment results
2.3.3 不同算法檢測結果對比
為了進一步驗證本文算法的有效性和優(yōu)越性,將本文算法和其他算法在相同的數(shù)據(jù)集和實驗環(huán)境下進行測試,輸入圖像大小為640×640像素,得到各個算法的檢測結果,如表4所示。

表4 不同算法檢測結果Table 4 Detection results of different algorithms
2.3.4 姿態(tài)估計檢測效果對比
圖8給出了針對測試集的檢測效果對比,可見YOLO-Pose-CBAM展現(xiàn)出了更高的精度和預測穩(wěn)定性。如圖8(a)所示,在非特殊場景下,原算法出現(xiàn)骨骼信息丟失,而本文算法對圖中的手部和腿部有更細節(jié)的表現(xiàn),預測出的骨骼架構更加清晰、準確;如圖8(b)所示,當人體之間存在較多重疊區(qū)域時,原算法出現(xiàn)近半數(shù)目標漏檢問題,而本文算法對重疊遮擋有較強的抗干擾能力;如圖8(c)所示,當室外人群較密集、視角較低時,原算法對畫面中央遠端行人的檢測出現(xiàn)丟失情況,相比之下本文算法依舊表現(xiàn)穩(wěn)定??傊?本文算法針對測試集中的小目標行人、密集人群等場景都有更優(yōu)異的姿態(tài)估計效果。

圖8 測試集檢測效果對比Fig.8 Comparison of test set detection effects
針對實際城市街景的小目標行人姿態(tài)估計對比如圖9所示,可以看出,在圖像邊緣區(qū)域,當行人即將走進畫面或走出畫面時,目標區(qū)域逐漸變小,原算法會出現(xiàn)一段檢測不到的真空帶,在真空帶出現(xiàn)異常信息漏檢可能會造成嚴重的影響。而本文算法能夠在目標較遠、較小的情況下對行人姿態(tài)進行精確估計,有助于監(jiān)控安防系統(tǒng)關注區(qū)域內(nèi)的重點行人信息,在發(fā)生異常行為的初期,提供及時有效的援助,避免異常事件發(fā)酵成嚴重的社會事件。因此,針對城市街景小目標行人的場景,改進后的網(wǎng)絡模型預測精度明顯優(yōu)于原網(wǎng)絡。

圖9 街景行人檢測效果對比Fig.9 Comparison of pedestrian detection effects in street views
本文提出了一種改進YOLO-Pose的人體姿態(tài)估計算法YOLO-Pose-CBAM。本文的貢獻主要包括:在特征提取網(wǎng)絡中引入CBAM注意力機制,建立跨層級聯(lián)的特征融合通道,使用SIoU改進損失函數(shù),同時引入k-means++解決檢測框初始聚類中心的選擇局限性問題,構建WiderKeypoints小目標行人關鍵點數(shù)據(jù)集,驗證算法有效性。實驗結果表明,本文提出的算法在檢測速度相近的前提下,提升了對小目標行人姿態(tài)的提取和估計能力,能夠精準地檢測到戶外攝像頭環(huán)境下的多人人體姿態(tài)信息,實現(xiàn)穩(wěn)定的姿態(tài)估計效果。未來將通過對姿態(tài)估計得到的信息進行數(shù)據(jù)分析,結合目標追蹤技術實現(xiàn)姿態(tài)追蹤,同時,將引入Tensorrt技術進行網(wǎng)絡推理加速,以及更深層次地分析人體姿態(tài)的意義。