999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制的多尺度全場景監控目標檢測方法

2022-09-22 03:36:22張德祥袁培成
電子與信息學報 2022年9期
關鍵詞:特征檢測

張德祥 王 俊 袁培成

①(安徽大學電氣工程與自動化學院 合肥 230601)

②(安徽三聯學院電子電氣工程學院 合肥 230601)

1 引言

隨著城市的快速發展,城市人口數量越來越大,各類交通工具數量激增,導致安全隱患也逐漸增多。為了更好地對城市進行安全管理,在城市的交通路口、街道以及社區都開始安裝監控攝像頭。近些年,城市監控設施逐漸完善,記錄的視頻數量呈爆發式增長,僅僅通過人力很難處理這種海量級別的數據。為此,借助計算機視覺技術對監控視頻中的目標進行自動化提取和分類是非常有必要的,這將有助于促進智慧城市的建設,有效協助政府部門提升城市管理水平。

傳統的目標檢測方法的核心方法是通過手工設計[1]的特征算子提取目標特征,通常使用方向梯度直方圖(Histogram of Oriented Gradient, HOG)[2]、尺度不變性特征轉換(Scale-Invariant Feature Transform, SIFT)[3]等方法提取目標特征。再通過分類器將提取到的特征做進一步的分類和歸納,得到圖像中目標的位置和類別信息,對于不同類型的任務采用的分類器也有所不同,目標檢測任務使用較多的是支持向量機、Softmax這兩種分類器。隨著深度學習的快速發展,一系列基于卷積神經網絡的目標檢測算法被提出[4],這些算法與傳統方法相比較,具有速度快、泛化性能強等優點,從而迅速成為目標檢測算法研究熱點,并已經取得了可觀的成果。目前基于深度神經網絡的目標檢測方法主要分為Anchor-based和Anchor-free兩種類型:Anchor-based的目標檢測框架又主要分為兩階段類型和1階段類型,其中兩階段的算法是將候選框的提取和窗口位置回歸、分類任務分開進行,代表算法為R-CNN系列[5]、SPPNet[6]和R-FCN[7]等。1階段的算法是端到端類型的任務,即圖片通過這種檢測框架可以直接輸出其中的目標位置和類別,代表算法為YOLO[8]系列和SSD[9]系列等,1階段的算法提出的目的是以最小的精度損失為代價來最大限度地提升檢測的速度;另一種基于Anchor-free類型的檢測框架則丟棄掉Anchor-based的思想,采用密集預測和關鍵點檢測等方法[10]來確定目標的位置,代表算法有CenterNet[11]和ExtremeNet[12]等。

盡管目前基于神經網絡的目標檢測算法已經具有較好檢測精度和檢測速度,但是仍然難以適應復雜的城市監控場景,主要存在以下問題:城市監控的場景多變,加上目標遮擋以及各類天氣的影響,導致出現目標特征表現不明顯的問題;目標類型多,不同種類的目標尺寸差異大,同類目標的尺寸變化大,同一目標在遠景和近景處的尺寸相差能達到十幾倍。

本文采用Yolov5s網絡作為基礎框架,針對監控場景目標的特點,提出一種基于注意力機制的多尺度目標檢測網絡(Multi-scale Object Detection Network Based on Attention Mechanism, MODNBAM),通過引入多尺度檢測結構來改善監控場景目標尺寸變化大的問題,同時在網絡中融入了通道注意力機制,通過計算特征的通道權重來增強目標特征,從而改善監控場景目標特征表現不明顯的問題。

2 基于注意力機制的多尺度目標檢測網絡

2.1 Yolov5s結構

Yolov5網絡共有4種不同深度和寬度的結構,其中Yolov5s是寬度和長度最小的網絡,其網絡結構如圖1所示。Yolov5s采用CSPDarknet作為主干特征提取網絡,CSPDarknet引入了跨階段局部網絡結構(Cross Stage Partial Network, CSPNet)[13],增加了網絡寬度的同時剔除了大量冗余的梯度信息,并提升了網絡的傳播速度。在主干網絡中,共進行了5次下采樣,其中Yolov5s采用Focus結構對輸入圖片進行第1次下采樣,這樣保證了在下采樣的過程中不會造成信息的丟失。隨后在Head網絡中,Yolov5s采用了路徑聚合結構(Path Aggregation Network, PAN)[14]對不同尺度的特征進行融合,當輸入大小為640 px×640 px時,融合的特征大小分別為80 px×80 px, 40 px×40 px , 20 px×20 px ,再用融合后的特征進行檢測輸出。

圖1 Yolov5s網絡結構

2.2 多尺度檢測結構

在全景監控場景下,由于攝像頭安裝位置以及目標種類多等原因,實際目標的尺寸差異較大,使用3種尺度檢測結構會存在目標漏檢的情況,尤其對于攝像頭遠處的小目標而言效果不是很好。本文針對目標尺寸多變的特點,另外考慮到增加更大尺寸的檢測結構會增加大量計算的問題,在主干網絡中增加了1次下采樣操作,并在預測模塊中增加尺度為10 px×10 px大小的檢測層,用來負責預測大目標,而原來的3個尺寸的檢測層則用來負責預測更小的目標。這樣不僅能夠多增加一種尺寸的預測層,而且不會增加過多的計算量,使網絡能更好地適應多尺度的目標。

如圖2所示,本文提出的多尺度檢測結構先通過在主干網絡中增加一次下采樣操作,使用最后4次下采樣得到的特征圖尺寸作為目標檢測的4個尺度。再將特征圖進行3次上采樣,與主干網絡中的特征進行拼接融合,形成特征金字塔網絡(Feature Pyramid Network, FPN)[15]。然后在FPN上采樣的基礎上,增加了一條下采樣特征融合路徑,構成PAN結構,最后得到大小為80 px×80 px, 40 px×40 px , 20 px×20 px, 10 px×10 px的多尺度特征融合圖。自頂向下的特征融合豐富了特征語義信息,使整個網絡具有更強的特征表達能力,而自底向上的特征融合使深層網絡可以獲得淺層網絡中豐富的位置信息。

圖2 多尺度檢測網絡結構

2.3 SE-CSPNet

隨著卷積網絡深度的增加,網絡退化的問題越來越嚴重,導致淺層的網絡反而能達到比深層網絡更好的效果,為了解決這個問題,何凱明等人提出了殘差網絡,有效地緩解了隨著網絡加深而導致的網絡退化問題。但是隨著網絡加深帶來的巨大計算量使模型的實際部署變得十分困難,于是便提出了CSPNet,該結構主要是從網絡設計的角度去解決推理過程中需要大量推理計算的問題。CSPNet易于實現,并且足夠通用,在Yolov4[16]中,通過將Yolov3[17]中的DarkNet53與CSPNet結合,提出了CSPDarknet,取得了顯著的效果。

監控場景由于遮擋、天氣等原因導致目標特征表現不明顯的問題,針對這個問題,本文在主干網絡CSPDarknet中添加通道注意力機制,以增強網絡的特征提取能力。通過在CSP結構中引入擠壓(Squeeze-and-Excitation, SE)[18]模塊,構建了新的特征提取模塊SE-CSPNet。SE模塊主要是從特征的通道關系之間入手,通過全連接層和Sigmoid函數來獲得特征圖通道的權重,再根據這些權重抑制那些無用的通道特征,而更加關注有益的通道特征,從而提升網絡的檢測性能,如圖3所示為SE模塊的結構圖。

圖3 SE模塊結構圖

SE模塊分為3個操作,分別為Squeeze, Excitation和Reweight:

(1)首先將輸入大小為H×W×C特征uc通過全局平均池化得到大小為1×1×C的壓縮特征zc,見式(1)。特征zc的通道大小為C,與輸入特征相同,對于輸入特征具有全局的感受野,它能夠表示輸入特征在通道級的全局分布信息

(2)獲得特征的通道全局分布信息后,通過Excitation操作來獲得特征通道之間的非線性交互關系,對每個通道的重要性進行預測,并賦予不同權重。通過式(2)先將特征zc通過全連接層進行降維,其中W為全連接層的權重參數,r為降維系數,值為16,目的是減小特征的通道數從而降低計算量,將降維后的特征經過ReLU激活函數,再通過一個全連接層恢復輸入時的通道維度,最后經過Sigmoid函數得到權重sc

(3)將Excitation操作得到的權重sc當作特征uc每個通道的重要性,最后再通過Reweight操作將權重sc與特征uc相乘,完成在通道維度上對輸入特征的重新標定,實現了注意力機制,見式(3)

本文通過在CSP模塊中嵌入SENet,構建的SE-CSPNet模塊如圖4所示,其中圖4(a)SECSPNet1_X是在CSP1結構中嵌入SENet,圖4(b)SE-CSPNet2是在CSP2結構中嵌入SENet。

圖4 SE-CSPNet

3 實驗結果及分析

3.1 實驗數據集

本文在公開數據集COCO和Open Images v6進行實驗,其中Open Image v6是谷歌公司在2020年2月提出的數據集,該數據集包含900萬張標注圖片,標注類別600個,從中選取VOC數據集中20個類別的圖片,剔除其他類別的標簽,共6萬張圖片進行實驗。本文另一部分實驗數據采集于全景監控數據,其中包括了城市交通路口監控、高速監控、社區監控、園區卡口等環境下的監控視頻,通過視頻解碼從中挑選了12000張圖片進行手工標注,標注行人(person)、小汽車(car)、貨車(truck)、公共汽車(bus)、自行車(bicycle)、摩托車(motorcycle)、狗(dog)、貓(cat)共8個目標類別。數據集中包含了全天24小時的圖片,其中白天的圖片8500張,夜間圖片3500張,另外數據集中包含了晴天、陰天以及雨天等天氣下的圖片,整個數據集具有一定的代表性,數據集的部分圖片如圖5所示。

圖5 數據集示例圖片

由于數據集中的圖片取自監控場景,其中公共汽車、狗、貓的類別數量比與其他類別數量較少,容易導致過擬合問題。因此本文在監控數據集的基礎上,融合了VOC數據集,從中挑選包含公共汽車、狗、貓的圖片,同時剔除8個類別以外的其他類別,選取了3000張圖片。本文采用的監控數據集共包含15000張圖片,其中隨機選取12000張作為訓練集圖片,3000張作為驗證集圖片。

3.2 評價指標

本文使用多項指標對模型進行評價,其中包括平均精度均值(mean Average Precision, mAP)、推理時間以及每秒檢測幀數(frames per second,fps)。計算mAP時需要先得到準確率(Precision,P)和召回率(Recall, R),計算方法見式(4)和式(5)

在目標檢測任務中:TP表示模型檢出的正樣本中真實目標的個數;FP表示模型預測的正樣本中不是真實目標的個數;FN表示模型沒有檢出的真實目標個數;準確率P表示檢出的真實目標占模型預測的正樣本的比例;召回率R則表示檢出的真實目標占實際所有真實目標的比例,即檢出率。這里的TP, FP, FN的劃分條件是預測目標框與真實目標框的交并比(Intersection of Union, IoU)閾值,當IoU閾值取0.5時,在不同置信度下分別計算P, R的值,再以P和R為坐標軸繪制曲線,曲線與坐標軸之間的面積是平均精度(Average Precision,AP),求出每個類別的AP后取平均值就能得到mAP50。將IoU閾值從0.5開始每次增加0.05,一直到0.95之間取10個閾值[19],分別求出相應的平均精度均值后再求平均就能得到mAP。

3.3 模型訓練

本文的實驗是在CenterOS系統下進行的,顯卡型號為NVIDIA TESLA P100,顯存16 GB,CUDA10.2,CUDNN7.6.5,采用Pytorch深度學習框架,版本為1.7.0。

訓練時使用隨機梯度下降(Stochastic Gradient Descent, SGD)[20]進行模型優化,并且采用Mosaic數據增強方法,將4張圖片通過隨機縮放、翻轉操作后拼接成一張圖,這樣在一定程度上增加了batch-size的大小,不僅豐富了數據集,而且減少了GPU資源的消耗。置信度損失和類別損失采用交叉熵函數計算,目標定位損失函數采用CIOU[21]函數。輸入圖片大小為640 px×640 px,batchsize設為64,在COCO數據集上訓練300個epoch,在Open Images v6數據集上訓練200個epoch,初始權重采用Kaiming[22]初始化方法進行初始化。

訓練監控數據集前,使用K-means聚類算法計算初始錨框大小,使用合適尺寸初始錨框可以使網絡更容易學習,提升檢測精度。分別計算3個尺度和4個尺度的錨框,每個尺度得到3種尺寸大小的錨框。訓練監控數據集時采用遷移學習的思想,加載COCO數據集上訓練的權重,進行參數微調,訓練200個epoch。

3.4 結果分析

3.4.1 公開數據集上的結果

使用本文提出的MODN-BAM首先在COCO數據集上進行消融實驗,引入注意力機制時,分別在主干網絡和Head網絡中將不同數量的CSP結構替換為SE-CSPNet,實驗對比結果見表1。

表1中Attention1是在主干網絡中的所有CSP結構中嵌入SENet,Attention2是只在主干網絡的所有CSP1結構中嵌入SENet,Attention3是在Head網絡中的所有CSP2結構中嵌入SENet,Attention4是只在Head網絡中的最后3個檢測頭的CSP2結構中嵌入SENet。通過4組實驗數據可以看到通過在主干網絡中的CSP1結構中引入注意力機制的方式對于性能的提升最好,即Attention2,對比第1行的數據,第3行引入注意力機制的mAP50和mAP分別提升了1.4%和0.7%,速度下降0.2 ms,其他3種方式在精度上均有不同程度的下降。再對比第1行和第6行的數據,加入多尺度檢測結構后模型的mAP50和mAP分別提升了3.6%和2.6%,速度下降0.5 ms。第7行是本文提出的同時引入注意力機制和多尺度檢測結構的MODN-BAM,其中引入注意力機制的方法采用的是Attention2的方式,通過比較第1行的結果,mAP50和mAP分別提升了4.7%和3.7%,盡管檢測速度有所下降,但僅僅下降了不到1 ms的時間。

表1 COCO數據集上的消融實驗結果

在COCO數據集上的消融實驗結果來看,采用MODN-BAM方法后的模型檢測精度有非常大的提升,為了驗證在不同數據集上MODN-BAM的有效性,在Open Images v6數據集上再次進行了消融驗證實驗,實驗結果見表2。

從表2的數據中可以看到,在Open Images v6數據集上,引入Attention2注意力機制后mAP50和mAP提升了0.9%和1.5%,引入多尺度檢測結構后mAP50和mAP提升了3.4%和5.7%。對于MODNBAM,即同時引入Attention2和多尺度檢測結構后模型的mAP50和mAP分別提升了4.5%和6.5%。

表2 Open Images v6數據集上的消融實驗結果

為了進一步驗證MODN-BAM的有效性,將MODN-BAM其他目標檢測算法RetinaNet-ResNet101[23], YOLOF[24], YOLOF-ResNet101[24],RDSNet[25], Yolov3, Yolov3-SPP[17], NAS-FPN[26],EfficientDet-D1[27], Yolov5s等進行對比,結果見表3。表中所列出的指標數據均是在COCO數據集上得出,其中mAP75為IoU取0.75時的平均精度均值,mAPs, mAPm, mAPl分別為COCO數據集中劃分的小目標、中目標和大目標所對應的平均精度均值。

從表3的數據中可以看到,RetinaNet-ResNet101,YOLOF, YOLOF-ResNet101在輸入尺寸最小為800的情況下,各項精度指標以及fps均低于MODNBAM,和其中精度指標最接近的 YOLOF-Res-Net101算法相比,MODN-BAM的fps高出8.3倍。

表3 COCO數據集上與其他算法的對比結果

在輸入尺寸為640×640的情況下,MODN-BAM的檢測速度要比NAS-FPN, EfficientDet-D1分別高出7.3倍和3.5倍。檢測精度上,僅僅在大目標的檢測精度上比EfficientDet-D1低1.1%,對于小目標的檢測,MODN-BAM的精度要高出4.6%。相比較于基礎框架Yolov5s,犧牲了1.2倍的檢測速度,但其他各項精度指標均有較大的提升。

對于輸入尺寸為608×608的目標檢測算法,MODN-BAM對比Yolov3的提升效果最大,僅mAP就提升了7.4%,小目標的檢測精度提高了4.2%,并且在速度上要比Yolov3快8.7倍;對比Yolov3的改進版算法Yolov3-SPP,MODN-BAM只有mAP50低了0.5%,但包括mAP在內的其他精度指標都高于Yolov3-SPP,fps也高出2.4倍。

從表3的數據來看,MODN-BAM的各項指標處于中上水平,在保持較高檢測精度的情況下,檢測速度仍然具有明顯的優勢,在檢測精度和檢測速度之間達到了一個非常好的平衡。

3.4.2 全景監控數據集上的結果

從COCO和Open Images v6數據集上表現結果來看,MODN-BAM是一個有效的目標檢測網絡。為了驗證MODN-BAM在城市的全場景監控下的應用效果,在全場景監控數據集上進行消融實驗,實驗結果見表4,表中的frame size為測試視頻的分辨率大小。

表4 全場景監控數據集上的消融實驗結果

通過表4的實驗數據可以看到,分別引入多尺度檢測結構和注意力機制后,模型在全場景監控數據集上的mAP50分別提升了2.7%和1.9%。同時引入兩種方法的MODN-BAM在全場景數據集上的mAP50達到了89.6%,平均每秒可以處理154幀圖片。

在測試數據集中選取3張城市監控拍攝的圖片,分別使用Yolov5s和MODN-BAM進行目標檢測,檢測對比結果如圖6所示,從中可以看到本文提出的MODN-BAM與Yolov5s相比較檢出率有明顯的提升。在圖6(a)右側中間的兩輛摩托車和一些遠處的汽車以及圖6(b)中左側墻角的自行車和小狗,這些漏檢的目標通過MODN-BAM都可以成功地檢測出來。夜間的檢測對比結果如圖6(c)所示,能夠看到MODN-BAM對于夜間的目標也有非常好的檢測效果。

圖6 檢測結果對比

4 結束語

為了提高監控場景下目標監測性能,本文提出一種基于注意力機制的多尺度全場景監控目標檢測方法。本文采用Yolov5s作為基礎框架,分析監控場景下的目標具有尺寸變化差異大的特點,提出了一種多尺度目標檢測結構,提升網絡對目標尺寸變化的適應能力。設計了一種基于注意力機制的特征提取模塊,并將其融入到主干網絡中,提升網絡的特征提取能力,有效地改善了監控場景下目標受到遮擋、環境以及天氣等影響導致的特征表現不明顯問題。采用K-means聚類方法計算監控數據集的初始錨框,提升檢測精度,加速模型的收斂。

通過在不同數據集上驗證實驗,MODN-BAM在COCO數據集上的mAP50和mAP分別提升了4.7%和3.7%,推理速度達到了圖片3.8 ms。在全場景監控數據集上,mAP50達到了89.6%,處理監控視頻時速度可以達到154 fps。實驗結果表明,MODN-BAM能夠有效地應用于全場景監控下的目標檢測,并且具有較快的檢測速度,完全可以達到實時檢測的效果。

猜你喜歡
特征檢測
抓住特征巧觀察
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 亚洲日韩精品综合在线一区二区| 亚洲色图欧美视频| 四虎精品免费久久| 伊人久热这里只有精品视频99| 免费在线观看av| 成人国产三级在线播放| 理论片一区| 国产精品网址你懂的| 国产高清在线观看| 亚洲综合婷婷激情| 超碰免费91| 亚洲天堂网2014| 欧美色图久久| 性视频久久| 夜夜拍夜夜爽| 波多野结衣视频网站| 久久久久久尹人网香蕉 | 日韩高清中文字幕| 久久窝窝国产精品午夜看片| 国产又大又粗又猛又爽的视频| 中文字幕免费在线视频| 欧美综合成人| 欧美亚洲日韩中文| 欧美一级在线| 日本人妻丰满熟妇区| 欧美.成人.综合在线| 国产又色又刺激高潮免费看| 手机看片1024久久精品你懂的| 亚洲日韩久久综合中文字幕| 欧美福利在线观看| 欧美激情第一欧美在线| 波多野吉衣一区二区三区av| 成人福利在线观看| 亚洲日本精品一区二区| 91精品亚洲| 99re在线观看视频| 九色91在线视频| 麻豆国产精品一二三在线观看| 亚洲男人的天堂在线观看| 亚洲欧美日韩视频一区| 高清国产在线| 亚洲 欧美 偷自乱 图片| 日本国产在线| 99无码熟妇丰满人妻啪啪| 亚洲精选高清无码| 日韩欧美在线观看| 91综合色区亚洲熟妇p| 污视频日本| 亚洲国产91人成在线| 91av成人日本不卡三区| 黄色网站在线观看无码| 国产亚洲欧美日韩在线观看一区二区 | 91 九色视频丝袜| 99精品伊人久久久大香线蕉| 国产精品久线在线观看| 欧美精品色视频| 91精品国产福利| 欧美97欧美综合色伦图 | 五月天久久婷婷| 欧美日韩一区二区在线免费观看 | 久久国产精品影院| 亚洲最猛黑人xxxx黑人猛交| 亚洲黄色高清| 国产www网站| 99er这里只有精品| 夜色爽爽影院18禁妓女影院| 国产欧美一区二区三区视频在线观看| 中国丰满人妻无码束缚啪啪| 福利片91| 国禁国产you女视频网站| 国产凹凸一区在线观看视频| 国产成年无码AⅤ片在线| 精品一区二区三区水蜜桃| 亚洲国产中文综合专区在| 国产亚洲欧美在线专区| 91在线中文| 色欲综合久久中文字幕网| 国产免费久久精品99re不卡| 久久综合成人| 国产一级妓女av网站| 四虎成人在线视频| 色国产视频|