999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向密集型場景的多尺度行人檢測方法

2023-04-29 00:00:00吳迪宋家豪李睿智

摘 要:針對目標檢測算法對小目標行人識別率低、對監(jiān)控遠處視野目標檢測精度不理想的問題,提出了改進YOLOv5高效多尺度特征利用的行人檢測算法。首先,通過在原網(wǎng)絡中改進高效的特征融合結構,提高模型對深層特征的感知力來提高模型精度;其次,采用Res2Net Block重構骨干網(wǎng)絡,加強對細粒度特征信息的利用;最后,加入改進的空間金字塔注意力池化網(wǎng)絡,強化模型的多層次特征表達能力。在CrowdHuman數(shù)據(jù)集進行訓練和驗證,YOLOv5-SA的平均檢測精度達到了85.6%,相比原算法提高了3.8%,檢測速度可以達到51FPS(frames per second),識別精度和檢測速度均具有較好的效果,可以有效應用于密集目標行人檢測任務。

關 鍵 詞:小目標行人; 注意力模塊; 密集行人檢測; 空間金字塔池化網(wǎng)絡

中圖分類號:TP391.4 文獻標志碼:A

doi:10.3969/j.issn.1673-5862.2023.06.009

A multi-scale pedestrian detection method for dense scenes

WU Di, SONG Jiahao, LI Ruizhi

(College of Physical Science and Technology, Shenyang Normal University, Shenyang 110034, China)

Abstract:Aiming at the problems that the target detection algorithm has low recognition rate of small target pedestrians and unsatisfactory detection accuracy for monitoring distant field of view targets, in this paper we propose a pedestrian detection algorithm with improved YOLOv5 efficient multi-scale feature utilization. Firstly, by improving the efficient feature fusion structure in the original network, the perceptiveness of the model for deep features improves the model accuracy; secondly, the Res2Net Block is used to reconstruct the backbone network to enhance the utilization of fine-grained feature information; finally, an improved spatial pyramid attention pooling network is added to strengthen the multi-level feature representation capability of the model. Trained and validated on the CrowdHuman dataset, the average detection accuracy of YOLOv5-SA reaches 85.6%, which is 3.8% higher than the original algorithm, and the detection speed can reach 51FPS, with good results in both recognition accuracy and detection speed, it can be effectively used for dense target pedestrian detection tasks.

Key words:small target pedestrian; attention module; occlusion pedestrian detection; spatial pyramid pooling network

行人檢測作為校園安全和智能監(jiān)控系統(tǒng)中的關鍵技術,對實現(xiàn)區(qū)域安防具有極高的研究與應用價值。在實施檢測任務時,研究者需面對場景的復雜性和目標尺度的多樣性等多種性能影響因素,尤其是小尺寸目標行人的識別問題[1。小目標行人的檢測不僅難度較大,而且對整體目標檢測算法性能的提升構成了挑戰(zhàn)。

在當前復雜環(huán)境下,行人檢測主要依賴深度學習技術,分為兩階段(two-stage)和一階段(one-stage)算法。Two-stage算法首先生成候選區(qū)域確定目標位置,然后通過深度網(wǎng)絡對這些區(qū)域進行分類和回歸,如R-CNN系列[2-3。但其計算量大,檢測速度較慢。而one-stage算法,如SSD(single shot multibox detector)和YOLO系列[4-5,實現(xiàn)了檢測和識別的端到端合并,提高了速度,但網(wǎng)絡難以學習足夠的小物體特征。文獻[6]借鑒了ResNet殘差網(wǎng)絡,重構SSD算法的特征提取網(wǎng)絡,以改進行人檢測精度低的問題。文獻[7]在YOLOv3-Tiny的基礎上引入了空洞卷積增大網(wǎng)絡感受野,改善了小目標的識別精度。受以上啟發(fā),本文在YOLOv5框架下,研究多尺度特征提取機制,提出一種增強小目標行人識別的改進算法。

1 YOLOv5算法概述

隨著one-stage算法的不斷迭代和優(yōu)化,YOLOv5網(wǎng)絡已成為廣泛應用的高性能目標檢測算法之一。YOLOv5網(wǎng)絡包含4種不同大小的網(wǎng)絡模型, 其中,YOlOv5s模型的網(wǎng)絡寬度和深度較小,在擁有非常快的推理速度的同時,具有較高的精度,可以滿足監(jiān)控場景的實時檢測需求。本文基于YOLOv5s模型改進后的網(wǎng)絡結構如圖1所示。

2 改進工作

2.1 高效的特征融合網(wǎng)絡

本算法將骨干網(wǎng)具有相同空間尺度的特征圖分為5個不同階段:{stage1,stage2,stage3,stage4,stage5}。為了提高模型對小目標的檢測精度,將原有的特征層融合擴展到4個特征層:{P2,P3,P4,P5},結構如圖2所示。P2層的特征圖為160×160像素,包含更完整的特征信息,通過融合多尺度的深層和淺層特征,可以提取到更多的定位與語義信息,增強特征金字塔網(wǎng)絡的特征表達能力,提高小目標與遮擋目標的檢測精度,并降低漏檢率。

CA(coordinate attention)[8注意力可以同時捕捉到空間方向的位置信息和長期依賴關系,有助于網(wǎng)絡更精準地定位目標。具體分為位置信息嵌入和坐標注意區(qū)域,輸入特征由水平方向和垂直方向的池化核對不同通道進行編碼,計算方式如下:

之后利用卷積操作和激活函數(shù),將2個張量轉化為空間子方向上的注意力權重,計算公式:

gh=σ(Fh(fh)) """(3)

gw=σ(Fw(fw)) """(4)

最后,將注意力權重與輸入特征圖進行乘法加權計算,得到帶有注意力權重的特征圖輸出計算公式:

yc(i,j)=xc(i,j)×ghc(i)×gw(j) """(5)

如圖3所示,通過將CA模塊添加到特征融合模塊中,可促進網(wǎng)絡融合更豐富的多尺度特征信息,以增強不同尺寸目標的特征表達能力。

2.2 改進的細粒度特征提取網(wǎng)絡

文獻[9]指出,逐層提取的網(wǎng)絡結構在特征采集過程中對多尺度特征信息利用率不足。在Res2Net[10中,每個殘差塊內增加了更多的分層殘差連接,以更細粒度的方式表示特征,使網(wǎng)絡具備更強的多尺度特征提取能力。

多尺度提取方式在更細粒度的層次上提高了特征表達能力,同時增大了可用感受野,應用于骨干網(wǎng)絡中,可加強P2大尺度特征層的信息利用。網(wǎng)絡的輸出計算如式(6),首先通過1×1卷積將特征映射成s個特征塊,用xi表示,每個特征塊的大小為1/s,每個xi會經(jīng)過相應的3×3卷積層,由Ki表示,最后yi輸出融合xi后的特征圖。

將重構后的特征提取為網(wǎng)絡與多尺度特征融合的結構集成,有利于網(wǎng)絡提取全局和局部信息,從而達到對小目標特征有效利用的目的。

2.3 改進的空間金字塔注意力池化網(wǎng)絡

目前主流的目標檢測網(wǎng)絡通常會在特征提取網(wǎng)絡與特征融合網(wǎng)絡之間應用空間金字塔池化模塊,以增大感受野,如SPP(spatial pyramid poding), SPPCSPC(spatial pyramid pooling amp; cross stage partial Network plus convBNSiLU)[11等。空間金字塔結構可以增強梯度表現(xiàn),實現(xiàn)多尺度特征的融合,但是缺乏對復雜背景下的重要通道信息的有效利用。因此,為了有效提取多尺度特征,提出了SPAP(spatial pyramidal attention pooling)模塊。如圖4所示,在空間金字塔結構處建立了串行的路徑連接模式,對特征圖使用3個串行的5×5最大池化捕捉更多的特征表示和結構化信息,以增強全局信息和結構信息之間的聯(lián)系。然后將3個輸出特征進行連接,輸入到注意力網(wǎng)絡組成注意力圖,最后通過卷積和連接操作輸出最后的張量。通過空間金字塔注意力網(wǎng)絡可以增強特征表示,也能匯集不同的尺度特征。為了減少計算成本,替換使用4×4的分組卷積結構,以減少網(wǎng)絡計算量。

3 實驗分析

3.1 數(shù)據(jù)集處理與訓練環(huán)境

實驗圖像數(shù)據(jù)集來自開源的CrowdHuman Dataset[12,本實驗將數(shù)據(jù)集進行預處理,去除頭部標注,保留數(shù)據(jù)集中行人的全身標注框。將初始數(shù)據(jù)集進行數(shù)據(jù)清洗,將剩下的數(shù)據(jù)集隨機劃分為訓練集13500張、驗證集1500張和測試集4000張。

具體測試環(huán)境:PyTorch版本為1.8.1;訓練環(huán)境:GPU為NVIDIA GeForce RTX 3060,顯存為12G,CUDA版本為11.1。

采用平均精度均值(mean average precision, mAP) 、模型檢測幀數(shù)(FPS)、參數(shù)量(Params)及計算量(floating-point operations, FLOPs)等指標對模型進行評估。

3.2 評估實驗

為驗證所提出的改進算法在密集人群檢測任務中的有效性,設置3個消融實驗和1個對比實驗。第1個實驗驗證在添加P2特征層之后的改進效果受益于P2特征層的高像素信息,保留了更豐富的小目標特征信息,使更多的錨點和目標框相互匹配。第2個實驗驗證使用了CA注意力機制構建的骨干網(wǎng)絡性能,增強了重要通道和空間定位的學習。第3個實驗驗證增強了特征提取網(wǎng)絡的性能。第4個實驗對比了添加SPAP模塊后的最終算法與當前主流算法在遮擋行人檢測任務中的表現(xiàn)性能,證明了提出算法的有效性。

訓練前采用聚類算法和遺傳進化算法計算合適的先驗框大小。對數(shù)據(jù)集進行多個尺度的先驗框(anchor)優(yōu)化,先驗框參數(shù)見表1,可得到12個anchor尺寸。

實驗1 對YOLOv5算法模型和YOLOv5-P2算法模型進行對比實驗。其中YOLOv5-P2實驗為融合淺層特征后數(shù)據(jù)集上的測試效果, 對比結果見表2。從mAP的對比數(shù)據(jù)可知,添加淺層特征層的網(wǎng)絡的mAP從81.8%提升到83.3%, 比原算法提升了1.5%。分析原因為初始算法對小目標的精度較差, 導致mAP值較低,改進算法重用高像素的P2特征層保留了更豐富的小物體特征信息并得益于K-means++算法, 讓更多的anchor和目標框相互匹配, 有助于損失函數(shù)更快地收斂。同時,擴展的特征圖分辨率較大導致了檢測時間的增加, 與初始模型相比,推理速度降低了11%, 從62FPS降低到55FPS。

實驗2 為進一步加強多尺度特征的表達能力,本文引入CA注意力機制,捕獲多通道和空間位置的信息,以增強網(wǎng)絡的特征表達能力。本實驗引入CA模塊后進行性能測試,在Backbone,Neck和Head的不同位置進行對比,并命名為YOLOv5-P2-BCA,YOLOv5-P2-NCA和YOLOv5-P2-HCA,驗證算法設計結構的合理性,實驗結果見表3。觀察mAP可知,相比于YOLOv5-P2結構P/%,使用YOLOv5-P2-NCA的mAP提升了0.8%,而參數(shù)量和計算量保持不變。

實驗3 在YOLOv5-P2-NCA的基礎上,將Res2Net Block重構骨干網(wǎng)絡,并與YOLOv5-P2-NCA算法進行對比,結果見表4。從表4中數(shù)據(jù)可知,YOLOv5-P2-NCA-Res2結構的平均檢測精度達到了84.5%,進一步提高了模型的檢測效果。

實驗4 在實驗3所提算法中加入SPAP模塊,并將最終算法命名為YOLOv5-SA。如表5所見,在實驗中測試本文算法與目前主流算法在行人檢測任務中的性能表現(xiàn)對比,各算法劃分數(shù)據(jù)一致。實驗表明,改進算法在遮擋行人檢測中可達到85.6%的檢測精度,對小目標的識別率更高。相比于初始YOLOv5算法提高了3.8%的mAP精度,增加了10.8%的參數(shù)量。相比于YOLOv3-SPP算法,雖然精度相當,但是計算量和參數(shù)量遠大于本算法,不適合設備部署。經(jīng)過多次驗證,YOLOv5-SA算法檢測精度較高,并可以達到51FPS。對比其他算法模型,該算法兼顧性能和速度,是一種可行的小目標行人檢測算法。

3.3 可視化檢測結果

從測試集中隨機選取不同場景下的小目標行人圖片與原YOLOv5算法進行對比,改進前后的對比結果如圖5所示。在圖像視野面積大、人員目標體積較小的情況下,改進后的算法能夠較好地檢測出小尺寸行人目標,在準確率和精度方面具有優(yōu)異表現(xiàn),提高了小目標的檢測精度。

4 結論與展望

本文提出改進的YOLOv5-SA算法用于小目標與密集行人檢測。為改善小目標行人檢測效果差、尺度變化大的問題,改進原YOLOv5算法的多尺度融合方式,并引入坐標注意力機制增強行人目標的特征提取能力和定位能力,以提高檢測精度。針對原網(wǎng)絡細粒度特征提取能力較弱的問題,采用Res2Net重構骨干網(wǎng)絡,以充分利用淺層豐富的特征信息,強化特征信息的提取能力。改進特征金字塔結構,加入SPAP模塊融合圖像的局部和全局特征,有效擴大感受野,在減少網(wǎng)絡參數(shù)的同時增強了上下文信息的表達。在CrowdHuman數(shù)據(jù)集上的實驗證明,本算法提高了多目標行人的檢測精度,并能兼顧實時檢測效果,可以應用于密集目標行人的檢測任務。未來將進一步優(yōu)化網(wǎng)絡結構以減少參數(shù)量,并提升在多個真實場景下的多角度檢測精度,最終完成特定設備部署。

參考文獻:

[1]LIU S,GENG Y,SONG Y. Research on small target pedestrian detection algorithm based on improved YOLOv3[C]∥International Conference on Genetic and Evolutionary Computing. Lille: IEEE, 2021:203-214.

[2]GIRSHICK R,DONAHUE J,DARRELL T. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014:580-587.

[3]GIRSHICK R. Faster R-CNN: Towards real-time object detection with region proposal networks[C]∥Proceedings of The IEEE International Conference on Computer Vision. Boston: IEEE, 2015:1440-1448.

[4]REDMON J,DIVVALA S,GIRSHICK R. You only look once: Unified, real-time object detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016:779-788.

[5]REDMON J,F(xiàn)ARHADI A. YOLOv3: An incremental improvement[J]. arXiv preprint arXiv: 1804. 02767, 2018.

[6]于波,劉暢. 基于改進SSD算法的行人檢測方法[J]. 電子測量技術, 2021,44(12):24-28.

[7]化嫣然,張卓,龍賽,等. 基于改進YOLO算法的遙感圖像目標檢測[J]. 電子測量技術, 2020,43(24):87-92.

[8]HOU Q,ZHOU D,F(xiàn)ENG J.Coordinate attention for efficient mobile network design[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021:13713-13722.

[9]LIU S,QI L,QIN H. Path aggregation network for instance segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018:8759-8768.

[10]GAO S H,CHENG M M,ZHAO K. Res2Net: A new multi-scale backbone architecture[J]. PAMI, 2019,43(2):652-662.

[11]WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2022:7464-7475.

[12]SHAO S,ZHAO Z,LI B,et al. CrowdHuman: A benchmark for detecting human in a crowd[J]. arXiv preprint arXiv: 1805.00123, 2018.

主站蜘蛛池模板: 欧美一级高清免费a| 国产99视频免费精品是看6| 国产精品私拍99pans大尺度| 在线无码九区| 国产精品私拍在线爆乳| 国产va在线| 全部免费特黄特色大片视频| 91精品视频在线播放| 五月天香蕉视频国产亚| 中文字幕不卡免费高清视频| www.日韩三级| 日韩高清一区 | 免费av一区二区三区在线| 成年人福利视频| 国产在线一二三区| 天天色综网| 精品1区2区3区| 国产超碰一区二区三区| 在线观看精品国产入口| 久久频这里精品99香蕉久网址| 亚洲综合九九| 91精品视频播放| 亚洲国产日韩视频观看| 久操线在视频在线观看| 国产精品一区二区不卡的视频| 亚洲精品午夜天堂网页| 国产理论精品| 91成人免费观看| 波多野结衣视频网站| 国产午夜福利在线小视频| 沈阳少妇高潮在线| 91久久偷偷做嫩草影院电| 国产美女免费网站| 国模极品一区二区三区| 91午夜福利在线观看精品| 欧美国产精品不卡在线观看| 国产成人精品免费av| 国产AV毛片| 欧美成人精品在线| 日本成人精品视频| 国产精品白浆在线播放| 国内a级毛片| 国产精品三级专区| 99热亚洲精品6码| 嫩草影院在线观看精品视频| 九色91在线视频| 18禁影院亚洲专区| 精品黑人一区二区三区| 国产激情影院| 亚洲国产精品一区二区第一页免| 麻豆国产精品视频| 这里只有精品免费视频| 亚洲欧洲自拍拍偷午夜色| 99久久精品国产精品亚洲| 国产免费看久久久| 国产精品手机在线观看你懂的| 欧美综合中文字幕久久| 亚洲天堂视频网站| 热久久这里是精品6免费观看| av在线无码浏览| 精品伊人久久久大香线蕉欧美| 色屁屁一区二区三区视频国产| 国产女人喷水视频| 国产成人久久777777| 夜夜高潮夜夜爽国产伦精品| 草草影院国产第一页| 国产高颜值露脸在线观看| 久久国产精品波多野结衣| 国产一级妓女av网站| 91在线无码精品秘九色APP| 亚洲第一区在线| 国产精品视频第一专区| 91黄视频在线观看| 欧美日韩va| 免费观看亚洲人成网站| 亚洲国模精品一区| 国产欧美日韩专区发布| 国产综合另类小说色区色噜噜| 天天综合网站| 中文无码毛片又爽又刺激| 欧美天堂在线| 无码综合天天久久综合网|