999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer改進的YOLOv5+DeepSORT的車輛跟蹤算法※

2024-12-31 00:00:00何水龍張靖佳張林俊莫德赟
汽車技術(shù) 2024年7期
關(guān)鍵詞:特征檢測模型

【摘要】針對傳統(tǒng)目標(biāo)檢測跟蹤算法檢測精度低、全局感知能力差、對遮擋和小目標(biāo)物體的識別能力差等問題,提出了一種基于輕量化Transformer改進的YOLOv5和DeepSORT算法的車輛跟蹤方法。首先,利用EfficientFormerV2模型改進YOLOv5算法模型,增強車輛的目標(biāo)檢測能力;然后,利用移位窗口(Swin)模型的優(yōu)點改進DeepSORT多目標(biāo)跟蹤算法中的重識別(Re-Identification)模塊,提高車輛的跟蹤能力和精度;最后,通過數(shù)據(jù)集KITTI和VeRi開展對比試驗和消融實驗。結(jié)果表明,在復(fù)雜工況下,該方法的性能在車輛遮擋和小目標(biāo)識別方面顯著提高,平均準(zhǔn)確度達到96.7%,目標(biāo)跟蹤準(zhǔn)確度提高了9.547%,編號(ID)切換總次數(shù)減少了26.4%。

主題詞:YOLOv5 車輛檢測 DeepSORT Transformer

中圖分類號:TP391.41;U463.6 " 文獻標(biāo)志碼:A " DOI: 10.19620/j.cnki.1000-3703.20231097

Vehicle Tracking Algorithm Based on Transformer’s Improved YOLOv5+DeepSORT

He Shuilong1,2, Zhang Jingjia1, Zhang Linjun1, Mo Deyun2

(1. Guilin University of Electronic Technology, Guilin 541004; 2. Guilin University of Aerospace Technology,

Guilin 541004)

【Abstract】In order to solve the shortcomings of traditional object detection and tracking algorithms, such as low detection accuracy, poor global perception ability, poor recognition ability of occlusion and small target objects, this paper proposed a vehicle tracking method based on YOLOv5 and DeepSORT algorithm improved by lightweight Transformer. Firstly, the EfficientFormerV2 model was used to improve the YOLOv5 algorithm model to enhance the target detection ability of the vehicle, and then the advantages of the Swin model were used to improve the Re-Identification module in the DeepSORT multi-target tracking algorithm to enhance the tracking ability and accuracy of the vehicle. Finally, the dataset KITTI and VeRi were used to carry out comparative experiments and ablation experiments. The results show that under complex conditions, the performance of the proposed method is significantly improved in vehicle occlusion and small target recognition, with an average accuracy of 96.7%, an increase of 9.547% in target tracking, and a reduction of 26.4% in the total number of ID switching.

Key words: YOLOv5, Vehicle detection, DeepSORT, Transformer

【引用格式】 何水龍, 張靖佳, 張林俊, 等. 基于Transformer改進的YOLOv5+DeepSORT的車輛跟蹤算法[J]. 汽車技術(shù), 2024(7): 9-16.

HE S L, ZHANG J J, ZHANG L J, et al. Vehicle Tracking Algorithm Based on Transformer’s Improved YOLOv5+DeepSORT[J]. Automobile Technology, 2024(7): 9-16.

1 前言

目標(biāo)識別和跟蹤技術(shù)是提高高級輔助駕駛系統(tǒng)安全性能的核心手段之一,其通過實時識別并跟蹤車輛、行人和道路標(biāo)志等目標(biāo),幫助車輛感知周圍交通狀況,減少交通事故。

近年來,深度學(xué)習(xí)在目標(biāo)檢測領(lǐng)域不斷發(fā)展。2017年,He等[1]提出了掩膜循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Mask Recycle Convolutional Neural Network,Mask R-CNN)算法,有效解決了原圖與特征圖的特征位置不匹配的問題。2018年,Redmon等[2]在改進基礎(chǔ)網(wǎng)絡(luò)的同時,結(jié)合金字塔結(jié)構(gòu),提出了YOLOv3[3]算法,獲取了更多小目標(biāo)的有效信息。2019年,Zhao等[4]針對目標(biāo)尺度變化的問題,提出了M2Det算法。2020年后,基于YOLOv3改進的YOLOv4[5]和YOLOv5[6]模型在保持運行效率優(yōu)勢的基礎(chǔ)上提高了檢測與識別的準(zhǔn)確率。然而,這些方法在某些方面仍然存在一定的局限性,如:Mask R-CNN在實現(xiàn)上比快速循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Faster Recycle Convolutional Neural Network,F(xiàn)aster R-CNN)[7]復(fù)雜,需要更多的計算資源,且使用了類似于Faster R-CNN的兩階段目標(biāo)檢測方法,檢測速度相對較慢;YOLO系列模型在處理小目標(biāo)和遮擋目標(biāo)時仍存在挑戰(zhàn);M2Det算法需要處理多個尺度的特征金字塔,故其在實時性上并不理想。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,多目標(biāo)跟蹤算法也不斷改進。Yu等[8]提出了一個兩階段算法,先使用Faster R-CNN進行目標(biāo)檢測,再利用匈牙利算法對由GoogleNet[9]提取的特征進行關(guān)聯(lián),從而實現(xiàn)目標(biāo)跟蹤。Xie等[10]利用基于YOLOv3的檢測器捕捉目標(biāo),并使用DeepSORT(Deep learning based Simple Online and Realtime Tracking)算法實現(xiàn)軌跡關(guān)聯(lián)。然而,兩階段算法需要兩個密集計算網(wǎng)絡(luò),存在跟蹤效率低的問題。因此,諸多研究者轉(zhuǎn)向基于重識別(Re-IDentification,Re-ID)技術(shù)的多目標(biāo)跟蹤算法研究,提高多目標(biāo)跟蹤效率。Wang等[11]率先提出了一種聯(lián)合模型,通過改進YOLOv3檢測模型,一次性解決目標(biāo)檢測和Re-ID特征提取,在行人數(shù)據(jù)集上實現(xiàn)了較高水平的跟蹤效率。Zhang等[12]提出了FairMOT算法,使用深層特征融合網(wǎng)絡(luò)進行特征提取,從而提高了跟蹤性能。但上述算法所使用的骨干網(wǎng)絡(luò)都是由檢測器網(wǎng)絡(luò)改造而來,在學(xué)習(xí)Re-ID特征上存在缺陷。

為進一步提升目標(biāo)跟蹤算法精度、效率和跟蹤能力,本文提出一種基于輕量化Transformer改進的YOLOv5和DeepSORT的車輛跟蹤方法,彌補YOLO系列對于小目標(biāo)和遮擋物的檢測能力不足以及DeepSORT中Re-ID模塊泛化能力弱的缺點。

2 目標(biāo)檢測算法

2.1 YOLOv5算法模型

YOLOv5是一種基于深度殘差和路徑聚合網(wǎng)絡(luò)的目標(biāo)檢測算法,其骨干網(wǎng)絡(luò)基于CSPDarknet53[13],結(jié)合特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)[14]和空間金字塔池化(Spatial Pyramid Pooling,SPP)[15]技術(shù),提升了小目標(biāo)檢測精度。在COCO數(shù)據(jù)集[16]上,YOLOv5的平均精度均值(mean Average Precision,mAP)表現(xiàn)優(yōu)異[17-18],超越了當(dāng)時的最先進水平。

2.2 YOLOv5算法改進

YOLOv5采用CSPDarknet53對輸入數(shù)據(jù)進行劃分,通過拆分路由(Split Route)模塊分為兩個部分,然后用跨階段部分(Cross Stage Partial,CSP)模塊連接,再通過一個大卷積層將特征融合,從而得到骨干網(wǎng)絡(luò)輸出的特征圖。這種操作能夠很好地處理圖像的局部特征。然而,由于YOLOv5采用無錨點(Anchor-Free)方式,在單個目標(biāo)的檢測方面存在缺陷。如在小目標(biāo)物體檢測和物體被遮擋的情況下,存在檢測漏報和誤報的情況。針對這種情況,本文提出一種改進YOLOv5目標(biāo)檢測模型,如圖1所示。該模型在保證網(wǎng)絡(luò)正常檢測較大目標(biāo)的同時,提高對小目標(biāo)特征信息的感知能力和全局感知能力,以提高遮擋物體的識別率和泛化能力,滿足實時性和提高檢測精度的要求,采用最新的輕量化Transformer模型EfficientFormerV2[19]對YOLOv5的骨干網(wǎng)絡(luò)進行改進。EfficientFormerV2使用全局自注意力機制,在處理道路交通領(lǐng)域的車輛目標(biāo)檢測任務(wù)時,特別是在存在大量背景干擾的情況下,能夠有效地分割不同區(qū)域?qū)?yīng)的目標(biāo)對象,達到更好的檢測效果。采用快速空間金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)模塊連接EfficientFormerV2模塊,在不同尺度的特征圖中劃分多個子區(qū)域,并利用最大池化對每個子區(qū)域進行處理。最終將所有尺度的池化結(jié)果拼接成一個固定長度的特征向量,解決不同尺度特征圖的融合問題,在處理車輛遮擋和全局感知方面可獲得更好的效果。

2.3 EfficientFormerV2網(wǎng)絡(luò)模型

EfficientFormerV2是Detransformer模型的改進版,基于Transformer的自注意力機制,能有效處理對象關(guān)系與局部圖像信息,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。本文選用其輕量化版本EfficientFormerV2-S2,參數(shù)量僅10.3×106個,適用于邊緣計算處理器部署。

EfficientFormerV2采用了四階段分層設(shè)計,可以獲得輸入圖像分辨率在{1/4,1/8,1/16,1/32}處的特征圖。為更高效地嵌入輸入圖像,EfficientFormerV2使用了小內(nèi)核卷積,而不是非重疊補丁(Patch)的方式,從而提高了計算性能和模型泛化能力。該設(shè)計使得EfficientFormerV2在圖像分類和目標(biāo)檢測等任務(wù)中都獲得了極佳的性能表現(xiàn)。計算過程為:

[XB,Cj|j=1,H4,W4i|i=1,j|j=1=stemχB,3,H,W0] (1)

式中:Xi,j表示第i層第j階段的特征圖,j∈{1,2,3,4},B為批大小,Cj為第j階段通道大小(表示網(wǎng)絡(luò)寬度),H、W分別為特征圖的高度和寬度,χ0為輸入圖像,stem為卷積下采樣操作。

第一階段和第二階段的設(shè)計旨在以高分辨率捕獲局部信息,采用了相同的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)FN)來處理每層特征圖,如圖3所示。這種設(shè)計使得EfficientFormerV2能夠在局部區(qū)域獲取更多的細節(jié)信息,有助于實現(xiàn)更準(zhǔn)確的目標(biāo)檢測和圖像分類:

[XB,Cj,-H2j+1,W2j+1i+1,j=Si,j?FFNCj,Ei,jXi,j+Xi,j] (2)

式中:Si,j為一種可學(xué)習(xí)的層間尺度;FFN含有兩種屬性,即階段寬度Cj和每塊擴展比Ei,j。

需要注意的是,每個FFN都采用了殘差連接(Residual Connection)。在模型的最后兩個階段,本地FFN和全局多頭自注意力(Multi-Head Self-Attention,MHSA)塊均被使用。

本文將4個FFN模塊封裝在一個時序(Sequential)容器中,可方便地對它們進行堆疊和復(fù)用,避免手動重復(fù)編碼。此外,在第2層、第4層、第6層的時序容器與批標(biāo)準(zhǔn)化(Batch Normalization)結(jié)合使用。其中,時序容器對輸入的序列進行局部特征提取和非線性變換,而批歸一化則可以對每個時序容器模塊的輸出進行標(biāo)準(zhǔn)化處理,減少數(shù)據(jù)內(nèi)部協(xié)方差的影響,從而加速模型收斂并降低過擬合風(fēng)險。EfficientFormerV2模塊的輸出特征向量被傳遞給SPPF模塊和下游的其他卷積層。SPPF模塊通過網(wǎng)絡(luò)池化操作生成固定長度的特征向量,用于下游任務(wù)。

3 目標(biāo)跟蹤算法

3.1 DeepSORT算法

簡單在線實時跟蹤(Simple Online and Realtime Tracking,SORT)[20]利用卡爾曼濾波器預(yù)測目標(biāo)運動,通過交并比(Intersection Over Union,IOU)評估預(yù)測邊界框與檢測邊界框的相似度,并應(yīng)用匈牙利算法關(guān)聯(lián)數(shù)據(jù),實現(xiàn)實時跟蹤。DeepSORT在SORT基礎(chǔ)上引入深度學(xué)習(xí)網(wǎng)絡(luò)提取目標(biāo)特征,采用級聯(lián)匹配技術(shù)解決目標(biāo)重疊或遮擋時的編號(ID)切換問題。該算法結(jié)合運動與外觀特征計算代價矩陣,匹配檢測結(jié)果,將未匹配的目標(biāo)視為新目標(biāo),分配新ID。級聯(lián)匹配技術(shù)根據(jù)目標(biāo)丟失次數(shù)和軌跡活躍程度對目標(biāo)進行優(yōu)先排序,有效減少了ID切換次數(shù)。

3.2 DeepSORT算法改進

目標(biāo)特征提取的主要目的是獲得目標(biāo)的唯一標(biāo)識特征,以便對其在不同位置或姿態(tài)下進行重新識別,從而實現(xiàn)目標(biāo)跟蹤。在DeepSORT算法中,特征提取的主要算法是基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的ResNet-50[21],用以對目標(biāo)圖像區(qū)域進行卷積特征提取。對于每個檢測目標(biāo),先裁剪其位置,再經(jīng)CNN提取卷積特征,通過全連接層降維得到特征向量。該向量反映目標(biāo)視覺與外觀信息,魯棒性強,不受位置和姿態(tài)變化的影響。ResNet-50在ImageNet上進行了大規(guī)模預(yù)訓(xùn)練,故提取的特征向量更準(zhǔn)確且區(qū)分力更強。

不過,ResNet-50也存在一定不足:首先,ResNet-50具有非常深的網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致訓(xùn)練和推理速度較慢,尤其是在高分辨率圖像上;其次,ResNet-50的感受野較大,當(dāng)目標(biāo)物體較小時,容易忽略一些關(guān)鍵信息,導(dǎo)致檢測失敗;最后,由于ResNet-50相對于一些輕量級神經(jīng)網(wǎng)絡(luò)而言體積更大,需要更多的存儲和計算資源。為解決這些問題,本文對DeepSORT中的重識別模塊進行了改進,將ResNet-50主干網(wǎng)絡(luò)換成基于Transformer架構(gòu)的移位窗口(Shifted windows,Swin)[22],如圖4所示。Swin憑借分布式訓(xùn)練、跨群組部署及計算與存儲分離等優(yōu)勢,可實現(xiàn)快速訓(xùn)練和推理,并展現(xiàn)出較強的可擴展性。其分級特征提取與多重注意力機制使得小目標(biāo)檢測敏感度超越了ResNet-50。計算注意力機制相似度時,在每個頭(Head)中加入相對位置偏置[B∈RM2×M2]:

[Atention Q,K,V=SoftMax QKT/d+BV] " " "(3)

式中:[Q,K,V∈RM2,d]分別為查詢(Query)矩陣、鍵(Key)矩陣和價值(Value)矩陣,d為查詢矩陣、鍵矩陣的維度,M2為局部窗口內(nèi)的補丁數(shù)量。

此外,該算法還提出了橫向和縱向的多重特征信息響應(yīng),這種分層設(shè)計的思路不僅方便根據(jù)任務(wù)調(diào)整網(wǎng)絡(luò)深度,而且可以有效避免梯度消失等問題。

4 試驗結(jié)果

本文采用僅有27 MB的輕量化YOLOv5s模型,兼顧精度、速度與成本,提升算法運行性能。

4.1 試驗配置

本文試驗采用開源的PyTorch深度學(xué)習(xí)框架。CPU使用第12代Intel Core i7-12700H,主頻為4.70 GHz;采用Ubuntu20.04 LTS操作系統(tǒng),其中包含Python 3.8和CUDA 12.0;圖形處理器使用GeForce GTX 3060,顯存容量為6 GB。

為適配KITTI數(shù)據(jù)集,本文對YOLOv5進行了重新訓(xùn)練,優(yōu)化了訓(xùn)練參數(shù)與批大小(Batch Size),如表1所示,并利用文獻[19]開源的權(quán)重加速收斂。

4.2 數(shù)據(jù)集

采用KITTI數(shù)據(jù)集[23]對模型進行測試和評估,KITTI數(shù)據(jù)集作為自動駕駛與計算機視覺評估的核心基準(zhǔn),包含多序列多視角圖像數(shù)據(jù)。針對其與YOLOv5模型的不兼容性,本研究進行了預(yù)處理:數(shù)據(jù)被細分為六類目標(biāo),格式轉(zhuǎn)為xml,并適配為YOLOv5訓(xùn)練標(biāo)簽,從而推進其在該模型中的有效應(yīng)用。

VeRi車輛重識別數(shù)據(jù)集[24]是用于研究車輛重識別的公共數(shù)據(jù)集之一。該數(shù)據(jù)集涵蓋20種攝像機視角下的視頻及576輛車共計37 778張圖像,展現(xiàn)多視角、多樣圖像質(zhì)量(含模糊、噪聲),及車輛局部細節(jié)(如車牌、車燈),適用于車輛重識別訓(xùn)練與算法性能評估。

4.3 改進YOLOv5試驗結(jié)果和分析

4.3.1 定量分析

圖5所示為改進YOLOv5算法的對比試驗結(jié)果。可以看出,改進算法在IOU閾值為0.5時的mAP明顯提高,從95.6%提升至96.7%,說明了本文的方法能夠有效提高對車輛目標(biāo)的檢測能力。

4.3.2 定性分析

算法定性試驗結(jié)果如圖6所示,改進前的算法明顯未能識別右下角的紅色汽車,而改進后的算法成功地識別了該車輛。試驗結(jié)果表明,改進后的YOLOv5具備更強的全局感知能力,對于車輛目標(biāo)跟蹤具有更好的泛化性能。

算法對遮擋物體的識別效果如圖7所示。圖7中,道路右側(cè)前方的黑色轎車擋住了行人。改進前的算法無法識別被遮擋行人,而改進后的算法則能夠正確識別。因此,改進后的YOLOv5在物體遮擋識別方面表現(xiàn)出色。

為了驗證改進后算法的小目標(biāo)檢測效果,進行了相關(guān)試驗,結(jié)果如圖8所示,由于YOLOv5對于識別小目標(biāo)準(zhǔn)確度比較低,并未識別到小目標(biāo)行人,而改進算法成功識別到目標(biāo)。試驗對比結(jié)果表明,改進算法對于小目標(biāo)的檢測能力顯著提高。

4.3.3 改進前、后性能對比

KITTI數(shù)據(jù)集每個目標(biāo)的標(biāo)注行都包含了截斷(Truncated)字段,表示相應(yīng)物體在圖像中是否被邊界框截斷,其取值通常在0~1范圍內(nèi),表示目標(biāo)相對于實際規(guī)模的截斷程度。這個信息對于理解物體在圖像中的完整性和全局性非常重要,尤其是在自動駕駛場景下。

試驗計算了整個數(shù)據(jù)集中不同截斷程度下的目標(biāo)數(shù)量,為4 631個,并分成了多個段位,如圖9所示。通過計算改進前、后算法中數(shù)據(jù)集內(nèi)不同截斷程度的目標(biāo)識別成功數(shù)量,進而形成了改進前、后的效果對比。可以看出,截斷程度越大,識別成功率越低,但改進算法成功識別的數(shù)量明顯比原算法更多,充分說明改進算法在全局感知能力上有較好的提升效果。

遮擋(Occluded)屬性通常表示物體被其他物體遮擋的程度,在KITTI標(biāo)注中,該屬性的值為整數(shù)。取值包括:0表示物體沒有被遮擋,即物體在圖像中是完全可見的;1表示物體被部分遮擋;2表示物體被大部分遮擋,但仍然可見;3表示物體被完全遮擋,即物體在圖像中不可見。

根據(jù)數(shù)據(jù)集的標(biāo)注屬性統(tǒng)計了不同遮擋程度的目標(biāo)總數(shù),如圖10所示。從試驗統(tǒng)計結(jié)果可以看出,改進算法的識別成功數(shù)量明顯比原算法的數(shù)量多,特別是在大部分遮擋的情況下,改進算法比原算法識別成功率高12.8%。

根據(jù)COCO數(shù)據(jù)集對于小目標(biāo)的定義,本文采用相同策略,將32×32以下像素點的目標(biāo)定義為小目標(biāo),符合小目標(biāo)要求的總數(shù)量為6 756個。

通過試驗結(jié)果可以看出,原算法的小目標(biāo)識別率為84.9%,改進算法的識別率為92.82%,如圖11所示,可以看出,改進算法在識別小目標(biāo)上有明顯優(yōu)勢。

根據(jù)試驗結(jié)果可知,相較于原算法,改進后的YOLOv5算法改善了全局感知能力,提高了遮擋物的檢測和小目標(biāo)的識別效果,同時提升了目標(biāo)檢測的準(zhǔn)確率。

4.4 改進DeepSORT試驗結(jié)果和分析

針對重識別模塊的模型對比試驗,本文使用了基于開源代碼DeepSORT的重識別模型。由于DeepSORT模型中默認使用ResNet-50作為網(wǎng)絡(luò)模型,將其替換為Swin Transformer,并保持初始化參數(shù)相同,試驗結(jié)果如表2所示。可見,改進模型的平均精度提升了8.13%,Rank-1精度(Rank-1 Accuracy)提升了3.35%。說明Transformer模型增強了傳統(tǒng)CNN模型的多尺度特征融合能力,能夠更好地提取多尺度特征,從而提高識別的準(zhǔn)確率。

上述結(jié)果說明了算法模型改進的有效性。本文將改進后的算法應(yīng)用于YOLOv5s+DeepSORT,并與原算法進行對比,高階跟蹤精度(Higher Order Tracking Accuracy,HOTA)、檢測精確度(Detection Accuracy,DetA)、關(guān)聯(lián)精確度(Association Accuracy,AssA)、檢測精度(Detection Precision,DetPr)、關(guān)聯(lián)召回(Association Recall,AssRe)、關(guān)聯(lián)精度(Association Precision,AssPr)、定位精度(Localization Accuracy,LocA)結(jié)果如圖12所示。其中,α為權(quán)衡因子,用于平衡定位(LocA)、關(guān)聯(lián)(AssA、AssRe、AssPr)和檢測(DetA、DetPr)之間的關(guān)系,α越大,表示更重視關(guān)聯(lián)和檢測的性能,α越小,表示更側(cè)重于定位的精度。由圖12可知,改進算法在HOTA指標(biāo)上明顯提高,從55%提升至71%,表明將主干網(wǎng)絡(luò)從CNN改變?yōu)門ransformer對于模型性能具有積極影響。

4.5 消融實驗

為了進一步驗證所提出算法的檢測性能,探究各改進方法的有效性,在YOLOv5s+DeepSORT的基礎(chǔ)上設(shè)計了3組消融實驗,每組實驗使用相同的超參數(shù)以及訓(xùn)練技巧,實驗結(jié)果如表3所示。

消融實驗結(jié)果表明,改進后的YOLOv5在識別準(zhǔn)確度方面顯著提升,能夠?qū)⒍嗄繕?biāo)跟蹤準(zhǔn)確度(Multiple Object Tracking Accuracy,MOTA)提升7.968百分點并降低ID變換總次數(shù)。雖然改進后的DeepSORT在精度上有所損失,MOTA降低了1.414百分點,但ID變換總次數(shù)下降了12%,表明改進的重識別能夠有效提取目標(biāo)特征,并具有對姿態(tài)、遮擋和光照等方面的魯棒性。最終改進版比原始版本在目標(biāo)跟蹤準(zhǔn)確度上提高了9.547%,ID切換總次數(shù)減少了26.4%。因此,在DeepSORT中,計算特征之間相似度的準(zhǔn)確度得到了提高,從而導(dǎo)致ID轉(zhuǎn)換頻率的降低。

4.6 跟蹤試驗驗證

本文基于KITTI數(shù)據(jù)集,驗證了改進后目標(biāo)跟蹤算法的有效性,該算法在處理小目標(biāo)和遮擋物體時性能更優(yōu)秀,同時具備更強的全局感知能力。試驗結(jié)果如圖13所示,改進后的算法表現(xiàn)更加出色。

5 結(jié)束語

本文提出了一種基于改進YOLOv5和DeepSORT的車輛檢測及跟蹤算法。使用輕量化網(wǎng)絡(luò)EfficientFormerV2替換了原YOLOv5模型的主干網(wǎng)絡(luò)CSPDarknet53,在減少模型參數(shù)的同時提取到了更多潛在的特征信息,提高了特征的代表性。在跟蹤階段,DeepSORT算法中的重識別網(wǎng)絡(luò)結(jié)構(gòu)也得到了優(yōu)化,通過增加正則化和利用Swin Transformer網(wǎng)絡(luò)模型重新設(shè)計網(wǎng)絡(luò)主干技術(shù),進一步提高了外觀信息提取能力和跟蹤能力。試驗結(jié)果表明,該方法在公共數(shù)據(jù)集上取得了更優(yōu)的檢測和跟蹤效果,目標(biāo)跟蹤準(zhǔn)確度提高了9.547%,ID切換總次數(shù)減少了26.4%。

本文所構(gòu)建的目標(biāo)跟蹤方法除在交通安全和智慧交通等領(lǐng)域具有研究價值外,也可為其他目標(biāo)檢測和跟蹤任務(wù)提供新的思路和方法。但該方法未能實現(xiàn)端到端的目標(biāo)跟蹤,在未來的研究中,可以考慮在輕量化Transformer基礎(chǔ)上實現(xiàn)端到端的跟蹤,以進一步提高跟蹤算法的性能。

參 考 文 獻

[1] HE K, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2961-2969.

[2] TAN M X, LE Q V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[C]// International Conference on Machine Learning. Long Beach, California: PMLR, 2019: 6105-6114.

[3] SHEN L Z, TAO H F, NI Y Z, et al. Improved YOLOv3 Model with Feature Map Cropping for Multi-Scale Road Object Detection[J]. Measurement Science and Technology, 2023, 34(4).

[4] ZHAO Q J, SHENG T, WANG Y T, et al. M2Det: A Single-Shot Object Detector Based on Multi-Level Feature Pyramid Network[C]// Proceedings of the AAAI Conference on Artificial Intelligence. Honolulu, Hawaii, USA: AAAI, 2019: 9259-9266.

[5] YU J M, ZHANG W. Face Mask Wearing Detection Algorithm Based on Improved YOLO-v4[J]. Sensors, 2021, 21(9): 3263.

[6] WU W T, LIU H, LI L L, et al. Application of Local Fully Convolutional Neural Network Combined with YOLO v5 Algorithm in Small Target Detection of Remote Sensing Image[J]. PLoS One, 2021, 16(10).

[7] BHARATI P, PRAMANIK A. Deep Learning Techniques—R-CNN to Mask R-CNN: A Survey[C]// Computational Intelligence in Pattern Recognition. Singapore: Springer, 2020: 657-668.

[8] YU F W, LI W B, LI Q Q, et al. POI: Multiple Object Tracking with High Performance Detection and Appearance Feature[C]// Computer Vision-ECCV 2016 Workshops. Cham, Switzerland: Springer, 2016: 36-42.

[9] YU Z G, DONG Y Y, CHENG J H, et al. Research on Face Recognition Classification Based on Improved GoogleNet[J]. Security and Communication Networks, 2022, 2022.

[10] 謝金龍, 胡勇. 基于深度學(xué)習(xí)的車輛檢測與跟蹤系統(tǒng)[J]. 工業(yè)控制計算機, 2020, 33(7): 99-101.

XIE J L, HU Y. Vehicle Detection and Tracking System Based on Deep Learning[J]. Industrial Control Computer, 2020, 33(7): 99-101.

[11] WANG Z D, ZHENG L, LIU Y X, et al. Towards Real-Time Multi-Object Tracking[C]// European Conference on Computer Vision. Cham, Switzerland: Springer, 2020: 107-122.

[12] CHE J, HE Y T, WU J M. Pedestrian Multiple-Object Tracking Based on FairMOT and Circle Loss[J]. Scientific Reports, 2023, 13(1): 4525.

[13] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: A New Backbone That Can Enhance Learning Capability of CNN[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle, WA, USA: IEEE, 2020: 390-391.

[14] HE K M, ZHANG X Y, REN S Q, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

[15] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-Based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[16] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common Objects in Context[C]// 13th European Conference on Computer Vision. Zurich, Switzerland: Springer International Publishing, 2014: 740-755.

[17] REDMON J, FARHADI A. YOLOv3: An Incremental Improvement[EB/OL]. (2018-04-08)[2024-01-18]. https://arxiv.org/abs/1804.02767.

[18] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[EB/OL]. (2020-04-23)[2024-01-18]. https://arxiv.org/abs/2004.10934.

[19] LI Y Y, HU J, WEN Y, et al. Rethinking Vision Transformers for MobileNet Size and Speed[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE, 2023.

[20] BEWLEY A, GE Z Y, OTT L, et al. Simple Online and Realtime Tracking[C]// 2016 IEEE International Conference on Image Processing (ICIP). Phoenix, AZ, USA: IEEE, 2016: 3464-3468.

[21] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770-778.

[22] LIU Z, LIN Y, CAO Y, et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC, Canada: IEEE, 2021: 10012-10022.

[23] GEIGER A, LENZ P, STILLER C, et al. Vision Meets Robotics: The KITTI Dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.

[24] LIU X C, LIU W, MA H D, et al. Large-Scale Vehicle Re-Identification in Urban Surveillance Videos[C]// 2016 IEEE International Conference on Multimedia and Expo (ICME). Seattle, WA, USA: IEEE, 2016: 1-6.

(責(zé)任編輯 斛 畔)

修改稿收到日期為2024年1月18日。

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产亚洲精品自在久久不卡| 亚洲美女久久| 久久国产乱子伦视频无卡顿| 国产h视频在线观看视频| 国产丝袜一区二区三区视频免下载| 久草视频中文| 精品视频一区在线观看| 国产亚洲精品91| 亚洲va在线观看| 欧美97色| 日韩国产精品无码一区二区三区| 曰AV在线无码| 无码一区二区三区视频在线播放| 亚卅精品无码久久毛片乌克兰| 熟女视频91| 欧美人在线一区二区三区| 欧美高清视频一区二区三区| 亚洲嫩模喷白浆| 波多野结衣在线se| 综合色在线| 2019国产在线| 亚洲综合专区| 免费Aⅴ片在线观看蜜芽Tⅴ | a级毛片视频免费观看| 欧美国产精品不卡在线观看| www亚洲天堂| 国内精品91| 免费午夜无码18禁无码影院| 少妇被粗大的猛烈进出免费视频| A级全黄试看30分钟小视频| 亚洲狼网站狼狼鲁亚洲下载| 潮喷在线无码白浆| 国产成人毛片| 国产成人精品男人的天堂下载 | 美女无遮挡免费网站| 久久中文无码精品| 国产成人无码综合亚洲日韩不卡| 亚洲美女视频一区| 中文成人在线| 国产SUV精品一区二区| 久久精品人妻中文系列| 强奷白丝美女在线观看| 91国内外精品自在线播放| 毛片a级毛片免费观看免下载| 国产精品漂亮美女在线观看| 国产福利一区二区在线观看| 成年A级毛片| av尤物免费在线观看| 国产精品三级av及在线观看| 免费高清a毛片| 午夜国产理论| 欧美精品亚洲二区| 在线精品亚洲一区二区古装| 中文字幕亚洲另类天堂| 色偷偷一区二区三区| 免费aa毛片| 亚洲欧州色色免费AV| a级毛片免费播放| 欧美特黄一级大黄录像| 日韩国产综合精选| 亚洲精品色AV无码看| 欧美a在线视频| 国产综合欧美| 真实国产精品vr专区| 日韩精品少妇无码受不了| 亚洲一区毛片| 国产福利在线观看精品| 久久五月视频| 真实国产乱子伦视频| 亚洲综合香蕉| 成人欧美在线观看| 99视频在线免费| 2022精品国偷自产免费观看| 青青草原国产精品啪啪视频| 久久精品丝袜高跟鞋| 亚洲动漫h| 99re这里只有国产中文精品国产精品 | 国产91视频观看| 日韩欧美高清视频| WWW丫丫国产成人精品| 久久久久中文字幕精品视频| 亚洲美女操|