基于改進(jìn)YOLOv7的紅外行人目標(biāo)檢測方法

2024-12-31 00:00:00李長海

汽車工程師 2024年8期

【摘要】針對紅外行人目標(biāo)檢測過程中，圖像中行人目標(biāo)特征不顯著、小目標(biāo)密集、背景復(fù)雜等因素導(dǎo)致的檢測不全、誤檢率高等問題，提出了一種基于改進(jìn)YOLOv7的紅外行人目標(biāo)檢測算法。首先，以YOLOv7-tiny模型為基礎(chǔ)，采用基于通道注意力機(jī)制的空間金字塔池化（CASPP）模塊替換原始空間金字塔池化（SPP）模塊，使模型更注重行人特征的提取；然后，引入基于Meta-ACON激活函數(shù)的卷積模塊（CBM），進(jìn)一步抑制背景噪聲，保留行人細(xì)節(jié)；最后，提出一種alpha融合數(shù)據(jù)增強(qiáng)方法，以豐富樣本的多樣性，提高模型在復(fù)雜環(huán)境中的穩(wěn)定性。基于FLIR數(shù)據(jù)集的驗(yàn)證結(jié)果表明，與YOLOv7-tiny算法相比，所提出的方法精度提高了3%，計(jì)算量減少了38%，更適用于紅外行人目標(biāo)檢測場景。

關(guān)鍵詞：紅外圖像行人檢測注意力機(jī)制 Meta-ACON YOLOv7

中圖分類號：TP391.4；U46" "文獻(xiàn)標(biāo)志碼：A" "DOI： 10.20104/j.cnki.1674-6546.20240158

Infrared Pedestrian Object Detection Algorithm Based on Improved YOLOv7

Li Changhai

（University of Electronic Science and Technology of China， Chengdu 611731）

【Abstract】To eliminate the defects of incomplete detection and high 1 detection rate caused by insignificant pedestrian target features， dense small targets and complex background in infrared images， this paper proposes an infrared pedestrian target detection algorithm based on improved YOLOv7. Firstly， the original Spatial Pyramid Pooling （SPP） module is replaced by the Channel Attention based Spatial Pyramid Pooling （CASPP） module based on the YOLOv7-tiny model， so that the model could pay more attention to the extraction of pedestrian features; then， the convolution module CBM based on the Meta-ACON activation function is introduced， which further suppressed the background noise and preserved the details of the pedestrians; finally， an alpha fusion data enhancement method is proposed to enrich the diversity of samples and improve the stability of the model in complex environments. The validation based on the FLIR dataset shows that the proposed method improves the accuracy by 3% and reduces the computation by 38% compared with the YOLOv7-tiny algorithm， which is more suitable for infrared pedestrian target detection scenarios.

Key words： Infrared image， Pedestrian detection， Attention mechanism， Meta-ACON， YOLOv7

【引用格式】李長海. 基于改進(jìn)YOLOv7的紅外行人目標(biāo)檢測方法[J]. 汽車工程師， 2024（8）： 15-21.

LI C H. Infrared Pedestrian Object Detection Algorithm Based on Improved YOLOv7[J]. Automotive Engineer， 2024（8）： 15-21.

1 前言

在高級駕駛輔助系統(tǒng)（Advanced Driving Assistance System，ADAS）、無人駕駛系統(tǒng)中，實(shí)時(shí)準(zhǔn)確地檢測行人的位置至關(guān)重要，紅外目標(biāo)檢測技術(shù)在這類系統(tǒng)中具有巨大應(yīng)用價(jià)值。

近年來，為提高紅外行人目標(biāo)檢測性能，研究人員提出了許多代表性的算法和模型。傳統(tǒng)方法[1-4]提取的特征泛化能力不足，無法在復(fù)雜的外部環(huán)境下保持穩(wěn)定性。得益于海量數(shù)據(jù)集的建立，基于深度學(xué)習(xí)的方法得到了廣泛應(yīng)用。目前，基于深度學(xué)習(xí)的紅外行人檢測方法主要分為單階段方法和兩階段方法。兩階段方法通常采用更快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Faster Region Convolutional Neural Network，F(xiàn)aster R-CNN）[5]范式，需要先用區(qū)域候選網(wǎng)絡(luò)（Region Proposal Network，RPN）生成候選框。如胡均平等[6]為提取更抽象的目標(biāo)特征，采用ResNet-50[7]作為Faster R-CNN的骨干網(wǎng)絡(luò)，并統(tǒng)計(jì)標(biāo)注的行人框的縱橫比來改善生成的候選框。這類方法在生成的粗略候選框基礎(chǔ)上進(jìn)一步精細(xì)調(diào)整，通常難以在推理速度和準(zhǔn)確率上保持平衡，不適合部署在車載設(shè)備中。單階段方法主要基于YOLO（You Only Look Once）[8-9]系列算法的思想，采用預(yù)先定義的候選框，而不是在網(wǎng)絡(luò)中生成，從而縮短了模型推理時(shí)間。劉怡帆等[10]改進(jìn)了YOLOv4網(wǎng)絡(luò)模型，并對輸入圖像進(jìn)行對比度受限的自適應(yīng)直方圖均衡化（Contrast Limited Adaptive Histogram Equalization，CLAHE）預(yù)處理，以增強(qiáng)行人特征。史健婷等[11]在YOLOv4基礎(chǔ)上將骨干網(wǎng)絡(luò)替換為更輕量的GhostNet[12]網(wǎng)絡(luò)，提高了檢測速度。王曉紅等[13]、李陽等[14]對YOLOv5模型進(jìn)行了改進(jìn)，提高了準(zhǔn)確率。上述方法雖然取得了一定的檢測性能提升效果，但仍面臨小目標(biāo)處理不佳和背景誤檢率高的問題：遠(yuǎn)處行人小目標(biāo)的分辨率通常很小，如果在特征提取過程中下采樣倍率過大，則會導(dǎo)致原圖行人在特征圖上占據(jù)不到1個(gè)像素；紅外圖像中行人特征不顯著，易與背景相似物混淆，模型學(xué)習(xí)效率低。

針對上述問題，本文以YOLOv7-tiny[15]為基礎(chǔ)，提出基于通道注意力機(jī)制的空間金字塔池化（Channel Attention based Spatial Pyramid Pooling，CASPP）模塊，替換原始的空間金字塔池化（Spatial Pyramid Pooling，SPP）模塊，并調(diào)整其在模型中的位置，使模型更加關(guān)注紅外行人特征的提取。為了進(jìn)一步抑制背景噪聲、保留行人細(xì)節(jié)，引入基于Meta-ACON[16]激活函數(shù)的卷積批標(biāo)準(zhǔn)化模塊（Convolution， Batch Normalization and Meta-ACON，CBM）。此外，提出一種新的alpha融合數(shù)據(jù)增強(qiáng)方法，以豐富樣本的多樣性，提高模型在復(fù)雜環(huán)境下的穩(wěn)定性。

2 基于改進(jìn)紅外行人目標(biāo)檢測方法構(gòu)建

2.1 整體結(jié)構(gòu)

本文在YOLOv7-tiny的基礎(chǔ)上進(jìn)行改進(jìn)，模型的整體結(jié)構(gòu)如圖1所示。在骨干網(wǎng)絡(luò)（Backbone）中，去除原始P5層的SPP模塊。紅外行人小目標(biāo)比大目標(biāo)更難預(yù)測，且小目標(biāo)主要由淺層網(wǎng)絡(luò)負(fù)責(zé)，所以將原始SPP模塊置于P5輸出層對小目標(biāo)檢測的作用不大。因此，本文利用通道注意力機(jī)制，提出了CASPP模塊，并將其嵌入P3輸出層，為P4層提供更好的輸入，可以使模型高效學(xué)習(xí)小目標(biāo)特征。

另一方面，YOLOv7-tiny中P5輸出層的分辨率為輸入的1/32，可能導(dǎo)致像素寬度小于32的遠(yuǎn)處行人小目標(biāo)在P5層特征丟失。直接上采樣后與P4層特征融合會添加很多無用的背景特征，影響模型性能。因此，本文設(shè)計(jì)了CBM模塊，保留檢測大目標(biāo)所需的特征，同時(shí)抑制背景特征。P5層特征經(jīng)過該模塊后再與P4層特征融合，通過額外的學(xué)習(xí)參數(shù)，可以自適應(yīng)選擇是否激活P5層的特征，相當(dāng)于一種特殊的注意力機(jī)制。檢測頭（Head）與YOLOv7-tiny保持一致，使用聚類算法在數(shù)據(jù)集所有標(biāo)注框中迭代出9種合適的先驗(yàn)框。

2.2 CASPP模塊

熱紅外圖像中，行人特征較弱，缺少重要紋理信息，易受無關(guān)背景的干擾。為了學(xué)習(xí)到具有區(qū)分性的行人特征，本文設(shè)計(jì)了CASPP模塊，其基本結(jié)構(gòu)如圖2所示。CASPP模塊首先通過卷積模塊（CONV）和最大池化模塊（MaxPool2D）得到多種具有不同感受野的特征，其中K、S、P分別為池化核大小、步長、邊界擴(kuò)張大小；接著在通道維度拼接（CONCAT）后經(jīng)過一層卷積輸出包含目標(biāo)和背景的特征F∈RC×H×W，其中，C、H、W分別為特征F的通道數(shù)量、高度和寬度。為了突出行人目標(biāo)特征，同時(shí)抑制背景特征，CASPP計(jì)算特征F各通道的權(quán)重因子：

Mω（F）=σ（fce（fcs（favg（F））））（1）

式中：favg為全局平均池化函數(shù)，fcs、fce為不同參數(shù)的全連接層，σ為S型函數(shù)（Sigmoid函數(shù)）。

輸入特征F首先經(jīng)過favg函數(shù)取同一個(gè)通道各空間位置的平均值，隨后使用fcs全連接層壓縮通道數(shù)量為原來的1/2，再通過fce全連接層擴(kuò)展為原始大小，最后通過σ函數(shù)歸一化，得到范圍為0～1的權(quán)重因子。將權(quán)重因子作為輸入特征F的通道權(quán)重進(jìn)行乘法運(yùn)算，權(quán)重因子越大，得到的特征與目標(biāo)相關(guān)性越高。

2.3 CBM模塊

CBM模塊結(jié)構(gòu)如圖3所示，包括二維卷積函數(shù)Conv2D、批歸一化函數(shù)BatchNorm2d和激活函數(shù)Meta-ACON。Meta-ACON激活函數(shù)通過學(xué)習(xí)參數(shù)的方式來自適應(yīng)地選擇是否激活特征，其一般形式為Meta-ACONC，計(jì)算方式為：

Sβ（p1x，p2x）=（p1-p2）x?σ[β（p1-p2）x]+p2x （2）

式中：x為輸入特征，p1、p2為2個(gè)直接可學(xué)習(xí)參數(shù)，β為間接可學(xué)習(xí)參數(shù)。

β有多種計(jì)算方法，最簡單的是基于每個(gè)特征點(diǎn)計(jì)算，但是需要的參數(shù)量過大。為了減少模型參數(shù)，本文基于每個(gè)通道分別計(jì)算：

[β=σP1P2h=1Hw=1Wxc，h，w] （3）

式中：P1∈RC×（C/2）、P2∈R（C/2）×C為可以學(xué)習(xí)的權(quán)重參數(shù)，C為輸入特征總通道數(shù)量，c為通道特征層索引，[xc，h，w]為第c個(gè)通道高度、寬度分別為h、w的輸入特征點(diǎn)。

式（3）類似于式（1）中的全連接層，不同之處在于需計(jì)算每個(gè)通道的特征總和。

在推理部署階段，為了提高模型推理速度，進(jìn)一步將Conv2D和BatchNorm2d合并，得到新的卷積層。新的卷積層權(quán)重參數(shù)和偏置參數(shù)分別為：

[W'=Wconv×（γ/Vbn+ε）]" " " "（4）

[B'=[（Bconv-Mbn）/Vbn+ε]×γ+β]" "（5）

式中：Wconv、Bconv分別為Conv2D的權(quán)重和偏置參數(shù)；Vbn、Mbn分別為BatchNorm2d在訓(xùn)練過程中通過移動加權(quán)平均方式統(tǒng)計(jì)的方差和均值；γ、β為BatchNorm2d的2個(gè)可學(xué)習(xí)參數(shù)，分別用于縮放和平移；ε為一個(gè)很小的數(shù)，本文設(shè)ε=10-6，以防止計(jì)算過程中方差項(xiàng)為零。

將Vbn、Mbn作為BatchNorm2d推理階段的方差和均值的原因在于推理階段的輸入批量數(shù)據(jù)不大，通常為1張圖像，計(jì)算得到的方差及均值與訓(xùn)練階段對應(yīng)的值存在較大偏差，導(dǎo)致推理精度下降。二者的計(jì)算公式分別為：

[Vbn=θ×V'bn+（1-θ）×Vtbn]" " " "（6）

[Mbn=θ×M'bn+（1-θ）×Mtbn]" " " （7）

式中：θ為加權(quán)因子，本文設(shè)置為0.9；[Vtbn]、[Mtbn]分別為根據(jù)當(dāng)前批次數(shù)據(jù)計(jì)算得到的方差和均值；[V'bn]、[M'bn]分別為根據(jù)之前所有批次數(shù)據(jù)計(jì)算得到的累計(jì)方差和均值。

由式（4）和式（5）可得到W′和B′，在復(fù)雜模型中可以有效減少整體浮點(diǎn)計(jì)算量。

2.4 alpha融合數(shù)據(jù)增強(qiáng)

紅外行人數(shù)據(jù)集中的圖像背景較為單一，可能會限制模型的泛化性能。為了豐富訓(xùn)練樣本，本文提出一種alpha融合數(shù)據(jù)增強(qiáng)方法，將包含目標(biāo)的圖像和無目標(biāo)的背景圖像融合，計(jì)算流程如圖4所示。

首先，將目標(biāo)圖像T和背景圖像B重采樣，使二者在寬度、高度上保持一致，目標(biāo)邊界框Gboxes也相應(yīng)調(diào)整。其次，根據(jù)目標(biāo)邊界框設(shè)置所有目標(biāo)區(qū)域?yàn)榍熬啊⑵渌麉^(qū)域?yàn)楸尘埃啥祱D像M，前景保持不變，以防止行人特征失真變形，背景區(qū)域?yàn)閮煞鶊D像加權(quán)融合的結(jié)果，權(quán)重因子α在每次迭代過程中通過隨機(jī)函數(shù)生成，范圍為0～1。最后，根據(jù)權(quán)重因子和M進(jìn)行融合，融合方式為：

Iti=（1-M）×T×α" " " " " "（8）

Ibi=（1-M）×B×（1-α）" " " " " （9）

Im=M×T" " " " " " " （10）

If=Iti+Ibi+Im" " " nbsp; " " "（11）

式中：Iti為目標(biāo)圖像不包括目標(biāo)區(qū)域的權(quán)重圖，Ibi為背景圖像不包括目標(biāo)區(qū)域的權(quán)重圖，Im為目標(biāo)圖像的目標(biāo)區(qū)域，If為增強(qiáng)后的圖像。

融合后的數(shù)據(jù)增強(qiáng)效果如圖5所示，包含了不同背景和不同大小的目標(biāo)。從圖5中可以看出，融合后圖像包含的信息更豐富，α越大，前景圖像提供的信息越多。在訓(xùn)練過程中，通過改變權(quán)重因子α和提供的背景圖像，可以起到數(shù)據(jù)增強(qiáng)的作用，提高模型的泛化性能。

2.5 CLAHE預(yù)處理

紅外圖像的對比度較低，導(dǎo)致行人的邊緣、紋理等細(xì)節(jié)模糊不清，如圖6a所示，行人幾乎融入背景環(huán)境中，難以辨識，從而影響模型學(xué)習(xí)特征的準(zhǔn)確性，因此，在預(yù)處理階段，本文采用CLAHE（Contrast Limited Adaptive Histogram Equalization）算法提高輸入圖像的對比度。CLAHE將整個(gè)圖像分塊，本文劃分為8×8塊，不足以整除的部分則填充對齊，然后在圖像塊區(qū)域內(nèi)統(tǒng)計(jì)直方圖，根據(jù)設(shè)定閾值限制對比度，調(diào)整直方圖的分布，最后聯(lián)合相鄰塊，使用雙線性插值確定新像素，使圖像對比度得到增強(qiáng)。增強(qiáng)后的圖像如圖6b所示，可以明顯看出，相比于原始圖像，行人的輪廓更清晰，紋理更豐富，易與背景環(huán)境區(qū)分，有利于提高模型的精度。

2.6 安全距離與預(yù)警

車輛行駛過程中，應(yīng)與前方車輛保持一定的安全距離，當(dāng)前方無車輛時(shí)，也應(yīng)控制車速。如表1所示，車速達(dá)到100 km/h時(shí)，安全距離應(yīng)大于100 m，才能有足夠的反應(yīng)時(shí)間避開緊急情況[17]。在實(shí)際場景中，遠(yuǎn)處目標(biāo)通常很小，需要算法能準(zhǔn)確及時(shí)地檢測并計(jì)算與車輛的距離，如果該距離小于安全距離，則啟用預(yù)警功能。

3 試驗(yàn)驗(yàn)證

3.1 試驗(yàn)環(huán)境

本文所有試驗(yàn)均在Ubuntu 22.04系統(tǒng)上進(jìn)行，試驗(yàn)平臺搭載NVIDIA GeForce RTX 4060 Ti顯卡，顯存為8 GB，深度學(xué)習(xí)框架采用PyTorch 2.1，Python版本為3.9，統(tǒng)一計(jì)算設(shè)備架構(gòu)（Compute Unified Device Architecture，CUDA）版本為11.8。

3.2 數(shù)據(jù)集

使用FLIR數(shù)據(jù)集驗(yàn)證算法的有效性，該數(shù)據(jù)集分為訓(xùn)練、驗(yàn)證和測試3個(gè)子集，共15個(gè)不同類別。采集場景包含了多種惡劣的天氣條件，如雨雪、霧霾等，以及白天、夜晚等不同的光照強(qiáng)度環(huán)境，提高了行人檢測的難度。本文只關(guān)注行人類別，不包含行人的圖像均視為負(fù)樣本。因此，F(xiàn)LIR數(shù)據(jù)集中最終可用的訓(xùn)練集有8 205幀，驗(yàn)證集有819幀，測試集有2 231幀。驗(yàn)證集圖像較少，很難反映模型訓(xùn)練過程的真實(shí)狀態(tài)。本文將所有圖像合并，再按照8∶2的比例劃分，作為訓(xùn)練和評估模型性能的圖像集。

3.3 評價(jià)指標(biāo)

車載設(shè)備用的紅外行人目標(biāo)檢測模型不僅要評估算法的準(zhǔn)確性，還要保證算法運(yùn)行的實(shí)時(shí)性。準(zhǔn)確性包括兩個(gè)方面，分別是精度（Precision）P和查全率（Recall）R：

P=NTP/（NTP+NFP）（12）

R=NTP/（NTP+NFN）（13）

式中：NTP為預(yù)測為正樣本，實(shí)際也為正樣本的數(shù)量；NFP為預(yù)測為正樣本，實(shí)際為負(fù)樣本的數(shù)量；NFN為預(yù)測為負(fù)樣本，實(shí)際為正樣本的數(shù)量。

以R為橫軸、P為縱軸構(gòu)建P-R曲線，基于該曲線計(jì)算平均精度（mean Average Precision，mAP）作為準(zhǔn)確性的評價(jià)指標(biāo)[18]：

[pinterpr=maxr'≥rp（r'）]" " " " " "（14）

[Aap=i=1n-1（ri+1-ri）pinterpri+1]" " " "（15）

[Amap=1Ki=1KAapi]" " " " " " " （16）

式中：r、r′、ri、ri+1為插值點(diǎn)處的召回率；p（r′）為r′處對應(yīng)的精度；pinterp（r）為插值函數(shù)，其在r處的值取p（r′）在下一個(gè)插值點(diǎn)之前的最大值，有利于降低曲線波動的影響；n為所有插值點(diǎn)的數(shù)量；K為目標(biāo)類別數(shù)量，本文需檢測的目標(biāo)只有行人，故取K=1；Aap為準(zhǔn)確率，P-R曲線經(jīng)插值后整體呈柱狀分布，將柱條的寬度（ri+1-ri）與高度pinterp（ri+1）相乘得到柱條的面積，對該曲線下所有的柱條面積求和即為該曲線對應(yīng)檢測結(jié)果類別的準(zhǔn)確率；Aapi為類別i的準(zhǔn)確率。

另一方面，本文采用模型參數(shù)量和計(jì)算量來評估模型的實(shí)時(shí)性，輕量的模型更適合部署在車載設(shè)備中。

3.4 試驗(yàn)結(jié)果與分析

為了驗(yàn)證本文方法在紅外行人目標(biāo)檢測方面的性能，在FLIR數(shù)據(jù)集上與目前常用的檢測算法進(jìn)行比較。在訓(xùn)練時(shí)，固定輸入圖像大小為640×640，參數(shù)初始學(xué)習(xí)率為0.001，衰減率為0.000 5，批量大小（Mini-Batch）為16，動量設(shè)置為0.937。本文所有試驗(yàn)均不使用預(yù)訓(xùn)練模型初始化參數(shù)，共訓(xùn)練了200輪，訓(xùn)練過程損失和交并比（Intersection over Union，IoU）為0.5時(shí)精度的可視化曲線如圖7所示。

從圖7中可以看出，當(dāng)訓(xùn)練到第25輪時(shí)，目標(biāo)損失和分類損失已經(jīng)收斂，邊框損失仍然可以繼續(xù)優(yōu)化，mAP也在提升，直到第150輪時(shí)，邊框損失趨于平緩，mAP達(dá)到極大值。在相同的輸入圖像尺寸條件下，與其他常用檢測算法的對比結(jié)果如表2所示。從表2中可以看出，在參數(shù)量差異很小的情況下，相比于YOLOv3-tiny，本文方法獲取的精度提高了12百分點(diǎn)，同時(shí)比YOLOv5s、YOLOv7-tiny高了3百分點(diǎn)，驗(yàn)證了本文方法的有效性。另一方面，本文方法的計(jì)算速度顯著提升，整體計(jì)算量比YOLOv3-tiny和YOLOv7-tiny減少了約38%，比YOLOv5s減少了約50%。故本文方法更適合用于紅外行人目標(biāo)檢測任務(wù)。

4 結(jié)束語

本文探討了YOLOv7-tiny直接應(yīng)用在紅外行人目標(biāo)檢測任務(wù)中的局限性，并根據(jù)熱紅外圖像的特性和實(shí)際場景，使用CLAHE算法突出行人的細(xì)節(jié)，提出CASPP模塊增強(qiáng)行人特征的提取，將CBM模塊嵌入特征融合路徑中以自適應(yīng)地選擇不同大小的特征，提出alpha融合數(shù)據(jù)增強(qiáng)算法以提高模型在復(fù)雜環(huán)境的穩(wěn)定性。在FLIR數(shù)據(jù)集上的試驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性和高效性，在檢測準(zhǔn)確率相當(dāng)?shù)那闆r下，計(jì)算速度顯著提升，更適合背景復(fù)雜、小目標(biāo)多的紅外行人檢測任務(wù)。

參考文獻(xiàn)

[1]" HARRIS C G， STEPHENS M J. A Combined Corner and Edge Detector[C]// Alvey Vision Conference. Manchester， UK： University of Manchester， 1988.

[2]" LOWE D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision， 2004， 60（2）： 91-110.

[3]" "DALAL N， TRIGGS B. Histograms of Oriented Gradients for Human Detection[C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego， CA， USA： IEEE， 2005.

[4]" "RUBLEE E， RABAUD V， KONOLIGE K， et al. ORB： An Efficient Alternative to SIFT or SURF[C]// International Conference on Computer Vision. Barcelona， Spain： IEEE， 2011.

[5]" "REN S Q， HE K M， GIRSHICK R， et al. Faster R-CNN： Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（6）： 1137-1149.

[6]" "胡均平，孫希. 基于改進(jìn)Faster R-CNN的近紅外夜間行人檢測方法[J]. 傳感器與微系統(tǒng)， 2021， 40（8）： 126-129.

HU J P， SUN X. Near-Infrared Nighttime Pedestrian Detection Based on Improved Faster R-CNN[J]. Sensors and Microsystems， 2021， 40（8）： 126-129.

[7]" "HE K M， ZHANG X Y， REN S Q， et al. Deep Residual Learning for Image Recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas， NV， USA： IEEE， 2016： 770-778.

[8] REDMON J， FARHADI A. YOLOv3： An Incremental Improvement[EB/OL]. （2018-04-08）[2024-05-04]. https：//arxiv.org/abs/1804.02767.

[9]" "BOCHKOVSKIY A， WANG C Y， LIAO H Y M. YOLOv4： Optimal Speed and Accuracy of Object Detection[EB/OL]. （2020-04-23）[2024-05-04]. https：//arxiv.org/abs/2004.10934.

[10] 劉怡帆，王旭飛，周鵬，等. 基于YOLOv4神經(jīng)網(wǎng)絡(luò)的紅外圖像道路行人檢測[J]. 數(shù)字技術(shù)與應(yīng)用， 2021， 39（10）： 19-22.

LIU Y F， WANG X F， ZHOU P， et al. Infrared Image Road Pedestrian Detection Based on YOLOv4 Neural Network[J]. Digital Technology and Applications， 2021， 39（10）： 19-22.

[11] 史健婷，張貴強(qiáng)，陶金，等. 改進(jìn)的YOLOv4紅外圖像行人檢測算法[J]. 智能計(jì)算機(jī)與應(yīng)用， 2021， 11（8）： 31-34+41.

SHI J T， ZHANG G Q， TAO J， et al. Improved Pedestrian Detection Algorithm for YOLOv4 Infrared Images[J]. Intelligent Computers and Applications， 2021， 11（8）： 31-34+41.

[12] HAN K， WANG Y H， TIAN Q， et al. GhostNet： More Features From Cheap Operations[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Seattle， WA， USA： IEEE， 2020.

[13] 王曉紅，陳哲奇. 基于YOLOv5算法的紅外圖像行人檢測研究[J]. 激光與紅外， 2023， 53（1）： 57-63.

WANG X H， CHEN Z Q. Research on Pedestrian Detection in Infrared Images Based on YOLOv5 Algorithm[J]. Laser and Infrared， 2023， 53（1）： 57-63.

[14] 李陽，趙娟，嚴(yán)運(yùn)兵. 基于改進(jìn)型YoloV5s的熱紅外道路車輛及行人檢測方法[J]. 智能計(jì)算機(jī)與應(yīng)用， 2022， 12（6）： 33-38.

LI Y， ZHAO J， YAN Y B. Thermal Infrared Road Vehicle and Pedestrian Detection Based on Improved YoloV5s[J]. Intelligent Computers and Applications， 2022， 12（6）： 33-38.

[15] WANG C Y， BOCHKOVSKIY A， LIAO H Y M. YOLOv7： Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Vancouver， BC， Canada： IEEE， 2023： 7464-7475.

[16] MA N N， ZHANG X Y， LIU M， et al. Activate or Not： Learning Customized Activation[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Nashville， TN， USA： IEEE， 2021： 8028-8038.

[17] 張展宏. 基于模擬器的駕駛員應(yīng)急狀態(tài)下剎車反應(yīng)時(shí)間的研究[J]. 華北科技學(xué)院學(xué)報(bào)， 2009， 6（3）： 27-30.

ZHANG Z H. A Simulator-Based Study of Driver Braking Reaction Time in Emergency Situations[J]. Journal of North China Institute of Science and Technology， 2009， 6（3）： 27-30.

[18] LIN T Y， MAIRE M， BELONGIE J S， et al. Microsoft COCO： Common Objects in Context[M]// FLEET D， PAJDLA T， SCHIELE B， et al. Computer Vision – ECCV 2014. Cham， Switzerland： Springer International Publishing， 2014.

（責(zé)任編輯斛畔）

修改稿收到日期為2024年5月4日。

汽車工程師2024年8期

汽車工程師的其它文章: 基于引導(dǎo)濾波的車載視頻圖像去霧簡化模型; 自卸車右轉(zhuǎn)盲區(qū)風(fēng)險(xiǎn)目標(biāo)動態(tài)檢測算法研究; 基于特征提取與邊緣點(diǎn)投票的實(shí)時(shí)車道線識別*; 基于輕量化U2-Net的車道線檢測算法研究*; 基于YOLO算法的非機(jī)動車輛檢測模型*; 基于多尺度特征融合的車輛及行人目標(biāo)檢測算法*