基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法研究

2025-01-21 00:00:00曹斯茹金可藝陳惠妹

中國(guó)新技術(shù)新產(chǎn)品 2025年1期

摘要：為全面識(shí)別并檢測(cè)攝像頭拍攝的在城市道路上的車輛目標(biāo)，本文提出一種基于YOLOv7的改進(jìn)模型C-YOLOv7。在頭部網(wǎng)絡(luò)末端加入注意力機(jī)制模塊，提高模型檢測(cè)準(zhǔn)確率。為減少YOLOv7算法的參數(shù)量，降低計(jì)算的復(fù)雜度，對(duì)改進(jìn)后的模型進(jìn)行剪枝輕量化。試驗(yàn)結(jié)果表示，與原模型相比，改進(jìn)后的模型的平均精度（Average Precision，AP）、精度和召回率均有提高，與C-YOLOv7模型相比，輕量化后的模型的傳輸幀數(shù)增加，推理延遲和參數(shù)量減少。改進(jìn)后的模型能夠提高車輛檢測(cè)的準(zhǔn)確度，節(jié)省存儲(chǔ)空間，在交通安全與管理領(lǐng)域發(fā)揮更大作用。

關(guān)鍵詞：深度學(xué)習(xí)；目標(biāo)檢測(cè)；注意力機(jī)制；輕量化

中國(guó)分類號(hào)：TP 391 " " " 文獻(xiàn)標(biāo)志碼：A

在快速發(fā)展的交通領(lǐng)域，車輛檢測(cè)技術(shù)[1]是提升交通安全和效率的重要手段。深度學(xué)習(xí)基礎(chǔ)的車輛檢測(cè)算法具有出色的泛化能力，能夠適應(yīng)多變的環(huán)境條件。盡管已有算法在檢測(cè)精度、檢測(cè)速度及模型參數(shù)優(yōu)化方面均有良好表現(xiàn)，但綜合性能卓越的算法仍比較稀少。本文以城市道路車輛檢測(cè)為應(yīng)用場(chǎng)景，依托深度學(xué)習(xí)技術(shù)[2]，旨在構(gòu)建一種體積更小、部署范圍更廣的目標(biāo)檢測(cè)模型。該模型旨在克服傳統(tǒng)目標(biāo)檢測(cè)方法中存在的準(zhǔn)確度及計(jì)算效率偏低的問(wèn)題，進(jìn)而提升車輛目標(biāo)檢測(cè)的準(zhǔn)確率。

1 基于改進(jìn)的YOLOv7目標(biāo)檢測(cè)模型

YOLOv7[3]目標(biāo)檢測(cè)模型的檢測(cè)速度較快，其采用多尺度特征融合策略，從不同層級(jí)的特征圖中提取信息，能夠檢測(cè)不同尺度的目標(biāo)，更好地處理目標(biāo)的上下文信息。模型的網(wǎng)絡(luò)結(jié)構(gòu)比較簡(jiǎn)單，在不同的硬件平臺(tái)和資源受限的設(shè)備上都可以運(yùn)行。

1.1 YOLOv7的網(wǎng)絡(luò)結(jié)構(gòu)

YOLOv7網(wǎng)絡(luò)模型主要包括3個(gè)部分，其特點(diǎn)如下。

1.1.1 骨干網(wǎng)絡(luò)

骨干網(wǎng)絡(luò)的主要任務(wù)是從輸入圖像中提取高質(zhì)量的特征。YOLOv7使用優(yōu)化的高效長(zhǎng)距離網(wǎng)絡(luò)（Efficient Long-Range Attention Network，ELAN）作為其骨干網(wǎng)絡(luò)，這種設(shè)計(jì)使網(wǎng)絡(luò)能夠在更淺的網(wǎng)絡(luò)層級(jí)收集更多的信息，并保持計(jì)算的高效性。

1.1.2 頸部網(wǎng)絡(luò)

頸部網(wǎng)絡(luò)的主要任務(wù)是將骨干網(wǎng)絡(luò)提取的特征進(jìn)行進(jìn)一步處理和融合，以執(zhí)行后續(xù)的檢測(cè)任務(wù)。其中，下采樣模塊利用最大池化（Max Pool）操作擴(kuò)張當(dāng)前特征層的感受野，再與正常卷積處理后的特征信息進(jìn)行融合，增強(qiáng)了網(wǎng)絡(luò)的泛化性。

1.1.3 頭部網(wǎng)絡(luò)

頭部網(wǎng)絡(luò)的主要任務(wù)是對(duì)頸部網(wǎng)絡(luò)輸出的特征圖進(jìn)行物體檢測(cè)。YOLOv7的頭部網(wǎng)絡(luò)采用多尺度的檢測(cè)機(jī)制，分別在不同尺度的特征圖中進(jìn)行物體檢測(cè)，提升檢測(cè)的準(zhǔn)確性。頭部網(wǎng)絡(luò)引入經(jīng)過(guò)特殊設(shè)計(jì)的殘差結(jié)構(gòu)輔助訓(xùn)練，但是在轉(zhuǎn)換過(guò)程中可能會(huì)產(chǎn)生一定的精度損失。

1.2 YOLOv7使用的損失函數(shù)

1.2.1 定位損失（Location Loss）

在目標(biāo)形狀不規(guī)則、大小不一致的情況下，CIoU的相似性度量更準(zhǔn)確，能夠更好地滿足各種尺寸和形狀的目標(biāo)檢測(cè)要求，因此在YOLOv7中使用CIoU損失計(jì)算定位損失。IoU 的計(jì)算過(guò)程如公式（1）所示。

（1）

式中：IoU 為交并比；A為預(yù)測(cè)框的面積；B為真實(shí)框的面積。

CIoU 的計(jì)算過(guò)程如公式（2）所示。

（2）

式中：CIoU 為完整的交并比；d為預(yù)測(cè)框與真實(shí)框中心點(diǎn)的距離；c為最小外接矩形的對(duì)角線距離；α為權(quán)重函數(shù)；v 為修正因子。

CIoU 損失函數(shù)的計(jì)算過(guò)程如公式（3）所示。

（3）

式中：LossCIoU為完整的交并比損失。

1.2.2 置信度損失（Confidence Loss）

置信度損失能夠評(píng)估預(yù)測(cè)邊界框的置信度與真實(shí)目標(biāo)是否存在差距，并衡量其預(yù)測(cè)的準(zhǔn)確性。本文采用二元交叉熵?fù)p失函數(shù)計(jì)算置信度損失，計(jì)算過(guò)程如公式（4）所示。

Lconf=-[ylog（p）+（1-y）log（1-p）] " " （4）

式中：Lconf為二元交叉熵?fù)p失；y為真實(shí)標(biāo)簽；p為模型預(yù)測(cè)的概率，數(shù)值為0～1；log（1-p）為對(duì)模型預(yù)測(cè)的負(fù)類概率取自然對(duì)數(shù)。

1.2.3 類別損失（Class Loss）

類別損失的作用是衡量模型對(duì)目標(biāo)類別的預(yù)測(cè)準(zhǔn)確性。本文利用多類交叉熵?fù)p失來(lái)計(jì)算分類損失，損失函數(shù)計(jì)算過(guò)程如公式（5）所示。

（5）

式中：Lcls為多類交叉熵?fù)p失；C為類別總數(shù)；i為類別的索引，取值為1～C；yi為真實(shí)標(biāo)簽，當(dāng)yi為1時(shí)表示真實(shí)類別，當(dāng)yi為0時(shí)表示其他類別；pi為模型預(yù)測(cè)第i類的概率。

1.3 C-YOLOv7算法改進(jìn)

1.3.1 引入注意力機(jī)制

Head部分利用卷積進(jìn)行特征提取，可能會(huì)出現(xiàn)只在局部感知域內(nèi)進(jìn)行特征提取，不能全面考慮全局上下文信息，導(dǎo)致對(duì)整體信息捕捉不足的情況。針對(duì)這個(gè)問(wèn)題本文提出C-YOLOv7目標(biāo)檢測(cè)框架，在Head部分融入注意力機(jī)制模塊（Convolutional Block Attention Module，CBAM），提高對(duì)整體信息的捕獲能力。CBAM由2個(gè)子模塊組成：通道注意力模塊（Channel Attention Module，CAM）和空間注意力模塊（Spatial Attention Module，SAM）。CBAM引入注意力機(jī)制至特征圖中，使網(wǎng)絡(luò)能夠更有效地聚焦于關(guān)鍵特征，達(dá)到檢測(cè)效果。CBAM結(jié)構(gòu)如圖1所示。

在YOLOv7-Head部分卷積層中串聯(lián)進(jìn)CBAM，得到新的M-Conv卷積層，將M-Conv替換為原YOLOv7中的卷積層，得到C-YOLOv7模型，其結(jié)構(gòu)如圖2所示。

不同尺寸的特征圖經(jīng)過(guò)殘差結(jié)構(gòu)進(jìn)入通道注意力模塊，分別進(jìn)行全局平均池化和全局最大池化，保留通道信息。分別將池化后的特征圖送入多層感知機(jī)（Multilayer Perceptron，MLP）中提取特征。將MLP輸出的特征進(jìn)行加合，經(jīng)過(guò)Sigmoid激活操作，得到通道注意力權(quán)重。通道注意力模塊的計(jì)算過(guò)程如公式（6）所示。

Mc（F）=σ（MLP（AvgPool（F））+MLP（MaxPool（F）））（6）

式中：Mc（F）為特征圖F的通道注意力；σ為Sigmoid激活函數(shù)；MLP為多層感知機(jī)；AvgPool（F）為F的全局平均池化；MaxPool（F）為F的全局最大池化。

將利用通道注意力計(jì)算后輸出的特征圖作為空間注意力模塊輸入的特征圖，在通道維度分別進(jìn)行全局平均池化和全局最大池化，保留空間信息。將這2個(gè)池化特征進(jìn)行通道融合操作，利用卷積層操作提取特征。利用Sigmoid函數(shù)進(jìn)行激活，得到包括通道注意力的空間注意力權(quán)重。在串行完成這2個(gè)步驟后，將空間注意力特征與原特征圖相乘，得到最終的輸出特征圖。通道注意力模塊的計(jì)算過(guò)程如公式（7）所示。

Ms（F）=σ（f 7*7（[AvgPool（F））；MaxPool（F）]））（7）

式中：Ms（F）為F的空間注意力；f 7*7為7*7的卷積操作。

1.3.2 模型輕量化

在深度學(xué)習(xí)模型中，剪枝[4]是一種重要的優(yōu)化技術(shù)，其作用是減少模型的計(jì)算量和參數(shù)量，加快推理速度，縮小模型的存儲(chǔ)空間。移除過(guò)濾器是一種適用于卷積神經(jīng)網(wǎng)絡(luò)的剪枝方法，通過(guò)識(shí)別并移除對(duì)最終模型影響較小的卷積核來(lái)減少模型的參數(shù)量。針對(duì)C-YOLOv7檢測(cè)模型體積較大的問(wèn)題，對(duì)C-YOLOv7進(jìn)行剪枝操作，得到輕量化的目標(biāo)檢測(cè)模型PC-YOLOv7。

對(duì)過(guò)濾器進(jìn)行剪枝，流程如圖3所示。設(shè)ni為第i個(gè)卷積層的輸入通道數(shù)，hi/wi為輸入特征映射的高度/寬度。卷積層在ni個(gè)輸入通道中應(yīng)用ni+1個(gè)3D濾波器Fi，j，將輸入特征映射xi轉(zhuǎn)換為輸出特征映射xi+1，生成的輸出特征映射將作為下一層卷積層的輸入特征映射。當(dāng)對(duì)過(guò)濾器Fi，j進(jìn)行剪枝時(shí)，去除其對(duì)應(yīng)的特征映射，也去除下一個(gè)卷積層過(guò)濾器中特征映射的核。

從訓(xùn)練良好的模型中去除不重要的過(guò)濾器來(lái)提高計(jì)算效率。計(jì)算過(guò)濾器的絕對(duì)權(quán)重總和Σ|Fi，j|來(lái)衡量每一層中過(guò)濾器的相對(duì)重要性。由于各過(guò)濾器的輸入通道數(shù)ni相同，因此Σ|Fi，j|也表示其平均核權(quán)重。與該層中的其他過(guò)濾器相比，核權(quán)重較小的過(guò)濾器傾向于生成弱激活的特征映射，該映射對(duì)最終結(jié)果影響較小，因此剪去核權(quán)重較小的過(guò)濾器。計(jì)算過(guò)濾器的絕對(duì)權(quán)重總和，如公式（8）所示。

（8）

式中：Sj為第i個(gè)過(guò)濾器的絕對(duì)值權(quán)重總和；Fi，j為第i個(gè)過(guò)濾器的第j個(gè)權(quán)重。

進(jìn)行剪枝的具體步驟如下。1）統(tǒng)計(jì)卷積層的權(quán)重，計(jì)算每個(gè)卷積層權(quán)重的絕對(duì)值總和，將其作為剪枝依據(jù)。2）根據(jù)權(quán)重總和對(duì)過(guò)濾器進(jìn)行排序，并選擇一部分進(jìn)行剪枝。percent參數(shù)決定需要剪枝的比例。本文將percent設(shè)為0.2。3）移除選擇的卷積層中不重要的過(guò)濾器，創(chuàng)建一個(gè)新的卷積層，復(fù)制舊卷積層的權(quán)重和偏置來(lái)移除過(guò)濾器。4）將剪枝后的卷積層替換回模型中。

2 試驗(yàn)結(jié)果

2.1 試驗(yàn)環(huán)境

本文模型使用PyTorch語(yǔ)言編寫算法的程序代碼，操作系統(tǒng)為Windows 10，訓(xùn)練模型使用的GPU為NVIDIA 4060Ti GPU，初始學(xué)習(xí)率為0.000 1。在每次訓(xùn)練迭代中進(jìn)行前向傳播再進(jìn)行反向傳播，從而實(shí)現(xiàn)優(yōu)化。

2.2 數(shù)據(jù)集選取

本文選擇公開(kāi)數(shù)據(jù)集Data for STREETS（A novel camera network dataset for traffic flow，STREETS）作為檢測(cè)對(duì)象，該數(shù)據(jù)集包括5 249張訓(xùn)練集樣本、291張測(cè)試集樣本以及582張驗(yàn)證集樣本。在數(shù)據(jù)集中有各種城市街道的交通場(chǎng)景，利用安裝在城市街道重要道路和交通繁忙的路口的高清攝像頭采集多樣化的交通車輛數(shù)據(jù)，其包括不同天氣條件、交通密度和時(shí)間段的數(shù)據(jù)類型。

2.3 各目標(biāo)檢測(cè)模型對(duì)比試驗(yàn)

C-YOLOv7與其他目標(biāo)檢測(cè)模型的試驗(yàn)對(duì)比結(jié)果見(jiàn)表1。

由表1可知，與原版本以及其衍生版本相比，改進(jìn)后的C-YOLOv7在平均精度、精度以及召回率方面均有提高，精度為83.7%，說(shuō)明改進(jìn)后的模型在目標(biāo)檢測(cè)方面效果較好。

2.4 目標(biāo)檢測(cè)模型輕量化

使用輕量化目標(biāo)檢測(cè)模型PC-YOLOv7與C-YOLOv7進(jìn)行試驗(yàn)，對(duì)比結(jié)果見(jiàn)表2，使用平均精度、傳輸幀數(shù)、推理延遲和參數(shù)量4個(gè)評(píng)價(jià)指標(biāo)。試驗(yàn)結(jié)果表明，經(jīng)過(guò)剪枝后的YOLOv7模型準(zhǔn)確度較高，模型尺寸更小，計(jì)算復(fù)雜度更低。

表2 輕量化模型試驗(yàn)對(duì)比結(jié)果

模型平均精度/% 傳輸幀數(shù)/（幀·s-1）推理延遲/ms 參數(shù)量/G

C-YOLOv7 78.0 30 33 22.8

PC-YOLOv7 74.3 32 29 4.9

3 結(jié)論

本文提出一種改進(jìn)的目標(biāo)檢測(cè)模型C-YOLOv7，在YOLOv7頭部卷積層中添加CBAM，得到新的卷積層來(lái)替換YOLOv7中原來(lái)的卷積層，提高了模型的檢測(cè)精度。對(duì)改進(jìn)后的模型進(jìn)行剪枝輕量化，減少模型參數(shù)量，使模型更易于部署。試驗(yàn)結(jié)果表明，與原模型相比，改進(jìn)模型的平均精度、精度和召回率分別提升至78.0%、83.7%和74.0%；推理延遲縮短至29 ms，參數(shù)量為原模型的21.5%。

深度學(xué)習(xí)的車輛目標(biāo)檢測(cè)模型仍然有改進(jìn)空間，例如結(jié)合視覺(jué)、雷達(dá)等多種傳感器數(shù)據(jù)與檢測(cè)模型進(jìn)行多模態(tài)數(shù)據(jù)融合，以提高對(duì)車輛的識(shí)別能力和檢測(cè)精度，并增強(qiáng)在各種環(huán)境條件下的適應(yīng)性和魯棒性。在保障數(shù)據(jù)安全的前提下，有效地利用大數(shù)據(jù)來(lái)提升檢測(cè)算法的性能和智能化程度。

參考文獻(xiàn)

[1]曹家樂(lè)，李亞利，孫漢卿，等.基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)技術(shù)綜述[J].中國(guó)圖象圖形學(xué)報(bào)，2022，27（6）：1697-1722.

[2]張陽(yáng)婷，黃德啟，王東偉，等.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法研究與應(yīng)用綜述[J].計(jì)算機(jī)工程與應(yīng)用，2023，59（18）：1-13.

[3]李長(zhǎng)海.基于改進(jìn)YOLOv7的紅外行人目標(biāo)檢測(cè)方法[J].汽車工程師，2024（8）：15-21.

[4]毛遠(yuǎn)宏，曹健，賀鵬超，等.深度神經(jīng)網(wǎng)絡(luò)剪枝方法綜述[J].微電子學(xué)與計(jì)算機(jī)，2023，40（10）：1-8.