基于BiFPN和Triplet注意力機(jī)制的YOLOv5s缺陷蘋(píng)果識(shí)別算法

2025-06-10 00:00:00惠永永趙春雨宋昭漾趙小強(qiáng)

華南農(nóng)業(yè)大學(xué)學(xué)報(bào) 2025年3期

中圖分類號(hào)：TP391.4;S225.93 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1001-411X（2025）03-0419-10

A YOLOv5s algorithm based on BiFPN and Triplet attention mechanism for identifing defective apple

HUI Yongyong12， ZHAO Chunyu'， SONG Zhaoyang12， ZHAO Xiaoqiang12 （1 Colleg ofElectricalEngieeigandInformationEnginering，Lanzou Unversityofechnology，Lanzhou730，Ca; 2 National Experimental Teaching Center of Electrical and Control Engineering，Lanzhou University of Technology，Lanzhou ， China）

Abstract：【Objective】 In order to make full use of context information and integrate multi-scale features， a YOLOv5s algorithm based on BiFPN and Triplet attention mechanism （BTF-YOLOv5s） for identifing defective apple was proposed. 【Method】 Firstly， the additional weights were introduced to the weighted bidirectional feature pyramid network （ BiFPN） to learn the importance of diferent input features. The model realized the repeated fusion of multi-scale features through the top-down and bottom-up bidirectional paths， and improved the multi-scale detection ability. Secondly，the Triplet attention mechanism was applied to the Neck layer to enhance the model's ability to represent the correlation between target and contextual information，so that the model could focus more on the learning of apple features. Finally，the Focal-CIoU loss function was used to adjust the loss weight，so thatthe model payed more atention todefective apple recognition，and improved the perception ability of the model. Different loss functions were compared through ablation experiments.The position of attntion mechanism in YOLOv5 structure was changed， and compared with the mainstream algorithms. 【Result】 On the basis of the initial YOLOv5s model，BTF-YOLOv5s improved the accuracy，recall and mAP by 5.7， 2.2 and 3.5 percentage points respectively，and the memory usage of the model was 1 4 . 7 M B The average accuracy of BTF-YOLOv5s was 5.7，3.5，13.3，3.5，2.9，2.6，2.8 and 0.3 percentage points higher than those of SSD， YOLOv3， YOLOv4， YOLOv5s， YOLOv7， YOLOv8n， YOLOv8s and YOLOv9， respectively. 【Conclusion】 The model of BTF-YOLOv5s shows significant superiority in identifing defective apples， which provides certain technical support for the picking robot to realize the automatic sorting of highquality apples and defective apples in the picking process.

Key words： YOLOv5s; Defective apple; Atention mechanism; Loss function; Object detection; Picking robot

蘋(píng)果作為一種常見(jiàn)的水果，其質(zhì)量問(wèn)題直接關(guān)系到消費(fèi)者的健康和生產(chǎn)者的經(jīng)濟(jì)利益。我國(guó)是蘋(píng)果種植大國(guó)，蘋(píng)果采摘、運(yùn)送、儲(chǔ)藏與加工處理是不可忽視的關(guān)鍵環(huán)節(jié)[1]。然而，由于人工質(zhì)檢的主觀性和效率低下，傳統(tǒng)的蘋(píng)果質(zhì)檢方式已經(jīng)無(wú)法滿足現(xiàn)代農(nóng)產(chǎn)品質(zhì)量的需求[2]。基于機(jī)器學(xué)習(xí)的蘋(píng)果識(shí)別技術(shù)應(yīng)運(yùn)而生，該方法可以對(duì)蘋(píng)果進(jìn)行自動(dòng)識(shí)別和分類。李大華等[3]針對(duì)自然復(fù)雜環(huán)境下的蘋(píng)果重疊問(wèn)題，利用譜聚類算法進(jìn)行分割，然后使用隨機(jī)霍夫變換實(shí)現(xiàn)果實(shí)的識(shí)別和定位，盡管改進(jìn)后的譜聚類算法在計(jì)算量上有所優(yōu)化，但仍然涉及多步驟的處理，包括均值漂移預(yù)分割、稀疏矩陣構(gòu)建、K -means分類和隨機(jī)霍夫變換，整體流程較為復(fù)雜，對(duì)硬件性能要求較高，不適合實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景。王迎超等4為了準(zhǔn)確快速實(shí)現(xiàn)多特征融合的蘋(píng)果分級(jí)，提出了一種基于 K ? -means聚類和改進(jìn)多層感知器（Multilayer perception，MLP）的蘋(píng)果分級(jí)方法，但特征權(quán)重的確定存在主觀性，且在不同的應(yīng)用場(chǎng)景或蘋(píng)果品種中特征的重要性會(huì)有所不同，導(dǎo)致分級(jí)準(zhǔn)確性下降。宋怡煥等[5]提出基于最小二乘支持向量機(jī)（LS-SVM）檢測(cè)蘋(píng)果果梗/花萼缺陷，試驗(yàn)中僅使用了180幅蘋(píng)果圖像，而訓(xùn)練數(shù)據(jù)的不足會(huì)導(dǎo)致模型的泛化能力受限，對(duì)不同環(huán)境或蘋(píng)果品種的誤判率較高。上述傳統(tǒng)的機(jī)器學(xué)習(xí)算法試驗(yàn)設(shè)計(jì)過(guò)于繁瑣，對(duì)復(fù)雜的特征提取和分類能力不佳，易受外界因素的干擾，難以獲得較好的檢測(cè)結(jié)果。隨著深度學(xué)習(xí)技術(shù)突飛猛進(jìn)，以深度學(xué)習(xí)為基礎(chǔ)的目標(biāo)檢測(cè)技術(shù)在蘋(píng)果果實(shí)檢測(cè)[、病蟲(chóng)害監(jiān)測(cè)[7]、果實(shí)成熟度[8和農(nóng)業(yè)自動(dòng)化[9-10]等領(lǐng)域發(fā)揮著重要的作用。目前，基于深度學(xué)習(xí)的蘋(píng)果檢測(cè)算法依據(jù)檢測(cè)的階段劃分主要有2大類：一類是要先用特征提取器生成一系列可能包含待檢物體的預(yù)選框，然后利用算法對(duì)生成的候選區(qū)域進(jìn)行更精細(xì)的檢測(cè)和分類的兩階段算法，主要有Faster-RCNN[1]和Mask-RCNN[12]算法；另一類為直接預(yù)測(cè)物體類別和位置的一階段檢測(cè)算法，主要有RetinaNet[13]、SSD[14]和YOLO系列[15-17]。兩階段算法計(jì)算復(fù)雜度高、檢測(cè)速度較慢，一階段算法在精度上有所欠缺。兩階段算法由于包含多個(gè)階段和較多的候選框處理，推理速度通常比單階段算法慢，不適合實(shí)時(shí)應(yīng)用。為了進(jìn)一步提升模型的檢測(cè)速度和準(zhǔn)確度，Tian等[18]提出了一種名為VMF-SSD（基于V空間的多尺度特征融合SSD）的新型蘋(píng)果葉片病害檢測(cè)方法；Wang等[19]通過(guò)遷移學(xué)習(xí)構(gòu)建YOLOv5s檢測(cè)模型的同時(shí)，采用通道修剪算法對(duì)模型進(jìn)行修剪及微調(diào)，以實(shí)現(xiàn)對(duì)蘋(píng)果果實(shí)的快速準(zhǔn)確檢測(cè)。

目前，國(guó)內(nèi)外目標(biāo)檢測(cè)領(lǐng)域?qū)μO(píng)果的研究主要集中在自然環(huán)境下的蘋(píng)果識(shí)別、蘋(píng)果采摘機(jī)器人以及葉片病蟲(chóng)害識(shí)別方面。雖然已有部分研究針對(duì)缺陷蘋(píng)果的檢測(cè)[20-21]，但仍存在上下文信息和多尺度特征融合不充分的問(wèn)題。針對(duì)缺陷蘋(píng)果識(shí)別，本文提出一種基于BiFPN[22]和Triplet注意力機(jī)制的YOLOv5s（BTF-YOLOv5s）缺陷蘋(píng)果識(shí)別算法，通過(guò)BiFPN結(jié)合特征的上采樣和下采樣路徑，聯(lián)合跨尺度的特征交互，能夠更好地傳遞和融合來(lái)自不同尺度的特征信息，提升目標(biāo)檢測(cè)性能；同時(shí)，學(xué)習(xí)動(dòng)態(tài)的特征融合權(quán)重，根據(jù)不同目標(biāo)的重要性進(jìn)行靈活調(diào)整，增強(qiáng)模型的魯棒性；在Neck層應(yīng)用Triplet注意力機(jī)制，模型能更好地捕捉圖像中的細(xì)節(jié)和上下文信息，提升自標(biāo)檢測(cè)的精度；采用Focal-CIoU調(diào)整正負(fù)樣本之間的損失權(quán)重，讓模型對(duì)難以分類的樣本給予更多關(guān)注，提升模型的分類性能。

1基于BiFPN和Triplet注意力機(jī)制的YOLOv5s算法

本研究以YOLOv5s（版本6.2，包含4種不同大小的模型）為基礎(chǔ)，網(wǎng)絡(luò)結(jié)構(gòu)由輸入端、骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和輸出端4個(gè)部分組成。在輸入端引入了Mosaic數(shù)據(jù)增強(qiáng)方法，隨機(jī)選取4張圖像，對(duì)它們進(jìn)行隨機(jī)放大、縮小等操作后，拼接成一張新的圖像，使模型可以在更小的范圍內(nèi)識(shí)別目標(biāo)；骨干網(wǎng)絡(luò)主要使用了Focus和CSP1X結(jié)構(gòu)；頸部網(wǎng)絡(luò)采用 F P N + P A N 和CSP2X結(jié)構(gòu)進(jìn)一步進(jìn)行特征融合和上采樣操作，以提供更高級(jí)的語(yǔ)義信息和適應(yīng)不同尺度圖片的能力；輸出端采用CIoU_Loss（Completeintersectionoverunionloss）作為損失函數(shù)，并使用了非極大值抑制（Non-maximumsuppression，NMS）進(jìn)行后處理。本文提出了一種改進(jìn)的YOLOv5s算法（BTF-YOLOv5s）用于缺陷蘋(píng)果識(shí)別，首先，加權(quán)雙向特征金字塔網(wǎng)絡(luò)（Bidirectional featurepyramidnetwork，BiFPN）替代YOLOv5中的FPN+PAN結(jié)構(gòu)，通過(guò)引入可學(xué)習(xí)的權(quán)重學(xué)習(xí)不同輸入特征的重要性；然后，將Triplet注意力機(jī)制應(yīng)用到模型的最后一層，確保在最終輸出前對(duì)特征進(jìn)行充分的處理和優(yōu)化；最后，采用Focal-CIoU損失函數(shù)調(diào)整損失權(quán)重給予缺陷蘋(píng)果更多的關(guān)注，BTF-YOLOv5s算法結(jié)構(gòu)整體框圖如圖1所示。

圖1BTF-YOLOv5s算法結(jié)構(gòu)框圖Fig.1The structure block diagram of BTF-YOLOv5s algorithm

1.1 BiFPN

在目標(biāo)檢測(cè)任務(wù)中，有效地獲取并處理不同尺度的特征信息是一個(gè)主要的挑戰(zhàn)。傳統(tǒng)的特征金字塔網(wǎng)絡(luò)（FPN）[23]通過(guò)自上而下的方式聚合多尺度特征，如圖2a所示，但容易受到單向信息流的限制；路徑聚合網(wǎng)絡(luò)（PANet）[24在此基礎(chǔ)上額外添加了一個(gè)自下向上的路徑聚合網(wǎng)絡(luò)，如圖2b所示。在YOLOv5的Neck結(jié)構(gòu)中，借鑒PANet的思想，高層的特征信息通過(guò)FPN+PAN結(jié)構(gòu)進(jìn)行傳遞融合。FPN+PAN結(jié)構(gòu)雖然提高了特征傳遞的效率，但也增加了計(jì)算復(fù)雜度，尤其是在處理高分辨率輸入時(shí)，可能導(dǎo)致較高的計(jì)算成本和較差的實(shí)時(shí)性；此外，固定結(jié)構(gòu)導(dǎo)致對(duì)不同任務(wù)和數(shù)據(jù)缺乏自適應(yīng)的能力。

為了解決上述信息流動(dòng)單一、精度高但參數(shù)較多、計(jì)算量較大以及簡(jiǎn)單拼接導(dǎo)致的信息丟失和冗余等問(wèn)題，本文提出了采用BiFPN替代YOLOv5s中的 F P N + P A N 結(jié)構(gòu)。BiFPN在PANet和NAS-FPN（圖2c）基礎(chǔ)上優(yōu)化了多尺度特征融合方式，結(jié)構(gòu)如圖2d所示。

傳統(tǒng)方法在融合具有不同分辨率的特征時(shí)，平等地對(duì)待所有輸入特征，并將它們簡(jiǎn)單相加。但不同分辨率的輸入特征對(duì)輸出特征的貢獻(xiàn)通常是不等的。為了解決這一問(wèn)題，BiFPN為每個(gè)輸入特征增加了一個(gè)額外的權(quán)重，并讓網(wǎng)絡(luò)學(xué)習(xí)每個(gè)輸入特征的重要性，具體見(jiàn)式（1）和式（2）：

式中，為自頂向下路徑第6層的中間特征；為第6層的輸入特征；Resize用于分辨率匹配的上采樣或下采樣運(yùn)算；為自底向上路徑第6層的輸出特征。

這一改進(jìn)使得網(wǎng)絡(luò)能夠自適應(yīng)地調(diào)整每個(gè)特征圖的重要性，從而實(shí)現(xiàn)更有效的特征融合。引入BiFPN的YOLOv5s模型通過(guò)多尺度特征融合和簡(jiǎn)化的計(jì)算過(guò)程，有效地提升了對(duì)缺陷蘋(píng)果檢測(cè)的準(zhǔn)確率；BiFPN通過(guò)引入可學(xué)習(xí)的融合權(quán)重優(yōu)化了不同分辨率特征的重要性，增強(qiáng)了特征復(fù)用和多級(jí)特征融合路徑，使得YOLOv5能夠有效地檢測(cè)出不同大小和形狀的蘋(píng)果缺陷。

1.2 Triplet注意力機(jī)制

在缺陷蘋(píng)果檢測(cè)任務(wù)中，模型需要準(zhǔn)確地識(shí)別和定位圖像中的目標(biāo)（蘋(píng)果）。圖像中存在大量的背景信息以及不同大小的蘋(píng)果會(huì)分散模型的注意力，使得模型難以準(zhǔn)確地區(qū)分缺陷蘋(píng)果和背景，引入注意力機(jī)制旨在提升模型對(duì)關(guān)鍵目標(biāo)的感知能力。SENet通過(guò)簡(jiǎn)單的操作（全局平均池化和全連接層）自適應(yīng)地調(diào)整特征圖中每個(gè)通道的重要性，使網(wǎng)絡(luò)更加集中地關(guān)注重要的特征信息，在低計(jì)算成本的條件下通過(guò)通道注意力機(jī)制顯著提升網(wǎng)絡(luò)的表示能力[25；CBAM將通道注意力和空間注意力相結(jié)合，能夠同時(shí)關(guān)注重要的通道特征和空間位置；CBAM中的通道注意力方法雖然提供了一定的性能改進(jìn)，但通道注意力和空間注意力是相互分離和計(jì)算的[26]。

Triplet注意力機(jī)制（簡(jiǎn)稱\"Triplet\"）以一種有效的方式解釋了CBAM未考慮到的跨維度的相互作用[7]。如圖3所示，Triplet由3個(gè)平行的分支構(gòu)成，其中2個(gè)分支分別用來(lái)捕獲通道 C 維度和空間維度W / H 之間的跨通道交互，最后的一個(gè)分支用于捕獲H 和W的空間依賴關(guān)系。在第1個(gè)分支中，輸入張量 C×H× W（通道數(shù)C、高度 H 和寬度W）沿 H 軸逆時(shí)針旋轉(zhuǎn) ，形狀變?yōu)?W×H×C ，輸入特征先后經(jīng)過(guò)

圖3Triplet注意力結(jié)構(gòu)Fig.3Triplet attention structure

Z -P o o l 7 K × K 的標(biāo)準(zhǔn)卷積層、批量歸一化層、通過(guò)Sigmod激活函數(shù)生成空間注意力權(quán)重后、再沿H 軸順時(shí)針旋轉(zhuǎn) 保持與輸入的形狀一致。其中Z -P o o l 表示為：

式中，0d表示發(fā)生最大池化和平均池化操作的第0維度。

第2、第3個(gè)分支同理，最后對(duì)3個(gè)分支輸出特征進(jìn)行平均后聚合在一起，最終輸出的張量：

式中， σ 代表Sigmod激活函數(shù)；和表示由核大小 K 定義的標(biāo)準(zhǔn)二維卷積層。

Triplet通過(guò)旋轉(zhuǎn)操作構(gòu)建各維度間的相關(guān)性，再對(duì)其進(jìn)行殘差變換，并以極小的計(jì)算成本對(duì)信息進(jìn)行編碼，在不需要太多可學(xué)習(xí)參數(shù)的前提下建立通道之間的相互依賴關(guān)系，有效地捕捉蘋(píng)果圖像中的關(guān)鍵特征。

1.3 Focal-CIoU損失函數(shù)

在機(jī)器學(xué)習(xí)任務(wù)中，常常面臨數(shù)據(jù)集中不同類別的樣本數(shù)量差異較大的問(wèn)題，傳統(tǒng)的交叉熵?fù)p失函數(shù)在處理樣本不均衡問(wèn)題時(shí)表現(xiàn)不佳，因?yàn)樗鼘⑺袠颖镜闹匾砸暈橄嗟龋^而導(dǎo)致模型在訓(xùn)練過(guò)程中更容易偏向于數(shù)量多的類別，公式如下：

式中，CE 是交叉熵（Cross entropy）， p 代表模型預(yù)測(cè)樣本屬于類別1的概率（取值范圍 0～1 ， y 表示樣本的標(biāo)簽（取值為-1和1）。

數(shù)據(jù)集中正常蘋(píng)果和缺陷蘋(píng)果圖片數(shù)量均為1600張左右，但標(biāo)注數(shù)量略有差異，分別為4624和2039張。為了進(jìn)一步加強(qiáng)模型對(duì)缺陷蘋(píng)果的檢測(cè)能力，引入Focal-CIoU損失函數(shù)。FocalLoss（FL）在交叉熵?fù)p失的基礎(chǔ)上進(jìn)行了改進(jìn)，引入了平衡因子和聚焦因子，平衡因子用于調(diào)整正負(fù)樣本之間的權(quán)重，聚焦因子用于調(diào)整難易樣本間的損失權(quán)重；這樣，既能調(diào)整正負(fù)樣本的權(quán)重，又能控制難易分類樣本的權(quán)重。FL表達(dá)式[2為：

式中，是超參數(shù)（取0.25）；是調(diào)節(jié)因子，γ 是 ? 0 的可調(diào)節(jié)聚焦參數(shù) （取2）。

CIoU損失函數(shù) 考慮邊界框?qū)捀弑鹊某叨刃畔ⅲ贒IoU的基礎(chǔ)上進(jìn)行優(yōu)化，計(jì)算公式[29]如下：

式中，IoU為交并比（IntersectionoverUnion），即“預(yù)測(cè)的邊框\"和“真實(shí)的邊框\"的交集和并集的比值；d 為預(yù)測(cè)框與真實(shí)框中心點(diǎn)的長(zhǎng)度， c 為最小外接矩形的對(duì)角線距離， ρ 代表的是2個(gè)中心點(diǎn)之間的歐式距離， b ！分別代表了預(yù)測(cè)框和真實(shí)框的中心點(diǎn)， α 是權(quán)重函數(shù)， V 用來(lái)衡量長(zhǎng)寬比的相似度。

Focal-CIoU損失函數(shù) 為：

Focal-CIoU通過(guò)調(diào)整正負(fù)樣本的權(quán)重和提升邊界框回歸精度，減少了訓(xùn)練過(guò)程中梯度的不穩(wěn)定性，使模型更關(guān)注缺陷蘋(píng)果，提高了檢測(cè)性能。

2試驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集

本研究所用數(shù)據(jù)集從百度網(wǎng)站和飛槳AIStudio網(wǎng)站上獲取，這2個(gè)網(wǎng)站提供了豐富的圖像資源，包含蟲(chóng)蛀、腐爛、機(jī)械損傷和褶皺共4類蘋(píng)果缺陷圖像（圖4），數(shù)量分別為414、750、148和280張，以確保對(duì)于蘋(píng)果目標(biāo)的全面覆蓋。數(shù)據(jù)集共3213張（正常蘋(píng)果1621張、缺陷蘋(píng)果1592張），訓(xùn)練集和驗(yàn)證集按照9：1的比例劃分，其中，訓(xùn)練集圖片2891張、驗(yàn)證集圖片322張。為了增加數(shù)據(jù)的多樣性，通過(guò)Python程序?qū)Σ糠謹(jǐn)?shù)據(jù)集進(jìn)行水平、垂直方向的翻轉(zhuǎn)以及旋轉(zhuǎn) 操作。構(gòu)建和處理數(shù)據(jù)集，確保模型在訓(xùn)練和驗(yàn)證過(guò)程中能夠充分學(xué)習(xí)和適應(yīng)蘋(píng)果目標(biāo)的多樣性特征，為后續(xù)的目標(biāo)檢測(cè)提供數(shù)據(jù)保障。

圖4蘋(píng)果表面缺陷類型 Fig. 4Type of apple surface defect

2.2 模型訓(xùn)練與評(píng)價(jià)指標(biāo)

本試驗(yàn)平臺(tái)基于Ubuntu18.04.6的64位操作系統(tǒng)，顯卡為GPU（NVIDIAGeForceRTX2080Ti），顯存為 1 2 G ，使用PyTorch框架構(gòu)建模型，編程語(yǔ)言為Python，Torch版本為1.10.1。在訓(xùn)練過(guò)程中，設(shè)置初始學(xué)習(xí)率為0.01、周期學(xué)習(xí)率為0.20、動(dòng)量為0.937、權(quán)重衰減系數(shù)為0.0005、批量大小為16。模型評(píng)估指標(biāo)包括準(zhǔn)確率（Precision， P 、召回率（Recall， R ）、平均精確率均值（Meanaverageprecision，mAP）和 F 1 。TP（Truepositive）表示模型正確地檢測(cè)出缺陷蘋(píng)果的數(shù)量；TN（Truenegative）表示模型正確地排除正常蘋(píng)果的數(shù)量；FP（Falsepositive）表示模型錯(cuò)誤地將正常蘋(píng)果判定為缺陷蘋(píng)果的數(shù)量； R 指模型正確檢測(cè)出的缺陷蘋(píng)果（TP）占所有真正的缺陷蘋(píng)果（ T P+ F N）的比例，表示模型對(duì)于真實(shí)缺陷蘋(píng)果的檢測(cè)能力；AP（Averageprecision）是衡量目標(biāo)檢測(cè)模型在不同召回率下準(zhǔn)確性的指標(biāo)，mAP是所有類別AP的平均，用來(lái)評(píng)估模型整體性能； F 1 綜合了 P 和 R 這2個(gè)指標(biāo)，能夠更全面地評(píng)估模型的性能。

訓(xùn)練過(guò)程中損失值參數(shù)的動(dòng)態(tài)變化如圖5所示，隨著訓(xùn)練輪次遞增，損失值經(jīng)歷了急劇下降的階段，最終趨向于0.025左右的平穩(wěn)水平。訓(xùn)練損失和驗(yàn)證損失逐漸趨于擬合，意味著模型所學(xué)習(xí)的訓(xùn)練數(shù)據(jù)中的模式能夠有效泛化到驗(yàn)證數(shù)據(jù)，表明該模型在面對(duì)新數(shù)據(jù)時(shí)具有優(yōu)異的泛化性能

2.3 Triplet的不同添加位置

Triplet插入YOLOv5s結(jié)構(gòu)中的位置（A表示YOLOv5s-BiFPN-Triplet）主要有以下4種方式：1）在網(wǎng)絡(luò)結(jié)構(gòu)SPPF前面添加，即第9層 CIoU+Focal（9）]；2）在網(wǎng)絡(luò)結(jié)構(gòu)最后一層添加，即第24層在網(wǎng)絡(luò)結(jié)構(gòu)SPPF前面和最后一層添加，即 A+ CIoU+ Foca 1（ 9 + 2 5 ）；4）替換Backbone中的C3模塊，即 CIoU+Focal。不同插入位置對(duì)比試驗(yàn)結(jié)果見(jiàn)表1。由表1可見(jiàn)，A+CIoU+Focal（24）比其他4種模型在各個(gè)方面均有不錯(cuò)的提升，準(zhǔn)確率比YOLOv5s的提高了5.7個(gè)百分點(diǎn)，綜合分析表明 A+ CIoU+Focal（24）是最優(yōu)的模型。

表1Triplet注意力機(jī)制不同插入位置的模型試驗(yàn)結(jié)果對(duì)比

2.4 BiFPN添加不同注意力機(jī)制

以YOLOv5s-BiFPN為基礎(chǔ)，逐步添加SE，CBAM、CA和Triplet注意力機(jī)制。SE僅考慮通道間的信息，忽略了位置信息；CBAM通過(guò)學(xué)習(xí)的方式自動(dòng)獲取每個(gè)特征通道和特征空間的重要程度；而CA不僅考慮通道間的關(guān)系，而且考慮方向相關(guān)的位置信息。試驗(yàn)結(jié)果見(jiàn)表2，由表2可見(jiàn)，BiFPN+

Table1 Result comparison of Triplet attention mechanism with different insertion position % （20表2BiFPN添加不同注意力機(jī)制的模型試驗(yàn)結(jié)果對(duì)比Table2 Result comparison of BiFPN with differentattentionmechanism

CA在準(zhǔn)確率和mAP方面優(yōu)于BiFPN+SE和BiFPN+CBAM；Triplet注意力機(jī)制利用三分支結(jié)構(gòu)能夠捕獲更多的關(guān)鍵信息，建立通道之間的相互依賴關(guān)系，試驗(yàn)結(jié)果也驗(yàn)證了BiFPN+Triplet是最優(yōu)模型。

2.5 消融試驗(yàn)

為了驗(yàn)證各個(gè)模塊的作用，以YOLOv5s為基礎(chǔ)，進(jìn)行逐步添加和替換，結(jié)果見(jiàn)表3。從表3中可以看出，與初始的YOLOv5s模型相比，單獨(dú)添加BiFPN、Triplet或Focal-CIoU模塊的模型準(zhǔn)確率、召回率和mAP均有一定的提升。同時(shí)添加2種模塊時(shí)，取得的效果更佳，添加BiFPN+Triplet的模型mPA比單獨(dú)添加BiFPN的提高了0.4個(gè)百分點(diǎn)、準(zhǔn)確率比單獨(dú)添加Triplet的提高2.9個(gè)百分點(diǎn)；添加Triplet+Focal-CIoU的模型準(zhǔn)確率和mAP比單獨(dú)添加Triplet的分別提高1.1和0.3個(gè)百分點(diǎn)；添加BiFPN+Focal-CIoU的模型準(zhǔn)確率和mAP比單獨(dú)添加Focal-CIoU的分別提高1.7和1.0個(gè)百分點(diǎn)。當(dāng)三者同時(shí)添加時(shí)，提高了模型對(duì)缺陷蘋(píng)果的感知能力，與YOLOv5s模型相比，準(zhǔn)確率、召回率和mAP分別提高5.7、2.2和3.5個(gè)百分點(diǎn)。

為了驗(yàn)證Focal-CIoU損失函數(shù)的優(yōu)越性，本文設(shè)計(jì)了YOLOv5s-BiFPN-Triplet+損失函數(shù)的消融試驗(yàn)，結(jié)果見(jiàn)表4。由表4可知， A+ C I o U+F o c a l 與次優(yōu)模型 SIoU相比，準(zhǔn)確率提高了1個(gè)百分點(diǎn)、召回率和mAP提高0.2個(gè)百分點(diǎn)、 F 1 提高0.62個(gè)百分點(diǎn)；雖然 A+ WIoU的準(zhǔn)確率與 Focal相同，但召回率、mAP和 F 1 均低于 A+CI 0U+ Focal。綜合準(zhǔn)確率、召回率、mAP和 F 1 等指標(biāo)，A+ CIoU+Focal是最優(yōu)模型。

Table 4 Comparison of Focal-CIoUwith other loss functions

2.6 模型有效性驗(yàn)證

為了證明本文提出模型（BTF-YOLOv5s）的有效性，與當(dāng)前主流的目標(biāo)檢測(cè)模型進(jìn)行對(duì)比（表5）。

表4Focal-CIoU與其他損失函數(shù)對(duì)比表5BTF-YOLOv5與其他模型的對(duì)比Table 5 ComparisonofBTF-YOLOv5 withother model：

由表5可見(jiàn)，與SSD相比，BTF-YOLOv5s的準(zhǔn)確率提高了4.8個(gè)百分點(diǎn)、召回率和mAP分別提高了4.1和5.7個(gè)百分點(diǎn)，模型大小大幅度減小；與YOLOv3相比，BTF-YOLOv5s的準(zhǔn)確率提高近10個(gè)百分點(diǎn)，模型小了近8倍；與YOLOv4相比，BTF-YOLOv5s雖然準(zhǔn)確率低了3.1個(gè)百分點(diǎn)，但召回率和mAP分別提升近20和13個(gè)百分點(diǎn)，模型大小減少了17倍；與YOLOv5s、YOLOv7和YOLOv8s相比，BTF-YOLOv5s在準(zhǔn)確率、召回率和mAP方面均有提升；YOLOv8n和YOLOv9的準(zhǔn)確率相較于BTF-YOLOv5s各提高0.6和4.9個(gè)百分點(diǎn)，但二者召回率過(guò)低； F 1 顯示BTF-YOLOv5s是最優(yōu)的。綜合分析，BTF-YOLOv5s顯著優(yōu)于大多數(shù)目標(biāo)檢測(cè)模型，更具有優(yōu)勢(shì)。圖6直觀地展示了SSD、YOLOv3、YOLOv5s等模型與BTF-YOLOv5s的mAP比較，在訓(xùn)練輪次逐步增加的過(guò)程中，BTF-YOLOv5s的mAP最終穩(wěn)定在 90 % 左右，明顯優(yōu)于其他模型。

圖6不同模型的mAP值對(duì)比Fig.6ThecomparisonofmAPvaluesofdifferentmodels

2.7 應(yīng)用場(chǎng)景試驗(yàn)結(jié)果

本模型的應(yīng)用場(chǎng)景之一即蘋(píng)果采摘機(jī)器人在采摘過(guò)程中的分揀，故選擇缺陷蘋(píng)果所處的自然環(huán)境下的場(chǎng)景以及擺放不規(guī)整的場(chǎng)景。如圖7所示，其中，第1行圖像為原始圖像、第2行圖像為

圖7不同模型的檢測(cè)結(jié)果對(duì)比Fig.7Comparison of test results of different models

YOLOv5s檢測(cè)圖、第3行圖像為BTF-YOLOv5s檢測(cè)圖；在圖7的第1列中，BTF-YOLOv5s能夠有效檢測(cè)出正常蘋(píng)果與缺陷蘋(píng)果，準(zhǔn)確率比YOLOv5s有顯著提升；在第2列中對(duì)于像素更少的瑕疵斑點(diǎn)，YOLOv5s模型不僅出現(xiàn)了誤檢，而且準(zhǔn)確率也低于BTF-YOLOv5s;在第3列中，BTF-YOLOv5s模型的檢測(cè)效果明顯優(yōu)于YOLOv5s模型。

3結(jié)論

為了實(shí)現(xiàn)對(duì)瑕疵蘋(píng)果的快速準(zhǔn)確檢測(cè)，本文提出基于BiFPN和Triplet注意力機(jī)制的YOLOv5s缺陷蘋(píng)果識(shí)別算法。通過(guò)加權(quán)雙向特征金字塔網(wǎng)絡(luò)（BiFPN）來(lái)學(xué)習(xí)不同的輸入特征；采用Triplet注意力機(jī)增強(qiáng)模型對(duì)目標(biāo)之間的關(guān)聯(lián)和上下文信息的表示能力；采用Focal-CIoU損失函數(shù)，在計(jì)算損失時(shí)調(diào)整損失權(quán)重，給予目標(biāo)物體更多的關(guān)注。注意力機(jī)制的應(yīng)用使模型更加關(guān)注目標(biāo)，在4種位置的插入對(duì)比中，YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)最后一層的插入位置表現(xiàn)最為優(yōu)越，與在網(wǎng)絡(luò)結(jié)構(gòu)SPPF前面和最后一層添加相比，準(zhǔn)確率、召回率和mAP分別提高了0.3、5.9 和3.8個(gè)百分點(diǎn);BiFPN與SE、CBAM、CA、Triplet注意力機(jī)制兩兩組合，驗(yàn)證了BiFPN + Triplet的優(yōu)越性；相較于BiFPN+CA，準(zhǔn)確率、召回率和mAP分別提升了0.7、1.9和0.3個(gè)百分點(diǎn)。消融試驗(yàn)表明，以YOLOv5s為基礎(chǔ)，同時(shí)添加3種模塊的準(zhǔn)確率、召回率和mAP分別提高了5.7、2.2和3.5個(gè)百分點(diǎn)，提升效果顯著。以YOLOv5s-BiFPN-Triplet為基礎(chǔ)，F(xiàn)ocal-CIoU的準(zhǔn)確率比次優(yōu)損失函數(shù)SIoU高1個(gè)百分點(diǎn)；準(zhǔn)確率、召回率和mAP比主流的YOLOv7算法提高了1.5、2.7和2.9個(gè)百分點(diǎn)，同時(shí)，模型大小從 1 4 2 . 1 M B 減小到 1 4 . 7 M B 顯著降低了內(nèi)存占用，在計(jì)算資源受限的環(huán)境中，為部署目標(biāo)檢測(cè)系統(tǒng)提供了有力支持。YOLOv8n和YOLOv9的準(zhǔn)確率雖略高于BTF-YOLOv5s，但均面臨召回率過(guò)低的問(wèn)題，而YOLOv8s的準(zhǔn)確率只有 7 3 . 6 % 。在應(yīng)用場(chǎng)景的對(duì)比試驗(yàn)中，BTF-YOLOv5s也表現(xiàn)出較好的優(yōu)越性。

參考文獻(xiàn)：

[1]牛桂草，宋卓展，劉暢，等.中國(guó)蘋(píng)果貿(mào)易競(jìng)爭(zhēng)力評(píng)價(jià)與分析[J].河北農(nóng)業(yè)科學(xué)，2022，26（3）：97-100

[2]李大華，孔舒，李棟，等.基于改進(jìn)YOLOv7的蘋(píng)果表面缺陷輕量化檢測(cè)算法[J].河南農(nóng)業(yè)科學(xué)，2024，53（3）：141-150.

[3]李大華，趙輝，于曉.基于改進(jìn)譜聚類的重疊綠蘋(píng)果識(shí)

J 2974-2981.

[4]王迎超，張婧婧，賈東霖，等.基于 K ? -means聚類和改進(jìn) MLP的蘋(píng)果分級(jí)研究[J].河南農(nóng)業(yè)科學(xué)，2023， 52（1）： 161-171.

[5]宋怡煥，饒秀勤，應(yīng)義斌.基于DT-CWT和LS-SVM的蘋(píng)果果梗/花萼和缺陷識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào)，2012， 28（9）： 114-118.

[6]張震，周俊，江自真，等.基于改進(jìn)YOLO v7輕量化模型的自然果園環(huán)境下蘋(píng)果識(shí)別方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào)， 2024， 55（3）： 231-242.

[7]袁杰，謝霖偉，郭旭，等.基于改進(jìn)YOLO v7的蘋(píng)果葉片病害檢測(cè)方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào)，2024，55（11）：68- 74.

[8]張莉，王曉格，鮑春，等.輕量級(jí)多任務(wù)的蘋(píng)果成熟度分類模型（特邀）[J].激光與光電子學(xué)進(jìn)展，2024，61（20）： 141-149.

[9]閆彬，樊攀，王美茸，等.基于改進(jìn)YOLOv5m 的采摘機(jī) 器人蘋(píng)果采摘方式實(shí)時(shí)識(shí)別[J].農(nóng)業(yè)機(jī)械學(xué)報(bào)，2022， 53（9）： 28-38.

[10] 張陽(yáng)婷，黃德啟，王東偉，等.基于深度學(xué)習(xí)的目標(biāo)檢測(cè) 算法研究與應(yīng)用綜述[J].計(jì)算機(jī)工程與應(yīng)用，2023， 59（18）： 1-13.

[11] REN S Q， HE K M， GIRSHICK R， et al. Faster R-CNN： Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattrn Analysis and Machine Intelligence， 2017， 39（6）： 1137-1149.

[12] HE K， GKIOXARI G， DOIIAR P， et al. Mask R-CNN [C]//Proceedings of the IEEE International Conference on Computer Vision（ICCV）. Venice： IEEE， 2017： 2961- 2969.

[13] LIN T Y， GOYAL P， GIRSHICK R， et al. Focal loss for dense object detection[C]// Proceedings of the IEEE Intermational Conference on Computer Vision （ICCV）. Venice： IEEE，2017： 2999-3007.

[14] LIU W， ANGUELOV D， ERHAN D， et al. SSD： Single shot MultiBox detector[C]// Computer Vision - ECCV 2016. Cham： Springer International Publishing， 2016： 21- 37.

[15] LIU X D， GONG W Y， SHANG L L， et al. Remote sensing image target detection and recognition based on YOLOv5[J]. Remote Sensing， 2023， 15（18）： 4459.

[16] LI C， LI L， JIANG H， et al. YOLOv6： A single-stage object detection framework for industrial applications [EB/OL]. arXiv： 2209.02976. （2022-09-07）[2024-06-18]. https：//doi.0rg/10.48550/arXiv.2209.02976.

[17] WANG C Y，BOCHKOVSKIY A， LIAO H M.

YOLOv7： Trainable bag-of-freebies sets new state-ofthe-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Vancouver： IEEE，2023：7464-7475.

[18] TIAN L L， ZHANG H X，LIU B， et al. VMF-SSD： A novel V-space based multi-scale feature fusion SSD for apple leaf disease detection[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics， 2023， 20（3）： 2016-2028.

[19] WANG D D， HE D J. Channel pruned YOLO V5s-based deep learning approach for rapid and accurate apple fruitlet detection before fruit thinning[J]. Biosystems Engineering，2021，210：271-281.

[20]化春鍵，孫明春，蔣毅，等.基于改進(jìn)YOLOv7-tiny的多光譜蘋(píng)果表層缺陷檢測(cè)[J].激光與光電子學(xué)進(jìn)展， 2024，61（10）： 236-244.

[21] 朱琦，周德強(qiáng)，盛衛(wèi)鋒，等.基于DSCS-YOLO 的蘋(píng)果表面缺陷檢測(cè)方法[J].南京農(nóng)業(yè)大學(xué)學(xué)報(bào)，2024，47（3）： 592-601.

[22] LIN T Y， DOLLAR P， GIRSHICK R， et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu： IEEE，2017： 936-944.

[23] LIU S， QI L， QIN H F， et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City： IEEE，2018： 8759-8768.

[24] TAN MX，PANGR M， LE QV. EfficientDet： Scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Seattle： IEEE，2020： 10778-10787.

[25] HU J， SHEN L， SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City： IEEE， 2018： 7132-7141.

[26] WOO S，PARK J，LEE JY， et al. CBAM： Convolutional block attention module[C]// Computer Vision - ECCV 2018.Cham：Springer International Publishing， 2018：3- 19.

[27]MISRA D， NALAMADA T， ARASANIPALAI AU， et al. Rotate to attend： Convolutional triplet attention module[C]//2021 IEEE Winter Conference on Applications of Computer Vision （WACV）. Waikoloa： IEEE，2021： 3138-3147.

[28]LIN T Y，GOYAL P， GIRSHICK R， et al. Focal loss for denseobject detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence， 2020， 42（2）： 318-327.

[29] ZHENG Z H， WANG P，LIU W， et al. Distance-IoU loss： Faster and better learning for bounding box regression[J]. Proceedingsof theAAAIConferenceonArtificial Intelligence，2020，34（7）： 12993-13000.

【責(zé)任編輯周志紅】