















摘要:
為解決人工分選蠶繭效率低、 工作量大以及容易發(fā)生誤選、 漏選等問題, 提出一種基于機(jī)器視覺與改進(jìn)YOLOv8的蠶繭種類輕量化檢測模型。 該模型在主干網(wǎng)絡(luò)的C2f模塊中引入CA(Coordinate Attention)注意力模塊, 可以有效提取蠶繭局部關(guān)鍵特征, 加強(qiáng)網(wǎng)絡(luò)模型的學(xué)習(xí)能力。 將頸部網(wǎng)絡(luò)中標(biāo)準(zhǔn)卷積替換為GSConv輕量化卷積, 從而減少模型參數(shù)量, 提高模型的檢測準(zhǔn)確率。 通過攝像頭采集實(shí)際生產(chǎn)環(huán)境中傳送帶上的蠶繭圖像構(gòu)建數(shù)據(jù)集, 并對這些圖像進(jìn)行預(yù)處理和數(shù)據(jù)增強(qiáng)等操作, 以提高模型的泛化能力。 研究結(jié)果表明: 改進(jìn)的YOLOv8模型參數(shù)量僅為2.93 MB, 在測試集上的平均精度均值mAP0.5達(dá)到92.0%, 比原YOLOv8模型高出6.6個(gè)百分點(diǎn)。 在同一試驗(yàn)條件下, 該模型的整體性能優(yōu)于主流目標(biāo)檢測算法模型Faster R-CNN、 YOLOv5、 YOLOv7、 YOLOv8s和YOLOv8m, 其中該模型的mAP0.5比其他模型分別高出41.5、 29.0、 17.7、 2.6和1.2個(gè)百分點(diǎn), 滿足蠶繭相距較近、 桑葉殘?jiān)趽酢?蠶絲包裹、 蠶繭相互堆疊分布的情況下蠶繭檢測輕量化模型的要求, 為智能化蠶繭分選裝備的研發(fā)提供了理論基礎(chǔ)。
關(guān)"鍵"詞:蠶繭種類檢測; YOLOv8模型; CA注意力機(jī)制; GSConv卷積
中圖分類號:TP391.4; S886.3
文獻(xiàn)標(biāo)志碼:A
文章編號:16739868(2025)04019311
Cocoon Species Detection Algorithm
Based on Improved YOLOv8
TANG Maojie,"SHI Hongkang,"ZHU Shiping,
TIAN Dingyi,"ZOU Jiaqi,"ZHANG Yue,"ZHAO Hu
College of Engineering and Technology, Southwest University, Chongqing 400715, China
Abstract:
In order to solve the problems of low efficiency, large workload, and easy 1 and missed selection in manual sorting of silkworm cocoons, a lightweight detection model of silkworm cocoons based on improved YOLOv8 was proposed. The model can effectively extract the local key features of the silkworm cocoon and strengthen the learning ability of the network model by introducing the coordinate attention module into the C2f module of the backbone network. It also replaced the standard convolution in the neck network with the lightweight convolution GSConv to reduce the number of model parameters and improve the detection accuracy of the model. In this study, the dataset was constructed by collecting images of silkworm cocoons on conveyor belts with a camera in the actual production environment, and the collected images were preprocessed and the data was augmented to improve the generalization ability of the model. The study found that the number of parameters of the improved YOLOv8 model was only 2.93 MB, and the mean average precision mAP0.5 on the test set reached 92.0%, which was 6.6 percentage points higher than that of the original YOLOv8 model. Under the same experimental conditions, the overall performance of this improved YOLOv8 model was better than that of the mainstream object detection algorithm models such as Faster R-CNN, YOLOv5, YOLOv7, YOLOv8s and YOLOv8m, where the mAP0.5 of this model was 41.5 percentage points, 29.0 percentage points, 17.7 percentage points, 2.6 percentage points and 1.2 percentage points higher than that of other models, respectively. The algorithm proposed in this study meets the requirements of the lightweight model for detection of silkworm cocoons in the case of small cocoon spacing, mulberry leaf residue sheltering, silk wrapping, and stacked distribution of cocoons, and provides a theoretical basis for the development of intelligent silkworm cocoon sorting equipment.
Key words:
detection categories of cocoon; YOLOv8 model; coordinate attention; GSConv
蠶桑文化在我國具有悠久的歷史, 我國的絲綢產(chǎn)量規(guī)模更是穩(wěn)居世界第一。 蠶繭是蠶桑生產(chǎn)最主要的產(chǎn)物, 也是蠶絲工藝的原料。 生產(chǎn)過程中, 需要對鮮繭進(jìn)行混繭、 剝繭、 選繭、 煮繭、 繅絲、 復(fù)搖、 整理等一系列分選工序[1-3], 只有品質(zhì)合格的蠶絲才能進(jìn)一步變成絲綢。 由于養(yǎng)殖過程中家蠶結(jié)繭的質(zhì)量會(huì)受到環(huán)境、 溫度、 病害等因素的影響, 因此繅絲前需要對蠶繭進(jìn)行分選。 常見的蠶繭種類包括上車?yán)O、 黃斑繭、 柴印繭和畸形繭等[4], 其中黃斑繭、 柴印繭和畸形繭為下繭, 不能進(jìn)行繅制或很難被繅制成蠶絲。 選繭時(shí)主要依賴工人手工處理, 工作量大, 容易發(fā)生誤檢和漏檢, 且效率較低, 利用計(jì)算機(jī)視覺技術(shù)和深度學(xué)習(xí)算法能夠代替人工實(shí)現(xiàn)自動(dòng)化蠶繭分選工作。 快速輕量化的蠶繭檢測算法對蠶繭自動(dòng)分選以及實(shí)現(xiàn)蠶桑生產(chǎn)自動(dòng)化起著決定性作用, 因此, 在蠶桑絲綢領(lǐng)域開展自動(dòng)分類識別研究具有重要意義和廣闊的發(fā)展前景[5]。
國內(nèi)外許多研究者將深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在農(nóng)產(chǎn)品分類領(lǐng)域的研究中。 王樹文等[6]采用BP算法對番茄缺陷進(jìn)行分類檢測, 檢測準(zhǔn)確率不低于90.0%。 李善軍等[7]改進(jìn)SSD模型對柑橘進(jìn)行實(shí)時(shí)分類檢測, 平均精度均值(mAP)達(dá)到87.9%。 隨著計(jì)算機(jī)水平的發(fā)展, YOLO作為輕量化的單階段目標(biāo)檢測模型, 在保證精度的同時(shí), 具有檢測速度快、 魯棒性高等特點(diǎn), 已廣泛應(yīng)用于農(nóng)產(chǎn)品成熟度檢測、 病蟲害檢測等領(lǐng)域[8-9]。 趙輝等[10]替換YOLOv3主干網(wǎng)絡(luò)中的激活函數(shù), 使水稻葉部病害的mAP達(dá)到92.9%。 呂金銳等[11]改進(jìn)YOLOv4模型, 解決了現(xiàn)有番茄成熟度檢測精度低等問題, mAP達(dá)到92.5%。 王磊磊等[12]基于YOLOv5提出OMM-YOLO平菇目標(biāo)檢測與分類模型, 對平菇檢測準(zhǔn)確率達(dá)到89.6%。 陳鋒軍等[13]基于YOLOv7引入十字交叉注意力機(jī)制, 檢測油茶果實(shí)成熟度的mAP達(dá)到94.6%。 馬超偉等[14]提出基于改進(jìn)YOLOv8的小麥病害檢測方法, 其mAP達(dá)到91.4%。 目前研究者在蠶桑檢測領(lǐng)域也取得了一定的進(jìn)展。 石洪康等[15-18]提出基于深度學(xué)習(xí)網(wǎng)絡(luò)的家蠶識別方法, 奠定了家蠶智能化養(yǎng)殖的基礎(chǔ)。 代芬等[19]利用近紅外光譜技術(shù)對蠶繭樣本進(jìn)行雌雄鑒別, 正確率達(dá)到90.0%。 劉莫塵等[20-21]采用圖像空間的Brown畸變模型和Mean Shift聚類算法進(jìn)行預(yù)分割來檢測蠶繭, 對方格蔟中的蠶繭檢測準(zhǔn)確率達(dá)到96.9%; 采用基于模糊C均值聚類及HSV模型的算法對方格蔟內(nèi)黃斑繭的檢測準(zhǔn)確率達(dá)到81.2%。 陳國棟[22]在Faster R-CNN算法中引入注意力機(jī)制以及引入空洞卷積替換pooling操作, 對蠶繭識別的mAP為78.2%。 李時(shí)杰等[23]將YOLOv3算法進(jìn)行輕量化改進(jìn), 采用C均值聚類算法, 對蠶繭識別的mAP達(dá)到92.5%, 檢測速度為每秒20幀, 有效地識別出蠶繭類別。
然而上述蠶繭檢測模型的研究與應(yīng)用比較依賴蠶繭單粒的分布, 對于蠶繭相距較近、 桑葉殘?jiān)趽酢?蠶絲包裹、 蠶繭相互堆疊分布情況下的蠶繭種類檢測存在一定局限性。 本文聚焦于實(shí)現(xiàn)上述情況下蠶繭種類的快速和精準(zhǔn)檢測, 根據(jù)不同蠶繭種類在視覺上的顯著區(qū)別, 以常見的上車?yán)O、 黃斑繭、 柴印繭和畸形繭為識別對象, 提出一種基于改進(jìn)YOLOv8的蠶繭種類檢測模型, 通過在主干網(wǎng)絡(luò)的C2f模塊中添加CA注意力機(jī)制, 增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力和表達(dá)能力, 在頸部網(wǎng)絡(luò)中將普通卷積替換為GSConv輕量化卷積, 實(shí)現(xiàn)網(wǎng)絡(luò)的輕量化, 不僅提高了模型的檢測精度, 且檢測速度也得到極大提升, 以期為智能化蠶繭分選裝備的研發(fā)提供參考。
1"數(shù)據(jù)集與模型
1.1"蠶繭檢測圖像數(shù)據(jù)集
1.1.1"圖像采集
數(shù)據(jù)集拍攝地點(diǎn)位于四川省農(nóng)業(yè)科學(xué)院蠶業(yè)研究所(四川省南充市), 拍攝對象為我國西南地區(qū)的主推家蠶品種之一: 芳·秀×白·春[24]的蠶繭, 包括上車?yán)O、 黃斑繭、 柴印繭和畸形繭4個(gè)不同種類, 采集時(shí)間為2023年9月21日, 采集過程在室內(nèi)的自然光照條件下進(jìn)行, 采用拍攝架拍攝6 h。 采集設(shè)備使用1 200萬像素高清無畸變大廣角定焦USB相機(jī), 該相機(jī)的分辨率為1 920×1 080, 焦段為3.2 mm, 尺寸為95 mm×59 mm×45 mm, 重量為167 g, 水平視角為85°, 拍攝場景如圖1所示。 采集圖像時(shí), 將蠶繭放置于傳送帶上, 當(dāng)蠶繭位于拍攝裝置正下方時(shí)開始拍攝, 蠶繭之間相距較近, 有桑葉殘?jiān)趽酢?蠶絲包裹、 蠶繭相互堆疊分布的情況。 在拍攝過程中, 相機(jī)高度為170 cm, 距離拍攝目標(biāo)約60 cm, 在相機(jī)的允許視距范圍之內(nèi)。 為避免圖像尺寸縮放后蠶繭形狀發(fā)生變化, 需設(shè)置相同的焦距進(jìn)行采集, 外接便攜式計(jì)算機(jī)用于圖像存儲。 試驗(yàn)期間共拍攝蠶繭圖像1 630張。
1.1.2"數(shù)據(jù)集構(gòu)建與預(yù)處理
完成圖像采集后, 將蠶繭圖像放置在images文件夾內(nèi), 構(gòu)建蠶繭種類圖像數(shù)據(jù)集。 圖像尺寸為864×648像素。 拍攝的全部圖像按照8∶1∶1的比例將數(shù)據(jù)集劃分成訓(xùn)練集、 驗(yàn)證集和測試集, 分別包含1 304、 163和163張圖片, 其中訓(xùn)練集和驗(yàn)證集用于模型訓(xùn)練, 測試集用于測試訓(xùn)練完成后的模型效果識別。 為了提高所訓(xùn)練模型的泛化能力, 同時(shí)盡量避免網(wǎng)絡(luò)發(fā)生過擬合現(xiàn)象, 在劃分的3個(gè)數(shù)據(jù)集嚴(yán)格獨(dú)立的前提下, 對所獲得的圖像進(jìn)行數(shù)據(jù)增強(qiáng), 將原始圖像采用三分之一的概率隨機(jī)角度旋轉(zhuǎn)、 三分之一的概率水平翻轉(zhuǎn)、 三分之一的概率垂直翻轉(zhuǎn), 最終訓(xùn)練集增強(qiáng)后為1 456張圖片, 驗(yàn)證集與測試集增強(qiáng)后均為182張圖片, 數(shù)據(jù)集總體擴(kuò)充至1 820張。 增強(qiáng)前后的部分圖像如圖2所示。
使用LabelImg軟件標(biāo)注蠶繭。 以目標(biāo)的最小外接矩形框進(jìn)行蠶繭的標(biāo)注, 上車?yán)O標(biāo)注標(biāo)簽為“Upper”, 黃斑繭標(biāo)注標(biāo)簽為“Yellowspotted”, 柴印繭標(biāo)注標(biāo)簽為“Chaiyin”, 畸形繭標(biāo)注標(biāo)簽為“Deformed”, 標(biāo)注圖像如圖3所示。
標(biāo)注結(jié)果生成XML文件, 通過腳本代碼將XML文件轉(zhuǎn)化成YOLOv8模型能夠識別的TXT文件。 TXT文件格式存儲的信息包括: 目標(biāo)類別、 長寬尺寸以及標(biāo)注框坐標(biāo)位置信息。
1.2"蠶繭種類檢測模型
1.2.1"YOLOv8模型
經(jīng)過多年的發(fā)展, YOLO系列算法[25-28]目前已經(jīng)更新到Y(jié)OLOv12版本, 其中YOLOv8屬于使用較多的經(jīng)典一階段目標(biāo)檢測網(wǎng)絡(luò)[29], 包括5個(gè)模型結(jié)構(gòu), 分別是YOLOv8n、 YOLOv8s、 YOLOv8m、 YOLOv8l與YOLOv8x, 這5個(gè)模型的深度會(huì)依次增大。 其中, YOLOv8n結(jié)構(gòu)最簡潔且檢測時(shí)間最少, 而YOLOv8s、 YOLOv8m、 YOLOv8l與YOLOv8x的深度過大會(huì)增加檢測時(shí)間。 檢測時(shí)間的增加并不利于后續(xù)蠶繭實(shí)時(shí)分類, 結(jié)合農(nóng)業(yè)生產(chǎn)實(shí)踐, 本文選用YOLOv8n結(jié)構(gòu), 既保證了檢測精度, 又最大程度地保證了識別速度, 降低了計(jì)算機(jī)內(nèi)存占用量, 因此可以作為輕量化檢測的基準(zhǔn)模型。 YOLOv8網(wǎng)絡(luò)主要由輸入端、 主干網(wǎng)絡(luò)、 頸部網(wǎng)絡(luò)、 檢測端和輸出端組成。 主干網(wǎng)絡(luò)用于特征提取, 提取的信息傳入頸部網(wǎng)絡(luò), 其中的C2f模塊能夠捕獲場景中不同層次的特征信息, 通過殘差結(jié)構(gòu)增強(qiáng)特征表達(dá)能力, 提升模型的檢測性能和感受野; 頸部網(wǎng)絡(luò)將不同尺度的特征圖進(jìn)行融合, 同時(shí)將不同層次聚合的特征傳入檢測端; 檢測端將之前提取的特征進(jìn)行預(yù)測, 輸出特征圖。
1.2.2"改進(jìn)的YOLOv8模型
本文以YOLOv8模型為基礎(chǔ)加以改進(jìn), 以適應(yīng)復(fù)雜環(huán)境背景下蠶繭種類的檢測, 在主干網(wǎng)絡(luò)的C2f模塊中引入CA注意力模塊[30], 增強(qiáng)網(wǎng)絡(luò)特征提取能力, 使模型更有效地定位目標(biāo), 能夠在關(guān)注大范圍位置信息的同時(shí), 避免增加過多的計(jì)算成本。 在頸部網(wǎng)絡(luò)中將標(biāo)準(zhǔn)卷積替換成GSConv模塊[31], 提升特征融合能力, 從而提高識別效率和識別準(zhǔn)確率, 確保在實(shí)際蠶繭分選的復(fù)雜背景下, 不會(huì)引入額外的參數(shù), 也不會(huì)增加訓(xùn)練的時(shí)間, 進(jìn)一步提高收斂速度從而實(shí)現(xiàn)優(yōu)化網(wǎng)絡(luò)的作用。 改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
在圖4中, “Conv”代表3×3的卷積運(yùn)算, “C2f”代表將不同層的特征圖進(jìn)行融合, “C2f-CA”代表使用嵌入CA注意力模塊的C2f操作, “SPPF”代表使用空間金字塔池化層進(jìn)行池化運(yùn)算, “Concat”代表特征拼接, “Upsample”代表上采樣, “GSConv”代表輕量化卷積, “Detect”代表檢測頭。
YOLOv8的運(yùn)算流程是: ① 將尺寸為864×648像素的輸入圖像進(jìn)行裁剪后, 采用雙線性插值法將圖像尺寸縮小為640×640像素。 ② 在主干網(wǎng)絡(luò)中, 使用64個(gè)步長為2的3×3卷積核進(jìn)行卷積, 得到1/2特征圖, 并使用順序堆疊的“Conv”和“C2f”提取特征圖, 分別得到2/4特征圖、 3/8特征圖、 4/16特征圖與5/32特征圖, 其中“C2f”的最后一次操作起到降維作用。 ③ 在主干網(wǎng)絡(luò)最后一層通過1 024個(gè)通道的SPPF層, 使用5個(gè)大小不同的池化核進(jìn)行池化操作。 ④ 經(jīng)過主干網(wǎng)絡(luò)的計(jì)算后, 得到的特征圖會(huì)作為頸部網(wǎng)絡(luò)的輸入, 在特征融合網(wǎng)絡(luò)中進(jìn)行一系列的上采樣和下采樣操作, 實(shí)現(xiàn)不同層特征圖的拼接, 增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力和表達(dá)能力。 ⑤ 經(jīng)過頸部網(wǎng)絡(luò)運(yùn)算后的特征, 在檢測端分別使用2個(gè)3×3的卷積運(yùn)算, 對結(jié)果進(jìn)行預(yù)測, 最終輸出網(wǎng)絡(luò)的識別結(jié)果。
1.2.3"注意力機(jī)制
按照生產(chǎn)實(shí)際, 在傳送帶上隨機(jī)放置要檢測的蠶繭, 由于各個(gè)蠶繭之間相距較近, 會(huì)出現(xiàn)相互堆疊的現(xiàn)象, 且有繭絲纏繞, 導(dǎo)致目標(biāo)檢測算法在蠶繭種類的檢測上精度不高, 因此需要添加注意力機(jī)制[32]進(jìn)行動(dòng)態(tài)加權(quán)計(jì)算來定位感興趣目標(biāo), 忽視不相關(guān)的背景區(qū)域。
注意力機(jī)制是一種在深度學(xué)習(xí)中被廣泛應(yīng)用于不同領(lǐng)域的機(jī)器學(xué)習(xí)方法, 通過網(wǎng)絡(luò)自主學(xué)習(xí)和選擇性關(guān)注信息, 提高網(wǎng)絡(luò)模型的性能。 目前常用的幾種注意力機(jī)制有: 壓縮與激活注意力(SE)模塊, 屬于通道注意力機(jī)制[33-34], 針對通道維度關(guān)注感興趣的信息, 從而忽略空間維度的信息, 不適用于輕量化蠶繭識別這類低通道數(shù)的模型; 卷積注意力(CBAM)模塊, 是一種結(jié)合了通道注意力和空間注意力的模型[35-36], 兩者的權(quán)重相結(jié)合會(huì)導(dǎo)致計(jì)算成本增大, 且缺乏提取長距離依賴的能力, 不適用于輕量化的蠶繭種類實(shí)時(shí)檢測模型; 2021年Hou等[30]提出了CA注意力模塊, 通過并行處理獲得2個(gè)特征層, 利用卷積標(biāo)準(zhǔn)化獲得特征圖, 且對通道數(shù)進(jìn)行縮放可以減少網(wǎng)絡(luò)的參數(shù)量。
為更精準(zhǔn)識別蠶繭種類, 在主干網(wǎng)絡(luò)的C2f模塊中引入CA注意力模塊, 設(shè)計(jì)一個(gè)CA Block結(jié)構(gòu)來替換YOLOv8中的Bottleneck結(jié)構(gòu), 所構(gòu)建的CA Block結(jié)構(gòu)如圖5所示。
主干網(wǎng)絡(luò)中的C2f模塊被替換成如圖6所示的C2f-CA結(jié)構(gòu), 能夠有效提取蠶繭局部關(guān)鍵特征, 從而加強(qiáng)網(wǎng)絡(luò)模型的學(xué)習(xí)能力。
1.2.4"GSConv模塊
在模型的頸部網(wǎng)絡(luò)中, 使用輕量化卷積GSConv來代替標(biāo)準(zhǔn)卷積, 能夠有效降低模型的計(jì)算成本, 提高模型的性能和泛化能力, 為蠶繭種類檢測算法提供了一種高效的、 輕量化的設(shè)計(jì)方法。
在圖7中, 對于輸入特征圖進(jìn)行特征提取時(shí), GSConv先進(jìn)行一個(gè)標(biāo)準(zhǔn)卷積運(yùn)算, 然后將特征圖通過“Split”切片成2個(gè)二分之一通道數(shù)的子特征圖, 對于其中一個(gè)子特征圖, 使用深度可分離卷積運(yùn)算進(jìn)行特征提取, 另一個(gè)直接映射到下一層, 將2個(gè)子特征圖拼接并通過“Shuffle”隨機(jī)洗牌進(jìn)行通道調(diào)整后輸出。 該方法能夠顯著增強(qiáng)網(wǎng)絡(luò)的感受野, 并實(shí)現(xiàn)局部特征的捕獲, 從而增強(qiáng)模型的性能。
1.3"試驗(yàn)設(shè)計(jì)
1.3.1"試驗(yàn)環(huán)境與參數(shù)設(shè)置
本文搭建的檢測模型和參與對比試驗(yàn)的模型均在相同的環(huán)境下進(jìn)行試驗(yàn), 主要環(huán)境配置如表1所示。
所有的模型使用相同的超參數(shù)進(jìn)行訓(xùn)練, 包括: 迭代次數(shù)為300次, 初始學(xué)習(xí)率設(shè)置為0.001, 動(dòng)量因子為0.937, Batch Size為16。
1.3.2"評價(jià)指標(biāo)
本文采用模型的參數(shù)量(Params)、 浮點(diǎn)運(yùn)算數(shù)(FLOPs)以及在測試集上的精確率(P)、 召回率(R)、 mAP0.5、 mAP0.5∶0.95、 F1值和檢測時(shí)間作為評價(jià)指標(biāo)[37-38], 其中檢測時(shí)間是指平均檢測每張圖片所需要的時(shí)間, 單位為ms。 精確率P與召回率R的計(jì)算公式分別為:
P=TPTP+FP(1)
R=TPTP+FN(2)
其中: TP(True Positive)表示預(yù)測為正類實(shí)際為正類的數(shù)量; FP(False Positive)表示預(yù)測為正類實(shí)際為負(fù)類的數(shù)量; FN(False Negative)表示預(yù)測為負(fù)類實(shí)際為正類的數(shù)量。 精確率P的分母表示預(yù)測為正的樣本數(shù), 分子表示實(shí)際為正的樣本數(shù)。 召回率R的分母表示真正總的正樣本數(shù), 分子表示預(yù)測正確的正樣本數(shù)。
由精確率P與召回率R可以得出平均精確率AP(Average Precision), 由AP計(jì)算出mAP。 其中, mAP0.5是指當(dāng)IoU為0.5時(shí)的mAP; mAP0.5∶0.95是指當(dāng)IoU閾值從0.5增加到0.95時(shí), 以0.05為步長上的mAP。
AP=∫10P·(R)dR(3)
mAP=∑Ki=1APiK(4)
式中: K表示類別的個(gè)數(shù)。
根據(jù)式(1)和式(2)可以得到F1值。 F1值是調(diào)和精確率P與召回率R的調(diào)和平均數(shù), 其計(jì)算公式為:
F1=2×P×RP+R(5)
2"試驗(yàn)與結(jié)果
2.1"不同注意力機(jī)制檢測結(jié)果對比
為驗(yàn)證本試驗(yàn)提出的改進(jìn)算法性能, 以改進(jìn)的YOLOv8模型為基礎(chǔ), 分別添加幾種不同的注意力機(jī)制模塊來進(jìn)行試驗(yàn)。 首先在注意力機(jī)制的選擇上, 對比了多種常見注意力模塊, 如壓縮與激活注意力(SE)模塊、 卷積注意力(CBAM)模塊、 高效通道注意力(ECA)[39]模塊, 分別將這些模塊單獨(dú)放置在卷積層之后與本文使用的C2f-CA注意力模塊進(jìn)行對比, 按照相同的試驗(yàn)超參數(shù)設(shè)置, 訓(xùn)練300個(gè)epoch后, 在同一個(gè)測試集上進(jìn)行推理驗(yàn)證, 最終識別效果如表2所示。 由表2可知, 在改進(jìn)模型中添加C2f-CA注意力模塊之后, 模型的檢測精度mAP0.5為92.0%, 與添加SE注意力模塊相比, mAP0.5提升了5.2個(gè)百分點(diǎn); 與添加CBAM注意力模塊相比, mAP0.5提升了9.4個(gè)百分點(diǎn); 與添加ECA注意力模塊相比, mAP0.5提升了6.5個(gè)百分點(diǎn)。
為了直觀比較添加不同注意力機(jī)制在測試集上的可視化結(jié)果, 利用熱力圖比較改進(jìn)YOLOv8模型添加不同注意力模塊對蠶繭種類特征的捕獲能力, 試驗(yàn)結(jié)果如圖8所示。
由圖8可知, 在添加SE、 CBAM、 ECA注意力模塊時(shí), 其模型捕獲特征的能力不如添加C2f-CA模塊時(shí)捕獲特征的能力強(qiáng), 尤其對于特征更為明顯的黃斑繭和畸形繭。 添加C2f-CA模塊時(shí), 模型對于蠶繭種類的檢測更加精準(zhǔn), 且能夠更好地定位檢測目標(biāo), 因此本文提出的方法比添加SE、 CBAM、 ECA注意力模塊更有積極意義, 更有利于模型對于蠶繭種類的識別。
2.2"與其他模型試驗(yàn)結(jié)果對比
為進(jìn)一步驗(yàn)證改進(jìn)YOLOv8模型的檢測效果, 使用幾種常見的經(jīng)典模型與該YOLOv8進(jìn)行對比試驗(yàn), 其中經(jīng)典模型包括兩階段目標(biāo)檢測算法Faster R-CNN[40]以及一階段目標(biāo)檢測算法YOLOv5、 YOLOv7、 YOLOv8s、 YOLOv8m、 YOLOv8-FastNet、 YOLOv8-MobileNet。 7種模型統(tǒng)一在本文中構(gòu)建的蠶繭數(shù)據(jù)集上進(jìn)行訓(xùn)練與測試, 同一環(huán)境下的對比試驗(yàn)結(jié)果如表3所示。
由表3可知, 改進(jìn)后的YOLOv8模型整體優(yōu)于其他網(wǎng)絡(luò)模型, mAP0.5為92.0%, 平均每張圖片的檢測時(shí)間為123.21 ms, P為91.2%, R為81%, F1值為85.80%, 相較于兩階段的目標(biāo)檢測算法Faster R-CNN, 每一項(xiàng)評價(jià)指標(biāo)都有較大提升。 對于一階段目標(biāo)檢測算法YOLOv5和YOLOv7, 本文算法在P上分別提高了3個(gè)百分點(diǎn)和13.2個(gè)百分點(diǎn), 平均每張圖片的檢測時(shí)間分別減少了0.56 ms和137.38 ms, 說明本文算法與其他經(jīng)典的一階段目標(biāo)檢測算法相比可以更精準(zhǔn)和快速地完成檢測任務(wù)。 本文算法是在YOLOv8n的基礎(chǔ)上改進(jìn)的, 由于模型深度的增加, YOLOv8s和YOLOv8m會(huì)在精度上較基準(zhǔn)模型YOLOv8n更高, 但同時(shí)會(huì)增加檢測時(shí)間和計(jì)算機(jī)的內(nèi)存量。 本文算法在性能上整體優(yōu)于YOLOv8s和YOLOv8m, 說明添加C2f-CA注意力機(jī)制模塊和GSConv模塊的方法對YOLOv8模型的改進(jìn)有積極意義, 且滿足網(wǎng)絡(luò)輕量化的要求, 有利于蠶繭種類的快速檢測, 提高生產(chǎn)效率, 降低生產(chǎn)成本。 對于輕量化模型YOLOv8-FastNet和YOLOv8-MobileNet, 本文改進(jìn)模型在P上分別提高了28.4個(gè)百分點(diǎn)和1.6個(gè)百分點(diǎn), 在mAP0.5上分別提高了9.2個(gè)百分點(diǎn)和8.7個(gè)百分點(diǎn), 但平均每張圖片的檢測時(shí)間分別增加了30.8 ms和4.34 ms。 雖然本文改進(jìn)模型在檢測時(shí)間上相較于YOLOv8-FastNet和YOLOv8-MobileNet有所增加, 但平均檢測精度提升接近10個(gè)百分點(diǎn), 且相較于其他模型而言, 檢測時(shí)間都有所降低, 說明對YOLOv8模型的改進(jìn)具有積極意義。
2.3"YOLOv8改進(jìn)前后可視化分析
為驗(yàn)證添加C2f-CA模塊和GSConv模塊的方法對原始模型的檢測能力具有一定的提升, 本節(jié)將原YOLOv8和改進(jìn)后的YOLOv8模型在測試集上的可視化結(jié)果進(jìn)行比較, 如圖9所示。 圖9為部分預(yù)測結(jié)果, 可以看到, 由于柴印繭的數(shù)量少且特征小, 在使用YOLOv8檢測時(shí), 其檢測精度相比本文模型較低, 說明本文方法檢測小目標(biāo)特征的性能優(yōu)于原YOLOv8模型。 對于檢測畸形繭和黃斑繭這種性狀相似的目標(biāo)時(shí), 原YOLOv8模型存在誤檢現(xiàn)象, 即將黃斑繭識別成畸形繭, 但是使用改進(jìn)后的YOLOv8模型可以準(zhǔn)確區(qū)分黃斑繭與畸形繭, 說明本文方法不僅在檢測小目標(biāo)特征時(shí)性能更優(yōu)越, 而且可以準(zhǔn)確區(qū)分相似特征, 適用于實(shí)際蠶繭分選的復(fù)雜環(huán)境。
改進(jìn)YOLOv8模型前后對不同蠶繭種類的檢測性能對比如表4所示, 改進(jìn)YOLOv8與原YOLOv8相比, 雖然對于黃斑繭的P比原YOLOv8低了2.5個(gè)百分點(diǎn), 但是對于上車?yán)O、 柴印繭、 畸形繭的P分別提升了1個(gè)百分點(diǎn)、 46.7個(gè)百分點(diǎn)、 20.2個(gè)百分點(diǎn), 且mAP0.5相比原YOLOv8模型更高, 提升了6.6個(gè)百分點(diǎn)。 改進(jìn)YOLOv8模型在參數(shù)量、 浮點(diǎn)運(yùn)算數(shù)以及模型大小方面比原YOLOv8模型的數(shù)值小, 有利于輕量化的設(shè)計(jì), 符合在移動(dòng)端應(yīng)用的條件。
2.4"改進(jìn)YOLOv8模型的消融試驗(yàn)
為了驗(yàn)證在基礎(chǔ)模型YOLOv8上添加C2f-CA注意力機(jī)制模塊和GSConv模塊對檢測精度的影響, 進(jìn)一步開展了消融試驗(yàn), 結(jié)果如表5所示。
由表5可知, 原YOLOv8模型對不同種類蠶繭檢測的P為74.8%, R為79.8%, mAP0.5為85.4%, mAP0.5∶0.95為76.1%; 在添加C2f-CA注意力機(jī)制后, P、 mAP0.5、 mAP0.5∶0.95分別提升了10.7個(gè)百分點(diǎn)、 4.8個(gè)百分點(diǎn)、 6.1個(gè)百分點(diǎn), R下降了5.6個(gè)百分點(diǎn), 表明有一些背景被識別成蠶繭; 在添加GSConv模塊后, P、 R、 mAP0.5、 mAP0.5∶0.95分別提升了5個(gè)百分點(diǎn)、 4.4個(gè)百分點(diǎn)、 1.2個(gè)百分點(diǎn)、 1.5個(gè)百分點(diǎn); 當(dāng)注意力機(jī)制C2f-CA模塊和GSConv模塊同時(shí)添加到Y(jié)OLOv8模型后, 綜合性能最優(yōu), P、 R、 mAP0.5、 mAP0.5∶0.95分別為91.2%、 81.0%、 92.0%、 82.8%, 比原YOLOv8模型的P、 R、 mAP0.5、 mAP0.5∶0.95分別提升了16.4個(gè)百分點(diǎn)、 1.2個(gè)百分點(diǎn)、 6.6個(gè)百分點(diǎn)、 6.7個(gè)百分點(diǎn)。 通過消融試驗(yàn)進(jìn)一步驗(yàn)證了本文算法的改進(jìn)具有積極意義。
3"結(jié)論
本文提出基于改進(jìn)YOLOv8的蠶繭種類輕量化檢測方法, 實(shí)現(xiàn)了蠶繭種類的快速精準(zhǔn)檢測, 得出如下結(jié)論:
1) 本文采用C2f-CA結(jié)構(gòu)進(jìn)行特征提取, 相比SE、 CBAM、 ECA 3種注意力機(jī)制, 本文嵌入的C2f-CA注意力模塊在準(zhǔn)確率上分別提升了7.9個(gè)百分點(diǎn)、 8.7個(gè)百分點(diǎn)、 10.8個(gè)百分點(diǎn), 該模型在蠶繭的種類檢測中產(chǎn)生了較好的效果。 采用GSConv模塊替換標(biāo)準(zhǔn)卷積, 模型參數(shù)量減少了3%, mAP0.5提高了1.2個(gè)百分點(diǎn), 達(dá)到86.6%, 驗(yàn)證了本文改進(jìn)模型的可行性。
2) 本文改進(jìn)的YOLOv8模型在測試集上的mAP0.5達(dá)到了92.0%, 模型的參數(shù)量僅為2.93 MB, 浮點(diǎn)運(yùn)算數(shù)為8.1 G, 平均每張圖片的檢測時(shí)間為123.21 ms, 相較于原YOLOv8基準(zhǔn)模型, 改進(jìn)的YOLOv8模型更具輕量化, 檢測精度更高。 與其他經(jīng)典目標(biāo)檢測算法相比, 改進(jìn)的YOLOv8模型整體性能上更具優(yōu)勢, 滿足在蠶繭相距較近、 桑葉殘?jiān)趽酢?蠶絲包裹、 蠶繭相互堆疊分布的情況下蠶繭檢測輕量化模型的要求, 以期為智能化蠶繭分選裝備的研發(fā)提供理論基礎(chǔ)。
參考文獻(xiàn):
[1]張勇, 陸浩杰, 梁曉平, 等. 蠶絲基智能纖維及織物: 潛力、 現(xiàn)狀與未來展望 [J]. 物理化學(xué)學(xué)報(bào), 2022, 38(9): 64-79.
[2]"林海濤, 趙樹強(qiáng), 凌新龍, 等. 桑蠶絲絲綿生產(chǎn)加工技術(shù)研究進(jìn)展 [J]. 絲綢, 2017, 54(10): 12-17.
[3]"張印輝, 楊宏寬, 朱守業(yè), 等. 基于輕型調(diào)控網(wǎng)絡(luò)的下繭機(jī)器視覺實(shí)時(shí)檢測 [J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2022, 53(4): 261-270.
[4]"潘繼友, 馬紀(jì)愛, 汪希姣, 等. 桑蠶繭下繭的分類、 形成原因、 預(yù)防措施 [J]. 中國纖檢, 2022(1): 103-105.
[5]"孫衛(wèi)紅, 黃志鵬, 梁曼, 等. 基于顏色特征和支持向量機(jī)的蠶繭分類方法研究 [J]. 蠶業(yè)科學(xué), 2020, 46(1): 86-95.
[6]"王樹文, 張長利, 房俊龍. 基于計(jì)算機(jī)視覺的番茄損傷自動(dòng)檢測與分類研究 [J]. 農(nóng)業(yè)工程學(xué)報(bào), 2005, 21(8): 98-101.
[7]"李善軍, 胡定一, 高淑敏, 等. 基于改進(jìn)SSD的柑橘實(shí)時(shí)分類檢測 [J]. 農(nóng)業(yè)工程學(xué)報(bào), 2019, 35(24): 307-313.
[8]"范萬鵬, 劉孟楠, 馬婕, 等. 利用改進(jìn)的YOLOv5s檢測蓮蓬成熟期 [J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023, 39(18): 183-191.
[9]"靳紅杰, 馬顧彧, 唐夢圓, 等. 復(fù)雜環(huán)境下黃花菜識別的YOLOv7-MOCA模型 [J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023, 39(15): 181-188.
[10]趙輝, 李建成, 王紅君, 等. 基于改進(jìn)YOLOv3的水稻葉部病害檢測 [J]. 湖南農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2024, 50(1): 100-106.
[11]呂金銳, 付燕, 倪美玉, 等. 基于改進(jìn)YOLOv4模型的番茄成熟度檢測方法 [J]. 食品與機(jī)械, 2023, 39(9): 134-139.
[12]王磊磊, 王斌, 李東曉, 等. 基于改進(jìn)YOLOv5的菇房平菇目標(biāo)檢測與分類研究 [J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023, 39(17): 163-171.
[13]陳鋒軍, 陳闖, 朱學(xué)巖, 等. 基于改進(jìn)YOLOv7的油茶果實(shí)成熟度檢測 [J]. 農(nóng)業(yè)工程學(xué)報(bào), 2024, 40(5): 177-186.
[14]馬超偉, 張浩, 馬新明, 等. 基于改進(jìn)YOLOv8的輕量化小麥病害檢測方法 [J]. 農(nóng)業(yè)工程學(xué)報(bào), 2024, 40(5): 187-195.
[15]石洪康, 田涯涯, 楊創(chuàng), 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的家蠶幼蟲品種智能識別研究 [J]. 西南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 42(12): 34-45.
[16]楊創(chuàng), 石洪康, 陳宇, 等. 圖像數(shù)據(jù)集對家蠶品種識別的影響研究 [J]. 西南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2023, 45(4): 110-118.
[17]石洪康, 肖文福, 黃亮, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的家蠶病害識別研究 [J]. 中國農(nóng)機(jī)化學(xué)報(bào), 2022, 43(1): 150-157.
[18]SHI H K, ZHU S P, CHEN X, et al. A New Method for the Recognition of Day Instar of Adult Silkworms Using Feature Fusion and Image Attention Mechanism [J]. Journal of Intelligent amp; Fuzzy Systems, 2023, 45(5): 7455-7467.
[19]代芬, 吳玲, 葉觀艷, 等. 基于近紅外漫透射光譜信息的蠶繭雌雄檢測 [J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2015, 46(12): 280-284.
[20]劉莫塵, 許榮浩, 李法德, 等. 基于顏色與面積特征的方格蔟蠶繭分割定位算法與試驗(yàn) [J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2018, 49(3): 43-50.
[21]劉莫塵, 許榮浩, 閆筱, 等. 基于FCM及HSV模型的方格蔟黃斑繭檢測與剔除技術(shù) [J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2018, 49(7): 31-38.
[22]陳國棟. 引入注意力機(jī)制的蠶繭識別算法 [J]. 紡織報(bào)告, 2020, 39(11): 23-25, 28.
[23]李時(shí)杰, 孫衛(wèi)紅, 梁曼, 等. 基于CD-YOLO算法的蠶繭種類識別 [J]. 中國計(jì)量大學(xué)學(xué)報(bào), 2021, 32(3): 398-405.
[24]張友洪, 沈以紅, 肖文福, 等. 家蠶雜交組合芳·繡×白·春的選配 [J]. 蠶業(yè)科學(xué), 2014, 40(6): 1017-1023.
[25]BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection [EB/OL]. (2020-04-23) [2024-02-10]. https: //arxiv.org/abs/2004.10934.
[26]ZHU X K, LYU S C, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-Captured Scenarios [C] //2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), October 11-17, 2021, Montreal, BC, Canada. IEEE, 2021: 2778-2788.
[27]REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection [C] //2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 779-788.
[28]REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger [C] //2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 6517-6525.
[29]LOU H T, DUAN X H, GUO J M, et al. DC-YOLOv8: Small-Size Object Detection Algorithm Based on Camera Sensor [J]. Electronics, 2023, 12(10): 2323.
[30]HOU Q B, ZHOU D Q, FENG J S. Coordinate Attention for Efficient Mobile Network Design [C] //2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 20-25, 2021, Nashville, TN, USA. IEEE, 2021: 13708-13717.
[31]LI H L, LI J, WEI H B, et al. Slim-Neck by GSConv: A Better Design Paradigm of Detector Architectures for Autonomous Vehicles [EB/OL]. (2022-06-06) [2024-02-20]. https: //arxiv.org/abs/2206.02424.
[32]LOUREIRO C, FILIPE V, GONALVES L. Attention Mechanism for Classification of Melanomas [C] //Optimization, Learning Algorithms and Applications. Cham: Springer International Publishing, 2022: 65-77.
[33]HU J, SHEN L, SUN G. Squeeze-and-Excitation Networks [C] //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT. IEEE, 2018: 7132-7141.
[34]HE Y, ZHU Y S, LI H H. Cross-Layer Channel Attention Mechanism for Convolutional Neural Networks [C] //Thirteenth International Conference on Digital Image Processing (ICDIP 2021), May 20-23, 2021, Singapore, Singapore. SPIE, 2021: 11878: 437-444.
[35]WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module [C] //Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[36]PAN J, HU H G, LIU A Z, et al. A Channel-Spatial Hybrid Attention Mechanism Using Channel Weight Transfer Strategy [C] //2022 26th International Conference on Pattern Recognition (ICPR), August 21-25, 2022, Montreal, QC, Canada. IEEE, 2022: 2524-2531.
[37]公徐路, 張淑娟. 基于改進(jìn)YOLOv5s的蘋果葉片小目標(biāo)病害輕量化檢測方法 [J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023, 39(19): 175-184.
[38]孫俊, 吳兆祺, 賈憶琳, 等. 基于改進(jìn)YOLOv5s的果園環(huán)境葡萄檢測 [J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023, 39(18): 192-200.
[39]WANG Q L, WU B G, ZHU P F, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks [C] //2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 11531-11539.
[40]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
責(zé)任編輯"柳劍