融合殘差網(wǎng)絡(luò)與注意力機制的草莓檢測

2024-04-29 00:00:00王瑞彬楊世忠高升

中國農(nóng)機化學報 2024年1期

摘要：

針對草莓果實因受到自然光光照、枝葉遮擋、果實間存在遮擋等因素，較難實現(xiàn)成熟草莓果實識別的現(xiàn)狀，提出融合深度殘差網(wǎng)絡(luò)與注意力機制的成熟草莓目標檢測算法。引用信息表達能力更強的深度殘差網(wǎng)絡(luò)Resnet50對SSD目標檢測算法模型基礎(chǔ)骨干網(wǎng)絡(luò)進行替換，對經(jīng)過殘差網(wǎng)絡(luò)結(jié)構(gòu)和新增卷積特征提取層得到信息特征提取圖進行通道和空間方向的注意力機制方法處理，建立能準確實現(xiàn)成熟草莓目標檢測的RC-SSD目標檢測模型。試驗結(jié)果表明，本文的RC-SSD算法模型對比Faster R-CNN、YOLOv3、SSD-VGG模型擁有較少的參數(shù)量，平均精度均值mAP分別提升46.05%、10.16%、5.77%，其中成熟草莓的識別精度達到99.04%。對比輕量化網(wǎng)絡(luò)結(jié)構(gòu)模型SSD-Mobilenetv2，RC-SSD算法模型在FPS相對于輕量化網(wǎng)絡(luò)模型降低25幀的情況下，精度提升20.20%，F(xiàn)PS在GPU運行設(shè)備上達到86幀。

關(guān)鍵詞：殘差網(wǎng)絡(luò)；注意力機制；損失函數(shù)；目標檢測；草莓圖像識別

中圖分類號：S668.4： TP183： TP391.41

文獻標識碼：A

Strawberry detection combining residual network with attention mechanism

Abstract：

In view of the current situation that it is difficult to recognize ripe strawberry fruit due to the factors such as natural light illumination， branch and leaf shading， and inter-fruit shading， this paper proposes a ripe strawberry target detection algorithm that combines deep residual network and attention mechanism. In this paper， the deep residual network Resnet50， which had stronger information expression capability， was invoked to replace the backbone network underlying the SSD target detection algorithm model， and the attention mechanism method of channel and spatial direction was processed to obtain the information feature extraction map after the residual network structure and the new convolutional feature extraction layer， and the RC-SSD target detection model that could accurately implement the mature strawberry target detection was established. The experimental results showed that the RC-SSD algorithm model in this paper had less number of parameters than the models Faster R-CNN， YOLOv3 and SSD-VGG models， and the average accuracy mean mAP was improved by 46.05%， 10.16% and 5.77%， respectively， in which the recognition accuracy of mature strawberry reached 99.04%， and compared with the lightweight network structure model SSD-Mobilenetv2， the RC-SSD algorithm model improved the accuracy by 20.20% with a 25 fps reduction in FPS relative to the lightweight network model， and the FPS reached 86 fps on the GPU running device.

Keywords：

residual network; attention mechanism; loss function; object detection; strawberry image recognition

0 引言

隨著計算機視覺技術(shù)的蓬勃發(fā)展，目標檢測成為最具應(yīng)用前景的重點問題之一，并逐漸應(yīng)用到人們的日常生產(chǎn)生活中，如在監(jiān)控安全、自動駕駛和無人機場景分析等領(lǐng)域都具有應(yīng)用價值［1］。草莓營養(yǎng)價值豐富和有益的植物化學物質(zhì)［2］，對補充人們生活必需的營養(yǎng)物質(zhì)也起到了很大作用，利用計算機視覺技術(shù)完成對草莓果實的識別有著廣闊的應(yīng)用前景，實現(xiàn)草莓的位置定位也是為草莓機器人采摘提供了理論研究支撐［3］。

目標檢測是通過算法模型實現(xiàn)對目標的實時識別與跟蹤的技術(shù)，傳統(tǒng)的目標檢測方法是采用多種類滑動窗口遍歷圖像數(shù)據(jù)集進行特征提取，通過訓練分類器實現(xiàn)對目標圖像的框選識別。毛彥棟等［4］針對玉米葉部病害圖像提出一種結(jié)合單特征下的SVM識別準確率和識別效果的融合多特征玉米病害識別算法，此模型對玉米的三種病害的識別平均準確率為93.33%；楊英茹等［5］針對復(fù)雜環(huán)境下的番茄病害圖像識別，對番茄的三種常見病蟲害，提出一種結(jié)合顏色紋理特征且基于SVM的CCL-SVM的復(fù)雜環(huán)境番茄葉部圖像病害識別方法，整體病害識別率達到了97.5%，同時降低計算量。隨著深度學習的快速發(fā)展和卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Network， CNN）的提出［611］，目標檢測算法進入一個新階段。宋中山等［12］提出一種將原始的Faster R-CNN全連接層神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)變?yōu)槎M制全卷積神經(jīng)網(wǎng)絡(luò)，此模型在柑橘葉片病害圖像識別中，平均準確率達到了87.5%，識別時間相較于原Faster R-CNN網(wǎng)絡(luò)提高0.53s。李就好等［13］針對自然環(huán)境條件下的苦瓜葉部病害圖像的目標識別問題，對原始Faster R-CNN的特征提取網(wǎng)絡(luò)融入了特征金字塔網(wǎng)絡(luò)，模型的平均精度均值達到了86.39%。趙德安等［14］提出一種基于YOLOv3的深度卷積神經(jīng)網(wǎng)絡(luò)，實現(xiàn)了復(fù)雜環(huán)境下蘋果的準確檢測，訓練模型在驗證集的總平均精度均值為87.71%，準確率為97%，召回率為90%，檢測速度也滿足機器自動高效率采摘。李善軍等［15］將SSD原目標檢測模型的骨干網(wǎng)絡(luò)更改為深度殘差網(wǎng)絡(luò)，實現(xiàn)柑橘的實時分類檢測，平均精度均值mAP達到87.89%，比原SSD的87.55%高出0.34個百分點。Lu等［16］提出注意力和特征融合的SSD目標模型，設(shè)計一種多層特征融合結(jié)構(gòu)，平均精度均值與原模型相比增加29.2%，提高小目標的預(yù)測精度。

本文在將SSD模型骨干網(wǎng)絡(luò)更換為殘差網(wǎng)絡(luò)Resnet［17］的同時，利用殘差學習網(wǎng)絡(luò)實現(xiàn)對目標特征的提取，讓模型更加準確地學習到目標草莓的初始信息特征，在增加網(wǎng)絡(luò)深度的同時降低梯度變化產(chǎn)生的問題，經(jīng)過殘差網(wǎng)絡(luò)結(jié)構(gòu)和新增卷積特征提取層處理得到信息特征提取圖，對各個卷積層的信息特征提取圖經(jīng)過卷積注意力機制模塊化（Convolutional Block Attention Module， CBAM）處理，對于給定的信息特征圖序列化在通道和空間兩種維度生成特征圖信息，并自適應(yīng)地修正特征，產(chǎn)生最后的特征圖。采用計算預(yù)測框位置損失和置信度誤差損失評估本文目標檢測算法模型的檢測效果，建立能準確實現(xiàn)草莓識別的RC-SSD目標檢測模型，提升對草莓小目標的檢測準確率。

1 材料與方法

SSD目標檢測模型是在VGG基礎(chǔ)網(wǎng)絡(luò)后手動添加多個卷積結(jié)構(gòu)［18］，采用了多尺度的特征圖，直接用卷積對不同特征層提取特征，對不同卷積層提取的特征圖進行分類處理，從不同的層中建立特征提取器來提取目標特征，模型結(jié)構(gòu)如圖1所示。

本文在原始草莓圖像數(shù)據(jù)的基礎(chǔ)上，對其進行水平翻轉(zhuǎn)，旋轉(zhuǎn)變化固定角度等技術(shù)對草莓數(shù)據(jù)集完成了數(shù)據(jù)增強，其次將SSD目標檢測中的特征提取網(wǎng)絡(luò)VGG-16替換為深度殘差網(wǎng)絡(luò)Resnet50，再增添幾層額外卷積層提出特征，得到不同尺度大小的信息特征圖，對不同特征層得到的不同目標特征圖進行空間和通道方向的注意力機制處理，提升目標檢測能力。

1.1 數(shù)據(jù)集采集及預(yù)處理

本次草莓數(shù)據(jù)集的構(gòu)建是自行采集現(xiàn)場自然環(huán)境下的草莓圖像，2021年于山東青島市紅石崖草莓種植中心用華為榮耀10手機拍攝，采用黑白2400萬像素+彩色1600萬像素，采集白天溫室栽培的草莓圖像，黑白和彩色搭配的雙攝像頭提升了弱光環(huán)境下的草莓圖像的成像質(zhì)量，采集的草莓原始圖片分辨率為5632像素×4224像素。在自然環(huán)境下，對拍攝的草莓圖像需考慮4種類型：光照條件、不同生長狀態(tài)、復(fù)雜背景、枝葉遮擋，其草莓樣本圖像如圖2所示。

由于圖像樣本類別不均衡，像素不統(tǒng)一，容易對模型性能產(chǎn)生較大影響，使用數(shù)據(jù)增強能顯著提高模型的目標檢測能力，能很好地提升小目標的檢測能力，本文選擇對初始圖像進行圖像水平/垂直翻轉(zhuǎn)，隨機順/逆時針旋轉(zhuǎn)變換等數(shù)據(jù)增強技術(shù)豐富草莓樣本。對于已經(jīng)構(gòu)建好比較完善的草莓樣本，對草莓樣本進行數(shù)據(jù)標注劃分類別，以人工標注的方式采用LabelImg軟件先對草莓樣本分為2個類別，其中ripe代表成熟草莓，unripe代表未成熟草莓，類別信息存儲為VOC格式的xml文件。

1.2 殘差網(wǎng)絡(luò)

在目標檢測過程中，一般用卷積神經(jīng)網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)，增多網(wǎng)絡(luò)的層數(shù)能在不同層級提取目標特征，隨著網(wǎng)絡(luò)層數(shù)的增加，網(wǎng)絡(luò)模型會出現(xiàn)訓練損失上升的情況，當網(wǎng)絡(luò)模型出現(xiàn)退化時，淺層網(wǎng)絡(luò)模型能達到比深層網(wǎng)絡(luò)模型更好的訓練效果，深層網(wǎng)絡(luò)提取的特征相對于淺層網(wǎng)絡(luò)更豐富［19］。在正向傳播的過程中，隨著網(wǎng)絡(luò)層數(shù)的增加，淺層網(wǎng)絡(luò)的訓練效果強于深層網(wǎng)絡(luò)，深層網(wǎng)絡(luò)比淺層網(wǎng)絡(luò)有更好的目標特征提取能力，把淺層的目標特征添加映射到深層網(wǎng)絡(luò)，用不同映射來連接不同層級的網(wǎng)絡(luò)，由此提出殘差網(wǎng)絡(luò)。

殘差塊分為直接映射和殘差兩個部分，引入殘差塊可以在加深網(wǎng)絡(luò)的同時，網(wǎng)絡(luò)的目標檢測效果也隨之增強，殘差塊結(jié)構(gòu)如圖3所示。

如圖3所示，D（xl）是直接映射部分，F(xiàn)（x）是殘差結(jié)構(gòu)部分，由兩到三個卷積操作構(gòu)成，在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中，xl與xl+1的Feature Map的數(shù)量不同會造成無法進行Addition單位加操作，在直接映射D（xl）使用1×1卷積操作對xl的Feature Map進行升維或降維操作。殘差塊的表達式如（1）所示。

xl+1=D（xl）+F（x）（1）

1.3 注意力機制

注意力機制是通過對人類視覺的分析，引入大腦皮層信號處理機制的概念提出來的［20］。人類視覺是通過快速瀏覽外界信息，大腦皮層獲取視覺系統(tǒng)焦點于某一區(qū)域，對此焦點區(qū)域提取細節(jié)信息，快速篩選出大量外界信息的高價值信息。當人們注意到某一場景或具體目標時，對此場景或目標人類投入的注意力分布是不同的，由此發(fā)展的注意力機制也被應(yīng)該用計算機視覺領(lǐng)域。

CBAM卷積注意力機制模塊是一種輕量化的網(wǎng)絡(luò)［21］，主要包含通道注意力模塊（Channel Attention Module， CAM）和空間注意力模塊（Spartial Attention Module， SAM）兩個獨立的注意力子模塊，對目標信息特征圖分別進行通道與空間上的注意力機制并自適應(yīng)特征細化處理，CBAM卷積注意力機制模塊結(jié)構(gòu)如圖4所示。

如圖4所示，對于深度提取網(wǎng)絡(luò)輸入的目標特征，分別先后進行通道方向和空間方向兩個不同的注意力機制網(wǎng)絡(luò)處理。通道注意力機制CAM與空間注意力機制SAM的具體網(wǎng)絡(luò)結(jié)構(gòu)圖如圖5所示，通道注意力機制模塊對信息特征圖利用網(wǎng)絡(luò)結(jié)構(gòu)的最大池化和平均池化分開處理，將得到的特征圖輸入到兩層的神經(jīng)網(wǎng)絡(luò)；空間注意力機制是對特征圖經(jīng)過最大池化和平均池化處理得到的特征圖做通道拼接操作轉(zhuǎn)發(fā)到卷積層，將特征圖與該注意力機制的輸入特征圖作乘法得到生成特征。

對于輸入的信息特征圖FòRC×H×W，CBAM注意力機制依次對特征圖作兩部分處理，首先對F按通道方向進行全局最大池化和平均池化處理，池化后經(jīng)過全連接層處理后作元素相加經(jīng)過Sigmoid函數(shù)處理后得到一維向量的通道注意力RCòRC×1×1，再將RC與輸入特征F相乘得到經(jīng)過通道注意力處理后的特征圖F′；接著對特征圖F′作空間方向分別進行全局最大池化和平均池化處理后，將池化后的兩個二維向量拼接后輸入轉(zhuǎn)發(fā)到卷積層，生成得到二維向量的空間注意力RSòR1×H×W，對RS與中間特征圖F′元素間相乘，最終得出經(jīng)過通道方向和空間方向處理的特征圖F″。

1.4 損失函數(shù)

本文設(shè)計的RC-SSD目標檢測模型的損失函數(shù)，采用預(yù)測框位置定位誤差損失函數(shù)和置信度誤差損失函數(shù)相結(jié)合的方式去定義算法模型的損失。在目標檢測訓練的過程中，在損失函數(shù)的值不斷下降的同時，去優(yōu)化目標預(yù)測框的置信度損失，同時也提高預(yù)測框位置可信度。通過對目標數(shù)據(jù)集的不斷訓練迭代訓練，優(yōu)化目標檢測模型［22］。

式（4）為本文的誤差損失函數(shù)，其誤差損失函數(shù)包含預(yù)測框位置定位誤差損失Lloc（x，l，g）和置信度誤差損失Lconf（x，c），其中N表示先驗框的正樣本數(shù)量，c表示函數(shù)返回目標類別的置信度，l表示先驗框所對應(yīng)的邊界框的位置預(yù)測值，g則是真實預(yù)測值的位置參數(shù)。

式（5）、式（6）為置信度誤差，采用Softmax Loss損失函數(shù)，是由歸一化指數(shù)函數(shù)（Softmax）和交叉熵損失函數(shù)（Cross-entropy Loss）組合而成的損失函數(shù)。其中xpijlog（c^pi）表示預(yù)測框i與真實框j關(guān)于類別p的匹配情況，若類別p的概率預(yù)測越高，則表示其的損失值越??；用c^0i表示若預(yù)測框沒有物體，則預(yù)測為背景的概率越高，損失越小，實際概率值通過Softmax函數(shù)產(chǎn)生。

式（7）、式（8）表示預(yù)測框位置定位誤差，采用Smooth L1 Loss損失函數(shù)，其中xkij表示第i個預(yù)測框和第j個真實框關(guān)于類別k是否匹配，表示匹配值為1，不匹配則為0，并且xkijò（0，1），當xkij=1時，則表示第i個先驗框和第j個的ground truth匹配，并且真實預(yù)測值的類別為k；lmi表示預(yù)測框，g^mj表示真實框，利用Smooth L1 Loss函數(shù)聯(lián)系起來。

2 改進的SSD目標檢測模型

本文改進的SSD將目標特征提取網(wǎng)絡(luò)更換為殘差網(wǎng)絡(luò)Resnet50（輸入圖片尺寸為320像素×320像素，并在不同層級提取的信息特征圖后添加通道方向和空間方向的注意力機制。在設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)圖中，選取的特征提取層是骨干網(wǎng)絡(luò)Resnet50的最后一個卷積層（Conv4_6），對于額外增加的5層特征提取層layer，每層結(jié)束后提取一個特征圖，在此網(wǎng)絡(luò)結(jié)果中，將目標檢測算法的原始輸入圖片尺寸設(shè)置為320像素×320像素，對于六個信息特征提取圖的大小分別為（40，40）、（20，20）、（10，10）、（5，5）、（3，3）、（1，1），本文的SSD目標檢測算法模型先驗框為12810個，較于原SSD模型增加了4078個先驗框，原SSD網(wǎng)絡(luò)模型采用了8732個先驗框，由圖1原SSD初始網(wǎng)絡(luò)結(jié)構(gòu)圖可知，模型對于第一個經(jīng)過VGG網(wǎng)絡(luò)處理后的特征圖，采用4個不同大小的先驗框去遍歷每個像素點，初步實現(xiàn)對目標的框選，Conv7、Conv8、Conv9的特征圖采用6個不同大小的先驗框遍歷提取信息，Conv10、Conv11的小尺寸特征圖便采用4個不同大小的先驗框遍歷精確目標并修正位置信息。本文改進的RC-SSD模型對于Conv4_6層、layer1層、layer2層、layer3層、layer4層、layer5層提取的不同尺寸的特征圖都采用6個不同大小的先驗框遍歷提取草莓目標的特征，對于不同的特征圖，先驗框數(shù)量的增加能夠更加準確的提取草莓目標特征信息，六個特征提取層之后輸出的特征圖的先驗框信息如表1所示。

本文設(shè)計的RC-SSD目標檢測模型網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

3 試驗結(jié)果與分析

3.1 試驗平臺與配置

本文的所有試驗均使用Pytoch 3.8深度學習框架，首先對運行環(huán)境進行配置，采用Ubuntu18.04操作系統(tǒng)，顯卡NVIDIA RTX 3090 （24 GB） GPU，CUDA11.0版本及其對應(yīng)的cudnn8.0版本加速運行，試驗均由GPU設(shè)備上運行。

本文的草莓數(shù)據(jù)集從原始拍攝圖片篩選出可供目標檢測的草莓圖像近1000張，經(jīng)過數(shù)據(jù)擴增后得到本文所用的草莓數(shù)據(jù)集共近5000張圖片，試驗將訓練集、測試集和驗證集的比例設(shè)置為8∶1∶1，epoch迭代次數(shù)設(shè)置為300次，優(yōu)化器為Adam，模型的學習率設(shè)置為2×10-3，學習率下降方式設(shè)置為cos，對比Faster R-CNN，YOLOv3，SSD-VGG，SSD-Mobilenetv2各個目標檢測算法在草莓數(shù)據(jù)集上的性能，為了更好地檢測模型的特點，采取解凍訓練的方式不加載預(yù)訓練權(quán)重，結(jié)合對比試驗結(jié)果比較本文數(shù)據(jù)集的目標檢測算法。

3.2 評估標準

本文主要使用目標檢測模型性能的經(jīng)典評價指標，主要有平均精度均值mAP和每秒處理的圖片數(shù)量FPS，其中平均精度均值mAP主要是指每個類別的P-R曲線所圍成的面積。

刷新率FPS主要是指每秒傳輸?shù)漠嬅鎺?。在本文模型中主要是評估模型每秒鐘的處理的圖片數(shù)量，單位為幀，F(xiàn)PS值越高代表模型處理數(shù)據(jù)能力越強，速率越快，耗時越短。

由于本文是檢測草莓目標位置和成熟度，目標樣本存在成熟ripe和未成熟unripe正負兩個類別，則目標檢測模型與目標樣本真實標簽的組合則分為四種形式。

（1）True Positive（TP）：預(yù)測為正樣本，實際為正樣本；在草莓數(shù)據(jù)集值則是預(yù)測值ripe，實際值為ripe；

（2）False Positive（FP）：預(yù)測為正樣本，實際為負樣本；在草莓數(shù)據(jù)集值則是預(yù)測值ripe，實際值為unripe；

（3）True Negative（TN）：預(yù)測為負樣本，實際為負樣本；在草莓數(shù)據(jù)集值則是預(yù)測值unripe，實際值為unripe；

（4）False Negative（FN）：預(yù)測為負樣本，實際為正樣本；在草莓數(shù)據(jù)集值則是預(yù)測值unripe，實際值為ripe。

通過上述對本文草莓數(shù)據(jù)集TP、FP、TN、FN的設(shè)定，對目標檢測模型評估的準確率（Accuracy）、精確率（Precision）、召回率（Recall）、F1_Score值的公式如式（9）～式（12）所示。

式（9）指預(yù)測對的草莓樣本數(shù)占總草莓樣本總數(shù)的比例，其中預(yù)測對的樣本數(shù)包括預(yù)測為ripe和預(yù)測為unripe的草莓樣本數(shù)。

式（10）中精確率（Precision）是針對預(yù)測結(jié)果的評價指標，表示預(yù)測為ripe的草莓樣本中真實值為ripe的正樣本所占的比例。

式（11）中召回率（Recall）指草莓原樣本中標記為ripe的正例預(yù)測正確的所占的比例；精確率和召回率是針對具體類別所得出的評價值，本文中則有正負樣本兩種類別。

式（12）中F1_Score的值則是由上述基于召回率和精確率計算的，是評價目標檢測模型的主要標準值之一。

3.3 試驗結(jié)果與分析

不同的神經(jīng)網(wǎng)絡(luò)在訓練過程中會根據(jù)各個卷積層等結(jié)構(gòu)有不同的參數(shù)量，層級越大參數(shù)量越多，參數(shù)量對模型的訓練也有著不同的影響，本次試驗對模型輸入圖像尺寸固定設(shè)置為320px×320px×3通道，輸入圖像大小為1.17MB。

由表1可知，模型1為Faster R-CNN，是雙階段目標檢測的代表，引入?yún)^(qū)域性建議網(wǎng)絡(luò)，為便于對比本文模型，將Faster R-CNN的目標檢測模型的骨干網(wǎng)絡(luò)替換為殘差網(wǎng)絡(luò)Resnet50。

模型2是以Darknet-53為骨干網(wǎng)絡(luò)設(shè)計的快速檢測模型YOLOv3，在三個不同的尺度檢測圖像，利用多標簽分類實現(xiàn)目標檢測與定位，YOLOv3和SSD目標檢測模型屬于單階段端到端的目標檢測模型，相對于模型YOLOv3參數(shù)量較多，模型結(jié)構(gòu)較大。

模型3是原SSD目標檢測模型，以VGG-16網(wǎng)絡(luò)為骨干網(wǎng)絡(luò)。由于在加深網(wǎng)絡(luò)的時候，模型的目標檢測能力并不能得到顯著提升，所以在骨干網(wǎng)絡(luò)上做改進。

模型4是基于Mobilenetv2為骨干網(wǎng)絡(luò)設(shè)計的SSD目標檢測模型，Moblienetv2作為輕量化特征提取網(wǎng)絡(luò)，模型大小顯著降低，參數(shù)量最少，便于移動端運行，輕量化網(wǎng)絡(luò)的快速檢測也利于草莓的實時檢測。

本文中以SSD目標檢測算法為基礎(chǔ)，將骨干網(wǎng)絡(luò)換成目標特征提取能力更強的具有殘差網(wǎng)絡(luò)結(jié)構(gòu)的Resnet50，選取的特征提取層是骨干網(wǎng)絡(luò)Resnet50的最后一個卷積層，再通過額外增加的5層特征提取層，六個信息特征圖從網(wǎng)絡(luò)不同層級提取，并在六個特征提取圖后經(jīng)過CBAM注意力機制處理，設(shè)計出本文所用模型RC-SSD，本文所設(shè)計的目標檢測模型RC-SSD輸入圖片尺寸設(shè)置為320px×320px×3通道，模型參數(shù)量相對于Faster R-CNN、YOLOv3、SSD-VGG顯著降低，SSD-Mobilenetv2屬于輕量化網(wǎng)絡(luò)目標檢測模型，網(wǎng)絡(luò)結(jié)構(gòu)簡單，本文模型對比輕量化網(wǎng)絡(luò)的參數(shù)量有了輕微增加，各模型的結(jié)構(gòu)如表2所示。

由表2、表3對比可知，以殘差網(wǎng)絡(luò)Resnet50為骨干網(wǎng)絡(luò)的RC-SSD目標檢測算法對比模型1、模型2、模型3擁有較少的參數(shù)量，對目標草莓的識別達到了最優(yōu)效果。對比模型1雙階段的目標檢測模型對于草莓小目標的檢測效果不理想，無法完成對目標的框選；對比模型2同屬于單階段目標檢測模型，模型參數(shù)量的增加無法提高小型目標的檢測能力；模型3、模型4、模型5都是采用SSD目標檢測算法，模型3原SSD目標檢測模型的骨干網(wǎng)絡(luò)VGG網(wǎng)絡(luò)模型較大，識別效率不高。本文設(shè)計的RC-SSD目標檢測模型對目標草莓識別率相比提升了5.77%，其中成熟草莓的識別精度達到了99.04%。由于模型4是輕量化網(wǎng)絡(luò)結(jié)構(gòu)，網(wǎng)絡(luò)較為簡便，處理的單張圖片時間達到了0.009s，對于目標草莓平均精度均值只有78.16%，識別精度由于網(wǎng)絡(luò)的輕便大幅降低。本文設(shè)計RC-SSD模型在FPS相對于輕量化網(wǎng)絡(luò)模型4降低25幀的情況下，精度提升了20.20%，模型中網(wǎng)絡(luò)處理圖片的速度較于深層網(wǎng)絡(luò)得到了一定的提升，模型中CBAM注意力機制屬于輕量化網(wǎng)絡(luò)，在不降低圖片處理能力的同時增強了對小目標的檢測能力，F(xiàn)PS在GPU運行設(shè)備上達到了86幀，同時也能夠快速地實現(xiàn)對目標草莓的實時檢測，為下一步設(shè)計草莓識別的移動端提供了一定的理論支撐。

通過對比以上模型的性能，對測試集里的草莓進行識別測試，圖7是草莓圖像在各個模型上的識別效果對比。

由圖7可以看出，本文改進的模型RC-SSD的識別效果較于其他模型，能準確實現(xiàn)目標草莓的定位，并能區(qū)分成熟草莓與未成熟草莓，對于圖片中的草莓全部識別正確，并實現(xiàn)了框選定位。模型1由于是雙階段目標檢測，對小目標草莓的識別效果最差，模型2與本文設(shè)計模型同屬單階段目標檢測，參數(shù)量的增加并無法提高對小目標的識別精度，模型3～模型5是SSD目標檢測算法，對比深層網(wǎng)絡(luò)VGG，輕量化網(wǎng)絡(luò)Mobilenetv2。本文設(shè)計模型5的殘差網(wǎng)絡(luò)Resnet50效果最好，融合CBAM注意力機制處理，實現(xiàn)對草莓的框選，并能準確對小目標草莓的成熟度分類，提高了檢測精度，可以應(yīng)用于草莓采摘機器人，實現(xiàn)對成熟草莓的采摘。

4 結(jié)論

本文針對復(fù)雜背景下的草莓果實提出了一種基于SSD的草莓目標檢測模型，更換骨干網(wǎng)絡(luò)為殘差結(jié)構(gòu)的Resnet50，作為目標特征提取網(wǎng)絡(luò)，并對目標特征圖添加CBAM注意力機制，抑制掉特征圖內(nèi)的無關(guān)信息，采用預(yù)測框位置誤差損失函數(shù)和置信度誤差損失函數(shù)相結(jié)合的標準去定義算法模型的損失。

1）殘差網(wǎng)絡(luò)能在加深網(wǎng)絡(luò)深度的同時降低參數(shù)量，同時具有更好的信息特征提取能力，對小目標的圖像識別較于其他特征提取網(wǎng)絡(luò)有較大的提升，有效避免了梯度下降、消失等問題。CBAM輕量化網(wǎng)絡(luò)實現(xiàn)對信息特征圖的通道和空間方向的注意力機制處理，提取信息特征圖上的小目標特定信息，不增加模型的大小的同時實現(xiàn)了對小目標的框選識別，對目標草莓的識別精度達到了98.36%，成熟草莓的識別率更是達到了99.04%，F(xiàn)PS也達到了86幀，提高了檢測精度與速度。

2）輕量化的網(wǎng)絡(luò)模型作為特征提取網(wǎng)絡(luò)更能降低模型的大小，較易實現(xiàn)移動端的部署，但檢測精度大幅度降低，下一步將實現(xiàn)在輕量化模型結(jié)構(gòu)的基礎(chǔ)上提升目標檢測精度并實現(xiàn)移動端的部署。

參考文獻

［1］ Jiao L， Zhang F， Liu F， et al. A survey of deep learning-based object detection ［J］. IEEE Access， 2019， 7： 128837-128868.

［2］徐藝格，王麗娟. 草莓品質(zhì)育種研究進展［J］. 北方園藝， 2020（18）： 152-157.

Xu Yige， Wang Lijuan. Research progress on strawberry quality breeding ［J］. Northern Horticulture， 2020（18）： 152-157.

［3］李長勇，房愛青，譚紅，等. 高架草莓采摘機器人系統(tǒng)研究［J］. 機械設(shè)計與制造， 2017（6）： 245-247， 251.

Li Changyong， Fang Aiqing， Tan Hong， et al. Elevated strawberry picking robot system research ［J］. Machinery Design amp; Manufacture， 2017（6）： 245-247， 251.

［4］毛彥棟，宮鶴. 基于SVM和DS證據(jù)理論融合多特征的玉米病害識別研究［J］. 中國農(nóng)機化學報， 2020， 41（4）： 152-157.

Mao Yandong， Gong He. Corn disease identification study based on SVM and DS evidence theory fusion multi-features ［J］. Journal of Chinese Agricultural Mechanization， 2020， 41（4）： 152-157.

［5］楊英茹，吳華瑞，張燕，等. 基于復(fù)雜環(huán)境的番茄葉部圖像病蟲害識別［J］. 中國農(nóng)機化學報， 2021， 42（9）： 177-186.

Yang Yingru， Wu Huarui， Zhang Yan， et al. Tomato disease recognition using leaf image based on complex environment ［J］. Journal of Chinese Agricultural Mechanization， 2021， 42（9）： 177-186.

［6］ Le Cun Y， Bengio Y， Hinton G. Deep learning ［J］. Nature， 2015， 521（7553）： 436-444.

［7］ Girshick R， Donahue J， Darrell T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation［C］. Conference on Computer Vision and Pattern Recognition， Columbus; IEEE， 2014： 580-587.

［8］ Girshick R. Fast R-CNN［C］. Conference on Computer Vision and Pattern Recognition， Boston; IEEE， 2015： 1440-1448.

［9］ Ren S， He K， Girshick R， et al. Faster R-CNN： Towards real-time object detection with region proposal networks ［J］. Advances in Neural Information Processing Systems， 2015， 28.

［10］ Redmon J， Divvala S， Girshick R， et al. You only look once： Unified， real-time object detection ［C］. Conference on Computer Vision and Pattern Recognition， Las Vegas; IEEE， 2016： 779-788.

［11］ Liu Wei， Anguelov D， Erhan D， et al. SSD： single shot multiBox detector［C］. European Conference on Computer Vision， Amsterdam; Springer， 2016： 21-37.

［12］宋中山，汪進，鄭祿，等. 基于二值化的Faster R-CNN柑橘病蟲害識別研究［J］. 中國農(nóng)機化學報， 2022， 43（6）： 150-158.

Song Zhongshan， Wang Jin， Zheng Lu， et al. Research on citrus pest identification based on Binary Faster R-CNN ［J］. Journal of Chinese Agricultural Mechanization， 2022， 43（6）： 150-158.

［13］李就好，林樂堅，田凱，等. 改進Faster R-CNN的田間苦瓜葉部病害檢測［J］. 農(nóng)業(yè)工程學報， 2020， 36（12）： 179-185.

Li Jiuhao， Lin Lejian， Tian Kai， et al. Detection of leaf diseases of balsam pear in the field based on improved Faster R-CNN ［J］. Transactions of the Chinese Society of Agricultural Engineering， 2020， 36（12）： 179-185.

［14］趙德安，吳任迪，劉曉洋，等. 基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜背景下機器人采摘蘋果定位［J］. 農(nóng)業(yè)工程學報， 2019， 35（3）： 164-173.

Zhao Dean， Wu Rendi， Liu Xiaoyang， et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background ［J］. Transactions of the Chinese Society of Agricultural Engineering， 2019， 35（3）： 164-173.

［15］李善軍，胡定一，高淑敏，等. 基于改進SSD的柑橘實時分類檢測［J］. 農(nóng)業(yè)工程學報， 2019， 35（24）： 307-313.

Li Shanjun， Hu Dingyi， Gao Shumin， et al. Real-time classification and detection of citrus based on improved single short multibox detecter ［J］. Transactions of the Chinese Society of Agricultural Engineering， 2019， 35（24）： 307-313.

［16］ Lu X， Ji J， Xing Z， et al. Attention and feature fusion SSD for remote sensing object detection ［J］. IEEE Transactions on Instrumentation and Measurement， 2021， 70： 1-9.

［17］ He K， Zhang X， Ren S， et al. Deep residual learning for image recognition［C］. Conference on Computer Vision and Pattern Recognition， Las Vegas; IEEE， 2016： 770-778.

［18］付中正，何瀟，方逵，等. 基于改進SSD網(wǎng)絡(luò)的西蘭花葉片檢測研究［J］. 中國農(nóng)機化學報， 2020， 41（4）： 92-97.

Fu Zhongzheng， He Xiao， Fang Kui， et al. Study on the detection of broccoli leaves based on the improved SSD network ［J］. Journal of Chinese Agricultural Mechanization， 2020， 41（4）： 92-97.

［19］郭玥秀，楊偉，劉琦，等. 殘差網(wǎng)絡(luò)研究綜述［J］. 計算機應(yīng)用研究， 2020， 37（5）： 1292-1297.

Guo Yuexiu， Yang Wei， Liu Qi， et al. Survey of residual network ［J］. Application Research of Computers， 2020， 37（5）： 1292-1297.

［20］任歡，王旭光. 注意力機制綜述［J］. 計算機應(yīng)用， 2021， 41（S1）： 1-6.

Ren Huan， Wang Xuguang. Review of attention mechanism ［J］. Journal of Computer Applications， 2021， 41（S1）： 1-6.

［21］ Woo S， Park J， Lee J Y， et al. Cbam： Convolutional block attention module［C］. Proceedings of the European conference on computer vision （ECCV）， 2018： 3-19.

［22］洪哲昊，陳東方，王曉峰. 基于多任務(wù)分支SSD的目標檢測算法［J］. 計算機工程與設(shè)計， 2022， 43（3）： 677-684.

Hong Zhehao， Chen Dongfang， Wang Xiaofeng. Object detection algorithm based on multitask branch SSD ［J］. Computer Engineering and Design， 2022， 43（3）： 677-684.

中國農(nóng)機化學報2024年1期

中國農(nóng)機化學報的其它文章: 基于注意力網(wǎng)絡(luò)的長時牦牛個體識別研究; 基于數(shù)字孿生技術(shù)的奶牛場養(yǎng)殖監(jiān)控平臺設(shè)計; 雙熱交換器預(yù)冷裝備研制及試驗; 基于改進實數(shù)遺傳算法的桑葉采摘機結(jié)構(gòu)參數(shù)優(yōu)化; 新型多格室糞便堆肥反應(yīng)器設(shè)計與試驗; 基于改進YOLOv5l的設(shè)施番茄3D信息檢測方法