李子茂,李嘉暉,尹帆,帖軍,吳錢寶
(1. 中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,武漢市,430074;2. 農(nóng)業(yè)區(qū)塊鏈與智能管理湖北省工程研究中心,武漢市,430074;3. 湖北省制造企業(yè)智能管理工程技術(shù)研究中心,武漢市,430074)
柑橘是世界貿(mào)易第一的水果,產(chǎn)量和種植面積均居水果之首[1]。中國作為柑橘的主要原產(chǎn)地之一,栽培歷史悠久,柑橘資源豐富,由于擁有廣闊的柑橘種植區(qū)域和有利于柑橘生長發(fā)育的良好自然環(huán)境條件,已成為全球柑橘栽培強(qiáng)國[2]。然而,迄今為止,中國柑橘生產(chǎn)和采集工作仍由人工主導(dǎo)、生產(chǎn)自動(dòng)化水平并不高,生產(chǎn)過程中往往會(huì)存在勞動(dòng)力不足、采集效率低等問題。
隨著深度學(xué)習(xí)的興起,智慧農(nóng)業(yè)和農(nóng)業(yè)自動(dòng)化越來越受重視,使用深度學(xué)習(xí)進(jìn)行目標(biāo)檢測已經(jīng)成為當(dāng)下的研究熱點(diǎn),利用計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)自然環(huán)境下的密集柑橘檢測,對尺寸小、數(shù)目多、顏色與環(huán)境相近、有遮擋重疊的柑橘進(jìn)行精確的識(shí)別與定位成為實(shí)現(xiàn)柑橘早期估產(chǎn)的一個(gè)重要前提,同時(shí)也為采摘機(jī)器人提供有效的技術(shù)支持。
目前,基于深度學(xué)習(xí)的目標(biāo)檢測算法大致可以分為兩種,一種是基于區(qū)域建議(Region Proposal)的:如R-CNN[3]、Fast R-CNN[4]、Faster R-CNN[5]、Mask R-CNN[6]等系列算法,主要采用區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network)產(chǎn)生候選區(qū)域,進(jìn)行分類回歸;一種是基于端到端(End-to-End)的:如YOLO系列[7-10]、SSD[11]等算法,將目標(biāo)檢測視為單個(gè)回歸問題,通過卷積神經(jīng)網(wǎng)絡(luò)同時(shí)預(yù)測多個(gè)目標(biāo)的類別和位置,其中以YOLO系列算法為代表,在小目標(biāo)檢測中有良好效果,得到了廣泛應(yīng)用。
在單類別農(nóng)作物目標(biāo)檢測方面,諸多學(xué)者提出了不同研究思路。Liang等[12]提出一種在夜間環(huán)境檢測荔枝果實(shí)、果莖的方法,在YOLO v3的基礎(chǔ)上根據(jù)荔枝果實(shí)的邊界框確定果莖的ROI區(qū)域,實(shí)現(xiàn)夜間自然環(huán)境中的荔枝果實(shí)、果莖檢測。李文婧等[13]提出一種基于改進(jìn)YOLOv4的植物葉莖交點(diǎn)目標(biāo)檢測方法,選取4個(gè)不同尺度的錨框來獲取更多植物葉莖的交點(diǎn)信息,使得網(wǎng)絡(luò)在算法訓(xùn)練過程中更易于擬合植物葉莖交點(diǎn)目標(biāo),實(shí)現(xiàn)植物根莖葉交點(diǎn)識(shí)別。Tian等[14]提出一種基于果園復(fù)雜環(huán)境不同生長階段的蘋果檢測方法,為提升蘋果特征提取能力,引入DenseNet網(wǎng)絡(luò)替換原始YOLOv3的Darknet主干網(wǎng)絡(luò),使模型可更準(zhǔn)確檢測不同生長階段的蘋果。熊俊濤等[15]提出一種改進(jìn)YOLOv3夜間環(huán)境柑橘識(shí)別算法,為實(shí)現(xiàn)算法多層特征復(fù)用及融合,引入了密集連接網(wǎng)絡(luò)和殘差網(wǎng)絡(luò),提高算法對柑橘圖像深層特征的提取與選擇能力。劉東等[16]提出一種基于顏色特征的麥穗檢測方法,通過采用彩色直方圖均衡麥穗特征,對麥穗進(jìn)行骨架交點(diǎn)檢測與計(jì)數(shù)。以上方法均具有一定的魯棒性和泛化性,但在實(shí)際果園環(huán)境中,柑橘果株果實(shí)密集、尺寸小、數(shù)目多,存在一定程度果實(shí)粘連、遮擋或重疊等情況,如果僅將用于其他類別農(nóng)作物或與背景區(qū)分度較高的作物檢測方法用于小而密集且背景與顏色相近的綠色柑橘檢測,漏檢誤檢情況會(huì)特別嚴(yán)重。
因此,本文針對實(shí)際果園密集柑橘檢測存在的問題,提出一種適用于密集柑橘檢測的DS-YOLO(Deformable Convolution SimAM YOLO)算法。為使特征提取網(wǎng)絡(luò)能自適應(yīng)地提取柑橘的形狀和位置特征,以增強(qiáng)模型對尺寸變化較大、嚴(yán)重重疊遮擋的密集柑橘的檢測能力,算法引入可形變卷積(Deformable Convolution)網(wǎng)絡(luò)來代替原YOLOv4中CSPDarkNet53網(wǎng)絡(luò)中部分殘差模塊殘差單元的卷積層。此外,為增強(qiáng)模型對于密集柑橘的特征提取能力,在提取到的柑橘特征上加入SimAM注意力機(jī)制,為提高自然環(huán)境下小而密集柑橘的檢測精度,在特征融合模塊中,采用 K-means 方法重新匹配Anchor坐標(biāo),增加104×104的檢測尺度。
為更好進(jìn)行密集柑橘的檢測研究,試驗(yàn)樣本采集于桂林市靈川縣九屋鎮(zhèn),采集對象為自然環(huán)境下自然生長的柑橘圖像。在拍攝圖像時(shí),為最大限度模擬自然場景,選擇在晴天、陰天以及不同角度對柑橘植株進(jìn)行拍攝,采集距離為1.0~2.0 m,不同環(huán)境下的柑橘樣本圖像共計(jì)2 365張,每張圖像包含50個(gè)及以上柑橘,圖像分辨率為4 032像素×3 024像素。
為提高DS-YOLO算法泛化能力,保證密集柑橘樣本圖像的多樣性,對采集到的柑橘圖像進(jìn)行數(shù)據(jù)增強(qiáng)操作,包括裁剪、翻轉(zhuǎn)、亮度調(diào)整等操作。通過對采集到的密集柑橘圖片進(jìn)行整理和分類,按照8∶2比例將柑橘圖像數(shù)據(jù)集劃分為訓(xùn)練集和測試集,使用LabelImg圖像標(biāo)注工具對圖像中的柑橘進(jìn)行標(biāo)記,分別標(biāo)注出柑橘的位置和類別,圖片標(biāo)注效果如圖1所示,部分圖片進(jìn)行裁剪、翻轉(zhuǎn)、亮度調(diào)整等操作如圖2所示。柑橘圖像樣本不同情況分布如表1所示。

圖1 圖片標(biāo)注

(a) 原始圖片

(b) 裁剪

(c) 旋轉(zhuǎn)

(d) 飽和度

(e) 對比度

(f) 亮度

表1 密集柑橘數(shù)據(jù)集分布Tab. 1 Distribution of dense citrus datasets
本文針對現(xiàn)階段自然果園環(huán)境中的密集柑橘檢測存在的問題,在原YOLOv4模型的基礎(chǔ)上,構(gòu)建了 DS-YOLO 密集柑橘檢測算法。DS-YOLO算法總體結(jié)構(gòu)如圖3所示,分別由D-CSPDarkNet53、PANet、Head三個(gè)部分組成。
1) D-CSPDarkNet53即特征提取網(wǎng)絡(luò),主要包括CBM、DCSP、CBL及SPP結(jié)構(gòu)。其中CBM結(jié)構(gòu)包含1個(gè)卷積(Convolution)、1個(gè)BN(Batch Normalization)層和1個(gè)Mish激活函數(shù)層,CBL結(jié)構(gòu)則與CBM結(jié)構(gòu)類似,激活函數(shù)為Leaky relu,DCSP結(jié)構(gòu)由CBM、DCBM(卷積替換為可形變卷積)以及一系列D-ResUnit殘差單元(部分卷積替換為可形變卷積)組成,SPP(Spatial Pyramid Pooling)為空間金字塔池化,通過采用1×1、5×5、9×9、13×13四種不同大小的池化核進(jìn)行最大池化,增大算法中輸入特征圖的感受野。DS-YOLO算法輸入圖片分辨率為416像素×416像素,在每個(gè)特征圖輸出前,引入可形變卷積(Deformable Convolution)網(wǎng)絡(luò)代替原始YOLOv4中CSPDarkNet53中殘差模塊殘差單元的卷積層,使特征提取網(wǎng)絡(luò)能自適應(yīng)地提取自然環(huán)境下密集柑橘的形狀和位置特征。在SPP(Spatial Pyramid Pooling)[17]結(jié)構(gòu)中,把所獲得的柑橘新特征圖和進(jìn)入網(wǎng)絡(luò)前的柑橘特征圖進(jìn)行堆疊、卷積再輸出到路徑聚合網(wǎng)絡(luò)PANet(Path Aggregation Network)[18]中。

圖3 DS-YOLO總體結(jié)構(gòu)
2) 在路徑聚合網(wǎng)絡(luò)PANet中,將13×13尺寸的柑橘特征圖融合SimAM注意力機(jī)制,通過對柑橘特征的重新擬合和分配,進(jìn)一步增加較小尺寸柑橘的占比或權(quán)重,從而提高DS-YOLO算法對柑橘特征的提取能力。由于本文使用的數(shù)據(jù)集為密集柑橘數(shù)據(jù)集,尺寸較小,而在原YOLOv4算法中,僅使用3個(gè)檢測尺度進(jìn)行目標(biāo)預(yù)測,針對密集柑橘容易造成漏檢。因此,本文在原YOLOv4的基礎(chǔ)上,增加了104×104尺寸的特征圖,通過采用K-means聚類算法估計(jì)出最適合于本數(shù)據(jù)集的12個(gè)Anchor,分別對應(yīng)4個(gè)檢測尺度,擁有較小檢測尺度的柑橘特征圖負(fù)責(zé)檢測尺度較大的柑橘目標(biāo),而擁有較大檢測尺度的柑橘特征圖負(fù)責(zé)檢測較小尺寸的柑橘目標(biāo)。整個(gè)模型在改進(jìn)以后共使用4個(gè)檢測尺度進(jìn)行檢測,通過在更深層次的網(wǎng)絡(luò)中獲取柑橘特征,增強(qiáng)在密集柑橘目標(biāo)下DS-YOLO算法多尺度學(xué)習(xí)的能力。
3) 最后為Head層,13×13的柑橘特征圖進(jìn)行一系列上采樣操作,分別與26×26、52×52、104×104的柑橘特征圖堆疊后進(jìn)行卷積和下采樣操作,充分融合4種不同尺度柑橘特征圖的特征,輸出13×13、26×26、52×52、104×104四個(gè)YOLO檢測頭。每個(gè)檢測頭包含3組候選框參數(shù),每組候選框參數(shù)包含1個(gè)置信度參數(shù)、1個(gè)類別參數(shù)和4個(gè)調(diào)整長寬坐標(biāo)偏移量的參數(shù)。通過這些參數(shù),DS-YOLO算法將生成最終預(yù)測框。
一般情況下,由于光照條件、相機(jī)視點(diǎn)不同,室外果園采集到的柑橘圖像尺寸多變,柑橘與柑橘、柑橘與葉片之間存在嚴(yán)重重疊、遮擋,導(dǎo)致柑橘形狀信息丟失,這為柑橘精準(zhǔn)識(shí)別帶來了極大困難。因此,本文針對柑橘重疊、遮擋問題,在D-CSPDarkNet53網(wǎng)絡(luò)的DCSP模塊中,引入更多具有偏移學(xué)習(xí)能力的可形變卷積層,使得卷積采樣點(diǎn)可以根據(jù)柑橘圖像改變感受野形狀和尺寸。基于可形變卷積的DCBM模塊結(jié)構(gòu)如圖4所示。

圖4 基于可形變卷積的DCBM模塊
傳統(tǒng)卷積為規(guī)則卷積,只能進(jìn)行固定大小采樣,而可形變卷積(Deformable Convolution)為使感受野可以隨著遮擋、重疊柑橘形狀和尺寸的不同而改變,在傳統(tǒng)卷積的基礎(chǔ)上為卷積核中的每個(gè)采樣點(diǎn)增加了一個(gè)二維偏移量{Δpn|n=1,…,N},N=|R|。
可形變卷積計(jì)算如式(1)所示。
(1)
式中:X——輸入特征圖;
R——大小為3×3的卷積核;
pn——卷積核中的第n個(gè)點(diǎn);
w(pn)——pn點(diǎn)對應(yīng)權(quán)重;
p0——輸入輸出特征圖上的p0點(diǎn);
Δpn——可形變卷積采樣點(diǎn)的二維偏移量;
X′——輸出特征圖。
在DCSP模塊中,為使可形變卷積能夠在更大范圍的特征層上控制采樣,減少采樣點(diǎn)形變所引入的葉片無關(guān)背景干擾信息,保證柑橘特征的準(zhǔn)確提取,在原有可形變卷積的基礎(chǔ)上為卷積核中的每個(gè)采樣點(diǎn)添加一個(gè)權(quán)重系數(shù),Δwn∈[0,1],計(jì)算如式(2)所示。
(2)
由于采樣點(diǎn)發(fā)生了形變,所以提取到的偏移量Δpn通常是小數(shù),不能直接得到像素值的坐標(biāo),因此需要通過雙線性插值方法來計(jì)算卷積后的輸入特征圖X。

(3)
式中:p——可形變卷積偏移后的位置,p=p0+pn+Δpn;
q——特征圖中所有的點(diǎn)的位置;
G(.,.)——二維雙線性插值核函數(shù),即采樣點(diǎn)對應(yīng)權(quán)重。
在原始YOLOv4的路徑聚合網(wǎng)絡(luò)PANet中,添加SimAM注意力機(jī)制。SimAM注意力機(jī)制結(jié)合通道維度和空間維度,定義了統(tǒng)一通道維度和空間維度的三維注意力權(quán)重,使得DS-YOLO算法更加關(guān)注密集柑橘的深層特征空間信息。

(4)
式中:λ——正則項(xiàng);
C——通道數(shù);
M——每個(gè)通道神經(jīng)元個(gè)數(shù),M=H×W;
i——神經(jīng)元索引;




(5)
其中,Sigmoid激活函數(shù)是為了限制E值過大。SimAM整體結(jié)構(gòu)圖如圖5所示,輸入特征圖在經(jīng)過SimAM注意力機(jī)制后,通過Sigmoid函數(shù)進(jìn)行了權(quán)值歸一化,將所求的神經(jīng)元權(quán)值和原始特征圖的特征相乘,從而獲得最終輸出特征圖。

圖5 SimAM注意力機(jī)制
本文試驗(yàn)環(huán)境采用64位Linux操作系統(tǒng),硬件配置為Intel(R)Xeon(R)CPU E5-2630 v4(2.20 GHZ 10核)處理器、NVIDIA Tesla p40顯卡,內(nèi)存為16 GB,使用Python3.6、Pytorch1.2.0、CUDA11.2實(shí)現(xiàn)模型的搭建及訓(xùn)練工作,所有試驗(yàn)的訓(xùn)練和測試圖片分辨率設(shè)置為416像素×416像素,訓(xùn)練過程為100個(gè)epoch,Batchsize設(shè)為8,學(xué)習(xí)率初始值設(shè)置為0.001。
本文針對單種類的目標(biāo)檢測,使用平均準(zhǔn)確率mAP(Mean Average Precision)、精確率(Precision)、召回率(Recall)、F1分?jǐn)?shù)作為評價(jià)指標(biāo)衡量算法性能,其中mAP為主要評價(jià)指標(biāo)。
(6)
(7)
(8)
(9)
式中:TP——DS-YOLO算法成功識(shí)別出來的柑橘目標(biāo)中被正確識(shí)別的數(shù)量;
TN——DS-YOLO算法未識(shí)別出來的柑橘目標(biāo)中被正確識(shí)別的數(shù)量;
FP——DS-YOLO算法未識(shí)別出來的柑橘目標(biāo)中被錯(cuò)誤識(shí)別的數(shù)量;
FN——DS-YOLO算法成功識(shí)別出來的柑橘目標(biāo)中被錯(cuò)誤識(shí)別的數(shù)量。
為驗(yàn)證本文所提出的DS-YOLO算法的優(yōu)越性,將該算法與目前在目標(biāo)檢測中常用的多種深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行對比,包括Faster RCNN、SSD、YOLOX等。試驗(yàn)利用本文自制的密集柑橘數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練超參相同,不同網(wǎng)絡(luò)模型密集柑橘檢測效果如表2所示。

表2 不同網(wǎng)絡(luò)模型密集柑橘檢測效果對比Tab. 2 Comparison of dense citrus detection results with different network models
由表2可知,在密集柑橘數(shù)據(jù)集上,本文所提出的DS-YOLO模型的平均準(zhǔn)確率為86.86%、精確率為92.90%、召回率為76.07%、F1分?jǐn)?shù)為0.84,相比于Faster RCNN、YOLOv4、YOLOX網(wǎng)絡(luò)模型,mAP值分別提升23.97%、8.75%、4.1%,均優(yōu)于其他檢測算法。但由于本文所提出的DS-YOLO模型引入了可形變卷積模塊及增加了新的檢測尺度,檢測速度相較于其他模型有所下降。模型訓(xùn)練完成后,使用未進(jìn)行數(shù)據(jù)預(yù)處理的密集柑橘測試集進(jìn)行效果驗(yàn)證,由于柑橘較小,為有效觀察模型檢測結(jié)果,本文截取了各類算法檢測結(jié)果圖像的一部分,DS-YOLO算法實(shí)際檢測效果如圖6所示,結(jié)果顯示,在相同訓(xùn)練超參下,本文提出的DS-YOLO算法能更準(zhǔn)確對密集場景下的柑橘進(jìn)行檢測定位,而原YOLOv4算法則存在一定程度的漏檢誤檢,驗(yàn)證了DS-YOLO算法可提高自然環(huán)境下密集柑橘的檢測精度。
更進(jìn)一步的,為驗(yàn)證本文提出的DS-YOLO密集柑橘算法中各改進(jìn)模塊對自然環(huán)境下密集柑橘的檢測效果影響,將改進(jìn)后的DS-YOLO算法與改進(jìn)前的YOLOv4算法進(jìn)行試驗(yàn)對比,模型訓(xùn)練過程對比曲線如圖7所示,具體試驗(yàn)內(nèi)容及檢測結(jié)果如表3所示。其中,“√”表示使用了對應(yīng)方法,Deformable conv表示算法引入可形變卷積網(wǎng)絡(luò),SimAM表示算法引入SimAM注意力,F(xiàn)PN+表示算法進(jìn)行多尺度結(jié)構(gòu)改進(jìn)。
從表3可以看出,相較于原YOLOv4算法,引入可形變卷積后算法平均準(zhǔn)確率提高了7.04個(gè)百分點(diǎn)。為更好分析DS-YOLO算法特征提取網(wǎng)絡(luò)的特征提取效果,如圖8所示。對DS-YOLO算法改進(jìn)前的CSPDarkNet53特征提取網(wǎng)絡(luò)和改進(jìn)后D-CSPDarkNet53特征提取網(wǎng)絡(luò)所獲取的特征圖進(jìn)行可視化,發(fā)現(xiàn)引入可形變卷積后的D-CSPDarkNet53網(wǎng)絡(luò)所提取的柑橘圖像特征更為抽象,并更為關(guān)注高級語義特征,進(jìn)而證明了可形變卷積在密集柑橘檢測中的有效性,說明引入可形變卷積,可以提高DS-YOLO算法對密集柑橘的特征獲取能力。

(a) 原始圖片

(b) SSD


(d) YOLOv4

(e) DS-YOLO

圖7 訓(xùn)練過程模型準(zhǔn)確率對比曲線
在此基礎(chǔ)上,算法采用改進(jìn)后的多尺度檢測結(jié)構(gòu)并融合SimAM注意力機(jī)制,算法整體平均準(zhǔn)確率在可形變卷積基礎(chǔ)上提升了1.71個(gè)百分點(diǎn)。為驗(yàn)證改進(jìn)后多尺度結(jié)構(gòu)與SimAM注意力對DS-YOLO算法具有積極影響,對改進(jìn)后四個(gè)檢測尺度所提取的特征信息進(jìn)行可視化,由于本文試驗(yàn)采用的柑橘圖像,柑橘較小,因而對原始圖像進(jìn)行了裁剪操作。可視化結(jié)果如圖9所示。

表3 基于YOLOv4網(wǎng)絡(luò)模型改進(jìn)后效果對比Tab. 3 Comparison of the improved effects based on YOLOv4 network model

(a) 原始圖片

(b) CSPDarkNet53特征圖

(c) D-CSPDarkNet53特征圖

(a) 原始圖片

(b) 26×26尺寸熱力圖

(c) 52×52尺寸熱力圖

(d) 104×104尺寸熱力圖
根據(jù)圖9(b)中26×26檢測尺度的可視化結(jié)果,可以明顯發(fā)現(xiàn),原YOLOv4的13×13、26×26尺寸的檢測頭更適用于檢測大尺寸柑橘及中等尺寸柑橘,小尺寸柑橘檢測效果較差。本文所使用的色度圖模式為COLORMAP_JET,顏色越藍(lán)表示灰度值越低,顏色越紅表示灰度值越高,算法越關(guān)注,圖9(c)和圖9(d)中52×52、104×104檢測尺度則更關(guān)注小尺寸柑橘及極小尺寸柑橘。試驗(yàn)表明,DS-YOLO算法對密集柑橘檢測精度的提升具有積極影響。
本文針對自然環(huán)境下果園柑橘密集、目標(biāo)小、數(shù)目多、易遮擋重疊等特點(diǎn),提出一種DS-YOLO密集柑橘檢測算法實(shí)現(xiàn)自然環(huán)境下的密集柑橘檢測,并通過試驗(yàn)驗(yàn)證提出算法的有效性。
1) 為使特征提取網(wǎng)絡(luò)能自適應(yīng)地提取自然環(huán)境下密集柑橘的形狀和位置特征,在原始YOLOv4算法的CSPDarkNet53模塊中引入可形變卷積(Deformable Convolution)網(wǎng)絡(luò),用于代替部分殘差模塊殘差單元的卷積層,提高算法對密集、遮擋柑橘的特征提取能力。
2) 在路徑聚合網(wǎng)絡(luò)中,添加SimAM注意力機(jī)制,并在原YOLOv4的基礎(chǔ)上,增加104×104尺寸的特征圖,通過K-means聚類算法估計(jì)出最適用于密集柑橘數(shù)據(jù)集的Anchor,并且通過對柑橘特征的重新擬合和分配,進(jìn)一步增加較小尺寸柑橘的占比或權(quán)重,從而提高模型對柑橘特征的提取能力。
3) 改進(jìn)后的DS-YOLO算法平均準(zhǔn)確率為86.86%、精確率為92.9%、召回率為76.07%、F1分?jǐn)?shù)為0.84,相較于原YOLOv4算法平均準(zhǔn)確率提高了8.75%,具有一定的魯棒性和泛化性,相比于Faster RCNN、YOLOX等網(wǎng)絡(luò)模型,本文所提出的DS-YOLO算法平均準(zhǔn)確率分別提升了23.97%、4.1%,為柑橘早期估產(chǎn)及采摘機(jī)器人運(yùn)作提供了新的研究思路。
改進(jìn)后的DS-YOLO算法,能夠提升自然環(huán)境下遮擋、重疊柑橘的檢測精度,但在精度提升的同時(shí),模型檢測速度也有所下降,因此,在未來工作中,仍需考慮如何對DS-YOLO算法進(jìn)行進(jìn)一步優(yōu)化,使用更輕量網(wǎng)絡(luò)的同時(shí)保證檢測精度,提高其泛化能力,為自然環(huán)境下密集水果識(shí)別提供新的檢測方法。
中國農(nóng)機(jī)化學(xué)報(bào)2023年2期