聯(lián)合SAM 與VGG16 的樹上柑橘檢測方法

2024-04-15 14:04:48重慶三峽學(xué)院江金輝

河北農(nóng)機 2024年1期

重慶三峽學(xué)院江金輝

柑橘作為我國南方地區(qū)的主要經(jīng)濟(jì)作物[1]，其生產(chǎn)過程的現(xiàn)代化和智能化對其產(chǎn)業(yè)的發(fā)展有著非常大的意義。隨著人工智能、計算機視覺等技術(shù)的快速興起，諸如采摘機器人、分揀機器人等越來越多的智能農(nóng)業(yè)機械應(yīng)用到了柑橘的生產(chǎn)過程當(dāng)中[2]。目標(biāo)識別作為這些智能農(nóng)用機械的“眼睛”，在設(shè)計和研發(fā)以及應(yīng)用階段中都扮演了極為重要的角色。為了實現(xiàn)對柑橘果實的精準(zhǔn)識別，國內(nèi)外研究人員提出了許多解決方案。

黃河清等人[3]針對當(dāng)前柑橘果實目標(biāo)檢測模型多數(shù)需在服務(wù)器上運行，難以直接在果園部署且識別實時性較差等問題，設(shè)計了基于邊緣計算設(shè)備的便攜式柑橘果實識別系統(tǒng)，識別系統(tǒng)對柑橘果實的識別平均準(zhǔn)確率達(dá)93.01%。易詩等人[4]基于特征遞歸融合YOLOv4模型，針對小個體柑橘、單株密集柑橘和遮擋柑橘進(jìn)行檢測，檢測結(jié)果對于果園環(huán)境中春見柑橘的平均檢測精度達(dá)到94.6%。李揚[5]分別對單個柑橘目標(biāo)和重疊目標(biāo)進(jìn)行了識別，并提出一種基于凸殼及距離變換理論的重疊柑橘目標(biāo)識別方法。試驗結(jié)果表明，對于單個柑橘的識別，平均識別誤差為2.03%。對于重疊目標(biāo)的識別，仿真試驗中的采摘中心點定位誤差為6.51%。徐利鋒等[6]提出基于改進(jìn)DenseNet 多尺度特征提取模塊的水果檢測框架，在多尺度特征提取模塊中結(jié)合低層與深層特征的優(yōu)勢，建立特征金字塔結(jié)構(gòu)，在目標(biāo)重疊框篩選任務(wù)中嵌入非極大抑制算法，但改進(jìn)后的框架存在高內(nèi)存占用率問題。李頎等人[7]為了實現(xiàn)果粒排列密集、相互遮擋的葡萄果實檢測，將金字塔結(jié)構(gòu)及遮擋補償機制引入到ResNet50 網(wǎng)絡(luò)中，改善對遮擋果粒的識別問題。莊昊龍等[8]提出一種基于改進(jìn)YOLOv5+Deep-Sort 的柑橘果實識別與計數(shù)方法，改進(jìn)后的模型對于柑橘果實識別的平均準(zhǔn)確率達(dá)到了93.712%。

可見，以深度學(xué)習(xí)方法解決果實識別問題是近幾年的主流熱門方法。但這些方法還存在一些問題：（1）深度學(xué)習(xí)方法對于數(shù)據(jù)量的需求較高。由于柑橘數(shù)據(jù)集并非通用數(shù)據(jù)集，因此其質(zhì)量往往較為粗糙，同時數(shù)量上也相對較少，而深度學(xué)習(xí)模型通常需要大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，除了會耗費大量人工標(biāo)注時間外，獲取大規(guī)模的柑橘一類的果實圖像數(shù)據(jù)集也會面臨困難，這限制了深度學(xué)習(xí)方法在果實識別問題上的應(yīng)用范圍。（2）深度學(xué)習(xí)方法在處理小樣本情況下表現(xiàn)欠佳。對于某些樣本數(shù)量較少的情況，深度學(xué)習(xí)模型可能面臨著過擬合或者無法充分學(xué)習(xí)的問題，導(dǎo)致目標(biāo)漏檢、錯檢。

綜上所述，盡管深度學(xué)習(xí)方法在果實識別問題上取得了顯著的進(jìn)展，但仍然面臨數(shù)據(jù)需求高、小樣本識別效果差等問題。

隨著深度學(xué)習(xí)大模型的發(fā)展，特別是SAM分割大模型的出現(xiàn)，在柑橘識別任務(wù)中提供了新的思路，該模型具備了足夠的通用性，可以涵蓋廣泛的用例，并且可以在新的圖像領(lǐng)域上即開即用，無需額外的訓(xùn)練。在柑橘目標(biāo)檢測任務(wù)中，我們認(rèn)為可以先利用SAM大模型對柑橘進(jìn)行分割，以實現(xiàn)對各個目標(biāo)的準(zhǔn)確定位，然后再對定位結(jié)果進(jìn)行識別。經(jīng)過實驗驗證，筆者的方法相較于僅使用通用檢測器進(jìn)行柑橘檢測的方法表現(xiàn)更好，并且在實際應(yīng)用中更加便捷，省去了復(fù)雜的數(shù)據(jù)集制作和調(diào)整的步驟。

1 模型架構(gòu)

1.1 SAM 介紹

2023 年Meta 的Segment Anything（SA）項目孕育出了SAM（Segment Anything Model）。該項目構(gòu)建了一個功能廣泛且適應(yīng)性強的通用大模型，該模型能夠快速適應(yīng)各種現(xiàn)有和新興的分割任務(wù)，如邊緣檢測、對象提議生成、實例分割以及從自由文本中提取對象等。模型結(jié)構(gòu)如圖1 所示。

圖1 SAM 結(jié)構(gòu)圖

該模型主要由三個部分組成：強大的圖像編碼器（MAE 預(yù)訓(xùn)練的ViT）、提示編碼器（分為稀疏輸入和密集輸入）以及掩碼解碼器（使用自注意和交叉注意的提示圖像雙向變壓器解碼器）。此外，當(dāng)輸入的提示信息不夠明確時，網(wǎng)絡(luò)會根據(jù)置信度對三種可能的掩碼輸出進(jìn)行排序。在訓(xùn)練中，使用的SA-1B 數(shù)據(jù)集包含超過十億個掩碼，為模型的訓(xùn)練和評估提供了充足的高質(zhì)量數(shù)據(jù)。實驗證明，SAM模型在各種分割任務(wù)上展現(xiàn)出了出色的性能和靈活性，無論是面對已知數(shù)據(jù)分布還是全新數(shù)據(jù)分布，SAM都能夠進(jìn)行零樣本遷移，并取得令人矚目的效果。

1.2 VGG16 介紹

VGG16 是一個由牛津大學(xué)計算機視覺組開發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)模型，具有16 層深度，結(jié)構(gòu)如圖2 所示。在柑橘分類任務(wù)中，使用VGG16 模型具有以下優(yōu)勢：（1）準(zhǔn)確性高，VGG16 模型通過多層卷積操作能夠有效地提取圖像特征，從而提高了柑橘分類任務(wù)的準(zhǔn)確性。（2）易于訓(xùn)練:VGG16 模型的結(jié)構(gòu)相對簡單且層次清晰，參數(shù)數(shù)量可控，因此相對容易訓(xùn)練，適合應(yīng)用于柑橘分類等中小規(guī)模任務(wù)。（3）應(yīng)用范圍廣，作為經(jīng)典的深度學(xué)習(xí)模型之一，VGG16 在業(yè)界擁有廣泛的應(yīng)用和研究基礎(chǔ)，相關(guān)的開源實現(xiàn)和優(yōu)化技巧豐富，便于使用者參考和借鑒。

圖2 VGG16 結(jié)構(gòu)圖

綜上，將VGG16 模型應(yīng)用于柑橘分類任務(wù)中能夠帶來較高的準(zhǔn)確性、良好的泛化能力和相對簡單的訓(xùn)練過程，是一種有效且可靠的選擇。

2 實驗過程與結(jié)果分析

2.1 數(shù)據(jù)集

在目標(biāo)檢測任務(wù)中，傳統(tǒng)方法通常需要人工采集、制作大量的數(shù)據(jù)集，再將數(shù)據(jù)集按比例劃分為訓(xùn)練集、驗證集、測試集，利用龐大的數(shù)據(jù)集輸入到網(wǎng)絡(luò)模型中進(jìn)行長時間的訓(xùn)練，以求達(dá)到良好的檢測效果。而在分類任務(wù)中，分類數(shù)據(jù)集的制作相對簡單且模型對數(shù)據(jù)集的需求量少，并且對于簡單二分類任務(wù)而言，所需訓(xùn)練時長較短。本文實驗方法的優(yōu)勢在于僅需要簡單的類別標(biāo)定制作分類數(shù)據(jù)集，無需傳統(tǒng)檢測方法那樣標(biāo)注包圍框。

本文數(shù)據(jù)集所用柑橘圖像均采集于重慶市萬州區(qū)某果農(nóng)自種果園，在不同的天氣狀況、光照環(huán)境、拍攝角度、遠(yuǎn)近距離的條件下進(jìn)行拍攝，經(jīng)過對數(shù)據(jù)集的初步篩選，剔除不含柑橘或難以標(biāo)記的樣本后選取了1200 張柑橘圖片樣本。部分圖像如圖3 所示。

圖3 柑橘圖像

對柑橘圖像篩選完成后，為了測試本文方法的應(yīng)用性能，筆者利用Labelme 工具進(jìn)行標(biāo)注，制作了包含1000 張柑橘圖片樣本的數(shù)據(jù)集。將剩余200 張圖像進(jìn)行處理后，制作了包含柑橘與非柑橘兩類的分類數(shù)據(jù)集，該分類數(shù)據(jù)集用于訓(xùn)練分類器。

2.2 實驗流程

本文實驗總體流程如圖4 所示。將柑橘圖像輸入到SAM后，通過對SAM模型參數(shù)進(jìn)行調(diào)整，生成分割目標(biāo)小圖像以及基于原圖的編號和定位信息，再將從原圖上裁剪出的目標(biāo)小圖像輸入到微調(diào)后的VGG16分類模型中，分類器將類別為“orange”的圖像編號返還到原圖上生成檢測目標(biāo)框。

圖4 實驗流程

2.3 實驗結(jié)果

本文對比實驗選取了YOLOV4 原始模型，將標(biāo)注過的1000 張柑橘圖像數(shù)據(jù)集按照6：2：2 的比例劃分為模型訓(xùn)練集、驗證集、測試集，輸入到Y(jié)OLOV4 模型中進(jìn)行訓(xùn)練，其實驗結(jié)果作為本文方法的對照組。

將本文方法記為SAM-VGG16，在這一部分中，我們將本文方法的檢測結(jié)果與測試集進(jìn)行計算，得到該實驗方法的mAP。兩種方法的mAP 結(jié)果對比如下表：

通過結(jié)果對比，筆者發(fā)現(xiàn)本文方法可以利用少量的分類數(shù)據(jù)集實現(xiàn)柑橘檢測任務(wù)，比經(jīng)過訓(xùn)練的yolov4模型效果高出1.4%。由此，筆者認(rèn)為，本文的方法在缺少實驗樣本的條件下達(dá)到了柑橘目標(biāo)檢測任務(wù)的要求，能夠避免在缺少數(shù)據(jù)集時無法進(jìn)行訓(xùn)練識別的問題，在識別效果上也能夠為下一步的采摘任務(wù)提供支持，為柑橘識別項目提供了另一種思路。

3 討論

針對自然環(huán)境下樹上柑橘數(shù)據(jù)集難以獲取、數(shù)據(jù)集人工標(biāo)注難度大等問題，本文提出一種聯(lián)合SAM與VGG16 模型的柑橘檢測方法。該模型通過SAM將輸入圖像進(jìn)行分割，然后將分割后的結(jié)果輸入到VGG16 分類模型中，對圖像中的柑橘目標(biāo)進(jìn)行識別，實驗結(jié)果表明，該方法能夠在數(shù)據(jù)集數(shù)量不足、質(zhì)量不好或者沒有數(shù)據(jù)集的情況下，仍能夠在柑橘目標(biāo)檢測項目中達(dá)到不錯的效果。當(dāng)然，該實驗方法也存在一些有待改進(jìn)的地方，例如由于SAM大模型的加入使模型推理速度變慢、分類器是否有更合適的模型、該方法在其他檢測任務(wù)中是否具有同樣的零樣本泛化能力等，在后續(xù)的實驗過程中我們將進(jìn)行更深一步的探索。