重慶三峽學(xué)院 江金輝
柑橘作為我國南方地區(qū)的主要經(jīng)濟(jì)作物[1],其生產(chǎn)過程的現(xiàn)代化和智能化對其產(chǎn)業(yè)的發(fā)展有著非常大的意義。隨著人工智能、計算機視覺等技術(shù)的快速興起,諸如采摘機器人、分揀機器人等越來越多的智能農(nóng)業(yè)機械應(yīng)用到了柑橘的生產(chǎn)過程當(dāng)中[2]。目標(biāo)識別作為這些智能農(nóng)用機械的“眼睛”,在設(shè)計和研發(fā)以及應(yīng)用階段中都扮演了極為重要的角色。為了實現(xiàn)對柑橘果實的精準(zhǔn)識別,國內(nèi)外研究人員提出了許多解決方案。
黃河清等人[3]針對當(dāng)前柑橘果實目標(biāo)檢測模型多數(shù)需在服務(wù)器上運行,難以直接在果園部署且識別實時性較差等問題,設(shè)計了基于邊緣計算設(shè)備的便攜式柑橘果實識別系統(tǒng),識別系統(tǒng)對柑橘果實的識別平均準(zhǔn)確率達(dá)93.01%。易詩等人[4]基于特征遞歸融合YOLOv4模型,針對小個體柑橘、單株密集柑橘和遮擋柑橘進(jìn)行檢測,檢測結(jié)果對于果園環(huán)境中春見柑橘的平均檢測精度達(dá)到94.6%。李揚[5]分別對單個柑橘目標(biāo)和重疊目標(biāo)進(jìn)行了識別,并提出一種基于凸殼及距離變換理論的重疊柑橘目標(biāo)識別方法。試驗結(jié)果表明,對于單個柑橘的識別,平均識別誤差為2.03%。對于重疊目標(biāo)的識別,仿真試驗中的采摘中心點定位誤差為6.51%。徐利鋒等[6]提出基于改進(jìn)DenseNet 多尺度特征提取模塊的水果檢測框架,在多尺度特征提取模塊中結(jié)合低層與深層特征的優(yōu)勢,建立特征金字塔結(jié)構(gòu),在目標(biāo)重疊框篩選任務(wù)中嵌入非極大抑制算法,但改進(jìn)后的框架存在高內(nèi)存占用率問題。李頎等人[7]為了實現(xiàn)果粒排列密集、相互遮擋的葡萄果實檢測,將金字塔結(jié)構(gòu)及遮擋補償機制引入到ResNet50 網(wǎng)絡(luò)中,改善對遮擋果粒的識別問題。莊昊龍等[8]提出一種基于改進(jìn)YOLOv5+Deep-Sort 的柑橘果實識別與計數(shù)方法,改進(jìn)后的模型對于柑橘果實識別的平均準(zhǔn)確率達(dá)到了93.712%。
可見,以深度學(xué)習(xí)方法解決果實識別問題是近幾年的主流熱門方法。但這些方法還存在一些問題:(1)深度學(xué)習(xí)方法對于數(shù)據(jù)量的需求較高。由于柑橘數(shù)據(jù)集并非通用數(shù)據(jù)集,因此其質(zhì)量往往較為粗糙,同時數(shù)量上也相對較少,而深度學(xué)習(xí)模型通常需要大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,除了會耗費大量人工標(biāo)注時間外,獲取大規(guī)模的柑橘一類的果實圖像數(shù)據(jù)集也會面臨困難,這限制了深度學(xué)習(xí)方法在果實識別問題上的應(yīng)用范圍。(2)深度學(xué)習(xí)方法在處理小樣本情況下表現(xiàn)欠佳。對于某些樣本數(shù)量較少的情況,深度學(xué)習(xí)模型可能面臨著過擬合或者無法充分學(xué)習(xí)的問題,導(dǎo)致目標(biāo)漏檢、錯檢。
綜上所述,盡管深度學(xué)習(xí)方法在果實識別問題上取得了顯著的進(jìn)展,但仍然面臨數(shù)據(jù)需求高、小樣本識別效果差等問題。
隨著深度學(xué)習(xí)大模型的發(fā)展,特別是SAM分割大模型的出現(xiàn),在柑橘識別任務(wù)中提供了新的思路,該模型具備了足夠的通用性,可以涵蓋廣泛的用例,并且可以在新的圖像領(lǐng)域上即開即用,無需額外的訓(xùn)練。在柑橘目標(biāo)檢測任務(wù)中,我們認(rèn)為可以先利用SAM大模型對柑橘進(jìn)行分割,以實現(xiàn)對各個目標(biāo)的準(zhǔn)確定位,然后再對定位結(jié)果進(jìn)行識別。經(jīng)過實驗驗證,筆者的方法相較于僅使用通用檢測器進(jìn)行柑橘檢測的方法表現(xiàn)更好,并且在實際應(yīng)用中更加便捷,省去了復(fù)雜的數(shù)據(jù)集制作和調(diào)整的步驟。
2023 年Meta 的Segment Anything(SA)項目孕育出了SAM(Segment Anything Model)。該項目構(gòu)建了一個功能廣泛且適應(yīng)性強的通用大模型,該模型能夠快速適應(yīng)各種現(xiàn)有和新興的分割任務(wù),如邊緣檢測、對象提議生成、實例分割以及從自由文本中提取對象等。模型結(jié)構(gòu)如圖1 所示。

圖1 SAM 結(jié)構(gòu)圖
該模型主要由三個部分組成:強大的圖像編碼器(MAE 預(yù)訓(xùn)練的ViT)、提示編碼器(分為稀疏輸入和密集輸入)以及掩碼解碼器(使用自注意和交叉注意的提示圖像雙向變壓器解碼器)。此外,當(dāng)輸入的提示信息不夠明確時,網(wǎng)絡(luò)會根據(jù)置信度對三種可能的掩碼輸出進(jìn)行排序。在訓(xùn)練中,使用的SA-1B 數(shù)據(jù)集包含超過十億個掩碼,為模型的訓(xùn)練和評估提供了充足的高質(zhì)量數(shù)據(jù)。實驗證明,SAM模型在各種分割任務(wù)上展現(xiàn)出了出色的性能和靈活性,無論是面對已知數(shù)據(jù)分布還是全新數(shù)據(jù)分布,SAM都能夠進(jìn)行零樣本遷移,并取得令人矚目的效果。
VGG16 是一個由牛津大學(xué)計算機視覺組開發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,具有16 層深度,結(jié)構(gòu)如圖2 所示。在柑橘分類任務(wù)中,使用VGG16 模型具有以下優(yōu)勢:(1)準(zhǔn)確性高,VGG16 模型通過多層卷積操作能夠有效地提取圖像特征,從而提高了柑橘分類任務(wù)的準(zhǔn)確性。(2)易于訓(xùn)練:VGG16 模型的結(jié)構(gòu)相對簡單且層次清晰,參數(shù)數(shù)量可控,因此相對容易訓(xùn)練,適合應(yīng)用于柑橘分類等中小規(guī)模任務(wù)。(3)應(yīng)用范圍廣,作為經(jīng)典的深度學(xué)習(xí)模型之一,VGG16 在業(yè)界擁有廣泛的應(yīng)用和研究基礎(chǔ),相關(guān)的開源實現(xiàn)和優(yōu)化技巧豐富,便于使用者參考和借鑒。

圖2 VGG16 結(jié)構(gòu)圖
綜上,將VGG16 模型應(yīng)用于柑橘分類任務(wù)中能夠帶來較高的準(zhǔn)確性、良好的泛化能力和相對簡單的訓(xùn)練過程,是一種有效且可靠的選擇。
在目標(biāo)檢測任務(wù)中,傳統(tǒng)方法通常需要人工采集、制作大量的數(shù)據(jù)集,再將數(shù)據(jù)集按比例劃分為訓(xùn)練集、驗證集、測試集,利用龐大的數(shù)據(jù)集輸入到網(wǎng)絡(luò)模型中進(jìn)行長時間的訓(xùn)練,以求達(dá)到良好的檢測效果。而在分類任務(wù)中,分類數(shù)據(jù)集的制作相對簡單且模型對數(shù)據(jù)集的需求量少,并且對于簡單二分類任務(wù)而言,所需訓(xùn)練時長較短。本文實驗方法的優(yōu)勢在于僅需要簡單的類別標(biāo)定制作分類數(shù)據(jù)集,無需傳統(tǒng)檢測方法那樣標(biāo)注包圍框。
本文數(shù)據(jù)集所用柑橘圖像均采集于重慶市萬州區(qū)某果農(nóng)自種果園,在不同的天氣狀況、光照環(huán)境、拍攝角度、遠(yuǎn)近距離的條件下進(jìn)行拍攝,經(jīng)過對數(shù)據(jù)集的初步篩選,剔除不含柑橘或難以標(biāo)記的樣本后選取了1200 張柑橘圖片樣本。部分圖像如圖3 所示。

圖3 柑橘圖像
對柑橘圖像篩選完成后,為了測試本文方法的應(yīng)用性能,筆者利用Labelme 工具進(jìn)行標(biāo)注,制作了包含1000 張柑橘圖片樣本的數(shù)據(jù)集。將剩余200 張圖像進(jìn)行處理后,制作了包含柑橘與非柑橘兩類的分類數(shù)據(jù)集,該分類數(shù)據(jù)集用于訓(xùn)練分類器。
本文實驗總體流程如圖4 所示。將柑橘圖像輸入到SAM后,通過對SAM模型參數(shù)進(jìn)行調(diào)整,生成分割目標(biāo)小圖像以及基于原圖的編號和定位信息,再將從原圖上裁剪出的目標(biāo)小圖像輸入到微調(diào)后的VGG16分類模型中,分類器將類別為“orange”的圖像編號返還到原圖上生成檢測目標(biāo)框。

圖4 實驗流程
本文對比實驗選取了YOLOV4 原始模型,將標(biāo)注過的1000 張柑橘圖像數(shù)據(jù)集按照6:2:2 的比例劃分為模型訓(xùn)練集、驗證集、測試集,輸入到Y(jié)OLOV4 模型中進(jìn)行訓(xùn)練,其實驗結(jié)果作為本文方法的對照組。
將本文方法記為SAM-VGG16,在這一部分中,我們將本文方法的檢測結(jié)果與測試集進(jìn)行計算,得到該實驗方法的mAP。兩種方法的mAP 結(jié)果對比如下表:

通過結(jié)果對比,筆者發(fā)現(xiàn)本文方法可以利用少量的分類數(shù)據(jù)集實現(xiàn)柑橘檢測任務(wù),比經(jīng)過訓(xùn)練的yolov4模型效果高出1.4%。由此,筆者認(rèn)為,本文的方法在缺少實驗樣本的條件下達(dá)到了柑橘目標(biāo)檢測任務(wù)的要求,能夠避免在缺少數(shù)據(jù)集時無法進(jìn)行訓(xùn)練識別的問題,在識別效果上也能夠為下一步的采摘任務(wù)提供支持,為柑橘識別項目提供了另一種思路。
針對自然環(huán)境下樹上柑橘數(shù)據(jù)集難以獲取、數(shù)據(jù)集人工標(biāo)注難度大等問題,本文提出一種聯(lián)合SAM與VGG16 模型的柑橘檢測方法。該模型通過SAM將輸入圖像進(jìn)行分割,然后將分割后的結(jié)果輸入到VGG16 分類模型中,對圖像中的柑橘目標(biāo)進(jìn)行識別,實驗結(jié)果表明,該方法能夠在數(shù)據(jù)集數(shù)量不足、質(zhì)量不好或者沒有數(shù)據(jù)集的情況下,仍能夠在柑橘目標(biāo)檢測項目中達(dá)到不錯的效果。當(dāng)然,該實驗方法也存在一些有待改進(jìn)的地方,例如由于SAM大模型的加入使模型推理速度變慢、分類器是否有更合適的模型、該方法在其他檢測任務(wù)中是否具有同樣的零樣本泛化能力等,在后續(xù)的實驗過程中我們將進(jìn)行更深一步的探索。