汪斌斌,楊貴軍,楊 浩,顧寄南,趙 丹,許思喆,4,徐 波
·農業航空工程·
基于YOLO_X和遷移學習的無人機影像玉米雄穗檢測
汪斌斌1,2,3,楊貴軍1,2,3,楊 浩2,3,顧寄南1,趙 丹2,3,許思喆2,3,4,徐 波2,3※
(1. 江蘇大學機械工程學院,鎮江 212000;2. 農業農村部農業遙感機理與定量遙感重點實驗室,北京農業信息技術研究中心,北京 100097;3. 國家農業信息化工程技術研究中心,北京 100097;4. 江蘇大學農業工程學院,鎮江 212000)
玉米雄穗表型信息的獲取對研究玉米長勢及產量起著非常重要的作用,為實現復雜田間環境玉米雄穗的精確識別和計數,該研究使用無人機采集試驗田的玉米雄穗影像,基于Faster R-CNN、SSD、YOLO_X目標檢測模型,使用遷移學習方法實現玉米雄穗的高精度識別,并分析了模型對不同品種和不同種植密度的玉米雄穗檢測效果。試驗結果表明,基于遷移學習的Faster R-CNN、SSD、YOLO_X的目標檢測效果相比于未使用遷移學習的模型有明顯提升,其中,遷移學習后YOLO_X的識別精確度為97.16%,平均精度為93.60%,準確度為99.84%,對數平均誤檢率為0.22,識別效果最好;不同玉米品種對模型的適應性有所差異,其中鄭單958對模型適應性最好,Faster R-CNN、SSD、YOLO_X的決定系數2分別為0.947 4、0.963 6、0.971 2;不同種植密度下玉米雄穗的檢測效果有所差異,在29 985,44 978,67 466,89 955株/hm2種植密度下,模型對鄭單958檢測的平均絕對誤差分別為0.19、0.31、0.37、0.75,隨著種植密度的增加,檢測誤差逐漸變大。研究為農田玉米雄穗高精度識別提供了一種可靠方法,對玉米表型性狀高通量調查具有一定的應用價值。
無人機;目標檢測;圖像識別;玉米雄穗;遷移學習;深度學習
玉米是重要的糧食作物,其產量對保證糧食安全有重要意義。玉米是雌雄同株的作物,可以進行自花授粉,但是自花授粉不利于優良種子的選育,因此,保證玉米的異花授粉,對育種以及產量提升有重要意義[1-3]。在異花授粉過程中,需要對雄穗進行去除,傳統方法主要依靠人工識別去除,費時費力。計算機視覺技術在農作物識別上的應用為準確識別玉米雄穗和高效科學指導去雄工作提供了有效的技術手段。準確獲取玉米雄穗的數量信息是快速獲知玉米抽雄進度的有力支撐。
近年來,隨著無人機遙感技術和計算機視覺技術的發展,農業智能監測系統不斷完善[4]。無人機憑借高效、便捷、成本低的優勢,在農業數據采集方面贏得許多研究者青睞。計算機視覺技術憑借高效的深度學習算法在圖像分類、目標檢測、圖像分割方面起著越來越重要的作用。國內外研究者基于無人機遙感技術和深度學習算法在玉米雄穗識別方面做了許多研究,如Lu等[5]提出了一種TasselNet卷積神經網絡,通過局部回歸網絡實現了對玉米雄穗的計數,并公開了玉米雄穗數據集。梁胤豪等[6]提出SSD_mobilenet模型最適于部署在無人機機載系統上用于玉米雄穗識別。楊蜀秦等[7]通過改進無錨框CenterNet目標檢測模型[8],實現了對尺寸較小玉米雄穗的高效檢測。Liu等[9]基于Faster R-CNN網絡,通過更換不同的主干特征提取網絡對玉米雄穗進行檢測,得出殘差神經網絡(ResNet)作為玉米雄穗的特征提取網絡的效果要優于視覺幾何組網絡(VGGNet)的結論。
雖然國內外研究者對玉米雄穗檢測做了許多研究,但由于大田環境的復雜性,包括不同品種玉米以及不同種植密度對模型檢測效果的影響,模型的泛化性能較差[10-14]。其次,深度學習往往需要大量的訓練樣本,這對數據采集工作提出了更高要求。為了避免大量重復性工作,本文提出利用遷移學習作為機器學習的一種方法,將一個任務上訓練好的模型應用到新的任務中,從而提高模型的泛化性能[15-17]。Li等[18]基于Faster R-CNN模型和RetinaNet模型,在遷移學習后提高了麥穗計數準確度。萬軍杰等[19]基于GoogLeNet網絡,在遷移學習后提升了病蟲害的識別精度。袁培森等[20]提出了一種基于遷移學習的雙線性Inception-ResNet-v2網絡的菌菇識別方法,在開源數據集和個人數據集上取得了較好的測試效果。
目標檢測[21-22]模型目前主要分為1段式(One-stage)和2段式(Two-stage)兩類,其中SSD(Single shot multibox detector)網絡[23]和YOLO系列網絡作為典型的1段式網絡,而Faster R-CNN作為典型的2段式網絡,廣泛應用到農作物檢測計數方面[24]。目前YOLO系列包含YOLOv1~YOLOv5以及YOLO_X,其中YOLO_X采用免錨(Anchor Free)機制以及解耦頭部(Decoupled Head)等一系列改進,在YOLO系列中目標檢測效果表現最佳[25]。因此本文以SSD、Faster R-CNN、YOLO_X為基礎,采用遷移學習的方法進行玉米雄穗識別,并探究不同品種玉米和不同種植密度對模型的適應性,以期為高效獲取玉米高通量表型信息提供技術支持。
試驗數據采集于北京市昌平區小湯山國家精準農業研究示范基地(40°20′18′′N~40°23′13′′N,115°50′17′′E~116°29′49′′E),海拔高度36 m。整個試驗區有80個小區,每個小區大小為2.5 m×3.6 m,試驗選取5個不同的玉米品種:農科糯336(A1)、京九青貯16(A2)、天賜19(A3)、鄭單958(A4)、湘糯2008(A5),每種玉米農學性狀如表1所示;4個不同的種植密度:29 985,44 978,67 466,89 955株/hm2,2個重復。試驗播種日期為2021年6月11日,9月11日收獲。

表1 不同品種玉米農學性狀Table 1 Agronomic traits of different varieties maize
采用大疆御系列Mavic 2便攜式無人機于2021年8月9日(13∶30-14∶00)對80個試驗小區進行影像采集,試驗區域分布如圖1所示。為了減少光照強度和玉米植株擺動對檢測效果的影響,采集數據在多云、無風天氣情況下進行,此時所有玉米已進入開花期。無人機搭載2 000萬像素哈蘇相機,飛行高度為10 m,旁向重疊率和航向重疊率為80%,圖像像元分辨率0.2 cm,圖像分辨率為5 472像素×3 648像素,共獲得549幅玉米雄穗影像。由于每一幅影像尺寸較大,玉米雄穗比較密集且占用的像素區域較小,無法對影像直接訓練和檢測,為了保證后期的網絡訓練速度,將采集的影像裁剪成600像素×600像素大小,共獲得2 120張玉米雄穗影像。

圖1 試驗區域分布
為了分析品種和種植密度對模型檢測效果的影響,需保證不同品種在不同種植密度下訓練和驗證的數據量一致,故在訓練集和驗證集樣本區域,每個玉米品種在每個種植密度下雄穗影像各取80張作為訓練集,在5個品種和4個種植密度下共獲得1 600張影像作為訓練集,每個玉米品種在每個種植密度下雄穗影像各取10張影像作為驗證集,驗證集總數為200張;在測試集樣本區域,每個玉米品種在每個種植密度下各取16張雄穗影像,最終得到320張測試集影像。
使用LabelImg軟件對得到的玉米雄穗影像數據進行標注,每一幅影像標注之后所保存的XML文件都包含影像的寬度和高度以及通道數,并且會記錄目標的類別以及目標邊界框的左上、右下的頂點坐標。
本文旨在利用目標檢測算法對玉米雄穗進行檢測,進而分析不同品種和不同種植密度下玉米雄穗對模型適應性,主要內容如下:
1)玉米雄穗數據集的構建。通過無人機獲取實驗區玉米雄穗影像,并進行圖像裁剪和標注,構建用于試驗訓練和測試的玉米雄穗數據集。
2)玉米雄穗檢測模型構建。構建Faster R-CNN、SSD、YOLO_X模型,并使用遷移學習的方法,對已構建的玉米雄穗數據集進行訓練驗證。
3)試驗結果分析。對使用遷移學習后模型進行精度評價,并對不同品種和不同種植密度玉米雄穗的檢測效果分析。
1.4.1 Faster R-CNN模型
Faster R-CNN模型的主干特征提取網絡為VGG16,輸入圖像經過特征提取之后,生成的特征圖分別傳入區域建議網絡(Region Proposal Network, RPN)和感興趣區域(Region of Interest, ROI)池化層。傳入區域建議網絡的部分會對候選框做二分類分析,并初步進行邊界框回歸。傳入感興趣區域池化層(ROI Pooling)的部分將來自區域建議網絡(RPN)輸出的候選框和特征圖固定到全連接網絡的輸入維度,然后進行邊界框回歸和分類。圖2為Faster R-CNN網絡結構圖。

注:FEN表示特征提取網絡;FM表示特征圖;RPN表示區域建議網絡;ROI Pooling表示感興趣區域池化;FC表示全連接層;Reg表示回歸;Clas表示分類。下同。
1.4.2 SSD模型
經典的SSD目標檢測算法以VGG16作為基礎網絡模型,將第6層全連接(FC6)和第7層全連接(FC7)替換成卷積層Conv6和Conv7,并去除第8層全連接(FC8),然后再添加卷積層Conv8、Conv9、Conv10、Conv11作為整個模型的特征提取網絡。整個特征提取網絡從VGG16的卷積層Conv4_3開始,在Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2層共獲取6個有效特征圖,這些特征圖大小依次遞減,用于檢測不同尺度大小的目標。SSD模型引入錨框(Anchor)機制,通過正負樣本的篩選,在所有特征圖上產生不同尺度和長寬比的錨框,再對目標對象的類別置信度和邊界框位置進行回歸預測,最后通過非極大值抑制(Non-Maximum Suppression, NMS)實現多尺度的目標檢測。SSD網絡結構圖如圖3所示。

注:Detections表示先驗框;FM1~FM6表示特征圖;NMS表示非極大值抑制。下同。
1.4.3 YOLO_X模型
YOLO_X以YOLO_V3[26-27]為基線,主要由主干部分特征提取網絡、加強特征提取網絡、以及輸出端的解耦頭部組成。并引入數據增強、免錨和高級標簽分配(Sim OTA),YOLO_X總體結構如圖4所示,主要模塊結構如圖5所示。

注:Cat表示通道數疊加;Upsample表示上采樣;SPP模塊表示空間金字塔池化;CSP1~CSP2模塊表示跨級部分連接;YOLO head模塊表示輸出端檢測器;FPN表示特征金字塔;PAN表示像素聚合網絡;CBS模塊由卷積、批量標準化層、激活函數SiLu組成。下同。
1)主干特征提取網絡
YOLO_X中主干特征提取網絡引入Focus結構,其結構如圖6a所示,輸入圖像之后,Focus結構對圖像的RGB三通道進行切片處理,每個通道擴充為之前的4倍,然后對切片圖像進行拼接,其拼接好的圖像由之前的3通道變為12通道,再經過卷積操作以后,得到2倍下采樣的特征圖,Focus結構可以減少網絡參數的計算,加快網絡運行速度。另外YOLO_X在主干特征提取網絡中引入空間金字塔池化(Spatial Pyramid Pooling,SPP)的結構,實現了局部特征和全局特征的融合,豐富了特征圖的表達能力,其結構如圖6b所示。
2)加強特征提取網絡
經過主干特征提取網絡后可以獲得3個有效特征層,YOLO_X采用特征金字塔和像素聚合網絡組合作為加強特征提取網絡,對獲得的3個有效特征層進行上采樣實現特征融合,再次進行下采樣實現特征融合,通過2次特征融合,結合不同尺度信息,特征提取效果更好。
3)解耦頭部
之前的YOLO系列采用一個耦合在一起的檢測頭,同時進行分類回歸的檢測任務。YOLO_X采用的解耦頭部將分類和回歸2個任務分開進行,對于輸入進來的特征層,采用一次卷積進行降維,然后增加2個平行分支,再分別采用卷積操作進行分類和回歸,交并比(Intersection Over Union, IOU)分支被添加到回歸的分支上,其結構如圖6g所示,這種方法一方面提升了網絡的收斂速度,另一方面實現了網絡端對端的性能。

圖5 YOLO_X主要模塊結構
為了使模型效果更好,深度學習圖像識別需要大量的數據標注樣本,但是數據標注是一項耗時耗力的任務,因此,遷移學習得到越來越多的關注。遷移學習將從一個環境中學習到的特征應用到新環境的學習任務中,與未使用遷移學習的模型相比,預訓練模型已經學習到了豐富的特征,可以在數據量比較少的條件下快速訓練出結果。本研究基于遷移學習的思想,采用公開的MTC玉米雄穗數據集[5]對Faster R-CNN、SSD、YOLO_X模型進行預訓練,將預訓練好的模型權重遷移到本文模型中,同時為了加快網絡的訓練速度,防止權重被破壞,采用凍結主干的方式進行訓練。圖6為玉米雄穗檢測的遷移學習示意圖。
在訓練之前,需要設置網絡模型的參數,本文設置訓練輪數(Epoch)為100,批量大?。╞atch-size)為4,在訓練前50輪凍結網絡主干,只對后面網絡層數進行訓練,凍結主干過程中初始學習率為1×10-3,后50輪進行解凍,解凍之后的學習率為1×10-4。學習率的動量為0.9,置信度閾值為0.5,非極大值抑制的閾值為0.3。

圖6 玉米雄穗檢測的遷移學習示意圖
試驗環境包含硬件環境和軟件環境,其中硬件環境的處理器運行內存16 GB,英偉達GeForce GTX1080Ti顯卡,顯存11 GB;軟件環境為Window10操作系統,Python3.7,Pytorch1.2,Cuda10.0。
訓練結束后對模型性能進行評估,本文采用精確度(Precision,)、召回率(Recall,)、平均精度(Average Precision,AP)、準確度(Accuracy)、交并比、對數平均誤檢率(Log Average Miss-Rate,LAMR)來評估模型性能,、、AP、Accuracy、LAMR的計算公式[28]如下:




式中TP表示正樣本預測為正樣本,TN表示正樣本預測為負樣本,FP表示負樣本預測為正樣本,FN表示正樣本預測為負樣本。

式中表示預測框區域,表示真實框區域,IOU的值
表示在檢測目標過程中,預測框區域與真實框區域交集和并集的比值。

式中對數平均誤檢率(LAMR)的值越小代表模型的性能越好。()表示每張圖片負樣本預測為正樣本的個數,表示誤檢的個數,mr表示誤檢率。




試驗選用Faster R-CNN、SSD、YOLO_X目標檢測網絡。先搭建Faster R-CNN、SSD、YOLO_X網絡對制作好的玉米雄穗數據集進行訓練,然后使用遷移學習的方式對Faster R-CNN、SSD、YOLO_X網絡進行訓練。結果如表2所示。由表2可知,相比于未使用遷移學習3種模型,使用遷移學習識別后在召回率和平均精度上有明顯提升。Faster R-CNN的召回率、平均精度分別上升21.86、16.41個百分點;SSD的召回率、平均精度分別上升1.76、3.05個百分點;YOLO_X的召回率、平均精度分別上升4.51、3.56個百分點。使用遷移學習前后的Faster R-CNN、SSD、YOLO_X模型對玉米雄穗識別的損失變化如圖7所示,從圖7可以看出,模型經過遷移學習后,初始損失值更低,說明在模型達到一個穩定的損失值之前,遷移學習后的模型收斂速度更快。

表2 不同模型遷移學習前后的檢測效果對比 Table 2 Comparison of detection effects of different models before and after transfer learning

圖7 不同模型遷移學習前后的損失變化
由表2可知,使用遷移學習后,Faster R-CNN、SSD、YOLO_X模型對玉米雄穗檢測的準確度分別上升10.01、3.29、3.21個百分點,對數平均誤檢率(LAMR)分別降低0.25、0.13、0.05。圖8為部分檢測結果,圖中共包含16個玉米雄穗。其中,Faster R-CNN正確檢測12個,遷移學習后,正確檢測14個;SSD正確檢測12個,在遷移學習后,正確檢測15個;YOLO_X正確檢測13個,遷移學習后,正確檢測16個,3種目標檢測模型在遷移學習后的檢測效果均有明顯提升。
同時,在使用遷移學習前,Faster R-CNN、SSD、YOLO_X網絡的檢測效果有明顯差異,YOLO_X的平均精度達到了90.04%,比Faster R-CNN和SSD分別高13.13和0.59個百分點,準確率達到96.63%,比Faster R-CNN和SSD分別高出10.61、1.53個百分點。使用遷移學習后,YOLO_X的平均精度AP值達到了93.60%,比Faster R-CNN和SSD分別高出0.28和1.1個百分點,準確率達到99.84%,比Faster R-CNN、SSD高3.81、1.45個百分點,且YOLO_X的對數平均誤檢率最低,為0.22。YOLO_X相比其他2種網絡,在遷移學習前后均表現出更好的識別性能。

圖8 不同模型遷移學習前后玉米雄穗識別結果
為了驗證模型對不同品種玉米雄穗的檢測效果,將測試集320張影像按品種分為5組測試集,每個品種有64張影像,各品種都已進入開花期,每個品種對應的雄穗圖像如圖9所示?;贔aster R-CNN、SSD、YOLO_X模型,對每個品種玉米雄穗進行檢測,并對人工標記的真實框數量與模型檢測的結果進行線性回歸分析,結果如圖10所示。

圖9 不同品種玉米雄穗
從試驗結果可以看出,鄭單958在Faster R-CNN、SSD、YOLO_X模型的決定系數2分別為0.947 4、0.963 6、0.971 2,均方根誤差RMSE分別為1.089、0.976 3、0.790 6,在5個品種中對模型的適應性最好;京九青貯16的決定系數2分別為0.709 0、0.580 2、0.780 2,均方根誤差分別為2.934 2、4.726 9、3.213 7,對模型的適應性最差。在5個品種中,鄭單958 、農科糯336、天賜19的檢測效果較好,京九青貯16和湘糯2008的檢測效果較差。主要原因是由于京九青貯16和湘糯2008穗枝條較細,穗分支較少,更容易存在漏檢;而鄭單958、農科糯336、天賜19由于穗枝條較大,穗分支較多,特征更加明顯,因此更易被檢測。YOLO_X對5個品種的決定系數2分別為0.918 6、0.780 2、0.913 3、0.971 2、0.881 8,檢測效果最好,說明YOLO_X模型具有很好的檢測性能。
將測試集樣本區域獲取的320張影像按不同種植密度進行分類,每個品種的不同種植密度下各有16張影像。為了驗證基于遷移學習的YOLO_X模型對不同種植密度的玉米雄穗識別效果,將同一品種下的不同種植密度的玉米雄穗影像分別進行檢測,并計算平均絕對誤差(Mean Absolute Error, MAE),試驗結果如圖11所示。
從圖11中可以看出,不同品種的平均絕對誤差值差別較大,相同種植密度下的平均絕對誤差值也不一樣。在29 985,44 978,67 466,89 955株/hm2種植密度下,模型對農科糯336檢測的MAE分別為0.75、1.06、1.25、1.63,對京九青貯16檢測的MAE為2.19、2.43、2.91、3.44,對天賜19檢測的MAE為0.45、0.63、0.75、1.37,對鄭單958檢測的MAE為0.19、0.31、0.37、0.75,對湘糯2008檢測的MAE為0.79、1.18、1.43、1.5。其中鄭單958的MAE明顯低于京九青貯16。同一品種,隨著其種植密度的上升,其平均絕對誤差值也隨之變大。該結果表明,基于遷移學習的YOLO_X模型對玉米雄穗的檢測精度不僅與種植密度相關,而且與品種相關,主要趨勢是隨著種植密度的增大,檢測誤差也逐漸變大,而造成這一現象的主要原因是由于隨著種植密度的增大,雄穗之間存在著越來越嚴重的交叉重疊以及遮擋,容易對檢測過程產生干擾。對于不同品種的玉米雄穗,模型的檢測效果也有所差異,其中鄭單958雄穗分支較大,而且分支數較多,檢測誤差較小,而京九青貯16雄穗分支較細,分支數較少,檢測誤差較大,這也驗證了不同品種玉米雄穗影響模型檢測效果。
本研究中,每個試驗小區面積均為2.5 m×3.6 m。根據玉米雄穗密度估算公式:

式中為玉米雄穗的數量,為檢測區域的面積m2,并基于遷移學習的YOLO_X模型對玉米雄穗密度的估算。圖12為對玉米雄穗密度估計結果,可以為玉米產量估算提供支持。

圖10 不同模型對不同品種玉米雄穗的檢測結果

圖11 基于遷移學習的YOLO_X對不同種植密度的玉米雄穗識別結果

注:圖中數字表示玉米雄穗密度。
在遷移學習過程中,將一個環境中學習到的知識應用到新的環境中來,在理想條件下,原訓練集的數據量不僅要大,而且質量也要高,這樣在遷移到目標模型中的時,目標模型將包含更多的特征信息。本文使用玉米雄穗MTC公開數據集,是Lu等[5]在2010-2015年間,使用CCD數碼相機(E450 Olympus)從中國4個不同的試驗點采集的6個品種,記錄了玉米從苗期到抽雄期等多個生長期,涵蓋的數據量較大,質量也較高,因此將其訓練模型遷移到本文使用的數據集后檢測精度有了明顯的提升,但就遷移學習技術本身來講,樣本量依然有限,特別是在品種,環境條件(光照和遮擋)、尺度(無人機和觀測塔)等方面的數據量依然較少,因此該遷移模型仍然僅適用于與其數據分辨率、生長期、光照條件接近的場景。但是單純地增加數據集會使得計算量增大,耗時較長,實際應用時應用價值降低[29-30]。因此,在實際應用中,針對性地選擇預訓練模型進行遷移更有助于提高檢測效率。未來隨著玉米雄穗數據集的擴大,該模型對玉米雄穗識別的泛化性和魯棒性有望更好。
玉米雄穗的檢測效果與許多因素有關,在本研究中,部分檢測結果中存在預測框數量大于真實框數量,說明在檢測過程中存在背景干擾,部分背景圖像誤檢為雄穗,檢測結果產生誤差;同時,光照強度的影響使得部分雄穗與土壤的顏色差異變小,產生漏檢;另外,本試驗對玉米品種的株型考慮較少,試驗的5個品種,除了鄭單958為緊湊型,其余品種皆為半緊湊型。株型不同雄穗的遮擋情況不同,進而影響模型檢測效果。除此之外,模型本身也是影響檢測效果的重要因素,Liu等[9]通過替換不同的特征提取網絡對玉米雄穗進行檢測,得出特征提取網絡為ResNet101時檢測效果最好,因此選取較優的特征提取網絡有助于提升檢測效果;再者,模型訓練參數的設置也會影響模型的性能,Xu等[31]在模型訓練時,設置不同的輪數和批量大小,模型的檢測效果是不同的。因此,為了使得玉米雄穗的檢測模型效果更好,模型訓練時的參數選取也是非常重要的。
本研究基于Faster R-CNN、SSD和YOLO_X目標檢測網絡,采用遷移學習的方式對玉米雄穗進行識別,篩選出最佳的玉米雄穗檢測模型,并探究了品種和種植密度對模型檢測效果的影響,主要結論如下:
1)相比未使用遷移學習的模型,遷移學習后Faster R-CNN、SSD、YOLO_X模型的平均精度分別提升了16.41、3.05、3.56個百分點,證明遷移學習在玉米雄穗的識別上的有效性;與遷移學習后Faster R-CNN、SSD相比,遷移學習后YOLO_X的精確度為97.16%,平均精度為93.60%,準確度為99.84%,對玉米雄穗的識別效果最好。
2)不同品種玉米雄穗的檢測效果有差異,鄭單958在Faster R-CNN、SSD、YOLO_X的決定系數2分別為0.947 4、0.963 6、0.971 2,對模型的適應性最好。京九青貯16在Faster R-CNN、SSD、YOLO_X的決定系數2分別為0.709 0、0.580 2、0.780 2,對模型適應效果最差,造成差異的主要原因是不同品種間玉米雄穗的形態有所差異。
3)種植密度會影響模型的檢測效果,在29 985,44 978,67 466,89 955株/hm2種植密度下,模型對鄭單958檢測的平均絕對誤差分別為0.19、0.31、0.37、0.75,表明隨著種植密度的增大,模型誤差也變大。
[1] Gage J L, Miller N D, Spalding E P, et al. TIPS: A system for automated image-based phenotyping of maize tassels[J]. Plant Methods, 2017, 13(1): 1-12.
[2] Huang J, Gómez-Dans J L, Huang H, et al. Assimilation of remote sensing into crop growth models: Current status and perspectives[J]. Agricultural and Forest Meteorology, 2019, 276: 107609.
[3] Lu H, Cao Z, Xiao Y, et al. Fine-grained maize tassel trait characterization with multi-view representations[J]. Computers and Electronics in Agriculture, 2015, 118: 143-158.
[4] Fan B, Li Y, Zhang R, et al. Review on the technological development and application of UAV systems[J]. Chinese Journal of Electronics, 2020, 29:199-207.
[5] Lu H, Cao Z, Xiao Y, et al. TasselNet: Counting maize tassels in the wild via local counts regression network[J]. Plant Methods, 2017, 13(1): 1-17.
[6] 梁胤豪,陳全,董彩霞,等.基于深度學習和無人機遙感技術的玉米雄穗檢測研究[J].福建農業學報,2020,35(4):456-464.
Liang Yinhao, Chen Quan, Dong Caixia, et al. Application of deep-learning and UAV for field surveying corn tassel[J]. Fujian Agricultural Journal, 2020, 35(4): 456-464. (in Chinese with English abstract)
[7] 楊蜀秦,劉江川,徐可可,等. 基于改進CenterNet的玉米雄蕊無人機遙感圖像識別[J]. 農業機械學報,2021,52(9):206-212.
Yang Shuqin, Liu Jiangchuan, Xu Keke, et al. Improved centerNet based tassel recognition for UAV remote sensing image[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(9): 206-212. (in Chinese with English abstract)
[8] Zhou X, Wang D, Kr?henbühl P. Objects as points[EB/OL]. arXiv preprint arXiv 2019: 1904.07850.
[9] Liu Y, Cen C, Che Y, et al. Detection of maize tassels from UAV RGB imagery with faster R-CNN[J]. Remote Sensing, 2020, 12(2): 338.
[10] Maepa C E, Jayaramudu J, Okonkwo J O, et al. Extraction and characterization of natural cellulose fibers from maize tassel[J]. International Journal of Polymer Analysis and Characterization, 2015, 20: 99-109.
[11] Ye M, Cao Z, Yu Z. An image-based approach for automatic detecting tasseling stage of maize using spatio-temporal saliency[C]//MIPPR 2013: Remote Sensing Image Processing, Geographic Information Systems, and Other Applications. Wuhan, China: Society of Photo-Optical Instrumentation Engineers, 2013: 235-242.
[12] Scharr H, Pridmore T P, Tsaftaris S A. Computer vision problems in plant phenotyping[C]// Proceedings of the IEEE International Conference on Computer Vision Workshops. Venice, Italy: Introduction to the CVPPP 2017 Workshop Papers, 2017: 2020-2021.
[13] Kurtulmu? F, Kavdir I. Detecting corn tassels using computer vision and support vector machines[J]. Expert Systems with Applications, 2014, 41(16): 7390-7397.
[14] Kumar A, Taparia M, Rajalakshmi P, et al. UAV based remote sensing for tassel detection and growth stage estimation of maize crop using faster-R-CNN[J]. Computer Vision Problems in Plant Phenotyping, 2019, 3: 4321-4323.
[15] Lu J, Behbood V, Hao P, et al. Transfer learning using computational intelligence: A survey[J]. Knowledge-Based Systems , 2015, 80: 14-23.
[16] 王東方,汪軍. 基于遷移學習和殘差網絡的農作物病害分類[J]. 農業工程學報,2021,37(4):199-207.
Wang Dongfang, Wang Jun. Crop disease classification with transfer learning and residual networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(4): 199-207. (in Chinese with English abstract)
[17] 張瑞青,李張威,郝建軍,等. 基于遷移學習的卷積神經網絡花生莢果等級圖像識別[J]. 農業工程學報,2020,36(23):171-180.
Zhang Ruiqing, Li Zhangwei, Hao Jianjun, et al. Image recognition of peanut pod grade based on transfer learning with convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(23): 171-180. (in Chinese with English abstract)
[18] Li J, Li C, Fei S, et al. Wheat ear recognition based on retinaNet and transfer learning[J]. Sensors, 2021, 21(14): 4845.
[19] 萬軍杰,祁力鈞,盧中奧,等. 基于遷移學習的GoogLeNet果園病蟲害識別與分級[J]. 中國農業大學學報,2021,26(11):209-221.
Wan Junjie, Qi Lijun, Lu Zhong’ao, et al. Recognition and grading of diseases and pets in orchard by GoogLeNet based on transfer learning[J]. Journal of China Agricultural University, 2021, 26(11): 209-221. (in Chinese with English abstract)
[20] 袁培森,申成吉,徐煥良. 基于遷移學習和雙線性CNN的細粒度菌菇表型識別[J]. 農業機械學報,2021,52(7):151-158.
Yuan Peisen, Shen Chengji, Xu Huanliang. Fine-grained mushroom phenotype recognition based on transfer learning and bilinear CNN[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(7): 151-158. (in Chinese with English abstract)
[21] Rawat S S, Verma S K, Kumar Y. Review on recent development in infrared small target detection algorithms[J]. Procedia Computer Science, 2020, 167: 2496-2505.
[22] Zou Z, Shi Z, Guo Y, et al. Object detection in 20 years: A survey[J]. arXiv preprint arXiv 2019: 1905.05055.
[23] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]// European conference on computer vision. Springer, Cham, 2016: 21-37.
[24] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149.
[25] Ge Z, Liu S, Wang F, et al. YOLO_X: Exceeding YOLO series in 2021[EB/OL]. arXiv preprint arXiv:2107.08430, 2021.
[26] Redmon J, Farhadi A. YOLOv3: An incremental improvement[EB/OL]. arXiv preprint arXiv:1804.02767, 2018.
[27] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004.10934, 2020.
[28] Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: An evaluation of the state of the art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 34(4): 743-761.
[29] Zhuang F, Qi Z, Duan K, et al. A comprehensive survey on transfer learning[J]. Proceedings of the IEEE, 2020, 109(1): 43-76.
[30] Zhu W, Braun B, Chiang L H, et al. Investigation of transfer learning for image classification and impact on training sample size[J]. Chemometrics and Intelligent Laboratory Systems, 2021, 211: 104269.
[31] Xu W, Zhao L, Li J, et al. Detection and classification of tea buds based on deep learning[J]. Computers and Electronics in Agriculture, 2022, 192: 106547.
UAV images for detecting maize tassel based on YOLO_X and transfer learning
Wang Binbin1,2,3, Yang Guijun1,2,3, Yang Hao2,3, Gu Jinan1, Zhao Dan2,3, Xu Sizhe2,3,4, Xu Bo2,3※
(1212000,; 2,100097,; 3.100097,; 4212000)
Maize tassels play a very important role in the process of maize growth. It is a high demand to realize the accurate identification and counting of maize tassels in the complex field environment. In this study, a complete detection and counting system was established for the farmland maize tassels using Unmanned Aerial Vehicle (UAV) remote sensing and computer vision, in order to promote the application of intelligent agriculture during maize production. The UAV images were also collected during the maize heading stage in the experimental field. Three target detection networks of Faster R-CNN, SSD, and YOLO_X were selected to realize the high-precision recognition of maize tassels using transfer learning. Specifically, the UAV was firstly utilized to collect the RGB images of maize tassels with a height of 10 m on August 9, 2021. Secondly, the UAV images of maize tassels were cut into 600 × 600 pixels. The same number of samples were then selected for the training set, verification set, and test set, according to each variety and planting density. Finally, the weight of training on the public dataset was transferred to the target model using transfer learning. The recognition performance of maize tassel was compared before and after transfer learning. The experimental results show that the average precision, the recall rate, and the accuracy rate of Faster R-CNN target detection networks increased by 16.41, 21.86, and 10.01 percentage points, respectively, compared with the SSD, and YOLO_X. By contrast, the average precision, recall rate, and accuracy rate of the SSD increased by 3.05, 1.76 percentage points, respectively. The average precision, the recall rate, and the accuracy rate of YOLO_X increased by 3.56, 4.51 percentage points, respectively. Among them, the recognition precision, average precision, accuracy, and LAMR of YOLO_X after transfer learning reached 97.16%, 93.60%, 99.84%, and 0.22, respectively, compared with the Faster R-CNN and SSD networks. The best performance was achieved for the detection of maize tassel. In addition, the Faster R-CNN, SSD, and YOLO_X were also utilized to determine the adaptability of the model under the five varieties of maize tassels. The results showed that the maize tassels of Zhengdan958 were easier to be tested, indicating the best adaptability to the model. Nevertheless, there was a low correlation between the true and prediction on the number of frames of Jingjiuqingzhu16 maize tassels, indicating the low detection performance. The training datasets of this variety were then suggested to be expanded and suitable for the model in the future. In addition, five varieties were also tested at four planting densities using the YOLO_X model after transfer learning. The experimental results show that the detection error of the model for the maize tassel significantly increased with the increase in planting density. The density of maize tassel was also estimated to effectively obtain the agronomic phenotype of maize for the prediction of maize yield. A systematic investigation was made to clarify the influence of the difference between varieties and planting density on the model detection. Many factors were determined for the model detection, such as the plant type of maize, the parameters of the model, and the feature extraction network. Therefore, the finding can also provide strong support for the intelligent production of maize and agricultural modernization.
UAV; object detection; image recognition; maize tassel; transfer learning; deep learning
10.11975/j.issn.1002-6819.2022.15.006
S513; TP391
A
1002-6819(2022)-15-0053-10
汪斌斌,楊貴軍,楊浩,等. 基于YOLO_X和遷移學習的無人機影像玉米雄穗檢測[J]. 農業工程學報,2022,38(15):53-62.doi:10.11975/j.issn.1002-6819.2022.15.006 http://www.tcsae.org
Wang Binbin, Yang Guijun, Yang Hao, et al. UAV images for detecting maize tassel based on YOLO_X and transfer learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 53-62. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.15.006 http://www.tcsae.org
2022-05-11
2022-07-06
國家重點研發計劃項目(2021YFD2000100,2019YFE0125300-1);廣東省重點領域研發計劃項目(2019B020216001)
汪斌斌,助理研究員,研究方向為機器視覺與作物表型信息。Email:3107718860@qq.com
徐波,博士,助理研究員,研究方向為無人機遙感應用,作物表型信息。Email:xub@nercita.org.cn