黃英來 李大明 呂鑫 楊柳松



摘要:為探索對袋料栽培香菇的機械式采摘,提出一種基于改進YOLOv4的識別算法。主要改進方法為:在PANet(Path Aggregation Network)結構中,增加一條具有殘差注意力機制的特征圖路徑,提高對小目標的識別精度,并用深度可分離卷積結構替換PANet網絡中卷積層,降低了參數量。使用Focal loss損失函數改進原置信度損失函數。在數據預處理方面,采用gamma變換方法對數據進行增強擴充。在訓練過程中利用遷移學習的思想,對主干網絡載入VOC數據集的預訓練權重。相比原YOLOv4算法,mAP值增加了4.82個百分點,達到94.39%,算法參數量降為原來的58.13%,算法更加高效和輕量化,為機械采摘提供視覺算法支持。
關鍵詞:YOLOv4;目標檢測;gamma變換;遷移學習;香菇采摘
DOI:10.15938/j.jhust.2022.04.004
中圖分類號: TP391.4
文獻標志碼: A
文章編號: 1007-2683(2022)04-0023-09
A Detection Method of Lentinus Edodes Based
on Improved YOLOv4 Algorithm
HUANG Ying-lai,LI Da-ming,L? Xin,YANG Liu-song
(Collegeof Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China)
Abstract:In order to explore the picking of Lentinus edodes which are cultivated in bags, a recognition algorithm based on improved YOLOv4 is proposed.?The main improvement measures are: in the structure of PANet (Path Aggregation Network), we add a feature map path with residual attention mechanism to improve the recognition accuracy of small targets, and replace the convolution layer in PANet network with deep separable convolution structure to reduce the amount of parameters.?Focal loss is selected to improve the original confidence loss function.?In the aspect of data preprocessing, gamma transform method is used to enhance and expand the data.?In the training process, the idea of transfer learning is used to load the pre training weight of VOC data set on the backbone network.?Compared with the original YOLOv4 algorithm, the mAP value is increased by 4.82 percentage points to 94.39%, and the amount of algorithm parameters is reduced by 58.13%.?The algorithm is more efficient and lightweight, providing visual algorithm support for mechanical picking.
Keywords:YOLOv4; target detection; gamma transform; transfer learning; lentinus edodes picking
0引言
香菇是一種普遍的食用菌,袋料培育技術[1]是目前木屑栽培技術的主要方法之一。通過實地調查,香菇的采摘主要依靠人力,采摘過程繁瑣且勞動強度大,且香菇在生長條件適宜時,出菇量猛增,若不及時采摘會使香菇過大,而香菇生長過大會降低香菇自身品質。過大的香菇的收購價格也遠低于標準級香菇,對種植戶造成一定經濟損失,機械式采摘[2]不但可以節省人力,降低種植戶的生產成本,提高香菇出菇峰值期的采摘效率,而且可以擴大香菇種植業,并使其向智能農業、現代農業方向發展,具有很好的實際應用價值。
為探索對食用菌的開發利用,近幾年來利用計算機視覺對于食用菌的辨識研究從未中斷。2014年Chen等[3]提出基于紋理特征和聚類方法的香菇品質分選方法,香菇類型分選模型的分選正確率可達到 93.57%。2015年Xu等[4]提出基于顯著性分割算法實現對食用菌雜質的自動提取,算法在光照不均勻條件下的識別率仍達到99.6%。2016年Liu等[5]提出基于紅外光譜技術和支持向量機的野生蘑菇近紅外識別模型,正確識別率為95.3%。2020年Lin等[6]利用圖像處理技術,提取融合野生菌菇的顏色和形態特征,實現食用菌種類的識別,識別率達到90.87%。上述研究方法利用傳統的機器視覺處理方法,人工設計提取特征,部分方法雖取得較高檢測精度,但方法并不具有通用性和復雜環境下的魯棒性。
基于卷積神經網絡的機器視覺辨識研究,通過神經網絡進行監督訓練,自動學習分類特征,取得了較高的準確率[7-8]。而基于卷積神經網絡的目標檢測算法(如SSD[9],Efficientdet[10] ,Faster RCNN[11],Centernet,YOLO系列等),也為目標檢測提供較高的精度。Liu等[12]提出改進SSD的田間行人檢測模型,使用MobileNetV2[13]作為基礎網絡,以反向殘差結構結合空洞卷積作為基礎結構進行位置預測,準確率達到了97.?46%。Xiang等[14]提出改進Faster RCNN的鋁材表面缺陷檢測方法,在主干網絡加入特征金字塔網絡(FPN)結構以加強對小缺陷的特征提取能力,使用區域校準(ROI Pooling)算法來代替區域池化算法,獲得更準確的缺陷定位信息,實驗表明,改進后的網絡對鋁材表面缺陷檢測的平均精度均值為91.20%。Zhu等[15]提出基于改進Efficientdet的端子線芯檢測算法,利用K-means多維度聚類算法對線芯邊界框聚類,生成錨框,利用梯度均衡機制重構損失函數,精度均值達96.2%。Deng等[16]提出改進YOLOv3[17]的交通標志檢測方法,引入改進的空間金字塔池化結構,優化多尺度預測網絡,選取CIoU作為損失函數,平均精度可達94.8%。上述目標檢測算法的改進也為食用菌的機器視覺辨識提供了新的方法。YOLOv4算法[18]在相近的參數量下,表現較高的準確率。本文提出基于YOLOv4的香菇機器視覺識別算法,為香菇的機械采摘提供視覺算法支持。
1YOLOv4算法介紹
1.1網絡結構方面
首先在主干網絡嵌入表征能力更強CSP(Cross Stage Paritial Network)結構進行特征圖提取,如圖1所示。其中,每個CSP結構是以CBM結構為基本單元組合構成的殘差結構,而每個CBM結構由1個卷積層,1個歸一化層和1個Mish函數激活層堆疊而成:
其次,使用SPP結構(spatial pyramid pooling layer)將特征圖通過并列的3個不同池化層進行池化,最后通過殘差邊進行拼接。接著,將所得到的三組不同尺寸的特征圖送入PANet結構,輸出擁有全局語義信息的特征圖。
最后,在輸出的3組不同尺度的特征圖上進行預測,特征圖組上的每個網格(見圖2)需要預測3個不同的目標框,每個目標框要預測4個位置參數x、y、w、h,1個置信度p和各類別概率class。
1.2損失函數方面
1.3訓練技巧方面
2YOLOv4算法改進
2.1深度可分離卷積網絡輕量化
2.2殘差注意力機制與PANet特征融合
2.3單目標損失函數
3進行實驗與結果分析
3.1實驗環境
實驗所用硬件環境為Intel(R) Core(TM) i5-10300H CPU,NVIDIA Geforce GTX 1660Ti GPU,內存大小為16g。軟件環境為Windows 10操作系統,使用pytorch 1.2框架,cuda 10.1,cudnn 7.6.4,python版本3.7.1。
3.2研究方法
3.3結果對比與分析
4結論
本文提出一種改進YOLOv4算法的香菇機器視覺檢測方法,通過增加一條具有殘差注意力機制的特征圖路徑,使用Focal loss損失函數改進損失函數,以及使用遷移學習的訓練方法,提高了網絡的檢測精度。其次,在部分非主干網絡中,利用深度可分離卷積層替換原卷積層,減少了算法參數量。上述方法在對比實驗中被證明有效,且與當前主流的幾種目標檢測方法的相比,檢測精度較高,但檢測速度還是有進一步提升的空間,這依賴于方法的改良與網絡結構的改進,后續的研究將注重在算法的檢測精度值不下降的基礎上,進一步減小參數規模和提高檢測速度,以方便嵌入式設備的部署。
參 考 文 獻:
[1]肖德清, 史向陽. 大棚層架式袋料香菇栽培技術[J].現代農業科技,2013(7):109.XIAO Deqing, SHI Xiangyang. Cultivation Techniques of Lentinus Edodes in Greenhouse with Bagged Materials[J]. Modern Agricultural Science and Technology, 2013(7):109.
[2]高文碩, 宋衛東, 王教領, 等. 果蔬菌采摘機械研究綜述[J].中國農機化學報,2020,41(10):9.GAO Wenshuo, SONG Weidong, WANG Jiaoling, et al. Review of Fruit and Vegetable Fungus Picking Machinery[J]. China Journal of Agricultural Machinery Chemistry, 2020,41 (10): 9.
[3]陳紅, 夏青, 左婷, 等. 基于紋理分析的香菇品質分選方法[J].農業工程學報,2014,30(3):285.CHEN Hong, XIA Qing, ZUO Ting, et al. Quality Sorting Method of Lentinus Edodes Based on Texture Analysis[J]. Journal of Agricultural Engineering, 2014,30(3): 285.
[4]徐振馳, 紀磊, 劉曉榮, 等. 基于顯著性特征的食用菌中雜質檢測[J].計算機科學,2015,42(S2):203.XU Zhenchi, JI Lei, LIU Xiaorong, et al. Detection of Impurities in Edible Fungi Based on Significance Characteristics[J]. Computer Science, 2015,42(S2):203.
[5]劉洋, 王濤, 左月明. 基于支持向量機的野生蘑菇近紅外識別模型[J].食品與機械,2016,32(4): 92.LIU Yang, WANG Tao, ZUO Yueming. Near Infraredrecognition Model of Wild Mushrooms Based on Support Vector Machine[J]. Food and Machinery, 2016,32(4):92.
[6]林楠, 王娜, 李卓識, 等. 基于機器視覺的野生食用菌特征提取識別研究[J].中國農機化學報,2020,41(5):111.LIN Nan, WANG Na, LI ZhuoZhi, et al.Research on Feature Extraction and Recognition of Wild Edible Fungi Based on Machine Vision[J]. China Journal of Agricultural Machinery Chemistry, 2020,41(5):111.
[7]王衛兵, 王卓, 徐倩, 等. 基于三維卷積神經網絡的肺結節分類[J].哈爾濱理工大學學報,2021,26(4): 87.WANG Weibing, WANG Zhuo, XU Qing, et al. Classification of Pulmonary Nodules Based on Three Dimensional Convolutional Neural Network[J]. Journal of Harbin University of Science and Technology, 2021,26(4):87.
[8]畢蓉蓉, 王進科. CT圖像下結合RCNN與U-Net的肺實質自動分割方法[J].哈爾濱理工大學學報,2021,26(3):74.BI Rongrong, WANG Jinke. Lung Consolidation Combined with RCNN and U-net under CT Images Automatic Mass Segmentation Method[J]. Journal of Harbin University of Science and Technology, 2021,26(3):74.
[9]LIU W, ANGUELOV D, ERHAN D, et al. SSD:Single Shot MultiBox Detector[C]//Computer Vision-ECCV 2016. Cham, 2016: 21.
[10]TAN M, PANG R, LE Q V. EfficientDet: Scalableand Efficient Object Detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:10781.
[11]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN:Towards Real-time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern ?Analysis and Machine Intelligence,2017,39(6):1137.
[12]劉慧, 張禮帥, 沈躍, 等. 基于改進SSD的果園行人實時檢測方法[J].農業機械學報,2019,50(4):29.LIU Hui, ZHANG Lishuai, SHEN Yue, et al. Real Time Detection Method of Orchard Pedestrian Based on Improved SSD[J]. Journal of Agricultural Machinery,2019,50(4):29.
[13]SANDLER M, HOWARD A, ZHU M , et al. MobileNetV2:Inverted Residuals and Linear Bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2018.
[14]向寬, 李松松, 欒明慧, 等. 基于改進Faster RCNN的鋁材表面缺陷檢測方法[J]. 儀器儀表學報,2021,42(1):191.XIANG Kuan, LI Songsong, LUAN Minghui, et al. Based on Improved Faster RCNN′s Aluminum Surface Defect Detection Method[J]. Journal of Instrumentation,2021,42(1):191.
[15]朱世松, 孫秀帥. 基于改進EfficientDet的線束端子線芯檢測算法[J/OL].激光與光電子學進展:116[2022-01-18].http://kns.cnki.net/kcms/detail/31.1690.TN.20210806.1548.017.html.ZHU Shisong, SUN Xiushuai. Based on Improved Efficient Det′s Wire Harness Terminal Core Detection Algorithm[J/OL].Laser and Optoelectronics Scientific Progress:1[2022-01-18].http://kns.cnki.net/kcms/detail/31.1690.TN.20210806.1548.017.html.
[16]鄧天民, 周臻浩, 方芳, 等. 改進YOLOv3的交通標志檢測方法研究[J]. 計算機工程與應用,2020,56(20):28.DENG Tianmin, ZHOU Zhenhao, FANG Fang, et al. Improve the Traffic Sign Inspection of YOLOv3 Study on Measurement Methods[J]. Computer Engineering and Application, 2020,56(20):28.
[17]REDMON J, FARHADI A. YOLO v3:an Incrementalimprovement[R]. arXiv:1804. 02767v1,2018.
[18]BOCHKOVSKIY A, WANG C Y. YOLOv4: Optimal Speed and Accuracy of Object Detection[J/OL]. arXiv:109342020.http://arxiv.org/abs/2004.10934.
[19]HE K, ZHANG X, REN S, et al. Deep Residual Learning for Lmage Recognition[C]//CVPR 2016, Las Vegas, 2016: 770.
[20]CHOLLET F. Xception: Deep Learning with Depthwise Separable Convolutions[J]. arXiv preprint arXiv:1610.02357, 2016.
[21]WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]// Proceedings of the 2018 European Conference on Computer Vision .2018:3.
[22]LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[C]// IEEE Transactions on Pattern Analysis & Machine Intelligence. IEEE, 2017:2999.
(編輯:溫澤宇)