








摘要:針對化工廠中化工袋種類繁多、遮擋干擾、放置復雜等因素,導致化工袋識別模型的定位效果較差、實時性不佳等問題,提出一種基于MBE-YOLOv5的輕量化化工袋目標檢測方法。首先,用MobileNetV3網絡替換YOLOv5的主干網絡,降低模型的參數和運算量,提高模型的檢測速度;然后,在YOLOv5的頸部網絡引入雙向特征金字塔網絡結構進行多尺度特征融合,提高模型的識別準確率;最后,采用EIoU函數優化損失,提高模型的定位精度。實驗結果表明,MBE-YOLOv5模型相比YOLOv5模型,參數量下降了37.7%,運算量降低了58.1%,檢測速度提升了9.5%,mAP@0.5提高了0.7%;在檢測速度和檢測精度之間取得較好的平衡,能滿足化工袋在線檢測識別定位的要求。
關鍵詞:YOLOv5模型;MobileNetV3網絡;雙向特征金字塔網絡;EIoU函數;化工袋目標檢測
中圖分類號:TP391.41" " " " " "文獻標志碼:A" " " " "文章編號:1674-2605(2024)02-0006-07
DOI:10.3969/j.issn.1674-2605.2024.02.006
Lightweight Chemical Bag Target Detection Method Based on MBE-YOLOv5
LIU Weixin LIN Banyan HUANG Hanyi LI Minlong
(Dongguan Institute of New Generation Artificial Intelligence Industry Technology, Dongguan 523867, China)
Abstract: A lightweight chemical bag target detection method based on MBE-YOLOv5 is proposed to address the issues of poor positioning and real-time performance of chemical bag recognition models in chemical plants, which are caused by various types of chemical bags, occlusion interference, and complex placement. Firstly, replace the backbone network of YOLOv5 with MobileNetV3 network to reduce model parameters and computational complexity, and improve the detection speed of the model; Then, a bidirectional feature pyramid network structure is introduced into the neck network of YOLOv5 for multi-scale feature fusion to improve the recognition accuracy of the model; Finally, the EIoU function is used to optimize the loss and improve the positioning accuracy of the model. The experimental results show that compared to the YOLOv5 model, the MBE-YOLOv5 model reduces the number of parameters by 37.7%, the computational complexity by 58.1%, and the detection speed by 9.5%, mAP@0.5 Improved by 0.7%; Achieving a good balance between detection speed and accuracy can meet the requirements of online detection, recognition, and positioning of chemical bags.
Keywords: YOLOv5 model; MobileNetV3 network; bidirectional feature pyramid network; EIoU function; chemical bag target detection
0 引言
化工產業是我國國民經濟的支柱產業和基礎產業[1]?;ご鳛榛ぎa業的關鍵物流單元,其高效、安全地搬運對生產流程至關重要。目前,化工廠中化
工袋搬運主要依賴人工操作(叉車、吊車等),不僅效率低,且容易引發安全事故。此外,化工袋可能含有腐蝕性、有毒、有害物質,影響工人健康[2-4]。因此,迫切需求開發一種自動、安全、高效的化工袋自動搬
運設備。其中,目標識別定位技術是該設備研發的關鍵點和難點。
采用傳統的圖像處理算法對化工袋進行目標識別定位[5-6]時,因化工袋種類繁多、擺放不整齊、相互遮擋等問題,導致定位效果較差,無法滿足實際生產需求。
隨著深度學習目標檢測技術的快速發展,其在自動駕駛、農業、食品、新能源、化工、半導體、工業、消費等領域均取得較好的應用效果[7-9]。文獻[10]采用BiFPN結構構建車輛檢測模型的Neck網絡,利用解耦頭實現車輛目標的預測,在UA-DETRAC測試集上的平均精確率超過99%。文獻[11]提出一種改進的快速區域卷積神經網絡(faster region-based convolutional neural network, Faster-RCNN)人臉檢測算法,采用ResNet50替換主干網絡,利用多尺度融合技術提高人臉目標檢測精度,在Wider Face數據集上平均準確率達到了89%。文獻[12]針對番茄目標檢測,提出一種改進的Mask R-CNN模型,通過改造輸入層實現RGB與深度圖像的融合,采用多類預測子網絡解耦預測,提高果實識別率,識別準確率達到了93.76%。文獻[13]針對獼猴桃目標識別的應用場景,提出基于Faster-RCNN的機器人視覺系統,識別精度達到了87.61%,且具有較好的魯棒性。文獻[14]提出一種船舶目標檢測算法,在Faster-RCNN結構的基礎上,設計一種具備特征放大和多尺度特征跳躍的連接結構,提高了船舶的檢測精度,平均檢測精度達到了89.9%。然而,上述深度學習目標檢測模型存在實時性差、參數量大、運算量大等問題,難以滿足化工廠中化工袋快速、準確識別定位的要求。
為此,本文提出一種MBE-YOLOv5輕量化模型,在線快速識別定位化工廠中化工袋。首先,將Mobile-NetV3網絡作為YOLOv5的骨干網絡,以降低模型的參數量、計算量,加快推理速度;然后,模型頸部網絡采用BiFPN結構,并融合多尺度特征信息,提高模型識別準確率;最后,采用EIoU函數作為邊框回歸損失函數,提高模型定位精度。
1 MBE-YOLOv5模型
1.1 YOLOv5 模型
YOLOv5作為一種單階段目標檢測模型,繼承了YOLO系列算法的核心思想,在保證檢測精度的同時,進一步優化了模型的大小和推理速度。YOLOv5模型的網絡結構主要包括輸入(Input)、主干(Backbone)、頸部(Neck)和檢測頭(Head)4部分。其中,在輸入部分,模型對輸入圖像進行尺寸調整、歸一化等預處理操作,以便模型能夠更好地提取圖像特征;主干作為模型的主體部分,采用跨階段局部網絡(cross stage partial network, CSPNet)結構,有效地減少了模型的計算量,同時增強了特征的提取能力,使模型更準確地識別目標;頸部通過路徑聚合網絡(path aggregation network, PANet)結構進行特征融合,使模型更好地利用不同尺度的特征信息,提高模型對不同大小目標的檢測性能,從而更準確地定位目標;檢測頭部分負責將模型提取的特征轉化為具體的目標檢測結果,包括目標的位置、大小和類別等。
本文用MobileNetV3替換YOLOv5的主干網絡;在YOLOv5的頸部網絡引入雙向特征金字塔網絡(bidirectional feature pyramid network,BiFPN)結構;采用EIoU函數優化損失,實現YOLOv5模型輕量化的同時保證檢測效果,使其更適用于化工袋的在線識別定位。MBE-YOLOv5網絡結構如圖1所示。
1.2 MobileNetV3
MobileNetV3是Google團隊于2019年發布的一種輕量級的深度學習模型[15],其保持較高檢測精度的同時,降低了計算復雜度和模型大小。
MobileNetV3中的block結構是核心部分。每個block采用倒殘差結構,整體包括深度可分離卷積、SE模塊、線性瓶頸層和h-swish激活函數等部分,結構示意圖如圖2所示。
深度可分離卷積操作包含兩步:第一步,深度卷積,每個輸入通道特征圖獨立應用單個卷積核,降低計算復雜度;第二步,逐點卷積,采用1×1的卷積核對深度卷積后的特征圖進行卷積操作,整合各通道信息并調整通道數,實現模型輕量化與性能優化。
壓縮-激勵(squeeze-and-excitation, SE)模塊是MobileNetV3引入的一個輕量級注意力模塊,主要由Squeeze和Excitation子模塊組成,結構如圖3所示。
Squeeze子模塊通過對輸入特征圖進行通道維度上的壓縮,捕捉全局空間信息。利用全局平均池化將每個通道的特征圖轉換為一個實數,代表該通道的全局響應。Excitation子模塊主要學習每個通道的重要性,并根據這些重要性重新調整通道特征。Squeeze子模塊壓縮后的特征向量經過Excitation子模塊的2個全連接層:第一個全連接層先將Squeeze的輸出降低到較小維度,以減少計算量,再使用ReLU激活函數增加非線性;第二個全連接層將維度恢復到與輸入特征圖通道數相同,并使用Sigmoid激活函數生成每個通道的權重。
線性瓶頸層通過1×1的卷積核降低特征圖維度,從而減少模型的大小和計算量。
h-swish激活函數在swish函數的基礎上進行了改進,通過減少乘法運算,并允許更多的激活值位于ReLU的有效范圍內,提高了計算效率。
1.3 BiFPN結構
YOLOv5s頸部網絡采用特征金字塔網絡(feature pyramid network, FPN)+路徑聚合網絡(path aggregation network, PAN)的結構,實現淺層和深層不同尺度的特征圖融合,以增強特征的語義表達能力。但在網絡融合過程中,PAN的輸入信息為FPN處理后的信息,導致融合后的特征沒有充分地利用原始特征信息。為提高特征融合效果,本文采用BiFPN結構替代頸部網絡的(FPN+PAN)結構,增強相同網絡層之間的特征信息融合能力和不同網絡層之間的特征信息傳遞能力,從而提高模型的感知和表達能力。
BiFPN結構是一種多尺度特征融合的網絡結構[16-19],如圖4所示。
BiFPN結構通過雙向傳播的方式將高層和低層的特征信息融合。BiFPN結構在高層、低層特征圖之間進行多次上下采樣和融合,使低層高分辨率特征與高層語義信息結合,有效地捕捉目標的細節信息和跨尺度特征,從而提高模型檢測的準確性和魯棒性。
1.4 EIoU損失函數
邊界框損失函數對模型的目標定位和識別準確率至關重要。YOLOv5采用CIoU損失函數,其考慮了邊界框的位置、形狀和大小之間的關系。但CIoU損失函數面對目標尺度變化或長寬比較大時,無法準確地衡量邊界框的重疊程度,影響目標檢測的準確性[20]。
為此,本文引入EIoU目標框損失函數[21]。EIoU目標框損失函數主要包含重疊程度、中心距離損失、寬高損失,能真實地反映預測框和真實框的高度和寬度。EIoU目標框損失函數在CIoU損失函數的基礎上分別計算寬高的差異值,提高預測框的回歸速度,聚焦于高質量錨框,提高目標預測精度。EIoU目標框損失函數的計算公式為
(1)
式中:和分別為預測框和真實框外包最小矩形的寬和高,為IoU損失,為距離損失,為邊長損失,和分別為預測框和真實框的中心點,和分別為預測框的寬和高,和分別為真實框的寬和高,為歐幾里德距離。
2 實驗測試與分析
2.1 實驗環境
軟件環境:深度學習框架pytorch 1.12、集成開發環境spyder 5.0、第三方函數庫Anaconda3-5. 2. 0以及操作系統 Windows10。
硬件環境:酷睿i7-11700、英偉達RTX3060、16 GB內存、1 TB硬盤。
2.2 實驗數據集
本實驗數據集來自某化工廠中50種不同規格型號的化工袋,共約1 000幅圖像,每種化工袋約有20幅圖像。其中,750幅圖像用于訓練,250幅圖像用于測試。部分化工袋圖像樣本如圖5所示。
2.3 評價指標
本文采用每秒檢測幀數FPS、運算量來評價MBE-YOLOv5模型的檢測速度;采用模型參數量來評價MBE-YOLOv5模型的復雜度;采用mAP@0.5來評價MBE-YOLOv5模型的檢測精度,mAP@0.5是指當IoU為0.5時的mAP,計算公式為
(2)
(3)
式中:x為某一類別正樣本預測框的數量;為每個候選框對應的查準率;AP為某一類別的所有查準率求和取平均值;mAP@0.5為檢測目標中所有類別的AP平均值,能直觀地反映模型的性能;n為類別數。
2.4 實驗設計與分析
2.4.1 消融實驗
為驗證本文方法的有效性,在實驗數據集上設計消融實驗,具體如下:
1) YOLOv5s模型作為消融實驗的基準線;
2) 用MobileNetV3替換YOLOv5s的主干網絡,實現模型輕量化;
3) YOLOv5s的頸部網絡引入BiFPN結構,提高模型的預測準確率;
4) CIoU損失函數改為EIoU目標框損失函數,提高目標預測精度。
消融實驗結果如表1所示。
由表1可以看出:用MobileNetV3替換YOLOv5s的主干網絡后,模型參數量下降了51.9%,運算量下降了61.2%,檢測速度從84.7 f/s提升到94.8 f/s,但mAP@0.5下降了2.5%;頸部網絡引入BiFPN結構后,模型參數量增加約1 MB,運算量增加0.5 GFLOPs,檢測速度下降約3 f/s,mAP@0.5提升到0.955,但比原模型低0.6%;CIoU損失函數改為EIoU目標框損失函數后,模型參數量下降了37.7%,運算量下降了58%,檢測速度提升了9.5%,mAP@0.5提高了0.7%,達到0.968。
2.4.2 不同模型對比實驗
為驗證本文模型的有效性、優越性,在實驗數據集和相同測試環境下,將本文模型(MBE-YOLOv5)與YOLOv6n、YOLOv5s、YOLOv4-tiny、YOLOv7-tiny、YOLOv8n、YOLOv6s等主流模型進行對比實驗,實驗測試結果如表2所示。
由表2可以看出:相比YOLOv5s模型,MBE-YOLOv5模型參數量下降了37.7%,運算量下降了58.1%,檢測速度提升了9.6%,mAP@0.5提高了0.7%;YOLOv6n、YOLOv4-tiny、YOLOv7-tiny、YOLOv8n模型的檢測速度比MBE-YOLOv5模型快10%~20%,但這4個模型的mAP@0.5都沒達到0.9,檢測效果較差;相比于YOLOv6s模型,MBE-YOLOv5模型的mAP@0.5略高0.6%,但參數量、運算量、檢測速度都有明顯優勢。
3 結論
本文針對化工袋目標檢測任務,提出一種MBE-YOLOv5模型。MBE-YOLOv5模型采用MobileNetV3網絡替換YOLOv5s主干網絡,減少模型的參數量、計算量;同時引入BiFPN結構、EIoU目標框損失函數來提高模型的目標檢測精度。實驗結果表明,本文提出的MBE-YOLOv5模型在實現模型輕量化的同時,獲得較好的化工袋檢測效果,能滿足化工廠中化工袋在線識別定位的要求。
參考文獻
[1] 張瑤,崔燕,李媛.化工安全生產與環境保護的方法研究[J]. 化工管理,2023(33):61-64. DOI:10.19900/j.cnki.ISSN1008-4800.2023.33.01
[2] 馬傳海.化工行業中工藝流程設計對安全生產的影響[J].現代鹽化工,2023,50(6): 55-57.
[3] CHEN C, RENIERS G. Chemical industry in China: The current status, safety problems, and pathways for future sustainable development[J]. Safety Science, 2020,128:104741.
[4] SONG J, HAN B. Green chemistry: A tool for the sustainable development of the chemical industry[J]. National Science Review, 2015, 2(3):255-256.
[5] 劉華冠.基于機器視覺的袋裝物料位姿自動識別研究[D]. 濟南:濟南大學,2011.
[6] 陳州堯,徐敏,蘇鷺梅.一種碼垛視覺系統中物料袋的識別與定位方法[J].制造業自動化,2015,37(3):47-49;59.
[7] LE Q, MIRALLES-PECHUáN L, KULKARNI S, et al. An overview of deep learning in industry[J]. Data Analytics and AI, 2020:65-98.
[8] WANG J, ZHANG T, CHENG Y, et al. Deep learning for object detection: A survey[J]. Computer Systems Science amp; Engineer-ing, 2021,38(2):165-182.
[9] LIU L, OUYANG W, WANG X, et al. Deep learning for generic object detection: A survey[J]. International Journal of Computer Vision, 2020,128(2):261-318.
[10] SONG Y, HONG S, HU C, et al. MEB-YOLO: An efficient vehicle detection method in complex traffic road scenes[J]. Computers, Materials amp; Continua, 2023,75(3):5761-5784.
[11] 李祥兵,陳煉.基于改進Faster-RCNN的自然場景人臉檢測[J].計算機工程, 2021,47(1):7.
[12] XU P, FANG N, LIU N, et al. Visual recognition of cherrytomatoes in plant factory based on improved deep instance segmentation[J]. Computers and Electronics in Agri-culture, 2022,197:106991.
[13] SONG Z Z, FU L S,WU J Z, et al. Kiwifruit detection infield images using Faster R-CNN with VGG16[J]. IFAC-Papers on Line, 2019,52(30):76-81.
[14] LI Y, ZHANG S, WANG W Q. A lightweight faster R-CNN for ship detection in SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2022,19:1-5.
[15] HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019:1314-1324.
[16] TAN M, PANG R, LE Q V. Efficientdet: Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF Confer-ence on Computer Vision and Pattern Recognition, 2020: 10781-10790.
[17] 來春慶,黃勇,朱喆,等.基于特征融合多尺度卷積網絡的光伏組件紅外圖像故障診斷[J].機電工程技術,2023,52(9): 145-151.
[18] 郎永存,李積元,鄭佳昕.基于機器學習機床機械加工特征信息與加工材料關聯性研究[J].機床與液壓,2022,50(16): 194-199.
[19] 楊俊杰,謝維成,曹倩.級聯H橋逆變器的多特征融合CNN故障診斷[J].中國測試,2020,46(7):8-17.
[20] GEVORGYAN Z. SIoU loss: More powerful learning for bounding box regression[J]. arXiv preprint arXiv:2205.12740, 2022.
[21] ZHANG Y F, REN W, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocom-puting, 2022,506:146-157.
作者簡介:
劉偉鑫,男,1992年生,碩士研究生,工程師,主要研究方向:機器視覺與人工智能應用。E-mail: 15989156033@139.com