基于YOLOv5的醫用外科手套左右手識別

2021-02-24 10:13:46琚恭偉焦慧敏張佳明暴泰焚蔡吉飛

制造業自動化 2021年12期

琚恭偉，焦慧敏，張佳明，暴泰焚，蔡吉飛

（北京印刷學院機電工程學院，北京 102600）

0 引言

全球新冠疫情蔓延，使得醫用外科手套需求量激增。醫用外科手套具有左右手之分，包裝過程中，依靠人工識別和手動分揀，但是長時間人工分揀，容易產生錯檢、漏檢。為了提高生產效率，急需采用自動化方式代替人工分揀，實現左右手套識別問題。本文使用深度學習技術，搭載相應的圖像采集裝置，完成醫用外科手套的左右手識別，提高分揀過程中的自動化程度。

隨著計算機視覺和深度學習的快速發展，使得自動化和智能化包裝方式取得巨大進步。Hinton[1]等人使用卷積神經網絡（CNN）參加ILSVRC（ImageNet Large Scale Visual Recognition Challenge）圖像分類大賽，證明了深度學習的潛力。目前，基于CNN的目標檢測算法大致可以分為兩類，一類為“two-stage detection”（兩步驟檢測），另一類為“one-stage detection”（單步驟檢測）[2]。“twostage detection”即基于候選區域的目標檢測算法，這是一個“從粗到細”的過程，先根據不同的區域選擇算法從圖像中選擇多個感興趣的領域，然后通過深度學習提取特征并分類檢測。T.-Y.Lin[3]等人提出的FPN（feature pyramid networks）算法，采用了特征金字塔網絡結構，在檢測各種尺度的目標方面取得巨大的進步。“one-stage detection”即基于回歸的目標檢測算法，在將一張圖像進行分割操作，使其成為多個候選區域的同時，被分割出來的區域的邊界框和目標的概率也會被預測出來，這樣就可以在犧牲部分定位精度的情況下，大大提升檢測速度。YOLO（You Only Look Once）v5被Jocher[4]提出，作為目前較為領先的目標檢測技術，YOLOv5在推理速度上表現優異。

外科手套在充氣狀態下進行品質檢測和左右手的識別。由于上道工序對手套的夾持位置不同，導致充氣后的手套狀態各異，使得對目標定位困難。郭[5]利用膚色檢測和背景差分方法相結合的方式實現人手的定位和跟蹤。張[6]提出基于梯度方向直方圖特征的主成份分析方法，對視頻中單手或者雙手的手部分割和跟蹤具有較好的輔助作用。Bao[7]對卷積神經網絡模型的反向傳播過程進行分析，采用不同的損失函數在模型中學習相同次數，分析比較學習結果，優化了反向傳播過程，并應用于人手的左右手識別，提高了識別正確率。

本文提出在YOLOv5目標檢測算法的前提下，使用復制多份數據集的方法，減少人工labelimg標注的時間，提高數據的有效性和模型的準確性。

1 YOLOv5算法原理

YOLOv5模型集成了FPN多尺度檢測及Mosaic數據增強和SPP結構，整體結構可以分為四個模塊，具體為：輸入端（Input）、主干特征提取網絡（Backbone）、Neck與輸出層（Prediction）。

第一部分是Input，包括Mosaic數據增強、自適應錨框計算、自適應圖片縮放三大部分。Mosaic數據增強是將數據集圖片以隨機縮放、隨機裁剪、隨機排布的方式進行拼接。自適應錨框計算是指在網絡訓練中，網絡在初始錨框的基礎上輸出預測框，進而和真實框進行比對，計算兩者差距，再反向迭代，更新網絡參數。自適應圖片縮放常用的方式是將原始圖片統一縮放到一個標準尺寸，再送入檢測網絡中。

圖1 YOLOv5s網絡結構圖

第二部分是Backbone，由Focus結構和CSP結構組成。Focus結構中，切片操作是最為重要的。例如，輸入一個原始圖像，其大小為608×608×3，對其進行切片操作，這樣就能使其成為一個304×304×12的特征圖，之后經過32個卷積核進行一次卷積操作，這樣就可以得到一個304×304×32的特征圖。CSPDarknet53是借鑒了CSPNet并在Yolov3所使用的主干特征提取網絡Darknet53的基礎上，將resblock_body的結構進行修改并使用CSPnet結構，而產生的主干特征提取網絡Backbone結構。這樣可以有效的增強卷積神經網絡的學習能力，在保證其運行準確性的同時，使CNN更加的小，這樣就可以有效降低計算瓶頸，也可以減小內存成本。YOLOv5中分別設計和使用了兩種不同的CSP結構，其中CSP1_X結構應用于主干特征提取網絡中，同時在Neck中使用了另一種CSP2_X結構。

第三部分是Neck，由FPN和PAN組成，FPN是通過向上采樣的方法將上層的特征進行傳輸融合，從而得到預測特征圖，其中含有兩個PAN結構。FPN采用了自頂向下的結構，這樣就可以進行對于強語義特征的傳輸，特征金字塔采用了自底向上的結構，這樣就可以進行對于強定位特征的傳輸，這兩者經過練手結合后，就可以將每一個檢測層做到特征聚合，這樣就成功提高了特征提取的能力。

第四部分是Prediction，Generalized Intersection over Union（GIOU_Loss）與Complete Intersection over Union（CIOU_Loss）目標檢測任務往往都使用損失函數，損失函數一般由兩大部分構成：回歸損失函數和分類損失函數。GIOU_Loss與CIOU_Loss都是以IOU_Loss為基礎發展的回歸損失函數。所需要識別的目標框和檢測框之間的重疊面積是IOU_Loss主要考慮的問題，但是它有時會存在所需要識別的目標的框和檢測框的邊界不重合的問題，GIOU_Loss解決了這個問題，但是這兩個損失函數依舊存在著沒有考慮到所需要識別的目標的框和檢測框中心點距離的信息的問題，DIOU_Loss解決了這個問題，但是DIOU_Loss存在沒有考慮所需要識別的目標的框和檢測框的寬高比的尺度信息的問題，而CIOU_Loss解決了這個問題。

2 YOLOv5目標檢測算法的實現

本次實驗首先搭建YOLOv5環境，然后采集數據構建數據集，通過labelimg工具對數據集做標簽標定，將做好的數據集放到YOLOv5上進行訓練，產生訓練模型，最后使用生成的訓練模型對同一測試集進行識別，得到識別結果，分析多次對測試集識別產生的結果，得出結論。實驗流程如圖2所示。

圖2 實驗流程圖

2.1 實驗環境

本文的實驗環境搭建在工作站上，服務器配置使用Ubuntu 18.04版本，CUDA Toolkit 10.1版本，深度學習框架平臺為Pytorch 1.6 版本。

2.2 數據收集及標注

在收集數據時，使用固定式相機進行拍攝，為模擬生產醫用外科手套現場，采集到的圖片為同一背景。在醫用外科手套充滿氣的狀態下，從底部對其進行拍照，充分考慮實際醫用外科手套的氣密性檢測狀態，從其正下方拍照，通過旋轉、平移、俯仰手套等實際情況，收集手套在各個角度下的圖片數據，同時刪除數據集中人眼識別較低的圖片，共收集2378張照片，以此來增強數據的真實性，之后將收集到的數據分為三組，分別為訓練集、驗證集和測試集，比例為3∶2∶1。

針對數據集中的圖片，采用labelimg工具進行框選標注，將醫用外科手套左手的圖片標注為left，右手為right，標注范例如圖3所示。

圖3 labelimg軟件標注圖

2.3 初始參數

將收集到的數據集和相對應的標簽文件，按照訓練集、驗證集、測試集的順序放到相對應的文件夾中，然后配置訓練模型的參數，通過終端輸入訓練命令，模型的訓練次數Epochs設為500；批次大小Batch size是指訓練時一次性輸入網絡的圖片數目，與顯卡的顯存大小有關，將其設為16；提高輸入分辨率在一定程度上會提高小目標檢測精度，所以輸入分辨率img-size的原始值為640。

2.4 實驗過程及結果

為驗證復制訓練集和驗證集的方法對系統識別準確率的影響，本實驗通過使用YOLOv5s訓練框架對數據集進行訓練，對同一組訓練集和驗證集，復制一份到十份，對其逐一進行訓練，得到訓練模型，將訓練出來的模型，對相同的測試集進行測試，得到平均得分、錯識別率、漏識別率以及準確率，結果如表1所示，結果趨勢如圖4所示。

圖4 實驗趨勢圖

表1 實驗結果對比

平均得分是測試之后產生具有識別標識部分得分的平均值，錯識別率是測試之后產生具有標識部分醫用外科手套左右手辨別錯誤占總數的比率，漏識別率是測試之后具有醫用外科手套左右手但未檢測出來的圖片占總數的比率，準確率是測試之后正確識別醫用外科手套左右手占所有測試圖片總數的比率，僅對本文實驗數據集的數據有效。錯識別圖：如圖5(a)所示，第一輪原始數據右手的一張圖，圖5(b)所示，第六輪復制五份右手的一張圖；識別得分低圖：如圖5(c)所示，第一輪原始數據右手的識別圖，圖5(d)所示，第三輪復制兩份左手的一張圖；漏識別圖：如圖5(e)所示，第一輪原始數據左手的一張圖。本文測試結果，此處為第十輪識別結果部分數據結果截圖，如圖6所示。

圖5 錯識別、低識別、漏識別示例圖

圖6 第十輪識別結果部分數據圖

2.5 實驗分析

實驗過程中每一輪對測試集單張圖片測試時間在0.004s到0.005s之間，訓練速度基本一致。

通過對比實驗過程中的數據，在第一輪原始數據和第二輪復制一份的時候，正確率較低，漏識別率和錯誤率較高。到第五輪復制四份的時候，訓練模型的準確率滿足實際生產需求。在第六輪復制五份、第七輪復制六份、第九輪、復制八份的實驗中，出現對一部分圖識別錯誤的情況，這些錯誤識別圖是收集數據的時候光線較強烈，對于光線較強的時候，該模型還是具有缺陷。為滿足工業生產識別需求，在生產過程中添加控制光照不變的裝置，收集該狀態下的數據集，以減少光照對識別的影響，進而減少錯誤率。

通過對比可得出結論：同一數據集使用復制訓練集和驗證集的方式可以增加準確率，本實驗使用復制的方法和YOLOv5模型中的Mosaic數據增強不沖突，此方法是在Mosaic數據增強基礎上進行實驗。對于模型準確率，仍需要做多次實驗，得到最優的訓練模型，避免光照、色差等因素的影響。

3 結語

本文采用YOLOv5目標檢測算法，研究了固定式攝像頭對醫用外科手套生產過程中左右手識別，收集同一背景、同一主體、不同狀態的數據集，使用了復制數據集的方法，通過對比不同訓練模型的測試結果，得出相同的數據集復制多份可以增加訓練模型的準確性的結論，但數據集復制到一定的次數之后，訓練模型對同一批測試集有很好的識別性，此時模型處于過擬合的一個狀態。

由于本文數據集的單一性，出現過擬合狀態，下一步解決過擬合狀態的訓練模型，增強模型的有效性。