基于改進YOLOv5網絡的內窺鏡息肉檢測

2022-05-30 16:28:17司丙奇王志武姜萍萍顏國正

中國新通信 2022年11期

司丙奇　王志武　姜萍萍　顏國正

摘要：結直腸癌是常見的惡性腫瘤，定期進行內窺鏡診斷發現并及時切除癌前息肉，可顯著降低患者死亡率。目標檢測算法能夠提高內窺鏡檢查的臨床表現。本文通過標注臨床病例的鏡檢圖像和收集公開的息肉圖像數據，建立了包含多來源、多中心的胃腸道內窺鏡息肉數據集。接著，基于YOLOv5算法，利用注意力機制重構了特征提取網絡的C3模塊，提出了三種改進模型。為驗證改進的檢測效果，對多種目標檢測算法在自建的息肉數據集上進行了對比實驗。測試結果表明，改進模型SE-YOLOv5的準確率為94.7%、召回率為79.5% ，相比YOLOv5算法分別提升了0.6%、2.8%;模型的平均預測速度為50FPS，達到了實時檢測的水平，研究對于開發計算機輔助診斷系統具有技術參考價值。

關鍵詞：目標檢測;息肉數據集;息肉識別;注意力機制; YOLOv5

2020年新增確診的結直腸癌病例約193萬，占所有新增確診病例的10.0%，僅次于乳腺癌（11.7%）和肺癌（11.4%）;結直腸癌患者的死亡率為51%，占癌癥總死亡人數的9.4%;總體而言，結直腸癌在發病率方面排名第三，但在死亡率方面排名第二[1-2]。

結直腸鏡檢是當前最主要的CRC檢測篩查手段，能夠檢測并移除病變。但是，檢測效果受多種因素的制約，比如患者前期的腸道準備、腸道內的息肉數量與所在部位;此外，鏡檢過程需要內鏡醫師保持注意力高度集中的狀態，過度疲勞將導致更高的誤診率與漏診率。

為了應對這些困難，研究人員開發了計算機輔助診斷（Computer-aided Diagnostic， CAD）系統。文獻[3]提出了ColonSegNet網絡模型，預測結果平均準確率80.0%，平均交并比（IoU）為81.0%，在檢測速度與預測精度間實現了更好的平衡。文獻[4]中基于深度學習算法DenseNet-201開發了CAD系統，對NBI結腸息肉圖像準確預測結直腸息肉組織，診斷性能與內窺鏡檢查專家相當。文獻[5]提出了一種輕量級的無anchor的卷積神經網絡（CNN）結構，使用緊湊的堆疊沙漏網絡，在ATLAS Dione和Endovis Challenge數據集上分別以37.0FPS的速度獲得了98.5%的mAP和100%的mAP，實現了RAS視頻中手術器械的實時檢測。文獻[6]提出了一個將Faster RCNN與Inception Resnet相結合的深度學習模型，在2015 MICCAI數據集[7]上的檢測準確率91.4%、召回率71.2%，但是每幀圖像的檢測處理時間約為0.39秒，不能滿足結腸鏡檢的實時性要求。

受制于醫學倫理等因素的制約，目前公開的數據集較少且雜亂，部分公開的息肉圖像沒有經過專業醫生的篩選和標注處理，不具備使用價值。為了能夠保證深度學習模型網絡訓練的質量，本文自建具有去中心化、來源豐富的數據集，并提出了基于YOLOv5網絡的改進模型SE-YOLOv5;與原模型相比，改進模型具備實時檢測性能，檢測效果提升明顯。

一、改進型YOLOv5算法

（一） YOLOv5算法原理

2020年，Utralytics團隊提出YOLOv5，在精度和速度方面都優于以往的所有版本。YOLOv5利用寬度、深度控制因子來調整骨干網絡的通道寬度和網絡深度，從而得到YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四個版本的模型，四個模型的參數量大小與檢測精度依次遞增。其中，YOLOv5s是結構最簡單的版本，檢測速度最快。

本文主要實現病灶目標的實時檢測，更關注模型的檢測推理速度，選取YOLOv5s v5.0版本作為改進的基礎模型。

YOLOv5是由Backbone和Head兩部分構成，如圖 1所示，Backbone是由Focus，CBS（Conv-Batch Normalization-SiLu），C3和SPP（Spatial Pyramid Pooling）模塊組成。Head是由PANet（Path Aggregation Network）和Detect兩個模塊組成。

在Backbone部分，Focus模塊包含四個平行的切片層來處理輸入圖像，在圖片進入Backbone前，使用Focus模塊對圖片進行切片操作，每隔一個像素點取出一個像素值，如圖2所示。切片操作后得到的四張子圖位置互補，沒有信息丟失，將寬度、高度的信息包含在通道空間中，輸入通道擴充4倍，最后通過卷積操作，得到無信息丟失的二倍下采樣特征圖，提升了處理速度。

CBS模塊包含卷積層（Convolutional Layer）、BN層（Batch Normalization）、SiLu激活函數層。C3_n模塊包含CBS模塊、n個殘差連接單元（BottleNeck），參照CSPNet網絡結構[8]將同一stage中基礎層的特征圖分成兩部分，跨階段使用拆分與合并策略，有效降低信息集成過程中重復的概率。YOLOv5針對CSPNet結構加以改進，根據是否存在無殘差邊，設計兩種CSP模塊：CSP-False/True，通過shortcut的取值為False或True進行選擇。

加入的SPP模塊[9]主要包含三個最大池化層，三者在多個尺度上進行池化操作，適用于處理不同的比例、大小和長寬比的圖像數據，可以大幅度提高感受野，提取出最重要的特征，同時有效降低了由于圖片伸縮操作導致信息失真的可能性。

Head部分包含三個頭部分支，分別負責檢測大中小三個尺度的目標，預測信息包括對象坐標、類別和置信度信息。檢測頭部對高層特征進行上采樣操作，自上而下地傳遞給底層特征，實現了高層語義信息向底層的遷移;底層特征經過stride為2的卷積與張量拼接操作，自下向上傳遞給高層特征，實現了底層強定位特征向高層的遷移，從而三個分支的特征信息相互融合，實現了PANet（Path Aggregation Network）[10]操作。

（二）注意力機制模塊

使用注意機制可以提高神經網絡特征圖的表征能力，使得模型更加關注重要特征并抑制不必要的特征。

1. CBAM模塊

CBAM（Convolutional Block Attention Module）[11]是Sanghyun Woo等人在2018提出的一種簡單而有效的前饋神經網絡注意力機制模塊。如圖3所示在給定中間特征圖時，CBAM模塊沿通道和空間兩個獨立的維度依次進行注意力特征圖的推斷，然后將注意力特征圖與輸入特征圖相乘，以進行特征圖微調。

2. SE模塊

3. ECA模塊

（三）改進的A-C3模塊

二、實驗及結果分析

（一）實驗環境

所有模型的訓練和測試任務均在一臺配置為Intel（R） Xeon（R） Platinum 8163@ 2.50GHz×12核CPU處理器和NVIDIA? Tesla V100 GPU的服務器上進行。相關的硬件和參數配置如表2所示。

（二）數據集

1.數據集構成

在當前的內窺鏡病灶研究領域，有一些用于不同研究目的的公開數據集，例如用于內窺鏡視覺挑戰賽子賽事胃腸圖像分析（GIANA）的MICCAI 2017[14]，用于常規鏡檢的胃腸道病變數據集（GLRC）[15]，CVC colon DB結腸鏡視頻數據集。此外，還有一些通用胃腸鏡檢的內窺鏡大型數據集，如Hyper-Kvasir[16]、Kvasir-SEG[17]等。Hyper-Kvasir[16]是通用的消化道內窺鏡數據集，涵蓋23種不同類別消化道病灶圖像和視頻，包括息肉、血管擴張等。

在收集的公開數據集基礎上，使用LabelImg軟件對Hyper-Kvasir數據集的息肉圖像中的目標手動標注目標框（ground truth box），自行制作的數據集作為補充，豐富了息肉檢測數據集多樣性。自建數據集包含165個息肉檢測視頻序列，合計37899張圖像。

2. 數據集劃分

對于普通的檢測目標，可以基于圖像進行數據集劃分。如果按照這種方法劃分，同一個息肉目標會同時包含在訓練集、驗證集和測試集中。由于模型在訓練階段已經學習了某息肉圖像的特征，將導致模型在測試時對該息肉目標的檢測效果偏高。因此，需要按照視頻序列對數據集進行劃分，分別隨機選擇 65%、20% 和15% 的視頻序列來形成訓練、驗證和測試集。對不同來源、不同類型的數據構成的數據集進行隨機劃分，起到了數據集去中心化[18]的效果，有效降低了由于數據的固有選擇造成的偏差。訓練集、驗證集、測試集的圖像數量分布如圖7所示：

（三）模型評價指標

（四）實驗結果及分析

1.參數收斂情況

本文將準確率Precision、召回率Recall、AP@.5、AP@.5：.95指標作為判別模型是否收斂的主要參數。各模型參數的變化情況如圖8所示。各參數均能夠隨訓練迭代次數平穩地收斂，各模型準確率最終收斂在94.0%附近。其中，SE-YOLOv5的召回率、AP@.5、AP@.5：.95指標均能達到最優。

2.不同網絡的對比實驗

為了直觀地體現改進算法的性能優勢，將各改進模型與YOLOX[19]、YOLOv5、Scaled-YOLOv4[20]、YOLOv3[21]、SSD[22]、Faster RCNN[23]、RetinaNet[24]幾種先進的同類算法在測試集上進行測試，各模型性能對比情況如表3所示。加粗字體為所有模型該項對應的最優指標。從表中數據可知，SE-YOLOv5的檢測精度略低于CBAM-YOLOv5，但是其召回率（Recall）、AP@.5、AP@.5：.95指標均達到或接近最優;scaled-YOLOv4的召回率、AP@.5、AP@.5：.95指標與其接近，但是準確度過低，而且模型復雜度過高。從檢測速度方面來看，SE-YOLOv5平均推理速度為50FPS，快于基礎模型YOLOv5，測試結果大于30FPS，能夠滿足對內窺鏡視頻序列檢測的實時性要求。

息肉檢測任務中，召回率直接反應了病人漏診的情況，由于漏診的嚴重性，召回率成為最重要的評價指標。綜合考慮檢測精度和速度，選取F2分數最高的SE-YOLOv5模型作為最優模型。實際檢測結果如圖9所示，表明在不同光照條件、噪聲干擾、不同角度的情況下，模型依然能夠取得良好的檢測效果。

三、結束語

本文以內窺鏡圖像中的息肉病灶檢測為研究目標，通過收集公開數據集與自行標注，建立了用于訓練與檢測任務的息肉數據集;基于YOLOv5算法，使用SE注意力機制重構了原C3模塊，獲得改進模型SE-YOLOv5。

與原模型相比，改進模型在不明顯增加計算復雜度的情況提升了模型的檢測性能，并且優于其他同類型的優秀檢測算法，實現了針對內窺鏡圖像病灶的實時檢測。

臨床診斷需要檢查多種異常病變，如潰瘍、出血、炎癥和血管疾病等，而公開數據集雜亂且匱乏，需要收集與制作更多類別的胃腸道內窺鏡病灶數據集。另外，當前所有模型都是在性能優秀的服務器上完成訓練與測試任務的，對硬件配置要求較高。為了能夠順利地部署在嵌入式系統上，需要壓縮檢測模型的尺寸以減少參數量。因此，建立包含更多病灶類別的數據集與模型小型化將是下一步的研究內容。

作者單位：司丙奇? ? 王志武? ? 姜萍萍? ? 顏國正? ? 上海交通大學電子信息與電氣工程學院? ? 上海智慧戒毒與康復工程技術研究中心

參? 考? 文? 獻

[1] SUNG H， FERLAY J， SIEGEL R L， et al. Global cancer statistics 2020： GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA： a cancer journal for clinicians， 2021， 71（3）： 209-249.

[2] VANESSA B ，? KAREN S . Colorectal cancer development and advances in screening[J]. Clinical Interventions in Aging， 2016， Volume 11：967-976.

[3] JHA D， ALI S， TOMAR N K， et al. Real-time polyp detection， localization and segmentation in colonoscopy using deep learning[J]. IEEE Access， 2021， 9： 40496-40510.

[4] Song E M ，? Park B ，? CA? Ha， et al. Endoscopic diagnosis and treatment planning for colorectal polyps using a deep-learning model[J]. Scientific Reports， 2020， 10（1）：30.

[5] LIU Y， ZHAO Z， CHANG F， et al. An anchor-free convolutional neural network for real-time surgical tool detection in robot-assisted surgery[J]. IEEE Access， 2020， 8： 78193-78201.

[6] Shin Y ，? Qadir H A ，? Aabakken L ， et al. Automatic Colon Polyp Detection using Region based Deep CNN and Post Learning Approaches[J].? 2019.

[7] BERNAL J， TAJKBAKSH N， SANCHEZ F J， et al. Comparative validation of polyp detection methods in video colonoscopy： results from the MICCAI 2015 endoscopic vision challenge[J]. IEEE transactions on medical imaging， 2017， 36（6）： 1231-1249.

[8] WANG C Y ，? LIAO H ，? WU Y H ， et al. CSPNet： A New Backbone that can Enhance Learning Capability of CNN[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）. IEEE， 2020.

[9] HE K ，? ZHANG X ，? REN S ， et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on， 2015， 37（9）：1904-1916.

[10] LIU S ，? QI L ，? QIN H ， et al. Path Aggregation Network for Instance Segmentation[J]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）， 2018.

[11] WOO S， PARK J， LEE J Y， et al. Cbam： Convolutional block attention module[C]//Proceedings of the European conference on computer vision （ECCV）. 2018： 3-19.

[12] HU Jie，? Li Shen ，? SUN Gang， et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， PP（99）.

[13] WANG Q ，? WU B ，? ZHU P ， et al. ECA-Net： Efficient Channel Attention for Deep Convolutional Neural Networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. IEEE， 2020.

[14] BERNAL J ，? TAJBAKHSH N ，? SANCHEZ F J ， et al. Comparative Validation of Polyp Detection Methods in Video Colonoscopy： Results from the MICCAI 2015 Endoscopic Vision Challenge[J]. IEEE Transactions on Medical Imaging， 2017， 36（6）：1231-1249.

[15] MESEJO P ，? PIZARRO D ，? ABERGEL A ， et al. Computer-Aided Classification of Gastrointestinal Lesions in Regular Colonoscopy[J]. IEEE Transactions on Medical Imaging， 2016， 35（9）：2051.

[16]BORGLI H， THAMBAWITA V， et al. HyperKvasir， a comprehensive multi-class image and video dataset for gastrointestinal endoscopy[J]. Scientific data， 2020， 7（1）： 1-14.

[17] JHA D， SMEDSRUD P H， RIEGLER M A， et al. Kvasir-seg： A segmented polyp dataset[C]//International Conference on Multimedia Modeling. Springer， Cham， 2020： 451-462.

[18] YANG Y J. The future of capsule endoscopy： The role of artificial intelligence and other technical advancements[J]. Clinical Endoscopy， 2020， 53（4）： 387.

[19] GE Z ，? LIU S ，? WANG F ， et al. YOLOX： Exceeding YOLO Series in 2021[J].? 2021.

[20] WANG C Y ，? BOCHKOCHKOVSKIY A ，? LIAO H Y M . Scaled-YOLOv4： Scaling Cross Stage Partial Network[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. IEEE， 2021.

[21] REDMON J ，? FARHADI A . YOLOv3： An Incremental Improvement[J]. arXiv e-prints， 2018.

[22] LIU W ，? ANGUELOV D ，? ERHAN D ， et al. SSD： Single Shot MultiBox Detector[J].? 2015.

[23] REN S ，? HE K ，? GIRSHICK R ， et al. Faster R-CNN： Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2017， 39（6）：1137-1149.

[24] LIN T Y ，? GOYAL P ，? GIRSHICK R ， et al. Focal Loss for Dense Object Detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2017， PP（99）：2999-3007.

中國新通信2022年11期

中國新通信的其它文章: “互聯網+”背景下混合式教學在耳鼻咽喉教學中的應用; 微課教學模式在中職衛校生理學教學中的實踐; SPOC混合式教學在某衛生高職校《藥劑學》課程的實施效果評價; “互聯網+”背景下高中化學課堂教學模式的創新; “互聯網+”時代下傳統手工藝資源在高職藝術教育中的價值探討; 信息技術主導下的高中美術核心素養培育