







摘 要:在先天性巨結腸(Hirschsprung Disease,HD)的診斷工作中,神經節細胞的尋找耗時長且具有挑戰性。
為了更好地輔助病理醫生診斷HD,提出一種基于改進YOLOv5s的結腸神經節細胞智能檢測算法。該算法在YOLOv5s的Neck層PAN網絡的3個C3模塊后,分別添加了無參數的SimAM注意力機制,這一改進在不增加模型參數量的同時,有效地捕捉到更多重要的特征。實驗結果顯示,改進的算法能夠快速且準確地識別神經節細胞,其精確度、召回率、mAP@0.5分別達到了87.4%、84.6%、91.5%?;诖怂惴?,進一步開發了兒童先天性巨結腸輔助診斷軟件,該軟件能夠自動檢測結腸活檢切片中的神經節細胞,為病理醫生診斷HD提供了極大的便利。
關鍵詞:深度學習;YOLOv5;SimAM;先天性巨結腸;輔助診斷
中圖分類號:TP391.4 文獻標志碼:A
0 引言(Introduction)
先天性巨結腸(Hirschsprung Disease,HD),又稱先天性腸神經節細胞缺如癥,是一種遺傳背景復雜的腸神經系統發育障礙性疾病,對患兒的健康甚至生命構成了嚴重威脅。目前,HD致病機制和原因尚未明確[1]。在直腸黏膜活檢中,神經節細胞的檢測對于HD的確診或排除至關重要,同時這一結果也決定了手術治療需要切除的腸段位置。然而,目前神經節細胞的識別主要依賴病理醫生的人工判斷,這一過程識別難度大且耗時較長。基于此,本文提出一種基于改進YOLOv5s的深度學習算法,用于輔助兒童先天性巨結腸的診斷。在YOLOv5s的Neck部分使用SimAM(Similarity-based Attention Mechanism)注意力機制,增強了模型檢測神經節細胞的性能,并且不會帶來額外的參數?;谶@一算法,本研究進一步開發了先天性巨結腸輔助診斷軟件,該軟件能夠快速檢測病理切片中的神經節細胞,輔助病理醫生更加高效、便捷地完成HD的診斷。
1 相關研究(Related research)
先天性巨結腸是由兒童消化系統的先天性畸形病變導致的,發病率約為1/5000[2],其主要表現特征是結腸遠端神經節細胞缺乏,從內括約肌開始向近端延伸,由此產生的結腸神經節段無法松弛,持續處于痙攣狀態,進而引發功能性腸梗阻[3]。排泄物在近端結腸淤積,使該段結腸逐漸肥大、增厚并擴張,從而形成巨大結腸,患兒因此會出現便秘、腹脹、嘔吐、生長遲緩、腸炎等臨床癥狀[4],在嚴重的情況下,患兒可能出現腸穿孔乃至死亡。一旦確診,患兒需要接受手術治療,以完全切除無神經節腸段,并在保留括約肌功能的同時,將正常腸管進行吻合[5]。
隨著對先天性巨結腸發病機制和治療方法的研究不斷深入,其臨床分型和診斷標準已逐漸明確,診斷方法及治療技術不斷精進[6]。目前,對HD的診斷主要依賴臨床輔助診斷方法,主要包括X線腹部平片、鋇餐造影、腹部超聲、CT檢查等常規放射成像方法及直腸活檢等[7]。直腸活檢對診斷HD的敏感性和特異性均較高且安全可靠,是目前確診HD的“金標準”[8]。在進行HD直腸活檢時,需取得直腸的黏膜或者漿肌層做切片,并用蘇木精和伊紅(Hematoxylin and Eosin,Hamp;E)進行染色,然后識別病理特征并進行組織學評價[9]。神經節細胞是否存在,為HD的診斷提供了重要依據[10],同時也是外科手術中的關鍵步驟,直接決定了切除的腸道以及進行吻合或造口的位置[11]。然而,在臨床工作中,每個活檢標本至少包含20個Hamp;E染色切面,需要由具有一定經驗的病理醫生通過仔細觀察切片的各個切面來尋找神經節細胞[12],使得該項診斷工作耗時長且具有較大的挑戰性,特別是在術中冰凍病理診斷中,醫生要在半小時內快速分析冷凍切片并發出報告,確認神經節細胞是否存在,使得該疾病的診斷工作更加緊迫。所以,迫切需要建立一種快速且高效的輔助診斷方法,實現對神經節細胞的快速識別或初步篩檢。
近年來,隨著病理學和新型影像技術的迅猛發展,深度學習技術逐漸成為醫學圖像精準分析和處理的重要方法,助力醫務人員實現早期和準確的診斷,并在醫學成像領域中受到廣泛的關注和應用[13]。本研究基于YOLOv5算法進行改進,實現了神經節細胞區域快速且準確的檢測。病理醫生可以直接從識別的結果中進行進一步的篩選和判斷,不僅節約了時間,而且還極大地降低了病理醫生判別神經節細胞的難度,對于HD的輔助診斷和治療具有重要的意義。
2 算法模型(Algorithm model)
2.1 目標檢測算法概述
基于深度學習的物體檢測方法主要有基于候選區域和非候選區的方法,其中基于候選區域的方法通常是二步檢測法,即首先從輸入的圖像中生成一系列區域,其次利用CNN(Convolutional Neural Networks)從生成的區域中提取特征并構造一個目標分類器,最后在候選區域上進行分類與回歸?;诤蜻x區域的卷積神經網絡(Region-based" Convolutional" Neural Networks,R-CNN)[14]法是最早引入深度學習的方法,采用選擇性搜索的策略在輸入圖像中生成候選區域,并使用卷積神經網絡從生成的候選區域中提取特征。在R-CNN方法的基礎上,研究人員提出了FastR-CNN[15]和FasterR-CNN[16],以減少訓練時間和提高精度。然而,盡管基于候選區域的方法在檢測精度上表現出色,但是其結構復雜且檢測過程耗時較長。為了克服FasterR-CNN 在檢測速度上的局限性,REDMON等[17]提出了YOLO(You Only Look Once)物體檢測算法。YOLO是一種基于候選區域的一步檢測方法,其結構簡單并能夠快速檢測出物體,并且經歷了一系列的版本更新,逐漸成為物體檢測的主流框架。
2.2 YOLOv5算法
YOLOv5是在YOLOv4網絡結構的基礎上進行改進的一種高效算法,它的特點是權重文件小,網絡結構與YOLOv4略微相似,但經過了大幅度的精簡和優化。YOLOv5不僅檢測精度更高,而且運行速度更快,模型尺寸(27 MB)相較于YOLOv4(245MB)大幅減小,這在模型部署方面展現出極強的優勢。YOLOv5可以細分為4種不同的網絡結構,分別是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,其參數數量依次增多,網絡大小依次增大。本文選擇了YOLOv5s作為識別算法的基本網絡結構圖(圖1)。
YOLOv5算法分為輸入端(Input)、主干網絡(Backbone)、網絡層(Neck)及輸出端(Head)4個部分。輸入端采用與YOLOv4相同的Mosaic數據增強[18]操作,提升了模型的訓練速度和網絡的精度,由原來的2張圖像增加到4張圖像進行拼接,并對圖像進行自適應隨機縮放、隨機裁剪和隨機排列。YOLOv5在選定錨框比時采用的是自適應錨框計算,YOLOv3 和YOLOv4都是先采用聚類算法在數據集中進行預先訓練,選好9個錨框的寬高,而YOLOv5將此功能嵌入代碼中,每次訓練時自適應地計算不同訓練集中的最佳錨框值;Backbone 是在不同圖像細粒度上聚合并形成圖像特征的卷積神經網絡,主要包括Conv2d卷積神經網絡模塊、C3網絡、SPPF模塊等,其中C3網絡是由YOLOv4中的BottlenectCSP改進而來的。Neck是一系列混合圖像特征的網絡層,它將圖像特征傳遞到預測層,YOLOv5 的Neck 中也用到了CSP(Cross Stage Partial)結構,能夠更好地與前面網絡提取的特征進行融合,主要采用特征金字塔(Feature Pyramid Network,FPN)和路徑聚合網絡(Path" Aggregation Network,PAN)進行上采樣和下采樣,從而有效地檢測多尺度目標。Head部分是預測端,負責對圖像特征進行預測,最終生成邊界框并預測類別。
2.3SimAM 注意力機制
隨著深度學習技術的不斷發展,注意力機制在圖像處理領域中得到了越來越廣泛的應用。為了提高神經節細胞的識別能力,在YOLOv5網絡模型中引入了注意力機制。該機制模擬人類視覺系統中的選擇性感知機制,通過計算特征向量的不同權重進行加權求和[19]。在模型的訓練過程中,對輸入圖像的特征權重進行動態調整,將注意力集中在圖像中最重要的區域,減少冗余或噪聲數據的干擾并抑制不相關的部分,提高識別結果的準確性。注意力機制一般分為空間注意力機制、通道注意力機制及像素注意力機制,但將這些注意力機制加入原始網絡后,會增加參數和內存消耗。為了克服這一局限,本文運用了SimAM[20](一種不需要向原始網絡中添加參數的注意力模塊)。SimAM在各種視覺任務的定量評估中展現了高度的靈活性和有效性。同時,現有的注意力模塊如空間注意力、通道注意力,只能沿著通道或空間維度細化特征,限制了學習跨通道和空間變化的注意力權重的靈活性。在人的大腦中,空間注意力和通道注意力是共存的,兩種注意力往往是協同工作的,共同促進視覺處理過程中的信息選擇,著名的神經科學理論表明,為了更好地實現注意力,需要評估每個神經元的重要性,某神經元與周圍神經元的區別越大,其重要性越高。因此,本文運用了統一權值的注意力模塊SimAM,通過優化能量函數來區分每個神經元的重要性,并為其分配一個唯一的權重,并且大多數算子是根據定義的能量函數的解來選擇的,有效避免了在模型結構調整方面投入過多的時間和精力。
本文分別在YOLOv5s網絡的不同位置引入SimAM 注意力機制,以進行效果對比分析。將SimAM 注意力機制加入YOLOv5s中Backbone不同位置的示意圖如圖2所示,將SimAM注意力機制加入YOLOv5s中Neck層結構示意圖如圖3所示。在圖2(a)和圖2(b)中,SimAM 注意力機制分別添加到了Backbone的SPFF模塊之前和Backbone的輸出端。在圖3的Neck層的PAN網絡中,分別在每個C3模塊之后添加了SimAM注意力機制。
3 實驗與結果分析(Experiments and analysis of results)
3.1 數據集本數據集源自上海市兒童醫院病理科,選取了203例患兒的結腸活檢樣本,包括冰凍和石蠟切片,均經過HE(Hematoxylin and Eosin staining)染色,并通過掃描轉為數字化圖像。結腸活檢病理切片的典型示例如圖4所示。
3.2 數據預處理
由上海市兒童醫院病理科的兩名病理醫生,在高倍視野下使用iViewr閱圖軟件,選擇了神經叢中的神經節細胞進行標注,高倍視野下的神經節細胞標注區域示例圖如圖5所示。隨后,在40倍鏡下,研究人員將醫生標記部位的原始數字圖像區域進行截圖提取,共截取得到947張圖片用于實驗,均為bmp格式。運用LabelImg工具將每張截取圖片上所有的標記區域框選出來,并生成了947個txt格式的標簽數據文件。每個標簽文件的每一行均表示一個神經節細胞目標,以空格進行區分,分別表示目標的類別id,歸一化處理后中心點的x 坐標、y坐標,目標框的寬度w 和高度h。
3.3 實驗設置
本文的實驗平臺為NVIDIA GeForce RTX 4060 Laptop GPU,16GB內存的Windows 11系統,Python版本為3.9,在Pycharm64 位操作系統中完成模型訓練,實驗模型選取Pytorch環境作為學習框架。實驗中的超參數都要進行多次測試選擇,圖像大小為640×640,批次大小為4,初始學習率為0.01,動量為0.937,權重衰減系數為0.001,預訓練權重使用YOLOv5s.pt,其中權重衰減系數可以用來控制模型正則化的強度,從而防止過擬合,增強了模型的泛化能力。
3.4 評價指標
為了不斷優化訓練效果,采用如下4個常用的模型評價指標進行測試,分別為精確度、召回率、mAP@0.5、mAP@0.5~0.95,其中mAP@0.5表示IoU 閾值為0.5時的平均AP值,mAP@0.5~0.95表示IoU 閾值從0.5到0.95時的平均AP值。
3.5 實驗結果分析
本實驗首先將注意力機制SimAM設置在YOLOv5s的不同網絡位置,分別將SimAM 注意力機制加入Backbone中的SPFF模塊之前、Backbone的輸出端、Neck中PAN網絡的C3模塊之后;其次針對這三個不同配置分別進行模型訓練。訓練完成之后,對神經節細胞的識別性能進行了對比評價。將SimAM注意力機制引入YOLOv5s中不同位置的性能對比如表1所示。
由表1中的數據可以看出,將SimAM 引入YOLOv5s網絡的不同部位對識別模型的性能有一定的影響,其中將SimAM放置在Neck層中PAN網絡的C3模塊之后,各評價指標的效果均為最優,其識別精確度、召回率、mAP@0.5、mAP@0.5~0.95分別達到了87.4%、84.6%、91.5%、50.9%。為了進一步驗證不同注意力機制對神經節細胞識別性能的影響,本文進行了消融實驗。在試驗中,將SE(Squeeze-and-Excitation Networks)、CBAM(Convolutional Block" Attention Module)、ECA(Efficient Channel Attention)3種注意力模塊分別加入YOLOv5s網絡的相同位置,并進行了模型訓練,引入不同注意力機制進行目標檢測的評價結果如表2所示。
由表2中數據可以看出,在YOLOv5s中融合SimAM 注意力機制后,相較于融合了其他注意力機制的目標檢測模型,在神經節細胞識別的精確度、召回率、mAP@0.5、mAP@0.5~0.95等各項指標上均展現出了明顯的優勢,證明本文方法具有較高的可行性。對于形態復雜難辨且個體細胞差別較大的神經節細胞識別任務,需要融合一種可以評估每個神經元重要性的注意力機制,即SimAM模塊。
改進YOLOv5s模型的F1分數評價曲線如圖6所示,該曲線描繪了F1分數與置信度之間的關系,是精確度和召回率的調和平均數,預測類別為神經節細胞,且達到了0.860的F1分數。改進YOLOv5s模型對冰凍切片中神經節細胞預測的示例圖如圖7所示,改進YOLOv5s模型對石蠟切片中神經節細胞預測的示例圖如圖8所示,框中代表的是可能包含神經節細胞的區域,預測置信度分數代表該框中包含神經節細胞的概率,從中可以看出大部分神經節細胞區域均被預測出來,而冰凍切片比石蠟切片中的神經節細胞識別難度更大一些,這是因為冰凍切片中的神經節細胞形態更模糊??傮w而言,本文提出的算法,即在YOLOv5s模型Neck網絡層的3個C3模塊之后融合SimAM模塊,能夠準確高效地對神經節細胞進行識別。
PyQt是一個高效的用于創建PythonGUI應用程序的工具包,相較于Qt,它提供了更高的靈活性,研究人員運用其開發了兒童先天性巨結腸輔助診斷軟件,其界面如圖9所示。在該軟件中,將本文模型嵌入其中,用于識別患兒結腸活檢切片中的神經節細胞,從而輔助病理醫生的診斷。
4 結論(Conclusion)
為了提高病理醫生診斷HD的效率,本文提出一種基于改進YOLOv5s的結腸神經節細胞檢測算法。該算法在Neck層中PAN網絡的3個C3模塊之后融合了SimAM注意力機制, 相較于原模型,能夠更加準確地對結腸神經節細胞進行識別且不會帶來額外的參數?;诖怂惴?,本文開發了一款兒童先天性巨結腸輔助診斷軟件,該軟件能夠識別神經節細胞,為病理醫生提供了可靠的診斷依據。這一成果客觀上推進了先天性巨結腸病理診斷的進程,同時能夠減輕醫生的工作量,具有重要的醫學價值和研究價值。然而,結腸活檢的冰凍切片形態復雜,識別難度大。在術中冰凍病理診斷中,醫生的診斷時間緊迫,而本文所開發的軟件對石蠟切片中神經節細胞的識別效果優于對冰凍切片中神經節細胞的識別效果,對冰凍切片中神經節細胞的識別性能有待提高。因此,本研究將收集更多的數據,結合深度學習算法進行深入研究,并與醫院病理系統相結合,融入多維度信息,包括臨床信息、影像數據等,在大量的臨床數據樣本中構建可解釋的先天性巨結腸疾病診療模型,以期更好地應用于病理實踐。
作者簡介:
李榕(1999-),女(漢族),大同,碩士生。研究領域:醫學圖像處理,醫學人工智能。
王慶煜(1990-),女(漢族),南通,主治醫師,本科。研究領域: 臨床兒科病理診斷。
趙鑫申(1999-),男(漢族),揚州,碩士生。研究領域:醫學人工智能,醫學信息學。
賈子健(1989-),男(漢族),朝陽,講師,博士。研究領域:醫學圖像處理。
吳瀅(1972-),女(漢族),如皋,主任醫師,博士。研究領域:兒童腎臟病理診斷,藥物性腎毒性機制研究。本文通信作者。