羅剛 泮思林 喬思波 龐善臣 陳濤濤 孫玲玉 董玉坤
青島大學附屬婦女兒童醫院1心臟中心,2超聲科(山東青島 266034);3中國石油大學(華東)計算機科學與技術學院(山東青島 266580)
隨著胎兒超聲心動圖技術的發展和胎兒先天性心臟?。ê喎Q先心?。┱J識程度的提升,超聲心動圖在胎兒先心病評估及干預策略的選擇中發揮重要作用。受胎位、超聲斑點噪聲及偽影等影響,超聲心動圖準確篩查胎兒先心病極具挑戰性,準確率高度依賴于醫師經驗,基層醫院普及較為困難[1]。引入深度學習技術識別超聲圖像可能更具優勢[2-5],但在胎兒超聲心動圖圖像識別中的應用研究相對缺乏[6-8]。四腔心切面可較清楚地顯示心腔形態及大小,較全面地評估胎兒心臟發育情況,是超聲診斷胎兒先心病的基本切面[9]。本研究在YOLOv4 模型[10]基礎上適當縮減模型深度,采用多級殘差混合注意力機制模塊(multistage residual hybrid attention module,MRHAM)建 立MRHAM-YOLOv4-Slim 模型,評價該模型在胎兒超聲心動圖四腔心切面定位、識別心腔結構的可行性。
1.1 研究對象選取2019年8-12月青島市婦女兒童醫院采集的2 000 張健康孕25 周胎兒的超聲心動圖標準四腔心切面圖像(JPG 格式)建立實驗數據集。標準超聲圖像由2 名具有10年以上工作經驗的超聲醫師采用Samsung WS80A 超聲診斷掃描儀獲取,數據圖像存在不同程度的偽影、斑點噪聲及模糊邊界。本研究遵循《世界醫學協會赫爾辛基宣言》原則,經醫院倫理委員會討論審核批準(批件號:QFELL-KY-2021-22)。
1.2 儀器與方法(1)建立機器學習模型:為匹配本研究胎兒超聲心動圖圖片數據集的規模,縮減YOLOv4 模型的深度,降低了模型復雜度。修改CSPDarknet53 骨干網絡:將注意力機制模塊嵌入至骨干網絡模型,以保證改良YOLOv4 模型面對小規模數據集的泛化能力。本研究引入空間金字塔池(spatial pyramid pooling,SPP)、特征圖金字塔網絡(feature pyramid network,FPN)以及路徑融合網絡(path aggregation network,PAN),擴大感受野范圍,能夠提取更具有分辨性的特征映射。本研究使用PASCAL 組織發布的Pascal VOC 2012 計算機公開數據集,包括目標分類、目標檢測及目標分割等任務。該數據集包含20 類物體,共有11 540 張圖片,其中包含27 450個被標注的檢測物體。該數據集對本研究所建立的機器學習模型在NVIDIA 2080Ti 圖形處理器(graphic processing unit,GPU)上運用Pytorch(Pytorch=1.5.0,https://pytorch.org/)進行迭代訓練,獲得了具有豐富圖像知識的預訓練權重[11]。(2)方法:在本中心采集的胎兒超聲心動圖標準四腔心切面圖像所建立的MRHAM-YOLOv4-Slim 機器模型進行圖像分類測試并與多種機器模型進行對比。采用四種評價方法,包括:召回率(recall):R=Ntp/(Ntp+Nfn),表示提取出的正確信息條數在樣本中的信息條數的比例;精確度(precision):P=Ntp/(Ntp+Nfp),表示提取正確信息的條數中實際為正確的比例,并計算平均精度(mean average precision,mAP);F1 值為精確率和召回率的調和平均數:F1=2PR/(R+P)。
2.1 建立機器學習模型本研究減少了YOLOv4機器學習模型CSPDarknet53 骨干網絡中的跨階段區域(cross stage part,CSP)模塊中的殘差映射數量,將第3、4、5 階段的CSP 模塊中的殘差映射分別從8、8、4 減少為4、4、2,模型深度減少16 層,建立YOLOv4-Slim。本研究將不同注意力機制模塊MRHAM(圖1)和卷積塊注意模塊(convolutional block attention module,CBAM)嵌入至骨干網絡模型建立相應機器學習模型。

圖1 MRHAM-YOLOv4-Slim 網絡架構Fig.1 Mrham-yolov4-slim network architecture
2.2 模型效果驗證
2.2.1 模型驗證本中心采集的超聲心動圖圖像分類測試降低YOLOv4 模型復雜度的YOLOv4-Slim在識別心腔結構準確性更具優勢,達到性能優化目的,可匹配本研究胎兒超聲心動圖圖片數據集的規模,見表1。MRHAM-YOLOv4-Slim 模型識別超聲四腔心圖像情況見圖2。

表1 不同機器模型在胎兒超聲心動圖分類測試中的比較Tab.1 Comparison of different machine models in fetal echocardiography classification test

圖2 深度學習模型識別胎兒超聲心動圖四腔心情況Fig.2 Recognition of fetal four chamber echocardiography by deep learning model
2.2.2 兩種不同注意力機制模塊模型比較本中心采集的超聲心動圖圖像分類測試證實引入注意力機制模塊MRHAM 和CBAM 后YOLOv4-Slim 性能獲得進一步提升,見表1。對實驗數據集分類測試比較結果,MRHAM-CSPDarknet53-Slim 模型準確率均顯著優于CBAM-CSPDarknet53-Slim,甚至優于MRHAM-CSPDarknet53,見表2。

表2 不同注意力機制模塊對模型骨干網絡的影響Tab.2 Influence of different attention mechanism modules on model backbone network
2.2.3 胎兒超聲心動圖圖像四腔心結構識別精度比較MRHAM-YOLOv4-Slim 在本研究采集的超聲心動圖四腔心切面圖像中識別四個心腔(左心房、右心房、左心室和右心室)的準確度分別為0.87、0.93、0.86 和0.89,相比YOLOv4、YOLOv4-Slim及CBAM-YOLOv4-Slim 明顯升高,見表3。

表3 不同機器模型間胎兒心臟四腔心識別精度的比較Tab.3 Comparison of recognition accuracy of four chamber fetal heart between different machine models
胎兒先心病類型多樣性,胎兒超聲心動圖圖像對比度低、信號丟失、斑點噪聲和偽影等問題均增加胎兒心臟檢查難度。此外,超聲醫師的經驗及胎兒在宮內的不同位置都可導致圖像的獲取缺乏一致性和可重復性。人工智能深度學習技術已被用于超聲心動圖自動識別,筆者單位也開展了相關研究[6-7,12-14],雖然只處于相對初級的階段,但具有縮短超聲醫師學習曲線,降低人為錯誤風險的應用前景。四腔心切面是產前診斷先心病的主要超聲切面,該切面能夠清晰顯示胎兒各心腔發育情況[15]。因此識別四腔心切面中胎兒心腔結構是本研究深度學習訓練模型在胎兒超聲心動圖中的研究起點。
REDMON等[16]在2015年首次提出YOLO模型,只需對輸入的圖片信息進行一次處理,就能直接預測出物體的位置和類別信息。為了提高YOLO模型的精度,尤其是對于小尺寸目標的識別精度,2018年REDMON 等[17]采用了DarkNet-53 作為新的骨干網絡用于提取輸入圖像的特征建立YOLOv3模型。該模型在骨干網絡加入特征圖金字塔方法,融合了不同尺寸的特征信息,大幅提升了YOLOv3模型小尺寸目標的檢測準確率。ALEXEY 等[10]提出了YOLOv4 模型,該模型僅使用一張1080Ti GPU或者2080Ti GPU 就能得到一個快速且精準的檢測模型,在一些大型公開數據集上表現出優秀的檢測效果。由于本研究短時間內收集的胎兒心臟超聲圖像數據較少,超聲圖像分辨率較低且噪聲多,使用原始復雜的YOLOv4 模型容易出現過擬合現象,且不能精確捕捉超聲圖像中的心腔結構,導致模型的性能下降。因此,本研究根據實驗數據集特點對YOLOv4 做出相應的改進,使模型達到最好的性能。
CSPDarknet53是YOLOv4模型的骨干網絡,它是由ALEXEY 等[10]提出的67 層深度網絡分類模型。該模型采用了卷積操作,通過調節卷積步長控制輸出特征映射的尺寸及感受野的大小。CSPDarknet53 骨干模型引入了CSP 殘差模塊和Dropblock技術,可以對卷積神經網絡進行正則化處理,提高了模型預測精度。本研究結合胎兒超聲心動圖實驗數據集需要,對減少了該骨干網絡CSP 模塊中的殘差映射的數量,縮減了網絡深度及復雜度。在實驗數據集分類驗證中,CSPDarknet53-Slim 比CSPDarknet53 更具優勢。YOLOv4-Slim 在識別心腔結構準確性優于YOLOv4,證實降低模型訓練的復雜度確實可達到性能優化。因此,本研究所采用CSPDarknet53-Slim 骨干網絡更適合胎兒超聲心動圖精細分類識別,對CSPDarknet53 骨干網絡精簡優化可實現良好的性能。
超聲心動圖圖像分辨率較低且含有大量噪音,目標檢測算法難以聚焦待檢測物體,預測的候選框可能只包含待檢測物體的某一部分,使得檢測算法的性能大幅下降。由于目標檢測與人類感知的整個過程非常類似,利用捕捉到的局部特征即能很好地理解整個視覺場景,視覺注意力機制在其中扮演著非常重要的角色。因此,WOO 等[18]融合了通道信息和空間信息,提出卷積神經網絡注意力機制模塊CBAM,并在ImageNet 數據集進行分類測試,驗證了通道信息和空間信息結合的有效性。本研究借鑒了CBAM 模塊引入MRHAM 模塊,經驗證在實驗數據集MRHAM-CSPDarknet53-Slim模型識別準確率均顯著優于CBAM-CSPDarknet53-Slim。
綜上所述,本研究建立的MRHAM-YOLOv4-Slim 模型在胎兒超聲心動圖圖像識別中展現出更佳的性能。未來研究中,團隊將在此模型基礎上設計一個胎兒心臟自動分類模型,逐步實現對室間隔完整的肺動脈閉鎖伴右心發育不良綜合征等疾病胎兒心臟發育狀況的早期預測評估,具有重要臨床價值和社會意義。