基于圖卷積網絡和有效自注意力的3D腹部器官圖像分割方法

2024-09-22 00:00:00王川李楊魏波蔣明峰

軟件工程 2024年9期

關鍵詞：深度學習;圖卷積神經網絡;注意力機制;醫學圖像分割

中圖分類號：TP399 文獻標志碼：A

0 引言（Introduction）

醫學圖像分割是將原始圖像劃分為不同的類別，然后提取感興趣區域的過程。準確的醫學圖像分割，是醫學圖像分析和臨床診斷中必不可少的前提與基礎。醫學圖像分割可以為器官形狀和大小測量提供視覺顯示，這對于疾病的早期檢測和診斷具有重要意義[1-2]。然而，受醫學圖像采集設備的影響，腹部器官和組織之間的灰度值差異接近，導致器官與周圍組織之間的界限相對模糊。此外，不同患者的器官之間存在顯著的個體差異，使得醫學圖像分割成為一項具有挑戰性的任務。為了應對這一挑戰，學者們提出了許多分割方法，包括基于閾值優化的分割方法[3]、基于機器學習的分割方法[4]和基于統計形狀模型的分割方法[5]。然而，這些方法依賴于手工特征，并且特征表達能力有限。本文針對以上問題，通過采用有效自注意力提取空間與通道的特征，利用動態圖卷積捕獲腹部器官間的動態拓撲信息，同時有效突出腹部器官的特征，解決類間相似性和類內差異性的問題。該方法在Amos22數據集上實現了3D腹部器官的精準分割，并取得了較好的結果。

1 相關工作（Relation work）

近年來，深度學習（DL）方法被廣泛用于解決醫學圖像分割問題，特別是基于卷積神經網絡（CNN）的方法，在醫學圖像分割方面取得了重大的進展。例如，全卷積網絡（FCN）[6]及其變體（例如U-Net[7]、U-Net++[8]等）在醫學圖像分割方面取得了較大的成功。此外，U形網絡結構和跳躍連接也越來越受到研究人員的關注。盡管基于CNN的方法被廣泛使用，但是由于其局部感知和共享權重偏差，所以網絡仍然受到視野有限的影響，缺乏對遠程特征相關性進行建模的能力。

近年來，許多研究試圖通過使用Transformer編碼器解決上述問題，Transformer是一種基于注意力的模型，最初用于自然語言處理任務中序列到序列的預測[9-10]。在醫學圖像分割中，CHEN等[11]首次應用Transformer改進醫學圖像的分割結果。CAO等[12]將Swin Transformer應用于編碼器和解碼器。在編碼器中，實現了從局部到全局的自關注，在解碼器中，特征圖被上采樣到與輸入分辨率相同的尺寸，實現了像素級分割。MILLETARI等[13]提出了一種基于體積、全卷積神經網絡的三維圖像分割方法，模型在前列腺MRI圖像上進行了端到端訓練，并實現了一次預測整個體積的分割。ZHOU等[14]提出了一種3D Transformer，采用3種類型的注意力機制解決CNN缺乏遠程建模能力的問題，基于局部和全局體積的自注意力集中于構建特征金字塔并提供大的感受野，跳躍注意力負責彌補編碼器和解碼器之間的差距。HATAMIZADEH等[15]將Transformer作為編碼器用于學習輸入體積的序列表示，有效地捕獲了全局多尺度信息，并將不同分辨率的解碼器特征跳躍連接到解碼器，從而得出最終的語義分割。這是首個專門為3D圖像提出的Transformer分割模型，其在多器官分割的BTCV（Multi-Atlas Labeling Beyond The Cranial Vault）挑戰賽和醫學分割十項全能數據集（MSD）上展現出了最先進的性能。

目前，腹部器官分割已成為醫學影像領域的研究熱點，然而大多數研究主要聚焦于單器官分割任務，例如對肝臟、腎臟和胰腺等單個器官的分割。由于不同患者多器官的外觀個體差異很大，因此多器官分割比單個器官分割更具挑戰性。圖卷積網絡（GCN）[16]通過將特征映射到拓撲圖的節點和邊上，能夠敏感地捕獲樣本之間的動態變化[17]，因此被廣泛應用于深度學習任務中。此外，GCN通過可學習的參數，能夠動態地調整不同區域特征的重要程度，這種機制有利于高效提取空間信息，進而提升模型在深度學習任務中的性能。因此，醫學圖像分割需要利用GCN捕獲不同分割類別之間的動態拓撲關系。

2 方法（Methods）

2.1 網絡結構

圖1展示了本文方法的網絡架構，該網絡采用了經典的“U”形結構，主要分為編碼器、解碼器和圖卷積3個部分。編碼器端主要包含兩個模塊，即卷積模塊（CNN Block）和有效自注意力模塊（ET Block），卷積模塊采用3D深度卷積提取特征，有效自注意力模塊通過使用空間自注意力和通道自注意力對空間與通道維度上的信息進行編碼，有效地學習豐富的空間通道特征表示，在每一階段的后面都采用Patch Merging進行下采樣。在網絡底部，先通過區域池化模塊（Region Pooling）將特征圖投影為圖表示，其中每個節點都代表不同的器官類型，隨后進行圖卷積運算，區域反池化模塊（Region Unpooling）將圖卷積計算后的圖表示重新投影為語義圖像表示。編碼器和解碼器之間通過跳躍連接傳遞信息，用于合并不同分辨率的輸出，旨在恢復下采樣操作期間丟失的空間信息，從而預測更精確的輸出。與編碼器類似，解碼器也包含4個階段，其中每個解碼器階段都包含一個上采樣層，使用Patch Expanding將特征圖的分辨率提高兩倍，通道數量減少至上一層的50%。因此，將最后一個解碼器的輸出與卷積特征圖進行融合，旨在恢復空間信息并增強特征表示，從而提升模型的分割性能。

3.2 實驗結果對比

表2顯示了本文方法在Amos22數據集上多器官分割結果的DSC值。為了驗證該方法的有效性，本文將其與現有醫學圖像分割方法進行比較，包括Unet[7]、TransUnet[11]、nn-Unet[18]、nnFormer[14]、UNETR[15]。表2中加粗的數據表示最好的結果，*表示本文訓練的結果，相關論文沒有提供在此數據集上的訓練結果。由表2的數據可知，應用本文方法獲得的多器官分割結果的平均DSC值優于比較的方法。具體來說，本文方法的分割結果在其中12個器官中實現了最高的DSC，包括脾、左腎、右腎、食道、肝、胃、主動脈、下腔靜脈、胰腺、十二指腸、膀胱、前列腺。與之前基于2D的方法（Unet、TransUnet）相比，本文方法在所有的分割部位都達到了最好的結果。值得注意的是，本文方法在對膽囊、右腎上腺（R）、左腎上腺（L）的分割中表現不佳，這可能是因為膽囊等器官在醫學圖像上表現的比較小，經過多次下采樣后，細節信息消失不見。然而，本文方法在綜合預測方面表現最好，這歸功于本文提出的圖卷積神經網絡捕獲了腹部器官間的動態拓撲信息及在研究中進行了有效自注意力機制長距離的建模。

圖5顯示了3個醫學圖像分割網絡和本文方法之間的直觀比較?？梢杂^察到本文的方法比其他方法取得了更好的結果。在例子1中，由于分割的器官結構比較簡單，所以本文方法與其他3種方法相比，結果差距并不是很大，只是在邊緣的細節有略微改進，但是在例子3中，由于分割器官局部復雜且分割類別較多，所以其他3種方法在胃上的分割結果均出現了細微的錯誤。同樣的現象在例子4中也可以看到，本文方法在肝臟的分割中取得了較好的結果。

為了進一步驗證本文方法的有效性，本文對分割結果進行了3D重建，分割結果3D可視化如圖6所示。在例子1中，本文方法和nnFormer都取得了比較好的結果，但TransUNet在三維空間中錯誤地分割了許多分散小點，這是因為TransUNet采用輸入2D切片的方法處理3D醫學數據集，割裂了數據集在空間上的信息。在例子2中可以明顯看出，雖然nnFormer在大多數器官分割結果上與本文的方法相似，但是在脾分割結果的三維表面上存在小坑。綜上所述，除了一些噪聲和局部細節損失，本文的分割結果非常接近真實值。

如圖7所示，在Amos22數據集下，本文方法展示了最快的收斂速度，而且隨著迭代次數的增加，依然保持最好的分割精度。

3.3 消融實驗結果

為了證明有效注意力機制（ET）、圖卷積神經網絡（GCN）和區域池化（Region Pooling）的有效性，本文通過逐步刪除以上模塊進行了詳細的測試。在不同的模塊組合設置下，獲得了本文方法的6種變體，分別表示為“Baseline”“Baseline+ET”“Baseline+GCN”“Baseline+GCN+Region Pooling”“Baseline+GCN+ET”“Baseline+GCN+ET+Region Pooling”。如表3所示，有效注意力模塊、圖卷積神經網絡和區域池化模塊在Amos22數據集上應用后，均能夠有效提升性能。本文的Baseline采用3DUnet架構，與Baseline相比，在編碼器中應用有效自注意力（Baseline+ET）在DSC上提高了0.65百分點，在HD95上降低了1.94 mm。在網絡底部中融合圖卷積（Baseline+GCN）的結果將DSC提高了1.33百分點，將HD95降低了4.84 mm。通過在Baseline中結合區域池化和圖卷積（Baseline+GCN+Region Pooling），性能比僅使用圖卷積模塊有了顯著提高。通過將圖卷積和有效自注意力（Baseline+GCN+ET）相結合，實驗結果相較于使用單個模塊有一定的提高。通過對3個模塊的有效集成，本文方法（Baseline+GCN+ET+Region Pooling）獲得了最好的結果，消融實驗有力地證明了該方法融合各模塊的有效性。

4 結論（Conclusion）

本文提出了一種新穎的3D醫學圖像分割網絡模型，整體結構是在“U”形網絡的基礎上融合了圖卷積神經網絡和有效自注意力機制。有效自注意力機制在提供更大的感受野的同時，降低了一部分參數量，有效自注意力機制主要分為空間自注意力和通道自注意力，空間自注意力學習空間變換的區域特征，通道自注意力學習通道特征圖之間的相互依賴關系。在編碼器的底部采用區域池化提取高級語義特征，將高級圖像表示投影為圖表示。通過圖卷積神經網絡充分捕獲腹部器官間的動態拓撲信息，同時有效突出腹部器官的特征。在上采樣過程中，通過跳躍連接獲取編碼器的信息，以恢復圖像至原始大小。實驗結果表明，相較于以前基于2D切片的醫學圖像分割方法，本文方法在Amos22數據集上的表現有著較大的改進。

作者簡介：

王川（1998-），男，碩士生。研究領域：醫學圖像處理，人工智能。

李楊（1986-），男，博士，副教授。研究領域：醫學圖像處理，深度學習。

魏波（1983-），男，博士，副教授。研究領域：優化算法理論，人工智能。

蔣明峰（1977-），男，博士，教授。研究領域：深度學習與優化方法，計算機圖像處理。

軟件工程2024年9期

軟件工程的其它文章: 基于對抗訓練和片段級別的雙向情感三元組抽取模型; 放牧策略對土壤與植被的影響及土壤濕度預測研究; 基于連續小波變換和殘差神經網絡的房顫預測研究; 花式紗線條干檢測的視覺傳感器標定方法研究; 二分圖中高效計算top-n maximal α-biclique的方法研究; 關于脈搏波諧波產生機理、分布特性及相關心率檢測方法的研究