張丁軻 楊文霞 張園洲



摘? 要:針對腦部腫瘤分割任務中存在的多模態信息利用率不高,訓練樣本數據少導致分割結構精度不高的問題,提出了一種以3D U-Net模型為基礎,融合變分自編碼器(VAE)和注意力模型的分割模型VAE U-Net,實現多模態腦腫瘤MRI圖像的自動分割。所提方法在Brats2020數據集上進行實驗,在測試集上的整體腫瘤、核心腫瘤以及增強核心區的分割Dice系數分別為81.44、90.82和89.43,相較于原始的3DU-Net提高了2.03、1.05和2.38個百分點。
關鍵詞:腦腫瘤分割;深度學習;3D U-Net;變分自編碼器
中圖分類號:TP391.4 文獻標識碼:A? ? 文章編號:2096-4706(2023)13-0080-05
Multimodal Brain Tumor Segmentation Algorithm Based on Improved 3D U-Net
ZHANG Dingke, YANG Wenxia, ZHANG Yuanzhou
(Wuhan University of Technology, Wuhan? 430070, China)
Abstract: Aiming at the problems of low utilization of multimodal information and low accuracy of segmentation structure due to small training sample data in brain tumor segmentation tasks, a segmentation model VAE U-Net based on 3D U-Net model with fusion of Variational AutoEncoder (VAE) and Attention Model is proposed to realize automatic segmentation of multimodal brain tumor MRI images. The proposed method is experimented on the Brats 2020 dataset, and the segmentation Dice coefficients of the whole tumor, core tumor and enhanced core region on the test set are 81.44, 90.82 and 89.43, respectively, which improved by 2.03, 1.05 and 2.38 percentage points compared with the original 3D U-Net.
Keywords: brain tumor segmentation; Deep Learning; 3D U-Net; VAE
0? 引? 言
隨著醫學成像技術的發展,核磁共振成像技術(Magnetic Resonance Imaging, MRI)已經成為輔助診療的重要手段。現代醫學MR圖像通常是由多張二維圖像切片堆疊而成的三維圖像,相較于日常所見的平面圖像包含了更多生物組織信息。利用人工手段從三維圖像中分割出目標區域是一項費時費力的工作,因此采用自動化的技術對三維醫學圖像進行分割是一個重要研究課題。
1? 相關研究
近年來,國內外學者針對不同類型的醫學圖像分割任務做了大量研究。傳統分割算法多采用閾值分割[1],聚類分析[2],機器學習[3]等技術。雖然這些方法取得了良好的分割結果,但他們通常只有少量的參數,不足以捕捉到生物組織復雜的結構特征。
隨著深度學習技術在計算機視覺領域的廣泛應用,卷積神經網絡(Convolutional Neural Network, CNN)在醫學圖像分割領域獲得空前的成功。Ronneberger[4]提出的U-Net在下采樣與上采樣過程中添加了跳連接,并采用加權交叉熵損失,實現對醫學細胞顯微圖像的精準的分割。在Abdulkadir[5]的研究中,實現了通過標注的二維切片對三維圖像進行分割,他們同時證明切片數量越多,分割結果越精確。Milletari[6]提出了一種完整的三維圖像分割算法V-Net,融合了殘差網絡結構[7],并采用改進的Dice系數作為損失函數對前列腺MRI體積圖像進行分割。
然而,在醫學圖像分割領域中,腦部膠質腫瘤的分割任務仍是一個巨大的挑戰,主要原因包括:
1)由于形成腫瘤的病理不同,腫瘤的位置與形狀特點存在較大區別;2)腦腫瘤MRI圖像包含多種成像模式,不同MR成像模式中所包含的腫瘤信息差異顯著,利用算法分割時難以綜合利用。針對以上問題,本文引入變分自編碼器(Variational AutoEncoder, VAE)[8]對編碼器進行正則化,通過注意力機制[9]融合多模態特征,提高分割的準確率。
2? 數據與方法
2.1? 數據集
本文使用的數據集來源于BRATS2020,由MICCAI(Medical Image Computing and Computer Assisted Intervention)會議[10]提供,包含369個病例樣本。每例樣本包含去除顱骨的Flair、T1、T1ce、T2模態圖像以及真實標注。四個模態尺寸均為240×240×155像素。訓練階段按照4:1劃分訓練集和測試集。提供的數據已經過組織者的預處理,圖像內所有像素間的距離已被調整為1 mm。
圖1顯示了四種MRI模式和相關的基本情況,從左至右分別為FLAIR,T1,T1ce,T2四種模態圖像切片以及真實標注(Ground Truth, GT)。
不同的成像模式下的圖像可以為分析腫瘤的不同亞區提供信息。T2和FLAIR突出顯示腫瘤周圍水腫,即整個腫瘤(Whole Tumor, WT)。T1和T1ce突出顯示不含瘤周水腫的腫瘤,是腫瘤核心(Tumor Core, TC)。T1ce中也可以觀察到腫瘤核心的高強度增強區域,稱為增強腫瘤核心(Enhancing Tumor, ET)。FLAIR可以提供關于整個腫瘤的重要信息,而T1ce可以提供關于腫瘤核心的更多信息(包括增強腫瘤ET、非增強區域Net和壞死區域(Ncr)。因此,充分利用不同模態圖像的特征,可以減少信息的不確定性,提高臨床診斷和分割精度。
2.2? 網絡結構
本文提出的多模態分割網絡結構如圖2所示。該模型基于傳統的編碼器-解碼器U型結構,對不同模態的圖像采用相同結構的編碼器提取各模態特征,并通過注意力模型(Attention Model)進行特征融合,獲取潛在特征表示,再利用解碼器將其投影至分割空間。在編碼過程中,隨著下采樣層數增加,圖像通道數量增加,分辨率逐層降低,所提取的語義特征也更為抽象。而在解碼階段,模型采用三線性插值的方式進行上采樣,減小圖像通道數量,提高圖像的分辨率,將圖像逐層恢復至與原圖一致的大小。與U-Net結構類似,編碼過程獲得的特征圖通過跳連接與解碼器相連接,避免由于在編碼過程中由于分辨率降低造成的不可逆信息損失,從而實現像素級別的分割。此外,為使模型能夠學習到各模態之間互補的特征,本文引入空間和通道注意力模塊進行特征融合,并利用變分自編碼分支重構原圖像以規范化編碼器,使得融合特征能準確有效的表征原始圖像。
2.2.1? 變分自編碼網絡分支
隨著編碼層數增加,原始圖像的語義特征逐漸丟失,編碼器可能無法準確學習到目標區域的圖像特征,導致解碼器獲取分割結果時會產生較大的誤差。為降低編碼過程中的信息損失,本文采用變分自編碼分支以重構圖像。在重構圖像的過程中,該分支不僅考慮到重構圖像與原圖的差距,并且能夠根據學習到的隱變量Z的分布,調整重構結果。重構誤差通過反向傳播到編碼器對其進行約束,促使編碼器學習到個各模態下低分辨率的語義特征。
在變分自編碼器(VAE)中編碼器用于產生輸入圖像的變分推斷,生成隱變量的變分分布P(Z);解碼器通過隱變量的概率分布生成原始數據的近似概率分布。這其中包含兩個過程:
1)隱變量Z后驗分布的近似推斷過程:qθ (z | x),即推斷網絡。
2)生成變量X′的條件分布生成過程:P (x′ | z)P(z),即生成網絡。
VAE算法引入了一個識別模型qθ (z | x),使其逼近真實的后驗分布P (z | x)。因此模型的損失函數可以寫為:
其中第一項為重構的似然估計,目的是讓重構圖像與原圖像盡可能接近。第二項是后驗分布和先驗分布的KL散度,用于衡量后驗分布與先驗分布的信息損失。假設qθ (x | z)服從于正態分布N ( μ, σ2 ),P (z)服從于標準正態分布N (0,1),第二項可化簡為 。該重構分支與分割分支共享同一個編碼器,在訓練階段,兩條分支同時訓練。
2.2.2? 注意力模型
由于不同的磁共振成像方式可以識別目標腫瘤的不同屬性,而特征融合可以從不同模態圖像中突出最重要的特征,突出與目標區域密切相關的區域。且從同一模態中,模型可以在不同的位置學習不同的內容。受注意機制[9]的啟發,我們引入了一種雙重注意融合塊,以整合模態之間的互補信息,該塊由模態注意模塊和空間注意模塊組成,其結構如圖3所示。首先將編碼得到的四個特征圖串聯為輸入特征[F1,F2,F3,F4],Ft ∈ RD×W×H。在通道注意力中,首先對四個多模態特征圖進行全局平均池化得到一個四維向量 然后利用兩個全連接層對通道注意權重進行編碼:,其中 ,, 表示ReLU激活函數,全連接層通過1×1×1的卷積實現。
將全連接層得到的四維向量通過Sigmoid激活作為通道的注意力權重 ,對每個模態的特征圖進行加權求和即為通道注意力特征。
在空間注意力模塊中,將多模態特征視為:i ∈ 1, 2, …, D,j ∈ 1, 2, …, W,k ∈ 1, 2, …, H,對其進行卷積運算:q = WF,其中 ,。W代表每種模態在空間域內每個體素上的權重。
計算空間注意力時,先對空間域進行壓縮,得到投影張量,表示圖像空間某一點處所有通道的線性組合。再對其Sigmoid激活即獲得空間注意力權重以及空間注意力特征表示Fs
在得到通道注意力特征Fc與空間注意力特征Fs之后,便可以獲得融合特征Ff如式(2)所示:
本文提出的特征融合方法可,以直接適用于任何多模態融合問題,并促使網絡分別沿空間注意和通道注意學習更有意義的特征表示。
2.2.3? 損失函數
整體模型的損失函數主要由三部分構成,其計算如式(3)所示:
Ldice表示度量神經網絡預測所得的分割圖像與真實標簽的重疊程度,其計算如式(4)所示:
其中ppred表示解碼器輸出的預測分割結果,pdice表示腫瘤圖像的真實標簽。文獻[6]指出,使用Dice損失能夠避免樣本不均衡的情況,無需為每類樣本確定權重,就能將分割前景和分割背景區分開。對于VAE重構分支,采用KL散度作為其懲罰項,規范化重采樣的分布,使其迫近于一個標準高斯混合分布N ( 0,I ),其計算如式(5)所示:
其中N表示所有體素的個數。Lrec通過度量重構圖像與輸入圖像之間L2的距離作為VAE分支的重構損失,幫助編碼器正則化:,λ和η表示混合損失時的權重,根據訓練結果,當λ和η均取為0.1時,可以在Dice損失和VAE損失之間提供良好的平衡。