高宇飛, 馬自行, 徐 靜, 趙國樺, 石 磊
(1.鄭州大學 網絡空間安全學院, 河南 鄭州 450002;2.嵩山實驗室, 河南 鄭州 450052;3.鄭州大學 計算機與人工智能學院, 河南 鄭州 450001;4.鄭州大學第一附屬醫院, 河南 鄭州 450003)
腦膠質瘤是一種具有高發病率和高致死率的原發性腦腫瘤,對人體的健康造成極大的危害。對腦膠質瘤核磁共振圖像的分割可以幫助醫生觀察和分析腦膠質瘤的外部形態,從而進行診斷治療。近年來,隨著深度學習的發展,以U-Net[1]為主的全卷積神經網絡在醫學影像分割任務中占據主導地位。U-Net通過構建具有跳躍連接的非對稱編碼器-解碼器結構,達到了良好的醫學影像分割效果。其中,編碼器由一系列卷積層和下采樣層組成,用于提取深層次特征;解碼器將深層次特征逐步進行上采樣,另外,解碼器通過跳躍連接與編碼器不同尺寸的特征進行融合,以補充下采樣過程中帶來的空間信息丟失。此后,基于 U-Net的一系列網絡也在醫學圖像分割領域得到應用,如Res-UNet[2]、V-Net[3]等。
然而,缺乏長距離依賴關系捕捉能力使得卷積神經網絡并不能滿足工業界的分割精度要求。盡管一些工作采用了空洞卷積[4-5]來克服這一缺陷,但仍然存在局限性。近年來,Transformer[6]在計算機視覺領域取得突破性成就,開始被應用于醫學影像分割領域,如TransUNet[7]、AA-TransUNet[8]、TransBTS[9]等。TransUNet[7]首次探索了Transformer在醫學圖像分割領域的可行性,其總體架構遵循U-Net的設計,利用Transformer將來自卷積神經網絡的特征圖編碼為提取全局上下文的輸入序列。同樣,TransBTS[9]將Transformer用于編碼器末端進行全局信息建模,實現了良好的腦膠質瘤圖像分割效果。但以上方法并未考慮大尺寸特征圖下的長距離依賴關系。另外,其采用的Transformer自注意力機制耗費內存且計算量大。
為了解決自注意力機制內存和計算量消耗過大的問題,研究者們設計了不同的稀疏自注意力機制。PVT[10]通過空間減少注意力(spatial-reduction attention)降低計算量,Swin Transformer[11]則是限制在一個窗口中計算自注意力,以此降低計算量。很快,這2種方法也被應用于醫學影像分割任務中,如Swin-UNet[12]、UTNet[13]等。但是,這2種方法中自注意力機制的設計可能會丟失關鍵信息,限制自注意力機制建立長距離關系依賴的能力。最近,具有可變形注意力的Transformer[14]通過設計一種名為可變形注意力的稀疏自注意力機制來緩解這一缺陷,并取得了更好的效果。
此外,Transformer的自注意力機制缺乏局部上下文信息提取能力,為了解決上述問題,CoAtNet[15]、CMT[16]等將卷積引入Transformer模型中,增強視覺Transformer的局部性,從而獲得了更優的性能,這也驗證了CNN與Transformer混合方法的有效性。
受上述研究的啟發,本文提出一種基于CNN-Transformer混合的腦膠質瘤圖像分割方法(Med-CaDA)。不同于TransUNet、TransBTS僅僅將Transformer應用于小尺寸特征圖,本文采用了稀疏自注意力機制,并將其應用于各個尺寸特征圖中提取全局上下文信息,建立不同分辨率下局部和全局的依賴關系。此外,將卷積的瓶頸殘差模塊和可變形注意力Transformer組成串行模塊,命名為CaDA塊,該模塊既保留了卷積局部上下文提取的優勢,又借助了Transformer全局信息捕捉的能力。
圖1為Med-CaDA整體架構和CaDA塊。Med-CaDA的整體架構如圖1(a)所示,其遵循U-Net的編碼器-解碼器架構設計,由6個部分組成:嵌入層、CaDA塊、下采樣層、上采樣層、擴展層和跳躍連接。輸入為X∈RH×W×D×K,其中H、W、D和K分別表示空間分辨率的高度和寬度、切片深度和模態數量。

圖1 Med-CaDA整體架構和CaDA塊


圖2 嵌入層、擴展層、下采樣層和上采樣層示意圖
與嵌入層相對應,擴展層是一個步長為4的4×4×4卷積,負責將高維度張量還原回輸入圖像尺寸Y∈RH×W×D×N,其中N表示分割類別數量。
下采樣層和上采樣層是構建編碼器-解碼器分層架構的關鍵,如圖2(b)、2(d)所示,下采樣層采用步長為2的2×2×2卷積,逐步將特征圖編碼為尺寸更小、維度更高的深層特征。上采樣層與下采樣層對應,是一個步長為2的2×2×2反卷積,用于將深層特征圖尺寸加倍,維度減半。
卷積和自注意力機制分別擅長局部上下文信息提取和長距離依賴捕捉,兩者對于腦膠質瘤圖像分割這類密集預測任務都至關重要。因此,本文設計了由卷積的瓶頸殘差模塊和可變形注意力Transformer串行組成的CaDA塊,如圖1(b)所示,圖中BN、GELU、DWConv分別表示BatchNorm標準化、激活函數和深度可分離卷積。
(1)瓶頸殘差模塊。圖1(b)上半部分是瓶頸殘差模塊,依次由1×1×1卷積、3×3×3深度可分離卷積、1×1×1卷積構成,采用深度可分離卷積可大幅度降低計算量和參數量。另外,不同于MobileNetV2[17]中2個1×1×1卷積用于先升維后降維,本文則先降維再升維,從而在計算3×3×3卷積時進一步降低計算量。計算過程可以表述為
Zl=Bottleneck(Zl-1)+Zl-1;
(1)
Bottleneck(X)=Conv(DWConv(Conv(X)))。
(2)
式中:Conv(·)和DWConv(·)分別表示1×1×1卷積和深度可分離卷積。
(2)可變形注意力Transformer。圖1(b)下半部分顯示的是可變形注意力Transformer,由可變形注意力機制、前饋神經網絡FNN和殘差連接組成。受DAT[14]啟發,本文實現了三維數據下的可變形注意力機制,如圖3所示。可變形注意力機制的鍵值向量和值向量是在原圖上采樣特征投影得到的,這些采樣特征由查詢向量通過一個偏置學習網絡學習的采樣點經過雙線性插值得到。具體實現過程如下。

圖3 可變形注意力機制示意圖

Q=XWq;
(3)
ΔP=s·tanh(Offset(Q));
(4)
Xz=BI(X,P+ΔP);
(5)
K=XzWk;
(6)
V=XzWv;
(7)
(8)
DMHA(Z)=Concat(Z(1),Z(2),…,Z(m))Wo。
(9)

另外,前饋神經網絡(feedforward neural network,FNN)由2個全連接層和1個深度可分離卷積組成,如圖1(b)所示。將深度可分離卷積引入前饋網絡中可以為Transformer模塊增加局部性。
最終,結合可變形多頭注意力、前饋神經網絡和殘差連接,可變形注意力Transformer計算公式可以表示為
(10)
(11)
式中:DMHA(·)表示可變形多頭注意力機制;LN(·)表示LayerNorm標準化;FNN(·)表示前饋神經網絡。
本文采用BraTS2020腦膠質瘤圖像分割數據集,訓練集和驗證集分別由369個和125個3維 MRI組成,每個MRI包括4種模態:T1、T1ce、Flair和T2。需要分割的3個類別分別為整個腫瘤區域(whole tumor,WT)、腫瘤核心區域(tumor core,TC)以及活動腫瘤區域(enhance tumor,ET)。本文在訓練集上進行訓練,在驗證集上進行測試,并將驗證集上的預測標簽上傳到BraTS2020比賽官網以得到分割結果。
實驗采用的編程語言為Python 3.8,深度學習框架為Pytorch 1.7.1,使用的顯卡為2張Tesla T4,顯存一共為32 GB。實驗中,設置Med-CaDA模型不同階段預定義參數如表1所示,預定義參數包括每階段的分辨率、循環次數N、通道數C、可變形注意力的預定義參數F和s、多頭注意力機制的頭數h。在訓練過程中,沿用了TransBTS[9]的隨機裁剪、隨機鏡像翻轉和隨機強度偏移3種數據增強策略。采用Adam優化器,學習率設置為1×10-4,batchsize為4,訓練輪數為800。另外,采用余弦學習率衰減策略控制學習率大小,便于模型收斂;采用L2正則化去緩解模型過擬合問題(權重衰減設置為1×10-5)。

表1 不同階段預定義參數設置
在腦膠質瘤圖像分割實驗中采用了浮點運算次數衡量模型的復雜度。采用Dice系數和95%豪斯多夫距離2個評估指標衡量2個點集合間的相似程度,Dice系數對集合內部填充比較敏感,95%豪斯多夫距離對邊界比較敏感。可以表示為
(12)
HD(A,B)=max(h(A,B),h(B,A));
(13)
(14)
(15)
式中:|A∩B|表示A、B間交集的元素個數;|A|和|B|分別表示A和B的元素個數;h(A,B)的實際意義為計算集合B到集合A每個點距離最近的距離并排序,然后選擇距離中的最大值。
2.4.1 推理實驗
損失函數用來估量模型的預測值與真實值不一致的程度,損失函數越小,模型效果就越好。訓練過程中損失函數變化曲線如圖4所示。由圖4可知,損失值隨著訓練輪數的增加逐步減少,逐漸趨近于0,說明預測值越來越接近于真實值,模型的性能越來越好,進而說明將該模型用于BraTS2020數據集的分割是有效的。

圖4 損失函數變化曲線
另外,為了驗證所采用的可變形注意力機制的有效性,采用了幾種不同的稀疏自注意力機制并進行實驗,包括空間減少注意力[10](SRA)、窗口注意力[11](WA)以及可變形注意力(DA)。實驗結果如表2所示。由表2可知,采用可變形注意力在Dice系數指標上完全優于其他的注意力機制,在95%豪斯多夫距離指標上ET和TC的效果也優于其他注意力機制。由此表明,可變形注意力以數據依賴的方式選擇鍵值向量和值向量,更有助于建立長距離依賴關系。

表2 不同稀疏注意力機制在BraTS2020數據集中的結果
2.4.2 對比實驗
為了驗證Med-CaDA在腦膠質瘤分割的有效性,在BraTS2020腦膠質瘤圖像分割數據集上進行對比實驗。選擇了3種基于卷積的經典方法、2種基于卷積的先進方法以及2種引入Transformer的先進方法進行對比,分別為3DU-Net[18]、V-Net[3]、3D Res-UNet[19]、MMTSN[20]、MDNet[21]、TransUNet[7]及TransBTS[9],對比實驗結果如表 3所示。
由表3可以看出,Med-CaDA在ET、WT、TC 3個分割指標中,取得的Dice 系數及其平均值分別為77.87%、90.05%、82.76%和83.56%;95%豪斯多夫距離及其平均值分別為19.08、5.81、9.02及11.30 mm。與3個經典的方法相比,Med-CaDA在2個評價指標上均有顯著的提升。與2種基于卷積的先進方法和2種引入Transformer的先進方法相比,Med-CaDA在Dice系數指標上雖然只在TC上超過其他方法,但是在平均水平上會高于其他方法。同時,Med-CaDA的單個樣本和單個切片下復雜度下降了50%~90%。在95%豪斯多夫距離上雖然未達到最佳,但在平均水平上與最好的方法僅僅相差0.75 mm。所以,Med-CaDA在保證腦膠質瘤圖像分割精度的同時,大幅度提高了分割效率。

表3 不同方法的對比實驗結果
本文提出了一種基于卷積和可變形注意力的腦膠質瘤圖像分割方法,該方法繼承了卷積建模局部上下文信息的優勢,還利用了Transformer學習全局語義相關性,這種CNN-Transformer混合架構可以在沒有任何預訓練的情況下實現醫學影像的精準分割。在BraTS2020數據集上的實驗結果表明,與其他方法相比,本文提出的模型在保證分割精度的同時降低了至少50%的計算開銷,有效提升了腦膠質瘤圖像的分割效率。所以,在腦膠質瘤圖像這類醫學影像分割任務中,采取稀疏的方法降低參數量同樣可以達到良好的分割效果。