具有雙向增強特征結構的U型肺結節分割網絡

2022-12-22 11:47:24郭曉敏

計算機工程與應用 2022年24期

關鍵詞：特征

黃新，郭曉敏

1.桂林電子科技大學電子工程與自動化學院，廣西桂林 541004

2.廣西自動檢測技術與儀器重點實驗室，廣西桂林 541004

近年來，肺癌的發病率和死亡率逐年攀升，其起病急、早期不易發現，五年內生存率較低，嚴重威脅人們的健康和生命[1]。肺癌已成為全球發病率和死亡率最高的癌癥之一，其早期的表現形式是肺組織中出現肺結節。肺結節形成的原因是肺實質中不規則且不可控的細胞生長，在CT影像上大多表現為直徑不超過30 mm的肺內類圓形陰影[2]。在病程早期發現并準確分割出肺結節可以大大提高患者的生存機會，并促進有效的臨床治療。然而，早期肺結節通常體積小，邊緣模糊、肉眼不易分辨，容易影響醫生的診斷。

為提高CT影像中肺結節分割的準確性，輔助醫生進行肺結節良惡性的診斷，國內外許多科研工作者致力于應用計算機輔助診斷技術（computer aided diag‐nosis and detection，CAD）實現肺結節的有效分割[3-7]。Dehmeshki等[8]提出一種區域生長的方法分割肺結節，通過對肺結節的強度、模糊連通性和外圍對比度等進行操作，實現肺結節的自適應分割。Diciotti等[9]提出一種自動校正的肺結節分割方法，通過固定的圖像閾值得到初始粗分割，然后對初始分割的局部形狀進行分析，以解決肺內近血管結節的分割問題。馮寶等[10]通過活動輪廓模型，實現了實性肺結節的分割。上述幾種方法雖然可以較好地分割肺結節，但都是在先驗知識的輔助下完成的，不同分割初始條件會不同程度地干擾最終的分割結果。因此需要設計一種新的分割方法，讓機器能夠自適應地學習和提取圖像特征，從而消除人為干擾，使最終的分割結果更加客觀。

當前，神經網絡（neural networks，NNs）已經成為計算機視覺領域的主流框架。神經網絡通過模仿人腦的結構，能夠利用大數據自動完成對特定事物的學習。Kumar等[11]利用卷積神經網絡（convolutional neural networks，CNN），通過從自動編碼器中提取深層特征實現了肺結節的良惡性分類；Wang等[12]提出多視點卷積神經網絡（multi-view convolutional neural networks，MV-CNN），實現了肺結節的分割和檢測。在圖像分割領域的研究中，Long等[13]提出了全卷積神經網絡（fully convolutional networks，FCN），該網絡針對CNN在圖像精細分割中的局限性，用卷積層替換CNN中的全連接層，來獲取圖像中各像素的分類結果，從而實現圖像的分割。Ronneberger等[14]提出U-Net網絡，該網絡采用編碼器-解碼器的U型結構提取圖像特征，可以應對小樣本數據集進行較快、有效地分割，因此廣泛應用于醫學圖像分割領域。但臨床中常見的肺結節類型多樣，且大都具有邊緣模糊的特點，因此僅僅采用原始U-Net網絡進行訓練，存在特征利用率低、對小目標分割性能差等問題，導致最終的分割效果不夠理想。

本文針對原始U-Net網絡在圖像分割中存在的不足，在其基礎上設計提出了一種Bi EFP-UNet網絡的肺結節分割網絡。為了適應肺結節的分割，該網絡將一個雙向增強型特征融合結構引入原始U-Net網絡，以加強對肺結節不同尺度特征的傳遞和利用，提高網絡對小結節分割的敏感度，并通過引入Mish激活函數提高分割的精度。本文利用公開的且具有醫生權威標注的LUNA16[15]（lung nodule analysis 16）肺結節數據集對本文網絡進行檢驗，結果表明Bi EFP-UNet網絡能夠顯著提高CT影像中肺結節分割的效率和準確率。

1 Bi EFP-UNet網絡

本文提出的Bi EFP-UNet網絡結構如圖1所示。其設計靈感來源于原始U-Net網絡的編碼器、解碼器結構。首先，Bi EFP-UNet網絡的主干網絡結合雙向增強型特征融合網絡，集成肺結節多尺度特征融合，以實現肺結節有效的特征提取。其次，將Mish激活函數（一種非單調且平滑的神經網絡激活函數）應用于Bi EFP-Unet網絡的3×3卷積操作之后，Mish激活函數可以大大縮短GPU前向和后向的傳遞時間，進而提高網絡的分割效率。

圖1 Bi EFP-UNet網絡Fig.1 Network of Bi EFP-UNet

1.1 U-Net主干網絡

U-Net是一種針對小樣本數據集的快速分割網絡，在生物醫學圖像分割領域表現良好[16]。醫學圖像是人體某個器官的成像，其結構固定且語義信息較簡單，所以在分割任務中，其高級語義信息和低級特征都很重要，而U-Net網絡的U型結構和跳躍連接能夠結合低層和高層信息。本文提出的網絡結構通過改進原始U-Net網絡架構實現，以像素為512×512的圖像作為輸入，輸出相同像素的掩模圖像。該網絡由壓縮路徑和擴展路徑兩部分構成，壓縮路徑深度為5，采用2×2的最大池化操作實現。壓縮部分對圖像進行兩次3×3卷積，卷積后緊跟一個Mish激活函數，并通過填充操作保持卷積前后圖像像素不變，每次壓縮會使特征通道數增加一倍。擴展路徑是對特征圖進行上采樣的過程，2×2的卷積（上卷積）操作將每個深度上的特征通道數減半，擴展路徑的深度也為5。在擴展路徑中，每次上卷積操作前，首先要將上采樣的特征向量與特征融合網絡中對應的特征向量進行拼接，然后執行兩次3×3卷積，同時通過填充操作保持卷積前后圖像像素不變，每次卷積后緊跟Mish激活函數。網絡的最后一層采用1×1卷積，最終得到與輸入圖像對應的掩膜（Mask）圖像。

為保證輸出圖像和輸入圖像的像素大小一致，如圖2所示，在U-Net主干網絡的上采樣過程中，用邊緣填充操作（Padding）代替原始U-Net主干網絡中的裁剪（Crop）操作，這樣不僅可以使網絡輸出圖像的像素大小與輸入圖像保持一致，而且可以將每次下采樣之前的特征信息完整的和上采樣之后的特征圖進行融合，并且不會在融合過程中引入多余的計算量。Bi EFP-UNet網絡各層和相應的網絡參數如表1所示。

表1 Bi EFP-UNet網絡各層和相應的網絡參數Table 1 Layers and respective network parametersof Bi EFP-UNet model

圖2 改進主干網絡的上采樣過程Fig.2 Upsampling process of improved backbone network

1.2 雙向增強型特征金字塔網絡

雙向增強型特征金字塔網絡（bidirectional enhancedfeature pyramid network，Bi EFPN）的設計靈感來自于PANet網絡，如圖3所示。

圖3 PANet網絡Fig.3 PANet

PANet是Liu等[17]提出的一種實例分割框架下的路徑聚合網絡（path aggregation network，PANet），也是第一個提出“自底向上二次融合”思想的網絡框架。通常，高層特征主要包含目標較豐富的語義信息，低層特征主要包含目標準確的位置信息。PANet通過自底向上的路徑增強，將目標準確的低層信息與高層信息進行融合，從而縮短信息傳遞的距離。

本文提出的雙向增強型特征金字塔網絡如圖4所示，與PANet一樣，Bi EFPN也具有一條自上而下和一條自下而上的路徑，從而允許特征網絡中從一個深度到另一個深度的雙向信息流。Bi EFPN包含了5個不同深度的特征提取路徑（P3~P7），其中，P3、P7所在路徑的結點只有一條輸入邊和一條輸出邊，P3連接的是U-Net經過四次下采樣后的低分辨率信息，P7連接的是從U-Net編碼器直接傳遞到同一深度解碼器的高分辨率信息。由于醫學圖像的數據一般較少，因此深層信息變得很重要，為獲得更多的深層特征，避免原始U-Net網絡多次下采樣帶來的信息丟失，在原有PANet的基礎上，Bi EFPN在P3所在路徑中添加一條跨尺度連接的邊。同時，為增強肺結節在不同層次的特征提取，將P4、P5、P6所在路徑也各添加一條跨尺度連接的邊，以增加不同分辨率下的特征提取，豐富網絡每個深度的特征，從而將主干網絡不同深度的特征進行有效的融合。

圖4 雙向增強型特征金字塔網絡Fig.4 Bidirectional enhanced feature pyramid network（Bi EFPN）

雖然Bi EFPN相較PANet會引入一些額外的計算量，但卻可以融合更多的特征，獲得更好的分割效果。Bi EFPN與PANet各層和相應的網絡參數如表2所示。

表2 Bi EFPN與PANet各層和相應的網絡參數Table 2 Layers and respective network parameters of Bi EFPN and PANet

在原始U-Net網絡中，通常每層提取到的特征只能被學習一次，并且不同層級的特征間缺乏聯系，使得網絡整體對于肺結節圖像的特征提取能力較低，小目標肺結節在下采樣過程中容易丟失，導致最終分割的準確度不夠理想。因此，進行多尺度特征融合就顯得尤為重要，其目的是融合不同分辨率下的特征，以獲得有效的特征提取。如圖1所示，U-Net的編碼器獲取CT圖像，并在五個相應的深度輸出特征，這五個深度分別對應特征融合網絡的五個輸入（P3~P7）。特征網絡的輸出則分別與U-Net的解碼器相連接。

通過雙向跨尺度連接，可以充分利用和提取肺結節的低層特征，更好地將低層細粒度特征與高層語義特征相融合，豐富特征向量，增強整個特征層次，提高主干網絡對各層次特征的利用率，使網絡對小結節也能進行有效地特征提取，從而解決肺結節分割過程中小目標結節丟失的問題。

1.3 Mish激活函數

激活函數是神經網絡引入“非線性”的途徑，對網絡的訓練和評價有重要作用。神經網絡中常用的激活函數有Sigmod函數、Tanh函數、ReLU函數、Swish函數等[18]。2019年，Misra[19]介紹了一種新的深度學習激活函數——Mish激活函數（如圖5所示），該函數是一個非單調且光滑、連續的神經網絡激活函數，其函數表達式如（1）所示。其在CIFAR-10[20]數據集上最終獲得的準確度比ReLU更高。本文Bi EFP-Unet網絡實現了Mish激活函數。

圖5 Mish函數圖像Fig.5 Mish function image

首先，Mish函數使用了自門控特性，即非調制輸入函數和非線性輸入函數的輸出相乘。其次，Mish函數保留了少量的負向信息，可以允許較小的負梯度流入，從而保證信息流動，消除了ReLU函數在反向傳播過程中的梯度消失問題。第三，Mish函數上方無邊界，可以避免飽和，同時下方有邊界又會使其產生強正則化效果。第四，Mish函數保證了每一點的平滑，從而使其梯度下降效果比ReLU函數更好。

Mish激活函數實現了自選通功能，其提供給門的輸入是標量。自選通特性有助于替換激活函數，因此本文算法用Mish代替傳統U-Net網絡3×3卷積后的ReLU函數時，不需要修改網絡參數。啟用CUDA時，Mish可以縮短GPU正反向傳遞的時間，有效地提高了模型的訓練效率。

2 實驗與分析

2.1 數據準備

2.1.1 數據集

本文實驗數據來自公開數據集LIDC-IDRI[21]（lung image database consortium）的子集——LUNA16數據集，該數據集刪除了LIDC-IDRI中切片厚度大于3 mm和肺結節小于3 mm的CT掃描圖像，將剩余的888例肺部CT圖像（.mhd格式）作為數據集，該數據集中共有1 186個結節，直徑范圍在3 mm~28 mm。CT圖像的像素是512×512像素，平均層厚為1.3 mm。訓練數據集、驗證數據集和測試數據集分別占總數據量的70%、20%、10%。

2.1.2 數據預處理

本文提取肺結節的Mask圖像作為模型輸入，預處理過程如圖6所示：

圖6 數據預處理過程Fig.6 Data preprocessing

（1）從磁盤中加載數據。

（2）統一相鄰像素間距：LUNA16數據集具有可變性，數據集中不同的CT病例的切片尺寸不一定相同，因此在預處理階段首先要統一數據集中的CT病例的相鄰像素間距，增強數據間的各向同性。

（3）裁剪CT圖像中心部分并將其放大。

（4）歸一化處理，獲得CT影像對應掩膜圖像。

2.1.3 數據增強

醫學圖像分割受到大量標記訓練數據的限制，數據擴充有助于創建多樣化的訓練數據集，從而防止模型過度擬合，提高網絡對訓練集之外的數據的泛化能力。與深度學習的其他應用領域相比，生物醫學領域帶有標注的數據集相對較少。因此，數據擴充對于提升神經網絡的魯棒性至關重要。

本文對輸入圖像進行隨機增加椒鹽噪聲、彈性形變、隨機剪切、縮放和旋轉等操作并進行數據擴充。同時，保持輸入圖像的大小不發生變化。通過在訓練期間將這些小變換應用于肺部CT圖像，有利于提高模型的魯棒性。

2.2 實驗環境

Bi EFP-UNet網絡搭建的環境為Python3.6，Tensorflow深度學習框架，Windows 10操作系統，NVIDIA Quadro RTX 4000GPU，處理器Intel?Core?i7-9700 CPU@3.00 GHz×8，內存32 GB。

2.3 評價標準

為了對分割效果進行評估，本文采用的評價指標是Dice相似系數[22]（Dice similarity coefficient，DSC），DSC是一種集合相似度度量指標，用于計算兩個樣本的相似度，是醫學圖像中較為客觀的分割評價量化標準。取值范圍為0~1。DSC的計算公式如式（2）所示：

除此之外，敏感度（sensitivity，SEN）和陽性預測值（positive predictive value，PPV）也被用作分割的輔助評價標準。敏感度指樣本被正確診斷為陽性的概率，該值越大，漏診率越低。陽性預測值指分割結果為陽性的樣本屬于真實病例的概率。SEN和PPV的計算公式如式（3）、（4）所示：

其中，S代表分割結果，T為真實標簽。

2.4 訓練細節

訓練時，Bi EFP-UNet以經過預處理后的10張連續CT圖像作為一組輸入數據，使用MSRA[23]方法隨機初始化權值，采用Adam優化器進行優化，采用10折交叉驗證策略來評估該方法的性能，在訓練和測試數據集中維持相近的數據分布情況，以避免由于數據不均衡而導致過分割和欠分割。

2.4.1 環境配置及相關訓練參數設置

Bi EFP-Unet在Python3.6環境中，基于Tensorflowgpu2.1.0深度學習框架進行訓練，并在訓練時使用CUDA 10.1進行加速訓練。在標準反向傳播更新中，初始學習率設置為0.000 1，每完成1個Epoch衰減5%，將批量大小（batch size）設為2，動量（momentum）設為0.9。

2.4.2 訓練迭代次數的選擇

訓練迭代次數對訓練深度學習網絡模型非常重要，因此，在訓練時通過觀察訓練集和驗證集曲線的變化趨勢確定訓練迭代次數，若訓練過程中模型的性能沒有進一步提高，那么模型訓練將在額外的10個訓練世代后自動停止。

如圖7所示，當Epoch=50時，網絡在驗證集上的Dice相似系數值（DSC）和損失函數（Loss）曲線的變化趨于穩定，因此，將訓練迭代次數設置為50次。此外，為了讓網絡得到充分的訓練，將每個Epoch的Step設置為500。

圖7 網絡訓練和驗證曲線Fig.7 Network training and verification curves

2.5 實驗結果及分析

為驗證本文方法各部分的有效性，本文實現了U-Net（ReLU）（即原始U-Net）、U-Net（Mish）、Encoder（ReLU）+PANet（即原始U-Net網絡的編碼器結構＋PANet）、Encoder（ReLU）+Bi-EFPN（即原始U-Net網絡的編碼器結構+Bi-EFPN）、U-Net（ReLU）+PANet，以及Bi EFP-UNet（ReLU）（即本文提出的Bi EFP-UNet）七種網絡架構的搭建。LUNA16數據集在上述網絡架構下訓練的曲線如圖8所示。訓練的DSC、SEN、PPV結果如表3所示。

圖8 七種網絡訓練的DSC曲線Fig.8 DSC curves of seven networks training

在表3中，為驗證Bi-EFPN結構的有效性，進行了一系列對比實驗。一方面，“Encoder（ReLU）+Bi-EFPN”的DSC達到了84.72%，與原始U-Net相比，DSC提升了近2.86個百分點，與“Encoder（ReLU）+PANet”相比，DSC提升了0.8個百分點；另一方面，“Bi EFP-UNet（ReLU）”的DSC達到了87.11%，與原始U-Net相比，DSC提升了5.25個百分點，與“U-Net（ReLU）+PANet”相比，DSC提升了0.9個百分點。因此可以推斷，在原始U-Net網絡壓縮路徑和擴展路徑之間加入Bi-EFPN是有效的，并且，Bi-EFPN相較PANet性能更好。

表3 七種網絡的訓練結果Table 3 Evaluation indexes of seven networks單位：%

同理，為驗證Mish激活函數的有效性，本文對比了“U-Net（Mish）”與原始U-Net、“Bi EFP-UNet（Mish）”與“Bi EFP-UNet（ReLU）”兩組實驗的DSC，由表3中的數據可見，Mish激活函數帶來的提升為1.21個百分點。由此可見，Mish激活函數在Bi EFP-UNet網絡中是有效的。

已知進行LUNA16數據標注的4名放射科醫生的DSC為82.25%，而本算法訓練的DSC可達88.32%，可見，Bi EFP-Unet網絡在LUNA16數據集上的分割效果明顯優于4名醫生最終標注的效果。

2.6 實驗結果展示

如圖9所示，為了能直觀地觀察2.5節中提到的七種網絡的分割效果，隨機選取了測試集中的四張CT圖像進行展示，并給出七種網絡下的測試結果。

圖9 七種網絡架構的分割效果對比Fig.9 Segmentation effects of seven networks

輸出圖像與輸入圖像的像素大小一致，輸出圖像的黑色部分表示非結節部分，白色部分表示分割出的肺結節的形狀和位置。為突出不同算法的分割效果，在各輸出圖像下方的紅色框內展示了放大6倍后的肺結節的分割圖像，像素大小為64×64。可見，原始U-Net網絡對肺結節的分割性能較差，尤其當肺結節較小或靠近血管等肺組織時，分割結果容易攜帶其他肺組織，與金標準差距較大；U-Net（ReLU）+PANet網絡的分割效果雖然優于原始U-Net網絡，但分割出的肺結節邊緣模糊；而Bi EFP-UNet網絡能很好地分割出結節的形狀和位置，尤其是在分割近血管結節時或者微小結節時，相較其他幾種網絡，該網絡依然能保持良好的分割性能，分割效果與金標準更接近。

3 結束語

針對目前肺結節分割中小結節容易丟失的問題，提出了 Bi EFP-UNet網絡結構。在 U-Net的上采樣過程中，用邊緣填充操作代替裁剪操作，在不增加計算量的同時將每次下采樣之前的特征信息完整的和上采樣之后的特征圖融合，保持輸出圖像與輸入圖像的像素一致；將雙向增強型特征融合結構引入原始U-Net網絡，在網絡訓練過程中加強不同層級特征之間的聯系，提高U-Net 主干結構對肺結節各層次的特征的利用率；將Mish激活函數引入Bi EFP-UNet網絡，減少網絡訓練過程中信息傳遞的時間，提高網絡的分割效率。本文工作是持續性的，今后的研究重點將放在利用相鄰肺部切片中肺結節的像素聯系提高分割的性能。