王 磐,強 彥,楊曉棠,侯騰璇
(1.太原理工大學信息與計算機學院,山西晉中 030600;2.山西省腫瘤醫院放射科,太原 030000)
肺結節作為肺癌早期診斷的重要依據,對其邊緣精準分割顯得格外重要。隨著計算機斷層掃描(Computed Tomography,CT)數據呈現出指數型增長的趨勢,影像科醫師面臨著越來越繁重的CT圖像審閱工作,即使醫師能夠快速準確地標記出結節所處的位置以及邊界,但在長時間高強度的工作過程中難免會出現誤診漏診。因此,急需一種新興技術輔助醫生診斷,而計算機輔助診斷(Computer Aided Diagnosis,CAD)[1-3]的出現給影像學帶來了希望。輔助診斷技術的日趨成熟不僅能減少醫生工作量,而且能夠提高標記結節的準確率和效率。然而,由于肺部CT圖像中結節的大小、形狀以及其他臨床特征(如鈣化征、分葉征、毛刺征等)都存在明顯差異,導致目前的一些分割方法的肺結節檢出率低,耗時長。因此,構建一種高效的肺結節分割模型成為一個難點。
本文構建一種基于深度神經網絡的肺結節分割模型以提高肺結節的檢出率,減少肺結節檢測時間,同時將雙注意力模塊融入深度神經網絡,以優化小尺寸肺結節,進而提高多類型肺結節的分割精度。
近年來,深度學習的廣泛使用使得研究人員開始利用神經網絡提取肺結節的深層特征,從而對結節進行自動診斷,代替使用手工特征和描述符[4]的傳統肺結節分割方法。文獻[5]通過調整對比度以增強CT圖像中肺結節部分,然后根據經驗設定閾值與形態學操作的參數對圖像進行預處理,最后利用簡單的區域增長算法分割肺結節。文獻[6]首先使用2D深度神經網絡對肺部CT圖像進行粗分割,然后利用概率圖模型(馬爾科夫模型)對粗分割結果進行優化以得到精確的分割結果。文獻[7]提出一種多視圖2.5D卷積神經網絡用于肺結節的分割,該網絡由3個CNN分支組成,分別從一組結節的軸向視圖、冠狀視圖和矢狀視圖中捕獲敏感性特征,每個分支包括7個堆疊層,并以多尺度結節斑塊為輸入。3個CNN分支與1個全連接層相連,以預測斑塊中心體素是否屬于結節。文獻[8]使用結節尺寸作為最主要的診斷標準,利用Mask R-CNN對肺結節進行分割進而得到輪廓信息。文獻[9]提出將FCM算法作為基礎,同時應用小波變換對CT圖像展開分解,之后將分解后的低頻圖的像素點作為FCM算法的基礎點,最后采用馬氏距離進一步修正得到分割結果。但是上述方法均存在以下問題:
1)結節具有復雜的形狀和高度異變性紋理,2D低層次描述符無法捕獲辨識性特征。僅使用2D卷積神經網絡提取的特征無法映射為高質量的分割特征圖,從而影響網絡訓練的效率。CT圖像本質上是三維數據,因此聯系空間上下文信息對肺結節分割起著重要的作用。文獻[6-7]分別使用2D、2.5D神經網絡分割肺結節,但是單張的2D肺部CT圖像不具備有效區分微小結節和血管剖面的能力,都沒有充分利用肺結節的空間特征,導致分割精度較低。文獻[8]利用結節的尺寸作為主要特征分割肺結節,但是卻忽視了結節異變性的紋理特征和形狀特征,進而無法對奇異性結節完整分割。
2)在相對小目標的分割問題中,建立局部特征與全局特征的相關性有助于提高特征表示,進而提高分割的精度。文獻[6]雖然在分割網絡的后端利用概率圖模型提高分割精度,但是概率圖模型只有得到較好的先驗概率函數時,才能更精準地計算后驗概率以優化第一階段的分割結果,該方法無法自適應地根據結節的空間特征去分割。文獻[5,9]分別使用傳統的區域增長算法和FCM算法作為分割方法的主框架,但都沒有充分考慮肺結節局部特征與全局特征的相關性和依賴性,以至于對具有非規則形狀特征的肺結節造成欠分割。
針對上述問題,本文提出基于3D-UNet網絡的雙注意力機制肺結節分割方法。UNet網絡在醫學圖像分割領域有優秀的表現,為適應肺結節的分割,本文將原始的2D-UNet網絡擴展為3D網絡以捕獲結節空間信息,并引入雙注意力機制使網絡的重點集中到關鍵特征區域以提高對小尺寸結節的分割精度。
本文提出的DA 3D-UNet網絡結構如圖1所示。首先,在3D-UNet網絡的主框架中,本文使用最新提出的DUpsampling結構替代解碼層路徑中的傳統上采樣方法,恢復編碼路徑中結節的細節特征,提高結節特征圖質量,加快網絡收斂速度。其次,將雙注意力模塊,即空間注意力模塊和通道注意力模塊,應用于3D-UNet網絡倒數第二層的特征圖以捕獲局部特征與全局特征的相關性及依賴關系,將網絡注意力集中到病灶區域,進而提高分割精度。

圖1 網絡整體框架Fig.1 Network overall framework
DUpsampling結構是2019年TIAN[10]等人提出的一種基于數據相關性的新型上采樣結構。上采樣結構通常存在于分割網絡的解碼層中,其作用是將特征圖恢復至原始圖像的大小?;陔p線性插值和最近鄰插值的上采樣操作雖然在一定程度上能夠對卷積層提取的特征進行捕獲和恢復,但是其過程沒有考慮每個被預測像素之間的相關性,這種弱數據依賴的卷積解碼器無法產生相對較高質量的特征圖。本文將基于數據相關性的DUpsampling結構加入3D-UNet[11]網絡重構編碼路徑[12]提取到的特征,使得到的特征圖有更好的表達能力。在上采樣的過程中,通過最小化特征圖的像素點與被壓縮標簽圖像之間的損失從而得到最“正確”的輸出,具有很強的重建能力。DUpsampling的結構如圖2所示。

圖2 DUpsampling結構Fig.2 Architecture of DUpsampling
在圖2中,F∈?h×w×c表示CT圖像經過編碼輸出的特征圖,h、w、c分別表示特征圖的高度、寬度以及通道數,R表示經DUpsampling結構2倍上采樣后得到的特征圖,W是DUpsampling結構中對像素向量進行線性壓縮的矩陣。令特征圖F的每個像素為向量x∈?1×c,然后讓向量x與W∈?c×n進行矩陣相乘,得到向量v∈?1×n,再將向量v重組為2×2×N/4,經過重排后就相當于對原始的每個像素進行2倍的上采樣,如式(1)所示:

其中,矩陣P是矩陣W的反變換,x~ 是人工標注的肺結節分割區域經過PCA方法降維之后得到的向量,神經網絡以隨機梯度下降法作為優化器最小化訓練集上的x~ 和x之間的重建誤差,來找到最優的特征圖重構矩陣P和W,如式(2)所示:

傳統的分割網絡僅在最后的Softmax層計算預測結果與標簽圖像之間的損失,再通過反向傳播更新權重優化網絡。但DUpsampling結構在上采樣部分就提前計算特征圖與被壓縮標簽之間的損失,再通過網絡整體的反向傳播使解碼層中低分辨率的特征圖融入高層次語義特征,進而提高特征圖的質量以便雙注意模塊挖掘空間信息與通道信息。
在雙注意力模塊中,本文首先使用不同膨脹率的空洞卷積操作[13]來捕獲不同尺度的特征圖信息,將包含多個尺度的結果特征圖進行融合,對融合結果使用空間注意力模塊和通道注意力模塊??臻g注意模塊根據所有位置特征的加權和選擇性地聚集每個位置的特征,使相似的特征相互關聯。同時,通道注意力模塊通過整合所有通道圖之間的關聯特征,選擇性地強調相互依賴的通道特征圖。最后將兩個注意模塊的輸出相加,以進一步提高特征表示,進而有助于提高小尺寸結節分割精度。雙注意力模塊如圖3所示。

圖3 雙注意力模塊Fig.3 Double attention module
2.2.1 多尺度特征融合
提取特征圖的多尺度信息能夠提高對小目標物體的分割精度。通常方法是將特征圖經過多次最大池化操作得到不同分辨率的輸出結果圖再通過卷積層提取特征,但是經過多次池化操作會丟失小目標物體的細節信息甚至全部信息。肺結節在肺部CT圖像占比很小,屬于相對小目標類型分割。因此,本文引入不同膨脹率的空洞卷積對特征圖進行特征提取,空洞卷積能夠在不縮小特征圖的情況下通過調整膨脹率以增大或縮小感受野,捕獲多尺度特征圖信息。
當給定輸入特征圖F∈?h×w×c時空洞卷積定義如下:

其中,x是當前像素的位置,W是卷積核權重,r是膨脹率,d是當前卷積過程中的像素值。將標準形式的空洞卷積定義為Dconvr(F),其中Dconvr表示當膨脹率為r時對特征圖F的空洞卷積操作。如圖3所示,在雙注意力模塊中將3D-UNet網絡倒數第二層特征圖作為輸入,然后對該特征圖執行級聯空洞卷積操作,定義如下:

其中,M代表對輸入圖像進行1×1的卷積得到的輸出特征圖,這里1×1的卷積操作是為了確保經過不同膨脹卷積的結果圖之間通道保持一致,以融合不同尺度的肺結節特征。經過級聯空洞卷積操作,最終得到一個融合多個尺度特征的特征圖,該特征圖將作為雙注意力模塊的輸入。
2.2.2 空間注意力模塊
位置特征在分割任務中起重要的作用,它通過捕獲像素間的上下文信息獲得。由傳統的特征提取網絡而生成的局部特征未考慮臨近像素的影響可能導致錯誤的分割。因此,為在局部特征上建立豐富的像素間位置關系,本文引入了空間注意力模塊,如圖4所示。該模塊通過將較大范圍的上下文信息編碼成局部特征,突出關鍵特征的位置,從而增強特征圖表示能力。

圖4 空間注意力模塊Fig.4 Spatial attention module
如圖4所示,輸入特征圖A是融合不同膨脹率的空洞卷積結果的肺結節特征圖,首先將其復制為3個新的特征映射,即特征圖映射A1、A2、A3,且{A1,A2,A3}∈Rc×h×w,并將其維度重塑為Rc×n,n=h×w是像素的數量。然后將矩陣A1和矩陣A2的轉置矩陣進行矩陣乘法,再應用Softmax層計算得到空間注意力圖譜S∈Rn×n:

其中,sji表示特征圖中第i個像素位置對第j個像素位置特征的影響。兩個位置的特征表示越相似,它們之間的相關性就越大,反之亦然。然后將重塑后的矩陣A3和矩陣S的轉置進行矩陣乘法,并將結果重塑為Rc×h×w。最后,將矩陣運算結果乘以一個標度參數α并與特征圖A執行元素求和運算,以獲得最終輸出E,如下:

其中,α初始化為0,并在訓練過程中逐漸分配更多權重。從上述公式可知,在空間注意力圖中每個位置的結果特征Ej是所有位置上的特征與原始特征的加權和。因此,它具有上下文信息并根據空間注意圖有選擇地聚合上下文,突出重點特征區域,提高分割精度。
2.2.3 通道注意力模塊
高層特征的每個特征圖的通道都可以看作是一個特定分割結果的響應,不同的語義響應相互關聯。通過挖掘通道圖之間的相互依賴關系,可以表現特征圖的依賴關系,提高特定語義的特征表示。因此,本文構建了一個通道注意模塊顯式地建立通道之間的依賴關系,如圖5所示。

圖5 通道注意力模塊Fig.5 Channel attention module
與空間注意力模塊不同,通道注意力模塊首先將特征圖A重塑為Rc×n,然后將A與A的轉置矩陣進行矩陣乘法,最后仍用一個Softmax層來獲得通道注意力圖譜x∈Rc×c:

其中,xji測量第i個通道對第j個通道的影響。此外,將x和矩陣A的轉置矩陣進行矩陣乘法,并將其結果重塑為Rc×h×w,將矩陣運算結果乘以一個標度參數β并與特征圖A執行元素求和運算,以獲得最終輸出E∈Rc×h×w:

其中,β初始化為0,并在訓練過程中逐漸分配更多權重。每個通道的最終特征是所有通道特征和原始特征的加權和,從而建立了特征映射之間的長期語義依賴關系模型,它有助于提高特征的可辨別性,進而提高分割結果的完整度。
本文涉及的實驗數據來自LIDC(Lung Imaging Database Consortium),排除了切片厚度大于2.5 mm的CT掃描圖像,將剩余的888例肺部圖像作為數據集,這888例CT圖像中共包含1 186個結節,其直徑范圍為3.170 mm~27.442 mm。CT圖像采集參數為150 mA、140 kV,平均層厚1.3 mm,圖像分辨率為512像素×512像素。訓練數據與測試數據分別為800例與88例。
在訓練過程中,DA 3D-UNet以經過預處理后的10張連續CT圖像為一組輸入數據,使用MSRA[14]方法隨機初始化權值,在標準反向傳播更新中,學習速率初始化為0.1,每完成1個Epoch衰減5%,將批量大小設為64,動量設為0.9。使用10折交叉驗證策略來評估該方法的性能,在訓練和測試數據集中維持相近的數據分布情況,以避免由于數據不均衡而導致過分割和欠分割。
DA 3D-UNet網絡搭建的環境為Python3.4,TensorFlow框架,CentOS7.4,NVIDIA GeForce1080Ti GPU,處理器Intel?XeonTMCPU E5-2630 v4@2.20 GHz。
3.2.1 數據預處理
本文提取左右肺葉區域掩模圖作為模型輸入,忽略胸腔及其他噪聲部分,提取過程如圖6所示。

圖6 肺實質提取流程Fig.6 Extraction procedure of lung parenchyma
肺實質提取過程如下:1)二值化CT圖像,通過聚類的方法找到可區分肺區域和非肺區域的閾值;2)Kmeans聚類,區分肺部區域是一類,非肺部周邊為另一類;3)對圖像中的高亮部分進行腐蝕操作,去除微小粒狀噪聲;4)進行膨脹操作,將血管侵吞為肺部組織,并且去除黑色噪聲,特別是不透明射線造成的黑色肺部區域;5)將過程4)與原圖進行數值型與操作并裁剪到相同大小得到肺實質區域。
3.2.2 數據擴充
將每個CT標準化掃描平均值設置為-600,標準差為300,然后再進行數據擴充。數據擴充策略如下:
1)裁剪。對于每個512像素×512像素CT圖像,每隔2個像素進行裁剪,裁剪為500×500的較小切片,因此每個候選區域的數據量增加36倍。
2)翻轉。對于每個CT圖像,從3個正交尺寸(冠狀,矢狀和軸向位置)進行翻轉,因此最終為每個CT圖像增加8×36=288倍的數據量。
3)重復。為平衡訓練集中的正樣本和負樣本切片的數量,將正樣本切片復制8次。
3.2.3 評價標準
本文使用像素精度(Pixel Accuracy,PA)、平均像素精度(Mean Pixel Accuracy,MPA)和平均交并比(Mean Intersection over Union,MIoU)[15]3個國際通用的語義分割度量標準[16-18]來對分割結果做出評測。計算公式分別如式(9)~式(11)所示:
像素精度:

平均像素精度:

平均交并比:

肺結節的分割只需要得到一類語義分割結果(結節與背景),因此這里k=1。pij表示本屬于i類卻被預測為j類的像素數量。同理,pii與pji分別表示本屬于i類被預測為i類的像素數量以及本屬于j類卻被預測為i類的像素數量。
表1是各種實驗方法在88例測試數據上的實驗對比結果。表2是各種實驗方法對88例測試數據集抽取的35例小尺寸結節(直徑為3.170 mm~7.5 mm)的實驗對比結果。表3為神經網絡迭代次數及損失(文獻[5,9]均不涉及神經網絡),從表3可以看出,本文方法在Bestepoch為124時損失值[19]就已經達到比較低的水平并且保持小幅度的浮動,其余方法的損失值均高于本文方法。

表1 不同方法實驗結果對比Table 1 Comparison of experimental results of different methods

表2 小尺寸結節分割結果對比Table 2 Comparison of small-size nodules segmentation results

表3 最優迭代次數及損失Table 3 Optimal number of iterations and loss
圖7為各類型肺結節的分割結果,其中,第1列、第2列是較為常見的孤立型肺結節,第3列、第4列為血管粘連型肺結節,第5列、第6列為胸膜牽拉型肺結節,第7列是較為少見的磨玻璃型肺結節,且第2、3、6列均為直徑小于7.5 mm的小尺寸結節。本文提出的方法能夠對大尺寸結節(第1、5、7列)進行完整的分割,對小尺寸結節(第2、3、6列)進行較為精準的分割,其余對比的方法或多或少都會存在過分割和欠分割[20]的情況。實驗結果表明,本文提出的分割網絡較優,在LIDC標準肺結節數據集[21]下肺結節分割的MIoU值達到89.4%。在圖7中第1行~第9行分別為CT圖像、醫師標注圖像、文獻[5]方法、文獻[6]方法、文獻[7]方法、文獻[8]方法、文獻[9]方法、3D-UNet方法和本文方法。

圖7 各類型肺結節分割結果Fig.7 Segmentation results of various-types lung nodules
針對目前分割網絡存在的分割精度低及耗時長的問題,本文構建一種注意機制3D-UNet網絡結構。將DUpsampling結構融入3D-UNet網絡,在網絡訓練過程中提高上采樣操作生成的特征圖質量,使每次上采樣后的特征圖更加逼近標簽數據,同時加快網絡的收斂速度。在此基礎上,提出空間注意力模塊和通道注意力模塊以分別捕獲空間維度和通道維度上的全局依賴性。實驗結果表明,該網絡結構能夠有效融合遠程上下文信息,提高對大尺寸結節分割的完整度以及小尺寸結節的分割精度。下一步將分析各類型結節的特點,以實現全類型多變化結節的準確定位和追蹤。