趙雪梅
(北方工業大學信息學院,北京,100009)
關鍵字:圖像去噪;低劑量CT;深度學習;紋理恢復
近年來,隨著醫學CT的廣泛使用,X射線輻射對患者健康的潛在危害引起了公眾的關注。因此,降低CT輻射劑量已成為重要的研究課題。但X射線通量的降低會導致CT圖像噪聲和偽影的增加,進而影響醫生診斷的準確性[1]。目前已經提出了許多算法來改善低劑量CT(LDCT)的圖像質量。通常,這些算法可以分為三類:投影域去噪、迭代重建和圖像域去噪。
投影域去噪和迭代重建都需要對投影數據進行建模,但作為CT掃描儀的中間數據,投影數據一般不易獲得。圖像域去噪方法直接對CT圖像進行處理,不需要任何原始數據。因此,研究學者們在圖像域進行了大量的研究[2]。最近,深度學習為低劑量CT去噪提供了新的思路。目前已經提出了幾種用于CT去噪的方法,例如Chen等人設計了具有殘差學習的編解碼網絡(RED-CNN)[3],去噪效果顯著。但由于使用MSE損失,產生了過度平滑的問題。本文提出一種自注意力殘差編解碼網絡,相比RED-CNN,能夠更好地恢復出CT圖像的紋理特征。
此前Yang等人引入VGG構建感知損失來解決過度平滑的問題[4],但VGG最初是針對自然圖集的分類問題進行訓練的[5],使用VGG損失會在CT重建過程中引入無關的特征[6]。因此,參考VGG19設計了特征提取網絡,用來構建特征損失,并在編碼網絡引入自注意力機制,網絡記作SRED-Net。
原始的RED-CNN網絡主要由卷積層,反卷積層和ReLU構成。在對應的卷積層與反卷積層之間加入短連接來學習殘差。從輸入到輸出之間分別有5個卷積層和反卷積層,連續的卷積層、反卷積層可以看作編碼、解碼的過程。網絡中所有卷積層與反卷積層的卷積核大小為5,每層的濾波器數量為96。

圖1 SRED-Net 結構圖
改進后的SRED-Net編碼部分由5個編碼塊和2個自注意力模塊組成,編碼塊濾波器數量分別為64、64、128、128、256;解碼部分由5個解碼塊組成,濾波器數量分別為256、128、128、64、64。編碼塊由卷積層與ReLU激活層組成,解碼塊由反卷積層與ReLU激活層組成。卷積核大小設為3,步長為1,padding為1。
自注意力模塊如圖2所示。自注意力機制[7]減少了對外部信息的依賴,擅長捕捉數據或特征的內部相關性。相比于自然圖像,CT圖像包含的信息較少,因此,采用自注意力機制可以更好地提取其內部相關信息。

圖2 自注意力模塊結構圖
特征提取網絡結構如圖3所示。使用網絡的第3層卷積后的輸出作為邊緣特征,用于構建邊界損失。邊界損失可以表達為:

圖3 特征提取網絡結構圖

使用網絡的第8層卷積后的輸出作為紋理特征,用于構建紋理損失。紋理損失可以表達為:

其中,FE3(·)表示提取邊緣特征,FE8(·)表示提取紋理特征,x代表輸入LDCT的patch,y代表對應的NDCT的patch,w、h、d分別表示 patch的寬,高和深度,表示求二范數。
MSE損失表達為:

將MSE損失與邊界和紋理損失相結合,完整的損失函數可以表達為:

記作BTL。其中,λ1、λ2是兩個可訓練的參數,用來權衡邊界損失和紋理損失。
使用CPU版本為Intel(R) Core(TM)i5-8250U的計算機進行仿真,GPU版本為NVIDIA GTX1080的計算機能夠加速計算。網絡使用Python語言編寫,利用Pytorch框架來實現。
在訓練期間,數據集采用AAPM低劑量CT挑戰賽提供的CT數據[8],其中包括來自10位患者的常規劑量CT和相應LDCT數據,將患者L506的數據作為測試集,其余作為訓練集。CT尺寸為512×512。使用Adam優化所有網絡。通過patch的方法來增大數據集,patch size設置為64。batchsize設置為16。控制SRED的MSE損失、特征損失之間權衡的加權參數λ1、λ2通過訓練來學習。
通過RED-MSE和SRED-MSE的對比,驗證自注意力機制的有效性;通過RED-MSE與RED-BTL的對比,驗證特征提取網絡的有效性。
(1)視覺效果分析
圖4展示了不同神經網絡對CT去噪的視覺效果。通過比較可以看出,與不使用自注意力機制的RED-MSE相比, SREDMSE保留了更多的紋理信息。使用MSE損失會使得組織紋理過于平滑,邊界也較為模糊;使用BTL損失保留了更多的紋理細節,與NDCT更加相近。

圖4 去噪效果對比圖
(2)客觀指標分析
表1展示了測試集上三個客觀指標的均值,包括峰值信噪比(PSNR)、結構相似度(SSIM)和均方根誤差(RMSE)。網絡,在PSNR,SSIM,RMSE三項指標上均高于不使用自注意力機制的方法,驗證了自注意力機制的有效性。使用BTL的RED-BTL和SRED-BTL,三項指標均高于不使用BTL的方法,驗證了特征損失的有效性。并且,同時使用自注意力機制與BTL的SRED-BTL方法,獲得了最優的指標結果,PSNR提升了1.21dB,SSIM提升了0.0112,具有一定的紋理保留效果。

表1 測試集客觀評價指標
針對目前深度學習方法在低劑量CT去噪領域存在的紋理缺失和組織平滑問題,本文提出了一種自注意力殘差編解碼網絡,主要有以下兩點改進:(1)引入自注意力機制;(2)設計特征提取網絡,構建邊界和紋理損失。改進后的網絡PSNR提升了約1.21dB,SSIM提升了約0.0112。