冉文兵,梁永超,覃 芹,陳 旋,張 利,2
(1 貴州大學 大數據與信息工程學院;2 貴州大學 省部共建公共大數據國家重點實驗室,貴陽 550025)
在臨床醫學中,電子計算機斷層掃描(CT)技術是利用X 射線對人體進行照射,并結合高精度的探測器檢測射線能量的衰減情況,實現對人體內部的患病部位進行快速成像。但是由于臨床CT 設備的分辨率、噪聲和人體所能承受的輻射量等因素的限制,以及數據存儲過程中信息丟失,導致在醫學診斷中難以獲得足夠的病理信息。為了解決這一問題可以對成像設備進行提升或設計更好的軟件算法,但更新成像設備的代價較大。因此,通過使用相關算法實現CT 圖像的超分辨率重建(SR)具有重要意義。
超分辨率重建技術最早出現在光學工程領域,是指從低分辨率(LR)圖像重建出高分辨(HR)圖像[1]。1984 年Tsai 等人[2]提出基于頻域的超分辨重建技術,使用多幀LR 圖像重建單幀HR 圖像。目前,關于圖像超分辨率重建技術大致可以分為基于插值、重建模型以及深度學習3 大類。插值方法主要包括臨近插值、雙三次插值和雙線性插值等,這類方法重建的速度快,但重建圖像存在模糊和偽影;重建模型主要包括迭代反投影(IBP)和凸集投影法(POCS)等,這類方法對于圖像中細節部分的重建需要引入大量的先驗知識;基于深度學習的重建方法比基于插值和重建模型的重建效果好很多,并且能夠實現LR 圖像到HR 圖像端到端映射,是目前用于圖像超分辨率重建的主流方法。
2014 年,Dong 等人[3]首次提出使用深度學習技術用于圖像的超分辨率重建,通過使用包含特征提取、非線性映射和圖像重建3 個部分的卷積神經網絡實現單幅圖像的超分辨率重建,但容易產生棋盤偽影;2017 年,Ledig 等人[4]提出一種基于生成對抗網絡(GAN)和殘差學習的超分辨重建生成對抗網絡(SRGAN),并使用一個由對抗損失和內容損失組成的損失函數,解決了在較大縮放因子情況下的圖像細節紋理的恢復問題;為了進一步提升圖像的重建質量,2018 年,Wang 等人[5]對SRGAN 中的損失函數進行改進,并引入沒有批歸一化的殘差中的殘差密集塊(RRDB)作為網絡的基本單元,提出了增強的SRGAN(ESRGAN)。這些方法在自然圖像的超分辨率重建中取得較好的效果。與此同時,Zheng等人[6]基于CycleGAN提出一種無監督的GAN 實現CT 圖像的超分辨率重建,在結構相似性(SSIM)上取得一定的提升。本文的目標是基于GAN 和注意力機制提出一種有效的醫學圖像超分辨率重建方法,并在SRGAN 的損失函數的基礎之上引入全變分損失改善圖像細節紋理的重構。除此之外,使用退化學習方法模擬圖像的退化過程,彌補傳統退化模型的缺陷,使本文方法更具有現實意義。
2014 年,Goodfellow 等人[7]首次提出生成對抗網絡,是一種通過博弈過程估計生成的模型架構。GAN 主要由生成器和鑒別器組成,模型結構如圖1所示,生成器將輸入的隨機噪聲或樣本數據進行處理后輸出;鑒別器則將生成器的輸出和真實的數據進行對比和判斷生成器輸出的真實性。通過生成器與鑒別器之間的相互對抗,最終生成器與鑒別器之間達到納什均衡狀態,并使得生成器產生的圖像逐漸趨于真實圖像。GAN 與受限玻爾茲曼機(RBM)、生成隨機網絡(GSN)和深度信念網絡(DBNs)等生成模型相比,具有較好的圖像生成能力,故在圖像風格遷移、圖像合成、超分辨率重建和去噪等領域得以廣泛應用。尤其在圖像的超分辨率重建中,GAN 在學習流行之間的映射有很好的效果,在一定程度上可以防止重建圖像的高頻細節和圖像紋理缺失,以及圖像平滑等問題[8]。

圖1 生成對抗網絡模型Fig.1 Generate adversarial network models
在生物的視覺系統中,對視場內的聚焦是有所區別的,通過關注場景中的關鍵區域獲取有價值的信息,這種視覺特性在深度學習中也得到廣泛應用。在深度學習中,注意力機制的實現主要通過權重掩膜標識出圖像中的特殊區域。目前根據關注的細粒度可以劃分為兩大類:硬注意力機制和軟注意力機制。軟注意力機制在計算過程中具有可微性,因此,相對于硬注意力機制訓練難度較小。Hu 等人[9]提出一種簡單有效且開銷小的通道注意力機制模塊SENet,可以自適應地校準通道級的特征響應;Roy等人[10]提出一種空間注意力機制,對空間特征進行壓縮和激發,實現在空間中校準特征映射。除此之外,大量的研究表明,通過共同利用空間注意力機制和通道注意力機制可以提高網絡的重構性能。如:Woo 等人[11]將通道注意力機制與空間注意力進行級聯,提出卷積塊注意力模塊(CBAM),該模塊先將輸入特征通過通道注意力機制得到通道權重掩膜并與輸入特征相乘,然后將結果與通過空間注意力機制獲取空間權重掩膜相乘得到最終的輸出特征。
受到以上研究的啟發,本文提出一種能夠實現醫學圖像超分辨率重建的網絡模型,通過使用殘差特征提取模塊和CBAM 模型在圖像的特征空間中進行特征提取和篩選,以減少冗余信息的學習和參數量,提升網絡的性能和重建效果。
在一般的圖像超分辨率重建過程中,通常是將原始的高分辨率圖像通過模糊、降采樣和加噪等方法進行處理,得到與原始高分辨率圖像對應的低分辨率圖像,最終得到理論退化模型數據集(X,Y),x表示理論模型模擬的低分辨率圖像,具體過程可以由式(1)表示為

其中,y表示原始的高分辨率圖像;↓f表示尺度因子為f的雙三次降采樣操作;B為高斯模糊算子;n為方差σ =0.025 的高斯噪聲。
式(1)可以簡化為

其中,H(·) 為退化核。
但通過這種方式模擬的LR 圖像對真實場景中的噪聲和壓縮等因素的反映是明顯不足的,而且實際生活中很難得到HR 圖像和LR 圖像之間完全對應的數據集。為了解決這一問題,采用未配對的原始圖像集,將HR 圖像通過DSGAN 進行退化學習模擬真實場景的LR 圖像得到退化學習數據集后用于超分辨率重建,具體過程如圖2 所示。x為實際的LR 圖像且與HR 圖像y并無映射關系,將HR 圖像經過下4 倍采樣的LR 圖像s,使用DSGAN模型和LR 圖像x對圖像s進行矯正得到更符合真實場景的LR 圖像

圖2 使用DSGAN 模型模擬LR 圖像的具體過程Fig.2 DSGAN model is used to simulate the specific process of LR image
目前,大多數基于深度學習的超分辨重建技術,在醫學圖像上重建的結果過于模糊且缺失大量的細節紋理,利用GAN 較強的擬合能力可以在一定程度上解決這一問題。SRGAN 通過使用深度殘差網絡,能夠提取自然圖像中更豐富的細節信息,其生成器中的殘差結構如圖3(a)所示。基于本文的應用背景,對SRGAN 生成器和鑒別器進行優化。在生成器的殘差模塊中,由于批量歸一化層(BN)增加模型的計算復雜度和開銷,故在本文所使用的殘差結構中將其去除,僅保留卷積層和PReLU 層,并引入CBAM 混合注意力模塊,組成具有通道和空間注意力的殘差塊,稱之為RES-CB,如圖3(b)所示。

圖3 兩種殘差結構對比Fig.3 Comparison of two residual structures
生成器主要由5 個RES-CB 模塊堆疊而成,具體結構如圖4 所示。輸入圖像通過退化學習或理論模型模擬的LR 圖像,經過采樣因子f為2、3 和4 的上采樣,再使用5×5 的卷積,5 個RES-CB 模塊,5×5 的轉置卷積層(Tconv)和投影層(Proj)[12]處理后,與只經過上采樣的圖像相加,最后通過剪切層(Clipping)將圖像中的像素值約束在0~255 之間得到重建后的SR 圖像其中,Proj 層主要用于計算近端映射和數據的保真度,并在反向傳播的過程中會對該層的參數進行微調。

圖4 生成器模型結構Fig.4 Generator model structure
鑒別器網絡用于區分真實的HR 圖像和虛假的SR 圖像結構,如圖5 所示。鑒別器主要由7 個卷積特征提取塊(Conv、BN 和LReLU)組成,各個特征提取塊中的卷積層由卷積核大小為4,步長為2 以及卷積核大小為3 步長為1 的卷積交替構成,能夠把特征映射從64 增加到512,在鑒別器的末端,通過兩個全連接層和Sigmoid 函數得到最后的鑒別結果。

圖5 鑒別器模型結構Fig.5 Discriminator model structure
為了使用本文提出GAN 模型能夠實現醫學圖像的超分辨率重建,使用以下損失函數計算重建誤差并指導模型的優化。
感知損失(LPER):使用預訓練的VGG-19 網絡分別對HR 圖像和SR 圖像進行特征提取,計算二者之間的歐式距離,以此來關注圖像的感知質量,公式為

其中,yi表示第i張真實的HR 圖像表示第i張重建的SR 圖像;Ψ(·) 為VGG-19 預訓練網絡所提取到的特征;N為模型訓練中小批量大小。
對抗損失(LADV):使用鑒別器對真實的HR 圖像和生成的SR 鑒別結果,對生成器進行約束,以提升重建圖像的視覺效果。公式為

其中,Ey和分別是對小批量的HR 圖像和SR 圖像求取均值,通過鑒別器Dy求取生成的SR 圖像與真實的HR 圖像之間的差距。
像素級MSE 損失(L1):在圖像超分辨重建中,經常使用MSE 計算虛假的SR 圖像和真實的HR 圖像之間的像素級距離,以此來對生成器的訓練進行約束,公式(5)為

全變分損失(LTV):主要可以使圖像中梯度變化較小的區域,產生一定的銳度,在一定程度上提升圖像的細節紋理,公式(6)為


其中,?h和?v分別為水平和垂直梯度算子。
最終模型訓練所使用的損失函數為

其中,λ1、λ2、λ3和λ4為各部分損失的權重,其值分別為1、1、1 和10。
本文實驗數據采用公開的肺結節患者的胸部CT 圖像數據集LIDC-IDRI,從中選取紋理清晰、結構復雜的550 張圖像,其中400 張作為訓練集,100張作為驗證集,50 張作為測試集。原始數據集中的LR 圖像集與HR 圖像集并無一一對應關系。在訓練之前,通過公式(1)的理論模型得到與HR 圖像具有映射關系的理論退化模型數據集 (X,Y) ;通過將HR 圖像下采樣從理論上模擬LR 圖像s,通過LR圖像x和DSGAN 生成LR 圖像得到退化學習的數據集

表1 實驗環境Tab.1 Experimental environment
首先將本文提出的重建模型與其它重建模型Bicubic、SRCNN、SRGAN、ESRGAN 進行尺度因子為4 的重建對比,實驗結果見表2。在理論退化模型數據集上,本文的重建模型相比于Bicubic、SRCNN、SRGAN 和 ESRGAN 在PSNR上 分 別 提 升 了3.38 dB、2.54 dB、1.47 dB 和0.74 dB,在SSIM上分別提升了0.087 4、0.033 9、0.038 0 和0.046 6,驗證了本文的重建模型相對于其他重建模型能夠更好地完成CT 圖像的重建;在退化學習數據集上,本文的重建方法的PSNR達到了28.98 dB,SSIM達到了0.864 2。通過對比幾種重建方法分別在兩種數據集上的重建指標結果,表明本文的重建方法不僅在傳統的理論退化模型的LR 圖像上得到不錯的效果,還在使用退化學習模擬CT 成像和存儲過程中受到圖像退化后的LR 圖像上也能取得很好的效果。

表2 不同重建方法在理論退化模型數據集和退化學習數據集上的實驗結果對比Tab.2 Comparison of experimental results of different reconstruction methods on theoretical degenerate model dataset and degenerate learning dataset
為了定性分析幾種方法重建的圖像質量,給出了5 種重建方法在退化學習數據集上,進行尺度因子為4 的重建結果,如圖6 所示。圖6(a)為原始的HR 圖像,圖6(b)為通過Bicubic 重建的圖像,圖6(c)為通過SRCNN 重建的圖像,圖6(d)為通過SRGAN 重建的圖像,圖6(e)為通過ESRGAN 重建的圖像,圖6(f)為本文提出模型的重建結果。從圖6 可以看出,Bicubic 和SRCNN 的結果過于模糊,且在組織結構的分界線上較為平滑;SRGAN 在組織的邊界有明顯的偽影;ESRGAN 的結果在組織邊界較為尖銳且引入大量的噪聲;本文提出的模型在這幾種方法中的重建效果較為突出,但是與原始的HR圖像相比,對于細節紋理的重建仍然略顯不足。

圖6 5 種方法重建的CT 圖像對比Fig.6 Comparison of CT images reconstructed by five methods
本文的重建方法可以實現不同尺度因子的超分辨重建,不同尺度重建的結果見表3。除了使用PSNR和SSIM分析重建圖像質量,還使用學習感知圖像塊相似度(LPIPS)對重建圖像感知質量進行比較。LPIPS的值越小,說明圖像的感知質量越好。LPIPS在重建尺度因子為4 的LPIPS比×2 和×3 分別高出了0.091 5 和0.080 9。下采樣因子為2、3 和4 的LR 圖像和通過本文重建方法得到的SR 圖像,如圖7 所示。尺度因子較小的LR 圖像保留的信息較多,通過對重建的圖像進行對比,尺度因子為2 的SR 圖像中的細節更為清晰。

圖7 不同尺度因子重建的CT 圖像對比Fig.7 Comparison of CT images reconstructed with different scale factors

表3 本文的方法在退化學習數據集上進行不同尺度重建的實驗結果對比Tab.3 The method in this paper compares the experimental results of reconstruction at different scales on degenerate learning datasets
經過上述的客觀指標評價和主觀視覺分析,可見本文提出的超分辨重建算法,在CT 圖像的重建中具有一定的優越性,從而證明了本文提出網絡模型和數據模擬方法的有效性。本文使用退化學習算法可以對真實場景的LR 圖像進行模擬,讓重建方法更具有現實意義;通過混合注意力機制從空間和通道兩方面對指導特征有選擇性地學習,提高網絡性能和訓練效果。
為了充分證明CBAM 和全變分損失(LTV)在本文方法中的重要性和效果,在消融實驗中將對這兩部分進行定量分析。通過在退化學習數據集進行4組尺度因子為4 的對比實驗,結果見表4。通過比較第1 組和第4 組實驗,本文網絡模型通過結合CBAM 和LTV使得PSNR和SSIM分別提升了0.62 dB和0.025 8,LPIPS降低了0.024 8。說明將CBAM 和LTV加入到本文的網絡模型中,對醫學圖像的超分辨率重建是有效的。

表4 對CBAM 和LTV進行消融實驗的結果對比Tab.4 The results of ablation experiments were compared between CBAM and LTV
本文提出了一種用于醫學圖像超分辨率重建的深度學習方法,主要通過改進的SRGAN 模型中的殘差特征提取模塊,并將其和混合注意力機制CBAM 相結合,提出具有通道和空間注意力的殘差特征提取模塊。使用該模塊構建GAN 的生成器在對人體胸部CT 圖像進行超分辨率重建可以取得較好的效果。此外,通過退化學習模擬低分辨率數據,解決傳統退化模型的局限性。通過將幾種常用的超分辨重建方法與本文的方法進行對比分析,驗證了該方法在醫學圖像超分辨重建方面具有一定的潛力。在未來的工作中,仍然需要探索更好的方法解決大尺度重建的部分細節丟失問題,以及需要使用更好的定量評估方法分析醫學圖像超分辨重建效果。