裴頌文,樊 靜,沈天馬,顧春華
1(上海理工大學 光電信息與計算機工程學院,上海 200093) 2(中國科學院計算技術研究所 計算機體系結構國家重點實驗室,北京 100190)
X射線計算機斷層掃描儀(CT)在醫學領域做出了巨大的貢獻.CT掃描產生一系列從人體不同角度拍攝的x射線圖像,并利用計算機創建并處理血管、骨骼和軟組織的橫斷面圖像(切片).目前,CT技術在社會上應用廣泛.比如,可以診斷骨腫瘤,發現不能直接觀察到的內部損傷和內部出血.并且CT的密度分辨率較高,能夠輕易地分辨出人體組織或器官內微小的差別.CT雖然給醫學診斷帶來了極大的便利,但是它的使用也引起了人們對輻射泄露的關注.CT圖像獲取過程中,當患者所受到的輻射成倍增加時,其誘發癌癥和患遺傳病的機會也顯著增加,這將嚴重威脅人們的身體健康.為了解決這個問題,人們采用了盡可能低的可行原則(ALARA)來保護患者免受過量的輻射劑量[1].
減少輻射劑量能降低患者風險,但會增加CT圖像的噪聲并產生塊狀和蠟狀的偽影,從而影響醫生正確的診斷.國內外在CT圖像降噪方面做了大量的工作,并通過各種方法取得了令人矚目的成果.目前降噪技術主要有3大類:1)重構前的正弦濾波[2];2)迭代重建[3];3)重建后的圖像處理[4].均在一定程度上提高了圖像質量,但仍然存在弊端.例如重構圖像會引入偽影并產生模糊的邊緣信息;生成的圖像過于平滑而導致失真;迭代重建算法計算復雜度高等.
深度學習利用多層神經網絡組成的計算模型提取圖像特征,并在高維空間中發現圖像數據的復雜結構.最近圖像超分辨率的卷積神經網絡(CNN)被應用于低劑量CT圖像降噪,獲得了顯著的性能提升.接著,人們提出了更為復雜的網絡模型來處理低劑量CT圖像噪聲問題.比如RED-CNN[5]和小波網絡[6].RED-CNN用卷積/反卷積層替代U-net的池化/上池化層.小波網絡則直接采用了U-net的快捷連接.
當前,各種新型的網絡結構都在低劑量CT圖像降噪領域取得了豐碩成果,但這些結構仍存在一些弊端.首先,網絡模型普遍采用端到端的結構,這種結構通常將網絡的輸出和真值之間的均方誤差(MSE)作為損失函數,這種以像素為單位的均方誤差往往使得圖像邊緣過于平滑并損失細節信息.基于均方誤差的方法采用歐幾里德距離而不是采用測地距離獲取高分辨率圖像的平均值,將導致圖像模糊的后果并引入例如非均勻偏差的偽影.
為了解決上述問題,本文提出了面向低劑量CT圖像降噪的多生成器生成對抗網絡模型,具有以下特性:
1)提出的生成對抗網絡模型含有3個生成器,不同的生成器分別對低劑量CT圖像的泊松量子噪聲、高斯模糊和形變等3種不同類型的噪聲進行有針對性的降噪.
2)引入了殘差網絡結構,該網絡結構中的快捷連接(shortcut connection)避免了訓練過程中出現的梯度消失問題,提高了訓練效率.
3)采用譜歸一化方法,通過采用權重矩陣的譜范數引入正則約束來穩定網絡訓練并使網絡更易收斂.
生成對抗網絡的作用是使得降噪后的低劑量CT圖像和正常劑量的CT圖像有著相同的數據分布,從而反映出模型的降噪效果.生成網絡G和判別網絡D在GAN框架中緊密耦合并被同時訓練:G用來模擬真實數據的潛在分布,D則用來判別所得到的樣本是屬于真實分布還是生成的數據分布.當前,GAN已經在單張圖像的超分辨處理、藝術創作和圖像變換等領域有了較為廣泛的應用.但是,GAN生成器的目標函數是Jensen-Shannon(JS)散度,該散度的非連續性導致訓練GAN的兩大問題:不穩定性梯度和模式坍塌,從而導致GAN訓練過程難以收斂.由于搬土距離(Earth Mover′s Distance:EMD)幾乎處處連續并可微分,Wasserstein-GAN(WGAN)提出用搬土距離EMD作為距離度量[7],并利用Kantorovich-Rubinstein 對偶性計算損失函數:
(1)
其中f(x)是1-Lipschitz函數;Ex~Prf(x)是當x來自于真實樣本分布時,f(x)的期望;Ex~Pgf(x)是當x來自于生成樣本分布時,f(x)的期望;sup是函數的上確界.W(Pr,Pg)是指Pr和Pg的搬土距離.
為了實現Lipschitz約束,WGAN會在每個梯度更新后將權重限制在一定范圍內.比如,Gulrajani通過增加梯度懲罰項來限制梯度[8]的方法提出了WGAN-GP.
隨著卷積神經網絡[9]層數的增加,不同結構之間的差異逐漸擴大.VGGNet利用多層堆疊的小尺寸的卷積核將網絡深度增加到16層或19層,使得網絡能提取出更加復雜和具有代表性的特征[10].GoogleNet設計了inception模塊,該模塊近似最優的局部稀疏結構并采用不同大小的卷積核來捕捉不同尺度的圖像細節.此外,瓶頸層也減少了計算量[11].
然而,訓練深層次的網絡結構會產生一系列問題:梯度消失或爆炸將嚴重影響網絡的收斂性;訓練層數過多反而導致精度飽和甚至降低;卷積網絡僅提取圖像中的一部分信息,深度卷積網絡可能僅從原始圖像中提取了少量特征,導致丟失了更多的細節特征.深度殘差網絡(ResNet)[12]采用快捷連接(shortcut connection)解決網絡退化問題.恒等快捷連接可越過一個或多個卷積層,通過恒等映射直接將輸入添加到堆疊層的輸出,保證了信息的完整性.殘差結構既未增加額外參數,也未提高計算復雜度.實驗結果表明,ResNet模型比VGGNet和GoogleNet的分類準確率更高[13-15].
圖像成像過程中經常引入不同類型的噪聲和偽影.隨著深度學習的發展,深度神經網絡模型被應用于圖像降噪.例如,生成對抗網絡的生成器和判別器都采用卷積神經網絡的形式來實現低劑量CT圖像的降噪[16].使用WGAN和視覺損失函數來捕捉圖像微小的紋理和特征[17].利用對抗網絡和清晰度檢測網絡來獲取微小的分辨率損失并消除圖片模糊的效果[18].在缺乏配對的訓練樣本時,采用嵌入保真度(fidelity-embedded)的生成對抗網絡對低劑量CT圖像降噪[19].有條件約束的生成對抗網絡(CGAN)被用來給胸部低劑量CT圖像降噪[20].
盡管以上深度學習網絡在低劑量CT圖像降噪領域取得了成果,但是均存在弊端.比如,以均方誤差為損失函數的方法將導致降噪后的圖像過于平滑并丟失一些細節特征信息;部分深度學習網絡則會產生圖像偽影.
CT圖像噪聲大致可分為3類:泊松量子噪聲,高斯模糊噪聲和形變噪聲[21].因此,本文將低劑量CT圖像的噪聲視為多分布組合的數據,即其分布具有多個“峰值”.標簽是標準劑量的CT圖像(NDCT),可以視其為真實數據分布.為了能夠更有效地對圖像降噪,本文提出了具有多生成器的并行框架,每個生成器有針對性地擬合不同噪聲分布.多生成器的生成對抗網絡是以WGAN為基礎.不同的是,模型由3個不同的生成器Generator1、Generator2、Generator3和一個判別器Discriminator組成.3個生成器使用相加方式級聯,僅會以線性增長方式適當增加計算復雜度.
概率統計模型顯示,復雜數據分布往往是多個獨立隨機
變量的聯合分布.圖1噪聲分布仿真圖,圖1(a)展示了一些散落在分布外的點,說明僅僅一個隨機分布模型不能很好地擬合所有的隨機變量.如圖1(b)所示,采用多個隨機模型擬合復雜的分布,可以獲得較好效果.因此,本文采取了并行的多生成器網絡擬合多種噪聲,從而實現多維降噪的目的.
設不同生成器生成的CT圖分布為Pgi,標準劑量CT圖數據分布為Pr,則生成對抗網絡的損失函數滿足:
(2)

圖2 概率分布λiPr和PgiFig.2 Probability distribution λiPr and Pgi
根據搬土距離的定義,損失函數可進一步定義:
(3)
其中,xi是真實分布λiPr里的隨機變量;yi是生成分布里Pgi的隨機變量;xi-yi表示兩者之間的歐氏距離;γi為聯合概率分布,并且γi∈Π(λiPr,Pgi),即γi為邊緣分布分別為λiPr和Pgi所有分布的集合.inf表示下確界.接著引入優化函數f取代對聯合分布γi的限制,得公式(4):

(4)
根據極大極小值原理,公式(4)可轉化為:

(5)
由于下確界inf是凹的,并且Lipschitz連續函數f可以和inf產生同樣的優化效果,于是將公式(5)轉換為對上限的約束,得到搬土距離的對偶形式,如公式(6)所示.
(6)

(7)
(8)
其中W為權重矩陣,然后用一對近似奇異向量逼近W的譜范數[23]:
(9)
對每個權重矩陣進行譜歸一化之后,公式可簡化為:
(10)
3.4.1 三生成器生成對抗網絡模型
三生成器的生成對抗網絡的整體框架如圖3所示,首先以一定的比例β1,β2,β3將低劑量CT圖像放入網絡.根據對CT圖像的實驗分析可知,泊松噪聲明顯比高斯模糊噪聲和形變噪聲多,并且高斯模糊噪聲多于形變噪聲,所以參數的選取按照β3>β1>β2的原則.本文采用了兩種損失函數,包括生成對抗網絡的損失函數(La)和均方誤差損失函數(Lp1,Lp2,Lp3).均方誤差損失函數是用來最小化像素級別的誤差,并且能使每個生成器對不同噪聲都有降噪的專一性和有效性.例如,Generator1針對高斯模糊,那Generator1生成的G1 image除了與G2 image和G3 image放入判別器,還與擁有泊松噪聲和形變噪聲(D23 image)的圖像數據集進行均值平方誤差的計算.損失函數如公式(11)所示:
Loss=La+Lp1+Lp2+Lp3
(11)
(12)
(13)
(14)
(15)

圖3 三生成器的生成對抗網絡結構Fig.3 Framework of GAN with triple generators
其中La表示生成對抗網絡損失函數,‖·‖代表Frobenius-2范數; z表示低劑量CT圖像;D23、D13、D12是具有不同噪聲的圖像,如圖3所示;Lp1、Lp2、Lp3表示像素損失,而β1,β2,β3是預定義的加權參數.
3.4.2 生成器
生成器采用的是編碼器-解碼器的對稱結構,直接學習低劑量CT圖像到生成圖像的端到端映射,如圖4所示.在每個生成器中,網絡模型前端有兩個卷積層,網絡模型后端對應兩個反卷積層,最后3個生成器的輸出相加,輸入到一個卷積核數量為3(RGB圖片通道數為3)的卷積層中,作為最終生成模型輸出.模型在卷積層和反卷積層中間加入了殘差網絡模塊(BasicBlock),這些模塊通過恒等快捷連接來解決網絡由于層數過多可能引起的網絡退化問題.卷積層使用了3*3大小的卷積核,沒有用更大尺寸的卷積核是因為3*3的卷積核有更少的參數,更多的非線性的同時,網絡有著更為理想的感受野.卷積層分別有32和64個卷積核,對應地反卷積層分別有64和32個卷積核.所有的訓練層都用了relu激活函數增加網絡非線性,避免了梯度消失問題的出現并且減少了網絡的計算量.

圖4 生成器的網絡結構Fig.4 Framework of generator
3.4.3 判別器
判別器是判別圖片是來自標準劑量CT圖像還是生成器生成的圖像.其網絡結構如圖5所示.判別器有4層卷積層,分別有32,64,128,256個卷積核.判別器的末端有兩個全連接層,第1個全連接層有1024個輸出而第2個全連接層只有1個輸出.因為算法的基礎是WGAN,所以模型沒有使用sigmoid函數.

圖5 判別器的網絡結構Fig.5 Framework of discriminator
本文從“the 2016 NIH-AAPM-Mayo Clinic Low Dose CT Grand Challenge”(1)https://www.aapm.org/GrandChallenge/LowDoseCT授權的臨床數據中,隨機抽取了9000張作為訓練集,選取了230張為測試集.為了建立低劑量CT圖像數據集,隨機給標簽加入了泊松噪聲、高斯模糊噪聲和形變噪聲.每次迭代數據批次大小為64.超參數β1=0.3,β2=0.2,β3=0.5.實驗環境為python3.5和tensorflow1.9;CPU為i7 7700k;內存為48GB;GPU是兩塊英偉達GTX1080TI.數據集如圖6所示,NDCT為標準劑量CT圖像,LDCT為低劑量CT圖像.D23 image是添加了泊松噪聲和形變噪聲的CT圖像;D12 image是添加了高斯模糊和形變噪聲的CT圖像;D13 image是添加了泊松噪聲和高斯模糊噪聲的CT圖像.訓練集和測試集的CT圖像像素都縮放至256×256.
為了更加客觀地測試本算法的性能,本文采用了兩個圖像質量評價指標:峰值信噪比(PSNR)和結構相似性(SSIM).峰值信噪比是最大像素值和兩圖像均方誤差的比值.但由于峰值信噪比是基于像素點的誤差,并未考慮人眼的特性,結果會出現評價指標和人眼主觀感覺不一致的現象.因此,本文另增加了SSIM作為評價指標.該指標從3個方面表示圖像特征:均值亮度、標準差對比度和協方差.把不同模型的實驗結果圖分別和標準劑量CT圖像作比較,計算相應的PSNR和SSIM.兩個指標值越高,說明圖像降噪效果越顯著.

圖6 腹部橫截面CT圖像Fig.6 Transverse CT images of the abdomen
4.3 實驗結果量化分析
4.3.1 人眼視覺評價
基于人眼視覺評價的實驗結果如圖7所示,通過5個不同降噪算法的對比對本模型的結果進行評估.其中兩種傳統算法包括三維塊匹配算法[24](BM3D)和非局部均值法[25](NLM),這兩種降噪算法最為經典并且在傳統算法中效果最佳.除此之外,還和低劑量CT圖像降噪領域主流的深度學習模型進行了比較,模型包括前饋去噪卷積神經網絡(DnCNN)[26]、生成對抗網絡(GAN)[17]以及帶有殘差結構的生成對抗網絡(GAN+Resnet).如圖8所示,實驗選取了代表性切片圖像(前5張和后6張分別為圖6和圖7的白色矩形區域).不同的算法表現出不同的降噪能力.從圖7(a)和圖8(f) 可知,BM3D雖然有效地降低了噪聲,但會導致實驗結果圖像過于平滑而失真,丟失了很多圖像的細節信息.例如,圖8(f)的紅色箭頭所指區域,在NDCT和深度學習算法處理的圖像中有明顯的陰影,而在BM3D方法中陰影就不是很明顯.NLM的降噪效果不如BM3D,泊松噪聲和高斯模糊都沒有得到有效的去除.和傳統的降噪算法相比,深度學習算法在視覺上更接近NDCT圖像.DnCNN在降噪上取得了不錯的效果,但是丟失了部分邊緣信息.并且從圖8(h)可以看出,DnCNN引入了一些偽影.GAN不僅成功地映射了數據分布而且保留了圖像重要的信息.帶有殘差網絡的GAN+Resnet和GAN的實驗結果圖像較接近,均取得到顯著的降噪效果.如圖7(f)和圖8(k)所示,三生成器的生成對抗網絡產生的圖像從視覺上最接近NDCT圖像,表明TriGAN模型和BM3D,NLM以及DnCNN深度學習模型相比較,降噪效果最佳

圖7 不同模型的降噪效果Fig.7 Denoised images using different methods
.

圖8 不同圖像的感興趣區域Fig.8 Zoomed ROI of different CT images
4.3.2 定量分析
本文采用峰值信噪比(PSNR)和結構相似性(SSIM)作為圖像降噪質量的量化評價指標.具體的數值如表1所示,其中第2列和第3列數值對應圖7,第4列和第5列數值對應圖8.顯然,深度學習模型的指標數值均高于傳統算法.因此,深度學習模型比傳統降噪算法更適用于低劑量CT圖像降噪.采用GAN和帶有殘差網絡的GAN(GAN+Resnet)降噪后的圖像數值相近,因為殘差網絡主要是加速網絡收斂,對降噪質量不會有明顯的影響.多生成器的并行結構使得TriGAN模型在PSNR和SSIM兩大指標上均為最佳,PSNR值為26.67.與傳統算法BM3D、NLM相比平均提高了約30%,與深度學習模型相比平均提高了4.5%;SSIM值為0.98,比傳統算法BM3D、NLM平均提高了10%,比深度學習模型提高了1.5%.

表1 圖7和圖8的定量指標分析Table 1 Quantitative results ofFig.7 andFig.8
4.3.3 統計特性分析
為了進一步了解不同算法的降噪效果,本文通過計算亨氏單位的平均CT數(Mean)和標準差(SD)來檢驗其統計特性.在理想的情況下,降噪算法的Mean和SD應該盡可能接近黃金標準.在實驗中,標準劑量CT圖像(NDCT)作為黃金標準,因為NDCT圖像在數據集中有最好的圖像質量.實驗分別計算了圖6,圖7和圖8的Mean和SD.如表2所示,表格前2列為圖8的指標,前5行后2列為圖6的指標,后6行后2列為圖7的指標.BM3D的標準差明顯小于NDCT標準差,說明BM3D生成的圖像過于平滑.NLM的均值和標準差比NDCT高出近11和14,表明其并沒有優良的降噪能力并可能引入了偽影.GAN和帶有殘差網絡的GAN(GAN+Resnet)與傳統的降噪算法相比均更接近NDCT的指標.由于DnCNN丟失了圖像部分邊緣信息且產生了偽影,DnCNN的標準差很小.

表2 圖6,圖7和圖8的統計特性Table 2 Statistical property inFig.6,fig.7 andFig.8
4.3.4 模型收斂性
本文分別計算了GAN、帶殘差網絡的GAN (GAN+Resnet)和TriGAN的Wasserstein估計值.如圖9所示,隨著迭代次數的增加,Wasserstein估計值均逐漸減少,并在迭代10000次后趨于穩定.帶有殘差網絡的GAN(GAN+Resnet)在訓練初始階段,Wasserstein估計值下降的更快并且和GAN有著相近的Wasserstein估計值,進一步證明了殘差網絡收斂的有效性.TriGAN的殘差模塊和譜歸一化均加速了收斂.

圖9 Wasserstein收斂估計Fig.9 Wasserstein estimation convergence
本文介紹了一種基于多生成器的生成對抗網絡的降噪 模型(TriGAN).例如,BM3D 會過度平滑圖像并丟失一些重要信息.深度卷積神經網絡能更好地擬合復雜的噪聲分布.然而,簡單卷積層疊加的降噪效果是非常有限的.因此,本文引入了生成對抗深度學習模型,在CT圖像降噪的同時能更有效地保留原始圖像的真實信息和細節特征.由于CT圖像的噪聲由不同類型的噪聲分布組成,本文提出了一種三生成器的結構擬合不同的噪聲.此外,還引入了以像素為單位的均方誤差損失,以保證重要的信息不丟失.殘差網絡和譜歸一化對神經網絡的收斂性和穩定性產生了積極作用.