高志軍,冀遠明,史二美
(黑龍江科技大學 計算機與信息工程學院,哈爾濱 150022)
2019 新型冠狀病毒(Corona Virus Disease 2019,COVID-19)是一個大型病毒家族,具有高傳染性。人感染了冠狀病毒后常見體征有呼吸道癥狀、發熱、咳嗽、氣促和呼吸困難等。在較嚴重病例中,感染可導致肺炎、嚴重急性呼吸綜合征、腎衰竭、甚至死亡。
電子計算機斷層掃描(Computed Tomography,CT)是利用X 線束對人體的某一部位進行連續的斷面掃描,CT 檢查與以往的X 線相比,具有分辨率高、檢查速度快、檢查安全等特點,已成為醫生對COVID-19 患者進行準確診斷和跟蹤治療的重要輔助工具之一。為了準確和快速地實現對COVID-19患者的智能檢測,基于深度學習和計算機視覺的COVID-19 患者CT 圖像病變檢測已成為相關學者的研究熱點。
對于深度學習網絡模型來說,數據集的規模和數目將很大程度影響最終訓練效果的好壞[1]。但是,在計算機輔助診斷領域中,由于涉及到患者隱私,研究者很難獲取到大量的醫學圖像數據集,而且由于疾病的高傳染性,醫務人員在收集COVID-19 CT 數據時面臨著高風險[2]。其次,因缺乏可用于數據標記的專家,對采用監督訓練方法提出了另一個挑戰。增加訓練樣本的傳統方法包括縮放、旋轉、翻轉、平移和彈性變形,然而這些轉換并未考慮由不同成像協議或序列引起的變化,更不用說尺寸、形狀、位置的變化和特定病理的出現。
近年來,基于深度學習的計算機視覺方法在醫學圖像生成中顯示出巨大的應用前景,許多學者提出了具有潛力的新模型。如:Jiang Y 等[3]提出的具有條件生成對抗網絡的COVID-19 CT 圖像生成;Zhou L 等[4]提出的肺部自動交換編碼器,對COVID-19 CT 圖像進行生成等。
但是,目前提出的COVID-19 CT 圖像生成模型均存在生成質量不高、病變區域不明顯、模型泛化能力不強等問題。為此,本文提出了一種基于pix2pixHD[5]的CT 圖像生成方法,該方法可以生成高質量的COVID-19 CT 圖像,在性能上優于現有的COVID-19 CT 圖像生成方法。可以達到擴充數據集,提升病變識別模型的準確性和泛化能力的作用。
pix2pixHD 是一個CGAN[6]框架,由生成器(G)和鑒別器(D)組成,用于圖像到圖像的翻譯。生成器的目標是將標簽映射到真實的圖像上,而鑒別器的目標是將真實圖像和翻譯后的圖像區分開來。
pix2pixHD 采用了多尺度鑒別器,多尺度鑒別器由原始圖像、原始圖像的1/2 下采樣和原始圖像的1/4 下采樣3 個尺度組成。其多尺度的鑒別器目標函數可表示為
具體來說,pix2pixHD 從鑒別器的多個層中提取特征,并學習從真實圖像和生成圖像中匹配這些中間表示。為了便于表示,本文將鑒別器Dk的第i層特征提取器表示為(從輸入到Dk的第i層)。pix2pixHD 通過極大極小博弈,對給定標簽映射的真實圖像的條件分布進行建模,其特征匹配損失LFM(G,Dk)計算為
其中,T是總層數;Ni表示每層中的元素數;s表示標簽映射;x表示真實圖像。
最終目標函數將GAN損失和特征匹配損失結合為
空間自適應歸一化(Spatially -Adaptive Normalization,SPADE)[7]模型是一 個條件歸一 化層,其通過空間自適應及學習的變換,使用輸入語義布局來調制激活,并可以在整個網絡中有效地傳播語義信息。此方法中首先生成一列學習好的數據分布,然后通過一層一層的SPADE ResBlk 堆疊而成,feature map 尺寸由小到大,通道數由大到小來生成最終的真實圖像。而在每一層SPADE ResBlk 中,不斷地加入語義分割圖片來進行干預,使網絡在每一層都能學習到多尺度的語義信息。
SPADE 殘差塊是一個類似于ResNet[8]殘差塊的結構,除了具有ReLU 激活函數和3×3 的卷積以外,還會用標簽信息和SPADE 方式取代一次卷積,提升了殘差塊的運行速度,也可以時刻保持與真實標簽的距離,提升模型的準確度。
COVID-19 CT 圖像生成的主要目標是要獲得高質量、高分辨率的COVID-19 CT 圖像。為了提升圖像質量和分辨率,本文對pix2pixHD 網絡進行了兩點改進。首先對pix2pixHD 網絡引入了更多尺度的辨別器進行均值判別,使生成圖像的邊界更為清晰,之后在生成器的上采樣階段,引入SPADE 殘差塊,生成器包含一系列帶有上采樣層的SPADE 殘差塊,以獲得更好的性能。改進的pix2pixHD 模型主要流程如圖1 所示。

圖1 改進的pix2pixHD 模型的主要網絡框架Fig.1 Overall framework of the improved pix2pixHD
1.3.1 SPADE 殘差塊
受SPADE 模型的啟發,本文在上采樣層加入SPADE 殘差塊,能夠更好的提升圖像質量,使用SPADE 學習所有歸一化層的調制參數。由于每個殘差塊以不同的比例運行,因此本文對語義掩碼進行下采樣,以匹配空間分辨率。如圖2 所示,在上采樣階段加入SPADE 殘差快,在不改變損失函數的情況下,使圖像質量有所提升。其可以更好地保留針對常見歸一化層的語義信息。

圖2 改進的pix2pixHD 模型的生成器網絡結構Fig.2 Generator framework of the improved pix2pixHD
同時,本文使用LReLU 激活函數替換了原本的ReLU 激活函數,主要是為了進一步緩解梯度消失的問題,SPADE 殘差塊具體流程如圖3 所示。

圖3 SPADE 殘差塊結構Fig.3 The framework of the SPADE residual block
1.3.2 引入多尺度辨別器
鑒別器結構采用了pix2pixHD 的多尺度判別器。雖然鑒別器的結構是相同的,但尺度最大的鑒別器接受域最大,其具有更全局的圖像視圖,可以指導生成器生成全局一致的圖像,而尺度最小的判別器鼓勵生成器生成更細的細節。本文引入1/8 下采樣鑒別器,使圖像細節更為清晰,生成圖像質量更好。新的多尺度的鑒別器損失函數可表示為
本文完整目標函數將GAN損失和特征匹配損失結合為
其中,λ作為控制這兩項的重要性的參數。對于特征匹配損失LFM,Dk僅用作特征提取器,不會最大化損失LFM。
輸入層為卷積核數目為64、大小為4×4、步長為2 的卷積層,卷積操作后使用Leaky ReLU 激活函數。輸出層為卷積核數目為1、大小為4×4、步長為1 的卷積層,卷積操作后使用Sigmoid 激活函數。中間包括4 個下采樣操作,每次操作之后通道數目會加倍,下采樣操作的卷積核為4×4,步長為2 的卷積層,卷積操作后使用BN 層加快學習速率,激活函數采用Leaky ReLU 函數。如圖4 所示。

圖4 多尺度鑒別器結構Fig.4 Multi-scale discriminator framework of the improved pix2pixHD
綜上所述,本文所提出的算法流程如下:
算法本文提出的算法流程
本文使用的數據集是20 例診斷為COVID-19患者的CT 掃描圖像,且專家對肺部和感染區域進行了分割標注[9]。大小為630×630×310,有病圖占正常圖比例的52.86%。該數據集是公開數據集中少有的帶有專家標注的數據集,附有Ma Jun、Ge Cheng、Wang Yixin、An Xingle 等專家的標注。
本文使用了cycleGAN[10]、pix2pix[11]、styleGAN[12]和pix2pixHD 作為本方法的對比方法,將數據集分割為630×630 的二維圖像,去除邊界沒有肺部輪廓的圖像后,得到517 張圖像。在訓練過程中,本文將450 張圖像作為訓練集,50 張作為驗證集,剩余的17 張作為測試集,并將圖像分辨率擴大到1 024×1 024,通過對測試集進行評價得出實驗結論。
pix2pixHD 模型在Pytorch 框架上使用Adam 優化器[13]進行訓練,初始學習率為0.000 2,前100 次周期的學習率相同,在接下來的100 次周期里線性下降到0。權值初始化為均值為0,標準差為0.02的高斯分布。
本文的實驗平臺為NVIDIA Tesla V100 16 GB及32 GB 內存的服務器,Linux 系統,python 版本為3.8,pytorch 版本為1.11,CUDA 版本為11.3。
本文采用常見的評估方法,對每個模型生成的結果使用同一個分割模型DeepLabV2[14],并比較預測的分割區域與專家標注的匹配程度。如果輸出圖像是真實的,則訓練的語義分割模型應該能夠預測專家標注結果。實驗中使用平均交并比(MIoU)和像素精度(Accu)去評價分割區域與專家標注的匹配程度。除MIoU和Accu分割性能指標外,還使用Fr'echet 初始距離[15](FID)來測量生成結果分布與真實圖像分布之間的距離,使用峰值信噪比(PSNR)和結構相似性(SSIM)來評價圖像的生成質量。
2.3.1 峰值信噪比(PSNR)
峰值信噪比是用來衡量兩張圖像差異的指標,一般通過均方誤差(MSE)進行定義。若有兩個m×n單色圖像I和K,兩張圖像噪聲近似的情況下,則兩者的均方誤差定義為
峰值信噪則定義為
其中,MAXI表示的是圖像點顏色的最大數值,PSNR越大則表示圖像越清晰,噪聲越小。
2.3.2 結構相似性(SSIM)
結構相似性是一種衡量兩幅圖像相似度的指標,相似性越高則表明圖像生成與原圖越接近。給定兩個圖像,其結構相似性可表示為
其中,μx、μy分別代表圖像x、y的像素灰度平均值;分別代表圖像x、y的像素方差;σxσy表示圖 像x、y的協方差;c1、c2是用來維持穩定的常數。
2.3.3 Fr'echet 初始距離(FID)
Fr'echet Inception 距離(FID)是評估生成圖像質量的度量標準,專門用于評估生成對抗網絡的性能。該分數作為對已有Inception 分數(IS)的改進而被提出。由于Inception 分數缺少生成圖像與真實圖像的比較,而研發FID分數的目的是基于一組生成圖像的統計量與來自目標域的真實圖像的統計量進行比較,實現對生成圖像的評估。FID值越低,圖像質量越好;反之,得分越高,質量越差,兩者關系應該是線性的。計算公式可表示為
其中,x表示真實圖像;g表示生成圖像;tr表示矩陣對角線上元素總和;μ和σ的含義為用Inception V3 來提取中間層的特征,然后使用一個均值為μ,方差為σ的正態分布去模擬這些特征的分布。較低的FID意味著生成樣本和真實樣本的相關性越高,即圖像質量也會越高。
DeepLabV2[15]提出使用空洞卷積進行密集采樣,在不增加參數量或計算量的情況下有效地擴大感受野,然后擴展空洞卷積提出了ASPP 來捕獲多個尺度的上下文,最后利用條件隨機場(CRF)進行后處理以提高邊緣定位精度。
DeepLabV2 是現在較為準確且流行的分割算法,大量的GAN 模型使用其作為評價指標的一環,將生成結果分割后進行后續的平均交并比和像素精度評價具有很好的評價能力。
2.3.4 平均交并比(MIoU)
平均交并比(MIoU)是衡量圖像分割精度的重要指標,其計算兩個集合的交集和并集之比,在語義分割的問題中,這兩個集合為真實值和預測值。計算公式可表示為
其中,P代表預測值;G代表真實值;MIoU越高則意味著分割越準確。
2.3.5 像素精度(Accu)
像素精度即預測正確的像素占所有像素的比例。像素精度是圖像分割的最簡單指標,其是正確分類的總像素除以總像素,可以理解為圖像中正確分類像素的百分比。計算公式可表示為
其中,R代表預測準確的像素數,而A代表圖像中全部的像素數。同樣,Accu越高則意味著分割結果越準確。
在同一數據集上,利用本文方法與pix2pixHD模型、pix2pix 模型、cycleGAN 和styleGAN 等4 個語義圖像生成模型進行實驗比較,得出的峰值信噪比、結構相似性、FID、平均交并比和像素精度指標結果見表1。

表1 各模型圖像評價指標對比表Tab.1 Comparison of image evaluation indexes of each model
從表1 中可知,本文方法在COVID-19 數據集上生成的圖像具有更高的峰值信噪比和結構相似性,分別達到了12.46 和0.327,說明該模型具有更高的圖像質量;MIoU達到了31.79,Accu達到了77.68,高于其它對比模型(由于styleGAN 是無標簽生成,所以不適用此分析)。可見,分割后依然能與標簽取得較好的匹配,說明實驗結果取得了更好的分割精度,對后續訓練分割或分類模型可以更好的起到擴充數據集,提升模型準確度的作用。同時在FID上,本文模型達到了57.4,較其它方法有顯著性的提升,具有更好的圖像多樣性。
在生成的圖像細節與特點上,本文提出的方法也能有效提升圖像細節,生成的圖像結果如圖5 所示:

圖5 本文方法與其他對比方法實驗結果圖Fig.5 Experimental results of the improved pix2pixHD method and other comparative methods
由圖5 中可以發現,cycleGAN 生成的圖像邊界混亂,沒有現實意義;pix2pix 和pix2pixHD 模型雖然具有清晰的肺部輪廓,但是對于病灶區域的生成并不明顯;styleGAN 模型生成的圖像雖然較為模糊,分辨率明顯較低;而本文方法生成的圖像邊界清晰,毛玻璃區域明顯且準確,具有良好的現實意義,可以起到擴充數據集,提升分割模型的訓練精度,最終達到輔助醫生診斷的效果。
2.4.1 圖像質量評價
本文將通過峰值信噪比和結構相似性對生成圖像的質量進行評價,通過對本文方法和對比模型在每20 次迭代時,對測試集PSNR進行統計,結果如圖6 所示。

圖6 各模型的峰值信噪比迭代對比圖Fig.6 Iterative comparison diagram of peak signal-to-noise ratio of each model
從圖6 中可知,提出的模型在峰值信噪比上有較大提升,不僅在質量上高于其他模型,其收斂速度也有顯著提升。本方法在該數據集上生成的圖像峰值信噪比可以達到12.46,高于pix2pixHD、pix2pix等模型。
本文對圖像的結構相似性(SSIM)進行了評價。通過對本文方法和對比模型在每20 次迭代對測試集SSIM進行統計,結果如圖7 所示:

圖7 各模型的結構相似性迭代對比圖Fig.7 Iterative comparison diagram of structural similarity of each model
從圖7 中可知,本文所提出的模型對比其它方法具有更高的結構相似性,說明生成的圖像對比真實圖像具有較高的相似性。對比pix2pixHD 模型失真程度更小,可以更好的保留圖像的像素特點。
2.4.2 相關性和多樣性評估
本文使用Fr'echet Inception 距離,對生成圖像和真實圖像進行相關性和多樣性的定量評估,實驗結果如圖8 所示。

圖8 模型的Fr'echet Inception 距離迭代對比圖Fig.8 Iterative comparison diagram of FID of each model
通過圖8 可以看出:提出的模型具有更低的FID,而且可以更快的達到收斂。本文模型取得了更好的相關性和多樣性。對比pix2pixHD 有所提高,對比其它方法也具有明顯的優勢。
2.4.3 圖像細節分析
除了在圖像量化指標上的提高,本方法生成的圖像細節也有所提升,圖像細節對比如圖9 所示。

圖9 生成圖像細節分析圖Fig.9 Detail analysis diagram of the generated image
從圖9 中可以明顯發現,本文方法生成的圖片可以在病變區域與正常區域看到明顯的邊界,而pix2pixHD 模型邊界較為模糊,幾乎看不出病變區域邊界,使得生成的圖像現實意義不大,在后續的分割、分類任務中無法起到提升泛化能力的作用。
2.4.4 改進消融實驗
為了證實加入SPADE 殘差塊和1/8 尺度鑒別器的效果,本文將模型與pix2pixHD、僅加入殘差塊和僅加入鑒別器的模型進行消融實驗,在各項指標上進行比較,實驗結果見表2。

表2 改進消融實驗對比表Tab.2 Comparison table of improvement experiment
從表2 中可知,PSNR和SSIM在加入SPADE殘差塊后有顯著升高,表現了SPADE 殘差塊在pix2pixHD 模型中提升圖像質量的顯著作用;但在MIoU和Accu上并沒有顯著提升,說明SPADE 殘差塊對圖像細節提升并不明顯,DeepLabV2 模型并沒有辦法更準確的分割出病灶區域。但加入1/8 尺度鑒別器可以提升圖像細節部分,使MIoU與acc指標得到提升,與SPADE 殘差塊形成很好的補充,最終使得生成的圖像與細節同時得到提升。
本文同時對加入每個模塊的PSNR和SSIM進行了迭代統計,結果如圖10、圖11 所示。加入了SPADE 殘差塊的pix2pixHD 模型,對模型收斂速度也有著顯著提升,而未使用SPADE 殘差塊的情況,提前約20 輪達到收斂。

圖10 消融實驗的峰值信噪比迭代對比圖Fig.10 Iterative comparison diagram of the peak signal-to-noise ratio of improved experiment

圖11 消融實驗的結構相似性迭代對比圖Fig.11 Iterative comparison diagram of structural similarity of improved experiment
為了解決COVID-19 CT 圖像生成質量不高,邊界不清晰,病灶區域不明顯的問題,本文提出了一個改進的pix2pixHD 模型。該網絡通過改進鑒別器數量和生成器殘差塊的方式,提升了生成圖像的質量與細節。與pix2pixHD 相比,利用SPADE 殘差塊補充了上采樣過程中的信息損失,減少了圖像失真。實驗結果表明,文中提出的方法在COVID-19 CT 圖像數據集上對于生成圖像的質量、多樣性、相似性、匹配度上都有顯著性提升,可以有效解決COVID-19 CT 圖像較少的情況。
在后續的研究中,模型還有進一步提高的潛力,可在生成器部分使用更多樣的特征提取方式或引入更高效鑒別器,以提升模型的性能。同時研究高效的分割模型,最終使生成的圖像能夠提升模型性能,使醫生可以得到合理的診斷建議。