張 憲 史滄紅 李孝杰
1(成都信息工程大學計算機學院 成都 610103) 2(西南交通大學信息科學與技術學院 成都 611765)(zhangxian317@gmail.com)
在計算機視覺中,可視化圖像關鍵特征區(qū)域是一個重要而需要深入研究的問題.視覺特征歸因(visual feature attribution)是圖像可視化的新興問題.2018年Baumgartner等人[1]發(fā)表于CVPR(computer vision and pattern recognition)的會議論文將其定義為:檢測和可視化圖像中特定類別的特征區(qū)域.另外,視覺特征歸因問題對于弱監(jiān)督目標定位、理解疾病效應和數(shù)據(jù)中的重要隱藏信息起著非常重要的作用.特別在醫(yī)學臨床中,醫(yī)生需要根據(jù)病人病理圖像或影像數(shù)據(jù)人工獲取病人的疾病信息.與區(qū)分明顯的自然圖像不同,正常人與患者的圖像特征數(shù)據(jù)通常差異性較小,因此從大量的圖像數(shù)據(jù)中尋找有用的病理信息無疑單調乏味、耗時且容易出錯.本文主要解決了醫(yī)學圖像的病變特征的標注問題,即自動顯示病變區(qū)域.
弱監(jiān)督目標定位與分割[2]通常采用分析訓練好的卷積神經(jīng)網(wǎng)絡分類器[2],結合類激活映射(class activation mapping, CAM)[3]、導向反向傳播等方法獲得最終的特征圖[4],進而確定目標位置.但此類方法通常只提供判定圖像屬于某種類別的大概依據(jù)(范圍),而不能實現(xiàn)精準定位.如在弱監(jiān)督目標定位中[5-6]訓練數(shù)據(jù)是弱標記的,即標簽僅包括圖像或視頻中是否含有特定目標,而不提供該目標的具體位置信息.基于已有的數(shù)據(jù)標簽信息,弱監(jiān)督目標定位只有通過訓練分類器結合分類特征圖達到目標定位的目的.但是直接基于神經(jīng)網(wǎng)絡分類器完成該類任務,存在一定的缺陷.因為該類分類器只是針對某些顯著特征區(qū)域而不是整幅圖片進行分類.在訓練期間,如果圖像冗余信息具有更強的特征,則分類器可能會忽略掉具有低判別力的感興趣特征.所以,此類方法最后可能得不到我們的期望目標.因此,如果圖像包含多個目標的類別信息,則可能存在漏檢、錯檢的問題.
目前,基于生成式對抗網(wǎng)絡(generative adver-sarial networks, GAN)[7]的視覺特征歸因圖像生成方式已具有好的視覺效果.但是GAN網(wǎng)絡很難讓生成器網(wǎng)絡G(x)和判別器網(wǎng)絡D(x)達到負載均衡的效果,同時又存在梯度消失、難以訓練的問題.為了解決GAN網(wǎng)絡面臨的問題和彌補傳統(tǒng)方式只關注局部特征的缺陷,Baumgartner等人[1]使用Wasserstein距離來更好地訓練G(x)和D(x),獲得顯著特征區(qū)域,提出了VA-GAN(visual attribu-tion wasserstein GAN)[1]網(wǎng)絡來生成整幅圖像的特征區(qū)域.同時,VA-GAN網(wǎng)絡為了加速網(wǎng)絡收斂,引入WGAN-GP的梯度懲罰[8](gradient penalty)來防止梯度消失或爆炸.雖然基于WGAN和WGAN-GP網(wǎng)絡的VA-GAN能準確顯示特征區(qū)域,但仍存在較大冗余信息.此外,WGAN在真實訓練中依舊存在訓練困難、收斂速度慢的問題.WGAN-GP在不同數(shù)據(jù)集中的適用性較差.
為解決上述問題,本文提出了一種基于生成對抗對特征的視覺特征歸因網(wǎng)絡.與VA-GAN網(wǎng)絡通過確保生成更接近正常人的圖像y0進而得到病變區(qū)域特征信息G(x1)不同,我們直接顯式地鑒別判定生成病變區(qū)域特征.首先構造關鍵(如病變)特征區(qū)域對抗對,采用生成和鑒別對抗網(wǎng)絡,將病人圖像數(shù)據(jù)x1送入生成網(wǎng)絡G(x1)生成正常圖像y0,把構造的特征對抗對(adversarial pair, AP) (y0-x1,x1-x0)送入鑒別網(wǎng)絡進行特征修正、正常與否鑒別,通過對抗學習生成關鍵特征區(qū)域.該種方式可有效去除病變區(qū)域特征的冗余信息,實現(xiàn)更精確的病變信息定位,有效解決了疾病特征可視化問題.此外,我們采用了Wasserstein距離約束具有關鍵特征的對抗對(y0-x1,x1-x0)服從相同的分布,使生成的病變特征y0-x1更接近于真實病變特征x0-x1,進而有效過濾冗余信息.同時該距離可解決傳統(tǒng)生成對抗網(wǎng)絡難以達到負載均衡的缺陷.另外使用梯度懲罰加速收斂過程.實驗結果證明了我們網(wǎng)絡的有效性.
目前,使圖像關鍵區(qū)域特征可視化的網(wǎng)絡有很多,其中,最具有代表性的為類激活映射圖(class activation mapping, CAM)、GAN網(wǎng)絡、WGAN網(wǎng)絡、WGAN-GP網(wǎng)絡和VA-GAN網(wǎng)絡.這些網(wǎng)絡結構在關鍵區(qū)域特征可視化取得了很好的效果.
1) 類激活映射圖(class activation mapping, CAM)[9]

(1)

醫(yī)學圖像上的大量工作都是建立在CAM基礎之上的.在醫(yī)學領域通過CAM熱力圖來做特征區(qū)域的顯示,從而判斷病變區(qū)域,便于診斷.該類方法會受到其他噪聲的干擾,導致病變區(qū)域定位不準確,即使沒有噪聲的干擾,也存在邊緣模糊和標注范圍不明確的問題.
2) GAN網(wǎng)絡
GAN網(wǎng)絡通常由2部分組成,生成器G(x)和判別器D(x).其中,生成器G(x)負責生成類似于真圖的假圖x1,判別器D(x)則通過學習真實圖像x0與假圖x1的特征來鑒別輸入鑒別器的圖片真假,兩者通過相互博弈,在競爭中共同進步,直到生成器生成的圖像與真實圖像屬于相同分布.經(jīng)典GAN網(wǎng)絡損失函數(shù)為

(2)
其中,x0為真圖,x1為假圖且x1=G(z),z為隨機噪聲.
基于GAN網(wǎng)絡的生成思想,產(chǎn)生了越來越多應用.在醫(yī)學圖像的背景下,GAN[11]已應用于視網(wǎng)膜眼底圖像中的超分辨率,用于半監(jiān)督心臟分割,合成MR圖像的計算機斷層掃描圖像和運動建模.針對原始GAN網(wǎng)絡生成圖像模糊問題,SRGAN利用感知損失(perceptual loss)和對抗損失(adversarial loss);使用SPResnet作為生成網(wǎng)絡,再加上2個亞像素卷積層(sub-pixel convolution layers)被用來增大特征尺寸;判別器使用VGG19提取特征信息來提升恢復圖片的真實感實現(xiàn)圖像的超分辨率.與傳統(tǒng)的GAN網(wǎng)絡相比,CGAN (conditional genera-tive adversarial nets)[12]在生成器和判別器上多了一個標簽的輸入,使其變?yōu)闂l件概率公式,實現(xiàn)圖像到圖像的翻譯,即CGAN就是根據(jù)條件生成指定要求的圖像.為了完成從文本描述到圖像的合成,StackGAN[13]以隨機向量z和文本描述刻畫的向量作為輸入,采用標準的conditional GAN網(wǎng)絡生成物體的基本形狀和顏色;然后將生成結果和文本描述作為輸入對抗生成高質量的圖片.
3) WGAN(Wasserstein GAN)網(wǎng)絡
WGAN網(wǎng)絡由Gulrajani等人[8]于2017年基于Wasserstein距離[14]提出的用于生成對抗網(wǎng)絡損失函數(shù)的新型方式,以解決傳統(tǒng)GAN網(wǎng)絡通過JS散度拉近2種分布(生成分布和真實分布)的不平衡問題.該方法通過近似Wasserstein距離,利用參數(shù)數(shù)值范圍受限的判別神經(jīng)網(wǎng)絡來最大化可求解的Wasserstein距離形式優(yōu)化生成器使得Wasserstein距離縮小,以有效拉近生成分布與真實分布.WGAN既解決了訓練不穩(wěn)定的問題,也提供了可靠的訓練進程指標,而且該指標與生成樣本的質量高度相關.WGAN與原始的GAN網(wǎng)絡相比做了4點改動:
① 判別器最后一層去掉sigmod;
② 生成器和判別器的loss不取log;
③ 每次更新判別器的參數(shù)之后把它們的絕對值截斷到不超過一個固定常數(shù);
④ 不用基于動量的優(yōu)化算法.
4) WGAN-GP網(wǎng)絡
WGAN-GP網(wǎng)絡與GAN網(wǎng)絡相比較,WGAN加速了訓練過程,但仍存在訓練困難、收斂速度慢、效果提升不顯著的問題.2017年,Gulrajani等人[8]指出直接采用weight clipping處理Lipschitz限制條件是造成WGAN上述問題的主要原因.Gulrajani等人[8]為了加速網(wǎng)絡收斂,提出了WGAN-GP[8]的思想,使用梯度懲罰(gradient penalty, GP)來防止梯度消失或爆炸問題.WGAN-GP網(wǎng)絡針對Lipschitz限制要求判別器的梯度不超過常數(shù)k,梯度懲罰則設置一個額外的loss項來實現(xiàn)梯度與k之間的聯(lián)系,其目標函數(shù)如式(3)所示.另外,WGAN-GP模型是對每個樣本獨立施加梯度懲罰,所以在判別器的模型架構中不能使用批量歸一化(batch normaliza-tion)約束,因為它會引入一批數(shù)據(jù)(batch)內(nèi)部不同樣本之間的相互依賴關系.

(3)
5) VA-GAN網(wǎng)絡
VA-GAN網(wǎng)絡是基于WGAN-GP網(wǎng)絡結構,2018年Baumgartner等人[1]提出了一種視覺特征歸因網(wǎng)絡(VA-GAN)[1],以實現(xiàn)病變區(qū)域特征圖生成功能.VA-GAN將圖像分為2類xi,其中,i∈{0,1},0代表正常人,1代表病人.該方法首先通過將病人圖像數(shù)據(jù)x1送到生成器G(x)中,生成病變MaskM(x1)特征圖;其次,將該Mask添加到類別為“1”的病理圖像上,構造出正常人圖像y0=M(x1)+x1和真實正常人圖像x0分別送入判別器D(x)中,通過對抗訓練確保生成的Mask受到約束,使其與類別為“1”的圖像疊加,更接近類別為“0”的圖像,使y0和x0有相同的特征分布.最后通過(y0-x1)獲得病變區(qū)域視覺歸因特征圖.圖1為Baumgartner等人[1]提出的網(wǎng)絡構架.
基于GAN的視覺特征歸因網(wǎng)絡是研究可視化圖像的關鍵特征區(qū)域的一個重要研究問題.WGAN,VA-GAN等相關視覺特征歸因網(wǎng)絡已經(jīng)具有很好的視覺效果.雖然使用WGAN-GP結構的VA-GAN在理論上解決了WGAN的缺陷,但我們發(fā)現(xiàn)VA-GAN在視覺特征歸因上除了針對病變區(qū)域生成特征歸因圖,還產(chǎn)生了大量的冗余特征信息.所以為了重點關注病變特征,去除冗余特征,本文提出了一種更高效的基于生成對抗對特征的視覺特征歸因網(wǎng)絡.

Fig.1 The overall structure of VA-GAN圖1 VA-GAN網(wǎng)絡整體結構圖
與VA-GAN網(wǎng)絡通過確保生成更接近正常人的圖像進而得到病變區(qū)域特征信息不同,我們直接顯式地鑒別判定關鍵(病變)區(qū)域特征.該種方式可有效去除病變區(qū)域特征的冗余信息,生成更精確的病變信息.
我們的網(wǎng)絡結構如圖2所示.與生成對抗網(wǎng)絡類似,該網(wǎng)絡也由2部分組成:生成器G(x)和判別器D(x).G(x)基于傳統(tǒng)的U-net網(wǎng)絡模型[15],我們在生成器的每層卷積與反卷積之后采用batch normalization做約束,以加速網(wǎng)絡的收斂性、防止梯度的消失與爆炸.同時,為了增強網(wǎng)絡的訓練效果,數(shù)據(jù)輸入被規(guī)范為[-1,1]之間.實驗采用的具體G(x)網(wǎng)絡結構如圖3所示.而D(x)鑒別器是經(jīng)典卷積神經(jīng)網(wǎng)絡,由幾層卷積加池化組成以方便提取高效特征.我們采用的D(x)網(wǎng)絡結構如圖4所示.

Fig.2 The framework of visual feature attribution based on adversarial feature pairs圖2 基于生成對抗特征的網(wǎng)絡框架圖

Fig.3 The generator’s network structure G(x)圖3 生成器網(wǎng)絡結構G(x)

Fig.4 Discriminator network structure D(x)圖4 判別器網(wǎng)絡結構D(x)
與VA-GAN網(wǎng)絡類似,將圖像xi分為2類,其中i∈{0,1},0代表正常人,1代表病人.我們首先將病人圖像數(shù)據(jù)xi送到生成器G(x)中,生成特征圖G(xi)(即圖2中的G(patient),同時結合病人圖像數(shù)據(jù)x1生成新的圖像y′(如式(4)所示).然后,將y′送入tanh函數(shù)中,生成正常人圖像y0(如式(5)所示).其次,我們構造一種更能突出關鍵特征如病變區(qū)域的特征圖Maskm0(如式(6)所示),進而建立病變區(qū)域特征對抗對(m0,x0-x1)作為鑒別網(wǎng)絡的D(x)的輸入做真假鑒別.通過病變區(qū)域對抗特征對互相博弈學習不斷調整訓練G(x)和D(x)網(wǎng)絡,使生成的病變區(qū)域Maskm0更接近病變區(qū)域的歸因特征圖x0-x1(或服從病變區(qū)域圖像分布).最后m0顯示的就是病人的病變區(qū)域特征信息.其中,具體的結構展示和每個步驟的結果見附錄A.
y′=x1+G(x1),
(4)
y0=tanh(y′),
(5)
m0=y0-x1,
(6)
其中,x1為病人圖像,y0為生成的正常人圖像,m0為得到的病變區(qū)域圖像.
對抗對(adversarial pair, AP):針對Baumgartner等人[1]提出的VA-GAN視覺特征歸因網(wǎng)絡因考慮全局特征容易產(chǎn)生大量的冗余信息,我們構造了一種更能突出病變區(qū)域的特征對抗對(m0,x0-x1),以獲得更精確的視覺定位信息.VA-GAN將整幅特征圖像的所有信息y0和x0直接送入D(x)判別器中,通過不斷學習x0的特征進而拉近y0與x0之間的分布.該種對抗生成方式雖然能生成病變區(qū)域的視覺效果歸因特征圖,但卻產(chǎn)生了大量的冗余信息.
y0→D(x)←x0,
(7)
m0→D(x)←(x0-x1),
(8)
其中,y0為生成的正常人圖像,x0為正常人的圖像,m0為生成的病變區(qū)域,x1為病人.
因此為了重點關注病變特征,去除冗余特征信息,我們提出了一種更能突出病變區(qū)域的特征對抗對AP(m0,x0-x1),如式(8)所示用于鑒別器學習.
從式(7)和式(8)可直觀地看出,(m0,x0-x1)包括較少的冗余信息,更能突出病人與正常人圖像的差異性,通過m0和(x0-x1)特征對抗學習,使m0更接近病變區(qū)域(x0-x1)或兩者服從相同分布.從實驗中可以證明此種方式無論在視覺效果上,還是在實驗指標上,此種網(wǎng)絡均要優(yōu)于VA-GAN.
與VA-GAN網(wǎng)絡損失函數(shù)類似,將原始的WGAN網(wǎng)絡損失函數(shù)改為
LGAN(M,D)=Ex~Pd(x|c=0)[D(x0-x1)]-
Ex~Pd(x|c=1)[D(m0)].
(9)
為了得到更精確的病變區(qū)域和去除冗余信息,我們采用L1范數(shù)對Maskm0進行稀疏正則化約束,即:

(10)


(11)

(12)
在具體實驗中,根據(jù)VA-GAN網(wǎng)絡我們設置λ=10,ε∈[0,1],ε是與m0維度相同的滿足均勻分布的隨機值.

LWGAN_GP=LWGAN+PPeanlty+λ0Lreg.
(13)
在實驗中我們設置λ0=100.
為了驗證所提網(wǎng)絡結構的有效性,本文主要與相關方法CAM, WGAN,VA-GAN做對比實驗.實驗結果評價指標包括定性(視覺效果圖)和定量指標:NCC(normalized cross correlation),PSNR(peak signal-to-noise ratio),SSIM(structural similarity),ED(歐氏距離)來衡量不同方法的效果差別.其中,定量指標是通過比較ground-truth label和M(x)(即生成的mask)的相似程度來對比的,各項指標介紹可參考文獻[16-17].
實驗在python 3.6.7,Ubuntu 16.04,Tensorflow 1.3.1平臺下,使用型號為NVIDIA GeForce RTX 2080 TI的GPU上運行.可用于單體梯度計算的最大批量大小為2+2.為了獲得更可靠的梯度估計,我們在執(zhí)行訓練步驟之前計算了總共6個minibatch的梯度.在實驗中,我們以交替訓練的方式優(yōu)化判別器和生成器網(wǎng)絡參數(shù),但與常規(guī)GAN網(wǎng)絡的訓練方式不同,為了達到最接近優(yōu)化的判別器,我們在每訓練判別器5次之后再訓練更新一次生成器.另外,對于剛開始的前25次迭代和每第100次迭代,我們會在訓練100次判別器之后訓練一次生成器.我們使用ADAM優(yōu)化器來執(zhí)行所有實驗的更新步驟,優(yōu)化器參數(shù)設置為β1=0,β2=0.9,學習率為10-4,優(yōu)化器的其余參數(shù)均為默認的內(nèi)部參數(shù).最后,我們將λ值設為100作為權重映射正則化項.
受數(shù)據(jù)集限制,本文主要采用3種不同數(shù)據(jù)集、合成數(shù)據(jù)肺部病理數(shù)據(jù)和心臟病理數(shù)據(jù)的實驗.

Fig.5 Description of synthetic data圖5 合成數(shù)據(jù)實例
首先我們構建了合成數(shù)據(jù)集,生成了具有2個類別為10 000個112×112的合成圖像數(shù)據(jù)集.圖5為模擬健康對照組(設標簽為0)和患者組(標簽1)實例圖像數(shù)據(jù).在圖5中第1行為Ground_Truth,第2行為真實數(shù)據(jù).生成圖像在2個類別中均勻分布.其中,合成數(shù)據(jù)的健康對照組(標簽0)和患者(標簽1)都是包含具有隨機高斯噪聲與高斯模糊濾波器卷積的圖像.但是患者表現(xiàn)出2種疾病效果之一,即一種是正方形在右下方位置的病人圖像(如圖5(a))和一種在左上方的病人圖像(如圖5(b)),2種疾病都使用相同的數(shù)據(jù)標簽(標簽1),偏離中心點的位置最多為5個像素.
第2種數(shù)據(jù)集是肺部病變圖像集.令原始肺部圖像作為正常人,在正常肺部數(shù)據(jù)上添加隨機噪聲作為病理數(shù)據(jù)集,即異常圖像.由于沒有合適的病理圖片數(shù)據(jù)源,我們使用肺部切片作為數(shù)據(jù)的正常圖片.我們采用在肺部切片的隨機區(qū)域使用椒鹽噪聲來構造病變區(qū)域,以此來達到病人與正常人切片成對出現(xiàn)的效果.為了證明VA-GAN-AP的魯棒性,病理位置與之前的合成數(shù)據(jù)相比,更加具有隨機性.肺部數(shù)據(jù)的效果圖如圖6所示:

Fig.6 Examples of lung data圖6 肺部數(shù)據(jù)實例
第3種數(shù)據(jù)集是心臟病變圖像數(shù)據(jù),用于捕捉心肌的病變區(qū)域.心臟圖像不同于肺部數(shù)據(jù),而在心臟切片中,存在血池、動脈等其他更加豐富的冗余信息.其中,心臟切片如圖7(a)所示,而心肌的位置為標紅的環(huán)形區(qū)域如圖7(b)所示.心肌的病變區(qū)域特征不如肺部數(shù)據(jù)和合成數(shù)據(jù)明顯,其病變區(qū)域和Ground_Truth如圖8所示.我們要做的工作就是在心肌中捕捉到病變區(qū)域.

Fig.7 Heart data圖7 心臟數(shù)據(jù)

Fig.8 Examples of heart data圖8 心臟數(shù)據(jù)實例
本次實驗中除了我們自己的實驗方法,對比實驗包括CAM[4],WGAN[8],VA-GAN[1].CAM是將傳統(tǒng)的分類器的Dense層去掉,換成全局平均池化(平均池化獲得的權重值為wk),如式(1)所示,再乘以特征圖反向疊加到原圖得熱力圖,在此實驗中,我們用Vgg16作為分類器,去掉所有Dense層.因為我們做的是二分類,所以將最后一層卷積的輸出通道數(shù)改為2,對每層特征圖做GAP,做二分類預測.最后權重乘以特征圖反向疊加到原圖得預測結果.WGAN網(wǎng)絡是用Wasserstein距離來拉近病人于正常人的分布特征,在實驗中,我們根據(jù)VA-GAN網(wǎng)絡使用G(x)直接生成正常人的圖像,在目標函數(shù)中,使用期望代替log項來近似Wasserstein距離.VA-GAN網(wǎng)絡借用WGAN-GP的思想,在WGAN的基礎上做了梯度懲罰,在實驗中,G(x)生成mask,加上病人x1得到正常人y0,如式(7)所示,判別器D(x)判別正常人x0和生成的正常人y0之間的差異,最后由y0-x1得病變區(qū)域.這幾類方法的實驗結果和對比分析將會在下面給出.
在合成數(shù)據(jù)中,CAM, WGAN,VA-GAN的視覺結果如圖9所示.因為CAM的最大池化層較少,所以其感知區(qū)域也會很小,這就意味著該特征圖無法同時捕捉到2個正方向,所以其邊緣信息丟失的比較嚴重.從圖9中可看出,CAM對病變區(qū)域的捕捉已經(jīng)完全丟失了邊緣信息.而WGAN和VA-GAN產(chǎn)生了局部信息較清晰的效果圖,且保留了其邊緣信息的效果.
各網(wǎng)絡對合成數(shù)據(jù)的NCC等各項定量評價指標值如表1~4所示.從實驗的效果和實驗指標可以看出,CAM可以大體上捕捉到病變區(qū)域的位置,但是對邊緣細節(jié)信息的捕捉卻不夠明顯.WGAN和VA-GAN的效果要明顯優(yōu)于CAM.而我們基于對抗特征的方法VA-GAN-AP的不管定性還是定量結果均更加接近ground-truth的效果,且我們的方法各項指標值均明顯優(yōu)于其他網(wǎng)絡.

Table 1 NCC on the Synthetic Data表1 合成數(shù)據(jù)NCC評價指標

Table 2 PSNR on the Synthetic Data表2 合成數(shù)據(jù)PSNR評價指標

Table 3 SSIM on the Synthetic Data表3 合成數(shù)據(jù)SSIM評價指標

Table 4 ED on the Synthetic Data表4 合成數(shù)據(jù)ED評價指標
針對真實肺部數(shù)據(jù)集,CAM,WGAN,VA-GAN及我們網(wǎng)絡的視覺結果如圖10所示.由圖10我們可以看出,CAM的病變區(qū)域的捕捉效果針對性太差,而WGAN和VA-GAN可較準確的捕捉到病變區(qū)域信息.肺部切片病理數(shù)據(jù)與合成數(shù)據(jù)相比而言,其病變區(qū)域的位置隨機性更大,病變區(qū)域的大小也不盡相同,從視覺效果圖上可以看出WGAN,VA-GAN和我們網(wǎng)絡對病變區(qū)域的捕捉并沒有受到這些因素的干擾,從而證明此種方法的魯棒性很好,而我們的方法具有更精準的效果.
為了進一步驗證各方法在肺部真實數(shù)據(jù)集上的可行性,我們采用了4種定量指標:NCC,PSNR,SSIM和歐氏距離,其定量結果如表5~8所示.從實驗指標結果中可以看出,WGAN網(wǎng)絡和VA-GAN網(wǎng)絡要明顯優(yōu)于CAM網(wǎng)絡.WGAN網(wǎng)絡的NCC指標要比CAM網(wǎng)絡高了0.5,我們提出網(wǎng)絡的NCC為0.69,比CAM網(wǎng)絡高0.58,比WGAN網(wǎng)絡和VA-GAN網(wǎng)絡高出0.2和0.23;WGAN網(wǎng)絡和VA-GAN網(wǎng)絡的PSNR和SSIM也分別比CAM網(wǎng)絡高20和0.94,歐氏距離也明顯優(yōu)于CAM網(wǎng)絡.

Table 5 NCC on the Lung Data表5 肺部數(shù)據(jù)NCC評價指標

Fig.10 Examples of visual attribution on lung data obtained by different methods圖10 不同網(wǎng)絡在肺部數(shù)據(jù)集上的視覺效果圖

Fig.11 The Examples of visual attribution on heart data obtained by different methods圖11 不同網(wǎng)絡在心臟數(shù)據(jù)集上的視覺效果圖

Table 6 PSNR on the Lung Data表6 肺部數(shù)據(jù)PSNR評價指標

Table 7 SSIM on the Lung Data表7 肺部數(shù)據(jù)SSIM評價指標

Table 8 ED on the Lung Data表8 肺部數(shù)據(jù)ED評價指標
心臟數(shù)據(jù)實驗結果.針對真實肺部數(shù)據(jù)集,CAM網(wǎng)絡、WGAN網(wǎng)絡、VA-GAN網(wǎng)絡及我們網(wǎng)絡的視覺結果如圖11所示.由圖11可以看出,CAM網(wǎng)絡的病變區(qū)域的捕捉效果針對性太差,而WGAN網(wǎng)絡和VA-GAN網(wǎng)絡也對病變區(qū)域的捕捉失去了準確性.心臟切片相對于肺部切片病理數(shù)據(jù)與合成數(shù)據(jù)相比而言,其病變區(qū)域的位置隨機性更大,病變區(qū)域也更小,病變特征更加不明顯,肉眼難以觀察到,且除了心肌上的病變區(qū)域外,還有存在更加豐富的血池,動脈等冗余信息.從視覺效果圖上可以看出WGAN網(wǎng)絡和VA-GAN網(wǎng)絡已經(jīng)完全受到冗余信息的干擾,無法正確的捕捉到病變區(qū)域,而我們提出的VA-GAN-AP卻能正確的捕捉到病變區(qū)域,去除冗余特征信息.從而證明此種方法的魯棒性很好,而我們的方法具有更精準的效果.
為了進一步驗證各方法在心臟真實數(shù)據(jù)集上的可行性,我們采用了4種定量指標:NCC,PSNR,SSIM, ED(歐氏距離),其定量結果如表9~12所示.從定量指標結果可以看出,WGAN網(wǎng)絡和VA-GAN網(wǎng)絡要明顯優(yōu)于CAM網(wǎng)絡.WGAN網(wǎng)絡的NCC指標要比CAM網(wǎng)絡高了0.5,雖然我們網(wǎng)絡

Table 9 NCC on the Heart Data表9 心臟數(shù)據(jù)NCC評價指標

Table 10 PSNR on the Heart Data表10 心臟數(shù)據(jù)PSNR評價指標

Table 11 SSIM on the Heart Data表11 肺部數(shù)據(jù)SSIM評價指標

Table 12 ED on the Heart Data表12 心臟數(shù)據(jù)ED評價指標
在NCC指標上值為0.058,只比VA-GAN網(wǎng)絡高了1.0×10-4,但是在PSNR,SSIM,ED(歐氏距離)3處指標上和其他3種對比方法拉開了顯著的差距.
本文實驗共用了合成數(shù)據(jù)、肺部病理切片和心臟切片3種數(shù)據(jù)集.合成數(shù)據(jù)的病變區(qū)域為2個正方形區(qū)域,其位置偏離中心位置最多5個像素,是為了增加測試難度,但是對結果并沒有顯著影響.而使用肺部病理數(shù)據(jù)更是增加了病變區(qū)域的隨機性,為訓練增加了難度.從對肺部病理數(shù)據(jù)的實驗結果來看,還是準確捕捉到了病變區(qū)域的位置.心臟數(shù)據(jù)是3種數(shù)據(jù)中冗余信息最豐富,病變特征信息最不明顯,最難以捕捉心肌上病變區(qū)域的數(shù)據(jù)集,我們的網(wǎng)絡均可捕捉到了病變區(qū)域.根據(jù)以上的實驗過程和實驗結果,可以知道無論是在合成數(shù)據(jù)中還是在肺部病理切片數(shù)據(jù)或者是在心臟切片數(shù)據(jù)中,WGAN和VA-GAN和我們網(wǎng)絡的效果都比較客觀.
在計算機視覺中,將輸入圖像的特定特征區(qū)域可視化是一個深入研究的問題.經(jīng)過比對與分析,發(fā)現(xiàn)基于神經(jīng)網(wǎng)絡分類器進行特征分析的時候會產(chǎn)生冗余的特征信息.所以,為了彌補傳統(tǒng)方式只關注局部特征的缺陷,且容易產(chǎn)生冗余病變區(qū)域特征,我們提出了一種基于生成特征對抗對的視覺特征歸因網(wǎng)絡.在合成數(shù)據(jù)和真實肺部圖像上的實驗結果驗證了我們所提方法的有效性.我們的算法也有一些局限性,其中最大的局限性在于要求訓練數(shù)據(jù)集(病人、正常人)數(shù)據(jù)成對存在,用于捕捉到病變區(qū)域.這也是我們的網(wǎng)絡被稱作基于生成特征對抗對的視覺特征歸因網(wǎng)絡,也是我們后續(xù)工作將要攻克的難題.