999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進協同訓練的肺部CT影像COVID-19病灶分割方法

2023-09-13 03:07:26洋,楊
計算機工程與設計 2023年8期
關鍵詞:監督方法模型

汪 洋,楊 云

(云南大學 國家示范性軟件學院,云南 昆明 650504)

0 引 言

在新型冠狀病毒肺炎(COVID-19)診療中,專業醫師通過觀察患者肺部計算機斷層掃描(CT)影像的病灶情況觀察病情[1]。利用計算機進行影像配準、分類和分割等任務可以減少醫師工作量,其中醫學影像分割任務目的在于提取影像中目標區域,描繪出目標區域的影像即標簽稱為分割圖,由專業醫師標記的分割圖稱為金標準數據。醫學影像由于復雜且分辨率較高,傳統方法效果不佳[2]。

在深度學習方法中,全監督分割網絡UNet[3]是大部分研究的基石[4],但依賴金標準數據,半監督學習[5]則利用未標記數據輔助訓練。現有的半監督分割研究主要有基于自訓練的方法[6,7]構建偽標簽數據集[8]加入訓練集中迭代訓練,通過優化損失函數提升標準協同訓練性能[9,10],通過熵最小化[11]和一致性正則化[12-15]得到高質量偽標簽,但上述方法未考慮偽標簽不確定性問題[16];基于對抗訓練的方法[17]通過判別網絡和分割網絡進行對抗訓練提升性能。

針對如何提高偽標簽質量和度量偽標簽不確定性問題,本文從協同訓練[9]方式出發,使用UNet[3]和DeepLabV3+[18]搭建網絡,首先集成各網絡對未標記數據的輸出生成最終偽標簽提高偽標簽質量;之后,從無監督學習[19]中受到啟發,使用JS距離[9]度量偽標簽的不確定性,改善偽標簽的監督損失。最后在公開的COVID-19數據集上進行實驗,結果表明,所提方法改善了偽標簽質量,同時減輕因低質量偽標簽造成的性能下降。

1 相關工作

1.1 半監督學習

半監督學習目標之一是如何獲取質量更高的偽標簽。Fan等[7]基于自訓練方式通過依次標注定量數據構建高質量偽標簽數據集迭代訓練;Mean-Teacher[12]從模型出發,最小化學生和教師模型對未標記數據的輸出損失,同時利用學生模型更新教師模型,而文獻[14,15]通過訓練模型對添加擾動的同一數據輸出保持一致,獲取未標記數據的高質量偽標簽;Qiao等[9]通過擴展相似損失和對抗樣本損失使各網絡學習到更多的互補信息。Zhang等[17]通過引入判別網絡和分割網絡進行對抗訓練不斷優化分割網絡性能。協同訓練則通過各網絡互相標記偽標簽給予對方訓練達到相互指導訓練目的。

1.2 不確定性估計

不確定性估計指對預測結果的可信程度進行建模。Kendall等[16]將不確定性的原因總結為數據自身標注不準確程度和模型預測的不準確程度。Zheng等[19]通過多分支網絡中輔助分支和主分支之間輸出的差異對偽標簽不確定性進行建模。本文方法不引入輔助分支,使用JS距離對各網絡輸出間的差異進行建模來度量偽標簽的不確定性,從而給予偽標簽監督損失一項正則項,改善分割結果。

1.3 評價指標與損失函數

醫學影像分割任務中,常用指標包括基于分割圖相似程度和基于混淆矩陣的指標。相似度方面本文選取Dice系數和IOU分,其中X、Y分別為預測分割圖和真實分割圖,如式(1)、式(2)

Dice(X,Y)=2|X∩Y||X|+|Y|

(1)

IOU(X,Y)=|X∩Y||X∪Y|

(2)

混淆矩陣用于描述二分類問題的分類結果。在COVID-19影像中,定義病灶區域為前景區域,其像素為陽性,非病灶區域為背景區域,其像素為陰性。

如表1所示,TP為真陽性,即預測值和真實值都為病灶區域;FP為假陽性,即預測值為病灶區域但真實值為背景區域;TN為真陰性,即預測值和真實值都為背景區域;FN為假陰性,即預測結果為背景區域但真實值為病灶區域式(3)即敏感度也稱召回率,表示真實分割圖中有多少陽性像素被預測出來,式(4)即精確率,表示在預測分割圖中,真陽性像素預測正確的比例有多少,由于TPR和精確率互斥,因此引入式(5)F1分數評價綜合性能。在分割問題中TP、FP、TN和FN值均為一個分割圖中所有像素分類結果的總和。上述指標值越大則越優異。

TPR=TPTP+FN

(3)

Precision=TPTP+FP

(4)

F1=2×Precision×TPRPrecision+TPR

(5)

Jadon等[21]總結了不同場景下圖像分割任務中常用的損失函數。主要包括交叉熵損失,用于衡量預測分布和真實分布差異,Dice損失衡量集合相似度。

二分類交叉熵損失定義如下式(6)

BCE_loss=E[∑nj(-yjilog(ji)+(1-yji)log(1-ji))]

(6)

Dice損失由Dice系數演變而來,定義如下式(7)

Dice_loss=1-2|X∩Y|+eps|X|+|Y|+eps

(7)

為防止分母出現0,式(7)中定義一個極小值eps,在本文中值為1e-6。

本文將Dice損失和二分類交叉熵損失進行組合,定義為Total_loss,如式(8),其中權重α=0.5

Total_loss=α×Dice_loss+(1-α)×BCE_loss

(8)

2 本文方法

本節介紹本文方法,首先闡述問題定義,之后分別介紹集成偽標簽的優勢、改善損失函數的方法和整體框架。

2.1 問題定義

在協同訓練中,定義f1(v1)=f2(v2),f1和f2表示兩個模型,v1和v2表示有標簽數據集L={xi,yi}Mi=1下同一數據的不同視圖,U={ui}Ni=1和P={ui,pi}Ni=1表示未標記數據集和模型輸出,P經過argmax函數處理后得到偽標簽數據集Y^={ui,i}Ni=1, 協同訓練假設在訓練過程中f1和f2互相從未標記數據集U中標記數據構建偽標簽數據集P到各自的L中迭代訓練,從而互補各自的信息。但從單模態數據中獲取同一數據的不同視圖條件較難滿足,Wang等[20]證明從不同網絡角度出發也可以獲取較好的性能。

半監督學習中一個問題在于偽標簽由模型輸出產生,這并不能保證偽標簽的準確性,如果使用低質量偽標簽迭代訓練,則模型會越訓練越差,因此多數方法目的在于盡量獲取高質量偽標簽i,其次問題在于偽標簽最理想情況下可以達到i=yi,但多數時候偽標簽i無法和真實標簽yi相比,即對同一數據xi來說,i和yi之間仍存在誤差,因此半監督算法性能上限為全監督算法。從以上兩點出發,本文方法首先以平均集成方式獲取高質量偽標簽i,之后對偽標簽i的不確定性進行建模,即估計i和yi之間的誤差,為偽標簽的監督損失提供一項正則項。

2.2 集成偽標簽

如圖1所示,圖1(a)、圖1(b)、圖1(c)和圖1(d)圖分別為真實標簽、集成偽標簽、UNet和DeepLabV3+輸出的偽標簽。

圖1 加權集成效果對比

集成策略如式(9)

pi=12(piu+pid)

(9)

其中,piu和pid分別為UNet和DeepLabV3+的輸出概率分布,pi為集成結果,pi中各像素值經過softmax函數映射到[0,1]的概率值,i則由其經過argmax函數處理得到。首先在Dice系數上,集成方法相比較DeepLabV3+的Dice系數提升1.27%,相比較UNet提升0.99%。從可視化結果可以發現圖1(b)消除了圖1(c)中錯誤多余的部分,而相比較圖1(d),邊緣更細膩,整體Dice系數也有一定提升。實驗結果表明,在迭代訓練過程中,這種集成方式獲取的偽標簽相比較標準協同訓練互相給予標簽更可靠。

2.3 改善損失函數

使用bias表示偽標簽i和真實標簽yi之間的誤差,而i由pi得來,如式(10)

bias=pi-yi

(10)

在監督任務中,由于存在真實標簽,因此使用損失函數計算模型輸出和yi之間的誤差,最小化這個損失將使得預測值逐漸逼近真實值。在半監督學習中并沒有真實標簽yi,因此使用i替代yi,即bias≈pi-i,對單個網絡的訓練來說應計算網絡輸出和i之間的誤差,以UNet為例,式(10)可以更改為下式

bias≈piu-i

(11)

在本文方法中,式(11)已經在單個網絡的偽標簽訓練中進行優化,而協同訓練一個核心思想是基礎網絡能夠互相優化,充分訓練后對同一數據的輸出趨于一致,最終兩者達到最佳性能,如果兩個模型對同一數據的輸出不一致,兩個模型輸出之間的差異就是兩者不確定的地方,而pi由式(9)集成而來。因此使用兩個模型的輸出差異近似bias,式(11)可以改為下式(12)

bias≈piu-pid

(12)

其中,piu和pid分別為UNet和DeepLabV3+的輸出概率分布,在實驗中使用JS距離來度量bias,如式(13)、式(14)

KL(K‖Q)=∑x∈XKxlogKxQx

(13)

JSD(K‖Q)=12KL(K‖M)+12KL(Q‖M)

(14)

式(13)和式(14)分別表示KL和JS距離計算方式。在式(14)中,K和Q分別為在X下的兩個概率分布,M為兩者的平均值。KL距離交換分布K和Q結果不同,不滿足對稱性,JS距離滿足對稱性,范圍在[0,1]之間,能較好的度量兩個模型的輸出差異。在式(14)中,即K=piu,Q=pid,bias≈E[JSD(piu‖pid)], E表示求解期望值。

如圖2所示,圖2(b)圖和圖2(c)圖分別為兩個模型對同一數據的輸出,圖2(d)為根據式(12)計算的各像素上JS距離經過歸一化后的可視化圖像。圖4(g)為真實標簽和集成偽標簽之間的差值,同樣經過歸一化后進行可視化。在圖4(d)中,顏色深度越接近0代表越相似,越接近1越不相似;在圖4(g)中,顏色深度等于0代表兩個像素值相同,其它深度表示兩個像素值不同。可以發現圖4(d)和圖4(g)中的噪聲處相似,因此使用兩個模型的輸出差異來度量bias。

圖2 對JS距離可視化

原始JS距離越小表示越相似,所以本文將其取負并帶入以e為底的指數中,當此值越大時,說明兩個分布越相似。此時,定義偽監督損失Pseudo_loss,對偽標簽的損失函數改善如式(15)

Pseudo_loss=exp{-E[JSD(piu‖pid)]}×Total_loss+E[JSD(piu‖pid)]

(15)

當E[JSD(piu‖pid)] 較小時,exp{-E[JSD(piu‖pid)]} 值接近1,此時模型認為Total_loss是可信的,各模型優化式中第一項;當E[JSD(piu‖pid)] 較大時,exp{-E[JSD(piu‖pid)]} 接近0,此時,模型認為Total_loss是不可信的,同時由于第一項值接近0,各模型優化第二項,即優化兩個模型輸出不同之處,這和Qiao等[9]所指出的給予一項各網絡輸出間的相似損失類似,加快基礎網絡的收斂。由于有標簽數據集存在真實標簽,因此其監督損失不進行正則化。

2.4 訓練框架

本文方法在標準協同訓練模式上進行改進。如圖3所示,首先以有標簽數據集預訓練兩個模型,之后在未標記數據集中隨機選取n個未標記數據,使用兩個網絡推理各自對未標記數據的輸出后,通過將雙方輸出平均集成獲得最終偽標簽,得到由n個未標記數據和對應的偽標簽組成偽標簽數據集,并將偽標簽數據集加入到訓練集當中組成新的訓練集,訓練過程中遇到偽標簽和真實標簽按照2.3節分別使用不同的損失策略,直到未標記數據集為空停止訓練。

圖3 訓練框架

下面是具體算法步驟。首先定義:訓練數據和未標記數據為D=L∪U,其中L={xi,yi}Mi=1為有標簽數據集,U={ui}Ni=1為未標記數據集;DeepLabV3+和UNet網絡分別為fd和fu;網絡的輸出和集成偽標簽分別為Pd={pid}M+Ni=1、Pu={piu}M+Ni=1和Y^={i}Ni=1; 循環次數為K;步驟如下所示:

(1)初始化:使用L預訓練網絡fd和fu;

(2)循環K次:

(3)隨機選取n個未標記數據:U′={ui}ni=1, 循環U′:

(4)使用fd和fu推理ui得到 {pid}ni=1和 {piu}ni=1;

(6)得到偽標簽數據集U′={ui,i}ni=1;

(7)將U′加入L中,此時L=L∪U′;

(8)使用數據集L={ui,i}ni=1∪{xi,yi}Mi=1訓練fd和fu;

(9)從L中隨機采樣一個批次數據;

(10)如果是{xi,yi},則根據式(8)分別計算fd和fu的輸出損失;

(11)如果是{ui,i},則推理另一網絡對ui的輸出并根據式(15)分別計算fd和fu的輸出損失;

(12)各網絡計算一個批次數據的損失期望值,更新網絡;

(13)達到最大循環次數時,訓練結束。

最終結果由各自最佳模型通過加權集成得到,加權系數定義如式(16)

wu=Dice(piu,yi)Dice(piu,yi)+Dice(pid,yi)

(16)

pi=wu×piu+(1-wu)×pid

(17)

其中,piu和pid分別表示兩個網絡的輸出,yi表示真實分割圖。wu為UNet輸出的權重,1-wu為DeepLabV3+輸出的權重,按照式(17),通過兩個權重計算最終的輸出pi并通過argmax函數處理得到預測分割圖。

3 實驗與分析

3.1 數據集與處理

本文選用Ma等[22]公布的COVID-19公開數據集,該數據集包含20例患者的CT掃描影像,由放射學專家標注感染區域,數據集示例如圖4所示。

圖4 數據集示例

本文針對肺部感染區域進行分割任務。由于影像均包含由胸前連續掃描形成的幾十到幾百張切片,因此首先去除其中非肺部掃描切片,得到1720幅肺部CT切片,并且按照文獻中所給方法,將CT切片的Hu值縮放到[-1250,250],標準化至[0,255],在輸入網絡時,則將所有像素值歸一化到[0,1]。在實驗中,隨機選取400幅切片作為訓練集,1120幅切片作為未標記數據集,200幅切片作為測試集。

3.2 實驗設置

本文方法中兩個網絡的優化器均選用Adam,學習率設為1e-4,權重衰減系數設為1e-4,循環次數K設為28,每隔5次,降低學習率至原始0.9倍,每個批次的大小設為8。其中每次共同標記40幅未標記切片加入到訓練集當中。在計算Dice損失時兩個網絡的輸出經過softmax函數映射到范圍為[0,1]的概率分布。實驗設備為Tesla V100(16 GB),框架使用Pytorch搭建,采用不同隨機種子進行實驗。

在驗證本文方法的有效性方面,使用優化損失函數的方法DCT[9],熵最小化方法Advent[11],基于一致性的方法MT[12]、UAMT[13]、ICT[14]、CCT[15]和基于對抗訓練的DAN[17]等半監督算法與本文方法對比,均以UNet作為骨干網絡,同時對比在標準協同訓練上的提升;以兩個網絡在訓練集上監督訓練的評價分數作為基準,在訓練集和未標記數據集的全部數據上監督訓練的評價分數作為性能上限。之后,進行消融實驗驗證第二節中各個改進部分對最終分割性能的影響。

3.3 結果分析

3.3.1 對比實驗結果分析

如表2所示,在結果中可以發現,各網絡相較于基準均有所提升,在大多數指標上本文方法獲得了更好的性能。

表2 對比實驗結果

首先分析基于分割圖相似度的指標。本文方法相比較較好的MT方法Dice系數提升1%,IOU分數提升1.74%。基于一致性的方法ICT和CCT在相似度指標上表現不佳,這是因為一致性方法鼓勵模型對同一數據添加不同擾動后的輸出保持一致,其中ICT通過插值方式獲得擾動數據,CCT則通過添加噪聲方式獲得擾動數據,首先醫學影像數據像素值變化范圍大,添加擾動后數據變化較大,其次有標簽數據較少這使得解碼器本身不可靠,因此不能保證擾動數據的輸出一致性,這使得偽標簽不可靠,因此在醫學影像分割任務上表現不佳。不同的是MT和UAMT從模型出發,通過學生模型更新教師模型,這和協同訓練中相互指導訓練思想類似,因此獲得了較高分數,由于教師模型參數由學生模型得到,這使得兩者網絡通常為同一結構,因此最終分數和本文方法有差距。本文方法相比較DAN的Dice系數提升2.25%,這表明對抗訓練并不適合本文任務。DCT增加一項對抗樣本損失,對抗樣本的產生通過添加噪聲實現,標簽則由對方網絡生成,這不能保證對抗樣本對應標簽的準確性,因此效果不佳。Advent由于減少了偽標簽的熵,因此改善了網絡的輸出偽標簽質量,也獲得了不錯的分數。

在分析基于混淆矩陣的指標中,首先可視化TPR和精確率指標之間的差異,如圖5所示。

圖5 Dice、TPR和精確率指標可視化

在圖5中,圖5(a)為真實標簽,圖5(b)為本文方法預測結果,圖5(c)為本文方法預測結果和真實標簽各像素的差值可視化,圖5(d)為CCT預測結果,圖5(e)為CCT結果和真實標簽各像素的差值可視化,圖5(c)和圖5(e)中顏色深度等于0.5區域為假陰性區域,顏色深度等于1區域為假陽性區域。從結果可以發現本文方法Dice和TPR分數更高,表明本文方法識別到了更多的陽性像素,對病灶區域更敏感,偏向將像素預測為陽性,因此在圖5(c)中,FN數量低于圖5(e),FP數量高于圖5(e);而CCT則精確率指標更高,這是由于CCT更關注預測的陽性是否正確,因此在圖5(e)中,假陰性FN數量較高,而假陽性FP數量較少,模型更偏向將像素預測為陰性,對病灶區域不敏感。從顏色深度可以發現圖5(c)相比較圖5(e)假陰性區域更少。

在表2中可以發現各方法對敏感度和精確率的側重點不一樣。本文方法精確率相比較MT提升2.82%,CCT則獲得了最高的精確率,這表明CCT預測出的陽性像素正確率最高,而本文方法TPR指標更高,這表明本文方法召回了更多的陽性像素,傾向于將像素預測為陽性。F1分數則顯示本文方法綜合性能最高,相比較MT方法提升2.38%。在基于混淆矩陣指標的任務中,選取合適的方法可以獲得更好的結果。

同時,本文隨機可視化了一些不同病灶大小的預測分割圖,如圖6所示,從中可發現在病灶較小時,本文預測分割圖的Dice分數也高于其它方法,相應的也更接近真實標簽。

圖6 分割結果可視化對比

3.3.2 消融實驗結果分析

本節分析在第二節各個改進部分對最終分割性能的影響。首先以標準協同訓練作為基準,之后對比加入集成方式和在此基礎上優化損失函數進行對比。

結果見表3。

表3 消融實驗結果

首先在表3中可以看出,各項改進相比較標準協同訓練指標均有所提高。集成方式相比較標準協同訓練Dice系數提升1.55%,優化損失函數后,相比較集成方式Dice系數提升0.63%,TPR指標提升幅度達到1.98%。從整體上看,集成方式的精確率達到了最高值,這表明在訓練過程中集成方式得到的偽標簽正確陽性像素的比例高,在迭代訓練后,精確率也達到了最高值,同時精確率指標也得到一定提升,最終的F1分數也最佳。在此基礎上改善偽標簽監督損失后,相比較集成方式其余各項指標均有提升,其中敏感度提升最大,精確率有所降低,這表明優化損失后網絡召回了更多的陽性像素,在病灶區域占比較小時,優化損失函數更容易發現病灶區域,最終的F1分數和集成方式相比也差距較小。

4 結束語

在新型冠狀病毒肺炎(COVID-19)的診斷中,使用計算機輔助醫師診療有著重要意義,半監督學習則可以減少對金標準數據的需要。結合兩者,本文首先以協同訓練方式構建半監督醫學影像分割網絡,利用共同標記未標記數據偽標簽,之后以集成方式獲取質量更高的偽標簽;在偽標簽的不確定性問題中,本文使用JS距離對偽標簽的不確定性進行建模,改善偽標簽的監督損失。實驗結果表明,在測試集整體性能上,本文方法均有較好表現。未來工作還可在如何生成置信度更高的偽標簽和不確定性估計上進一步探究,并將本文方法引入到其它任務中。

猜你喜歡
監督方法模型
一半模型
重要模型『一線三等角』
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
重尾非線性自回歸模型自加權M-估計的漸近分布
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产成人艳妇AA视频在线| 国产欧美另类| 国产成人精品亚洲77美色| 欧美一区二区自偷自拍视频| 久久成人国产精品免费软件 | 免费在线看黄网址| 国产真实乱子伦精品视手机观看| 久久99久久无码毛片一区二区| 日韩久草视频| 国产精品一区不卡| 国产亚洲欧美在线专区| 免费人成网站在线高清| 日韩区欧美区| 国产成人一区二区| 国产成人综合日韩精品无码首页| 操国产美女| 日本在线亚洲| 亚洲国产综合自在线另类| 国产区在线观看视频| 欧美国产日韩在线| P尤物久久99国产综合精品| 精品国产一区二区三区在线观看| 国产成人综合网| 国产乱视频网站| 91破解版在线亚洲| 在线观看精品国产入口| 国产一级α片| 日韩区欧美国产区在线观看| 制服丝袜一区| 欧美国产在线精品17p| 日韩123欧美字幕| 欧美日韩高清在线| 免费无遮挡AV| 国产乱论视频| 国产最新无码专区在线| 国产偷倩视频| AV不卡无码免费一区二区三区| 国产欧美日韩一区二区视频在线| 97av视频在线观看| 97超级碰碰碰碰精品| 日韩毛片在线播放| 久久久久九九精品影院| 亚洲最新网址| 国产女人18水真多毛片18精品 | 亚洲色婷婷一区二区| 亚洲人在线| 亚洲精选高清无码| 97国产成人无码精品久久久| 精品视频一区二区观看| 亚洲国产欧美国产综合久久| 男女猛烈无遮挡午夜视频| 亚洲日韩高清在线亚洲专区| 国产麻豆福利av在线播放| 久久久91人妻无码精品蜜桃HD| 99热这里只有精品免费国产| 亚洲国产日韩一区| 国内自拍久第一页| 国产一区二区三区夜色| 久久网欧美| 精品午夜国产福利观看| 美女扒开下面流白浆在线试听| 一区二区三区成人| 香蕉色综合| 无码福利日韩神码福利片| 夜夜操狠狠操| 国产最爽的乱婬视频国语对白| 曰韩人妻一区二区三区| a级毛片毛片免费观看久潮| 亚洲伊人天堂| 国产经典在线观看一区| 日韩小视频在线播放| 国产91小视频在线观看| 国产成+人+综合+亚洲欧美| 免费又爽又刺激高潮网址 | 最新国产你懂的在线网址| 亚洲一区二区无码视频| 日韩a级片视频| 国产亚洲视频免费播放| 亚洲AⅤ无码日韩AV无码网站| 日本成人不卡视频| 五月婷婷综合在线视频| 国产69囗曝护士吞精在线视频|