浦秀麗,劉翔,湯顯,宋家琳
1.上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海 201620;2.中國(guó)人民解放軍第二軍醫(yī)大學(xué)長(zhǎng)征醫(yī)院超聲診療科,上海 200003
在我國(guó),每年約有38萬(wàn)人死于慢性病毒性肝炎,其中,肝炎引發(fā)的肝硬化是主要原因之一。肝硬化由早期的肝纖維化發(fā)展形成,具體被定義為慢性肝損傷引起的再生結(jié)節(jié)周?chē)w維帶的組織學(xué)發(fā)展[1]。如果肝硬化病情未能得到有效的控制與治療,肝硬化進(jìn)一步惡化,很可能造成肝功能?chē)?yán)重?fù)p傷且難以恢復(fù),甚至造成死亡。對(duì)早期輕度肝纖維化進(jìn)行準(zhǔn)確診斷并采取有效措施是降低嚴(yán)重肝疾病發(fā)病風(fēng)險(xiǎn)的有效手段之一[2]。然而,當(dāng)前的肝硬化影像分析主要還是以人工判讀為主,主觀判斷造成的誤判難以避免。隨著人工智能技術(shù)的發(fā)展,許多學(xué)者將機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)運(yùn)用到肝纖維化、肝硬化的診斷中,這促進(jìn)計(jì)算機(jī)輔助醫(yī)學(xué)診斷的進(jìn)一步發(fā)展。
目前,用于評(píng)估肝臟疾病的醫(yī)學(xué)成像技術(shù)主要包括核磁共振成像(MRI)[3]、計(jì)算機(jī)斷層成像(CT)[4]以及超聲成像[5]等,超聲技術(shù)因無(wú)創(chuàng)無(wú)輻射、便捷、成本低等優(yōu)勢(shì)成為肝臟疾病影像學(xué)篩查的第一選擇[6]。當(dāng)肝臟出現(xiàn)彌漫性病變之后,病變部位的聲抗也會(huì)隨之發(fā)生改變,并在超聲圖像中反映出來(lái)[7]。如圖1所示,在超聲圖像中,正常肝臟的包膜呈現(xiàn)連續(xù)、光滑且厚度均勻的狀態(tài),而正常的肝實(shí)質(zhì)則表現(xiàn)為均勻一致的彌漫細(xì)小點(diǎn)狀中等回聲。對(duì)于存在慢性肝炎等病變的肝臟,肝實(shí)質(zhì)組織會(huì)逐漸老化,這將導(dǎo)致肝包膜形態(tài)結(jié)構(gòu)異常,往往表現(xiàn)為不平滑的狀態(tài),如波浪狀、階梯狀或鋸齒狀[8],在影像學(xué)上甚至?xí)尸F(xiàn)出斷裂形態(tài)。因此,肝包膜的精確分割對(duì)于肝纖維化、肝硬化的后續(xù)分析診斷具有重要意義。
傳統(tǒng)醫(yī)學(xué)圖像分割方法主要包括基于閾值的算法、基于邊緣的方法、基于區(qū)域的方法、基于能量泛函的方法、基于圖論的分割方法[9]等,通過(guò)傳統(tǒng)的機(jī)器學(xué)習(xí)算法研究肝包膜的分割已經(jīng)取得了一定的進(jìn)展,Liu 等[10]根據(jù)肝部超聲圖像的組成特點(diǎn),設(shè)計(jì)了一個(gè)滑動(dòng)窗口檢測(cè)器,結(jié)合動(dòng)態(tài)規(guī)劃,實(shí)現(xiàn)對(duì)肝包膜的自動(dòng)分割,Zhao 等[11]首先通過(guò)多尺度邊緣檢測(cè)器來(lái)定位所有曲線,然后利用高頻超聲圖像中肝包膜上下的特點(diǎn),通過(guò)能量函數(shù)分析過(guò)濾掉不相干的曲線,從而得到肝包膜。Liu 等[12]根據(jù)肝臟結(jié)構(gòu),首先檢測(cè)肝臟是否有腹水,然后分別設(shè)計(jì)遍歷搜索算法,實(shí)現(xiàn)肝包膜的分割。然而,當(dāng)超聲圖像更加復(fù)雜時(shí),傳統(tǒng)算法所分割的肝包膜的精確性還有待提高。隨著2014年全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)的提出,深度學(xué)習(xí)算法開(kāi)始廣泛應(yīng)用于圖像分割領(lǐng)域,而針對(duì)數(shù)據(jù)少,語(yǔ)義簡(jiǎn)單的醫(yī)學(xué)圖像分割任務(wù),Ronneberger 等[13]提出的UNet網(wǎng)絡(luò)的分割性能更加優(yōu)越,它所設(shè)計(jì)的跳層連接結(jié)構(gòu),將深層特征和淺層特征相結(jié)合,便于更加精確學(xué)習(xí)圖像細(xì)節(jié)信息。后續(xù)的許多研究如3D UNet[14]、TernausNet[15]、Dense UNet[16]、Res-UNet[17]等都是在此基礎(chǔ)上發(fā)展而來(lái)的。
本文模型ES-UNet 以常用分割網(wǎng)絡(luò)UNet 為基礎(chǔ),引入空洞卷積,擴(kuò)大感受野;同時(shí),添加了邊緣監(jiān)督模塊,從而將特征學(xué)習(xí)主要聚焦在圖像梯度較大的部分;此外,還設(shè)計(jì)了混合加權(quán)損失函數(shù),來(lái)平衡肝包膜部分與其他區(qū)域之間的極度不平衡情況。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型,可以有效提高肝包膜區(qū)域的分割精度。
本文整體模型ES-UNet結(jié)構(gòu)如圖2所示,以UNet的編解碼結(jié)構(gòu)為基礎(chǔ),在編碼部分添加空洞卷積和邊緣監(jiān)督模塊。各模塊的具體情況在以下幾節(jié)中詳細(xì)介紹。
UNet 是一種U 型的編解碼網(wǎng)絡(luò),最初由Ronneberger 在2015年提出,初衷是用來(lái)解決醫(yī)學(xué)圖像分割問(wèn)題,如圖2所示,UNet 的編碼部分包括4 個(gè)下采樣模塊,解碼部分包括4個(gè)上采樣模塊。每個(gè)下采樣模塊由兩個(gè)帶有RELU 激活層的3×3 的卷積層和一個(gè)2×2的最大池化層組成,每個(gè)上采樣模塊則是由一個(gè)反卷積和兩個(gè)帶有RELU 激活層的3×3 的卷積層組成。此外,編碼部分和解碼部分采用拼接的方式作特征圖的融合,這相比于同為編解碼結(jié)構(gòu)的FCN網(wǎng)絡(luò),UNet采用拼接作為特征圖的融合方式,從而形成更寬的特征。
近年來(lái),UNet廣泛應(yīng)用于醫(yī)療圖像分割領(lǐng)域,由于醫(yī)療影像語(yǔ)義較為簡(jiǎn)單,結(jié)構(gòu)相對(duì)固定,信息量單一,淺層特征和高級(jí)語(yǔ)義特征都很重要,因此U 型結(jié)構(gòu)的跳層連接很適用,此外,醫(yī)學(xué)影像的數(shù)據(jù)較少,獲取難度大,因此用大型復(fù)雜網(wǎng)絡(luò)訓(xùn)練反而容易造成過(guò)擬合,輕量的UNet網(wǎng)絡(luò)更有優(yōu)勢(shì)。
空洞卷積(Atrous Convolution)又叫擴(kuò)張卷積(Dilated Convolution),相比于正常的卷積,空洞卷積就是向卷積層引入了一個(gè)稱為“擴(kuò)張率(Dilation Rate)”的新參數(shù)[18],這個(gè)參數(shù)定義了卷積核處理數(shù)據(jù)時(shí)各值的間距,從而在標(biāo)準(zhǔn)的卷積核里注入空洞。普通卷積和空洞卷積圖示見(jiàn)圖3(以3×3卷積為例)。
在UNet的編碼操作中,普通下采樣模塊池化層及池化間隔的存在,雖然可以擴(kuò)大感受野,但同時(shí)也導(dǎo)致內(nèi)部數(shù)據(jù)結(jié)構(gòu)和空間層級(jí)化的信息丟失,這對(duì)于存在于圖像邊緣細(xì)節(jié)處的肝包膜分割是十分不利的,因此本文添加了空洞卷積模塊,在保證模型參數(shù)不增加,細(xì)節(jié)信息不損失的情況下,擴(kuò)大感受野,獲得更加密集的數(shù)據(jù),從而提高分割任務(wù)中細(xì)節(jié)部分的分割效果。本文采用擴(kuò)張率= 2的空洞卷積,在編碼部分,每一層都將輸入經(jīng)過(guò)常規(guī)卷積與空洞卷積并行處理后,拼接起來(lái)下采樣后作為下一層的輸入。
觀察肝部超聲圖像發(fā)現(xiàn),肝包膜部分處于梯度較大的區(qū)域,因此我們將通過(guò)Canny算法提取的邊緣信息作為輔助監(jiān)督標(biāo)簽[19],設(shè)計(jì)邊緣監(jiān)督模塊(見(jiàn)圖2灰色部分),引導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)邊緣細(xì)節(jié)信息。由于只有淺層的特征保留了足夠的邊緣信息,因此我們只在編碼模塊的前兩層采用邊緣監(jiān)督[20],如圖2所示,通過(guò)對(duì)第二個(gè)編碼卷積模塊的輸出進(jìn)行上采樣,使其與第一個(gè)編碼卷積模塊的輸出具有相同的分辨率,再經(jīng)過(guò)一個(gè)1×1 和3×3 的卷積層后,與第一個(gè)模塊輸出經(jīng)過(guò)1×1和3×3的卷積層后拼接,然后通過(guò)1×1 卷積后作為邊緣監(jiān)督模塊的輸出,通過(guò)計(jì)算其于邊緣標(biāo)簽的損失Ledge(式4),反向傳輸后用于監(jiān)督淺層卷積層的學(xué)習(xí)并引導(dǎo)編碼部分的分割。此外,我們將經(jīng)過(guò)邊緣引導(dǎo)后的特征圖與UNet網(wǎng)絡(luò)的特征圖做拼接融合,再經(jīng)過(guò)3×3 和1×1 的卷積處理后作為模型的輸出。
本文中,肝包膜所代表的正樣本相對(duì)其他區(qū)域(負(fù)樣本)的占比嚴(yán)重不平衡。如果使用普通的交叉熵?fù)p失,網(wǎng)絡(luò)會(huì)傾向于將多數(shù)像素預(yù)測(cè)為負(fù)樣本,極端情況下甚至全部預(yù)測(cè)為負(fù)樣本也能得到較高的分類(lèi)精度[21]。為避免這一問(wèn)題,本文基于Dice 系數(shù)設(shè)計(jì)了一種log-Dice 損失函數(shù)[22]。Dice 系數(shù)是一種度量?jī)蓚€(gè)集合相似度的函數(shù),通常用于計(jì)算兩個(gè)樣本的相似度,是語(yǔ)義分割最常用的評(píng)價(jià)指標(biāo)之一,其計(jì)算公式如下:
由于Dice 系數(shù)在模型訓(xùn)練時(shí),波動(dòng)過(guò)大,容易造成訓(xùn)練不穩(wěn)定,不利于反向傳播,我們添加了一個(gè)平滑常量smooth(通常設(shè)為1),并添加對(duì)數(shù)函數(shù),使損失波動(dòng)更加平穩(wěn),其表達(dá)方式如下:
在本文的邊緣監(jiān)督模塊中,考慮到邊緣標(biāo)簽中也存在類(lèi)別不平衡情況,而不嚴(yán)重的類(lèi)別不平衡問(wèn)題不適合用Dice 損失,筆者采用加權(quán)交叉熵(weighted cross entropy)來(lái)設(shè)計(jì)損失函數(shù)Ledge[23]:
其中,β表示正樣本權(quán)重,當(dāng)β<1 時(shí),可以減少假負(fù)樣本的比例,當(dāng)β>1 時(shí),可以降低假正樣本的比例。一般情況下,β與正樣本所占比例呈負(fù)相關(guān)。在邊緣標(biāo)簽中,圖像邊緣所代表的正樣本相對(duì)其他區(qū)域(負(fù)樣本)的占比較小,多次對(duì)比分析后,將β設(shè)為5,以增加模型正樣本的分割準(zhǔn)確率。
最后,為平衡兩輸出損失的貢獻(xiàn)度,經(jīng)過(guò)反復(fù)實(shí)驗(yàn)調(diào)試,我們將邊緣輸出損失與分割損失分別賦予0.165 和0.5 的權(quán)重,作為模型的整體損失,表達(dá)方式如下:
本文采用的實(shí)驗(yàn)數(shù)據(jù)是由第二軍醫(yī)大學(xué)附屬長(zhǎng)征醫(yī)院超聲科提供的肝部超聲圖像數(shù)據(jù)集,采集設(shè)備是美國(guó)GE 醫(yī)療系統(tǒng)公司的VolusonE8 超聲設(shè)備。采集頻率為4~10 MHz,當(dāng)患者處于仰臥位或左臥位時(shí),分別從劍突和右肋間間隙掃描肝組織,從而獲取左右肝葉的二維淺表切面超聲圖像。數(shù)據(jù)集包括乙型肝炎肝硬化患者47 例,其中,男性35 例,女性12例,年齡為28~77 歲,平均(51.6±11.6)歲;此外,還包括隨機(jī)選擇的無(wú)肝臟疾病者20 例(對(duì)照組),其中男性15例,女性5例,年齡26~76歲,平均(51.5±13.2)歲。根據(jù)Child-Pugh 改良分級(jí)標(biāo)準(zhǔn),將患者的肝硬化程度分為輕、中、重度3 個(gè)分期[24],其中,輕度肝硬化患者18 例,中度肝硬化患者16 例,重度肝硬化患者13例。上述肝硬化患者的診斷經(jīng)實(shí)驗(yàn)室(包括血液檢查)、超聲及其他影像學(xué)檢查、病理學(xué)分析,確認(rèn)無(wú)合并脂肪肝、血吸蟲(chóng)肝病及其他器質(zhì)性肝臟疾病。各類(lèi)分期患者在年齡、性別、體質(zhì)量上均無(wú)顯著差異。
由于原始數(shù)據(jù)中,不同分期的肝臟圖像數(shù)據(jù)量差異較大,為避免樣本不均衡,防止模型過(guò)擬合,提高模型泛化能力,筆者通過(guò)采用幾種常用的數(shù)據(jù)增強(qiáng)方法,如左右翻轉(zhuǎn)(上下翻轉(zhuǎn)不符合肝部超聲圖像結(jié)構(gòu)特性)、旋轉(zhuǎn)(15°~25°)、仿射變換、錯(cuò)切等,生成1 949 個(gè)圖像作為訓(xùn)練集,175 個(gè)圖像作為驗(yàn)證集,并將圖像尺寸批處理為256×256的大小。
本文實(shí)驗(yàn)基于Python 3.6 和Tensorflow 2.1 實(shí)現(xiàn),操作系統(tǒng)為Windows10,實(shí)驗(yàn)環(huán)境為2 塊Nvida-1080Ti 顯卡,為提高模型收斂速度,batch size 設(shè)置為16,預(yù)設(shè)200個(gè)epochs,并采用基于動(dòng)量的Adam 算法來(lái)對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化。設(shè)置初始學(xué)習(xí)率為1× 10-4,損失函數(shù)由式(5)確定。每個(gè)epoch 后,在驗(yàn)證集上對(duì)模型進(jìn)行評(píng)估,確保最終選擇的用于測(cè)試集評(píng)估的最佳模型在驗(yàn)證集上具有最佳的分割評(píng)估效果。設(shè)置早停(early stopping),防止訓(xùn)練過(guò)擬合,模型在第90 個(gè)epoch 后已經(jīng)趨于收斂,在第130 個(gè)epoch 后,模型訓(xùn)練停止,訓(xùn)練時(shí)間約為2.5 h。
由于肝包膜數(shù)據(jù)集中包膜只占圖像的極小部分面積,類(lèi)別分布嚴(yán)重不平衡,所以簡(jiǎn)單的準(zhǔn)確率指標(biāo)不足以評(píng)價(jià)實(shí)驗(yàn)結(jié)果,為定量評(píng)估網(wǎng)絡(luò)的分割性能,采用準(zhǔn)確率、精準(zhǔn)率、召回率、Dice 系數(shù)、平均交并比(Mean Intersection-over-Union,MIoU)等多項(xiàng)評(píng)價(jià)指標(biāo),各類(lèi)指標(biāo)均可通過(guò)混淆矩陣計(jì)算得出。混淆矩陣(Confusion Matrix)又稱誤差矩陣,是機(jī)器學(xué)習(xí)中總結(jié)分類(lèi)模型預(yù)測(cè)結(jié)果的情形分析表,矩陣表現(xiàn)形式見(jiàn)圖4。
其中,TP 表示圖像中肝包膜區(qū)域被分割模型預(yù)測(cè)為肝包膜的像素點(diǎn)總量,F(xiàn)N 表示圖像中肝包膜區(qū)域被分割模型預(yù)測(cè)為背景的像素點(diǎn)總量,F(xiàn)P 表示圖像中背景區(qū)域被分割模型預(yù)測(cè)為肝包膜的像素點(diǎn)總量,TN 表示圖像中背景區(qū)域被分割模型預(yù)測(cè)為背景的像素點(diǎn)總量。
準(zhǔn)確率(Accuracy,Acc),是指對(duì)于給定的測(cè)試數(shù)據(jù)集,分類(lèi)器正確分類(lèi)的樣本數(shù)與總樣本數(shù)之比:
平均像素精確度(Mean Pixel Accuracy,MPA),這是在準(zhǔn)確率基礎(chǔ)上做的提升,是指類(lèi)別內(nèi)像素正確分類(lèi)概率的平均值[25],在本文中可以表示為:
精準(zhǔn)率(Precision,P)又叫查準(zhǔn)率,是指在所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本的概率,公式如下:
召回率(Recall,R)又叫查全率,是指實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率,其公式如下:
精準(zhǔn)率和召回率是一對(duì)矛盾的度量,精準(zhǔn)率和召回率相互制約,為了能夠綜合考慮這兩個(gè)指標(biāo),我們需要找到二者之間的一個(gè)平衡,精準(zhǔn)率和召回率的加權(quán)調(diào)和平均F-measure(F1)被提出:
Dice 系數(shù)用于評(píng)價(jià)預(yù)測(cè)掩膜圖像與金標(biāo)準(zhǔn)掩膜圖像之間的相似度,是語(yǔ)義分割最常用的評(píng)價(jià)指標(biāo)之一,在本文中,可以用混淆矩陣來(lái)表達(dá)(式2)。
MIoU 是一個(gè)衡量圖像分割精度的重要指標(biāo),在評(píng)價(jià)圖像中各目標(biāo)類(lèi)別不均衡的語(yǔ)義分割網(wǎng)絡(luò)時(shí),簡(jiǎn)單的交并比并不能合理反映模型的分割效果,采用MIoU則更加客觀,用混淆矩陣表示如下:
為驗(yàn)證本文引入的空洞卷積、邊緣監(jiān)督模塊以及損失函數(shù)對(duì)模型的改進(jìn)效果,筆者采用消融實(shí)驗(yàn)來(lái)作對(duì)比分析,圖5是各種情況下對(duì)應(yīng)的效果圖,第1行分別為正常健康人,輕度、中度、重度肝硬化患者的肝包膜超聲圖像,第2 行是對(duì)應(yīng)的輔助監(jiān)督的邊緣,第3 行是對(duì)應(yīng)的肝包膜金標(biāo)準(zhǔn)圖像(由醫(yī)學(xué)專家標(biāo)注),第4~8行分別為UNet+bce模型、UNet+bce-dil模型、UNet+bce-edge 模型、UNet+bce-dil-edge 模型、UNet+L-dil-edge(即本文算法ES-UNet)模型對(duì)應(yīng)的分割效果圖。
從圖5可以發(fā)現(xiàn),本文模型ES-UNet 分割結(jié)果所保留的細(xì)節(jié)最為完整,基本UNet 模型已經(jīng)可以較好的體現(xiàn)肝包膜的大致輪廓,空洞卷積與邊緣監(jiān)督的加入使得肝包膜的分割精度大幅提升,損失函數(shù)的改進(jìn)則在確保良好的分割精度的情況下更加完整的保留了肝包膜的細(xì)節(jié)特征。
表1展示了上述不同網(wǎng)絡(luò)在整個(gè)測(cè)試集上的分割結(jié)果。表2展示了上述不同網(wǎng)絡(luò)在4 個(gè)不同分期肝包膜圖像上的分割結(jié)果定量比較。觀察表1可以發(fā)現(xiàn),隨著模型在UNet基礎(chǔ)上的一步步改進(jìn),分割效果在幾項(xiàng)指標(biāo)值上都隨之提高,尤其是引入空洞卷積后的UNet+bce-dil 模型相比于原本的UNet+bce 模型,其分割量化指標(biāo)均提升顯著,可見(jiàn)空洞卷積可以在不提高模型復(fù)雜度的情況下,有效提升網(wǎng)絡(luò)訓(xùn)練效果,此外,邊緣監(jiān)督模塊的加入也對(duì)模型分割性能有著不可忽視的作用。盡管混合損失函數(shù)加入后,最終模型UNet+L-dil-edge 分割結(jié)果在精準(zhǔn)率上有輕微下滑,但在其他指標(biāo)如F1、Dice、MIoU 等相對(duì)更客觀的指標(biāo)上,有更加突出的表現(xiàn)。

表1 不同網(wǎng)絡(luò)在整個(gè)測(cè)試集上的各類(lèi)指標(biāo)均值Table 1 Mean values of indicators of different networks on the entire test dataset
從表2的各項(xiàng)數(shù)據(jù)中可以看出,本文的ES-UNet(UNet+L-dil-edge)模型在正常人以及不同分期肝硬化患者的肝包膜圖像上都有更好的分割效果,且不受重度患者可能存在的腹水的影響。綜上,從量化角度分析,本文算法的各個(gè)組件對(duì)改進(jìn)模型分割性能都有一定的貢獻(xiàn)。

表2 不同網(wǎng)絡(luò)在4個(gè)不同分期的肝包膜圖像上的定量比較Table 2 Quantitative comparison of different networks for liver capsule images at 4 different stages
目前,基于超聲圖像的肝纖維化、肝硬化計(jì)算機(jī)輔助診斷系統(tǒng)中,主要的研究聚焦在肝包膜和肝實(shí)質(zhì)的特征提取和分析上,肝包膜的精確分割對(duì)于肝纖維化、肝硬化的后續(xù)分析診斷具有重要意義。因此,本文提出了一種基于邊緣監(jiān)督的肝部超聲圖像包膜分割網(wǎng)絡(luò)(ES-UNet),引入空洞卷積,擴(kuò)大感受野;同時(shí),添加了邊緣監(jiān)督模塊,從而將特征學(xué)習(xí)主要聚焦在圖像梯度較大的部分,提高模型對(duì)肝包膜細(xì)節(jié)處的分割準(zhǔn)確性;此外,針對(duì)肝包膜部分與其他區(qū)域之間的極度不平衡情況,設(shè)計(jì)了混合加權(quán)損失函數(shù),對(duì)各個(gè)模塊進(jìn)行約束。實(shí)驗(yàn)結(jié)果表明:本文方法可以更好的從肝部超聲圖像中精確分割出肝包膜,能夠反映肝包膜細(xì)節(jié)部分的真實(shí)位置和趨勢(shì),有助于后續(xù)進(jìn)一步分析診斷,并為其他領(lǐng)域的分析提供可靠的設(shè)計(jì)思路。在未來(lái)的工作中,我們考慮將分割的肝包膜定位到肝部圖像中,分析肝包膜的形態(tài)及紋理特征,并結(jié)合肝實(shí)質(zhì)的特征,全面地描述肝硬化各個(gè)階段的變化,實(shí)現(xiàn)肝硬化各階段的準(zhǔn)確分類(lèi)。