閆景瑞, 姚發展, 王麗會
(貴州大學 計算機科學與技術學院 貴州省智能醫學影像分析與精準診斷重點實驗室, 貴陽 550025)
當前, 心血管疾病的致死率仍然遠遠高于其他疾病, 且有著逐年上升的趨勢[1,2]. 心臟快速磁共振成像(Cine-MRI)是一種非侵入式醫學成像技術, 被廣泛用于活體心臟疾病檢測[3]. 在臨床診斷中, 其結果往往受心臟Cine-MRI圖像分割精度的影響. 在心臟Cine-MRI圖像中, 由于各部位對比度不明顯, 且會受到其他組織結構和噪聲的影響, 對其進行精確地分割難度較大. 目前, 心臟Cine-MRI圖像分割仍依賴于專業醫師的手動勾畫區域, 臨床效率較低.
隨著計算機技術的發展, 國內外涌現出了大量的醫學圖像分割技術. 傳統分割方法主要基于統計模型[4]和圖譜法[5]針對邊緣和區域進行分割, 算法效果的好壞較大程度的依賴于建模的先驗和數據質量, 在一些對比度不高、邊緣模糊的圖像上較難得到較好的效果.近年來, 深度學習技術快速發展, 利用深度學習方法研究醫學圖像分割逐漸成為主流. 2015年, Long 等人提出了全卷積神經網絡分割模型(FCN)[6], 其使用了反卷積和不同層次的跳躍連接, 實現了圖像像素級別的精確分割. 而U-Net[7]作者提出在不同尺度上提取更加豐富的特征, 并融合多尺度特征, 大大提高了分割性能.以U-Net作為基礎框架, U-Net++[8]以及其他改進網絡[9-13]相繼被提出, 并取得了較好的分割結果. DeepLab v3+[14]創新性地將深度可分離卷積應用于解碼器模塊,進一步提升了語義分割的速度和準確性. 然而, 在活體心臟圖像數據中, 存在大量的因心臟跳動所導致的模糊, 尤其是左心室的心內膜(LV)與心肌(MYO)的邊緣, 這些邊緣細節在靜態圖像上是存在一定程度的損失的, 直接使用現有分割網絡模型對原始圖像數據進行分割, 很難準確捕捉到輪廓信息. 為了解決這一問題,本文提出了光流場與語義特征融合分割網絡(OSFNet),利用心臟運動特征增補靜態圖像丟失的細節信息, 同時結合語義特征實現高精度的活體心臟MRI圖像分割方法.
本文提出的基于光流場與語義特征融合的心臟分割模型主要包括兩個部分: 光流場計算心臟運動特征和深度卷積神經網絡提取心臟語義特征. 下面對其原理進行詳細的闡述.
光流是指圖像中各像素點隨時間的運動情況, 結合時間域上像素的變化和相鄰幀之間的相關性確定兩個連續圖像的運動信息[15]. 目前, 光流已被應用于運動分割和動作識別的任務中. 在采集心臟MRI圖像時,由于心臟的舒張和運動會造成圖像偽影, 利用目前的分割方法, 不能準確的計算出心臟組織輪廓邊緣. 本文提出通過將光流場作為先驗信息以提升模型的分割能力. 光流方法主要分為兩類: 稀疏光流對圖像局部像素點進行分析; 稠密光流追蹤圖像所有像素點的運動變化[16,17]. 要對心臟進行精準分割, 需要覆蓋所有像素信息, 以保證包含所有區域運動特征. 因此, 本文采用稠密光流方法提取心臟運動特征. 稠密光流方法包括Gunnar Farneback[18]、Horn-Schunck[19]等傳統算法和FlowNet[20]等深度學習算法. Horn-Schunck算法假設鄰域的像素點運動速度相近, 光流場具有平滑性, 只有在圖像邊界才會出現光流突變, 邊界敏感這一特性將有利于分割任務. 因此, 本文使用Horn-Schunck光流法提取心臟運動特征.
Horn-Schunck光流法參考光照守恒假設, 相鄰時刻亮度變化表示為:

因此, 光流約束方程可以表示為:

其中, ω =(u,v)T為 速度場, Ix,Iy,It為圖像梯度, u ,v分別為水平方向與垂直方向光流值. 光流法的求解等價于求光流分量的最優化問題, 目標函數由光流約束和正則化系數為λ 的平滑約束組成, 能量損失函數定義如下:

根據歐拉-拉格朗日方程(Euler-Lagrange equation)計算 E (u,v)泛函極值條件, 可得約束方程為:

其中, Δ是拉普拉斯算子, 計算時使用離散近似形式:Δu≈-u,Δv≈-v, 代入式中, 可計算出光流場迭代公式為:

據此, 使用迭代式(5)可計算心臟的運動特征. 算法1具體描述了光流場的計算過程.

算法1. 光流法基本求解過程λ 1) 讀取相鄰時刻心臟圖像, 初始化權重系數;u=v=0 2) 初始化水平和垂直光流值 ;Ix,Iy,It 3) 計算圖像梯度 ;u,v,u,v 4) 根據光流場迭代式(5)更新 ;5) 返回第3)步, 直至迭代次數達到100次;u,v 6) 輸出速度場 .
本文提出的光流場與語義特征融合分割網絡主要由編碼器和解碼器兩部分構成. 光流場計算出的心臟運動特征與t時刻圖像分別利用兩個連續的卷積層提取對應特征, 融合兩種特征并將其作為編碼器的輸入.編碼器主要用于進一步融合光流運動特征和提取的心臟圖像的紋理特征. 網絡模型由5個基本卷積塊構成,其中每個基本卷積塊包含兩層卷積操作、批標準化(batch normalization)和ReLU激活函數, 卷積核大小為3×3. 如圖1所示, 每個基本卷積塊后緊跟一個池化層. 其在提取高頻語義特征的同時, 通過逐步縮小圖像尺寸來減少網絡參數數量. 值得注意的是, 池化操作無法避免特征信息的丟失, 導致數次池化操作后, 特征丟失會越來越多. 因此, 針對這個問題, 本文設計了多感受野平均池化模塊. 該模塊將大尺度池化操作分解為卷積與小尺度池化的組合, 主要包括3條路徑: 第1條路徑使用7×7大小的卷積核對圖像進行下采樣, 連接3×3大小的卷積和池化; 第2條路徑使用3×3大小的卷積核對圖像進行下采樣, 再連接3×3大小的池化;第3條路徑直接使用6×6的池化層. 在實際訓練中, 本文使用7×1和1×7的非對稱卷積代替7×7卷積, 增加網絡寬度的同時可以減少網絡參數. 多感受野平均池化模塊可以有效提取多尺度語義特征, 減少了特征丟失.

圖1 光流場與語義特征融合分割網絡
在解碼器階段, 分別將編碼器最后3個卷積塊生成的語義特征結果進行上采樣恢復, 并連接卷積塊進一步提取特征, 形成了3條解碼路徑, 最后將恢復到原圖大小的特征圖進行融合, 再經Softmax層進行像素分類, 以實現分割的目的. 三路上采樣操作對不同尺度的抽象特征進行恢復, 由編碼器最后一個卷積塊生成的最小尺度特征所構成的上采樣路徑中, 使用了跳躍連接的方式融合了編碼器階段所產生的相同大小的特征, 盡可能的保留了圖像原始特征. 解碼器階段中所有的卷積層都使用3×3的卷積核.
本文所使用的數據是由法國第戎大學醫院提供的ACDC (automated cardiac diagnosis challenge)公開數據集, 包含上百個心臟Cine MRI. 該數據集還包含左心室和右心室舒張末期(end diastole, ED)和收縮末期(end systole, ES)圖像, 每個個體數據都有對應的由專家手動勾畫的標簽. 本實驗首先篩選掉了所有不包括左心室的切片, 此外, 由于數據集中不同個體的圖像分辨率大小存在一定差異, 為了方便網絡進行訓練, 對圖像進行中心裁剪得到了128×128分辨率的圖像并進行灰度值歸一化. 數據集中符合實驗要求的一共100例心臟MRI圖像, 以4:1的比例將數據集劃分為訓練集和測試集.
本文基于TensorFlow框架對模型進行編碼實現.對于模型訓練參數: batch size設置為8, 初始學習率設置為0.001, 學習率隨著網絡訓練次數的增加逐漸減小,實驗epochs設置為400, 網絡使用隨機梯度下降算法(SGD)對模型進行優化. 本文使用Dice Loss作為網絡的損失函數, 并使用系數為0.000 1的L2正則化約束參數權重.
本文的對比實驗設計為: 首先, 使用U-Net和Dense-Net標準模型、加入光流場的U-Net-Flow、DenseNet-Flow、本文提出的OSFNet以及其去除光流場計算和多感受野平均池化的Basenet對左心室內膜進行分割,以驗證光流場計算方法對模型分割性能的影響. 其次,以Basenet為基礎, 分別加入多感受野平均池化模塊(Basenet-m), 光流場計算模塊(Basenet-Flow), 分別利用Basenet、Basenet-m和Basenet-Flow、OSFNet模型對左心室內膜與心肌進行分割, 驗證本文設計的不同模塊的有效性.
目前的實驗臺為掛件式,學生在設計實驗時同時需要選出所需掛件,配合實驗臺上的通用模塊(電源模塊、測量模塊等),完成一個完整的實驗過程。
本文使用Dice系數、Hausdorff距離(HD)、Jaccard相似性系數(JSC)、F1-score定量評價分割結果. Dice系數是一種集合相似度度量指標, 本文通過計算預測樣本與真實樣本的Dice值, 以評價分割效果, Dice系數的定義如下:

其中, X表示預測結果, Y表示真實分割標簽, TP表示正類樣本預測為正類的部分, FP表示負類樣本預測為正類的部分, FN表示正類樣本預測為負類的部分.Dice描述了樣本間重疊區域與非重疊區域的關系,Dice值越接近于1, 表示預測和真實之間相似程度越大, 模型分割效果越好.
F1-score是精確率(Precision)和召回率(Recall)的調和平均, 也是用來衡量分割精度的指標之一, F1-score定義為:

召回率又稱靈敏度(Sensitivity), 靈敏度越高, 模型分割正確樣本的效果越好; F1-score越大, 分割結果越準確.
Hausdorff距離對分割邊界敏感所以常被應用于圖像分割任務中. HD是衡量兩組點集之間匹配程度的一種度量, 本文使用此度量方法來評價分割輪廓的相似度, HD定義為:

其中, H (X,Y)表示預測結果與真實樣本之間的HD值,h(X,Y)為 單向HD, x ,y為 圖像X ,Y 上的點, ‖ ·‖為點集間的距離范式. HD值越小, 表明模型分割的能力越好.
JSC是兩個有限樣本集相似性的一種度量, 與Dice不同, 它更關注集合間共同具有的特征是否相似.JSC定義為集合交集大小與并集大小的比值:

JSC衡量預測結果與真實標簽的一致性, JSC值越大, 分割結果與真實標簽越接近.
本文分別以左心室內膜分割和心肌分割的可視化結果與定量分析結果來闡述模型效果.
圖2為多種方法分割左心室內膜輪廓可視化結果,紅色輪廓是模型預測結果, 綠色輪廓是真實標記. 可以發現, U-Net分割結果容易將心肌部分劃為左心室內膜, 導致輪廓效果較其他方法差. DenseNet會將與左心室內膜灰度值相近的乳突肌分割出來, 造成異常值區域. DenseNet-Flow盡管融入了心臟的運動特征, 但對模型整體效果提升不大. Basenet相比于以上模型, 分割結果比較貼近真實標記, 而加入光流場后的OSFNet,邊緣結果更加精確.

圖2 左心室輪廓分割結果
為了更直觀的體現本文方法在心臟分割任務上的性能優勢, 在Dice和HD等指標上與常用模型進行對比. 表1為多個方法在測試集上對ES和ED時刻進行左心室內膜分割的定量結果. U-Net和DenseNet在Dice值上相差不大, 整體分割精度一般, ES時刻的HD標準差較大, 魯棒性差; 在加入了光流計算方法后,分割精度有所提高且標準差降低, 在ED時刻精度提升尤為明顯, 可以看出在加入了光流場后, 加強了模型對左心室輪廓特征的學習. 本文提出的OSFNet能準確分割左心室內膜, 在多個評價指標上表現優異, 在ES和ED時刻比U-Net、DenseNet的Dice值均提高了2至3個點, 且標準差明顯更低. Dice和 HD箱形圖如圖3所示. 在圖3(a)中, U-Net-Flow比U-Net的箱長更短, 數值更穩定, 而DenseNet-Flow與DenseNet并無明顯差異, 這可能是因為密集連接和光流場的效果存在疊加, Basenet-Flow的ED時刻的數據分布偏上, 平均值點較其他方法高, 整體分割效果較優. 在圖3(b)中, DenseNet箱長較長, 說明整體數據分布廣, 模型表現不穩定; 在加入了光流場后, 模型穩定性顯著增強.本文方法的中位線趨于下四分位, 數據分布整體靠下,異常值較多.

表1 多個方法在ES和ED時刻分割左心室內膜的定量對比

圖3 多個方法在ES和ED時刻分割左心室的Dice和HD箱形圖
由于ES、ED時刻的心臟輪廓相對于運動過程中的時刻更為清晰, 為了進一步說明本文方法的效果,表2定量分析了整個時刻不同方法的分割性能結果,DenseNet和U-Net的Dice均為0.91, 在加入光流場后,Dice、HD和JSC均有所提升, 其中HD提升顯著. UNet-Flow靈敏度最高, 這說明其前景分割準度較高. 本文方法在Dice、HD、JSC和F1-score上都表現最好,尤其是F1-score的增幅較大, 這說明OSFNet精度較高.圖4是表2數據的箱形圖, 其中DenseNet和DenseNet-Flow的箱形圖相比其他方法的上四分位線和下四分位線相距較長, 在JSC指標上尤為明顯, 此外, Sensitivity指標上還出現了較多離群值. U-Net-Flow在F1-score指標上四分位線與下四分位線相距較遠, 且平均值最低, 說明該方法的查準率和查全率不穩定. 通過本文方法分割得到的數據分布穩定, 平均值和中位線都高于其他方法, 且離群點較少. 綜上, 本文的光流場方法可以加強模型的分割效果.

表2 多個方法分割左心室內膜的整個時刻定量對比

圖4 多個方法在整個時刻分割左心室的定量箱形圖
圖5展示了左心室內膜和心肌的分割可視化結果,其中第一行為真實標記數據. 從圖中舒張時期最后一列可以觀察到, 由于左心室心腔內含有與心肌區域相近的乳突肌, 因此心室中存在一些看似黑點的組織, 導致多個方法分割結果一般, 而OSFNet模型分割結果相較于其他方法邊緣更規則. 對于心臟收縮期, 左心室區域占整個圖像較小, 除了Basenet分割結果有異常值出現, 其他改進方法都與真實標記輪廓相似.

圖5 左心室內膜和心肌分割結果
本文進一步比較不同方法的分割效果, 定量結果如表3所示, 與Basenet相比, Basenet-m在心臟ES時期的分割精度提升顯著, 證明加入了多感受野平均池化后獲取了更多邊界特征, 使得分割出的結果與實際標記數據輪廓更加接近, Basenet-Flow不僅各項指標都優于Basenet, 且Dice值高于Basenet-m. OSFNet由于加入了光流場和多感受野平均池化, 在ES時刻多個指標上都取得了最優值, 其中在HD值上體現尤為明顯.圖6、圖7分別是Dice值和HD值的箱形圖. 在圖6中, 對于ED時刻的心肌分割, 各方法中位線高度相差不大, 但在ES時刻, 其他方法的箱型圖下限都比OSFNet長, 表明這幾種方法對部分個體差異化較大.并且無論對于內膜還是心肌分割, OSFNet均沒有異常值. 在圖7中, Basenet相比于其他方法箱型圖要更長,中位線和平均值更高, 說明加入了光流場和多感受野平均池化后, 模型對細節特征的敏感程度和模型的泛化性能得到了較好的提升.

圖6 ES和ED時刻分割左心室心肌的Dice箱形圖

圖7 ES和ED時刻分割左心室心肌的HD箱形圖

表3 在ES和ED時刻分割左心室內膜和心肌的評價指標對比
同樣, 為了評估模型在全時刻的分割效果, 本文在全時刻上進行了消融, 結果如表4, 相比于Basenet,OSFNet在Dice、HD和JSC上均有顯著提升. 其中Basenet-Flow在多個指標上的值優于Basenet-m, 說明運動特征與紋理特征的融合更能提升模型的分割性能. 由于心肌區域邊緣比內膜輪廓大, 且不規則, 占比較小, 這導致分割心肌的精度普遍沒有左心室內膜高, 而由于多感受野平均池化對輪廓大的目標較為敏感, 所以Basenet-m在分割心肌上靈敏度獲得了最優值. 圖8是表4對應的箱形圖, 從圖中可觀察得到,OSFNet擁有最少的離群值, 多個指標的上四分位線與下四分位線的距離比其他模型小, 說明數據波動范圍小, 模型穩定性較好. 而Basenet-Flow和Basenet-m在LV的4個指標上的中位線都相近, 但在MYO上Basenet-m比較高, 這也證明了多感受野平均池化對分割的作用.

表4 在整個時刻分割左心室內膜和心肌的評價指標對比

圖8 整個時刻分割左心室內膜和心肌的定量箱形圖
實驗結果表明, 本文提出的光流場與語義特征融合方法(OSFNet)在分割左心室內膜和心肌的任務中具有出色表現. 引入光流場后, 運動特征能夠對心臟數據的紋理特征進行補充, 更有利于網絡學習其分割邊界. 進一步的, 由于引入了多感受野池化結構, OSFNet能夠在更多尺度的特征空間搜索分割語義特征, 因此,本文提出的多感受野平均池化融合了多尺度局部和全局特征, 可以有效減少特征丟失, 且對大輪廓心肌比較敏感, 提升了分割性能, 同時還降低了網絡參數. 然而,該方法目前還無法適用于多中心數據, 不能應用于臨床, 因此擴大數據集并對模型進行調優將是未來的研究重點.