余文林,陳振洲,范冰冰,黃 穗
(華南師范大學 計算機學院,廣州 510631)
肝纖維化(Hepatic Fibrosis,HF)是許多慢性肝臟疾病的常見表現,是指由各種病因導致的肝臟損傷而進行的組織修復,最終導致合成大量的膠原和蛋白多糖等細胞外基質(Extra Cellular Matrix,ECM)過度沉積的病理過程.
有研究表明,早期輕度肝纖維化是可以治愈,并且肝纖維化S2 期及以上具有明確的治療指征,這也是肝纖維化進展的標志[1].肝纖維化持續發展將會引發肝硬化,甚至是引發肝細胞癌[2,3].因此早期診斷肝纖維化并且區分肝纖維化分期及炎癥活動度將會對臨床治療方案的選擇提供重要依據及幫助[4].
醫學成像技術因其具有無創性和能直觀檢測體內器官的特性,現已廣泛的被用于臨床醫學當中.用于評估肝纖維化的醫學影像主要包括核磁共振成像(Magnetic Resonance Imaging,MRI)、超聲彈性成像、計算機斷層成像(Computed Tomography CT).相對于其他醫學成像技術來說,磁共振成像可以生成多種多參數的高清軟組織圖像,包括彌散加權成像(Diffusion Weighted Imaging,DWI)、T1-weighted MRI、T2-weighted MRI 等.在本實驗中根據醫生的建議采用了T1-weighted(T1)、T2-weighted TSE(T2)、T1RHOFA(FA)、T1RHO-HS(HS)這4 種MRI 圖像.
目前國內外對肝纖維化的診斷方法主要分為有創性診斷和無創性診斷.其中有創性診斷主要是對肝臟進行肝活組織病理學檢查,并將其檢測結果作為肝纖維化分期階段的“金標準”.然而這種診斷方法具有成本太高、有創性、有幾率導致并發癥等的弊端[5];而非創性診斷技術有臨床評估、診斷預測模型、血清標志物、醫學成像等.醫學成像技術憑借其相對無創性和可以對肝纖維化直觀評估的特點,在臨床應用中發揮了關鍵的作用.
傳統基于醫學圖像對肝纖維化程度診斷的方法主要是先對圖像進行人工特征提取和特征篩選,然后再通過傳統機器學習的方法訓練分類器進行肝纖維化分期分類[6,7].雖然傳統方法依舊取得了一定的效果但是由于得到的特征是基于人工提取的,效率不高而且覆蓋的圖像信息不全面.針對這些局限性,深度學習憑借其可以自動獲取原始圖像的一系列特征的特性,為醫學圖像研究提供了新方向[8,9].Sarraf 等人[10]通過對正常大腦和阿爾茨海默患者大腦的磁共振圖像的訓練獲得了準確率高達96.85%的LeNet模型.Marios 等人[11]基于肺部的高清CT 圖像訓練,實驗模型最高分類準確率達到了85.61%.在肝纖維化方面,孟丹等人[12]先利用在ImageNet 上預訓練的VGGNet網絡提取感興趣區域肝臟區域超聲波特征,然后再將特征輸入到他們提出的FCNet中,進行對肝纖維化正常、早期肝纖維化(S1-S3)和晚期肝纖維化(S4)三種階段的判斷,取得了超過80%的實驗準確率.Wang 等人[13]通過肝纖維化患者的超聲彈性成像圖訓練卷積神經網絡取得了與肝臟穿刺活檢診斷相當的效果.以上基于醫學成像的肝纖維化診斷研究都是基于超聲成像的且沒有對肝纖維化分期做出具體的判斷.相對于MRI 來說超聲成像具有圖像分辨率較低的先天劣勢,且采集可以診斷出肝纖維化分期的超聲圖像對采集人員有較高的醫學專業要求且圖像質量容易受操作者的經驗影響.因此采集到的超聲圖像已經具有高度診斷辨識度.然而本實驗采用分辨率較高和采集穩定的MRI 圖像作為肝纖維化診斷依據,同時也針對MRI 圖像特點和目標需求,優化設計了集成自動提取特征和對肝纖維化各分期診斷的綜合模型.
深度學習是由Geoffrey Hinton 研究組在2006年提出的一個機器學習領域的新分支[14].它通過構建具有多層的非線性模型來進行數據處理.深度學習能利用多層的特性自底層向高層逐步的學習自動提取特征,摒棄了人工特征提取所帶來的先驗性和不全面性的缺陷.近年來,深度學習在圖像識別、自然語言處理、計算機視覺方面都舉得了優秀成績.其基本的網絡層次圖如圖1所示.

圖1 深度網絡的層次結構
除了基本的全連接層之外,常見的深度神經網絡層還有:卷積層,池化層,批標準化層,隨機失活層,激活層等.
自1962年Hubel 和Wiesel 在研究貓腦皮層中用于局部敏感和方向選擇的神經元提出感受野(receptive field)概念后[15],繼而有人提出含有卷積層的卷積神經網絡(CNN).而LeCun 最早將CNN 應用于手寫數字識別并取得了突破性成績[16].
卷積神經網絡利用了圖像主體的平移不變性和像素與近距離的像素之間的聯系大于遠距離像素的特性,采用不同的卷積核對圖像進行卷積運算得到不同的特征圖,在計算特征圖時通過權值共享大大減少了深度神經網絡的參數數量(圖2).

圖2 卷積的工作方式
池化層是根據特征選擇的區域按照池化方式提取出特征,同時能縮小特征圖,減少模型的計算量,常用的池化方法有最大池化,最小池化,和平均池化.在本文實驗中采用的均為最大池化.
深度模型在訓練時,由于模型層次太深或采用了不適當的激活函數會導致模型梯度消失的問題.針對這一問題,2015年Google 提出了批標準化(Batch Normalization)[17].批標準化將輸入的批次中的每一個feature map 進行標準化操作,使數據滿足標準正太分布.這樣降低了數據的冗余性和特征的相關性,使得模型的梯度傳導的更深緩解了梯度消失的問題.
隨機失活(Dropout)層[18]是一種針對模型訓練過程中出現的過擬合問題所提出的.它是在模型的訓練中按照一定的概率,隨機地選擇上層的輸出神經元而使其在本次的訓練過程中處于失活的狀態.當有多個隨機失活層作用時,每次訓練的過程中實際訓練的模型都不同.這樣大大的提高了模型的多樣性,也讓模型過度擬合訓練數據變得困難.
如果不添加激活層,每一層的輸出都是上層輸入的線性函數,這樣無論網絡有多少層,輸出都是輸入的線性組合,無法擬合非線性函數.激活層將非線性特征引入到了網絡中,使網絡可以逼近任意非線性函數,讓神經網絡可以處理眾多非線性問題.激活層中常用的激活函數有Sigmoid、Tanh、ReLU 等.
遷移學習(transfer learning)是將在源域(source domain)中學習到的知識應用于在目標域(target domain)知識學習中的一種學習方法[19].通常源域和目標域的數據和任務都不相同,且目標域的數據獲取成本較大導致已有數據不足以訓練出可靠模型.遷移學習通過遷移在源域學習的知識去提升針對目標域任務建立的模型的效果(圖3).

圖3 遷移學習
遷移學習按照學習方式可以分為基于樣本的遷移、基于特征的遷移、基于模型的遷移和基于關系的遷移.由于醫學影像數據的難獲取或者獲取的成本較高的特性,遷移學習提供了一個恰當的途徑.同時有研究表明在訓練好的深度模型中,各層次學習到的知識不同,低層學習到的是偏向通用性的知識,如圖的邊緣、拐角等.而高層學到的是與學習任務相關的特征,如在人臉識別任務中,模型的高層學習到的就有如何識別眼睛和嘴巴等知識.在實現模型遷移時,可以通過固定不同數量的低層參數來實現不同程度的模型遷移.
本文中實踐驗證了,通過遷移在ImageNet 數據集上訓練的VGGNet-11模型可以提升肝纖維化期數診斷模型的特征抽取能力和穩定性.
本文采用深度模型遷移學習方法,將ResNet-18 和VGGNet-11 作為基本參照模型.基于參照模型針對MRI 圖像的特點進行優化,然后對所有模型訓練大鼠肝纖維化MRI 圖像,使模型自動提取圖像特征和對肝肝纖維化期數診斷.對數據集,本文采用了基于隨機的鏡像和旋轉的數據增強策略來提升模型的泛化性能和魯棒性.同時在實驗中,對兩種對比模型都采用了遷移學習方法和不使用遷移學習方法分別訓練.在使用遷移學習方法訓練時,對模型都進行了不同程度的模型遷移對比實驗.
3.1.1 數據集
本實驗數據由南方醫科大學提供.采用實驗大白鼠共計95 只,其中每只白鼠分別采用T1、T2、T1RHO FA 和T1RHO HS 磁共振參數對其肝臟的不同部位進行核磁共振影像采集.然后將采集到的原始影像通過RadiAntDICOMViewer 軟件轉換成PNG 格式作為我們的數據集.數據集的中4 種不同參數的核磁共振影像圖數量如表1所示.

表1 數據集的采集情況
在實驗過程中,由于對同一只大鼠的不同肝臟切片采用了相同的采集參數,因此它們有一定的相似性.為防止相似性對模型的結果評定有影響,在實驗中都先以白鼠為單位隨機分為7:3的比例.然后將所有由同只白鼠獲取到的影像全部作為訓練集數據或者測試集數據.具體影像圖見圖4.

圖4 從S0 到S4 期大鼠肝纖維化T2 核磁共振影像圖
3.1.2 數據增強
由于深度神經網絡模型需要海量的數據來進行學習,而我們數據集中的數據量遠不及海量的要求.所以在實驗時需要對數據集進行適當的數據增強方法來擴充數據量,這樣訓練出的模型具有更高的魯棒性也不容易過擬合.本實驗采用的數據增強方法有以下兩種:
1)圖像翻轉:圖像翻轉分為水平翻轉和垂直翻轉.這是一種常規的數據增強方法.在圖像進行翻轉后仍然不影響圖像表達的語義時,我們應盡量采用這種圖像增強方法.在本實驗中對圖像進行水平翻轉不會影響肝纖維化的診斷.所以圖像在訓練前都會隨機的進行水平翻轉.
2)圖像旋轉:圖像旋轉也是一種常規的數據增強方法.這是將圖像按照中心點進行旋轉的方法.但是過量的旋轉會改變圖像的語義表達,如在文字識別中,過量的旋轉會讓圖像產生歧義或者不能識別.考慮到本數據集在獲取數據的時候就存在一定的角度差別,在實驗中,數據在訓練前都會隨機的在-12 度到12 度之間進行旋轉.
同時采用隨機水平翻轉和隨機旋轉圖像可以讓同一張圖像在輸入到網絡時都會有不同的差異,這讓模型不容易陷入過擬合而記住單一圖像的特點.同時在網絡遇到新的圖像時,能提升圖像的準確性.為了防止數據增強所帶來的影響,在測試的過程中,所有的數據增強策略都未使用.這樣保證的模型對目標數據預測結果的準確性.圖像對比結果如圖5所示.

圖5 原始圖像和數據增強后的圖像
ResNet的全名是Residual Network,又稱為殘差網絡[20].通過在添加低層與高層之間的直通的殘差塊的設計,在使用梯度優化類方法訓練網絡的時候這種殘差塊設計能讓梯度傳導到更深的層次,因此能訓練出層次更深的模型.在2015年的各大圖像算法比賽中,ResNet在保證網絡精度的前提下,將網絡深度達到了152 層,并以絕對優勢取得了多個冠軍.ResNet 根據不同的數據規模有ResNet-18、ResNet-34、ResNet-50、ResNet-101 和ResNet-152 等版本,后面的數字代表著該模型的最大深度.本文的實驗在數據規模和分類類別數目上遠不及比ImagNet 比賽中的規模,采用的模型是ResNet-18網絡結構.為了方便實現對模型的不同程度的遷移,本文將每兩個殘差合并為一個邏輯層.其網絡結構圖如圖6所示.

圖6 ResNet-18網絡結構
VGG 是參加ILSVRC 2014 比賽時,提交該網絡的小組Visual Geometry Group,Department of Engineering Science,University of Oxford的縮寫,故該網絡結構叫做VGG 或者VGGNet[21].該網絡在當年的圖像分類任務中獲得第二名,而第一名由Google 提出的GoogleNet 獲得.VGGNet 也具有不同的層次版本.主要有VGG-11、VGG-13、VGG-16 和VGG-19,隨著Batch Normalization的提出相繼有了對應的添加Batch Normalization的版本.在本文中所采用的對比網絡模型為VGG-11的帶Batch Normalization 版本,同樣為了方便進行模型的部分遷移,也進行了層次的合并,其網絡結構如圖7所示.

圖7 VGGNet-11網絡結構
本實驗將原模型的最后線性層都由原輸出類目數的1000 調整為輸出類目為5的線性層.這樣模型的5個輸出就可以更好的表示模型對輸入圖像中肝纖維化程度的判斷.在實驗過程中,本文采用了批量訓練的訓練方法,每次訓練時都隨機選擇小批量數據進行訓練.把每張圖像的原始所屬于的分期和模型對圖像判斷所給的輸出,根據交叉熵(Cross Entropy)函數計算出模型對本張圖像的輸出和真實類別之間的差距損失,然后根據批量數據的累加損失,按照梯度反向傳播法則依次調整模型中的所有未固定且可訓練的參數.
如圖6 和圖7所示,本文將ResNet-18 和VGG-11 都分成6個邏輯層.分別在T1,FA,HS 和T2 每個數據集上進行了6 次實驗.由未采用遷移學習訓練和依次遷移模型低層參數并固定,作為模型特征提取的一部分.具體實驗配置如表2所示.
實驗均在,CPU Intel(R)Core(TM)i7-4790、GPU NVIDIA GeForce GTX 1080,內存DDR3 16 GB,Windows 10 專業版環境下,使用PyTorch 0.40 實現模型的構建和訓練.各組模型訓練依次進行,每次模型訓練的80個周期共需30 分鐘左右,訓練結果如圖8 至圖11所示.

表2 實驗中模型的遷移設置

圖8 采用RetNet-18 在各數據集上的模型準確

圖9 ResNet-18 在4 種數據集下的訓練過程

圖10 VGG-lock0 在4 種數據集上訓練過程
4.1.1 ResNet-18的實驗結果
采用Res-lock0 配置時,ResNet-18 在4 種不同數據集上訓練不同的模型,平均在15個周期模型都能達到自己穩定后的平均準確率.其中的采用FA 數據訓練的模型的平均準確率最高為86.06%,最高準確率為89.79%;其次是通過HS 訓練的模型,平均準確率為81.84%最高準確率為85.51%;最低準確率的模型是采用T2 數據訓練,其最高模型準確率為79.04%,平均準確率為73.60%.通過FA 訓練出模型的準確率具有最高的穩定性,其準確率的方差為5.09.而通過T1 和HS 訓練模型穩定后的準確率的方差為10.04 和10.69,通過T1 訓練的模型最不穩定,準確率方差為32.47.其訓練結果如表3所示.

表3 ResNet-18 在Res-lock0網絡設置下模型的結果

圖11 VGG-11 在4 種數據集下的訓練過程
采用FA 數據集訓練時,當使用Res-lock1 至Reslock4 配置訓練,模型的最高準確率依次為79.58%、77.93%、76.69%和77.24%.采用模型遷移后,模型平均在第7個周期就能達到模型的平均準確率,訓練速度提升了一倍.然而模型的準確率卻是不采用模型遷移時最優.而當采用其他3 種數據集訓練時,適量采用模型遷移均能提升模型的訓練速度和提升模型的準確率.在采用Res-lock4 配置的模型,在3 種數據集下模型效果都最優.在4 種數據集中,采用Res-lock5 配置訓練的模型效果都明顯低于其他配置的模型,因為采用這種配置時,模型的大部分參數都已固定,模型的擬合能力大大下降不能擬合出能良好分類的模型,因此其效果與其他模型差距較大.訓練結果如表4所示.

表4 ResNet-18 在4 種數據集下的訓練結果
4.1.2 VGG-11的實驗結果
采用VGG-lock0 配置訓練時,在4 種數據集上訓練的模型平均在15 周期達到模型穩定后的模型準確率.在FA 數據集上訓練的模型準確率最高,最高準確率為95.31%平均準確率為90.11%,.其次是在HS 上訓練的模型最高模型準確率為85.97%,平均準確率為79.63%.在T1 上訓練的模型的準確率最低,其最高模型準確率為76.65%,平均準確率為71.87%.在FA 上訓練的模型具有最高的模型穩定性,其準確率方差為4.94,其次是T1 數據集,模型準確率方差為8.34.通過HS 訓練的模型準確率最差,其模型準確率方差為16.66,是在FA 上訓練模型的3.37 倍.其訓練結果見表5.

表5 VGG-lock0 在4 種數據集上訓練結果
在T1 數據集下,采用VGG-lock1 至VGGlock5 訓練的模型的準確率均比未使用VGG-lock0 配置訓練的模型的準確率都高.其中在使用VGGlock1 配置時,模型具有最高的平均準確率81.52%,較使用VGG-lock0時的平均準確率提升了13.42%,但其模型的穩定性不及使用VGG-lock0的模型.在使用VGG-lock4時模型具有最高的穩定性,其準確率的方差為4.88 只為使用VGG-lock0 配置的58.51%.同時除了使用VGG-lock5 配置時,所有配置下的模型訓練速度都不低于使用VGG-lock0的配置.在T2 數據集下,VGG-lock1 致VGG-lock5 配置的模型準確率和模型穩定性都優于VGG-lock0 配置下的模型,但是各種配置下的模型結果之間的差別不大.其中使用VGGlock5 配置下的模型具有最高的模型準確率84.88%,比不使用模型遷移時的最高準確率提升了 3.23%,平均準確率也提升了6.09%,但是其模型需要30個周期才能達到平均準確率.使用FA 數據集訓練時,在使用VGG-lock0 配置訓練時能獲得準確率高達95.31%的模型.但是使用VGG-lock3 配置能訓練出準確率超過原來1.3%的模型.在使用HS 數據集訓練時,使用VGG-lock3 配置訓練的模型取得高的模型準確率和平均準確率.同時訓練速度最快比不使用模型遷移時提提升了40%.其訓練結果如表6所示.

表6 VGG-11 在4 種數據集下的訓練過程
在沒有使用模型遷移訓練模型情況下.具有最多數據的FA 數據集在兩種模型下都獲得了最高的模型準確率,但是VGG-11的效果優于ResNet-18.在使用模型遷移訓練時,遷移訓練對ResNet-18 結果的影響不穩定.在FA 數據集上,遷移訓練的模型結果都不及未使用遷移的模型結果,在T2 和HS模型下有模型的準確率提升.特別在使用Res-lock4時,模型的訓練速度和模型的準確率在T1,T2 和HS 數據集下都優于其他配置.對于VGG-11,在4 種數據集上使用遷移訓練都能穩定地為模型帶來準確率和訓練速度的提升并且訓練結果都優于ResNet-18.在ResNet-18 和VGG-11 使用Res-lock5 和VGG-lock5 配置時,模型的準確率和訓練速度都遠不及其他配置.因為過度的遷移,使模型剩下的可變參數大量減少,大大消減了模型的表達能力不能學到良好的模型.比較分析實驗結果我們,可以得出結論使用T1RHO-FA 核磁共振影像具有較其他3 種影像就肝纖維化期數診斷具有更優的區分特征.同時在訓練核磁共振影像時,VGG-11網絡結構比ResNet-18 具有高的模型準確率,并且在使用在ImageNet 數據上訓練的模型進行遷移時,能對結果有穩定的準確率和訓練速度的提升.
本實驗優化了ResNet-18 和VGG-11網絡結構,使用了遷移和未遷移的訓練方法對模型進行分組對比實驗.對實驗結果分析得出,T1RHO-FA 參數的核磁共振影像相對于T1-weighted、T2-weighted TSE、和T1RHO-HS 更適合用于深度模型的訓練.同時相對于ResNet-18網絡結構,VGG-11 更適用于核磁共振成像數據集的訓練,并且可以實用深度模型遷移提升模型的準確率和訓練速度.對于今后醫學圖像分類模型的訓練的網絡結構設計和影像數據的選擇提供了參考因素.對肝纖維化分期的診斷提供了無創和全自動的參考方案也為肝纖維化分期的診斷提供了研究意義.