甘富文 武明輝 吳亞平 林予松 王梅云*
1(鄭州大學信息工程學院 河南 鄭州 450001) 2(鄭州大學互聯網醫療與健康服務河南省協同創新中心 河南 鄭州 450052) 3(鄭州大學人民醫院影像科 河南 鄭州 450003) 4(鄭州大學軟件學院 河南 鄭州 450002) 5(鄭州大學漢威物聯網研究院 河南 鄭州 450002)
肝細胞癌(HCC)是常見的惡性腫瘤,易于轉移和復發,預后很差,是第二大與癌癥相關的主要死因[1-3]。病理分級是診斷肝癌的重要指標[4],患有高級別(低分化)HCC腫瘤的患者具有較高的復發風險,通常采用肝切除和肝移植治療策略,而低級別(高分化)HCC的患者復發風險較低[5-6],通常采用全身治療和對癥治療。病理分級需要有創地針對腫瘤部位采集多個腫瘤樣本進行活檢,給患者帶來了巨大的痛苦和高昂的費用。肝臟磁共振掃描是肝癌診斷中常用的影像學手段[7],具有無創、低成本、可重復進行的特點,利用影像術前準確預測HCC分級將有助于選擇治療策略[4]。目前影像組學、深度學習等技術結合醫學影像進行計算機輔助診斷是醫工交叉的研究熱點,計算機技術廣泛應用在腫瘤分類、病理分級、生存期預測等方面[1]。
近年來,大量基于影像的腫瘤分類研究表明,利用影像可以有效地進行腫瘤的輔助診斷。當前流行的方法主要有影像組學和深度學習兩大類。影像組學方法從醫學圖像中高通量提取手工設計的定量特征,例如形狀、灰度、紋理和Gabor特征[8-9],這些特征可以從不同的角度反映腫瘤組織信息[10-13],通過組合多種預測因子分析腫瘤分級已經被證明是行之有效的[14]。影像組學能在較小的數據量下獲得較好的分類性能,由于手工設計特征均是從某一角度描述腫瘤,難以全面反映腫瘤特征,性能有待進一步提高。隨著數據量和算法的發展,深度學習方法逐漸開始在醫學影像研究中取得長足的發展。文獻[15]探究了深度特征在腫瘤分類上的能力,證明深度特征可以反映腫瘤的信息。文獻[16]在對比增強的MRI圖像上采用SE-DenseNet進行端到端的肝細胞癌的分化分級研究,Acc達到0.83,能夠獲得優于手工設計特征的性能。但是深度網絡訓練時間長,對樣本量要求高,在小數據集上尤其容易過擬合,大部分數據都無法訓練深層神經網絡。文獻[17]結合T1、T2序列的組學特征和臨床特征在MRI圖像上進行了肝細胞癌的分化分級研究,但是人為設計的影像特征不能全面反映腫瘤特征,且同時標注兩個序列需要花費大量精力。目前在小樣本非對比增強MRI圖像上進行肝細胞癌分化分級預測依然存在挑戰。
針對以上問題,本文基于MRI影像提出了一種融合影像特征和深度特征的肝細胞癌分化分級預測方法,該方法在影像組學流程的基礎上融入了深度卷積神經網絡提取的高度抽象化語義特征。本文研究表明,相比單一的特征模型,融合后的模型具有更好的分類性能。
綜合影像、基因和臨床等信息進行計算機輔助診斷的流程通常包括:數據獲取、腫瘤區域分割、特征提取和量化、特征選擇、分類和預測。本文在特征提取部分加入了深度卷積神經網絡提取的高度抽象化語義特征作為影像特征的補充,實驗先由影像科醫生在MRI數據集進行感興趣區域的手工分割;然后進行圖像預處理并提取影像特征和深度特征,分別在兩組特征上使用機器學習算法訓練分類器并將分類性能最好的分類器的預測概率值作為獨立生物標志物[19];最后使用邏輯回歸算法在兩種獨立的生物標志物和臨床數據上訓練最終的預測模型,構建諾模圖[20-21]輔助臨床決策,流程如圖1所示。

圖1 實驗整體流程
醫學圖像通常對比度較低,腫瘤區域與周圍體素邊緣不清晰,明暗變化平緩,直方圖均衡化是緩解上述問題的有效方法,但是因為原始MRI圖像周圍有大量非組織器官空白區域,這些區域均為純黑色,對全局圖像直接進行直方圖均衡化會使肝臟組織顏色過白,圖像對比度反而下降。為了解決上述問題,本文對全局直方圖均衡化和局部直方圖均衡化進行了對比如圖2所示,同時對比了直方圖均衡化和自適應直方圖均衡化的差異如圖3所示,本文的局部處理指對腫瘤中心點周圍128×128像素大小的區域進行直方圖均衡化或自適應直方圖均衡化,本文自適應直方圖均衡化采用大小為8×8像素的處理窗口。圖3(c)為局部自適應直方圖均衡化處理結果,圖中的直方圖分布更加均勻,蘊含信息更多,相比其他處理方法,其腫瘤區域邊界更明顯,腫瘤部分組織明暗變化更明顯,紋理更加清晰,豐富。因此,本文采用局部自適應直方圖均衡化進行預處理。

(a) 原始圖像 (b) 全局直方圖均衡化 (c) 自適應直方圖均衡化圖2 全局直方圖均衡化

(a) 原始圖像 (b) 全局直方圖均衡化 (c) 自適應直方圖均衡化圖3 局部直方圖均衡化
本文針對感興趣區(ROI)提取形狀特征、一階統計特征和紋理特征(灰度共生矩陣、灰度游程矩陣、灰度大小區域矩陣等)。形狀特征描述了腫瘤在空間和平面上的信息,一階統計特征在總體度量上描述了ROI內的亮度分布情況,紋理特征反映了腫瘤的空間信息。
二維Gabor小波變換是圖像處理的重要工具,具有良好的時域和頻域之間局部轉化的特性和方向選擇性,非常適合紋理特征提取,能夠從多尺度多方向反映感興趣特性,本文在MRI圖像采用5個尺度8個方向進行Gabor濾波,可提取40組Gabor小波變換特征。
由于影像特征的物理含義差別較大,為了緩解不同量綱對模型訓練產生影響,特征選擇之前對所有特征進行了標準化,將所有特征值縮放到0~1之間。
特征選擇能夠去除冗余特征,篩選出高區分度的特征,本文通過方差檢驗、曼-惠特尼秩和檢驗、Lasso和SVM-RFE四種特征選擇算法組合應用進行特征選擇。特征選擇時先使用方差檢驗和曼-惠特尼秩和檢驗進行特征初篩,再對初篩特征A使用Lasso和SVM-RFE分別選出兩組特征(特征集合B和特征集合C),對初篩特征集A使用隨機森林(RF)和LightGBM進行模型訓練,對特征集合B和特征集合C使用SVM-RBF(徑向基核)進行模型訓練,特征篩選流程如圖4所示。訓練過程中使用十折交叉驗證和網格搜索選擇超參數。選擇在測試集上AUC值最高的模型的預測概率值作為影像獨立生物標志物(Rad-Score)。

圖4 特征選擇流程
卷積神經網絡在圖像這種分布復雜、非結構化的數據上表現優異,目前在圖像和視頻領域得到廣泛應用,但是醫學圖像收集困難,大多數醫學數據都無法從頭開始訓練深層網絡。本研究在EfficientNet-B7[22]網絡模型的基礎上,對最后一層卷積層和全連接層進行微調,并將第一層全連接層的參數作為深度特征。
訓練前,將預處理之后的圖像通過復制構造三通道彩色圖像。接著導入EfficientNet-B7在Imagenet上的預訓練模型及其參數,去除網絡中的全連接層同時將除最后一層卷積層之外的參數凍結,然后加入隨機初始化的500維、1維(softmax層)的全連接層。預處理圖像包括訓練集中病人ROI區域最大層及其相鄰上下兩層圖像共420幅,測試集圖像為病人ROI區域最大層圖像一共49幅,訓練過程中,將圖像縮放為600×600像素大小,對每一幅圖像分別進行向左旋轉30度、60度、90度、120度、150度、180度并進行水平翻轉,加上左右平移20像素一共16種圖像變換方法進行數據增廣,增廣之后訓練集圖像為6 720幅,測試集圖像不做增廣處理,圖像增廣示意圖如圖5所示。將增廣后的圖像導入深度網絡進行參數微調,采用早停止(early stopping)方法訓練模型,損失函數為交叉熵,評價指標為測試集損失函數值,當5個epoch內損失函數沒有降低時停止訓練,保存最優模型參數。最后將每個病人的MRI圖像中ROI區域最大的圖像作為輸入數據導入模型,將500維全連接層的輸出作為深度特征,采用1.2節的特征選擇方法和模型訓練方法訓練模型,構建深度特征生物標志物(Deep-Score)。

圖5 圖像增廣
將Rad-Score、Deep-Score與臨床指標中的顯著特征結合構建多元邏輯回歸模型。在構建預測模型之前結合P值、赤池信息量準則(AIC)[23]值和數據缺失值比率進行臨床特征篩選,使用余下的特征訓練最終的分類模型并構建諾模圖,使用醫學上常用的準確率、敏感度等指標評價模型的分類性能,使用校準曲線對模型的穩定性進行評價。
本文實驗目的是探究在融合影像特征、深度學習特征和臨床特征構建的模型是否有助于提升模型的分類性能,實驗過程中分別對影像特征和深度特征建立了單獨的分類模型來研究單一類型特征下模型的分類表現。分別提取影像特征生物標志物和深度特征生物標志物并導入邏輯回歸模型作為特征融合和模型訓練的方法,研究融合兩類特征后模型的分類表現。最后對三種模型的分類效果進行比較。
本文納入了鄭州大學人民醫院在2012年2月至2017年3月期間的189例患者入組并對實驗數據做了去隱私化處理,數據納入標準如下:(1) 經病理證實為肝癌而接受手術切除并有肝癌組織學報告的患者;(2) 術前1周內進行肝臟MRI檢查;(3) 之前未接受過射頻消融、經導管動脈化療栓塞(TACE)、肝切除或經皮乙醇注射等治療;(4) 圖像質量符合分析要求(在橫斷面上具有可見的病變)。從存檔的臨床組織學報告中檢索組織學分級數據,低分化級別腫瘤對應于Edmondson I、I-II和II級,而高分化級別腫瘤對應于Edmondson II-III、III、III-IV和IV級。數據中高分化患者94例,低分化患者95例。將兩類患者按照時間順序進行排序,選取前140位(高分化70例,低分化70例)作為訓練樣本,余下的49例(高分化24例,低分化25例)作為測試樣本。
本文所有數據均由在肝癌MRI診斷方面具有5年以上診斷經驗的影像科醫師進行分割,分割基于脂肪抑制T2加權圖像進行手工勾畫,勾畫范圍覆蓋影像中病變所在的所有層面,分割圖像如圖6所示,右圖白色區域對應左圖肝癌腫瘤區域。

圖6 肝臟腫瘤感興趣區分割示意圖
在醫學影像的診斷結果中,通常使用準確率(Acc)、靈敏度(Sen)和特異性(Spe)作為評價指標。使用AUC(Area Under Curve)值評價模型性能。對于肝細胞癌的分化等級分類實驗,將低分化預測為低分化為真陽性TP,將高分化預測為高分化為真陰性TN,將高分化預測為低分化為假陽性FP,將低分化預測為高分化為假陰性FN。各項指標具體計算如下:
準確率是在測試集中正確分類的數量Nc占測試集總數量的比率:
(1)
靈敏性是在測試集中真陽性(TP)與真陽性(TP)和假陰性(FN)之和的比率:
(2)
特異性是在測試集中真陰性(TN)與真陰性(TN)和假陽性(FP)之和的比率:
(3)
AUC為受試者操作特性曲線(ROC)曲線下面積,ROC曲線是真陽性診斷率與假陰性診斷率的關系圖,AUC值越接近1,其模型分類性能越好。
在醫生標注的MRI圖像數據上進行直方圖均衡化和Gabor小波變換后,針對ROI區域提取2 755個影像特征,包括8個形狀特征、17個一階統計特征、50個紋理特征以及2 680個Gabor小波特征,并將所有特征值縮放到0~1之間,去除量綱不同對特征選擇的影響。
依據方差越大表明特征包含的信息越多的原理,首先進行方差檢驗,計算所有特征的方差去除方差小于閾值(本文采用0.1)的特征,然后進行曼-惠特尼秩和檢驗,使用默認P值0.95作為參數,最終選出具有顯著統計學意義的特征317個。最后使用Lasso算法和SVM-RFE算法選出兩組具有代表性的組學特征(Lasso選出5個特征,SVM-RFE選出18個特征),兩個特征組分別在SVM分類器上進行模型訓練。
分別對Lasso選出的特征和SVM-RFE選出的特征使用SVM(徑向基核函數)分類器進行十折交叉驗證和網格搜索,對未做特征選擇的影像特征分別使用隨機森林(RF)和LightGBM進行模型訓練,同樣使用十折交叉驗證和網格搜索選擇超參數。模型的接收者操作特征曲線(ROC)曲線如圖7所示。

圖7 分類模型ROC曲線
本文選擇在測試集上曲線下面積(AUC)值最大的模型預測概率作為影像標簽,從圖7可以看出SVM-Lasso和SVM-RFE在測試集上分類性能較低,隨機森林在訓練集上AUC值遠高于測試集上AUC值,發生嚴重的過擬合,LightGBM未出現過擬合且在測試集上AUC值最高,將LightGBM的預測概率作為影像特征標簽,得到Rad-Score。
采用EfficientNet-B7框架提取出500維深度特征,分別使用SVM和LightGBM算法對特征進行模型訓練,SVM分類器進行2.3節中的相同步驟進行特征選擇,Lasso和SVM-RFE特征選擇方法未能選出特征,采用LightGBM在未做特征選擇的深度特征上進行模型訓練,結合學習曲線,十折交叉驗證和網格搜索選擇超參數,最終測試集AUC值可以達到0.725,結果如圖8所示。

圖8 LightGBM在深度特征上的ROC曲線
本文將LightGBM的預測概率作為深度特征標簽,得到Deep-Score。
綜合使用Rad-Score、Deep-Score與臨床指標中的顯著特征共同構建多元邏輯回歸模型。臨床特征包括年齡、性別、是否有脈管癌栓、是否有乙肝病史、血液AFP值、ki-67值和病灶大小一共7種臨床指標。在構建預測模型之前結合P值和AIC值過濾掉不存在顯著統計學意義及不重要的臨床特征,同時去除缺失值比率大于10%的臨床特征。研究發現Rad-Score和Deep-Score的P值均小于0.05且AIC值均大于閾值101.6(Rad-Score:171.24,Deep-Score:271.38),所以本文采用Rad-Score和Deep-Score構建預測模型。
最終分類模型的ROC曲線如圖9所示,特征融合后測試集AUC值達到0.828。為了體現本文特征融合方法的有效性,對影像特征、深度特征、特征融合及2019年相關研究實驗結果的評價指標展示在表1。可以看出,特征融合后的測試集AUC值相比影像特征分類模型提高了5.5%,相比深度特征模型提高了10.3%,特征融合模型評價指標接近近年最優模型。

表1 預測模型測試集評價指標
為了便于臨床使用模型進行可視化輔助診斷,本文融合了Rad-Score和Deep-Score這兩種影像相關的重要標簽,繪制出直觀的諾模圖作為預測模型,如圖10所示。RadScore對應影像特征預測模型的預測概率,DeepScore對應深度特征預測模型的預測概率,將概率值對應的得分(Points)相加,得到該病人的總得分(Total Points),總得分對應的預測概率值(Probability of low grade)就代表了患者肝細胞癌分化等級的預測概率,概率值越高則肝細胞癌低分化的可能性越大,從而實現肝細胞癌分化等級的預測。

圖10 個性化預測諾模圖
本文使用校準曲線來驗證諾模圖的預測效果,如圖11所示,可以看出,預測結果與真實結果偏離較小,經計算訓練集p=0.525,測試集p=0.471,說明模型預測風險與實際發生風險相符,具有統計學意義(p>0.05),該模型具有可靠的預測性能。

圖11 校準曲線
采用影像特征進行分類模型建模時測試集AUC值最高為0.773,采用深度特征進行建模時測試集AUC值最高為0.725,兩種特征集合對模型分類貢獻區別不大,將兩種特征集合使用本文方法進行融合后建模,測試集AUC值達到0.828,模型的分類準確率和特異性接近今年相關研究的最優分類結果,但是本實驗方法相比文獻[16]對數據量要求更小,具有更高的適用性。實驗顯示影像特征和深度特征都能反映腫瘤信息,特征融合對提升模型分類效果有幫助。
本文提出了一種融合影像特征與深度特征的肝臟非增強MRI圖像下的肝細胞癌分化等級術前預測方法: 分別提取了人為設計的影像特征2 755個,以EfficientNet-B7為基礎模型,通過添加全連接層導入增廣的ROI圖像數據進行模型參數微調,再使用第一層全連接層進行深度特征提取共獲得500維深度特征。采用多種特征選擇方法、多種分類模型進行訓練得到影像特征標簽和深度特征標簽,最后使用邏輯回歸模型繪制直觀的諾模圖作為預測模型,模型在校準曲線上表現較好,特征融合后的分類模型各項指標均高于單一特征模型。本文提出的方法優于直接使用影像組學方法進行分類,且在小樣本數據集上依然可以發揮深層卷積網絡的特征提取能力,實驗證明采用本文方法提取的深度特征可以作為影像特征的補充,特征融合之后模型分類性能有明顯提升。
本文研究樣本仍然較少,下一步的研究目標是通過多中心數據共享的方式繼續擴大實驗樣本,嘗試對更多的層進行參數微調,提取不同層的輸出作為深度特征進行對比實驗,進一步提高模型的分類性能。