葉姣,賓芳,魯波,蔡澤潤,胡玲(通信作者)
湘潭市中心醫院 (湖南湘潭 411100)
腦膠質瘤是常見的腦部原發性腫瘤,世界衛生組織將其分為Ⅰ~Ⅳ級,其中Ⅰ級和Ⅱ級為低級別腦膠質瘤(low-grade gliomas,LGGs),Ⅲ級和Ⅳ級為高級別腦膠質瘤(high-grade gliomas,HGGs)[1]。研究證實,不同級別的腦膠質瘤患者的治療方法和預后差異較大。手術切除為LGGs 的首選治療方法,化療和輔助放療是HGGs 治療的必要方法[2-3]。研究表明,腦膠質瘤分級級別越高,術后復發率越高,患者生存率越低[4]。MRI 是診斷腦膠質瘤的常用方法,其具有軟組織對比度高等優點,但其診斷精度仍有待提高[5]。近年來,影像組學方法已廣泛應用于癌癥的診斷分級、療效評估及生存期進展預測等領域,為腦膠質瘤的分級提供了思路[6-10]。本研究擬提取腦膠質瘤多模態MRI 的影像組學特征,并對其特征進行分析,旨在建立3 種機器學模型,以提高腦膠質瘤分級的精度。
本研究采取公開可獲取的BraTS2018 訓練數據集作為研究資料,其包括T1、T2、T1ce、Flair 4 個序列MRI 圖像及增強腫瘤區域、浮腫和壞疽3 個區域的掩膜文件。本研究僅采用增強腫瘤區域作為感興趣區域(regions of interest,ROI),用于后續影像組學特征的提取。將4 個序列的MRI 三維體素間距插值為1 mm×1 mm×1 mm,調整每個序列圖像大小為240×240×155,并使用Z-score 方法進行標準化處理。經處理后,數據集包括腦膠質瘤258 例,其中高分化腦膠質瘤210 例,低分化腦膠質瘤48 例,依據9∶1 的比例分配為訓練集233 例和測試集25 例。
影像組學特征提取是指從ROI 中計算大量特定參數的過程。采用基于Python 3.7 平臺的Pyradiomics 開源包提取腦膠質瘤影像組學特征。提取的影像組學特征包括一階及3 類。一階統計特征反映所測ROI 的對稱性、均勻性及局部強度分布變化;形狀定量描述ROI 的三維大小和形態信息;紋理特征反映了ROI灰度間的空間排列關系。每個模態MRI 影像均提取107 個影像組學特征,共提取428 個影像組學特征。
首先,對所有特征進行最大最小標準化處理,使標準化后的特征數值處于(0,1)。其次,使用Spearman 系數計算特征間的相關性,并保留任意2 個特征間相關系數>0.9。使用LASSO 算法篩選最終用于構建影像組學模型的特征,根據權值λ 調整LASSO 回歸復雜度,λ 值越大,對變量較多的線性模型懲罰力度越大。訓練集進行10 倍交叉驗證,找到交叉驗證誤差最小的λ 值,篩選出λ 值不為0 的特征,并計算特征權重,將最后得到21 個特征組成的融合子集作為后續分類模型的基礎。
完成特征篩選后,構建3 種機器學習分類模型:對數幾率回歸(Logistic regression,LR)、支持向量機(support vector machine,SVM)和多層感知機(multi-layer preceptron,MLP)。LR 是一種線性模型,通過線性決策邊界將數據分成2 類。SVM是一種非線性模型,其使用核函數將數據映射至高維空間,并使用線性決策邊界分離數據。MLP 是一種深度學習模型,其由多個神經元層組成,并在神經元層后添加激活函數,使MLP 可用于非線性分類任務中。所有模型均采用網格搜索方法進行訓練,對各類模型予必要的參數調整,得到訓練集各分類模型的最佳參數。
采用Python 3.7 對數據進行統計分析。計算各預測模型腦膠質瘤高低分化的準確率、曲線下面積(area under curve,AUC)、靈敏度、特異度,并繪制采用受試者特征曲線(receiver operating characteristic curve,ROC)與決策曲線(decision curve analysis,DCA)評估預測模型效能。
使用斯皮爾曼相關系數去除冗余特征后篩選出136 個特征,使用LASSO 算法篩選最終用于構建影像組學模型的特征,見圖1。最佳懲罰系數λ=0.0168。經選擇后,最終保留22個系數值不為0的特征,用于機器學習模型的訓練測試,各特征權重見圖2。

圖1 10 倍交叉驗證選擇最佳懲罰系數λ

圖2 篩選出影像組學特征權重
表1 為LR、SVM、MLP 3 種機器學習算法構建影像組學模型預測腦膠質瘤高低分化的結果。圖3為3 種模型下訓練集和驗證集的ROC 曲線。所有模型在訓練集的AUC均>0.95,測試集的AUC均>0.90。LR 在測試集中的準確率、AUC和特異度均為最高,敏感度低于SVM 模型。圖4 為3 種模型下的DCA 曲線。DCA 曲線表明,3 個模型均具有較好的臨床收益,但LR 的凈收益高于SVM 和MLP,因此,在影像組學模型中,LR 為最優預測模型。

表1 影像組學模型預測腦膠質瘤高低分化的結果

圖3 3 種模型下訓練集和測試集的ROC 曲線

圖4 LR、SVM、MLP 模型下的DCA 曲線
本研究利用影像組學預測腦膠質瘤患者高低分級的診斷效能,提取Flair、T1、T1ce 和T24 個模態MRI 的影像組學特征并進行數據融合,使用Spearman 和LASSO 回歸篩選特征,建立LR、SVM、MLP 3 種機器學習模型進行分類預測。ROC曲線分析顯示,3 種模型均具有較好的診斷效能,在訓練集和測試集上AUC均>0.9,最高為0.976,且靈敏度和特異度相對穩定。DCA 分析顯示,3 種模型曲線在0.2~1.0 閾值下處于干預和無干預曲線上方,在相同閾值下的凈收益更高,表明3 種模型均具有較好的臨床收益。
本研究對腦膠質瘤高、低分化的影像組學研究發現,4 種模態特征聯合LR 機器學習模型在測試集中的AUC值最高,具有最佳的診斷效能。
傳統MRI 影像診斷模式診斷結果差異性較大,無法滿足臨床精確診斷的需求。目前大量研究將影像組學方法用于腦膠質瘤的分級診斷中。Zhou等[11]使用T1增強MRI 影像組學預測腦膠質瘤分級,AUC為0.95。阮君等[12]使用T1、T2、T1加權增強和彌散加權成像4 個模態MRI 影像組學特征評估腦膠質瘤高低分級,結果顯示,基于T1、T2和DWI 影像組學特征模型的AUC均>0.9[12]。戴宏等[13]嘗試對腦膠質瘤Brats19 公開數據集分級,并使用集成學習投票機制綜合3 種機器學習算法模型分類,其集成模型在測試集上的AUC、準確度、靈敏度分別為0.933、0.886 和0.872。本研究LR 模型的AUC、準確度、靈敏度分別為0.976、0.905 和1.000,說明LR 模型對腦膠質瘤分化的識別準確度更佳。
綜上所述,基于多模態MRI 影像組學特征可快速、準確預測腦膠質瘤的高低分化,為臨床醫師對腦膠質瘤的分級診斷提供參考依據。