林泰安,羅亞梅,黃志偉,楊 錄,要小鵬
1.西南醫科大學醫學信息與工程學院(瀘州646000);2.西南醫科大學附屬醫院 放射科(瀘州646000);3.核醫學與分子影像四川省重點實驗室(瀘州 646000)
膽管癌(cholangiocarcinoma)是一種較為罕見的肝膽惡性腫瘤,具有擴散轉移快、預后差、生存周期短等特點[1-2]。根據解剖位置通常分為肝內膽管癌(intrahepatic cholangiocarcinoma,iCCA)和肝外膽管癌(extrahepatic cholangiocarcinoma,eCCA)。過去20 年間,大多數國家的膽管癌發病率呈逐年上升趨勢,尤其是東南亞地區,其中eCCA占所有原發性肝癌的5%~30%[3-4]。目前,外科手術切除是eCCA患者獲得長期生存的唯一治療手段。根據文獻報道,淋巴結轉移(lymph node metastasis,LNM)被認為是膽管癌切除手術最重要的預后因素之一,因此在術前準確識別eCCA患者淋巴結轉移狀況對確定最佳治療方案和預后效果評價極為重要[5-8]。
當前,臨床上大多采用計算機斷層掃描(CT),正電子發射斷層掃描/計算機斷層掃描(PET/CT),以及磁共振成像(MRI)進行膽管癌放射學診斷,尤其是MRI 能更直觀的顯示病灶的形態學特征,在膽管癌病變評估和術前檢查中普遍應用[9-11]。傳統的影像診斷主要依靠醫生的主觀判斷進行定性分析,易受主觀因素影響而導致診斷結果出現偏差,進而產生誤診和漏診。近年來,隨著人工智能技術的不斷發展,影像組學(radiomics)結合傳統影像學和機器學習算法構建醫學圖像預測模型已成為研究熱點,許多學者利用其對乳腺癌[12-13]、直腸癌[14]、肺癌等[15]患者的淋巴結轉移進行了預測研究,取得了很好的預測效果。
上述研究主要是進行定性預測,而利用MRI 影像數據開展定性和定量預測的研究較少。因此,本研究針對eCCA 患者,提取MRI 影像中DWI、T1WI、T2WI 和ADC 四種序列的圖像特征,結合病理結果利用支持向量機(support vector machine,SVM)算法建立模型,用于預測eCCA患者術前淋巴結狀態。
本研究屬于回顧性研究,獲得西南醫科大學附屬醫院倫理委員會批準,收集選取了2011年11月至2021年12 月于西南醫科大學附屬醫院接受根治性手術切除的101 例eCCA 患者病例資料(其中男性56 例,女性45例,平均年齡57歲)。搜集數據包括患者臨床癥狀、MRI圖像和病理結果(包括淋巴結狀態)。為保護患者隱私,所收集到的數據信息都進行了脫密處理。納入標準:①患者術前未接受化療等其他抗腫瘤治療;②患者病變部位病理分析結果證實為肝外膽管癌。排除標準:①術前2周內無MRI影像;②MRI圖像模糊;③存在不明或不明顯的病變;④患者MRI資料不完整。
在最初收集的172例eCCA患者數據中,排除了71例,主要原因是檢查信息不足,例如,沒有術前完整的MRI圖像(n=38)、MRI圖像模糊(n=10)、存在不明或不明顯的病變(n=5)以及缺乏部分淋巴結病理活檢數據(n=18)等。最終有101 名患者數據可用于構建eCCA 的淋巴結預測模型,如圖1 所示。將eCCA 患者分為兩分類樣本,其中淋巴結轉移組為正樣本,標記為1[LNM(+);n=29;label=1];淋巴結未轉移組為負樣本,標記為0,[LNM(-);n=72;label=0]。

圖1 病例納入和排除流程圖Figure 1 Flowchart of case Inclusion and exclusion
本研究采用開源醫學圖像特征提取軟件MaZda(version 4.6)對MRI 圖像的感興趣區域(ROI)進行勾畫。先將患者影像數據導入MaZda 軟件,根據醫師判斷手動沿ROI 邊緣分別對DWI、T1WI、T2WI 以及ADC序列的圖像進行勾畫。為降低人為因素所導致的主觀偏差,選取經驗豐富的放射科醫師在預先不知病理結果的情況下完成勾畫,如圖2所示。

圖2 MaZda軟件勾畫ROI示意圖Figure 2 ROI delineated by MaZda software
1.3.1 數據預處理 本研究采用MaZda 軟件對ROI 區域進行放射學圖像特征提取,從每個序列的MRI 圖像可以提取302個圖像特征,共計獲取1 208個放射學圖像特征。為消除不同數據量綱影響,利用MATLAB 軟件采用最大-最小算法(Max-Min algorithm)對1 208 個特征進行歸一化。
1.3.2 SMOTE 算法 根據機器學習的基本理論,如果數據樣本存在嚴重的不平衡性,預測結果易出現偏異性,主要體現在預測結果會向樣本量較多的一類傾斜。為有效解決樣本數據不平衡問題,研究人員提出了合成少數類過采樣算法(Synthetic Minority Oversampling Technique,SMOTE)來解決該類問題[16]。本研究中,淋巴結轉移患者(n=29)與未轉移患者(n=72)數據量很不平衡,直接影響預測模型的泛化性。從小樣本數據的角度看,適合采用SMOTE 算法來實現樣本數量平衡。通過計算出少數類樣本的m 個近鄰值,從近鄰值中隨機選取n個樣本進行隨機線性插值來構建新的少數類樣本,并將其與原數據合成,產生新的訓練集,實現分類樣本的數據平衡。
1.3.3 特征篩選 由于少樣本高維度數據中存在大量的冗余特征,會直接影響預測模型性能。本研究采用Spearman 相關性分析和最大相關最小冗余特征算法(Max-Relevance and Min-Redundancy,mRMR)對放射學圖像特征進行初次篩選和二次篩選,盡可能降低冗余特征對預測模型的影響。首先,采用Spearman 相關性分析遍歷所有特征,計算兩兩相鄰特征間的相關系數r。同時,將∣r∣≥0.9的特征從特征數據集中排除,完成特征初步篩選。其次,使用mRMR 算法對剩余特征進行篩選,計算特征之間、特征與變量之間的互信息量分布,通過互信息量排序保留了前20個特征作為優選特征(表1),完成二次篩選。

表1 篩選后的圖像特征表Table1 Image features after screening
支持向量機(Support Vector Machine,SVM)是VAPNIK 在1995 年所提出的機器學習算法,它的本質是利用核函數建立數據高維空間的非線性映射模型,對小樣本數據分類有很好的預測效果[17]。本研究以放射學圖像特征為自變量,術前淋巴結狀態標簽為因變量,采用SVM 算法建立預測模型。在建模過程中采用Matlab 計算軟件進行數據預處理和特征選擇,根據小樣本數據劃分訓練集和測試集的準測,按照8:2的比例將病例樣本分為訓練集和測試集[18]。為提高預測模型精度和泛化性,在建模過程中通過網格搜索和交叉驗證優化懲罰因子和核函數參數,并在測試集中利用受試者工作特征曲線(ROC)評價該模型性能。
利用Mazda 軟件對患者每個MRI 序列影像分別提取302個放射學圖像特征,總共獲取1 208個放射學圖像特征,然后進行歸一化處理,消除量綱影響。由于上述特征中存在冗余信息和噪聲信息,會對預測模型造成偏差,故通過篩選特征數據顯示原始數據的本質結構特征。首先,使用SPSS軟件進行Spearman相關性分析,篩選出具有高度相似性的特征,共計824 個,刪除后所得特征共計384 個。然后,利用最大相關最小冗余特征選擇法(mRMR)篩選剩余的384 個放射學圖像特征,根據計算互信息量結果,最終選取20 個特征用于建立預測模型,如表1 所示,其中序號1-10 為T1WI序列圖像特征,序號11-15 為T2WI 序列影像特征,序號16-20 為ADC 序列放射學圖像特征,任選一組特征圖形化描述,如圖3所示。

圖3 Skewness_T2WI層特征直方圖Figure 3 Histogram of Skewness_T2WI layer feature

圖3 參數c,g優化等高線圖Figure 3 Contour plots of optimized parameters c,g
在本研究中,eCCA 患者淋巴結無轉移病例為72份,淋巴結有轉移的病例為29 份,通過SMOTE 算法設置合適的采樣倍率N[LNM(-),N=2;LNM(+),N=5]后,總共構建了新樣本289 份[LNM(-),n=144;LNM(+),n=145],從而基本實現了樣本數據量平衡。從289 份新樣本數據中任意選擇一定數量樣本作為訓練集,剩余的作為測試集,訓練集與測試集之比為8:2。
本研究采用SVM 算法,選用徑向基(RBF)作為核函數,以篩選后的病灶放射學圖像特征為自變量,淋巴結轉移標簽為因變量建立預測模型。將訓練集中的兩分類樣本[LNM(+);LNM(-)]輸入SVM模型進行建模,通過優化懲罰因子c和RBF核函數參數g,以獲取預測模型最優的預測效果。
為提高預測模型的性能,通過網格搜索和交叉驗證優化懲罰因子c和RBF核函數參數g,以獲取SVM模型最優的預測效果。通過程序計算可知不同的c、g值,對應不同的預測精度,如圖3所示。從中搜索預測精度最好的一組c、g 值,即為最優參數,則預測模型的最優參數為:c=0.57435、g=5.278,預測精度為86.6337%,如圖4所示。

圖4 SVM 參數選擇結果圖Figure 4 Results of SVM parameter selection
為評價SVM 預測模型性能,我們利用接收器操作特征曲線(ROC)來評估分類準確性,該模型的預測性能如圖5 所示。預測模型訓練集的AUC 為0.98,準確率為89.2%,靈敏度為92.9%,特異性為89.4%。預測模型測試集的AUC 為0.83,準確率為82.2%,靈敏度為82.1%,特異性為80.9%。

圖5 訓練集和測試集ROC曲線Figure 5 ROC curves of training and testing groups
eCCA是一種高度侵襲性的惡性腫瘤,其病因可能與肝部膽管結石、原發性硬化性膽管炎等疾病有關。盡管eCCA患者的臨床治療策略不盡相同,但是根治性手術切除仍然是eCCA 患者比較有效的治療方法。一般情況下,eCCA患者存在術后預后差、5年生存率低等情況,早發現早治療對根治eCCA 有重要的臨床意義。在臨床診斷中,LNM是否轉移被認為是預測eCCA患者術后生存率的重要因素之一[19]。
超聲波、CT、PET/CT 和MRI 等醫學影像技術的飛速發展,為腫瘤患者在診斷、治療、療效評估、復查檢驗等方面提供了更精準可靠的方法。然而,這些影像技術仍然受限于放射科醫生的主觀評價,診斷結果易受醫生個人經驗、臨床水平等因素影響,缺乏定量評價。由于eCCA無特異性癥狀和腫瘤標志物,超聲檢查對識別膽管源性和轉移灶有一定的缺陷,檢查結果不明顯[20]。盡管CT和MRI在eCCA術前檢查方面有一定的優勢,但對病灶體積小、強化方式特異性差的病例仍有較大的誤診漏診率[21-22]。PET/CT 價格昂貴,在良性病變如膽道感染或硬化性膽管炎中可能會受到假陽性結果的影響[23-24]。因此,利用機器學習算法對eCCA患者術前淋巴結狀態進行預測是一種可行的定性異質分析方法。
影像組學的本質就是通過從影像數據中提取高維、定量影像特征,然后利用機器學習算法量化描述病灶異質性。HUANG等[25]通過隨機森林算法預測iCCA的淋巴結轉移狀況,其敏感性為35.2%,特異性為91.8%,準確性為46.1%。本研究利用SVM 預測對eCCA患者淋巴結是否轉移進行了定量分析,計算結果顯示AUC 為0.92,具有優良的預測性能。盡管大量研究表明LNM 與eCCA 患者的預后密切相關,但淋巴結清掃術(lymph node dissection,LND)的臨床效果仍有一定的爭議[26]。YANG等[27]的研究發現在147例患者中,54.4%(80例)接受LND,其中42.5%(34/80)被發現有淋巴結轉移(LNM)。因此,對eCCA 患者LNM 進行術前精準評估代表了未來個性化治療的重要方向。本研究仍有一定局限性,首先是數據樣本較少,且患者數據來源于同一所醫院,樣本不可避免存在偏倚性;其次,病灶的ROI分割自動人工勾畫,存在一定的主觀性偏差;另外,本研究輸入特征只包含了影像組學特征,而缺少了患者臨床特征,會降低預測模型的泛化性。下一步,我們將開展多中心、多組學和多任務的研究作為工作重點,旨在建立性能更優異的預測模型,以提高本研究的臨床應用價值。
本研究中,我們利用放射學圖像特征建立了一種預測肝外膽管癌術前淋巴結狀態的機器學習模型,該模型在訓練集和測試集中都顯示出較高的準確性、敏感性和特異性,具有良好的預測性能。該模型可有助于對eCCA患者進行個性化預測,輔助臨床醫生評估手術價值并做出適當的臨床決策。同時,也有助于對eCCA患者進行精準治療,避免由于前期癥狀不明顯而導致錯過最佳手術時機,進而盡最大可能延長患者術后生存期。