沈潔 張怡帆 何健
胸腺瘤在亞洲人群發(fā)病率較高,常見于40~70歲患者,其中B3型胸腺瘤占比高達(dá)34%,與胸腺癌類似,具有較高的復(fù)發(fā)率[1-2]。
影像組學(xué)能無創(chuàng)提取高維影像特征,基因機(jī)器學(xué)習(xí)模型,探索潛在組學(xué)特征來預(yù)測(cè)臨床結(jié)果[3-6]。Angelo 等人研究表明,胸腺腫瘤的影像組學(xué)參數(shù)與組織學(xué)類型相關(guān),目前CT影像組學(xué)在B3型胸腺瘤與胸腺癌鑒別中的價(jià)值尚不清楚[7-8]。本文回顧B3型胸腺瘤和胸腺癌影像資料并提取影像組學(xué)差異特征,為臨床診斷提供新的思路和方法。
回顧性分析2000年1月—2021年10月經(jīng)手術(shù)切除后病理診斷或穿刺活檢明確診斷為B3型胸腺瘤或胸腺癌患者共51例。該研究通過南京醫(yī)科大學(xué)附屬腦科醫(yī)院胸部院區(qū)倫理委員會(huì)倫理審核,并免除了患者的知情同意。納入標(biāo)準(zhǔn):1)具有完整的病理及臨床資料;2)行胸部CT平掃+動(dòng)脈期增強(qiáng)掃描。排除標(biāo)準(zhǔn):1)存在其他惡性疾病;2)過敏體質(zhì);3)混合型胸腺瘤患者。最終,本研究共納入B3型胸腺瘤29例,胸腺癌22例,其中男性32例,女性19例,年齡22~74歲,中位年齡為(44±5.6)歲;病程1月~2年,主要臨床癥狀表現(xiàn)為咳嗽(22例)、呼吸困難(7例)、胸痛(7例)、胸悶(8例)、重癥肌無力(2例)、呃逆(1例),無癥狀者6例。將以上51名患者按照7:3比例劃分為訓(xùn)練集、測(cè)試集,訓(xùn)練集包括36名患者(B3型胸腺瘤患者20名,胸腺癌患者16名),其中男性24例,女性12例,測(cè)試集包括15名患者(B3型胸腺瘤患者9名,胸腺癌患者6名),其中男性8例,女性7例。
采用德國 Siemens 64 層螺旋CT掃描,掃描參數(shù):電壓120 kV,管電流150~200 mAs,層厚和層間距:5 mm,患者處于仰臥位,單次深屏氣時(shí)行CT掃描,范圍:自胸廓入口至橫膈膜水平連續(xù)掃描。CT平掃掃描后行動(dòng)脈期增強(qiáng)掃描,對(duì)比劑:離子型造影劑碘佛醇(江蘇恒瑞醫(yī)藥,50 mL/瓶),注射方法:用高壓注射器以4mL/s的速度靜脈注射對(duì)比劑1.0~2.0 mL/kg,造影劑注射后15~30s采集動(dòng)脈期圖像。根據(jù)觀察內(nèi)容調(diào)整適當(dāng)?shù)拇皩挕⒋拔弧?/p>
從圖片存儲(chǔ)與傳輸系統(tǒng)(picture archiving and communication system,PACS)獲得B3型胸腺瘤和胸腺癌患者DICOM格式的增強(qiáng)動(dòng)脈期CT圖像使用MRIcrol軟件將CT圖像轉(zhuǎn)換為nii格式并導(dǎo)入 3Dslicer(版本號(hào)4.13.0)[9],安裝radiomics插件,選擇Segment Editor,參考3D圖像、冠狀位及矢狀位圖像,由兩名影像科醫(yī)師使用3Dslicer選取腫瘤動(dòng)脈期CT橫斷面最大層面圖像并分割腫瘤ROI,避開鄰近組織,如縱隔脂肪、氣管、血管和肺組織,對(duì)于在橫斷面上無法明確的病變,參考重建后的矢狀位和冠狀位。兩名影像科醫(yī)師均對(duì)患者的臨床病理信息不知情。并使用3Dslicer對(duì)圖像進(jìn)行標(biāo)準(zhǔn)化和CT影像組學(xué)特征的提取。Resampling and size參數(shù)為3,3,3;Bin Width 25; 選擇特征(features):First Order、 Shape、 Shape 2D、灰度共生矩陣(gray level co-occurrence matrix,GLCM)、灰度級(jí)長矩陣(gray level run-length matrix,GLRLM)、灰度級(jí)帶矩陣(gray level size zone matrix,GLSZM)、灰度相關(guān)矩陣(GrayLevelDependenceMatrix,GLDM)和鄰域灰度差分矩陣(neighborhood gray-tone differencematrix,NGTDM);LoG Kernal size參數(shù)為:1,2,3,4,5。最終提取出4類CT影像組學(xué)特征,包括形態(tài)學(xué)特征、一階直方圖特征、二階直方圖特征及高階特征(圖1)。

圖1 A圖像紅色區(qū)域?yàn)榉指頡OI,B~D圖分別為3D、冠狀位、矢狀位圖像
為避免CT影像組學(xué)參數(shù)數(shù)值差異較大的影響,在特征篩選之前將所有原始高維特征數(shù)據(jù)歸一化、標(biāo)準(zhǔn)化。使用T檢驗(yàn)篩選出有差異的CT影像組學(xué)特征,然后采用最小絕對(duì)收縮和選擇算子方法(the least absolute shrinkage and selection operator,LASSO)進(jìn)一步特征降維,得到能使LASSO回歸模型的誤差達(dá)到最小的 lambda(λ)值,保留權(quán)重系數(shù)不為0的影像組學(xué)特征,并納入影像組學(xué)模型的構(gòu)建。
本研究應(yīng)用機(jī)器學(xué)習(xí)方法支持向量機(jī)(support vector machines, SVM)、隨機(jī)森林訓(xùn)練法(random forest,RF)構(gòu)建CT影像組學(xué)特征模型,Python軟件繪制ROC曲線和曲線下面積(area under the curve,AUC)量化評(píng)估模型的鑒別診斷性能。預(yù)測(cè)模型在獨(dú)立的內(nèi)部測(cè)試集中驗(yàn)證。
CT掃描,示病灶位于左前縱隔18例,右前縱隔33例,邊緣多呈分葉狀,最大徑為(3.4±0.6),腫塊密度多混雜不均,內(nèi)見囊變或壞死35例,密度均勻10例。CT值范圍17~78 HU,平均46 HU。12例具有心包侵犯,7例伴鈣化,胸腔積液2例,血管侵犯5例,肺內(nèi)或遠(yuǎn)處轉(zhuǎn)移3例。其中32例不均勻強(qiáng)化,多呈結(jié)節(jié)狀,5例強(qiáng)化見線樣強(qiáng)化血管影。
從CT圖像中提取1294個(gè)組學(xué)特征,應(yīng)用T檢驗(yàn)降低數(shù)據(jù)維度,防止模型復(fù)雜化,共篩選出196個(gè)特征,去除低性能特征,使用LASSO算法進(jìn)一步降維、篩選,使維度特征線性歸一到(0,1)之間,優(yōu)化特征,根據(jù)最優(yōu)λ值0.1025(圖 2,3),共獲得7個(gè)主要特征及相關(guān)權(quán)重系數(shù)(表1),經(jīng)篩選后的特征主要為小波濾波,根據(jù)特征與其對(duì)應(yīng)的權(quán)重系數(shù),評(píng)估患者病理類型。

表1 LASSO算法篩選得到14個(gè)CT影像組學(xué)特征及相應(yīng)權(quán)重系數(shù)

圖2 LASSO算法篩選B3型胸腺瘤和胸腺癌CT動(dòng)脈期影像組學(xué)特征的過程,紅點(diǎn)代表均方誤差,虛線表示模型偏差最低點(diǎn)對(duì)應(yīng)的橫坐標(biāo)為最佳λ值

圖3 LASSO算法篩選B3型胸腺瘤和胸腺癌CT動(dòng)脈期影像組學(xué)特征的過程,彩線代表特征的系數(shù)隨λ值的變化曲線,基線為回歸系數(shù)0,黑色虛線對(duì)應(yīng)的λ值為最佳值
分別使用隨機(jī)森林和支持向量機(jī)(SVM)建立影像組學(xué)預(yù)測(cè)模型,使用ROC曲線分析評(píng)估模型的預(yù)測(cè)效能,AUC值分別為0.914、0.812(圖4、5)。

圖4 隨機(jī)森林算法模型對(duì)應(yīng)的ROC曲線,AUC值為橙色線下方的面積,藍(lán)色點(diǎn)表示樣本

圖5 支持向量機(jī)算法模型對(duì)應(yīng)的ROC曲線,AUC值為橙色線下方的面積,橙色點(diǎn)表示樣本
本研究回顧性分析了病理診斷為B3型胸腺瘤和胸腺癌患者的CT影像組學(xué)特征,并建立由7個(gè)放射組學(xué)特征構(gòu)成的預(yù)測(cè)模型,用于鑒別診斷B3型胸腺瘤和胸腺癌。預(yù)測(cè)模型在測(cè)試集的AUC值高達(dá)0.914,顯示出良好的診斷效能。
Yasaka K.等人通過邏輯回歸分析建立了放射組學(xué)模型,獲得了較高的診斷性能,區(qū)分高危胸腺瘤和低風(fēng)險(xiǎn)胸腺瘤的AUC均值0.89,但未對(duì)具體亞型做分類研究[4]。Iannarelli等人的研究表明,基于CT圖像的紋理分析,可以將高危胸腺瘤與低風(fēng)險(xiǎn)胸腺瘤區(qū)分開來,但未對(duì)B3型胸腺瘤及胸腺癌的紋理特征行亞型分析[7]。Ren等人研究基于結(jié)合CT影像特征、紋理參數(shù)構(gòu)建預(yù)測(cè)列線圖,為術(shù)前組織亞型預(yù)測(cè)提供參考,更符合臨床需求[10]。但算法選擇較局限,未使用構(gòu)建模型常用的算法,如SVM算法、RF算法。本研究對(duì)比了兩種機(jī)器學(xué)習(xí)算法構(gòu)建診斷模型的效能,結(jié)果顯示SVM算法略優(yōu)于RF。可能是因?yàn)镾VM作為有監(jiān)督的二進(jìn)制分類器,用于分類和回歸任務(wù),在許多模態(tài)問題識(shí)別中具有優(yōu)越性,能提供更好的分類性能,而隨機(jī)森林算法(RF)是基于集合模型進(jìn)行預(yù)測(cè)的技術(shù),通過決策行分類決策,能在不影響準(zhǔn)確性的前提下估計(jì)缺失數(shù)據(jù),解決數(shù)據(jù)不平衡和分類問題,能對(duì)復(fù)雜的成像生物標(biāo)志物進(jìn)行高通量分析和挖掘,預(yù)測(cè)患者特異性結(jié)果,至于兩種算法效能的優(yōu)劣程度可能與數(shù)據(jù)等有關(guān),尚有待探索。
在病理分類的最優(yōu)特征子集中,所選的特征多為GLCM和GLRLM,代表了基于體素的灰度變化,可以反映腫瘤的復(fù)雜性和異質(zhì)性[11-12]。在我們的研究中,GLCM對(duì)預(yù)測(cè)胸腺瘤類型具有重要價(jià)值,尤其小波濾波所占比例較大,可能與腫瘤細(xì)胞積累增多、核質(zhì)比增加等有關(guān),其中腫瘤的病理、生理學(xué)基礎(chǔ)復(fù)雜,涉及多種機(jī)制;因此,胸腺腫瘤病理類型與放射組學(xué)特征,特別是與高階特征的確切關(guān)系仍有待完全闡明,目前對(duì)于胸腺瘤組學(xué)分析的研究仍處于起步階段。
本研究的局限性,主要包括下列幾點(diǎn):1)本研究為回顧性分析,不可避免存在選擇偏倚,且樣本量較小,按照7:3劃分?jǐn)?shù)據(jù)集,易導(dǎo)致模型過擬合,使模型在測(cè)試集上AUC值較高;2)僅對(duì)B3型胸腺瘤和胸腺癌兩種病理類型的影像特征進(jìn)行比較,缺乏其他胸腺亞型間的對(duì)比;3)ROI分割選取動(dòng)脈期CT圖像軸位病灶最大層面進(jìn)行二維分割,提取的CT影像組學(xué)特征較局限,丟失平掃及靜脈期相關(guān)信息,同時(shí)未提取病灶三維結(jié)構(gòu)特征;4)機(jī)器學(xué)習(xí)模型較少,未進(jìn)行多種模型比較,對(duì)研究結(jié)論支持力度較弱;5)本研究為單中心,所獲模型缺乏外部數(shù)據(jù)驗(yàn)證支持;6)與半自動(dòng)分割勾畫相比,手工勾畫病變可能丟失部分圖像信息。未來將擴(kuò)大研究樣本量,同時(shí)納入病灶三維影像組學(xué)信息,應(yīng)用貝葉斯等機(jī)器學(xué)習(xí)算法提供模型診斷效能,在常規(guī)CT影像的基礎(chǔ)上,改進(jìn)上述缺陷以期提高研究的臨床實(shí)用價(jià)值[13]。
綜上所述,機(jī)器學(xué)習(xí)方法的應(yīng)用使醫(yī)學(xué)圖像作為生物標(biāo)志物成為可能,參與優(yōu)化癌癥治療和改善臨床結(jié)果判讀,基于CT動(dòng)脈期的影像組學(xué)聯(lián)合機(jī)器學(xué)習(xí)模型,可以為B3型胸腺瘤和胸腺癌鑒別提供參考,但其臨床應(yīng)用價(jià)值,特別是影像特征與病理相關(guān)性的解釋尚有待進(jìn)一步探索。