基于放射組學的特征選擇和亞組分析對肺腺癌患者預后的預測價值

2022-03-08 14:21:10焦玉泉常艷亮楊春媚

實用臨床醫(yī)藥雜志 2022年2期

關(guān)鍵詞：特征模型

焦玉泉, 常艷亮, 楊春媚, 王翔

(山西省運城市中心醫(yī)院醫(yī)學影像科, 山西運城, 044000)

肺腺癌是非小細胞肺癌的病理亞型之一，是導致全球癌癥性死亡的主要原因。盡管多年來肺腺癌的治療決策和預后有了明顯的改善，但生存率仍有待進一步提高[1]。腫瘤-結(jié)節(jié)-轉(zhuǎn)移(TNM)分期系統(tǒng)是目前常用的預后評價體系[2]。然而，即便同一分期的患者之間的生存率也可能有所不同[3]。目前，有研究[4]開始利用放射組學預測肺癌患者的預后。放射組學是一種高通量技術(shù)，用于量化醫(yī)學圖像中的表型特征，這些特征可能有助于預測生存預后、術(shù)前遠處轉(zhuǎn)移和進行組織學亞型的分類[5]。近年來，研究[6-9]顯示放射組學可作為總體生存率的獨立負性預測因素預測肺腺癌預后，且代表異質(zhì)性的紋理特征對于準確性至關(guān)重要。目前對同一病理類型進行不同分期的亞組分析的研究較少[10-12]。本研究探討不同放射組學特征選擇和基于分期的亞組分析對肺腺癌患者預后的預測價值，現(xiàn)將結(jié)果報告如下。

1 資料與方法

1.1 一般資料

選取2016年1月—2018年1月在本院接受治療的293例肺腺癌患者為研究對象。納入標準: ① 病理診斷為肺腺癌者; ② 影像學資料完整者; ③ 未合并其他惡性腫瘤者。排除標準: ① 病理診斷不明確者; ② 全身重要臟器功能衰竭者。將患者分為訓練組235例和測試組58例，患者一般資料見表1。

表1 2組患者一般資料比較

1.2 放射組學特征提取與選擇

每例患者共提取107個特征，其中包括14個形狀特征、18個一階統(tǒng)計學特征和75個紋理特征。形狀特征量化了感興趣區(qū)域(ROI)的直徑、體積以及不規(guī)則程度; 一階統(tǒng)計特征用于創(chuàng)建像素值的直方圖，并定義與該直方圖有關(guān)的特征; 紋理特征用于將像素值之間的關(guān)系轉(zhuǎn)換為矩陣，以衡量圖像的均勻性和異質(zhì)性。紋理特征包括灰度共現(xiàn)矩陣、灰度依賴矩陣、灰度運行長度矩陣、灰度大小區(qū)矩陣和鄰域灰調(diào)差異矩陣。

107個從腫瘤區(qū)中提取的放射學特征用3種特征選擇方法進行了還原，分別為: ① 特征選擇1(FS1)為文獻報道的測試-重復測試和多重分割來選擇穩(wěn)健的特征[13-15]。使用文獻報道的數(shù)據(jù)集來評估當天重復CT掃描的腫瘤單維、雙維和體積測量的變異性。該數(shù)據(jù)集可從癌癥成像檔案館公開的在線參考圖像數(shù)據(jù)庫評估治療反應測試-重測數(shù)據(jù)集中下載。測試-重測法將腫瘤的放射學分析應用于每例患者的2張圖像，并用一致性指數(shù)(C-index)評估2個特征值之間的一致性，在C-index >0.85時進行特征選擇。② 特征選擇2(FS2)是根據(jù)所有特征的皮爾遜相關(guān)分析計算出的相關(guān)系數(shù)，將其中1個相關(guān)的特征作為多余的特征從分析中排除[12]。相關(guān)系數(shù)的絕對值≥0.8提示2個特征之間強相關(guān)的閾值[16]。③ 特征選擇3(FS3)是結(jié)合FS1和FS2[17], 在使用測試檢驗和多重分割選擇出穩(wěn)健的特征后，使用皮爾遜相關(guān)分析選擇非冗余的特征，閾值為0.8。

1.3 構(gòu)建LASSO Cox回歸模型

本實驗構(gòu)建了2個不同的模型: 一個是使用FS1、FS2和FS3中選定的特征的單純放射學特征模型(放射學模型)，另一個是使用選定的特征加上臨床預測因子的放射學和臨床特征相結(jié)合的模型(組合模型)。LASSO Cox回歸模型被用來構(gòu)建預測生存預后的模型。作者采用了5倍交叉驗證來防止模型的簡化和過擬合，并為數(shù)據(jù)選擇最佳的λ。

1.4 亞組分析

肺腺癌患者依據(jù)不同的T分期創(chuàng)建亞組數(shù)據(jù)集。T1～T4期分別有93、96、49和55例患者。亞組分析中使用5倍交叉驗證來驗證構(gòu)建的模型。使用分層抽樣將每個亞組數(shù)據(jù)集分為5個部分，同時保持死亡患者和存活患者的比率不變; 然后，將4個部分作為訓練數(shù)據(jù)集, 1個部分作為測試數(shù)據(jù)集。采用5倍交叉驗證，以確保用數(shù)據(jù)數(shù)量較少的子組數(shù)據(jù)集構(gòu)建的模型的可靠性。

1.5 統(tǒng)計學分析

采用R軟件3.6.1進行數(shù)據(jù)的統(tǒng)計分析, Kaplan-Meier生存分析評估放射組學特征和生存率之間的關(guān)系。P<0.05為差異有統(tǒng)計學意義。

2 結(jié) 果

2.1 不同模型的預測性能

在放射學模型的訓練和測試數(shù)據(jù)集中, FS2的C-index是所有選擇方法中最高的(分別為0.64、0.61)。同樣, FS2在組合模型的訓練和測試數(shù)據(jù)集中的所有選擇方法中具有最高的C-index(分別為0.65、0.63)。因此，F(xiàn)S2被應用于亞組分析，見表2。

2.2 基于T分期的亞組預測性能

表3顯示了各亞組的預后表現(xiàn)，為了避免復雜化，顯示了在5倍交叉驗證中最接近測試數(shù)據(jù)集的平均C-index時的情況。所有T分期放射學模型和組合模型產(chǎn)生的C-index都高于所有數(shù)據(jù)，特別是在放射學模型中, T1組的測試數(shù)據(jù)集的C-index提高最多，組合模型中T4組的指數(shù)提高最多。見圖1。

表2 訓練組和測試組中不同模型的預測性能

表3 各亞組預后預測表現(xiàn)

3 討論

本研究探討了基于放射組學特征選擇和T分期的亞組數(shù)據(jù)集的肺腺癌患者的生存預測，對所有數(shù)據(jù)的分析并未顯示出高的預后性能。然而，亞組的分析比所有數(shù)據(jù)的分析有更好的預后性能。這一結(jié)果表明，按特定的T分期分析肺腺癌可明顯改善生存預測。

本研究對所有數(shù)據(jù)應用了3種獨立的特征選擇方法，以確定預后性能方面的最佳方法。在測試數(shù)據(jù)集中，放射組和組合模型使用FS2時獲得最高的預后性能。SUN W等[18]研究表明, Cox模型中Pearson的特征選擇方法在5種選擇方法中產(chǎn)生了第2高值的C-index。LEGER S等[19]研究也表明, Cox模型中同樣的Pearson特征選擇方法在12種選擇方法中產(chǎn)生了最高的C-index。這些結(jié)果與本研究結(jié)果一致(即FS2的C-index最高)。因為Cox模型用一個簡單的回歸方程直接預測事件發(fā)生的時間，這個模型經(jīng)常產(chǎn)生過擬合的結(jié)果[19]。Pearson的特征選擇方法可以通過去除多余的特征交互作用來減少過擬合，而且計算效率很高。基于Cox模型和Pearson特征選擇方法的這些特點，可以說明這種選擇方法是Cox模型預測預后的最有用的方法。

既往研究[20]通過將每個子組數(shù)據(jù)集應用于整個數(shù)據(jù)集訓練模型來驗證預測性能，與應用整個數(shù)據(jù)集相比，預測性能得到提高。然而，這些研究沒有使用子組數(shù)據(jù)集構(gòu)建訓練模型，只進行了最小的子組分析。本研究同時構(gòu)建全部數(shù)據(jù)和子組模型進行肺腺癌患者預后分析。結(jié)果顯示，與所有數(shù)據(jù)相比，基于T分期亞組分析的預后性能提高。高預后性能是通過消除具有不同預后和異質(zhì)性的亞組之間的放射學特征趨勢的差異而產(chǎn)生的。因此，本研究采用的方法，即為每個亞組構(gòu)建訓練模型，可以準確反映每個組的放射學特征，并可以提高預后預測的性能。

A: 總數(shù)據(jù)的訓練模型和生存模型曲線; B: T1期的訓練模型和生存模型曲線; C: T2期的訓練模型和生存模型曲線; D: T3期的訓練模型和生存模型曲線; E: T4期的訓練模型和生存模型曲線。圖1 Kaplan-Meier曲線基于每個亞組的放射模型中的Rad得分

本研究旨在使用一種方法來實現(xiàn)足夠的預后性能，以實現(xiàn)臨床效用，該方法側(cè)重于對具有相同特征的亞組進行預后分析。然而，在未來的臨床應用之前，有一個問題必須解決，即使用免疫檢查點抑制劑和分子靶向藥物的治療方法的出現(xiàn)，這些療法大大改善了肺癌患者的預后[21]。因此，有必要建立一個考慮這些因素的預后模型。最近，在接受這些療法治療的患者的數(shù)據(jù)集中，已有研究[22]報道了與放射組學的高度關(guān)聯(lián)和高度預后預測的潛力。未來的一個挑戰(zhàn)是揭示該模型是否能適用于接受過上述治療的患者的數(shù)據(jù)。此外，本研究是基于相對較少的患者數(shù)量，由于一些亞組的數(shù)據(jù)數(shù)量相當少，因此本研究得到的結(jié)果需要基于更多數(shù)據(jù)的研究來進一步驗證。

綜上所述，本研究調(diào)查了基于放射組學的特征選擇和T分期的亞組分析對肺腺癌患者的生存預測，基于每個T分期組的模型較基于所有數(shù)據(jù)的模型具有更高的C-index。因此，對特定亞組的預后分析或可改善預后性能。