張海捷,殷 夫,陳夢林,漆安琪,楊麗洋,崔維維,楊姍姍,文 戈
1深圳大學第一附屬醫院PET/CT中心,廣東 深圳 518052;2深圳大學信息工程學院,廣東 深圳 518052;3南方醫科大學南方醫院影像系,廣東 廣州 510515
腎細胞癌(RCC)是人類十大最常見的惡性腫瘤之一,也是尿路最常見的惡性腫瘤,約占腎惡性腫瘤的85%和整體惡性腫瘤的3%[1]。根據2016年世界衛生組織分類標準,腎透明細胞癌(ccRCC)是最常見的腎癌亞型,約占全部RCC的75%,也是最具侵入性和預后最差的一種亞型[2]。第二、三位最常見的RCC 亞型是乳頭狀癌(pRCC)和嫌色細胞癌(cRCC),分別占10%~15%和5%。RCC的其他亞型包括集合管癌、多房囊性腎癌、髓樣癌和未分類癌等[3-4]。不同亞型腎癌的的生物學行為和侵襲性不同,其治療方法和預后也不同,所以在治療前進行RCC亞型的鑒別很重要[5]。此外,晚期腫瘤的靶向藥物治療和免疫治療的選擇也基于RCC亞型[6-7]。
腎穿刺活檢病理結果是鑒別RCC亞型的金標準,但由于腎活檢術的侵入性,可能使患者面臨出血、靜脈炎、背痛和成本增加等風險,而且穿刺術也存在一定的失敗率。如果能有一種無創的方法能在治療前區分RCC亞型,將會給臨床醫師提供一個新的選擇[8]。雖然增強CT和功能磁共振成像在鑒別腎癌亞型方面取得了一些研究成果[9-10],但其相關參數及閾值的應用還未達到共識[11]。
影像組學近年來發展迅速,影像組學特征(RFs)可以反映圖像中像素的均勻現象,可通過特殊軟件進行定量分析[12]。通過結合醫學圖像、基因和臨床數據,影像組學可以使用人工智能方法以高通量方式提取和分析腫瘤信息,并提供比傳統成像方法更準確的診斷[13]。目前已廣泛應用于肺癌、乳腺癌、肝癌和結腸直腸癌的診斷中,但其在腎癌亞型的研究應用較少[14]。目前,有關腎臟的影像組學研究,多集中在鑒別腎臟的良惡性腫瘤方面以及惡性腫瘤的核分級方面,幾乎沒有專門針對腎癌亞型三分類的機器學習研究,這可能與腎癌的亞型分布極為不平衡,常用的機器學習方法很難模擬真實分布,同時保持可靠性和有效性有關。
本研究基于影像組學特征構建可靠和有效的機器學習模型,用來鑒別腎癌亞型。由于腎癌的亞型很多,且透明細胞癌、乳頭狀癌和嫌色細胞癌占了絕大多數,因此本研究專注于構建一個3分類模型來探索預測這3個亞型。
回顧性分析2013年1月~2018年12月在南方醫科大學南方醫院接受治療的腎癌患者的病歷和CT圖像數據。納入標準:由2名病理學家確診的腎癌患者;良好的CT圖像質量;CT檢查前無腎癌相關治療;CT掃描包含4個期像:平掃期(NCP)、皮質-髓質期(CMP)、實質期(PP)、排泄期(EP)。排除標準:同一患者存在2個或2個以上病變;病理具有混合特征(例如同時含有乳頭狀和透明細胞特征);病灶大部分或全部為囊性。入組過程見圖1。研究共納入210例患者,其中男性130例,女性80例,腫瘤位于右腎108例,患者年齡53.09±12.99歲(13~82歲)。不同RCC亞型患者的性別、腫瘤分布和年齡差異無統計學意義(P>0.05,表1)。

圖1 患者入組流程圖Fig.1 Flow chart of patient enrollment.

表1 不同腎癌亞型患者的一般情況Tab.1 General situation of patients with different subtypes of renal cell carcinoma[n(%)]
本研究的CT設備為64排多層螺旋CT(Somatom Definition CT,Siemens Medical Solutions,Malvern,PA,USA)和256排多層螺旋CT(Brilliance ICT,Philips Medical Systems,Cleveland,OH,USA)。囑患者仰臥位屏氣時掃描。掃描范圍從膈頂到兩腎下極。CT參數為:管電壓120 kV,管電流150~320 mA,層厚5 mm,層間距5 mm,視野360 mm,矩陣512×512。皮髓質期、實質期和排泄期的掃描分別在肘靜脈注射對比劑后30~35 s、50~60 s、190~200 s。對比劑劑量為2 mL/kg,速率2.5 mL/s,總量不超160 mL。
從PACS上匿名提取圖像,選擇重建層厚為5 mm的CT 圖像進行分割。窗寬300~400 Hu,窗位45~65 Hu。使用ITK-SNAP軟件(www.itk-snap.org),由2名有經驗的放射科醫生(腹部從業10年和15年)進行圖像的分割。選擇腫瘤的3D 容積作為感興趣區(ROI),沿著腫瘤的輪廓,保持邊緣距腫瘤約2 mm,以減少相鄰組織(如脂肪或正常腎臟組織)的干擾[15]。圖像分割示例(圖2)。

圖2 皮髓質期分割圖像示例Fig.2 CT image segmentation in a cortico-medullary phase enhanced CT scan.
使用PyRadiomics計算平臺[16],首先加載并預先處理分割圖像,然后提取并過濾RFs,最后將其分組到一階統計特征、形狀特征和紋理特征中。為了確保結果的穩定性和可重復性,本研究計算了2位放射科醫生提取的RFs之間組內相關系數(ICC)。ICC>0.80的RFs被認為是一致性很好,保留作進一步分析。
使用集成學習分層Bagging方法,基于Lasso回歸、Logistic回歸算法作為基學習器進行特征篩選和建模。集成學習是一種機器學習的方法,其本質是將多種模型("基學習器"或"弱學習器")一起訓練并將其結合以獲得更好的結果[17]。Bagging 是bootstrap AGGrateING 的縮寫,簡言之為通過bootstrap取樣(可重復取樣)的方法構建多個不同的訓練集,之后在每個訓練集上訓練相應的基學習器,最后將這些基學習器聚合起來的最終模型[18]。特征篩選流程圖(圖3)、模型構建流程(圖4)。

圖3 集成學習特征篩選流程圖Fig.3 Flow chart of the ensemble learning bagging method of feature selection.

圖4 集成學習模型構建流程圖Fig.4 Flow chart of the ensemble learning bagging method of model building.
特征篩選的方法如下:首先將包含全部特征的樣本進行訓練集和驗證集劃分,具體方法為進行100次5折交叉驗證,每次交叉驗證隨機將樣本分成5等份,每次取其中4份作為訓練集,剩余1份做為測試集。一次完整的5折交叉驗證得到5個訓練集和5個測試集,100次5折交叉驗證得到500個訓練集和500個測試集。在每個訓練集中,通過集成學習Bagging方法,生成10個基學習器,通過Lasso回歸算法進行降維和特征篩選,λ值通過LassoCV自適應選擇[19];將訓練集中R2決策系數>0.8的RFs保留。統計500個訓練集RFs的保留次數。選取保留頻率排名前20%的RFs作為最終建模特征。
模型構建的方法如下:將含有篩選后的特征的樣本進行100次5折交叉驗證,得到500個訓練集和500個測試集。在每個訓練集中,通過通過集成學習Bagging方法,生成10個基學習器,通過logistic回歸建立模型,并將模型應用到對應的測試集中,每個測試集中的結果由基學習器投票確定。統計每個測試集上模型效能,將500個測試集的平均效能作為模型最終的效能。通過使用的不同期像的RFs,建立平掃期模型、皮髓質期模型、實質期模型、排泄模型和全期模型。
采用SPSS22.0軟件進行統計分析。分類變量的比較采用χ2檢驗,P<0.05為差異有統計學意義。機器學習的方法使用Python完成。以受試者操作特征曲線下面積(AUC)、準確度、精確度、敏感度和Kappa系數來評估3分類模型的性能。
從每個患者每期分割圖像中提取到7類105個影像組學特征,分別為18個一階統計學特征,13個3D形態學特征,23個灰階共發矩陣(GLCM)特征,16個灰階大小區域矩陣(GLSZM)特征、16 個灰階運行長度矩陣(GLRLM)特征、14 個灰階依賴矩陣(GLDM)特征、5 個相鄰灰音差異矩陣(NGTDM)特征。每個病灶4期圖像共得到420個影像組學特征。
在平掃期、皮髓質期、實質期、排泄期模型和全期模型中,分別有10、7、8、10、9個RF被保留。每個特征對應的Lasso 系數(表2)。將上述RFs進行建模,共得到5個預測模型,測試集上5種腎癌亞型預測模型的性能(表3)。

表2 各期模型的影像組學特征和LASSO系數Tab.2 Radiomic features and lasso coefficient of each phase model

表3 測試集上5種模型鑒別腎癌亞型的性能Tab.3 Performance of five models in the test set in differentiating renal cell carcinoma subtypes
在每個單期模型中,特征Large dependence emphasis(GLDM特征)都被保留,在除了平掃期的3個單期模型中,特征total energy(一階統計特征)均被保留。在全期模型中,4個單期的特征均被包含,分別是4個皮髓質期的特征,3個實質期的特征,1個排泄期的特征和1個平掃期的特征,且這些被保留的特征與單期模型中的特征沒有重疊。
測試集上,比較5個模型的性能后發現,全期模型的性能最好,準確性81.0%,精確度71.7%,敏感度79.9%,AUC 0.853,Kappa值為0.679。所有指標都明顯高于單期預測模型。在4個單期模型中,實質期模型的性能最好,準確性78.3%,精確度68.9%,敏感度73.4%,AUC 0.811,Kappa值0.532;皮髓質期模型和排泄期模型的性能相似,但是排泄期模型的Kappa值,明顯低于皮髓質期的Kappa值(0.285vs0.446)。平掃期模型的性能最差,AUC 0.693。
本研究構建了基于3D多期增強CT影像組學特征的RCC亞型三分類預測模型,其中全期模型在鑒別腎癌的3種亞型(ccRCC、pRCC和cRCC)時具有較好穩定性和可靠性,AUC為0.853(95%CI:0.768~0.889),為臨床醫生在術前選擇腎癌治療方案提供了新的參考。
本研究中,使用了包含腫瘤全部信息的3D容積分割圖像。原因是考慮到腫瘤的異質性導致腫瘤的不同部位表達的生物學信息可能有差異,如果我們僅使用腫瘤的部分層面的信息進行分析,結果可能會導致偏差。有研究表明,如果進行整體的腫瘤分析,可以更好地反應腫瘤的異質性[20]。目前許多研究沒有使用3D容積圖像作為分割圖像,這可能與分割腫瘤的部位、種類以及分割的難易程度相關。本研究的在構建全期模型時,使用了平掃期、皮髓質期、實質期及排泄期圖像的所有RF,包含了完整的腫瘤血液動力學特征,可動態的反映了腫瘤的異質性。相較與以往的研究,更豐富、全面的反映了腫瘤全部信息,使構建的模型更可靠。
本研究中,其他類型的腎癌亞型被作為噪聲添加到訓練集樣本中,使得每個亞型的分布盡可能接近實際分布,到目前為止,還沒有關于此類模型的報道。本研究使用集成學習Bagging方法解決了腎癌數據集小且不平衡的問題。其中,集成學習是機器學習的一種方法,其本質是將多種模型("基學習器"或"弱學習器")一起訓練并將其結合以獲得更好的結果[17]。Bagging方法是類似于統計學中的bootstrap 抽樣,隨機抽取并回放樣本,在擴充了樣本量的同時確保數據集中所有樣本的被選擇具有相同的概率和相同的分布,可解決數據不平衡問題[18]。使用Lasso回歸作為篩選特征的基學習器,LassoCV自適應的選擇最優λ對特征進行降維,簡化了預測模型,并且可以了解哪些特征在預測模型中最重要。logistic回歸算法和交叉驗證的方法對預測模型進行校正,保證了預測結果的可靠性。
即往對腎癌的機器學習方向多集中在區分腎細胞癌的某種亞型與良性腫瘤之間[21-23]或RCC的FuhrmanNCP:平掃期;CMP:皮質-髓質期;PP:實質期;EP:排泄期Kappa:0~1表示不同級別的一致性:0.00~0.20極低的一致性,0.21~0.40一般的一致性,0.41~0.60 中等的一致性,0.61~0.80 高度的一致性,0.81~1.00幾乎完全一致.分級方面[24-26],只有少數有關RF的RCC 亞型分類的研究[27-29]。且這些研究多使用二分類,使用的分類器包括隨機森林[30]、支持向量機和人工神經網絡[16]。本研究應用的是集成學習的方法,與既往的方法有所不同。且本研究建立的是一個3分類模型,可以同時區分3種不同的腎細胞癌的亞型,對臨床醫生來說結果更直觀。
本研究中提取的RFs有以下7類,簡要概括為[16]:(1)一階統計學特征:通過常用的和基本的度量描述掩模定義的圖像區域內體素強度的分布。(2)3D形態特征:包含ROI的3D大小和形狀的信息,且與灰度強度分布無關。(3)GLCM:反映像素信號強度隨像素長度的增加而變化,描述了相同灰度的像素在不同方向上的分布。(4)GLSZM:量化圖像中的灰度區域。(5)GLRLM:反映了像素灰度在不同方向上的均勻性。(6)GLDM:量化圖像中的灰度依賴關系。(7)NGTDM:量化了一個灰度值和它的鄰域在一定距離內的平均灰度值之間的差異。
本研究比較了4個單期模型和全期模型的性能,發現在5種預測模型中,全期模型的性能最好:準確率為81.0%,精確率為71.7%,敏感度為79.9%,AUC為0.853,Kappa系數為0.679,顯著高于4種單期預測模型,是一個較好的腎癌亞型預測模型。在全期模型中,RFs分布為:皮髓質期4個,實質期3個,排泄期1個,平掃期1個,4個期像的RFs都被包含,且與4個單期模型中的影像組學特征沒有重疊。這表明在建立全期模型時,不能簡單的將單期模型中被篩選的特征直接納入,而應該將4期圖像的所有特征一起進行篩選。同時,本研究的全期模型能全面的反映了腫瘤異質性的動態變化情況。既往研究中沒有對此進行報道。本研究被納入全期模型特征中,皮髓質期有4個,多于其他期像,但不能說明皮髓質期的影像組學特征在鑒別亞型時最重要,因為在比較單期模型的效能后發現,實質期模型的預測效能(準確率為78.3%,精密度為68.9%,敏感度為73.4%,AUC為0.811,Kappa系數為0.532)優于皮髓質期模型(準確率為76.4%,精密度為67.1%,敏感度72.7%,AUC 為0.752,Kappa系數為0.446)。這進一步說明了建立全期模型的必要性,與以往強調單相模型的優點和簡單性的研究不同。既往研究中,關于哪個單期模型最好并沒有一致性的結果。有研究報道的腎癌的皮髓質期CT圖像提供了比平掃期圖像更有價值的紋理參數[29]。Hoddon等[31]報道排泄期的CT紋理分析可用于鑒別脂肪缺乏型血管平滑肌脂肪瘤(fp-AML)和ccRCC。有研究認為皮髓質期和實質期組合對腎透明細胞癌分級的效能最好[25]。Coy等[32]報道了在多期CT上對ccRCC和嗜酸細胞瘤進行分類的最佳分類結果是在排泄期中獲得的。
本研究的局限性:第一,本研究的數據來源于同一家醫院,在未來的研究中,我們將進行多中心的研究,嘗試建立更穩定可靠的模型;第二,本研究所使用的基學習器相同,今后我們將嘗試不同的基學習器組合,以期得到更適合RCC亞型數據的模型;第三,本研究僅涉及到3種最常見的腎細胞癌亞型,而沒有涉及到干擾臨床治療方案選擇的某些腎臟良性腫瘤。
綜上所述,本研究構建的全期模型是一個有效可靠的基于3D多期增強CT圖像影像組學特征的腎癌亞型3分類預測模型,作為一種無創的方法可能有助于指導臨床醫師的治療決策。