劉沁峰,劉偉軍,王云鵬,于斌,高翔宇,王濤
陜西省人民醫院 a. 醫學裝備部;b. 放射科,陜西 西安 710068
近些年來,隨著醫學工程技術的發展,醫學成像技術逐步發展成熟,各種高端的數字醫學成像設備比如多排螺旋CT、核磁共振成像(Magnetic Resonance Imaging,MRI)、PETCT 等被廣泛用于臨床檢查和科研工作,數字醫學影像技術已經成為現代醫學的一個重要分支和基礎研究方向。然而,現在臨床上對數字醫學影像的應用還主要靠醫生根據影像上顯示病灶的形態、大小、分布、密度、信號、強化模式、與正常組織的關系進行判斷和解讀,閱片的結果準確性很大程度上取決于醫生的知識儲備和經驗積累,具有較強的主觀局限性,無法滿足精準醫學的需要。另外,隨著醫學影像數據量的不斷增加,如何從海量的醫學影像數據中挖掘更深層次有價值的信息,精準進行腫瘤等疾病的診療指導,成為現代醫學亟待解決的問題之一[1]。在這樣的情況下,在醫學工程領域誕生了一門以醫學影像為研究對象的新興學科——放射組學(又稱為影像組學)。
2003 年,Baumann 等[2]人 提 出 放 射 基 因 組 學(Radiogenomics)的概念,并由后人逐步建立了類似放射組學的研究方法。2008 年,Diehn 等[3]人通過研究發現基因特征和影像特征具有高度的關聯特征。2012 年,Lambin 等[4]受到放射基因組學的啟發,首先提出了Radiomics 的概念,即放射組學或者影像組學。放射組學就是用計算機圖像處理技術,從醫學影像中高通量地提取分析大量的定量特征數據,用這些數據信息來綜合評價腫瘤的各種異質特征的一門新興學科,它可以對腫瘤的臨床診斷和治療做出特定的有效指導,是實現精準醫療的一種重要的醫學工程學研究方法。
放射組學的研究過程主要包括:圖像的采集和獲取,圖像的分割,特征提取和量化,特征選擇,預測模型建立及驗證。由于放射組學是以醫學工程學為基礎,涉及醫學、計算機技術及機器學習的各類算法,放射組學研究的每一個過程都具有很高的挑戰性,需要多學科相關專業技術專家緊密合作來完成[5]。放射組學研究過程如圖1 所示[6]。

圖1 放射組學研究步驟
在放射組學研究中,圖像的采集來源主要包括X 線成像、CT 成像、核磁共振成像、超聲成像、核醫學成像等。然而,在實際的圖像采集過程中,由于不同機構進行數據采集使用的儀器設備、參數設置、重建算法、掃描序列等的不同,即便面對同一個圖像采集任務,不同的操作人員進行采集,獲得的數據仍有較大差異。因此,在放射組學圖像采集中,將掃描參數和掃描要求細致化、規范化,有利于獲得標準質量統一的圖像數據[7]。
圖像分割是把采集到的圖像劃分出特定的感興趣區域(Region Of Interest,ROI,在醫學研究中特指病灶區)的技術和過程[8],是放射組學研究中最關鍵的一環。圖像分割方法包括人工分割,半自動分割和全自動分割。
人工分割指醫生直接在醫學影像上通過圖形編輯軟件勾畫輪廓,人工分割質量的高低取決于操作人員的經驗積累和即時判斷,需要耗費大量的人工操作時間,且分割的結果難以重現。
半自動分割將計算機的算法處理與醫學工作者的醫學知識經驗結合,通過人機交互進行圖像分割處理,大大提升了圖像分割效率。目前常用的半自動分割軟件有3D Slicer 和ITK-Snap[9]。3D Slicer 具有多模態圖像的三維可視化功能,具有DTI 與MRI 多種圖像的分析算法,兼容多種醫學影像文件格式,可以精確進行醫學圖像分割,影像學專家研究實踐表明,使用3D Slicer 進行半自動分割的精確度很高,并且比人工分割有更好的可重復性;ITKSnap 是專業的圖像分割軟件,專注于圖像分割功能的開發,它采用主動輪廓法對醫學圖像進行半自動分割,支持一次在三個正交平面的分割,支持多種不同的3D 圖像格式,具有很好的交互性和易用性。
全自動分割則完全脫離了人工干預,由計算機自動完成圖像分割,這種情況下進行的圖像處理具有很高的可重復性,但大部分自動分割軟件的算法復雜,在很多情況下,圖像分割的質量也不高,如何將全自動分割算法進一步優化,得到更精確的分割結果是醫學圖像處理的一個重要研究方向。
特征提取是通過檢查ROI 中的每一個體素來驗證是否符合特征,放射組學特征包括形態學特征、一階灰度直方圖特征、二階和高階紋理特征、基于濾波或變換的特征等[10]。
放射組學形態學特征包括:ROI 的最長直徑、球形度、表面積、體積、緊密度、球形不均勻度、偏心度、硬度等,轉化為我們易于理解記錄的語言即包括腫瘤的尺寸、形狀、位置、血管分布、壞死情況、毛刺等。
放射組學一階灰度直方圖特征也可稱為強度特征,通過ROI 內的體素強度分布的分析計算來得到相關的特征,與相鄰交互體素無關[11]。一階灰度直方圖特征包括:最大值、最小值、平均值、銳利度、熵、標準差、方差、平均絕對偏差、偏度、峰度等,其中偏度用于衡量直方圖較于均值的不對稱程度,銳利度用于衡量直方圖的銳度,標準差、方差、平均絕對偏差用于衡量灰度級與平均值的偏離程度,能量和熵能夠反映圖像中所包含信息量的大小[12]。
放射組學的二階紋理特征是用來描述圖像中體素的空間分布關系的特征,算法有灰度共生矩陣(Gray Level Co-Occurence Matrix,GLCM)和灰度游程矩陣(Gray Level Run Length Matrix,GLRLM)等[13]。GLCM 描述了具有一定空間位置關系的兩個體素強度的聯合分布,相當于兩個體素強度的二階直方圖;GLRLM 描述了在某方向上連續相同強度的體素的統計。
放射組學的高階紋理特征包括鄰域灰度差異矩陣(Neighborhood Grey-Tone Difference Matrix,NGTDM) 和灰度區域大小矩陣(Grey-Level Size Zone Matrix,GLSZM)等[14],NGTDM 描述了每個體素與相鄰體素的差異,包括忙碌度、粗糙度、對比度、復雜度等,GLSZM 描述的是具有同質性的區域特征及變化特性,包括大小區域和高低灰度區分布特征等。
從紋理特征在醫學影像方面的描述中可以得出,通常情況下一階特征是全局尺度上描述腫瘤異質性,GLCM 和NGTDM 特征是本地尺度上描述腫瘤異質性,而GLRLM和GLSZM 特征是在局部尺度上來描述腫瘤異質性。
特征選擇指從所有提取的特征中選取一定的特征形成特征子集,以得到更高質量的預測模型,又稱為特征子集選擇或者屬性選擇。在進行機器學習的過程中,往往會提取到龐大數量的特征,這其中存在著一些不相關的特征,特征數量越多,計算機進行特征分析、模型訓練所花費的時間也越長,容易產生維度“災難”,模型會更加復雜,推廣能力也會大幅下降[15]。特征選擇是將不相關的、冗余的特征進行剔除,從而能夠明顯降低特征個數,減少計算處理時間,提升預測模型的精確度。另外,特征選擇將模型簡化,使研究工作者更便于做數據處理。
常用的特征選擇方法有估算特征關聯法、Fisher 判別法、LASSO Cox 回歸模型法、最大相關最小冗余法、主成分分析法等[16]。
在放射組學研究中,有些情況下單通過提取特征進行分析無法取得有效結果,往往需要用機器學習方法建立預測模型或分類,并進行有效性驗證。建模過程中常用的軟件工具有:R 語言、Weka、B11、SPSS Modeler 等[17],研究人員可以根據自己的基礎和研究對象不同選擇不同的軟件工具進行建模。
機器學習中,邏輯回歸是在影像組學建立預測模型較常用的一種方法,邏輯回歸模型分類的思想是找到一個最能區分待解決問題的分類超平面[18]。此外,機器學習中常用的預測模型還有隨機森林、支持向量機、leave-one out交叉驗證、集群分析、自舉法、人工神經網絡等[19]。
放射組學的研究方法能夠深層次發掘隱藏于醫學影像中的各種信息,量化腫瘤的異質特征,服務于臨床診斷,實現精準醫療。放射組學在臨床方面的應用主要有以下幾個方面。
放射組學研究認為微觀基因及蛋白質的變化可以在宏觀放射組學特征上得到解讀,腫瘤的放射組學特征差異與基因或蛋白質的改變嚴重相關,基于組學的方法可以無創性地對腫瘤患者的基因表型進行準確預測。Segal 等[20]研究發現,原發性肝癌的28 個CT 影像放射組學特征能夠重建78%的基因表達信息,從而預測肝癌轉移,積極進行針對性治療。Dang 等[21]對16 例口咽鱗狀細胞癌患者通過組織病理學和放射組學技術進行前瞻性評估及驗證,特征選擇確定了7 個用于預測模型的重要紋理變量,建立模型預測腫瘤抑制因子p53 的狀態,準確率為81.3%(P<0.05)。Yoon 等[22]回顧性研究了539 例經病理證實的肺腺癌患者數據,從患者醫療記錄中檢索臨床病理特征,并檢查ALK(間變性淋巴瘤激酶)/ROS1(c-ros 癌基因1)/RET(轉染期間重新排列)融合狀態,對這些患者的CT 和PET 影像數據進行了分析,提取了融合陽性腫瘤預測模型的重要特征,發現ALK 基因陽性的該類腫瘤放射組學特征和ROS1/RET 融合基因陽性的放射組學特征存在明顯差異。
在以往的腫瘤篩查治療中,有類似影像表現的良惡性腫瘤主要通過在患者體內病灶區取活檢病理檢查定性,用放射組學方法對病灶組織準確定性能夠盡量避免有創檢查對病人的身體創傷,幫助醫生確定最佳治療方法。Pham等[23]從217 例肺癌患者的CT 圖像進行放射組學分析,采用兩種互補的紋理分析方法GLCM(灰度共生矩陣)和SV(實驗半變異函數)方法實現了對縱膈淋巴結的良惡性鑒別,AUC(曲線下面積)為0.89,靈敏度為75%,特異性為90%。Brown 等[24]將放射組學方法用于甲狀腺結節的定性,訓練數據集包括來自英國劍橋的26 名患者,并且測試數據集包括來自美國Memorial Sloan Kettering 癌癥中心的18 名甲狀腺癌患者,通過研究這些患者的3T DWI(擴散加權成像)影像,從ROI 圖像中比較ADC(Apparent Diffusion Coefficient,表觀擴散系數)并從中提取了21 個紋理特征,建立了線性判別分析(LDA)模型,AUC 為0.97,敏感度為92%,特異性為90%。Yan 等[25]對血管平滑肌脂肪瘤(AML)、透明細胞腎細胞癌(ccRCC)和乳頭狀腎細胞癌(pRCC)的CT 圖像提取紋理特征進行非線性判別分析(nLDA),證實CT 紋理分析是鑒別AML、ccRCC、pRCC 的可靠定量方法(誤差為0.00%~9.30%)。
術前對腫瘤準確地分級分期,能夠及時做出針對性的治療方案,使患者得到精準有效的護理和治療。Aerts 等[26]通過從1019 名肺癌或頭頸癌患者的CT 影像中提取440 個放射組學特征進行分析發現,TNM 分期結合放射組學特征分析的預后評估效果比單獨的TNM 分期更好,放射組學特征分析與TNM 分期相互補充,甚至在獨立隊列中比TNM 分期性能更佳。Liu 等[27]采集了73 例經病理證實的食管鱗狀細胞癌(ESCC)患者術前的普通CT 和對比增強CT 影像,分別進行紋理分析,獲得6 個紋理參數,發現峰度、偏度和熵等在不同的T 分期、N 分期和ESCC 整體分期具有很大差異,放射組學特征與腫瘤的分期顯著相關。Qin 等[28]采集66 例腦膠質瘤術前MRI 影像,共提取114個放射組學特征,在高級別膠質瘤(HGG)和低級別膠質瘤(LGG)之間比較所有放射組學特征,結果顯示來自3個MRI 序列的總共8 個放射學特征在LGG 和HGG 之間差異顯著,受試者工作特征的AUC 為0.943,證明聯合放射組學特征能夠有效區分LGG 和HGG 患者。
放化療是腫瘤治療的重要方法,但腫瘤的異質性造成部分患者對放化療不敏感。放射組學研究通過特征提取分析對比、建立預測模型等手段,可以實現對腫瘤放化療治療效果的監測和腫瘤預后預測。Yip 等[29]研究了54 名食管癌患者在接受新輔助放化療前后接受PET-CT 掃描影像的放射組學特征與病理反應之間的關聯性,發現熵值變化能夠顯著將無緩解者和完全(AUC=0.79,P=1.7×10-4)或部分(AUC=0.71,P=0.01)緩解者區分開來,通過GLRLM和GLSZM(均為高灰度)紋理變化,無緩解者也可以和完全或部分緩解者區分開來(AUC=0.71~0.76,),這兩類放射組學特征很好地區分了存活率良好和不良的患者。Huynh 等[30]通過研究用立體定向放射治療治療的113例I~II 期非小細胞肺癌患者的CT 圖像,提取了12 個放射組學特征,發現遠處轉移預后與小波分解特征高度相關。Leijenaar 等[31]采集了北美542 例口咽鱗狀細胞癌患者的CT 影像提取一些放射組學特征進行分析,建立Cox 回歸模型并分隊列驗證,發現這些放射組學特征具有顯著的預后能力,并且不受CT 偽影影響。
放射組學的研究方法是近年來醫學工程領域的熱點研究方向,但由于研究剛起步,還有很多研究過程中的方法細節需要改進,面臨的諸多挑戰主要有以下幾個方面。
(1)放射組學研究獲取的影像數據缺乏統一標準。影像設備生產廠家、型號、運動控制、掃描參數、重建算法等不同,即使采用同一臺設備,由于病人擺位誤差、造影劑注射時間和用量、掃描參數的差異,也會對獲取影像數據的標準化產生影響[32]。
(2)目前,很多團隊在放射組學建模過程中獲取樣本量有限,導致建立模型的預測準確度有限,有過度擬合的風險[33]。真正建立高質量預測模型,需要大量高標準樣本數據做支撐。
(3)現階段各個醫院、科研機構團隊的放射組學研究大多是獨立進行的,各自為戰。對同一組研究樣本缺乏多中心的合作進行更廣泛的多種模型、多角度驗證,這樣可能導致結論的片面性,成熟度不高。要想真正地將放射組學研究向成熟化、規范化推進用于指導臨床,必須要各團隊廣泛合作,進行多中心驗證,隨機對照臨床反復進行檢驗和提煉[34]。
(4)放射組學是醫學和工程學交叉學科。它不僅需要醫學腫瘤、影像方面的專業知識,更需要計算機圖像處理、算法分析方面的深厚知識積累,對醫學工程學的學科交流交叉提出了很高的要求。
本文介紹了放射組學概念、研究方法流程、應用方向及面臨的挑戰。近些年來,越來越多的科研人員投入到放射組學的研究中來,放射組學已然成為實現精準醫學的重要研究方法。相信隨著醫學工程技術的發展,放射組學方法會真正接入到腫瘤的臨床診斷流程中來,借助人工智能輔助醫生完成診斷,提高醫生工作效率,改善患者生存質量。