劉 樺,劉妙妙,鄧豪余,趙雅潔,李 燦
(中南大學湘雅醫院核醫學科,長沙 410008)
甲狀腺癌是一種常見的內分泌系統惡性腫瘤[1,2],其發病率呈逐年上升的趨勢[3,4]。甲狀腺癌的不同階段具有不同的分子特征[5-7],探索甲狀腺癌相關因子,用以評估甲狀腺癌患者疾病風險程度,對制定個性化和更有效的診斷和治療策略不可或缺。
隨著高通量測序和基因芯片技術的發展,越來越多的研究表明,基于甲狀腺癌中差異基因(Differentially Expressed Genes,DEGs)表達水平的特征,在預測甲狀腺癌患者預后中具有很大的潛力[8-10]。本研究通過分析來自基因表達綜合數據庫(Gene Expression Omnibus,GEO)和癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)中的數據集,篩選甲狀腺癌相關DEGs。隨后,進行LASSO分析并構建了甲狀腺癌相關DEGs組成的風險模型,同時建立甲狀腺癌相關Nomogram圖預測疾病轉歸,觀察甲狀腺癌相關DEGs組成的風險模型與甲狀腺癌患者總體生存期的關系,為甲狀腺癌患者預后預測提供一個潛在選擇。
1.1 芯片數據的選擇與分析基于GEO數據庫中甲狀腺癌相關芯片(GSE35570、GSE33630、GSE29265、GSE3467、GSE5364和GSE58545),分析甲狀腺癌表達譜,然后篩選甲狀腺癌相關DEGs。隨后結合Kaplan-Meier生存分析和TCGA數據庫分析,篩選與甲狀腺癌患者生存期顯著相關的DEGs。
1.2 DEGs組成的風險模型分析通過LASSO回歸分析甲狀腺癌患者生存相關DEG,最終獲得甲狀腺癌患者生存相關DEG組成的風險模型。
1.3 甲狀腺癌DEGs組成的風險模型預測能力分析通過Kaplan-Meier生存分析和單因素多因素Cox風險回歸分析,檢測甲狀腺癌DEGs組成的風險模型得分對甲狀腺癌患者預后總體生存期的預測能力。構建一個包含風險模型得分的Nomogram圖,檢測風險模型得分對甲狀腺癌患者預后預測能力。
2.1 甲狀腺癌DEGs芯片分析基于6套GEO數據庫的甲狀腺癌芯片,分析甲狀腺癌中的DEGs(|logFC|>1,P<0.05),獲得了105個交疊的DEGs。隨后通過進一步Kaplan-Meier生存分析,發現上述105個交疊的DEGs中有ANK2、CDH3、ENTPD1、GAS1、GHR、GLT8D2等16個DEGs與TCGA數據庫中甲狀腺癌患者的總體生存期顯著相關(P<0.05)。
2.2 甲狀腺癌DEGs組成的風險模型分析利用LASSO分析16個生存相關的DEGs,最終獲得由ID3、OGDHL、HBB、NRCAM等4個DEGs組成的風險模型[Risk_score= 1.31×Exp(ID3)+0.53×Exp(OGDHL)-0.54×Exp(HBB)-0.75×Exp(NRCAM](圖1)。由該模型可以看出,高水平的ID3和OGDHL與甲狀腺癌的不良預后相關。

圖1 A:由4個DEGs組成的風險模型:利用LASSO分析16個生存相關的DEGs;B:由4個DEGs組成的風險模型
2.3 DEGs組成的風險模型驗證圖2 Kaplan-Meier生存分析顯示,風險得分與甲狀腺癌患者預后其總體生存期成負相關,風險得分越高的甲狀腺癌患者預后其總體生存期(Overall survival,OS)較差。多因素Cox風險回歸分析顯示,風險得分與甲狀腺癌患者的總體生存期顯著相關(P<0.01),結果見圖3。

圖2 A:風險得分與甲狀腺癌患者總體生存期的相關性;B:基于風險得分的甲狀腺癌患者分布示意圖

圖3 甲狀腺癌患者生存期相關多因素Cox風險回歸分析
2.4 DEGs組成的風險模型預測能力驗證構建一個基于甲狀腺癌患者年齡、性別、臨床分級、風險得分的Nomogram(圖4),該Nomogram圖顯示,風險得分對于甲狀腺癌患者的預后具有良好的預測能力(C-index:0.93)。

圖4 包含風險得分的Nomogram圖
現今,甲狀腺癌已經成為內分泌系統中最常見的惡性腫瘤,其發病率高于其它所有癌癥[11,12]。早期對甲狀腺癌進行風險等級評定,對避免低?;颊咭虿槐匾倪^度治療帶來的副作用和精準預測患者的預后情況都具有重要意義[13,14]。隨著高通量測序技術的飛速發展,基于芯片數據分析的生物信息學已被廣泛應用于人類疾病致病機制的研究和診治靶向分子的篩選,例如Li等利用GEO和TCGA數據,綜合分析肺鱗癌的轉錄組和功能網絡特征,確定了肺鱗癌的差異基因,為LUSC的治療靶點和生物標志物提供指導[15]。除此之外,Shen等利用TCGA和GEO數據集,分析篩選了頭頸部鱗狀細胞癌的潛在生物標志物,同時進行了生存分析,確定了四個最重要的小分子,為頭頸部鱗狀細胞癌的早期診斷和個體化控制提供更可靠的生物標志物[16]。因此,篩選與甲狀腺癌相關的差異基因,并在此基礎上構建甲狀腺癌風險模型,不僅可以實現對甲狀腺癌患者進行風險評分,還可以實現對甲狀腺癌患者的預后情況進行有效預測。
本研究基于6套甲狀腺癌GEO,篩選獲得了105個交疊的DEGs。進一步通過Kaplan-Meier生存分析,發現在上述105個DEGs中,有16個DEGs與TCGA數據庫中510例甲狀腺癌患者的總體生存期顯著相關。隨后,基于這16個生存相關的DEGs,利用LASSO分析最終獲得了由4個DEGs(HBB、NRCAM、ID3和OGDHL)組成的風險模型。已有研究發現,HBB是常見的β-珠蛋白基因突變,檢測該基因可用于篩查β-地中海貧血[17];NRCAM是阿爾茨海默病ADAM10底物選擇性激活的標志物[18];ID3被發現可促進肝內膽管癌的干細胞特征和預測化療反應[19];OGDHL是乳腺癌的潛在風險因子,可作為乳腺癌篩查的標志因子[20],表明這4個基因與人類多種疾病的發生發展具有重要聯系。由于甲狀腺癌是一種高度異質性的疾病,腫瘤的進展涉及一個復雜的網絡,包括多種信號通路。因此,相較于單一的標志物,多個基因的結合的預測模型能更準確地反映甲狀腺癌的生物學特性和預后情況。
通過進一步Kaplan-Meier生存分析和單因素多因素Cox風險回歸分析發現,風險得分與甲狀腺癌患者的OS顯著相關,風險得分越高的患者其OS顯著較差。最后構建了基于甲狀腺癌患者的年齡、性別、臨床分級、風險得分的Nomogram圖。Nomogram圖分析結果顯示,由4個DEGs(HBB、NRCAM、ID3和OGDHL)組成的風險模型得分對甲狀腺癌患者的預后具有良好的預測能力。
綜上,本研究確定了一個4個基因的特征的風險模型,可以有效預測甲狀腺癌患者預后情況,為甲狀腺癌個體化治療以及甲狀腺癌的篩查、預防、診斷和監測提供新方法。