崔忠澤,何 雙,路麗禎,吳淑華
(濱州醫學院附屬醫院病理科,山東 濱州 256600)
結腸癌(colon cancer)在全球男性和女性惡性腫瘤發病率中分別排名第3(13.5%)和第2(9.5%)位,是嚴重危害人類健康的惡性腫瘤[1]。大量研究已經明確了與結腸癌預后和患者治療反應相關的基因突變;此外,一些靶向治療也被開發出來[2-4]。然而,結腸癌進展的確切分子機制尚不清楚,這限制了晚期疾病的治療。因此,進一步了解結腸癌發生發展過程中的基因表達,將有助于提高診斷和治療水平。目前,微陣列技術已被廣泛用于探索癌癥基因表達的變化[5,6]。高質量的芯片和高通量測序有助于發現結腸癌發生發展過程中的基因表達變化[7-9],甚至篩選出用于結腸癌診斷、治療和預后的生物標志物。基因圖譜可以從公共數據庫中獲得,如基因表達綜合數據庫(GEO)和癌癥基因組圖譜(TCGA),綜合生物信息學方法的使用可以克服不同芯片平臺和小樣本量的限制。免疫療法作為一種新興的治療某些癌癥的方法已經獲得顯著的療效[10-13]。腫瘤微環境中腫瘤細胞可以直接侵入周圍組織或通過血液和淋巴管轉移,并可以通過釋放細胞因子引起宿主的免疫反應,直接或間接地抑制或促進腫瘤細胞的發展[14]。因此,了解腫瘤免疫微環境,尋找免疫標記物,是提高腫瘤免疫治療效果的關鍵。基于此,本研究主要篩選了TCGA 數據集和4 個GEO數據集中結腸癌的共表達差異基因,并從中得到預后相關基因,分析目標基因在組織中的表達情況和功能。
1.1 數據收集 從GEO 數據庫(https://www.ncbi.nlm.nih.gov/geo/)[15]中獲取4 個基因芯片(GSE41657、GSE74602、GSE106582、GSE110224)。GSE41657 包含12 個結腸癌樣本和25 個正常結腸組織樣本。GSE74602 包含30 個結腸癌樣本和30 個正常結腸組織樣本。GSE106582 包含117 個結腸癌樣本和77個正常結腸組織樣本。GSE110224 包含17 個結腸癌樣本和17 個正常結腸組織樣本。從TCGA 數據庫(https://portal.gdc.cancer.gov/)[16]下載結腸癌表達矩陣,包括398 個結腸癌樣本和39 個正常結腸組織樣本。
1.2 差異基因獲取 用R 語言檢測結腸癌與正常組織之間的差異基因。調整后P<0.05 和|log2FC|≥2.0認為差異有統計學意義。然后,利用在線維恩圖分析網站(http://bioinformatics.psb.ugent.be/webtools/Venn/)從個以上5 個數據庫中獲得共同差異基因。
1.3 差異基因的KEGG 和GO 富集分析 為分析差異基因的功能,使用R 語言對差異基因進行KEGG與GO 富集分析。KEGG 是一個數據庫資源,用于大規模的分子數據收集,以了解生物系統和功能[17]。GO 是分析基因的生物學過程(BP)、分子功能(MF)和細胞成分(CC)的生物信息學工具[18]。P<0.05 認為差異有統計學意義。
1.4 免疫相關預后差異基因篩選 將差異基因導入GEPIA 數據庫(http://gepia.cancer-pku.cn/)[19],篩選預后相關基因。將得到的預后相關基因導入TIMER 數據庫(https://cistrome.shinyapps.io/timer/)分析其與免疫細胞之間的關系,篩選免疫相關性高的基因,定義為免疫相關基因。P<0.05 認為差異有統計學意義。
1.5 預后相關樞紐基因篩選 利用互作基因檢索工具(STRING v11.5;http://string-db.org)的在線數據庫構建差異基因的蛋白互作網絡。Cytoscape(v3.8.2)是一個用于可視化蛋白互作網絡的開放生物信息學工具。Cytoscape 的插件MCODE 是一個應用程序,它可以對給定的網絡進行聚類,以找到緊密連接的區域。用Cytoscape 繪制蛋白互作網絡,用MCODE 確定蛋白互作網絡中的重要模塊,將最重要模塊中的基因認定為樞紐基因,然后,將樞紐基因中的預后相關基因篩選出來。
1.6 分析目標基因 將預后相關樞紐基因和免疫相關基因作為目標基因進一步分析。基于TCGA 數據庫基因表達數據,對目標基因表達量進行可視化。利用HPA 數據庫(http://www.proteinatlas.org)[20]觀察目標基因在結腸癌及正常結腸組織的表達情況?;贕SEA 數據庫(https://www.gsea-msigdb.org/gsea/index.jsp)[21]中c5.bp.V7.1,symbols,gmt 數據集,用R軟件對其進行單基因GO 富集分析,推測其在結腸癌中可能發揮的作用,P<0.05 認為差異有統計學意義。
2.1 結腸癌中差異基因的鑒定 在GSE41657 中,共鑒定出4712 個差異基因,其中2502 個上調基因和2210 個下調基因。在GSE74602 中,共鑒定出2878個差異基因,其中1543 個上調基因和1335 個下調基因。在GSE106582 中,共鑒定出504 個差異基因,其中176 個上調基因和328 個下調基因。在GSE110224 中,共鑒定出519 個差異基因,其中223個上調基因和296 個下調基因。在TCGA 中,共鑒定出3572 個差異基因,其中1343 個上調基因和2229個下調基因。使用維恩圖網站分析5 個基因芯片的差異基因,共鑒定出102 個差異基因,其中24 個上調基因和78 個下調基因,見圖1A~圖1C。
2.2 富集分析 對102 個差異基因進行GO 和KEGG通路富集分析。在BP 類中,差異基因主要富集于“激素代謝”“核分裂的正調控”“白細胞趨化性”和“離子跨膜運輸”等。在CC 類中,“細胞頂部”和“頂端質膜”占主導地位。在MF 類別中,“受體配體活性”和“激素活性”是主要的。KEGG 分析顯示,差異基因主要參與“藥物代謝”“致病性大腸桿菌感染”和“視黃醇代謝”等,見圖1D、圖1E。

圖1 VENN 圖和富集柱形圖
2.3 免疫相關預后差異基因篩選 使用GEPIA 數據庫對102 個差異基因進行預后分析,共得到15 個預后相關基因(NR3C2、ETFDH、AQP8、CLDN23、SLC17A4、TIMP1、BGN、TESC、LRRC19、BEST2、NAT2、SULT1B1、SCG2、SELENBP1、IL1B),見圖2。在TIMER 數據庫分析這些基因與6 種免疫細胞(B細胞、CD4+T 細胞、CD8+T 細胞、巨噬細胞、中性粒細胞、樹突狀細胞)的相關性,結果顯示,有6 個基因(NR3C2、ETFDH、TIMP1、BGN、SCG2、IL1B)在結腸癌中與腫瘤免疫微環境密切相關,其中3 個基因(ETFDH、NR3C2、SCG2)在結腸癌腫瘤微環境中的作用鮮見報道,見圖3。

圖2 預后相關基因在結腸癌中的Kaplan-Meier 生存分析

圖3 免疫相關基因與免疫細胞的相關性分析
2.4 預后相關樞紐基因篩選 在STRING 網站構建差異基因的PPI 網絡后,運用Cytoscape 的MCODE篩選顯著模塊,見圖4A。將最顯著模塊中的16 個基因(MEP1A、SCGN、SLC17A4、SI、MYO1A、TSPAN7、SLC26A2、STMN2、UGT2A3、CHGB、ADH1C、VSNL1、MS4A12、WNT2、ADAMDEC1、CEACAM7)定義為樞紐基因,見圖4B。其中僅有SLC17A4 為預后相關基因,但SLC17A4 在結腸癌中鮮見報道。

圖4 蛋白互作網絡分析圖
2.5 目標基因分析 將3 個免疫相關預后基因(ETFDH、NR3C2、SCG2)和預后相關樞紐基因(SLC17A4)作為目標基因進一步分析。通過對其表達量的可視化,結果發現,與正常組織相比,其在腫瘤組織中均呈低表達,見圖5A;通過其他4 個GEO數據集的驗證,均符合這一結論。通過HPA 數據庫下載的免疫組化圖發現,ETFDH 主要表達于細胞質,NR3C2 在細胞核和細胞質中大量表達,SCG2 在細胞質中有少量表達,SLC17A4 主要表達于細胞膜,見圖5B、圖5C。通過GEEA 單基因富集分析發現,ETFDH 主要富集到“RNA 沉默”等功能,NR3C2 主要富集到“腫瘤壞死因子分泌”“血管內皮細胞增殖”等功能,SCG2 主要富集到“細胞周期相變的正調控”“RNA 聚合酶結合”等功能,SLC17A4 主要富集到“細胞周期G1S 期轉變的負調控”等功能,見圖6。

圖5 目標基因的表達和免疫組化

圖6 目標基因的GO 功能富集分析
結腸癌是最常見的惡性腫瘤之一。近年來,生物標記物已被廣泛用于癌癥的診斷、治療和預后評估中,其對揭示癌癥的發生發展具有重要的意義[22,23]。盡管已有結腸癌病因學相關研究,但其發生發展的確切機制仍未完全明確,因此尋找可靠有效的生物標記物對結腸癌的診斷、治療和預后具有重要意義。結腸癌的治療策略包括化療、手術、放療和靶向治療,而免疫療法作為一種新的治療方法已用于部分結腸癌治療中[24,25],這讓尋找新的可靠免疫靶點變得尤為重要。本研究通過生物信息學分析,篩選結腸癌預后相關樞紐基因和免疫相關生物標記物,旨在為進一步揭示結腸癌發生發展機制和鑒定新的免疫治療潛在靶點提供理論依據。
本研究為了克服不同芯片平臺和小樣本量的限制,獲得具有更高可信度的差異基因,下載了多個數據集(TCGA、GSE41657、GSE74602、GSE106582、GSE110224),分別進行差異分析,獲得102 個共同的差異基因。對這些基因進行了通路和功能的富集,結果顯示這些基因富集到了許多癌癥相關的通路與功能——“激素代謝”“核分裂的正調控”“白細胞趨化性”“藥物代謝”“致病性大腸桿菌感染”和“視黃醇代謝”等。研究顯示,甲狀腺激素能夠促進結腸癌干細胞分化[26],糖皮質激素-GR-CDK1 信號傳導誘導結腸癌細胞的增殖和侵襲[27]。而免疫細胞與結腸癌的診斷、臨床治療敏感性和預后相關[28-30]。大量研究表明[31,32],藥物代謝與結腸癌治療預后密切相關。另外,現在已有研究證明致病性大腸桿菌可促進結腸癌的發生[33,34]。
為了尋找差異基因中可作為結腸癌預后靶點的生物標記物,通過GEPIA 數據庫從102 個差異基因中篩選出了15 個在結腸癌5 年生存曲線具有統計學意義的基因——NR3C2、ETFDH、AQP8、CLDN23、SLC17A4、TIMP1、BGN、TESC、LRRC19、BEST2、NAT2、SULT1B1、SCG2、SELENBP1、IL1B,這些預后相關基因具有成為結腸癌生物標記物的潛力。
為了得到預后相關基因中與腫瘤免疫相關的基因,通過TIMER 數據庫,對其與不同的免疫細胞進行相關性分析,最終得到6 個免疫相關基因NR3C2、ETFDH、TIMP1、BGN、SCG2、IL1B,其中TIMP1、BGN、IL1B 已被用于結腸癌腫瘤微環境或免疫相關研究[35-38]。但NR3C2、ETFDH、SCG2 在結腸癌免疫微環境中的作用鮮見報道。分析這3 個基因與6 種免疫細胞的關系,發現NR3C2 與這6 種免疫細胞均成正相關,并且與B 細胞、CD8+T 細胞關系更為密切,ETFDH 與除巨噬細胞外其他5 種免疫細胞呈相關性,其與B 細胞、樹突狀細胞關系更為密切,SCG2 與B 細胞不具有相關性,與其他免疫細胞呈正相關,并且與CD4+T 細胞、巨噬細胞、中性粒細胞、樹突狀細胞均密切相關。
既往研究發現,腫瘤浸潤的CD20+B 淋巴細胞在結直腸癌中具有良好的預后價值[39]。研究表明[40],大量的CD4+T 細胞浸潤到腫瘤中與不良的臨床預后相關,而CD8+T 細胞作為腫瘤殺傷細胞,其缺失往往能促進腫瘤的發展[41,42]。也有研究表明中性粒細胞與淋巴細胞的比值是結直腸癌患者的明確預測指標,腫瘤相關中性粒細胞能夠促進腫瘤的發展[43]。腫瘤相關巨噬細胞(TAM)是指被募集到腫瘤微環境中的巨噬細胞,已有研究表明腫瘤相關巨噬細胞在腫瘤發生發展中發揮著重要作用[44-46]。本研究發現,預后相關基因NR3C2、ETFDH、SCG2 與這些免疫細胞密切相關,可能通過調控腫瘤免疫,在結腸癌發生發展過程中發揮重要的作用。
此外,本研究通過STRING 網站構建了102 個差異基因的蛋白質相互作用網絡,并用Cytoscape 軟件尋找其中最關鍵的功能模塊,最關鍵模塊中包括16 個(MEP1A、SCGN、SLC17A4、SI、MYO1A、TSPAN7、SLC26A2、STMN2、UGT2A3、CHGB、ADH1C、VSNL1、MS4A12、WNT2、ADAMDEC1、CEACAM7)樞紐基因,這些基因在102 個差異基因中發揮著最關鍵的功能。在這16 個樞紐基因中,SLC17A4 與預后相關,并在此之前尚未在結腸癌中報道過。
為了明確預后相關樞紐基因(SLC17A4)和免疫相關基因(NR3C2、ETFDH、SCG2)在結腸癌中的表達量、表達位置和可能發揮的作用,本研究基于TCGA 數據對這4 個基因表達量進行可視化分析,結果發現其在癌組織中的表達量均低于正常組織。基于HPA 數據庫的免疫組化發現,ETFDH 主要表達于細胞質,NR3C2 在細胞核和細胞質中大量表達,SCG2 在細胞質中有少量表達,SLC17A4 主要表達于細胞膜。基于GEEA 單基因富集分析發現,這些基因富集到許多與癌癥的發生與進展均密切相關的功能,如ETFDH 主要富集到“RNA 沉默”等功能,NR3C2 主要富集到“腫瘤壞死因子分泌”“血管內皮細胞增殖”等功能,SCG2 主要富集到“細胞周期相變的正調控”“RNA 聚合酶結合”等功能,SLC17A4 主要富集到“細胞周期G1S 期轉變的負調控”等功能。
綜上所述,本研究共篩選出有望作為結腸癌預后靶點的15 個基因,通過對15 個基因進一步分析,篩選出4 個結腸癌預后相關樞紐基因和免疫相關基因,這些基因具有重要的節點作用,可能與腫瘤免疫密切相關,在腫瘤免疫微環境中起著重要的作用。然而,本研究尚未進行分子機制的實驗研究,這些基因在結腸癌中具體的功能機制尚不清楚,下一步將從該方向入手,進一步明確其在結腸癌中的作用。