馬藝琿 李國琛
胃癌為全球常見的消化道惡性腫瘤,位于癌癥致死原因的第二位[1]。盡管近年來診療技術不斷進步,但是目前患者的長期生存率還有待提高,其中胃癌的侵襲和轉移是造成預后較差的重要原因[2]。高通量測序及基因芯片技術的發展及公共數據集的完善,為胃癌診斷指標,治療靶點及預后評價指標的篩選提供了更多的可能性[3]。本研究對Gene Expression Omnibus(GEO)及Cancer Genome Atlas(TCGA)現有的一系列胃癌相關數據集進行了生物信息學分析,結果提示編碼膠原蛋白的一系列基因家族存在表達異常,可能參與胃癌的發生發展。其中Ⅰ型膠原α1(COL1A1)基因與胃癌患者的TNM分期及預后具有密切關系,現報道如下。
從Gene Expression Omnibus(GEO)下載4個獨立的胃癌患者組織標本mRNA芯片數據。4個數據集的訪問編號為GSE13861,GSE13911,GSE19826及GSE54129(具體信息見表1)。同時下載Cancer Genome Atlas中胃癌數據集(TCGA-STAD)的患者組織標本mRNA數據集臨床信息。TCGA-的數據用于分析正常組織和癌組織之間的基因差異,TNM分期與基因差異的關系及生存分析。
使用R統計分析軟件結合Limma程序包利用線性模型對GSE13861、GSE13911、GSE19826及GSE54129四個數據集中胃癌癌周正常組織及癌組織間差異基因進行篩選。表達差異倍數大于2倍且P<0.05的基因定義為具有變化的差異基因。利用韋恩圖對四個數據集中獲取的顯著變化的差異基因進行取交集操作,以便整合四個數據集的結果。
對四個數據集的顯著差異基因進行取交集后整合,將得到一份整合后的癌周正常組織及癌組織間顯著差異的基因列表。對這些基因進行進一步的GO富集分析,以便明確這些基因涉及的生物學過程,功能及分子定位(細胞組分)。同時進行KEGG信號通路分析以明確這些基因參與哪些信號通路的調控。GO富集分析及KEGG信號通路富集分析使用DAVID Functional Annotation Bioinformatics Microarray Analysis在線工具進行(https://david.ncifcrf.gov/)。
利用String數據庫(https://string-db.org),對上述整合后顯著差異基因編碼的蛋白質進行網絡分析,獲取各基因編碼蛋白質間的調控網絡。Cytoscape軟件(版本號3.5.1)計算網絡節點的連接度。
統計學分析采用R統計學軟件(版本號3.4.2)。癌周正常組織及癌組織間的差異使用獨立樣本t檢驗及貝葉斯檢驗。TNM分期間的基因表達差異使用單因素方差分析。生存分析使用Kaplan-Meier法結合log-rank分析。以P<0.05為差異具有統計學意義。
四個GEO數據集中胃癌癌周正常組織與癌組織相比,差異具有統計學意義(表達倍數>2或<0.5且P<0.05)的基因個數及上調/下調情況如表1所示。通過對四個數據集取交集發現,共105個基因在四個數據集中均存在顯著表達的差異。其中34個基因上調,71個基因下調。
本研究四個數據集中均存在顯著表達差異的105個基因進行了Go基因富集發現,對這些基因參與的生物學過程,分子功能及細胞定位(細胞組分)進行了分析(圖1)。結果顯示一些基因在生物學過程、分子功能及細胞定位等方面均參與細胞外基質的調控相關,有趣的是基因多來自膠原調控基因家族,包括COL1A1,COL1A2,COL3A1,COL6A3,COL5A2,COL10A1,COL4A1 及COL4A2等。同時我們對上述105個基因進行了KEGG信號通路富集分析,這些基因涉及的主要信號通路見圖1,除細胞外基質通路外,PI3K-AKT等信號通路也與胃癌的發生發展有關。這些證據提示這些差異表達的基因在胃癌中扮演一定的角色。蛋白-蛋白互作網絡分析發現這105個基因編碼的蛋白間存在網絡調控關系,其中COL1A1基因編碼的蛋白連接度最大(連接度=13),提示COL1A1基因在該網絡中處于核心位置。
四個GEO數據集及TCGA數據集中(圖2),COL1A1均在胃癌癌組織中存在高表達,與癌周組織相比,差異均具有統計學意義(P均<0.05)。TCGA數據集中COL1A1 mRNA水平在擁有較晚TNM分期(2期以上)的患者中存在高表達(圖3),并且與患者的生存率具有關系(圖4),即COL1A1較高的患者,十年總體生存率較低(P<0.05,風險比=1.5)。
精準醫療和個體化醫療的發展需要明確更多胃癌相關基因的作用及其與胃癌患者臨床特征的關系[4-5]。近十年來,RNA測序及基因芯片等技術不斷成熟,在準確度,效率增加的同時,技術費用又所下降,形成了癌癥相關的大數據[6]。利用生物信息學手段挖掘這些大數據,可以方便的找到可能與胃癌發生發展相關的基因。相比傳統研究,更加經濟且有效縮短了研究周期[4]。
通過差異分析及整合,我們發現105個基因在四個GEO胃癌數據集中的表達特征一致,其中34個基因在胃癌組織中上調,71個基因下調。通過GO富集分析及KEGG信號通路分析,可以將這105個基因按照其功能進行歸類,達到對差異基因進行注釋和分類的目的,同時發現這些基因參與哪些信號通路。在本研究我們發現胃癌組織105個差異表達的基因參與的生物學過程主要包括細胞黏附,細胞外基質的調控。KEGG信號通路富分析排名靠前的信號通路主要包括PI3K-Akt通路及細胞外基質調控通路。這些生物學功能及通路均和腫瘤細胞的增殖和遷移有關,很大程度上決定了腫瘤的侵襲程度和患者的預后[7-8]。本研究重點關注了細胞外基質調控的相關基因,有趣的是這些基因均來自膠原形成相關的基因家族(COL基因家族),包括COL1A1、COL1A2、COL3A1、COL6A3、COL5A2、COL10A1、COL4A1 及 COL4A2[9]。

表1 四個GEO胃癌數據集中癌周組織及癌組織間具有顯著表達差異的基因信息

圖1 胃癌組織中105個差異基因的GO基因富集分析及KEGG信號通路富集分析結果(富集分數前5位)

圖2 COL1A1 mRNA在四個GEO胃癌數據集及TCGA胃癌數據集中的表達水平*P<0.05 與癌周組織相比

圖3 COL1A1表達與胃癌患者分期及預后的關系
胃癌發展的過程是與腫瘤微環境互相作用的動態過程。胃癌的生存及遷移均與微環境關系密切[8-10]。而膠原是胃癌細胞的細胞外間質的主要成分,也是間質微環境的主要組成。膠原可以為腫瘤細胞提供生長依附和支架,誘導腫瘤細胞的移行[11-12]。證據表明在胃癌發生時膠原的合成增多[13]。本研究也在胃癌組織中發現了上述膠原相關基因的表達增加。膠原可以影響E-鈣黏蛋白介導的細胞間黏附復合物的形成及解聚,從而影響腫瘤細胞的擴散和增殖。還有一些膠原如Ⅰ型及Ⅲ型膠原還可以機會整合信號通路,誘導上皮間質轉化,從而導致腫瘤細胞的浸潤和轉移[9,12]。本研究通過對差異基因進行蛋白-蛋白互作網絡分析發現,上述的COL基因似乎更為重要,表現為與其他基因編碼的蛋白存在廣泛聯系。特別是COL1A1基因,其編碼的蛋白質在構成的網絡中,連接度最高。因此我們認為COL1A1可能是一個參與胃癌發生發展的關鍵基因。在四個GEO數據集及TCGA數據集中,COL1A1均在胃癌組織中高表達,且結合TCGA的臨床數據分析發現COL1A1在TNM分期較晚的患者中,表達較高且較高的COL1A1預示著較低的十年總體生存率,提示COL1A1是胃癌患者預后較差的一個風險因素。
總之,本研究通過數據挖掘發現了一系列可能參與胃癌發生發展的基因,特別是一些參與膠原形成與細胞外基質相關的基因在胃癌組織中存在明顯的表達差異。這些基因可能作為胃癌的診斷指標,治療靶點或者預后評估標志物。其中COL1A1與胃癌患者的TNM分期及預后相關。