曾 蕾,徐雪蓮,羅曼曼,張 凡,韓志堅,李玉民,,*
(1.蘭州大學第二醫(yī)院普外科,甘肅 蘭州730030;2.甘肅省消化系統(tǒng)腫瘤重點實驗室,甘肅 蘭州 730030)
胃癌是消化道最常見的惡性腫瘤,我國胃癌發(fā)病率及死亡率顯著高于其他國家,嚴重威脅人類健康[1]。由于早期胃癌無特異性改變,大多患者發(fā)現(xiàn)已經(jīng)處于進展期[2-3],手術(shù)、輔助放化療的快速發(fā)展在一定程度上提高了胃癌患者的生存期,但由于化學藥物抗性等原因胃癌患者的5年生存率僅為5%~15%[4-5]。因此識別胃癌相關(guān)的分子標志物,為胃癌患者提供個體化治療以提高治療效果尤為重要。然而目前關(guān)于胃癌分子機制的探究仍然處于探索階段。雖然關(guān)于這些異常的分子和信號通路已被用做藥物干預的靶點來治療胃癌,但是關(guān)于胃癌的藥物治療仍然比較局限。因此,對胃癌發(fā)生發(fā)展過程中分子機制的研究至關(guān)重要。
基因芯片技術(shù)和生物信息學分析方法為疾病分子機制的研究提供了新的思路,是目前探究疾病發(fā)展過程中基因調(diào)控最好的方法[6]。因此,本文擬通過下載GEO數(shù)據(jù)庫中5個基因芯片數(shù)據(jù)集的原始數(shù)據(jù),利用生物信息學的研究方法,分析胃癌發(fā)生發(fā)展過程中關(guān)鍵的基因和信號通路,從而為胃癌分子機制的研究提供新的方向,為胃癌的診斷和治療提供新的思路。
通過NCBI的GEO數(shù)據(jù)庫下載GSE35809、GSE54129、 GSE79973、GSE66229和 GSE51105共 5個數(shù)據(jù)集,基因芯片均基于Affymetrix Human Genome U133 Plus 2.0 Array,數(shù)據(jù)類型為Expression profiling by array,種屬為Homo sapiens;提取數(shù)據(jù)集中的基因芯片數(shù)據(jù),并將5個數(shù)據(jù)集的的樣本分為胃癌組和正常組:胃癌組585例,正常組131例。詳見表1。

表1 各數(shù)據(jù)集中樣本分布情況
通過Transcriptome Analysis Console軟件對下載的5個基因數(shù)據(jù)集進行Robust multi-chip average(RMA)歸一化處理,然后利用R-package Combat去除批次效應(batch effects)。然后通過R語言中的Limma包分析得出胃癌組與正常組之間的差異基因。以校正后的P<0.01,|log2FC|>1為篩選標準,得到胃癌組和正常組之間的差異基因。
DAVID數(shù)據(jù)庫[7]是一個可進行差異基因功能富集分析的生物信息數(shù)據(jù)庫,可從生物過程(biological process,BP)、通過細胞組分(cellular component,CC)和分子功能(molecular function,MF)3個方面對我們分析得到的差異基因進行了全面的注釋。我們用DAVID6.8對差異基因分別進行基因本體論分析(gene ontology,GO)分析,并利用KEGG(Kyoto encyclopedia of genes and genomes)數(shù)據(jù)庫進行KEGG分析,篩選得到參與胃癌發(fā)展過程中關(guān)鍵的通路。
STRING數(shù)據(jù)庫是可以預測蛋白質(zhì)間的相互作用的數(shù)據(jù)庫。利用STRING數(shù)據(jù)庫分析胃癌組和正常組之間差異基因間的相互作用,并將PPI網(wǎng)絡(luò)的tsv文件導出,利用Cytoscape3.7.0軟件對其進行可視化,并利用軟件中的CytoHubba插件通過MCC算法對PPI網(wǎng)絡(luò)中相互作用的基因進行評分以此得出Hub基因。
通過對數(shù)據(jù)集進行Q-Qplot統(tǒng)計分析,說明所有基因的表達符合正態(tài)分布,可以做密度圖,兩線沒有重復的部分為差異表達基因,上下兩圖為批次效應處理前后的基因表達情況,下圖的密度圖比上圖擬合程度更高,說明批次效應處理成功(如圖1)。對基因表達數(shù)據(jù)標準化,并利用主成分分析(PCA分析)表明樣本之間的相似程度,不同樣本在空間上距離越近,則說明樣本間的差異越小(如圖2),表明數(shù)據(jù)質(zhì)量可靠,可進行生物信息學分析。我們利用R語言中的limma包分析得到胃癌發(fā)生發(fā)展過程中的差異基因,總共得到1205個差異基因:上調(diào)基因480個,下調(diào)基因725個,差異基因的位置如圖3所示。

圖1 不同樣本間批次效應處理前后基因表達情況

圖2 所有樣本主成分分析結(jié)果
對480個上調(diào)基因和725個下調(diào)基因分別進行GO分析和KEGG分析(如表2,表3)。480個上調(diào)基因富集結(jié)果顯示,差異基因主要參與了BP的趨化因子介導的信號通路、細胞-細胞信號傳導、炎癥反應和細胞對白細胞介素-1反應等過程;CC主要聚集于細胞外的區(qū)域;MF主要與趨化因子活性、蛋白質(zhì)結(jié)合、細胞因子活性、微管運動活動和生長因子活動等相關(guān)。上調(diào)基因KEGG分析結(jié)果顯示,胃癌的發(fā)生發(fā)展主要與趨化因子信號通路、p53信號通路、Toll樣受體信號通路、ECM-受體相互作用、TNF信號通路、NF-κB信號通路、PI3K-Akt信號通路和Jak-STAT信號通路等通路相關(guān)。725個下調(diào)基因GO分析結(jié)果顯示,BP主要與異生素葡萄糖醛酸化、異生素代謝過程、細胞粘附、代謝過程和受體介導的內(nèi)吞作用等過程;CC表明下調(diào)基因主要位于細胞外的區(qū)域;MF結(jié)果顯示差異基因主要富集于葡糖醛酸基轉(zhuǎn)移酶活性、細胞外基質(zhì)結(jié)構(gòu)成分、鈣通道調(diào)節(jié)劑活性、酶抑制劑活性、氧化還原酶活性和生長因子活動等過程。KEGG結(jié)果顯示,下調(diào)基因主要參與了抗壞血酸和新陳代謝、戊糖和葡萄糖醛酸的相互轉(zhuǎn)化、胃酸分泌、卟啉和葉綠素代謝和酪氨酸代謝等通路。

圖3 胃癌差異基因表達譜的火山圖

表2 上調(diào)基因GO分析和KEGG分析

表3 下調(diào)基因GO分析和KEGG分析
將篩選出來的1205個差異基因?qū)隨TRING數(shù)據(jù)庫,然后將所得的PPI網(wǎng)絡(luò)數(shù)據(jù)的tsv文件數(shù)據(jù)導入Cytoscape軟件,對其進行可視處理,結(jié)果如圖4所示。通過插件cytoHubba,利用MCC算法將差異基因按照相互作用的重要性進行排序,找出CENPE、KIF15、MELK、KIF2C、CENPF、KIF11、NUSAP1、UBE2C、TTK、AURKB、DLGAP5、TOP2A、CCNA2、CCNB1、 PBK、 TPX2、 RRM2、 KIF20A、 CDCA8、CCNB2、 BUB1B、 MAD2L1、 HMMR、 CEP55、BUB1、KIF23、NCAPG、ASPM和CDK1等29個Hub基因(圖 5)。

圖4 胃癌差異基因的蛋白質(zhì)互作網(wǎng)絡(luò)

圖5 胃癌Hub基因網(wǎng)絡(luò)圖
胃癌是世界上常見惡性腫瘤之一[1],目前胃癌機制的研究表明,胃癌的發(fā)生和發(fā)展與癌基因、抑癌基因、癌細胞非整倍性和幽門螺旋桿菌感染后引起的基因改變等機制相關(guān)[8-11]。對于參與這些機制的分子進行了大量的研究,BUB1、MAD2和p53等在胃癌發(fā)生發(fā)展過程中的作用已有定論[12-14]。然而目前關(guān)于參與胃癌發(fā)生發(fā)展分子機制的研究仍然處于探索階段,因此對于胃癌靶點治療的研究仍然比較局限。本研究通過生物信息學對585個胃癌組織和131個正常組織的基因芯片數(shù)據(jù)進行分析,通過對GSE35809、GSE54129、GSE79973、GSE66229和GSE51105共5個數(shù)據(jù)集中的基因芯片數(shù)據(jù)進行標準化處理及質(zhì)量控制,結(jié)果表明數(shù)據(jù)的異質(zhì)性小,可用于生物信息學分析。我們通過生信分析得到了1205個差異表達的基因,包括480個上調(diào)基因以及725個下調(diào)基因。
對480個上調(diào)基因以及725個下調(diào)基因進行GO分析的結(jié)果顯示,上調(diào)基因富集結(jié)果顯示,差異基因主要參與趨化因子介導的信號通路、細胞-細胞信號傳導、炎癥反應和細胞對白細胞介素-1反應等過程。下調(diào)基因主要與異生素葡萄糖醛酸化、異生素代謝過程、細胞粘附、代謝過程和受體介導的內(nèi)吞作用等過程。所有的差異基因主要位于細胞外的區(qū)域。趨化因子信號通路、炎癥反應、白細胞介素-1反應和細胞粘附等機制在胃癌發(fā)展過程中的作用均已有研究證明[15-18]。因此對于參與這些生物過程的差異基因的探究,有助于我們對胃癌分子機制的認識。KEGG通路分析結(jié)果顯示在胃癌的發(fā)生發(fā)展過程中p53信號通路、PI3K-Akt信號通路、NF-κB信號通路、細胞外基質(zhì)受體相互作用通路(ECM-receptorinteraction)等有著重要的作用。研究表明[19-20],PI3K/Akt信號通路與胃癌的預后相關(guān),抑制該信號通路后胃癌生長顯著受限,因此該通路有可能成為胃癌治療的靶點。NF-κB是一種多功能的核轉(zhuǎn)錄因子,其與胃癌細胞增殖、凋亡、炎癥反應和免疫反應等過程關(guān)系密切,抑制該信號通路促進了胃癌細胞的凋亡,在胃癌的發(fā)生發(fā)展過程中扮演著重要作用[21]。PI3K-Akt信號通路和JAK-STAT信號通路在胃癌中的作用均已有研究證明[19,22]。然而目前,Toll樣受體信號通路、TNF信號通路和HIF-1信號通路在胃癌發(fā)展過程中的作用機制尚未報道,這些信號通路為胃癌的分子機制的研究提供了新的方向。
我們從1205個差異基因的PPI網(wǎng)絡(luò)篩選出了CENPE、 KIF15、 MELK、 KIF2C、 CENPF、 KIF11、NUSAP1、UBE2C、TTK和TOP2A等29個Hub基因。TOP2A是Ⅱ型拓撲異構(gòu)酶家族中的一員,能夠改變DNA轉(zhuǎn)錄過程中出現(xiàn)的DNA拓撲結(jié)構(gòu)[23]。Terashima等[24]研究表明,TOP2A的高表達增加了Ⅱ/Ⅲ期胃癌患者的血源性復發(fā)的風險。此外,該基因在鼻咽癌、結(jié)腸癌和卵巢癌中也高表達,因此該分子有可能成為腫瘤診斷和治療的靶點[25-27]。泛素結(jié)合酶E2C(UBE2C)是E2家族的成員,由人染色體20q13.12的UbcH10基因編碼[28]。Zhang等[29]研究表明,UBE2C在胃癌細胞(特別是腸型胃癌細胞)呈高表達,可以通過ERK信號通路促進胃癌細胞的增殖,是腸型胃癌預后不良的分子標記物。母系胚胎亮氨酸拉鏈蛋白激酶(MELK)是絲氨酸/蘇氨酸(Ser/Thr)蛋白激酶家族中的一員,在胃癌細胞中呈高表達,通過FAK-Paxillin通路促進胃癌細胞的遷移和侵襲,是胃癌預后不良的指標[30-31]。CCNB1、CCNA2和CCNB2同屬于細胞周期蛋白這一家族,在調(diào)控真核細胞周期中扮演著重要作用[32]。相關(guān)研究表明CCNB1、CCNA2和CCNB2在胃癌中呈高表達,CCNB1的表達與胃癌患者的生存率相關(guān)[33]。PBK、TPX2、RRM2和CEP55均在胃癌中高表達,可通過PI3K-AKT和NF-κB信號通路等促進胃癌的侵襲及轉(zhuǎn)移,是胃癌預后重要的生物標志物[34-37]。紡錘體組裝檢查點(spindleassemblycheckpoint,SAC)蛋白的表達可導致有絲分裂過程中染色體的錯聚和非整倍體,該機制可能在胃癌的機制中有著重要的作用[38]。關(guān)于Hub基因CDK1、TPX2、AURKB、CDCA8、KIF11和KIF20A在胃癌中的作用機制有待進一步探究。然而,KIF15、DLGAP5、TTK、CENPF、KIF23、NUSAP1和NCAPG的研究尚未報道,為我們對于胃癌分子機制的研究提供了新的思路。
綜上所述,通過生物信息學分析確定了可能參與胃癌發(fā)生及發(fā)展的1205個差異基因及29個Hub基因,通過GO和KEGG分析確定了Toll樣受體信號通路、TNF信號通路和HIF-1信號通路可能參與胃癌的發(fā)生及發(fā)展,關(guān)于KIF15、DLGAP5、TTK、CENPF、KIF23、NUSAP1和NCAPG等基因在胃癌中的作用機制有待進一步探究。