余東虎,黃靜宇,沈小艷,汪育錦,李 勝,胡衛(wèi)東
肺癌是世界第一大癌癥,每年約造成150萬人死亡,而肺腺癌是最常見的肺癌類型,約占肺癌的40%[1]。肺腺癌早期多無征兆,一般生長較慢,通常診斷出來時(shí)已是晚期,治療上存在困難,因此,從基因?qū)用孢M(jìn)一步了解肺腺癌,能給臨床提供更多的解決方法。一些基因已經(jīng)被報(bào)道過與肺腺癌之間的聯(lián)系,Salim等[2]研究發(fā)現(xiàn)DKK1是潛在的非小細(xì)胞肺癌的治療靶點(diǎn),Shi等[3]報(bào)道MAD2L1可能是肺腺癌的一個(gè)預(yù)后靶標(biāo)。但是,肺腺癌的發(fā)生機(jī)制仍然有待進(jìn)一步的研究。本研究利用生物信息學(xué)方法對(duì)基因芯片GSE10072進(jìn)行分析,以此獲得差異表達(dá)基因(differentially expressed genes,DEGs),同時(shí)還對(duì)DEGs進(jìn)行聚類分析和功能富集分析,并且構(gòu)建蛋白互作(protein-protein interaction,PPI)網(wǎng)絡(luò)來篩選核心基因,最后通過GEPIA數(shù)據(jù)庫對(duì)結(jié)果進(jìn)行驗(yàn)證,期待提供給肺腺癌更多的診斷靶標(biāo)。
1.1 數(shù)據(jù)獲取 在美國國立生物技術(shù)信息中心創(chuàng)建并維護(hù)的基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus,GEO;http://www.ncbi.nlm.nih.gov/geo/)中下載編號(hào)為GSE10072的基因芯片,該芯片的平臺(tái)信息:GPL96 [HG-U133A] Affymetrix Human Genome U133A Array,共有107個(gè)樣本,其中49例正常肺組織樣本,58例肺腺癌組織樣本。將58例肺腺癌組織樣本作為實(shí)驗(yàn)組,49例正常肺組織樣本作為對(duì)照組。
1.2 樣本的預(yù)處理、聚類分析 利用R軟件讀取文件后,使用RMA算法,將數(shù)據(jù)標(biāo)準(zhǔn)化后得到基因的表達(dá)矩陣,計(jì)算樣本間的Pearson相關(guān)矩陣中不同樣本之間的距離,對(duì)樣本進(jìn)行聚類分析。
1.3 DEGs的分析 用R軟件讀入預(yù)處理后得到的基因表達(dá)矩陣文件,用Limma包對(duì)58例肺腺癌組織樣本和49例正常肺組織樣本進(jìn)行基因差異表達(dá)分析[4]。DEGs篩選標(biāo)準(zhǔn)是錯(cuò)誤發(fā)現(xiàn)率(false discovery rate,FDR)<0.05和基因表達(dá)值倍數(shù)變化>2或<-2。
1.4 功能與富集分析 使用DAVID在線分析平臺(tái)(https://david.ncifcrf.gov/)[5]對(duì)DEGs在基因本體(Gene Ontology,GO)中注釋這些基因參與的生物學(xué)過程(biological process,BP),并且利用京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)進(jìn)行通路分析,F(xiàn)DR<0.05被認(rèn)為具有統(tǒng)計(jì)學(xué)意義。
1.5 PPI網(wǎng)絡(luò)與樞紐基因的篩選 采用STRING數(shù)據(jù)庫[6]分析肺腺癌組織和正常肺組織DEGs之間的PPI關(guān)系,構(gòu)造出PPI網(wǎng)絡(luò),閾值條件為綜合評(píng)分大于0.4。將分析的數(shù)據(jù)導(dǎo)入Cytoscape軟件[7]后,利用網(wǎng)絡(luò)分析插件計(jì)算節(jié)點(diǎn)的連通度,以此篩選網(wǎng)絡(luò)中心節(jié)點(diǎn),中心節(jié)點(diǎn)對(duì)應(yīng)的基因是核心基因。
1.6 核心基因的驗(yàn)證 用GEPIA(http://GEPIA.cancer-pku.cn/)進(jìn)行進(jìn)一步驗(yàn)證與生存分析。GEPIA是一個(gè)基于TCGA和GTEx數(shù)據(jù)庫的網(wǎng)站工具,具有差異表達(dá)分析、輪廓繪圖和患者生存分析等功能[8]。使用GEPIA能避免下載TCGA原始數(shù)據(jù)再進(jìn)行生存分析的繁瑣,不足之處是無法查看基因與癌癥患者的臨床病理相關(guān)性,但結(jié)果仍然具有嚴(yán)格的統(tǒng)計(jì)意義。
2.1 樣本聚類情況 結(jié)果顯示58例肺腺癌組織樣本(實(shí)驗(yàn)組)和49例正常肺組織樣本(對(duì)照組)聚類良好,107例樣本均可用于下一步分析(圖1),差異基因熱圖也顯示樣本聚類分界明確(圖2)。

圖1 樣本聚類情況

紅色表示高表達(dá),綠色表示低表達(dá)圖2 差異基因熱圖
2.2 DEGs情況 設(shè)FDR<0.05和基因表達(dá)值倍數(shù)變化>2或<-2為篩選條件,肺腺癌組織和正常肺組織DEGs有888個(gè),其中上調(diào)基因有317個(gè),下調(diào)基因有571個(gè)(圖2)。
2.3 DEGs的生物學(xué)功能注釋 GO功能注釋表示,有11個(gè)富集高的肺腺癌DEGs富集的BP(表1),其中相關(guān)程度高的BP是細(xì)胞粘附、藥物反應(yīng)以及細(xì)胞外基質(zhì)的組成。

表1 功能富集(GO)
2.4 DEGs的KEGG信號(hào)通路 肺腺癌DEGs富集到的KEGG通路中富集度程度高的有2條,分別是細(xì)胞外基質(zhì)受體相互作用通路、補(bǔ)體和凝血級(jí)聯(lián)反應(yīng)通路(表2)。

表2 KEGG通路富集
2.5 通過Cytoscape軟件構(gòu)建PPI網(wǎng)絡(luò) 根據(jù)每個(gè)基因的節(jié)點(diǎn)數(shù)目排序,得到8個(gè)節(jié)點(diǎn)數(shù)最多的基因,即最相關(guān)的核心基因:GAPDH,IL6,TOP2A,CDK1,MMP9,BIRC5,EDN1,CCNB1(圖3)。

紅色的點(diǎn)表示高表達(dá)基因,藍(lán)色表示低表達(dá)基因圖3 PPI網(wǎng)絡(luò)圖
2.6 核心基因外部驗(yàn)證 通過查詢GEPIA腫瘤數(shù)據(jù)庫,相較正常組織,GAPDH,TOP2A,CDK1,MMP9,BIRC5,CCNB1在肺腺癌中高表達(dá),IL6,EDN1在肺腺癌中低表達(dá);在生存分析中,GEPIA基于TCGA數(shù)據(jù)庫,有514個(gè)腫瘤組織(但只有502名患者有較完整的臨床信息)和59個(gè)正常組織,肺腺癌患者的部分臨床信息如表3所示。顯示GAPDH,TOP2A,BIRC5,CCNB1的表達(dá)量與肺腺癌的預(yù)后相關(guān),都具有嚴(yán)格的統(tǒng)計(jì)學(xué)意義;但I(xiàn)L6,CDK1,MMP9,EDN1與預(yù)后的關(guān)系無統(tǒng)計(jì)學(xué)意義。

表3 肺腺癌患者的部分臨床信息
通過對(duì)基因芯片GSE10072分析,共發(fā)現(xiàn)888個(gè)DEGs,其中上調(diào)基因有317個(gè),下調(diào)基因有571個(gè),GO功能富集和KEGG通路富集顯示在肺腺癌的發(fā)生進(jìn)展中細(xì)胞外基質(zhì)的變化起到重要作用。同時(shí)還對(duì)DEGs構(gòu)建了PPI網(wǎng)絡(luò),然后篩選出了8個(gè)核心基因,分別是GAPDH,IL6,TOP2A,CDK1,MMP9,BIRC5,EDN1和CCNB1。
通過數(shù)據(jù)庫驗(yàn)證顯示,上調(diào)的核心基因GAPDH調(diào)節(jié)細(xì)胞凋亡的過程并參與細(xì)胞癌變進(jìn)程,它的表達(dá)狀態(tài)在癌細(xì)胞中會(huì)被解禁[9]。Nicholls等[10]發(fā)現(xiàn)GAPDH作用于端粒酶復(fù)合體,會(huì)讓癌細(xì)胞持續(xù)增殖。KRAS突變能促發(fā)癌癥。Brooks等[11]報(bào)道IL6能引發(fā)KRAS突變,在肺腺癌細(xì)胞中IL6表達(dá)增強(qiáng),遺憾的是,我們得到正好相反的結(jié)果。TOP2A是另一個(gè)重要的上調(diào)核心基因,它不僅參與DNA復(fù)制、轉(zhuǎn)錄與DNA重組,也參與了染色質(zhì)重塑的過程[12],研究顯示TOP2A高表達(dá)在前列腺癌、腎上腺皮質(zhì)癌、乳腺癌和子宮平滑肌肉瘤的侵襲和轉(zhuǎn)移中起重要作用。但目前還沒有研究涉及肺腺癌受TOP2A表達(dá)水平的影響。CDK1基因是細(xì)胞G2-M期過渡的關(guān)鍵因素,這就是眾所周知的成熟促進(jìn)因子[13]。Jacquot等[14]發(fā)現(xiàn)四環(huán)三萜葫蘆素能有效抑制非小細(xì)胞肺癌,可檢測到CDK1表達(dá)明顯增強(qiáng)。MMP9編碼的蛋白可以降解組織中基底膜主要成分,能讓腫瘤細(xì)胞突破原發(fā)腫瘤部位[15]。Yu等[16]發(fā)現(xiàn)MMP9活性水平能作為切除Ⅰ期B型肺腺癌的預(yù)后評(píng)價(jià)的指標(biāo)。這些研究都與我們的結(jié)果相一致。BIRC5是另一個(gè)上調(diào)基因,研究表明,BIRC5可以通過調(diào)節(jié)Arf6表達(dá)發(fā)揮其作用[17],故而猜測Arf6也是肺腺癌進(jìn)展的作用基因。Baykara等[18]發(fā)現(xiàn)位于17號(hào)染色體上的BIRC5基因在肺癌細(xì)胞中表達(dá)增強(qiáng)。下調(diào)基因EDN1缺乏與癌癥相關(guān)性,是值得研究的新方向。Shi等[19]發(fā)現(xiàn)ISL1是CCNB1基因表達(dá)的新型調(diào)節(jié)器,并且敲除ISL1之后,CCNB1的表達(dá)量會(huì)減少,故而可推測ISL1也是肺腺癌潛在的治療靶點(diǎn)。
本研究通過生物信息學(xué)方法篩選出了DEGs,發(fā)現(xiàn)了GAPDH,IL6,TOP2A,CDK1,MMP9,BIRC5,EDN1,CCNB1這8個(gè)核心基因,它們有可能成為肺腺癌的治療靶點(diǎn)和診斷靶標(biāo),但仍需要相關(guān)的生物實(shí)驗(yàn)進(jìn)一步探討它們?cè)诜蜗侔┲械木唧w作用機(jī)制。