蘇毅馨,李林潞,毛 昀,褚雪鐳,陳 崢,朱世杰
(中國中醫(yī)科學院望京醫(yī)院腫瘤科,北京 100102)
食管癌是常見惡性腫瘤之一,每年造成40多萬人死亡[1],2018年中國食管癌新發(fā)病例占全球新發(fā)病例54.1%,死亡病例占全球死亡病例56%[2]。食管鱗癌(ESCC)是主要的組織學亞型,占90%以上[3]。目前常規(guī)治療方式包括手術(shù)、放療、化療、靶向治療、免疫治療等,但ESCC患者的5年生存率低于30%[4]。研究表明,相關(guān)基因及信號通路的改變可導致腫瘤細胞的早期轉(zhuǎn)移及高侵襲性,如RTK/RAS/PI3K通路中TP53、 CCND1基因突變等[5],因此亟須進一步探討ESCC分子機制,以期尋找ESCC早期診斷及靶向治療潛在的生物標志物。
近年來,基因芯片技術(shù)及生物信息學已廣泛應(yīng)用于基因組學的研究,LU等[6]分析ESCC中DNA甲基化驅(qū)動基因,發(fā)現(xiàn)ABCD1、CCDC8等基因異常與患者生存預后相關(guān)。本研究通過整合公共基因芯片數(shù)據(jù)庫(GEO)中GSE17251、GSE45670基因芯片數(shù)據(jù)集,利用GEO2R和Venn圖在線工具獲得兩數(shù)據(jù)集中共同差異表達基因(DEGs),其次通過DAVID在線網(wǎng)站及R語言進行基因本體(GO)和基因組百科全書數(shù)據(jù)庫(KEGG)分析并將其可視化,然后,通過SPRING在線工具及Cytoscape軟件中MCODE(Molecular Complex Detection Technology)插件篩選出核心DEGs。最后將核心DEGs導入GEPIA(Gene Expression Profiling Interactive Analysis)在線數(shù)據(jù)庫進行表達差異及預后分析獲得與ESCC預后相關(guān)基因,并利用UALCAN在線數(shù)據(jù)庫驗證其在ESCC組織與正常組織表達差異性,探索ESCC預后的相關(guān)生物標志物。
NCBI(National Center for Biotechnology Information)平臺GEO數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/geo/)是公開的微陣列/基因圖譜公共數(shù)據(jù)庫,利用該數(shù)據(jù)庫進行基因芯片篩選。目標芯片的準入標準:(1)臨床ESCC患者標本,排除細胞株和動物實驗;(2)入選芯片需含有ESCC組織標本和正常組織標本;(3)入選芯片標準為相同平臺。
確定目標芯片后,利用在線工具GEO2R分析各個芯片數(shù)據(jù),設(shè)置篩選標準為:|logFC|>2,P<0.05,然后利用Venn軟件(http://bioinformatics.psb.ugent.be/webtools/Venn)進行在線檢測,搜集DEGs。其中l(wèi)ogFC<0為下調(diào)基因,而logFC>0為上調(diào)基因。
DAVID(Database for Annotation,Visualization and Integrated Discovery Database)生物信息資源數(shù)據(jù)庫整合了生物數(shù)據(jù)和分析工具,能夠?qū)蚝偷鞍踪|(zhì)進行功能注釋。通過DAVID進行在線分析,以人源基因為背景進行GO和KEGG對差異基因進行GO分析及KEGG信號通路富集分析,并利用R語言將其可視化。
將DEGs導入在線STRING網(wǎng)站(https://string-db.org/cgi/input.pl)構(gòu)建蛋白互作網(wǎng)絡(luò)(PPI),然后運用Cytoscape3.6.0軟件中MCODE插件檢測核心基因,篩選標準:degree cutoff=2;node score cutoff=0.2;k-core=2;max.depth=100。
通過GEO數(shù)據(jù)庫的挖掘,明確差異表達的核心基因,利用GEPIA(http://gepia.cancer-pku.cn/)分析核心基因表達差異性及預后相關(guān)性,篩選條件P<0.05;其次利用UALCAN在線工具(http://ualcan.path.uab.edu/)進行驗證。
根據(jù)納入標準,篩選出兩個符合要求的微陣列數(shù)據(jù)集,分別為GSE17251、GSE45670 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi),均來自GPL570平臺。GSE17251包含5例ESCC組織標本和5例正常食管組織標本,GSE45670包含28例ESCC組織標本和10例正常食管組織標本,共得到33例ESCC組織及15例正常組織。利用GEO2R分析從GSE17251、GSE45670芯片中分別得到差異基因161、1 087個,其中上調(diào)基因分別為81、403個,下調(diào)基因為80、684個。利用Venn軟件發(fā)現(xiàn)2個數(shù)據(jù)集共表達的差異基因有86個,其中54個為高表達基因和32個低表達基因(圖1、表1)。

A:所有差異表達基因;B:上調(diào)差異表達基因;C:下調(diào)差異表達基因。

表1 86個差異表達基因上調(diào)基因及下調(diào)基因
依據(jù)基因編碼的蛋白質(zhì)在細胞中的作用,GO分析將DEGs功能注釋的結(jié)果分為3類:生物過程(BP)、細胞組分(CC)和分子功能(MF)。將差異基因進行GO分析,篩選為P<0.05的結(jié)果(表2、圖2)。表明在生物過程中,主要富集在細胞外基質(zhì)結(jié)構(gòu)組成、蛋白激酶活性的激活、細胞增殖的調(diào)控、內(nèi)皮細胞分化、細胞有絲分裂、有絲分裂中期/后期轉(zhuǎn)變的調(diào)節(jié)、胰島素樣生長因子受體信號通路的正向調(diào)控、磷酸化的正調(diào)控;在細胞組分中,包括紡錘體中央?yún)^(qū)、核質(zhì)、Ndc80復合物、驅(qū)動蛋白復合物、軸突丘;在分子功能中,包括ATP結(jié)合、DNA結(jié)合、轉(zhuǎn)錄激活性、RNA聚合酶核心啟動子近端區(qū)序列特異性結(jié)合、轉(zhuǎn)錄調(diào)節(jié)區(qū)DNA結(jié)合等。

表2 ESCC差異表達基因GO富集分析

續(xù)表2 ESCC差異表達基因GO富集分析

圖2 GO功能富集分析結(jié)果
通過對腫瘤組織和正常ESCC組織的差異進行進行KEGG通路富集分析并利用R語言將其可視化(圖3),結(jié)果表明:主要集中在25條信號轉(zhuǎn)導通路上,包括ECM受體結(jié)合、蛋白質(zhì)消化、TGF-β信號通路、卵母細胞減數(shù)分裂、血管平滑肌收縮、癌癥轉(zhuǎn)錄失調(diào)、PI3K-AKT信號通路、小細胞肺癌等。

圖3 KEGG通路富集分析
將86個差異基因?qū)氲絊TRING網(wǎng)站構(gòu)建蛋白互作網(wǎng)絡(luò)(圖4),剔除孤立節(jié)點后,運用Cytoscape 3.6.0軟件中MCODE插件按照篩選核心基因,篩選到27個關(guān)鍵核心基因(圖5)。

A:CDKN3對ESCC患者OS影響;B:KIF4A對ESCC患者OS影響。
通過GEO數(shù)據(jù)庫的挖掘,明確差異表達的核心基因27個,利用GEPIA篩選出預后相關(guān)基因結(jié)果表明:CKDN3、KIF4A基因在ESCC組織中高表達(圖6),并且高表達組的總生存期明顯短于低表達組,差異有統(tǒng)計學意義(P<0.05),見圖7,經(jīng)UALCAN驗證結(jié)果一致(圖8)。

A:CDKN3在ESCC患者高表達;B:KIF4A在ESCC患者高表達。

A:UALCAN驗證CKDN3在ESCC患者高表達;B:UALCAN驗證KIF4A在ESCC患者高表達。
食管癌是消化系統(tǒng)最常見的惡性腫瘤之一,具有病死率高及預后差等特點,順鉑和5-氟尿嘧啶(5-FU) 的標準化療方案中位生存時間為201.5 d,1年生存率為27.8%[7]。近年來,伴隨測序技術(shù)的進步,基因圖譜和基因芯片在科研領(lǐng)域得到了廣泛的應(yīng)用,促進了對包括ESCC在內(nèi)的腫瘤異質(zhì)性理解,并為識別新的癌癥基因和預后生物標志物提供一個強有力的方法[8]。如研究表明CCND1、CTTN、EGFR、TP63和CDKN2A[9]與ESCC密切相關(guān),ANO1可能與ESCC的預后生物標志物[10]。但目前ESCC發(fā)病的分子機制尚未明確,迫切需要找到可用的潛在生物標志物,生物信息學可幫助探索基因?qū)用姘l(fā)生的變化、識別潛在的生物標志物。
本研究從GEO數(shù)據(jù)庫中篩選出GSE17251和GSE45670兩個芯片數(shù)據(jù)集,共納入33例ESCC組織及15例正常食管組織。通過GEO2R和Venn軟件發(fā)現(xiàn)86個共有 DEG,包括54個上調(diào)DEGs和32個下調(diào)DEGs。在GO分析及KEGG分析中,主要富集在細胞增殖的調(diào)控、細胞周期、細胞分化、DNA復制、PI3K-Akt信號通路、轉(zhuǎn)化生長因子-β(TGF-β)信號通路、卵母細胞減數(shù)分裂等方面。食管鱗狀細胞癌的演變是一個多步驟的過程,細胞損傷的累積可導致細胞增殖異常及基因不穩(wěn)定性,細胞周期失控、細胞分化異常是惡性腫瘤的標志,在腫瘤的致癌或進展過程中發(fā)揮重要作用,如TP53、CDKN2A基因突變與早期食管腫瘤細胞分化相關(guān)[11],NF750和NOTCH1的突變可影響食管鱗狀細胞的成熟導致癌變[12],HERG1基因可通過影響PI3K/AKT信號通路促進ESCC細胞增殖、遷移和侵襲[13]。
通過SPRING及Cytoscape3.6.0軟件插件構(gòu)建DEGs的蛋白互作網(wǎng)絡(luò)圖,發(fā)現(xiàn)27個高表達的核心基因,經(jīng)GEPIA分析并通過UALCAN驗證CKDN3、KIF4A在ESCC組織的高表達提示預后狀態(tài)不良。CDKN3基因?qū)儆?CDC14s家族,位于染色體位置14q22,包含21個氨基酸,相對分子質(zhì)量23×103,是一種雙特異性磷酸酶蛋白,可對磷酸化絲氨酸/蘇氨酸發(fā)揮去磷酸化作用調(diào)控細胞周期進程,既往在多種腫瘤中報道,不同類型腫瘤組織中發(fā)揮不同作用,不僅參與細胞周期調(diào)控,對細胞凋亡及侵襲遷移能力也有影響[14]。其作為促癌基因在肺癌、宮頸癌、肝癌中CDKN3高表達提示預后不良[15],在診斷方面,CDKN3高表達識別宮頸癌組織的靈敏度達93%,特異度達96%[16],但在ESCC中的生物學功能尚不清楚。YU等[17]研究報道CDKN3在ESCC細胞系中表達上調(diào),通過激活ESCC細胞的AKT信號通路促進細胞增殖和侵襲。CDKN3敲除可降低ESCC細胞的增殖、侵襲和遷移能力,抑制細胞G1/S期轉(zhuǎn)化,與LIU等[16]實驗結(jié)果一致,其可通過AKT-p53-p21通路促進ESCC細胞增殖侵襲。KIF4A屬于驅(qū)動蛋白家族4(KIF4),參與紡錘體組織、染色體排列,在細胞有絲分裂、DNA損傷修復、腫瘤發(fā)生、發(fā)展發(fā)揮重要的作用,在乳腺癌、肺癌、肝癌[18-20]等多種腫瘤組織中高表達,并可作為非小細胞肺癌、乳腺癌的預后因素[18-19],F(xiàn)OXM1通過調(diào)節(jié)KIF4A的表達促進肝細胞癌的進展[20],但缺乏ESCC中的生物學功能研究。
綜上所述,本研究通過生物信息學分析在不同的微陣列數(shù)據(jù)集的基礎(chǔ)上識別出ESCC組織和正常食管組織之間的兩個DEGs(CKDN3、KIF4A)在ESCC的發(fā)生、轉(zhuǎn)移中作用,在基因?qū)用鏋閷ふ倚碌姆肿影悬c提供了一定的支持,也為實現(xiàn)ESCC的精準治療提供了一個新思路,但還需進一步進行實驗以驗正相關(guān)結(jié)果。