趙乾
(石家莊工商職業學院,河北石家莊 050091)
食管癌是一種常見的消化道惡性腫瘤。盡管從1990年至今,我國食管癌死亡率呈現下降趨勢,但是由于人口基數較大,因食管癌死亡人數仍較多,以2015年為例,因食管癌死亡的人數達202 042人[1]。同時,我國的食管癌發病率也遠高于發達國家,值得注意的是,食管鱗狀細胞癌(Esophageal Squamous Cell Carcinoma,ESCC)是我國食管癌的主要類型,約占90%[2]。ESCC在早期難以被人察覺,而當出現明顯癥狀(吞咽疼痛、胸骨后疼痛、慢性出血等)時,通常已經處于晚期階段,常規的手術、放療、化療等治療手段難以有效干預癌癥進程[3]。越早發現和治療,癌癥干預效果越好,因此鑒定和發展新的用于診斷和治療的靶標分子是目前的研究熱點。
隨著高通量測序技術的發展和開源政策的出現,大量的測序數據,如芯片數據、轉錄組數據等,被存放在 NCBI(National Center for Biotechnology Information)的GEO(The Gene Expression Omnibus)數據庫中,可以更高效地利用和整合組學數據,不僅能夠節約成本,還可以深入挖掘這些開源數據,探求生物學過程的機制和靶點。
本研究基于生物信息學方法分析食管鱗狀細胞癌的芯片數據集,從理論上分析預測可能的分子機制,為尋找潛在的食管癌診斷標記物提供一定的理論基礎。
以“esophageal”為關鍵詞在GEO數據庫中進行檢索,獲得編號為GSE17351的芯片數據,該數據由LEE等[4]提交,包含ESCC樣本和正常樣品各5個(登記號:GSM433786~GSM433795)。
1.2.1 差異表達基因篩選與可視化
在GEO數據庫界面檢索到GSE17351數據集基本信息符合要求后,在RStudio中通過來自“GEOquery”包(版本2.26.2)的getGEO()函數進行數據集表達矩陣構建。隨后對表達數據進行處理,包括質量控制、標準化等。此外,需要將探針和基因ID對應,去除無效探針。對于一個基因對應多個探針的情況,選擇最大值對應的探針代表該基因。最終,基于經驗貝葉斯方法和“limma”包提供的線性回歸方法,鑒定ESCC和對照組之間的差異表達基因(篩選標準為P<0.05且|log2[FC]|≥1.5)。
1.2.2 差異表達基因的GO富集分析和KEGG富集分析
基于“clusterProfiler”包(版本4.2.2),分別對上調基因和下調基因進行GO富集分析和KEGG通路富集分析,并進行注釋及可視化。
1.2.3 差異表達基因的PPI網絡分析和Hub基因篩選
將差異表達基因輸入STRING(https://string-db.org/),獲得PPI網絡。將輸出文件導入Cytoscape軟件(版本3.9.1)中,使用MCODE插件獲取主要的PPI網絡,使用Cytohubba插件鑒定前10位Hub基因。
如圖1所示,ESCC腫瘤樣本和正常樣品之間的差異表達基因共計1 058個,其中表達譜上調的基因479個,表達譜下調的基因579個。

圖1 食管鱗狀細胞癌差異表達基因火山圖
GO富集分析包括生物學過程(Biological Process,BP)、分子功能(Molecular Function,MF)和細胞組成(Cell Composition,CC)。分別對顯著性排名前十的上調基因和下調基因進行GO富集分析和KEGG通路分析,從而探究表達增加和減少的基因集中參與到哪些重要的生物學事件中。
上調基因GO富集結果見表1。BP中差異基因主要富集于有絲分裂中細胞質分裂和細胞核分裂的相關過程;MF中差異基因主要富集于細胞外基質結構成分、酶活性(ATP酶、解旋酶和金屬內肽酶)和馬達活性;CC中差異基因主要富集于染色體、著絲粒和膠原纖維。很顯然,上調基因的特性都指向了細胞分裂,包括DNA復制、染色體形成和分離、細胞骨架的組織和牽引及胞外環境的準備。與GO結果一致,KEGG通路分析表明(見表2)信號通路主要集中在細胞周期、蛋白質消化吸收和ECM受體相互作用。

表1 食管鱗狀細胞癌上調基因GO富集結果

表2 食管鱗狀細胞癌上調基因 KEGG通路分析結果
下調基因GO富集結果見表3。BP中差異基因主要富集于肌肉細胞分化和運動、類二十烷代謝、角質化和動脈導管閉合過程;MF中差異基因主要富集于酶活性(單加氧酶、芳香酶和氧化還原酶)、肌動蛋白結合和肌肉結構成分、細胞外基質結構成分及肝素結合;CC中差異基因主要富集于肌肉纖維有關的部位。很顯然,下調基因的特性都指向了肌肉細胞的分化和功能,包括肌肉運動和類二十烷代謝。與GO結果一致,KEGG通路分析表明(見表4)信號通路主要集中在花生四烯酸代謝。癌癥前期的發生需要分化成熟的細胞脫分化以具備分裂能力,數據分析結果與預期一致。

表3 食管鱗狀細胞癌下調基因GO富集結果

表4 食管鱗狀細胞癌下調基因KEGG通路分析結果
中國人ESCC主要組織學發病模式為“正常→各級癌前病變(基底細胞過度增生、不典型增生、原位癌)→早期浸潤鱗癌”,而主要危險因素是維生素缺乏(特別是核黃素、維生素A和葉酸等)和亞硝胺暴露[2]。目前,中晚期ESCC的治療效果不理想,表現為5年生存率低,預后不佳。此外,食管癌對患者的生活質量影響明顯,并且會出現多種并發癥,如惡病質、嘔血、喉返神經麻痹及吸入性肺炎等[1-3]。因此,研究食管癌發生的分子機制,找尋早期階段的分子標記物,通過早篩查早診治的方式來幫助患者意義重大。
結合基因芯片大數據的生物信息學分析,共篩選出差異表達基因1 058個。上調基因主要與細胞分裂有關,反映了正常細胞出現了分裂異常,從而演化成具有增殖能力的腫瘤細胞的過程。下調基因的特性都指向了肌肉細胞的分化和功能,包括肌肉運動和二十烷酸代謝,符合食管癌的特征。(1)食管主要由環節肌層(內層)和縱行肌層(外層)組成,這兩種肌肉的收縮蠕動使食物進入胃。因此,癌變涉及的主要細胞類型是肌肉細胞,逐步脫分化并失去肌肉細胞的特性,即下調基因富集到肌肉細胞相關特性意味著細胞逐步喪失了肌肉的特性。(2)二十烷酸代謝在肌肉和血液中具有重要作用,可產生一系列生物活性物質,如前列腺素E2(PGE2)、前列腺環素(PGI2)、血栓烷素A2(TXA2)和白細胞三烯,對脂質蛋白的代謝、血管彈性、白細胞功能等具有重要的調節作用。因此,這些類型的基因下調,意味著肌肉功能和免疫功能的失調。
ESCC和癌旁組織之間的差異基因構建的PPI網絡的三個主要模塊如圖2所示。模塊1(圖2A)富集了CDC、CDK和CENP基因家族的成員,暗示了其在細胞分裂方面的功能;模塊2(圖2B)富集了整聯蛋白基因和膠原蛋白基因,表明了該模塊可能參與到細胞黏著和通訊方面的過程;模塊3(圖2C)中同樣包含了較多的膠原蛋白基因家族成員,但更重要的是它含有MMP基因家族,這一家族成員作為基質金屬蛋白酶,可以降解細胞外基質,從而介導腫瘤血管生成、轉移和侵襲。PPI網絡中的連接程度前10位Hub基因如圖3所示,分別是TOP2A(TopoisomeraseⅡ Alpha)、TPX2(Targeting Protein for Xenopus Kinesin-Like Protein 2)、KIF2C(Kinesin Superfamily Protein 2C)、AURKB(Aurora B Kinase)、KIF20A(Kinesin Superfamily Protein 20A)、KIF23(Kinesin Superfamily Protein 23)、NCAPG(Non-SMC CondensinⅠ Complex Subunit G)、CDCA8(Cell Division Cycle Associated 8)、BUB1B(BUB1 Mitotic Checkpoint Serine/Threonine Kinase B) 和 CENPF(Centromere Protein F)。

圖2 差異表達基因PPI網絡模塊

圖3 PPI網絡篩選的前十位的hub基因
通過建立基因表達網絡,篩選出3個主要的網絡和10個節點基因。其中,10個節點基因都和細胞分裂過程相關,并且被報道參與多種癌癥的發生過程。TOP2A是一種依賴ATP的具有DNA切割能力的泛酶,參與到DNA復制、染色體分離、染色質濃縮及基因表達等過程。TOP2A在ESCC中的表達水平顯著低于癌旁組織,并且該基因的表達情況是影響患者預后的危險因素[5]。KIF超家族是一類分子馬達,包括14個亞家族的45個成員。KIF主要參與細胞器、蛋白質復合物、mRNA的運輸及有絲分裂和減數分裂過程中染色體和紡錘體的運動等。KIF超家族中,有多個成員已經被報道參與鱗癌的發生發展,如KIF14和KIF15在食管鱗癌細胞中的表達水平顯著高于正常食管上皮細胞Het-1A,KIF14和KIF15的siRNA能顯著下調食管鱗癌Eca109細胞中KIF14和KIF15蛋白的表達,并因此顯著抑制食管鱗癌Eca109細胞的增殖[6-7]。TPX2即Xklp2靶蛋白,該基因參與有絲分裂過程中紡錘體的形成和中心體的成熟,在多種癌癥組織中高表達。TPX2在食管癌組織中的表達顯著高于食管癌旁上皮及正常上皮組織,且表達水平與食管癌的淋巴結轉移和浸潤深度相關(P<0.01)[8]。AURKB是一種絲氨酸/蘇氨酸激酶,是有絲分裂過程的關鍵調節酶之一。AURKB受到miR-24-1-5p的調控,參與到鱗癌的早期發生及與香煙有關的鱗癌的發生[9]。
此外,NCAPG負責減數分裂和有絲分裂過程中染色體的凝聚和穩定,在多種惡性腫瘤中高表達,通過調控腫瘤細胞周期、細胞衰老和錯配修復等在腫瘤的侵襲、轉移、凋亡及耐藥等過程中發揮重要作用[10]。CDCA8是一種細胞周期調節基因,因此在正常組織中應低表達或微弱表達,但在許多癌癥中均能發現CDCA8過表達的現象[11]。BUB1B是紡錘體檢驗蛋白,具有絲/蘇氨酸激酶活性,在喉鱗癌組織中低表達,受甲基化調控,與癌癥發生過程中的中心粒異常有關[12]。CENPF是著絲粒蛋白的一個亞型,它的缺失會造成有絲分裂缺陷,包括紡錘體無法正常組裝、染色體非正常排列和分離甚至導致細胞死亡;CENPF功能的發揮取決于法尼基化修飾,CENPF的過表達則可能導致腫瘤的發生,通過法尼基轉移酶抑制劑(Farnesyltransferase Inhibitor,FTI)處理細胞可以抑制腫瘤細胞的增殖[13]。
本研究分析并確定與ESCC發病相關的基因及其相關的信號通路,發現上調基因主要與細胞分裂有關,下調基因主要影響肌肉細胞的分化和功能,其中10個節點基因都和細胞分裂過程相關。但這些基因在腫瘤發生過程中的作用階段和作用機制仍有待于進一步的研究確定,本研究為ESCC的早期診斷和治療提供理論基礎。