董周威 王啟威 張麗萍 林麗紅 徐 丹
喉癌的發生率在呼吸道腫瘤中位居第2位,僅次于肺癌,每年新增病例超過15萬,大多數的喉癌患者處于臨床Ⅲ期和Ⅳ期才被發現,喉癌的發生率和病死率較高,這就要求通過有針對性的篩查尋找用于喉癌早期診斷的分子標志物和治療靶點[1]。喉癌的病因復雜,與環境和生活方式有關,如吸煙、飲酒、接觸有毒物質、飲食習慣、輻射、乳頭狀瘤病毒感染和咽喉返流等[2]。喉癌的治療方式在過去幾年發生了巨大的變化,放射治療和外科手術方法進行了很大的改進,還出現了新的靶向治療方法,多種治療方案綜合運用有利于提高喉癌患者的總生存率[3]。然而,如何選擇最合理的治療方案仍然是一個亟待解決的問題。盡管喉癌相關的研究很多,但分子標志物目前還沒有用于喉癌患者的診斷、治療和管理。因此,研究喉癌發生、發展的分子機制,制定有效的診斷和治療策略尤為重要。在過去的幾十年中,微陣列技術和生物信息學分析被廣泛應用于基因水平的癌癥研究,通過臨床大數據篩選出與腫瘤發生、發展和預后密切相關的基因,有助于識別喉癌發生、發展過程中的差異表達基因和功能途徑。本研究從GEO數據庫中下載并分析了2個微陣列數據集,以獲得喉癌組織和非癌組織之間的差異基因。隨后,進行了GO和KEGG途徑富集分析和PPI網絡分析,以幫助了解喉癌發生和發展的分子機制,然后再利用TCGA數據庫驗證結果,并對關鍵基因進行深入分析,共鑒定出218個差異基因和8個關鍵基因,為喉癌早期診斷提供了新的分子標志物及靶向治療提供新的靶點。
1.研究對象:從美國國立生物信息中心(NCBI)的GEO據庫(www.ncbi.nlm.nih.gov/geo)中搜索基因芯片數據集,篩選標準:①數據集為喉鱗狀細胞癌全基因組芯片;②具有癌組織與正常組織;③樣本數≥20。基于以上篩選標準,基因芯片數據集GSE51985和GSE59102納入研究。GSE51985共有20例組織樣本,包括10例喉鱗狀細胞癌組織樣本和10例正常組織樣本;GSE59102共有42例組織樣本,包括29例癌組織樣本和13例正常組織樣本。
2.數據處理與基因篩選:利用GEO數據庫中GEO2R(https:∥www.ncbi.nlm.nih.gov/geo/ geo2r/)在線分析工具對數據庫中的GSE51985和GSE59102基因芯片進行數據處理;本研究以喉鱗狀細胞癌組織為實驗組,正常組織為對照組,以P<0.01且|log2FC|>2為標準篩選出顯著差異表達基因,2個數據集差異分析結果繪制韋恩圖取并交集。
3.差異基因GO功能注釋和KEGG通路富集分析:利用DAVID6.8數據庫(https:∥david.ncifcrf.gov) 對差異基因進行GO和KEGG通路富集分析,分析差異基因的功能和作用途徑。GO富集分析主要從生物過程(biological process,BP)、細胞組分(cellular component,CC) 和分子功能(molecular function,MF)3個方面對差異基因進行全面的注釋。以P<0.05為差異有統計學意義,利用Prism8使其結果可視化。
4.PPI網絡構建與模塊分析:將差異基因導入STRING(11.0版)(http:∥string-db.org)在線數據庫預測蛋白互作網絡,進一步探索喉癌的發生和發展機制,置信度閾值>0.4被認為差異有統計學意義。利用Cytoscape(3.7.2版)軟件將結果可視化,繪制PPI網絡。用MCODE插件識別PPI網絡中最重要的模塊。選擇標準為:MCODE評分>5,Degree Cutoff=2,Node Density Cutoff=0.1,Node Score Cutoff=0.2,K-Core=2,Max Depth=100。隨后,使用DAVID對該模塊中的基因進行KEGG和GO分析。
5.關鍵基因的篩選與分析:利用Cystoscape軟件內cytoHubba網絡分析插件篩選關鍵基因,采用親和度、貢獻度、最大集團中心3種不同計算方法,每種算法中選取節點中排名前20個基因,取3個結果的交集,篩選關鍵基因。將關鍵基因輸入GEPIA2.0(http:∥gepia2.cancer-pku.cn)尋找相似基因,保留每個關鍵基因前20個相似基因,將所有相似基因輸入Metascape(http:∥metascape.org/)進行富集分析,分析這些基因及共表達網絡,P<0.05,Min Enrichment>3,Min Overlap>3被認為差異有統計學意義。
6.關鍵基因與腫瘤相關性分析:利用在線數據庫Oncomine(http:∥www.Oncomine.com)分析關鍵基因與腫瘤相關性分析,比較關鍵基因在腫瘤組織與正常組織的差異,P<0.01,Fold Change>1.5,被認為差異有統計學意義。從TCGA數據庫(https:∥portal.gdc.cancer.gov/)下載喉癌相關的數據的基因表達信息和臨床信息,對數據集進行篩選,共篩選出喉癌相關樣本112例,并將臨床資料與基因表達信息整合,對關鍵基因進行正常組織與喉癌組織比較,使用GraphPad Priserm 8.0軟件進行t檢驗,以P<0.05為差異有統計學意義。同時將關鍵基因表達從低到高排序,取中位數為節點,將患者分為低表達組和高表達組,應用GraphPad Priserm8.0進行Log-RankTest生存分析,分析關鍵基因表達與喉癌預后關系,以P<0.05為差異有統計學意義。
1.差異表達基因篩選:利用GEO2R在線分析工具對基因芯片數據集GES51985和GSE59102進行數據處理分析。GES51985共篩選出差異基因585個,上調基因233個,下調基因352個;GSE59102共篩選出差異基因848個,上調基因345個,下調基因503個;兩個數據集之間取交集,篩選出差異基因218個,如韋恩圖所示(圖1),其中上調基因86個,下調基因132個。

圖1 GSE59102與GSE51985差異基因韋恩圖
2.差異基因的KEGG和GO富集分析:為了分析差異基因的生物學功能,筆者使用DAVID數據庫進行了功能和途徑富集分析。GO分析結果表明,BP變化在細胞黏附、蛋白質分解、細胞增殖的正調控等方面顯著富集(圖2A)。CC的變化主要集中在細胞外區、胞外體、細胞外間隙等(圖2B)。MF的變化主要集中在絲氨酸型內肽酶活性、肝素結合、結構分子活性組成等(圖2C)。KEGG途徑分析顯示,差異基因主要富集于唾液分泌、局灶性粘連、ECM受體相互作用、細胞周期等途徑(圖2D)。
3.PPI網絡構建與模塊分析:將STRING數據庫分析得到的PPI網絡數據文件導入Cytoscape軟件,構建了可視化的差異基因PPI網絡,并使用MCODE插件識別PPI網絡中最重要的模塊。使用DAVID對該模塊中涉及的基因進行功能分析,結果顯示主要集中在在細胞周期、ATP結合、DNA復制起點結合等生物過程中(圖3)。

圖2 差異基因GO和KEGG功能富集分析

圖3 PPI網絡中重要的模塊
4.關鍵基因的選擇與分析:利用Cystoscape軟件內cytoHubba插件篩選關鍵基因,篩選出CHEK1、SERPINE1、SPP1、COL1A1、FOXM1、MMP9、CXCL12和MMP1共8個關鍵基因。將關鍵基因輸入GEPIA尋找相似基因,將所有相似基因輸入Metascape進行富集分析,主要富集于細胞外組織結構、PID整合素1途徑、有絲分裂染色體分離等(圖4)。

圖4 關鍵基因Metascape富集分析
5.關鍵基因與腫瘤相關性分析:在線數據庫Oncomine分析關鍵基因與腫瘤相關性分析,8個關鍵基因均與多種腫瘤密切相關,除CXCL12外,其他基因均在多數癌癥中呈高表達(圖5)。利用TCGA數據分析喉癌組織與正常組織中關鍵基因的表達,僅CXCL12表達值明顯下降,其余均呈高表達,結果差異均有統計學意義(圖6)。對關鍵基進行生存分析,筆者研究發現COL1A1和MMP1的表達與總生存率顯著相關(圖7)。

圖5 關鍵基因與腫瘤相關性分析

圖6 關鍵基因腫瘤組織與正常組織表達差異分析

圖7 關鍵基因生存分析
近幾十年來對喉癌分子生物學的研究越來越多,CD14與喉癌易感性相關, microRNA-203抑制喉癌細胞侵襲并誘導凋亡, TUG1可促進喉癌的增殖、遷移和侵襲等[4]。然而,喉癌患者的生存率仍然沒有明顯的提高。很多患者早期沒能及時發現,這可能是喉癌預后不良的原因之一。因此,使用分子標志物作為預測因素來確定患者的治療方式,開發與分子標志物相結合的新治療模式,以便在這些患者中選擇性地應用精準治療,將有可能成為提高喉癌患者生存率的有效措施之一。
在本研究中,筆者分析了2個GEO數據集,共鑒定篩選出差異基因218個。GO和KEGG富集分析用于探索差異基因之間的相互作用,發現了一些與喉癌發生機制有關的生物學過程,已有研究表明,細胞增殖的正調控與喉癌的發生、發展相關, Beta4亞基通過EMC相互作用途徑調節喉癌的發生與發展[5]。PPI能夠幫助從蛋白互作模型以及拓撲學的角度探究喉癌的分子機制,發現潛在的治療靶點。筆者利用Cytoscape中的插件MCODE識別PPI網絡中最重要的模塊。根據Cytoscape中的連接數據,MCODE可以發現PPI網絡中相互作用的高密度區域,這個高密度區域有更高的概率參與到生物調節中,而那些輕度連接的節點不會在整個網絡的完整性中發揮關鍵作用,這個函數不會因高通量技術帶來高假陽性影響。筆者對MCODE中發現的重要模塊相關基因進行再次富集,發現其信號通路主要集中在細胞周期,有研究表明細胞周期過程的失調在腫瘤的發生、發展中起著重要作用,MIR31HG通過HIF1A和p21調控喉癌細胞周期進程,黃腐酚可以抑制喉癌細胞周期進展和增殖, 薯蕷素通過誘導細胞周期阻滯從而抑制喉癌侵襲[6~9]。由此可見,細胞周期的調節在喉癌的發生、發展中同樣扮演著重要的角色,是喉癌主要的發生機制之一,這些理論與筆者的結果是一致的。
同時筆者還發現了一些新的途徑,如細胞外基質分解、表皮發育、有絲分裂細胞周期G2/M轉換等。有研究報道密集的細胞外基質往往會導致腫瘤對放療的抵抗, 與表皮發育有重要關系的表皮生長因子受體(EGFR)的表達可作為喉部鱗狀細胞癌的獨立預后因素,EGFR與病程的相關性及其對生存的影響使EGFR表達成為喉癌不良的預后因素, 有絲分裂細胞周期G2/M轉換在結直腸癌的發生、發展中發揮了重要的作用, 喉癌細胞存活率的下降被發現是由于細胞凋亡的誘導和G2/M細胞周期阻滯[10~13]。如果能夠識別這些途徑的具體作用過程,無論是在降低患者病死率和保護喉功能,還是在提高患者生存質量方面都可能獲益,可能鑒定出喉癌診斷的金標準,有可能成為喉癌臨床治療的轉折點。
Cytoscape中的cytoHubba,主要用于通過其網絡功能對網絡中的節點進行排名。CytoHubba提供11種拓撲分析方法,包括貢獻度、邊緣滲透分量、最大鄰域分量、最大鄰域分量密度、最大集團中心度和6個中心點(瓶頸分析、偏心率、親和度、輻射度、中間性和應力)。在11種方法中,最大集團中心的分析方法在從PPI網絡預測必需蛋白質的精度上具有更好的性能。也有研究發現,一個蛋白的貢獻度與其基因的重要性密切相關,具有高貢獻度的蛋白更傾向于是關鍵蛋白,計算親和度的方法也是近年來預測關鍵基因經常采用的方法。因此筆者采用親和度、貢獻度、最大集團中心3種不同計算方法,每種算法中選取節點中排名前20個基因,取3個結果的交集,篩選關鍵基因,共篩選出CHEK1、SERPINE1、SPP1、FOXM1、MMP9、CXCL12、COL1A1和MMP1共8個關鍵基因。
CHEK1是基因組監視途徑的核心組成部分,是細胞周期和細胞存活的關鍵調控因子,影響細胞周期的各個階段,包括S期、G2/M期和M期,還參與DNA修復過程、基因轉錄、胚胎發育,p21活化激酶-4通過CHEK1能夠抑制喉癌細胞增殖,可以作為喉癌治療的新靶點[14]。SPP1也是一種細胞因子,可上調干擾素γ和白細胞介素-12的表達,與喉癌的放療敏感度有關,在預測放射治療效果方面有重要作用[15]。FOXM1的表達與多種人類腫瘤的進展及預后有關,調節細胞周期相關基因cyclinB1、cyclinD1、cdc25的表達,從而促進宮頸癌的進展, 同時FOXM1還可以抑制喉鱗癌生長及誘導凋亡[16]。 CXCL12來源于骨髓基質細胞,其生物學功能有介導免疫反應,對造血干細胞增殖、分化起重要作用,促進惡性腫瘤血管形成及轉移,有研究表明CXCL12可促進喉鱗狀細胞癌的轉移[17]。SERPINE1作為組織纖溶酶原激活劑的誘餌,用于調節纖維蛋白溶解,許多研究表明SERPINE1可作為促腫瘤發生因子的影響因素,與結直腸癌、肺癌、口腔鱗狀細胞癌、胃癌、胰腺癌有關,可作為腫瘤診斷、治療和預后的重要生物學標志物[18]。COL1A1為Ⅰ型膠原α1,是Ⅰ型膠原的重要組成部分,近年來研究發現在多種腫瘤組織和細胞中有過表達,COL1A1通過調節WNT/PCP通路促進結直腸癌轉移,具有抗輻射作用,其表達水平與放射敏感度呈負相關,COL1A1的激活可以抑制宮頸癌細胞的凋亡[19]。MMP1和MMP9均屬基質金屬蛋白酶家族,可降解細胞外基質中的膠原纖維和明膠及改變細胞的微環境,從而有利于腫瘤的侵襲和轉移,作用于腫瘤發生的初始階段有利于腫瘤形成。有研究表明,MMP1可能作為喉癌獨立的預后預測因子,也是超聲心動圖早期診斷喉癌的潛在探針,MMP9是吸煙相關性喉癌的易感基因[20,21]。
利用Oncomine數據庫數據分析關鍵基因與腫瘤相關性的過程中,筆者發現除CXCL12外,其他基因均在多數癌癥中呈高表達,尤其是頭頸部腫瘤中,僅CXCL12呈低表達,這些關鍵基因可區分喉癌和非癌組織,可以成為喉癌診斷的分子標志物。利用TCGA數據庫對關鍵基進行生存分析,分析關鍵基因表達與喉癌預后的關系。CHEK1、SSP1、MMP9、CXCL12、FOXM1、SERPINE1與生存無明顯關系,COL1A1和MMP1與患者總生存率相關,其中COL1A1基因低表達組患者生存率明顯高于高表達組,MMP1高表達組生存率明顯高于低表達組生存率,提示這些基因可能在喉癌的發生、發展、侵襲或復發中起重要作用。已有研究表明COL1A1是一種腫瘤蛋白,可作為早期胃癌篩查的監測因子,COL1A1和COL1A2是預測胃癌患者臨床預后的重要標志[22]。喉癌中與COL1A1相關的功能研究未見報道,進一步探討COL1A1在喉癌中的作用,可以作為探討膠原功能的一個起點,使對喉癌的認識增加一個新的維度,有助于癌癥生物學家和臨床腫瘤學家制定新的治療策略。
綜上所述,生物信息分析方法可為未來喉癌基因組個體化診斷和治療提供有力證據,利用基因芯片表達譜數據分析得到的核心基因所富集的功能與通路說明喉癌的發生、發展是一個多基因參與、表達異常導致細胞無限增殖的復雜過程。關鍵基因有利于早期診斷喉癌,COL1A1、MMP1在喉癌組織中的表達與患者預后明顯相關,未來筆者將開展深入的基礎實驗及臨床研究證實其作為評判預后和分子靶向治療靶標的價值。