閆莉莉,陸 進
(1.阜陽市人民醫院感染科,安徽 阜陽 236000;2.蚌埠醫學院人體解剖學教研室,安徽 蚌埠 233030)
肝細胞癌(HCC)是全球范圍內發病率和死亡率較高的一種惡性腫瘤,而我國HCC患者的發病率與死亡率居全球前列,且以病毒性肝炎、肝硬化以及酒精肝等原因為主[1-2],其中由HBV感染引起的比例達80%[3-4]。HCC早期診斷困難,治療效果不佳,復發率高,總體生存預后不良[5]。雖全球各地的研究者對HCC進行了深入研究,但其發生發展的主要機制尚未徹底闡明。故進一步研究其發病機制,對HCC患者進行早期診斷、治療和判斷生存預后具有十分重要的臨床意義。而利用基因組學和生物信息學的方法,通過大數據篩選HCC發病過程中的關鍵基因,可為其在分子水平的研究提供依據。
1.1 材料從基因表達匯編(Gene Expression Omnibus,GEO)數據庫下載HCC芯片GSE121248(其中癌旁組織37例,肝癌組織70例),進行差異表達分析。
1.2 方法
1.2.1 差異基因分析 采用GEO(https://www.ncbi.nlm.nih.gov/geo/)在線分析工具GEO2R對GSE121248芯片數據進行分析,同時利用SangerBox軟件對下載的基因數據進行火山圖繪制,并進行DEGs分析,DEGs分析篩選條件為P<0.01且|FC(Fold Change)|≥2。
1.2.2 差異基因的功能和通路富集分析 利用在線分析工具MetaScape[3](http://metascape.org/gp/index.html)對所篩選出的DEGs進行GO功能注釋和KEGG通路富集分析,條件設定默認狀態。
1.2.3 差異基因的蛋白互作網絡分析和關鍵基因篩選 利用String(https://string-db.org/)在線分析工具對所篩選出的DEGs進行PPI網絡分析;利用Cytoscape軟件CytoHubba插件的MCC算法,獲取連接度最高的前10個Hub基因。
1.2.4 Hub基因對HCC患者的生存預后分析 利用Kaplan-Meier Plotter[4](http://kmplot.com/analysis/)生存分析數據庫對篩選出的10個Hub基因對HCC患者的預后進行總體生存(Overall Survival,OS)分析。
1.2.5 Hub基因在HCC中表達程度分析 利用GEPIA[5](Gene Expression Profiling Interactive Analysis,GEPIA;http://gepia.cancer-pku.cn/)數據庫對HCC患者總體生存有意義的Hub基因進行基因表達程度分析。
1.2.6 Hub基因在HCC中的突變和共表達分析 利用cBioPortal數據庫(http://www.cbioportal.org/)對Hub基因在肝癌組織中的基因突變、共表達關系和基因突變與生存預后關系進行分析。
2.1 HCC的DEGs分析從GEO數據庫下載的基因芯片GSE121248,對下載數據做火山圖繪制(圖1)。通過條件篩選共得到186個顯著的DEGs,其中表達上調的有38個,表達下調的有148個。

圖1 DEGs表達火山圖
2.2 HCC DEGs的GO和KEGG富集分析使用MetaScape數據庫對DEGs的GO和KEGG富集進行分析表明,DEGs的GO功能主要富集在細胞激素代謝過程、細胞對異生素刺激的反應、單羧酸代謝過程、調節紡錘體微管與動粒的附著、小分子分解代謝過程、核苷酸代謝過程、有機羥基化合物代謝過程、成纖維細胞增殖的正調節、糖胺聚糖結合、有絲分裂細胞周期G2/M轉換的正調節等;KEGG主要富集在視黃醇代謝、p53信號通路、細胞因子與細胞因子受體相互作用、癌癥中的蛋白多糖、色氨酸代謝、膽汁分泌等通路上(圖2)。

圖2 GO和KEGG富集分析圖
2.3 HCC的DEGs的蛋白互作網絡分析和Hub基因篩選利用String在線網絡分析數據庫對DEGs進行PPI網絡分析,得到PPI網絡圖(圖3);利用Cytoscape軟件CytoHubba插件的MCC算法進行Hub基因篩選,得到鏈接度高的前10個Hub基因,并且這些Hub基因的得分相同,排名并列第一,均呈明顯高表達(表1、圖4)。

圖3 PPI網絡分析

表1 MCC算法的前10個Hub基因

圖4 Hub基因
2.4 Hub基因對HCC患者生存預后分析利用Kaplan-Meier Plotter數據庫對篩選出的前10個Hub基因進行在線生存分析,發現10個Hub基因對HCC患者總體生存均有顯著的統計學差異意義(P<0.05)。高表達組較低表達組可顯著縮短HCC患者總體生存時間(圖5)。

圖5 Hub基因對HCC患者的生存分析
2.5 Hub基因在肝癌組織中的表達量分析利用GEPIA數據庫對HCC患者總體生存有意義的基因進行基因表達量分析,發現10個Hub基因在HCC中較癌旁組織均高表達,且具有明顯的統計學意義(P<0.05)(圖6)。

圖6 Hub基因在HCC中的表達量
2.6 Hub基因在HCC組織中的共表達關系通過數據庫分析發現,10個Hub基因在HCC癌組織中均存在一定的基因突變情況(圖7)和共表達關系,并且共表達關系具有顯著的統計學意義(P<0.05)(表2)。Hub基因的突變對HCC患者的總體生存預后沒有顯著的統計學差異,但可影響HCC患者的無病生存時間,顯著縮短HCC患者的無病生存時間(圖8),不利于HCC患者的生存預后。

圖7 Hub基因在HCC中的突變情況

圖8 Hub基因的突變與HCC患者生存預后的關系

表2 Hub基因的共表達關系
HCC是一種由多種致病因子、環境因素及遺傳因素共同參與形成的惡性腫瘤,其發病呈慢性隱匿,形成機制復雜,早期診斷困難,并且一經發現常處于中晚期,臨床治療效果不佳,患者生存預后差[6]。利用基因組學和生物信息學相結合的方式來研究HCC的可能致病基因是目前一種新的研究手段。通過腫瘤大數據分析的方式,從大量的研究數據中提取HCC的DEGs,進一步對DEGs做GO功能注釋和KEGG通路富集分析,篩選出致癌的Hub基因,并對Hub基因在HCC癌組織中的表達量、基因突變、共表達關系和對HCC患者的生存預后做進一步分析,預測HCC的可能癌基因,為臨床HCC的早期診斷、治療和判斷患者生存預后提供依據。同時,利用這種方式亦可以減少因各地研究水平不一而導致假陽性出現的概率,提高循證醫學證據力度。
本研究結果顯示,從GEO數據庫下載的GSE121248芯片經過GEO2R在線分析工具進行數據分析,共得到186個DEGs,這些DEGs的GO功能主要富集在小分子分解代謝過程、核苷酸代謝過程、糖胺聚糖結合、有絲分裂細胞周期G2/M轉換的正調節等,而KEGG主要富集在視黃醇代謝、P53信號通路、癌癥中的蛋白多糖等通路上。利用String在線網絡分析數據庫對DEGs進行PPI網絡分析,再利用Cytoscape軟件CytoHubba插件的MCC算法進行Hub基因篩選,得到連接度較高的前10個Hub基因,包括,BUB1B、CCNB1、CDK1、CDKN3、DTL、ECT2、HMMR、NEK2、RACGAP1和TOP2A,且這些Hub基因的得分相同,均明顯高表達,排名并列第一。國內外亦有一些分析研究報告提出,CDK1、CDKN3、NEK2及RACGAP1等基因在HCC癌細胞的分裂、生長、分化過程起重要作用,可能提示腫瘤的進展及轉移[7-12];BUB1B、CCNB1、ECT2、HMMR、RACGAP1和TOP2A等基因可能與HCC的早期復發密切相關并提示預后不良,可能進一步成為預測腫瘤復發及預后的生物標志物[13-15]。而DTL可能參與誘導HCC細胞衰老、凋亡過程,從而成為治療HCC的靶基因[16]。使用Kaplan-Meier Plotter數據庫對篩選的10個Hub基因進行在線生存分析,發現這10個基因對HCC患者總體生存時間有重要影響;而后利用GEPIA數據庫對HCC患者總體生存有意義的基因進行基因表達量分析,發現10個Hub基因在HCC中較癌旁組織均高表達,并且這些基因的高表達均顯著縮短HCC患者的總體生存時間,不利于HCC患者的總體生存預后,這與國內外有關學者的研究相一致[17-22]。同時,cBioPortal分析發現,這些Hub基因在HCC癌組織中亦均高表達,且Hub基因在HCC癌組織中均有一定的突變發生,而這些基因突變與HCC患者的預后相關,其突變可顯著影響HCC患者的無病生存時間,也有學者進行過類似報道[23-24]。此外,Hub基因在肝癌組織中存在共表達關系,說明這些Hub基因可能在HCC的過程中發揮重要的協同作用,共同導致HCC的發生、發展和轉移。所以,如對這些Hub基因進行靶向藥物的研制,可能使部分HCC患者從中獲利。
綜上所述,通過大數據分析的方法,篩選出了10個可能是HCC的Hub基因,這些基因的高表達及突變不利于HCC患者的總體生存預后。這一發現為臨床HCC的診斷和判斷生存預后提供了依據。另外,可進一步對篩選出的Hub基因進行靶向藥物的研制,為臨床治療提供新方法、新思路。