許修穎,龔榮府,楊娉娉,方文
(貴州醫科大學 醫學檢驗學院 生化教研室,貴州 貴陽 550004)
據2018年世界衛生組織統計,宮頸癌(cervical cancer,CC)是全球女性癌癥發病率和死亡率均位居第4位的癌癥[1]。隨著醫療技術的提高、CC篩查的普及、生活方式的改變,CC發病呈年輕化趨勢[2],研究發現CC仍然是20~39歲女性癌癥死亡的第二大原因[3]。在欠發達國家,CC的發病率及死亡率過高,可能是因為篩查機會減少和人類乳頭狀瘤病毒(humanpapillomavirus,HPV)疫苗的高成本[4]。因此,仍有必要尋找與CC早期診斷、治療和預后密切相關的靶點基因。近年來,越來越多的研究人員將基因圖譜和基因芯片應用于科學研究[5],認為大多數基因芯片或基因圖譜數據只存儲在數據庫中未被充分利用,重新分析這些數據可為研究癌癥提供新的方法[6],研究人員利用生物信息學方法分析肝細胞癌、肺癌及乳腺癌等多種癌癥的治療靶點[7-9]。近期研究中,有學者通過分析基因表達數據庫(gene expression omnibus,GEO)中GSE103512數據集,篩選出在宮頸癌組織中表達水平明顯增加的基因,并認為是宮頸癌治療的靶標[10]。然而,只從一個數據集中篩選表達升高的基因作為治療的靶標的研究并不全面,本研究通過分析GEO中CC的多個基因表達數據集,采用多種生物信息學方法篩選調控CC的樞紐基因,并利用腫瘤基因組圖譜(the cancer genome atlas,TCGA)驗證樞紐基因的表達。
從GEO(https://www.ncbi.nlm.nih.gov/geo/)中篩選CC微陣列數據集,輸入關鍵字“cervical cancer”,選擇“series”、“home sapiens”、“expression profiling by array”,最后得到134個“series”。通過閱讀摘要,本研究選擇了GSE9750、GSE7083和GSE63514作為數據來源,在基因表達譜中選擇正常宮頸(normal cervix,NC)組織、高級別鱗狀上皮內病變(high grade squamous intraepithelial lesion of the cervix,HSIL)、宮頸上皮內瘤樣病變(cervical intraepithelial neoplasia,CIN)及CC組織樣本進行后續分析。見表l。

表1 CC相關數據信息Tab.1 Data information on CC
1.2.1篩選差異基因 在R(vesion:3.6.1)語言環境下,R-Studio利用GEOquery、limma、ggplot2等軟件包處理3個數據集,根據表1中選擇樣本分組后篩選出差異表達基因。定義差異基因的篩選標準如下:P<0.05,且|log2FC|>1。獲得差異基因后,用火山圖展現3個數據集的差異基因,取3個數據集的差異基因交集,并用VennDiagram軟件包繪制韋恩圖。
1.2.2差異基因的富集分析 使用database for annotation、visualization and integrated discovery網站(DAVID,Vision:6.7,https://david-d.ncifcrf.gov/)闡明相互作用基因的生物學過程和信號通路[11- 12]。通過DAVID在線分析的方式獲得差異基因在基因本體(gene ontology,GO)與基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)通路分析中具體的富集情況,其中GO分析分為生物學過程、細胞定位CC及分子功能。
1.2.3蛋白質相互作用(protein-protein Interactions,PPI)網絡分析及篩選樞紐基因 將差異基因導入STRING數據庫來繪制相互作用基因并構建PPI網絡[13],將PPI網絡數據導入Cytoscape軟件(Vision:3.7.2),利用Cytoscape插件CytoHubba預測和查找網絡中的重要節點和子網絡,采用12種拓撲分析方法,包括degree、edge percolated component(EPC)、maximum neighborhood component (MNC)、density of maximum neighborhood component (DMNC)等[14],從每種方法中選擇前10個基因,計算所有選擇出的基因在12種算法中的出現次數,最終選取次數最多的前10個基因作為樞紐基因,最終所有鑒定的樞紐基因被用來構建一個完整的PPI網絡。
1.2.4樞紐基因的篩選及表達 采用 The Kaplan Meier plotter (http://kmplot.com/analysis/)網站在線分析樞紐基因[15],數據來自于TCGA數據庫的宮頸癌(CC:n=304)臨床信息,篩選與CC總體生存率(overall survival,OS)相關的基因。UALCAN(http://ualcan.path.uab.edu/)是一個基于 TCGA 數據集,腫瘤基因表達分析的在線數據庫[16],本研究在UALCAN網站下載TCGA宮頸癌相關數據NC(n=3)和CC(n=305),并分析樞紐基因的表達情況。
1.2.5人類蛋白質圖譜(the human protein atlas,HPA)數據庫的分析 從HPA[17]中分別調取CC和NC組織中的細胞周期蛋白依賴性激酶1(cyclin dependent kinase 1,CDK1)、驅動蛋白家族成員11(kinesin family member 11,KIF11)、細胞周期蛋白B1 (cyclin B1,CCNB1)、細胞分裂周期蛋白45 (cell division cycle 45,CDC45)及CXC趨化因子配體8(c-x-c motif chemokine ligand 8,CXCL8)蛋白的免疫組織化學結果,明確其在CC和NC組織中的蛋白表達。
經R-Studio軟件分析,分別從數據集GSE7083、GSE9750及GSE63514中得到差異表達基因760、1 454及3 019個,其中上調差異基因分別為393、785及1 880個,下調差異基因分別為367、669及1 139個。分別用火山圖顯示3個數據集差異基因(圖1),全面系統地剖析3個數據集中的差異表達基因,經過VennDiagram軟件包交集3個數據集差異基因后獲得401個共同差異表達基因,包括219個上調基因和182個下調基因(圖2)。

注:A為GSE7803,上調差異基因個數為393,下調差異基因個數為367;B為GSE9750,上調差異基因個數為785,下調差異基因個數為669;C為GSE63514,上調差異基因個數為1 880,下調差異基因個數為1 139;藍色為下調差異基因,紅色為上調差異基因,黑色為無顯著差異基因。圖1 GSE7803、GSE9750及GSE63514差異表達基因的火山圖Fig.1 Volcano plot of GSE7803,GSE 9750, and GSE 63514 DEGs

注:綠色、藍色及紅色圓圈分別為GSE7803、GSE9750、GSE63514差異基因個數。圖2 上調和下調差異基因交集的韋恩圖 Fig.2 Venn diagram of up-regulation and down-regulation of intersection of DEGs
GO分析結果顯示,DEGs的細胞定位主要在染色體、無膜細胞器、角質包膜及紡錘體中。在生物學過程的分析中,DEGs與細胞周期、有絲分裂細胞周期、細胞周期過程及M期有關;DEGs的分子功能主要富集在絲氨酸型內肽酶活性、絲氨酸型肽酶活性、絲氨酸水解酶活性、細胞周期素依賴性蛋白激酶調節活性及內肽酶活性(表2)。DEGs的KEGG通路富集結果顯示,細胞周期、DNA復制、卵母細胞減數分裂、p53信號通路及花生四烯酸代謝是主要途徑(表3)。

表2 差異基因的GO富集分析Tab.2 GO enrichment results of DEGs

表3 差異基因的KEGG通路分析Tab.3 KEGG pathway analysis of DEGs
401個DEGs被用于構建PPI網絡,結果表明,PPI網絡具有明顯高于預期的交互作用(P<1.0×10-16),節點數為398,邊緣數為4 899。經過12種算法的計算,由于第11個基因與第10個基因在12種算法中出現次數相同,故本研究共篩選出 11個樞紐基因(CDK1、KIF11、BUB1B、CCNB1、CCND1、CDC20、CDC45、CXCL8、ECT2、ESR1及TOP2A,表4),其中除了ESR1和CCND1基因在CC組織中表達下調外,其余基因表達上調;11個樞紐基因重新導入STRING數據庫后構建PPI網絡顯示蛋白間有較高的交互作用(P=1.95×10-10,圖3)。

表4 樞紐基因在12種算法中的出現次數Tab.4 Number of occurrences of hub genes in 12 algorithms

圖3 樞紐基因的PPI網絡Fig.3 PPI networks of hub genes
在The Kaplan Meier plotter網站中收錄304例CC患者數據中,CDK1、KIF11、CCNB1、CDC45及CXCL8基因的表達水平對患者的總生存時間有著顯著影響;與低表達組相比,CDK1、KIF11、CCNB1及CDC45高表達組的CC患者的總生存時間增高(P<0.05);與低表達組相比,CXCL8高表達組的CC患者的總生存時間明顯降低(P<0.001,圖4)。UALCAN分析結果表明,CDK1、KIF11、CCNB1、CDC45及CXCL8基因在CC組患者中表達較NC組明顯上調(P<0.01,圖5)。

圖4 樞紐基因高、低表達組CC患者預后的Kaplan-Meier分析Fig.4 Kaplan-Meier analysis of overall survival in CC patients with hub genes high and low

注:(1)與NC組比較,P<0.01。圖5 CC組與NC組樞紐基因的表達Fig.5 The expression of hub genes in CC and NC groups
HPA數據庫中,采用不同的免疫組織化學抗體分析NC組織和CC組織的免疫組化結果及5種蛋白在CC組腫瘤細胞及對照組宮頸細胞中的定位(表5),CDK1、KIF11、CCNB1及CDC45蛋白相對于NC細胞在CC腫瘤細胞中表達增加,但CXCL8蛋白在CC及NC組織中都未檢測到(圖6),證實CDK1、KIF11、CCNB1及CDC45蛋白在CC組中較NC組織高表達。

表5 CDK1、KIF11、CCNB1、 CDC45和CXCL8蛋白在NC及 CC腫瘤細胞中表達Tab.5 The expression of CDK1, KIF11,CCNB1,CDC45, and CXCL8 proteins in CC and NC tumor cells

圖6 CC和NC組織相關蛋白的表達(免疫組織化學,×40)Fig.6 The expression of related proteins in CC and NC tissues(immunohistochemistry,×40)
CC是一種高度侵襲性腫瘤,是女性癌癥相關死亡的主要原因之一,2018年全球估計有57萬個新增病例,31.1萬人死亡[1]。傳統的治療方式主要為手術和放療,但中晚期CC單純放療效果差,患者5年生存率偏低,治療效果仍不夠理想[18]。因此,仍有必要為CC的診斷和治療尋找新的靶點。CDK1是一種蛋白質編碼基因,該基因編碼的蛋白質是Ser/Thr蛋白激酶家族的成員[19]。該蛋白是高度保守的蛋白激酶復合物的催化亞基,被稱為M期促進因子(maturation promoting factor,MPF),對于真核細胞周期的G1/S和G2/M相變至關重要[20]。CDK1已被確定為肺癌、乳腺癌和結直腸癌患者潛在的臨床靶點和預后生物標志物[21]。CDK1在介導與CC進展相關的基因網絡中起著全面的作用,靶向CDK1或其相關途徑的新療法可能有助于改善晚期CC的預后[22]。KIF11是驅動蛋白超家族的一員,這個蛋白質家族的成員已知參與各種紡錘體動力學,該基因產物的功能包括細胞有絲分裂過程中的染色體定位、中心體分離和雙極紡錘體建立[23]。抑制KIF11能夠引起細胞分裂紊亂和細胞周期阻滯,最終導致細胞凋亡,此外,KIF11能夠調控軸突的分支和生長錐活性,研究表明KIF11在多種惡性腫瘤中高表達并與預后相關[24]。CCNB1基因編碼的蛋白是一種參與有絲分裂的調節蛋白,其于正確控制細胞周期的G2/M轉換期是必需的[25]。CCNB1與CDKl結合形成成熟促進因子MPF,MPF的激活是真核細胞啟動有絲分裂必要條件,從而控制細胞周期進程[26]。既往研究發現CCNB1的高水平表達與肝癌、乳腺癌、胰腺癌及胃癌患者預后相關,其可能的機制多認為是抑制細胞增殖、遷移和侵襲,進而導致腫瘤的發生及發展[27]。CDC45編碼的蛋白質是啟動DNA復制所必需的蛋白質[28]。CDC45是高度保守的多蛋白復合體的成員,其在真核生物中DNA復制的早期步驟很重要[29]。染色質免疫共沉淀(chromatin immunoprecipitation, ChIP)實驗發現CDC45與復制原點只在S期結合,同時這種結合需要CDK和CDC7的幫助,而CDC45在S期持續過程中遠離復制原點[30]。CXCL8是CXC趨化因子家族的成員,是炎癥反應的主要介質,負責中性粒細胞和粒細胞向炎癥部位的招募和激活[31]。在對癌癥的研究中,許多研究人員認為CXCL8在腫瘤的增殖、侵襲、遷移和腫瘤微環境中以自分泌或旁分泌的方式發揮著極其關鍵的作用[32]。在CC中,研究人員直接探討CXCL8在組織和細胞系中的表達狀況,并分析CXCL8表達與CC患者臨床病理特征的關系[33]。但在本研究中,利用GEO數據庫本研究篩選了CXCL8等基因作為CC的樞紐基因,并且在TCGA數據庫中驗證樞紐基因的表達去GEO數據庫中一致,并探討了樞紐基因對CC患者的總生存率的影響,這更有力地證明了CXCL8在CC中的預后功能。
本研究利用GEO數據庫中CC表達微陣列GSE7803、GSE9750及GSE63514中的數據進行DEGs篩選,并對DEGs進行GO分析和KEGG通路分析,這些基因的GO富集主要包括有絲分裂細胞周期、細胞周期過程、絲氨酸型內肽酶活性等;KEGG信號通路主要富集在細胞周期、DNA復制、卵母細胞減數分裂、P53信號通路和花生四烯酸代謝。通過STRING及Cytoscape軟件篩選出11個樞紐基因(CDK1、KIF11、BUB1B、CCNB1、CCND1、CDC20、CDC45、CXCL8、ECT2、ESR1及TOP2A),且利用The Kaplan Meier plotter網站分析得出5個樞紐基因(CDK1、KIF11、CCNB1、CDC45及CXCL8)CC患者總體生存率相關,進一步在TCGA數據庫中驗證了上述樞紐基因的表達水平,結果與GEO數據集的表達譜結果一致,并利用HPA數據庫驗證以上五種基因編碼的蛋白在CC中較正常宮頸組織的表達情況,結果顯示除CXCL8蛋白外,其余在腫瘤細胞中均呈表達上升水平。CXCL8 mRNA在CC中表達增高但CXCL8蛋白未被檢測到的原因可能是因為轉錄后調控和翻譯及翻譯后調控,再有就是mRNA的降解、蛋白的降解、修飾折疊等因素導致mRNA豐度與蛋白表達水平不一致。最后綜合分析發現CXCL8 mRNA 在CC患者中高表達且OS較差, 這表明高表達的CXCL8與CSCC的預后有關。
綜上所述,本研究通過運用多種生物信息學分析方法篩選CC樞紐基因及信號通路,進一步對樞紐基因進行預后分析,挖掘CC預后分析的潛在分子標志,最終鑒定了5個CC樞紐基因,分別為CDK1、KIF11、CCNB1、CDC45及CXCL8,為CC治療及預后分析提供新的思路。