許夢瑩 張廣美
卵巢癌的病死率居婦科腫瘤首位[1],因其發(fā)病隱匿,缺乏有效的早期診斷方法,超過70%的患者就診時已為晚期[2-3],并且大多數(shù)已經(jīng)發(fā)生了遠處轉(zhuǎn)移。大多數(shù)患者在2年內(nèi)經(jīng)歷疾病復發(fā),且復發(fā)性卵巢癌缺乏有效的治療方案。隨著DNA和RNA測序、DNA微陣列、高通量蛋白質(zhì)組學和代謝組學等技術(shù)的日益普及,需要新的方法將這些新類型的數(shù)據(jù)轉(zhuǎn)化為新信息,因此,通過高通量的基因芯片技術(shù)和生物信息學尋找卵巢癌有效的腫瘤標志物、關(guān)鍵預后基因,探索卵巢癌發(fā)生發(fā)展的機制具有重要意義,為卵巢癌患者的靶向治療提供契機。考慮到基因芯片結(jié)果假陽性的可能,本研究綜合幾個基因芯片數(shù)據(jù)進行了分析。
從基因表達數(shù)據(jù)庫GEO(www.ncbi.nlm.nih.gov/geo)中下載得到ID號為GSE14407、GSE18520[4]、GSE66957及GSE54388的漿液性卵巢癌及正常卵巢細胞mRNA芯片數(shù)據(jù)。其中GSE14407包含12例正常卵巢表面上皮細胞和12例漿液性卵巢癌上皮細胞,GSE18520包含10例正常卵巢表面上皮細胞和53例漿液性卵巢癌上皮細胞,GSE66957包含12例正常卵巢表面上皮細胞和57例漿液性卵巢癌上皮細胞,GSE54388包含6例正常卵巢表面上皮細胞和16例漿液性卵巢癌上皮細胞。
1. 共同差異基因的篩選:將GSE14407、GSE18520、GSE54388和GSE66957芯片數(shù)據(jù)導入R語言(https://www.r-project.org/)軟件中,使用affy包對上述數(shù)據(jù)集的原始數(shù)據(jù)進行標準化處理,并運用Limma包(http://www.bioconductor.org/package/release/bioc/html/limma.html/)對GEO芯片數(shù)據(jù)進行差異計算,篩選閾值設(shè)為校正后P<0.05,差異表達倍數(shù)|logFC|≥2[5],并使用ggplot 2繪制各數(shù)據(jù)集差異基因的火山圖,運用R VennDiagram對四個數(shù)據(jù)集中表達均為上調(diào)或下調(diào)的差異基因取交集得到共同差異基因,運用R heatmap對表達上調(diào)和下調(diào)的共同差異基因繪制熱圖。以下的生物信息學分析對象均為共同差異基因。
2.共同差異基因的功能富集:運用R clusterProfiler包(http://www.bioconductor.org/package/release/bioc/html/clusterProfiler.html/)對共同差異基因進行GO功能及KEGG通路富集[6](以P<0.05作為顯著性富集的閾值)。
3. 建立蛋白質(zhì)互作用網(wǎng)絡(luò):運用STRING(https://string-db.org)構(gòu)建共同差異基因的蛋白相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)[7],將最低互作用分值設(shè)置成高度可信(high confidence=0.8)[8],并將使用Cytoscape軟件進行可視化分析,選出節(jié)點較多的關(guān)鍵基因并構(gòu)建PPI核心網(wǎng)絡(luò)。
4. 統(tǒng)計方法:使用survival包、survminer包分析關(guān)鍵差異基因的表達對卵巢癌患者生存率(病人樣本來自TCGA數(shù)據(jù)庫,以表達中位數(shù)為界,分為高表達組和低表達組)的影響,并用survminer包繪制生存曲線,通過Log-rank檢驗法比較生存曲線的差異,設(shè)置參數(shù)P<0.05為差異有統(tǒng)計學意義。
在GSE14407篩選得到共同差異基因6 572個,其中上調(diào)基因4 953個、下調(diào)基因1 619個;在GSE18520篩選得到共同差異基因3 648個,其中上調(diào)基因2 012個、下調(diào)基因1 636個;在GSE66957篩選得到共同差異基因9 342個,其中上調(diào)基因5 814個、下調(diào)基因3 528個;在GSE54388篩選得到共同差異基因2 435個,其中上調(diào)基因1 512個、下調(diào)基因923個(校正后P<0.05,差異表達倍數(shù)|logFC|≥2)。各數(shù)據(jù)集差異基因火山圖見圖1。四個數(shù)據(jù)集共篩選得到305個差異基因,其中250個表達上調(diào)的共同差異基因和55個表達下調(diào)的共同差異基因,韋恩圖及熱圖見圖2。
富集分析結(jié)果(P<0.05)顯示,在卵巢癌中表達上調(diào)的共同差異基因主要富集于染色體分離、細胞周期G1/S轉(zhuǎn)變、細胞黏附、細胞間連接、磷脂酰肌醇-3-激酶/絲蘇氨酸蛋白激酶(PI3K-AKT)信號通路和Rap1信號通路等;表達下調(diào)的共同差異基因則主要富集于細胞增殖調(diào)控、粘附斑激酶信號通路等,見表1及圖3、圖4。

(A) GSE14407;(B) GSE18520;(C) GSE66957; (D)GSE54388. (The red dot indicates the differentially expressed up-regulated genes, the blue dot indicates the differentially expressed down-regulated genes, and the black dots indicate genes that are not significantly differentially expressed.)

圖2 共同差異基因熱圖及韋恩圖Figure 2 Heatmap and Venn diagram of common DEGs

表1 共同差異基因的GO功能和KEGG通路Table 1 GO function and KEGG pathway analysis of common DEGs
蛋白互作用分析,將最低互作用分值設(shè)置成高度可信(high confidence=0.8)[8],得到包含51個節(jié)點的PPI網(wǎng)絡(luò)。其中,PPI核心網(wǎng)絡(luò)由相互作用關(guān)系較高的14關(guān)鍵基因構(gòu)成,分別為ZWINT、CENPF、CDCA8、KIF18A、KIF15、KIF11、CDCA3、ESPL1、TPX2、DLGAP5、PTTG1、UBE2C、CEP55、MELK,提示上述基因在卵巢癌中起關(guān)鍵作用,見圖5。
分析ZWINT、CENPF、CDCA8、KIF18A、KIF15、KIF11、CDCA3、ESPL1、TPX2、DLGAP5、PTTG1、UBE2C、CEP55、MELK關(guān)鍵基因的表達水平與卵巢癌患者生存率之間的關(guān)系。其中僅UBE2C的表達高低與卵巢癌患者的生存率呈負相關(guān)。即UBE2C高表達患者的生存率明顯低于該基因低表達患者,見圖6。

圖3 共同差異基因的GO功能分析Figure 3 GO functional analysis of common DEGs

圖4 共同差異基因的KEGG通路富集分析Figure 4 KEGGpathway analysis of common DEGs

圖5 蛋白質(zhì)相互作用網(wǎng)絡(luò)分析Figure 5 Protein-protein interaction network

圖6 UBE2C的表達與卵巢癌患者生存率的生存曲線Figure 6 The relationship between the expression of UBE2C and the overall survival time of patients with ovarian cancer
卵巢癌是女性生殖系統(tǒng)最致命的惡性腫瘤,是導致女性癌癥患者死亡的第五大原因[1]。此外,其高轉(zhuǎn)移率和化療耐藥引起的疾病復發(fā)是卵巢癌死亡的主要原因。因此,尋找可靠的腫瘤標志物,探索卵巢癌的分子機制對卵巢癌的診斷、治療和預后具有重要意義。在本研究中,使用生物信息學方法整合了四個基因芯片數(shù)據(jù)集:GSE14407、GSE18520、GSE54388和GSE66957,使用R語言軟件中的軟件包篩選共得到305個共同差異基因,其中250個表達上調(diào)基因,55個表達下調(diào)基因。GO與KEGG分析顯示共同差異基因主要富集于染色體分離、細胞周期G1/S轉(zhuǎn)變、細胞黏附、細胞間連接、磷脂酰肌醇-3-激酶/絲蘇氨酸蛋白激酶(PI3K-AKT)信號通路、Rap1信號通路、細胞增殖調(diào)控和粘附斑激酶信號通路等。
本研究通過在線數(shù)據(jù)庫STRING對共同差異基因進行蛋白質(zhì)相互作用分析,篩選得到節(jié)點較多的14個關(guān)鍵基因,對關(guān)鍵基因進行分析,其中僅泛素結(jié)合酶E2C(UBE2C)的高表達與卵巢癌患者的生存率呈負相關(guān)。UBE2C是泛素-蛋白酶體系統(tǒng)(ubiquitin-proteasome system,UPS)中泛素偶聯(lián)酶E2家族的主要成員之一,泛素化酶主要分為3類:泛素激活酶(E1),負責激活泛素分子;泛素連接酶(E3),負責與靶蛋白結(jié)合;泛素結(jié)合酶(E2),在E3酶的介導下將泛素傳給靶分子[9]。1997年Townsley等人初次克隆了人類的UBE2C基因[10],該基因位點位于20q13.12,編碼的泛素結(jié)合酶由179個氨基酸組成,分子量為19.6KD[11],是人類細胞中被識別的第十個泛素結(jié)合酶基因,可通過激活有絲分裂后期促進復合物形成[12],通過參與泛素依賴的蛋白水解過程在細胞周期、信號轉(zhuǎn)導、細胞分化[13]等多種正常細胞過程中發(fā)揮重要作用。UPS介導的泛素酶解過程依賴于其成員泛素活化酶E1、泛素結(jié)合酶E2、泛素連接酶E3酶鏈的順序激活,UBE2C與經(jīng)E1活化的泛素形成中間復合物,與E3相識別并在E3的催化作用下把泛素呈遞給底物蛋白,如此反復最終將多泛素化的底物蛋白(如cyclinsA和cyclinsB等細胞周期相關(guān)蛋白)呈遞給26S蛋白酶體并迅速分解[14],使得細胞進入正常有絲分裂中,通過終止紡錘體檢查點信號使得細胞由中期進入后期,直至染色體正常分離,細胞完成正常有絲分裂。然而UBE2C異常高表達,使細胞染色體不穩(wěn)定性增加,使得細胞逃離紡錘體檢查點的監(jiān)控作用,染色體不能正常分離或延遲分離而發(fā)生染色體紊亂,最終使得細胞不能完成正常分裂,形成非整倍體,這也是細胞癌變的特點之一[15]。Dai認為染色體延遲分離是UBE2C過表達導致染色體紊亂的主要原因[16]。Okamoto等通過實驗研究表明UBE2C在肺癌、結(jié)腸癌、乳腺癌、胰腺癌、骨肉瘤等多種腫瘤中高表達,并促進細胞的增殖和惡變從而發(fā)生致癌基因的作用[17],尤其是惡性程度高、分化程度低、轉(zhuǎn)移傾向高的癌癥,往往表現(xiàn)為UBE2C高表達、患者低生存率[18]。Martinez-canales基于生物信息學在卵巢癌中的研究發(fā)現(xiàn),在6%的卵巢癌組織中發(fā)現(xiàn)了UBE2C基因的上調(diào)和擴增,是具有治療干預潛力的基因[19]。
本研究應(yīng)用生物信息學方法綜合分析了漿液性卵巢癌共同差異基因,結(jié)果得到了關(guān)鍵基因UBE2C,其與卵巢癌患者生存率成負相關(guān),即UBE2C高表達患者的生存率明顯低于低表達患者,提示其可能是改善卵巢癌患者預后的生物學靶點,但在卵巢癌中的分子機制尚不明確,需進一步研究。