馬惠涵 秘嘉慶 秦 倩 馬梅杰 馮勤梅
1.山西醫科大學第五臨床醫學院,山西太原 030001;2.山西醫科大學附屬人民醫院婦科,山西太原 030012
卵巢癌是婦科癌癥中導致女性死亡的主要原因。晚期卵巢癌患者5 年生存率不到20%,且多數患者會在18 個月的中位無進展生存期復發[1-2]。
轉錄異常的基因可作為癌癥的預后標志物,在臨床試驗中進行新藥研發和指導治療[3]。Leoutsakou等[4]使用半定量RT-PCR 方法發現SRA1 基因在卵巢腫瘤組織中高表達,Dong 等[5]將胰島素樣生長因子2確定為卵巢癌與卵巢組織的差異表達基因,Fu 等[6]通過蛋白質組學和轉錄組分析發現UTP23 的低表達促進了卵巢癌細胞對紫杉醇的耐藥性,但因不穩定性和非適用性,目前尚鮮見報道可指導臨床的生物標志物。
本研究從NCBI 基因表達綜合數據庫下載數據集,利用R 軟件識別卵巢癌與正常對照間的差異表達基因(differentially expressed genes,DEG),并進行功能富集分析。此外,建立DEG 和關鍵模塊的蛋白質-蛋白質相互作用(protein-protein interaction,PPI)網絡并進行模塊分析、生存分析及相關性分析,最終發現3 個與卵巢癌預后相關的重要基因。
基因表達匯編(gene expression omnibus,GEO)由美國國立生物技術信息中心創建,保存高通量功能基因組學數據。4 個數據集均出于此且已發表相關文獻。
基于編程語言R,使用hgu133plus2.db 注釋包和hgu133a.db 注釋包轉換基因名,使用limma 軟件包[7]識別出4 個數據集中卵巢癌組織與對照健康卵巢組織相比的DEG,用VennDiagram 軟件包[8]對DEG 進行整合。|logFC|>1.5 和P <0.05 被認為對DEG 有統計學意義。logFC>1.5 認為是上調DEG,logFC<1.5 為下調DEG。
使用Clusterprofiler 包對DEGS 進行功能和途徑富集分析,顯著閾值設定為P<0.05。基因本體論(gene ontology,GO)功能富集主要從細胞成分、生物過程和分子功能三方面描述基因和其產物的功能。京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)途徑富集分析從基因的生化途徑和調控途徑等方面進行說明。
使用數據庫STRING 映射DEG 以綜合得分≥0.4為截止值。Cytoscape 軟件[9]構建PPI 網絡,可視化分析卵巢癌中DEG 編碼蛋白間的相互作用并使用Cytohubba 鑒定出20 個hub 基因。同時用分子復合物檢測(molecular complex detection,MCODE)PPI 網絡的密集區域,選擇MCODE分數>3 和節點數>4 的模塊并對基因分別進行KEGG 富集分析。
Kaplan-Meier Plotter 中有大量卵巢癌患者的臨床數據,可用于分析20 個hub 基因對存活的影響,選擇logrank P <0.05 的基因。
使用基因表達譜交互式分析(gene expression profiling interactive analysis,GEPIA)對影響預后的hub基因進行表達水平分析,設定P <0.01 為差異有統計學意義。
納入4 個數據集,共297 例卵巢癌樣本和32 例健康對照樣本(表1)。經limma 軟件包篩選出812、2820、1495 和536 個DEG(|logFC|>1.5,P <0.05),通過VennDiagram 包進行基因整合。通過VennDiagram包對4 個數據集中的105 個DEGs 取交集。與正常卵巢組織比較,卵巢癌組織樣本中共有135 個DEG。見圖1。

表1 數據集的相關信息
在編程語言R 中使用Clusterprofiler 包對DEG進行生物學注釋并得到P 值<0.05 的GO 功能富集。其顯著性結果表明:細胞組成中,上調DEG 主要富集在雙株緊密連接、后期促進復合物、頂端連接復合物及緊密連接中,下調DEG 主要富集在細胞外基質、含膠原的細胞外基質及血液微粒中;生物過程中,上調DEG 明顯富集在有絲分裂紡錘體組裝檢查點、染色體分離調控、細胞周期中后期轉變的調控和染色體分離等,下調DEG 明顯富集在蛋白絲氨酸/蘇氨酸激酶活性的調控、黏多糖代謝過程和Wnt 信號通路;分子功能中,下調DEG 主要在肝素結合及卷曲結合中富集,而上調DEG 未見符合標準的明顯富集。
經STRING 數據庫建立PPI 網絡并導入Cytoscape軟件。MCODE 檢測到4 個模塊,選擇分數較高模塊進行下一步分析(圖2)。使用Cytohubba 篩選hub 基因,前20 分別為KDR、SOX9、EPCAM、WNT5A、FGF13、PDGFRA、CP、ALDH1A1、KLF4、CDC20、UBE2C、FGF9、SOX17、TTK、TRIP13、CKS2、RACGAP1、CD24、CHGB、LAMB1。
經KEGG 富集分析后發現:模塊1 中均為上調DEG,主要在細胞周期、泛素介導蛋白水解作用途徑富集;模塊2 中除ALDH1A1 為下調DEG,余為上調DEG,未見明顯通路富集;模塊3 中除CP 為上調DEG,余為下調DEG,富集后CP 在鐵死亡、卟啉和葉綠素代謝途徑中存在,LAMB1 在ECM 受體相互作用、小細胞肺癌等途徑中存在。
在Kaplan Meier Plotter 中對20 個hub 基因進行生存分析,發現13 個基因關聯卵巢癌患者的預后較差(P <0.05)。使用GEPIA 進一步分析發現,卵巢癌樣本中有SOX9、EPCAM、CP、UBE2C、TTK、RACGAP1、CD24 7 個基因反映出高表達(P <0.01)。見圖3。
為確定卵巢癌預后不良的重要基因,本研究采用生物信息學方法對GEO 數據庫的數據集進行整合分析。最終取交集得到UBE2C、TTK、CP 3 個基因在卵巢癌中高表達且影響預后,又顯著富集于KEGG 通路,將其認為是改善卵巢癌患者預后的有效靶點。
UBE2C 在細胞周期進程中促進目標蛋白降解,異常的UBE2C 過表達與異常的細胞增殖可能相關[14]。Wang 等[15]研究顯示UBE2C 在胃癌中高表達,敲低UBE2C 會通過Wnt/β-catenin 和PI3K/Akt 信號通路抑制胃癌腫瘤形成,將其定義為診斷胃癌潛在生物標志物。Yuan 等[16]構建基因共表達網絡鑒定出6 種與透明細胞腎細胞癌的進展和預后相關的hub 基因,其中包括UBE2C。Martínez-Canales 等[17]通過數據集轉錄組功能注釋和PPI 網絡分析確定UBE2C 基因的過表達與較差預后相關,和本研究一致。
TTK 的轉錄水平在細胞進入正常細胞周期中通過有絲分裂時被上調,后期被泛素E3 連接酶降解失活而下調,也就是TTK 的及時失活才能維持正常細胞周期進程[18]。Tang 等[19]使用加權共表達網絡分析確定TTK 可作為乳腺癌臨床研究的預后生物標志物,Zhang 等[20]從公開轉錄組數據發現高水平TTK 與大腸癌患者預后不良有關,Feng 等[21]使用與本研究不完全相同的GEO 數據集發現卵巢癌中4 個影響預后的顯著上調基因,其中包括TTK,間接驗證本研究的可靠性。
CP 基因編碼銅藍蛋白,血清中銅藍蛋白水平在炎癥和組織損傷中上調[22]。Arner 等[23]發現CP 在肥胖受試者的脂肪組織和與肥胖相關的癌細胞中過表達(如子宮內膜癌),將其確定為新型脂肪因子。通過定量實時RT-PCR 和Western blot 檢測肺腺癌臨床樣本,Matsuoka 等[24]發現CP 表達與較差預后顯著相關,將其作為肺腺癌的獨立預后因素。在卵巢癌中,患者血漿銅藍蛋白水平較對照組明顯增加,且其啟動子活性表現更明顯[25]。
總之,本研究通過對4 個不同數據集進行客觀的生物信息學分析,明確得到卵巢癌組織和健康對照樣本間的3 個DEG,其高表達與卵巢癌患者的預后不良呈正相關。總結和比較與之相關的大量文獻,本研究認為這3 個基因在卵巢癌的進程中可能起到關鍵作用,可作為新的預后生物標志物。這些數據都為卵巢癌的治療和改善患者預后提供有用的方向。但目前尚未進行實驗驗證,這也是未來進行深入研究的重點。