張斯娜,馬書杰
子宮內膜癌(Uterine corpus endomertrial carcinoma,UCEC)是最常見的嚴重威脅女性健康的婦科惡性腫瘤之一[1]。UCEC約占女性生殖系統腫瘤的20%~30%,僅次于宮頸癌。UCEC的發病率逐漸增加,適當治療后UCEC的5年生存率從74%提高至91%[2]。目前子宮內膜癌的治療手段主要為手術輔以放療或化療,對于晚期及復發患者,化療同樣是關鍵的治療手段之一。目前臨床以順鉑為主的單藥或聯合化療方案應用最廣泛[3],但順鉑劑量加大后不良反應增加和腫瘤細胞的耐藥性,使化療失敗率也增高[4],其抗癌效率明顯減低。因此,本研究利用生物信息學分析的方法,鑒別出與晚期子宮內膜癌患者順鉑抵抗相關的基因。
1.1 TCGA子宮內膜癌數據的收集和預處理 TCGA-UCEC項目患者的RNA-Seq-Counts數據以及相應的臨床信息從Genomic Data Commons Data Portal下載(https://portal.gdc.cancer.gov/projects/TCGA-UCEC)[5]。剔除生存狀態、臨床分期和腫瘤組織學分級不完整的樣本,并納入生存時間≥30 d的數據樣本。利用edgeR包進行mRNA差異表達分析,我們利用edgeR包帶有的logCPM功能篩選表達基因,即logCPM值>1(約5~6個counts)被認為表達基因。
1.2 差異表達基因篩選 利用R語言中的“edgeR”包進行正常組織和癌組織間的差異表達顯著性分析[6],通過設定差異表達閾值[|logFC|>1.0,且矯正后P值(FDR)<0.05]篩選差異基因,將得到的歸一化差異表達基因矩陣進行后續分析。然后利用R語言“pheatmap”程序包對正常組織樣本和子宮內膜癌樣本繪制聚類熱圖。
1.3 加權基因共表達網絡分析 本研究使用R軟件“WGCNA”加權基因共表達網絡分析軟件包,對子宮內膜癌樣本的基因表達譜構建網絡進行分析,構建基因模塊并驗證其與臨床分期以及腫瘤組織學分級的相關性。利用基于基因表達顯著性(GS)和模塊身份(MM)的函數“networkScreening”尋找樞紐基因[7]。通過此函數可以得出一系列的指標,包括編碼基因與臨床分期以及腫瘤組織學分級相關性的加權P值(P.Weighted,FDR)、校正后的加權P值(q.Weighted)、加權后的相關系數(cor.Weighted)以及費希爾Z值(Fisher Z)。和普通的P值類似,P.Weighted越小,則說明編碼基因與臨床分期以及腫瘤組織學分級相關性越強。我們取校正后的加權P值(q.Weighted<0.01)篩選與臨床分期以及腫瘤組織學分級高度相關的蛋白編碼基因。
1.4 差異表達基因的生存分析 使用R軟件“survival”生存分析軟件包,對差異表達基因進行單變量Cox分析,確定與子宮內膜癌患者總生存期之間相關的差異mRNA。按照P<0.01 篩選與子宮內膜癌預后相關的蛋白編碼基因。
1.5 抗癌藥物敏感性數據 抗癌藥物敏感性基因組學(Genomics of Drug Sensitivity in Cancer,GDSC)數據庫(https://www.cancerrxgene.org/)的數據來自75 000個實驗,描述了約251個抗癌藥物在1 001種腫瘤中的反應[7]。我們下載該數據庫中4個數據集包括“Annotated list of Cell lines”、“Screened compounds”、“log(IC50) and AUC values”及“RMA normalised expression data for Cell lines”。整合數據分析基因表達量的差異對子宮內膜癌細胞系耐藥性的影響。按照P<0.05篩選與順鉑藥物半數抑制濃度 (IC50)具有相關性的基因。
1.6 統計學分析方法 采用edgeR軟件包以負二項分布的方法篩選差異表達基因;在應用WGCNA前,需要對歸一化的表達數據進行對數化,使其轉化為正態分布。本實驗使用以2為底的對數(log2)轉換,并預先加上0.01進行平滑。WGCNA采用Pearson法或TOM法;使用“upsetR”軟件包找出預后相關和臨床分期以及腫瘤組織學分級共同的基因并做交集可視化圖。
2.1 臨床信息數據準備 在TCGA矩陣數據中,mRNA測序數包括551例子宮內膜癌的樣本,臨床特征信息包括548例子宮內膜癌患者的樣本。根據數據預處理中的納排標準,本研究中納入了519例子宮內膜癌患者參與預后分析。我們從整個臨床特征信息中提取2個臨床特征,包括臨床分期和腫瘤組織學分級。這2個臨床數據均屬于等級數據,均以字符型數據的形式存儲,需要轉換數字型數據的形式來適應WGCNA分析。TCGA中子宮內膜癌患者的臨床特征信息數據見表1。

表1 UCEC病例的臨床特征信息和數字化編譯的結果
2.2 差異表達基因篩選 本研究使用edgeR包提供的算法,根據基因Counts數據計算得到差異表達基因列表。對35個癌旁組織樣本和551個癌組織樣本,以|logFC|>1.0且FDR<0.05為標準計算差異表達基因,并通過logCPM值>1的標準篩選得到4 043個差異表達基因,其中上調基因2 348個,下調基因1 695個。正常組織樣本和子宮內膜癌樣本繪制聚類,見圖1。

圖1 正常組織樣本和子宮內膜癌樣本繪制聚類熱圖
2.3 加權基因共表達網絡分析結果 在519例腫瘤組織樣本中,4 043個基因表達譜用于進行共表達網絡構建,剔除41個離群樣本后,按照無尺度網絡的標準,以相關系數等于0.95作為標準,使用pickSoftThreshold函數,選擇鄰接矩陣權重參數(軟閾值)β=4構建基因模塊,見圖2A-2D。動態樹切割可以識別模塊,模塊中的基因表達值非常相似。高度相似的模塊被合并后,一共有13個共表達模塊被鑒定,其大小范圍為30~947個基因,分配每個模塊一種顏色作為參考,而模塊“灰色”則保留沒有共表達的基因,見表2和圖2E。通過計算模塊內基因表達量與樣本特征向量的pearson相關系數,尋找與腫瘤組織學分級和臨床分期發生顯著相關的基因模塊,其中blue模塊和brown模塊基因在腫瘤組織學分級和臨床分期的顯著性高于其他模塊,因此,blue模塊和brown模塊與腫瘤組織學分級和臨床分期相關性較高,見圖2F。隨后,應用WGCNA的“networkScreening”函數判斷樞紐基因,結果顯示,與腫瘤組織學分級相關的顯著基因有702個,632個顯著基因與臨床分期相關,見表3。

表3 與腫瘤組織學分級和臨床分期相關的顯著基因表

圖2 加權基因共表達網絡分析

表2 各模塊基因的數量
2.4 差異表達基因的生存分析結果 TCGA差異mRNA數據進行單因素Cox分析,取P值<0.01后篩選出723個基因,見表4。腫瘤組織學分級和臨床分期是決定子宮內膜癌患者預后的重要因素,腫瘤組織學分級或臨床分期越高,預后越差。我們篩選出與腫瘤組織學分級和臨床分期相關的分子生物標志物理論上也屬于預后相關的基因。我們發現與腫瘤組織學分級和臨床分期相關共同的453個顯著基因,其中與患者預后顯著相關的基因有196個(圖3)。

表4 差異表達mRNA cox單因素分析結果

圖3 腫瘤組織學分級、臨床分期和預后相關的顯著基因交集情況
2.5 抗癌藥物敏感性數據結果 半數抑制濃度(IC50)能表示某一藥物或者物質(抑制劑)在抑制某些生物程序(或者是包含在此程序中的某些物質,比如酶,細胞受體或是微生物)的半量。IC50值可衡量藥物誘導的能力,數值越低,誘導能力越強,也可以反向說明某種細胞對藥物的耐受程度。GDSC由英國桑格研究院開發,收集腫瘤細胞對藥物的敏感度和反應。我們下載整合基因在子宮內膜癌細胞系的表達量及該細胞系與藥物反應的數據,分析在子宮內膜癌細胞系中基因表達對順鉑藥物敏感度的相關性,結果顯示,468個基因表達變化對順鉑敏感度具有相關性(P<0.05),見表5,其中86個基因隨著表達量的增加對順鉑敏感度增強,382個基因隨著表達量的增加對順鉑耐藥性增強。子宮內膜癌患者預后與腫瘤組織學分級和臨床分期均相關的差異基因有6個(DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7),其表達值的變化與順鉑藥物敏感度存在相關性,且隨著表達量的增加,對順鉑耐藥性增強,見圖4。

圖4 抗癌藥物敏感性分析

表5 基因表達變化對順鉑敏感度的相關性分析結果
2.6 6個基因的分析結果 DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7基因的表達與腫瘤組織學分級和臨床分期以及與順鉑半數抑制濃度(IC50)具有顯著的正相關性(cor>0,P<0.01),即隨著6個基因表達的增加,對順鉑的耐藥性增強。單因素分析結果顯示,6個基因的表達均是子宮內膜癌患者的危險因素(HR>1),見表6;隨著臨床分期和腫瘤組織學分級的等級增高,6個基因表達量也隨之增加,見圖5。

表6 6個基因的統計分析結果

圖5 6個基因在不同腫瘤組織學分級和臨床分期的表達情況
鉑類藥物(順鉑、卡鉑等)是目前最廣泛應用于子宮內膜癌的化療藥物,但是子宮內膜癌的化療效果并不令人滿意,文獻報道單藥順鉑的化療有效率約為30%左右,聯合化療使藥物有效率有所增加,但毒性反應也明顯增加[8-9]。如何提高順鉑等藥物的化療敏感性,克服其耐藥性,是子宮內膜癌的臨床治療研究熱點之一。順鉑是一線化療藥物,是子宮內膜癌患者手術后最常用的藥物之一,其最突出的抗癌作用方式包括DNA損傷、抑制DNA合成和有絲分裂以及誘導細胞凋亡來殺死癌細胞[10-11]。然而,只有25%~35%的患者對順鉑有反應[12-13],這意味著腫瘤中存在高異質性和顯著的順鉑耐藥細胞群,也有可能隨著順鉑治療時間的延長以及用量的增加,腫瘤細胞會產生一定程度的耐藥性,最終導致治療失敗[14]。本研究結果顯示,隨著子宮內膜癌臨床分期和腫瘤組織學分級等級的增高,6個基因(DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7)表達量也隨之增加,從而對順鉑耐藥性增強。
研究表明,其耐藥性的產生機制是一個較為復雜的多步驟、多因素、多基因的生物學過程,涉及靶組織、機體以及腫瘤細胞的相互作用和影響,與腫瘤細胞相關基因的信號傳導和調節密切相關[15]。順鉑可通過誘導細胞凋亡來殺死癌細胞。細胞凋亡的誘導是抗癌藥物的主要目的之一,因此,抗凋亡被認為是導致癌細胞化學無反應性的可能機制[16]。生長因子受體結合蛋白-7(Grb7)是多結構域銜接蛋白,與各種細胞信號和功能的多種酪氨酸激酶共同參與作用[17],并被發現在乳腺癌[18-19]和卵巢癌[20]等轉移性腫瘤中過表達。有研究表明,Grb7在促進宮頸癌細胞系中的腫瘤進展(包括侵襲和抗凋亡)中起重要作用,Grb7過表達促進宮頸癌的侵襲和抑制細胞凋亡[21];DLL3是Notch受體的Delta/Serrate/Lag-2配體家族的成員,并且在Notch信號傳導中起作用[22]。先前的證據表明,Dll3在共表達細胞中與Notch1相互作用并且自主地抑制Notch信號傳導[23-24]。在鼠Lewis肺癌細胞中DLL3的過表達通過抑制Notch信號傳導促進體外細胞增殖和體內腫瘤生長[25]。
本研究采用生物信息學的方法,通過TCGA和GDSC數據庫挖掘出晚期子宮內膜癌患者DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7基因對順鉑存在耐藥性,可以有效下調DLL3、DTNA、EYA4、FAM110B、FBN3和GRB7及其蛋白的表達,抑制晚期子宮內膜癌細胞對順鉑的耐藥性,從而提高癌細胞的生長抑制率,對晚期子宮內膜癌患者的臨床治療具有一定作用。本研究只通過統計計算方法對TCGA數據庫中的子宮內膜癌患者基因進行順鉑耐藥性分析,存在一定的局限性,需要體外和體內實驗進一步研究驗證。