胡云雙,張穎,曾海平
溫州市中西醫結合醫院 檢驗科,浙江 溫州 325000
子宮內膜癌是女性生殖系統中最為常見的癌癥之一,目前位列發達國家女性惡性腫瘤中的第四位,我國每年也約有2萬人死于該病[1-2]。雖然子宮內膜癌的手術、化療及免疫治療都取得了一定的進展[3],但患者的病死率仍居高不下[4]。因此,從分 子層面更深入地探索其發病機制[5],研究影響子宮內膜癌預后的分子標簽來評估與預測患者生存率,具有臨床實際意義[6]。
長鏈非編碼RNA(long non-coding RNA,lncRNA) 是一類長度在200~100 000 nt之間非蛋白編碼RNA分子,常被用于腫瘤診斷或預后評估,是一類極具潛力的新一代標志物[7]。研究表明,lnc RNA作為重要的調控因子,參與腫瘤細胞的增殖、分化、轉 移[8],但目前關于lncRNAs在子宮內膜癌中的生物學功能和分子機制仍鮮見報道[9]。本研究提取TCGA數據庫中子宮內膜癌的lnc RNA表達數據及臨床相關數據,通過差異表達分析和單因素LASSO Cox回歸,尋找與子宮內膜癌預后相關的IncRNA,采用多因素Cox回歸模型構建預測子宮內膜癌預后相關的lncRNA分子標簽,為子宮內膜癌的預后評估提供進一步支持。
1.1 子宮內膜癌lncRNA表達數據及臨床資料的收集與處理 從TCGA數據庫(https://p ortal.gdc.cancer.gov/)中下載子宮內膜癌和癌旁組織的RNAseq level 3轉錄組數據及臨床相關資料,數據集截止日期為2020年2月。樣本篩選納入標準包括:①經過病理證實為原發性子宮內膜癌,并且術前未經任何放化療;②預后信息完整無缺失,預后隨訪時間大于30 d。除去臨床信息缺失的個體,共計523個子宮內膜癌和23個癌旁組織納入分析。
1.2 lncRNA差異表達分析 采用R語言的“edgeR”包[10]對子宮內膜癌和癌旁組織的lncRNA進行表達差異篩選分析,篩選標準如下:log2|差異倍數(FC)| ≥1且假陽性發現率(false discovery rate,FDR)<0.05。用R語言“ggplot2”包繪制火山圖,采用R語言“ComplexHeatmap”包繪制熱圖,顯示其在癌組織和癌旁組織的差異表達情況。
1.3 LASSO Cox預后模型構建與驗證 本研究采用隨機數生成法將523例子宮內膜癌患者分為訓練集(training set,n=262)和測試集(testing set,n=261)兩個隊列。樣本基本特征:訓練集中位年齡為63(31~90)歲,中位身高為161(142~183)cm,腫瘤分期I期160例,II期26例,III期62例,IV期14例;測試集中位年齡為64(34~90)歲,中位身高為161.5(130~178)cm,腫瘤分期I期167例,II期27例,III期54例,IV期13例。訓練集用于學習特征的選擇和模型的估計,測試集作為內部驗證隊列來評估模型的預測性能。
使用R語言的“Survival”包進行單因素Cox回歸分析,獲得與預后相關的lnc RNA分子。對與預后顯著相關的lncRNA分子(P<0.001)進行LASSO Cox回歸分析篩選變量,構建lncRNAs分子標簽[11]。lncRNAs分子標簽=Σ(回歸系數×基因表達量),以風險值的中位數為閾值,把子宮內膜癌患者分成高、低兩個風險組別。繪制Kaplan-Meier生存曲線,采用Log-rank法檢驗比較兩組患者的總生存率差異,P<0.05為差異有統計學意義。此外,為評估lncRNAs分子標簽模型的預測性能,我們在測試集中進行驗證,考察相關的lnc RNAs用于預測子宮內膜癌預后的可能性。
1.4 預后模型ROC曲線評價 采用R包“Survival”和“timeROC”繪制1、3、5年總生存率的ROC曲線,計算曲線下的面積(area under the curve,AUC),評估預后模型在不同時間終點的預測性能。
1.5 基因集富集分析(gene set enrichment analysis,GSEA) 從MsigDBv6.2數據庫(https://www.gsea-msigdb.org/gsea/msigdb/index.jsp)中下載“C2:經典通路”基因集,采用默認基因富集統計分析方法[12],進行GSEA,執行1 000次置換檢驗,P<0.05認為是顯著富集。
2.1 與預后相關的子宮內膜癌差異lncRNA的篩選 基于FDR<0.05且|log2FC|>2的篩選標準共得到2 277個差異表達的lncRNAs(見圖1A),包括1 303個表達上調的lnc RNAs和974個表達下調的 lncRNAs(見圖1B)。

圖1 子宮內膜癌差異lncRNAs的篩選
2.2 子宮內膜癌預后模型的構建與評價 單因素Cox回歸初步篩選出18個和子宮內膜癌預后相關的差異lncRNAs(P<0.001)(見表1),通過LASSO回歸分析(見圖2A、2B)降維確定了13個關鍵的lncRNAs分子。采用多因素Cox回歸模型進行lncRNAs的預后風險評分,Risk Score=(0.13118×AC005381.1)+(0.09103×AC009237.15)+(0.25714×AC011294.1)+ (0.21220×AC017074.1)+(0.11446×AC073842.2)+ (0.04660×AC108025.2)+(0.28335×AL121906.2)(-0.12554×AP000808.1)+(-0.19050×LINC00475)+ (0.14988×LINC01116)+(0.17987×LINC01250)+(0.21181×NCAM1-AS1)+(-0.30462×UNQ6494),以風險得分的中位值(0.92)為閾值,將訓練集中的262例患者分為高風險(>0.92,n=131)組和低風險(≤0.92,n=131)組。結果發現高風險組患者平均生存時間較短,具有較多的死亡人數,其對應熱圖也顯示出這13個lncRNAs分子的表達量在2個風險組別中差異有統計學意義(見圖3A)。Kaplan-Meier生存曲線(見圖3B)顯示低風險組患者中位生存時間(3.03年)長于高風險組(2.59年),總生存率也高于高風險組(P<0.001)。ROC進行預測性能評估,發現子宮內膜癌患者1、3、5年總生存率AUC分別為0.771、0.868、0.864(見圖3C)。

表1 單因素Cox回歸分析初步篩選和子宮內膜癌預后相關的lncRNA

圖2 LASSO回歸分析
為評估預后模型的預測能力,以測試集中的風險評分中位值(0.98)為閾值,將測試集的患者分為高、低風險組。如圖4A所示,與訓練集一致,測試集中高風險組患者(130例)與低風險組患者(131例)相比生存時間更短,死亡人數更多,熱圖也顯示這13個lncRNAs的表達量在高、低風險組中差異有統計學意義。Kaplan-Meier生存曲線(見圖4B)表明,高風險組患者的總生存率較低(P<0.001)。ROC分析顯示,測試集中子宮內膜癌患者1、3、5年總生存率AUC分別為0.751、0.757、0.730(見圖4C)。

圖3 訓練集lncRNAs熱圖、Kaplan-Meier圖和ROC曲線圖
2.3 篩選的lncRNAs分子標簽模型與臨特征指標的聯合分析 本研究收集了子宮內膜癌患者的臨床信息,在訓練集中進行單因素Cox回歸分析,發現腫瘤臨床分期(HR=1.98,P<0.001)、腫瘤組織學分級(HR=2.89,P<0.001)與預后相關。構建臨床指標多因素Cox回歸預測模型Risk Score=(0.5231×腫瘤臨床分期)+(0.7608×腫瘤組織學分級),采用ROC預測模型效能,如圖5A所示,在訓練集中,患者1、3、5年總生存率AUC分別為0.678、0.767、0.801。進一步構建lnc RNAs分子標簽聯合臨床指標Cox回歸模型,ROC分析顯示,患者1、3、5年總生存率AUC分別為0.755、0.874、0.877(見圖5B)。在測試集中,ROC分析臨床指標和lncRNAs分子標簽聯合臨床指標Cox回歸模型的預測效能,患者1、3、5年總生存 率AUC分別為0.828、0.720、0.719和0.802、0.767、0.772(見圖5C-D)。綜合來看,無論在訓練集還是測試集中,lnc RNAs分子標簽聯合臨床指標模型預測效能最好。
2.4 子宮內膜癌的GSEA GSEA結果表明(見圖6),多條致癌通路在高風險組中富集,包括小分子泛素樣調節蛋白化通路(SUMO pathway)、PTK6調控的細胞周期(PTK6 regulates cell cycle)、微小染色體維持蛋白通路(MCM pathway),表明它們參與了子宮內膜癌的發生發展過程。相反,免疫相關和代謝通路在低風險組富集,如苯丙氨酸和酪氨酸代謝(p henylalanine and tyrosine metabolism)、TCRA通路(TCRA p athway)、阿爾法亞麻酸代謝 (Alpha linolenic acid metabolism)等。
子宮內膜癌是女性生殖系統腫瘤中一種最常見的類型[13],隨著對它的認識不斷深入,子宮內膜癌的診療和預后評估也取得了一定成效,但目前尚缺乏突破性進展,子宮內膜癌的個體化治療仍然面臨巨大的挑戰。

圖4 測試集lncRNAs熱圖、Kaplan-Meier圖和ROC曲線圖

圖5 ROC曲線對臨床指標預測模型及lncRNAs分子標簽聯合臨床指標模型的預測性能評價
本研究采用的LASSO Cox回歸算法與傳統的Cox回歸相比較,可以很好地解決高維特征數據的預后分析,有效避免多個變量間的共線性問題。此外,本研究構建的lncRNA分子標簽的風險評分模型綜合了13個lncRNA的表達信息,顯著提高子宮內膜癌預后評估能力。相關研究也表明,lncRNA分子標簽模型與單個lncRNA相比可以更好地評估腫瘤的預后,更具有臨床價值[14]。時間依賴的ROC曲線分析對1、3、5年的生存時間的預測也體現了該模型較強的魯棒性。而且預測的13個lncRNA中有部分已被報道與腫瘤發生密切相關,比如LINC01116分子與腫瘤的增殖以及凋亡相關,LINC01116可以靶向miR-520a-3p,影響IL6R通過JAK-STAT信號通路促進骨肉瘤細胞的增殖和遷移[15]。LINC01116還通過調節IFI44促進非小細胞肺癌吉非替尼耐藥[16]。在缺氧條件下,LINC00475沉默可以下調AGAP2,對神經膠質瘤產生抑制作用[17]。另外,本研究進一步構建了lncRNAs分子標簽聯合臨床指標模型,ROC曲線發現lncRNAs分子標簽聯合臨床指標模型可進一步提高預測效能。GSEA通路富集分析進一步揭示了細胞周期調控相關基因集在高風險組中有顯著富集,而免疫和代謝相關通路更多地在低風險組中富集,暗示不同通路的激活可以影響子宮內膜癌患者的預后。
但本研究也存在著一些局限:①未對本研究中13個lncRNA進行相關的腫瘤機制實驗研究,探索lncRNA是如何影響子宮內膜癌的增殖和凋亡,以及如何影響預后;②該數據集源于TCGA數據庫,沒有漢族人特有的子宮內膜癌數據,因此,未能驗證構建的Inc RNA標簽能否預測漢族人子宮內膜癌的預后。這些問題需要在以后的研究中進一步探討。
綜上所述,本研究利用公共數據庫挖掘,篩選并構建了子宮內膜癌預后13個差異lncRNA的分子標簽模型,可以把子宮內膜癌患者分為高風險組和低風險組,并為該疾病的預后預測以及患者的個性化治療方案提供指導依據,同時本研究策略也可以對其他腫瘤預后相關標志物的篩選提供有效參考。

圖6 子宮內膜癌的GSEA