吳安山,艾紅艷,廖 妮,易堅勝,譚米多*
(1.湖南省株洲市中心醫院腫瘤科,湖南 株洲 412007;2.湖南省株洲市中心醫院日間手術中心,湖南 株洲 412007;3.湖南省株洲市中心醫院乳腺外科,湖南 株洲 412007)
乳腺癌是女性最常見的惡性腫瘤,其發病率呈逐年上升的趨勢,研究顯示,2018年全球乳腺癌新發病例約208萬,死亡63萬[1];在我國2015年乳腺癌發病率占女性腫瘤的15%,病死率達69.5/1 000人[2]。治療后復發轉移仍是乳腺癌死亡的主要原因。隨著對乳腺癌研究的深入,免疫治療和靶向治療的發展,乳腺癌的病死率明顯下降,但復發和轉移仍是目前臨床治療中急需解決問題之一。因此深入研究乳腺癌發生發展分子生物學機制,尋找乳腺癌早期診斷及預后評估的分子生物學標志物至關重要。隨著基因芯片技術、高通量測序和精準醫學的快速發展,研究發現長非編碼RNA(long noncoding RNA,LncRNA)在腫瘤的發生發展中發揮著重要作用,對腫瘤的早期診斷及預后評估具有重要的臨床應用價值[3]。并且在腫瘤中LncRNA對免疫細胞浸潤、抗原識別、腫瘤細胞清除等免疫應答中發揮十分重要的調控作用[4]。既往研究顯示多種LncRNA如SNHG12、CCHE1、LINC01833、LINC00536和LINC02725的表達與乳腺癌發生發展及預后密切相關,可作為乳腺癌預后標志物[5-7]。最近也有研究報道在乳腺癌中LncRNA表達譜預測模型的構建,并證實與乳腺癌預后顯著相關[6]。本研究通過下載癌癥基因組圖譜(the cancer genome atlas,TCGA)中1 041例乳腺癌患者轉錄組測序數據和臨床預后信息,探討乳腺癌中免疫相關LncRNA表達與腫瘤預后的關系,通過篩選乳腺癌患者預后相關免疫LncRNA,構建準確預測乳腺癌患者預后的預后風險模型,為乳腺癌患者預后評估提供指導。
1.1材料來源 本研究從TCGA 數據庫(https://cancergenome.nih.gov/)下載1 041例乳腺癌組織樣本轉錄組數據,所有樣本均包含完整的高通量測序counts數據,同時下載乳腺癌患者的臨床數據。包括:年齡、TNM分期、腫瘤分期、淋巴結轉移、遠處轉移、總生存時間和生存狀態;排除生存期<30 d、臨床分期不明確以及預后信息不詳的乳腺癌患者。數據下載截止日期到2020年10月11日TCGA收錄的乳腺癌轉錄組數據。
1.2獲取LncRNA表達矩陣 從TCGA 數據庫(https://cancergenome.nih.gov/)下載1 041例乳腺癌轉錄組數據相應的manifest和metadata文件,使用Perl軟件及語言腳本提取乳腺癌原始的counts數據,從Ensembl數據庫(https://asia.ensembl.org/index.html)下載Homo-sapiens.GRCh38.95.chr.gtf.gz文件,進行轉錄組數據表達譜id轉換,得到gene symbol乳腺癌基因表達譜矩陣,使用Perl語言腳本提取其中的乳腺癌LncRNA的表達譜矩陣。
1.3獲取乳腺癌免疫相關LncRNA 從GSEA數據庫(https://www.gsea-msigdb.org/gsea/index.jsp)下載免疫相關基因集(Immune response M19817,Immune system process M13664),使用Perl語言腳本獲取乳腺癌免疫相關基因,進一步通過R語言的“limma”包使用共表達方法,以相關系數Cor>0.6和P<0.001提取乳腺癌免疫相關LncRNA[8]。
1.4獲取乳腺癌預后相關LncRNA構建預后風險模型 使用R軟件中的survival包對1 041例乳腺癌免疫相關LncRNA表達矩陣進行單因素Cox回歸篩選免疫預后相關LncRNA,進一步納入多因素Cox回歸分析,根據Akaike Information Criterion(AIC)確定最佳LncRNA建立多基因預后風險模型,基于所選擇的LncRNA基因表達量乘以多因素Cox回歸系數之和計算每例患者的風險值(risk score),根據中位風險值將乳腺癌患者分為低風險組和高風險組。
1.5統計學方法 應用R軟件(4.0.4版),采用Kaplan-Meier生存分析對兩個亞組預后差異進行檢驗,并繪制生存曲線,同時繪制生存預測的ROC曲線,并計算曲線下面積AUC值對預后風險模型進行驗證。同時結合臨床病理信息及每例患者的risk score值進行單因素和多因素Cox回歸分析,并繪制森林圖,對預后風險模型進行驗證。P<0.05為差異有統計學意義。
2.1病例特征 本研究共納入1 041例乳腺癌患者,年齡26~90歲,平均(58.19±13.20)歲。臨床病理特征見表1。

表1 1 041例乳腺癌患者臨床病理特征Table 1 Clinicopathological characteristics of 1 041 breast cancer patients
2.2免疫相關LncRNA與乳腺癌患者預后關系 從Ensembl數據庫下載Homo-sapiens.GRCh38.95.chr.gtf.gz文件,進行id轉換,得到gene symbol乳腺癌基因表達譜矩陣,使用Perl語言腳本提取其中的乳腺癌14 142個LncRNA的表達譜矩陣。從GSEA數據庫下載免疫相關基因集Immune response M19817和Immune system process M13664,使R語言的“limma”包以共表達方法,設定相關系數Cor>0.6和P<0.001提取乳腺癌免疫相關LncRNA共644個。使用R軟件中的“survival”包對644個乳腺癌免疫相關LncRNA表達矩陣進行單因素Cox回歸篩選免疫預后相關LncRNA 14個。見表2。

表2 單因素Cox回歸分析篩選乳腺癌免疫預后相關LncRNATable 2 Univariate Cox regression analysis to screen breast cancer immune prognosis-related LncRNA

表2 (續)
2.3預后風險模型的構建和評價 使用R軟件中的“survival”包對免疫相關LncRNA表達矩陣進行單因素Cox回歸篩選免疫預后相關LncRNA14個,進一步納入多因素Cox回歸進一步進分析,根據最佳AIC值確定6個LncRNA建立多基因預后風險模型(圖1,表3),基于所選擇的LncRNA基因表達量乘以多因素Cox回歸系數之和計算每例患者的風險值(risk score),根據中位風險值將乳腺癌患者分為低風險組和高風險組(圖1)。采用Kaplan-Meier法對兩組患者進行生存分析,并繪制生存曲線,兩組乳腺癌患者預后差異有統計學意義(圖2,P<0.05)。同時繪制生存預測的ROC曲線,曲線下面積AUC值為0.703(圖3),顯示該預后風險模型對乳腺癌患者的生存預后具有較好的預測能力。

表3 多因素Cox回歸分析篩選構建預后風險模型的免疫相關LncRNATable 3 Multivariate Cox regression analysis to screen immune-related LncRNAs for constructing prognostic risk models

圖1 預后風險模型

圖2 兩組乳腺癌患者預后風險模型Kaplan-Meier生存曲線

圖3 乳腺癌預后風險模型的ROC曲線
2.4預后風險模型的臨床應用 進一步驗證預后風險模型在臨床中的應用,結合臨床病理信息及每例患者的risk score值進行單因素和多因素Cox回歸分析,并繪制森林圖,結果顯示患者年齡和患者風險評分為乳腺癌預后的獨立危險因素(P<0.05)。見圖4。

圖4 乳腺癌臨床病理參數及風險值Cox回歸森林圖
在我國乳腺癌的發病率已居女性惡性腫瘤的首位[2]。目前,對乳腺癌的治療以手術、內分泌治療、放療、化療和靶向治療為主的綜合治療,使得乳腺癌的病死率較前得到明顯的控制,但經過綜合治療后轉移和復發仍是乳腺癌死亡的主要原因。研究顯示乳腺癌是一種基因高度異質的惡性腫瘤,使得常規的臨床病理評估無法精準的預測乳腺癌患者的生存預后[9]。因此尋找乳腺癌早期診斷、評估風險及預后評估的分子標志物對乳腺癌的臨床治療至關重要。隨著大數據時代的到來,基因芯片技術和高通量測序獲得飛速發展,精準醫學也得以慢慢實現,對于腫瘤的發生發展規律也逐漸揭露。
LncRNA是指長度>200 bp并且不具備蛋白編碼功能的RNA,研究發現LncRNA在腫瘤的發生、發展和腫瘤細胞的浸潤轉移過程中扮演著十分重要的角色,對腫瘤的早期診斷及預后評估具有重要的價值[3]。同時在多種腫瘤中研究發現免疫相關LncRNA是其生物標志物,可作為其潛在的治療靶點,與腫瘤的生存預后顯著相關[10-11]。最近在乳腺癌中也研究發現多種LncRNA 表達異常且參與其發生發展及轉移的過程[5-7]。
本研究通過下載癌癥基因組圖譜(the cancer genome atlas,TCGA)中1 041例乳腺癌患者轉錄組測序數據和臨床預后信息,進行全面分析,建立基因6個免疫相關LncRNA的預后風險模型。并且研究發現該模型可以較好的預測乳腺癌患者的生存預后,同時發現風險評分為乳腺癌患者預后的獨立危險因素。其中6個免疫相關LncRNA中LINC00668和SP2-AS1為危險基因,BAIAP2-DT、AL122010.1、AL606834.2和LINC01871為保護基因。既往研究顯示LINC00668在乳腺癌組織中高表達,通過抑制乳腺癌細胞凋亡和加速細胞周期進程來促進乳腺癌的發生發展[12]。并且有學者研究發現LINC00668通過與SND1相互作用促進乳腺癌的轉移和化療耐藥性,可作為乳腺癌的潛在治療靶點。同樣也有研究發現LINC00668與乳腺癌預后顯著相關[13]。Ruiz-Narvez等[14]也研究發現BAIAP2-DT與乳腺癌單核苷酸多態性顯著相關。同樣Li 等[13]在乳腺癌研究中發現AL122010.1出現低表達,為乳腺癌保護基因,與其預后顯著相關。在肝癌預后風險模型的研究發現LINC01871為其保護基因,作為模型構建基因與肝癌預后顯著相關[15]。同樣在乳腺癌的研究中也發現LINC01871為其保護基因,與其預后顯著相關[13]。而SP2-AS1和AL606834.2目前尚無相關研究報道,在乳腺癌中的作用機制也尚不明確,有待進一步研究。
基于TCGA數據庫,篩選出6個免疫相關LncRNA與乳腺癌患者預后的顯著相關,并構建預后風險模型用于預測乳腺癌患者的生存預后,結合臨床信息進行驗證顯示預后風險模型可作為乳腺癌獨立危險因子,為乳腺癌獨立預后生物標志物。可有效的評估乳腺癌患者的生存預后,為臨床醫師評估乳腺癌患者治療療效提供參考指標。并且預后風險模型中的6個LncRNA可能為探索乳腺癌的免疫治療提供新的治療靶點,同時本研究也一定的局限性,首先,這是一項回顧性研究,使用了來自TCGA數據庫的數據,該數據缺乏有關治療的信息;其次研究基于可公開獲取的TCGA數據庫中1 041例患者,臨床數據有效從而限制了模型的預測性能;最后目前6個LncRNA在乳腺癌中分子作用機制和相關信號通路尚不清楚,仍需進一步研究。