毛昀,蔡亞芳,謝飛宇,薛鵬,朱世杰
1 中國中醫科學院望京醫院,北京100102;2 北京中醫藥大學研究生院
乳腺癌是全球女性發病率最高的惡性腫瘤,全球新診斷為乳腺癌患者人數占女性新發惡性腫瘤的24.2%,病死率占女性惡性腫瘤病死率的15%[1]。早期乳腺癌常常因癥狀不明顯而被忽視,大部分患者在確診時為中晚期,出現骨、肺、腦等部位的轉移[2]。研究[3]顯示,溶骨性骨轉移為晚期乳腺癌的常見并發癥,多伴有疼痛、病理性骨折等骨相關事件,嚴重影響患者生活質量。目前對晚期乳腺癌的轉移機制有了一定的探索。研究[4]發現,乳腺癌細胞分泌的Dkk1蛋白表達水平的高低能夠調控腫瘤細胞轉移到不同的靶器官,Dkk1蛋白處于高表達狀態時腫瘤細胞傾向于轉移到骨,而Dkk1蛋白處于低表達狀態時腫瘤細胞傾向于轉移至肺。近年來,生物信息學廣泛應用于基因組學的研究,這有助于探索惡性腫瘤的發病機制。本研究收集GEO數據庫中乳腺癌相關數據,利用生物信息學對相關基因進行篩選并構建轉移性乳腺癌患者的預后預測模型,為乳腺癌轉移患者的個體化治療策略提供依據。
1.1 轉移性乳腺癌組織基因表達數據集的選取與收集 利用NCBI平臺的GEO數據庫(http://www.ncbi.nlm.nih.gov/geo/)進行基因芯片篩選,關鍵詞設置為“轉移性乳腺癌”,下載有關數據集芯片GSE124648[5]。目標芯片納入標準為數據集應有正常乳腺組織標本、Ⅰ~Ⅲ期乳腺癌組織標本以及Ⅳ期轉移性乳腺癌組織標本,并有生存狀態和生存時間等數據,排除細胞株和動物實驗數據。GSE124648整合GSE124647、GSE129551、GSE124646等多個數據集的數據,并已進行標準化,包含10例正常乳腺組織標本、138例Ⅰ~Ⅲ期乳腺癌原發灶組織(HR+/HER2-)標本和140例Ⅳ期轉移性乳腺癌組織(HR+/HER2-)標本。140例Ⅳ期乳腺癌女性患者的平均年齡為55(32~82)歲,平均生存時間為24(0.16~126)個月,包含骨、肝、皮膚、肺、軟組織等部位的轉移。
1.2 轉移性乳腺癌組織差異表達基因(DEGs)的篩選及基因本體(GO)功能富集、京都基因和基因組百科全書(KEGG)信號通路分析 確定目標芯片后,利用在線工具GEO2R[6]分別尋找轉移性乳腺癌組織與乳腺癌原發灶組織、轉移性乳腺癌組織與正常乳腺組織之間的DEGs,利用Venny 2.1在線工具篩選上述DEGs的交集,找出轉移性乳腺癌組織特異性DEGs。篩選標準為:錯誤發現率(FDR)<0.01,|log FC|>1.5(FC,差異倍數),并將目標基因探針名稱轉化為標準基因名稱。通過DAVID[7](https://david.ncifcrf.gov/)網站在線分析轉移性乳腺癌組織特異性DEGs的基因簇和信號通路,以人源基因為背景進行GO功能富集、KEGG信號通路分析,明確轉移性乳腺癌作用位點和信號通路。
1.3 轉移性乳腺癌患者預后相關關鍵基因的篩選 將140例Ⅳ期乳腺癌患者數據集隨機分為訓練集(72例)和測試集(68例)兩個隊列,訓練集用于構建轉移性乳腺癌患者的預后預測模型,測試集用于檢驗預后預測模型的預測效能。將轉移性乳腺癌組織DEGs結合72例訓練集樣本中的生存數據通過R語言“survival”函數包進行單因素COX分析,篩選出與患者預后顯著相關的基因。將單因素COX分析得到的結果納入LASSO回歸分析,LASSO回歸通過構建懲罰函數對自變量的回歸系數進行壓縮控制,實現基因數據的降維,進而獲得與轉移性乳腺癌患者預后相關度更高的基因。隨后將LASSO回歸分析得到的基因通過多因素COX分析,得到與患者預后相關的關鍵基因。
1.4 轉移性乳腺癌患者預后預測模型的構建及驗證
1.4.1 訓練集轉移性乳腺癌患者預后預測模型的構建 通過LASSO&COX回歸分析確定每個與預后相關關鍵基因的回歸系數,從而構建出訓練集轉移性乳腺癌患者預后預測模型[8]:風險值=β1Exp1+β2Exp2+……+βnExpn。其中Exp為基因表達量,β指基因的多因素COX回歸分析中的回歸系數,N為與患者預后相關的基因數量。根據公式計算出訓練集每例患者的風險值,然后取風險值的中位數為截斷值,依據截斷值將訓練集患者區分為高風險組和低風險組,采用R語言“survival”包進行高、低風險組的Kaplan-Meier生存曲線分析,以“survival ROC”包繪制ROC曲線對預后預測模型進行預測效能評價。
1.4.2 測試集轉移性乳腺癌患者預后預測模型的驗證 為驗證預后預測模型的準確性,本研究以訓練集構建的預后預測模型計算出測試集(68例)每例患者的風險值,取風險值的中位數為截斷值,將測試集患者分為高風險組和低風險組,采用R語言“survival”包進行高、低風險組的Kaplan-Meier生存曲線分析,以“survival ROC”包繪制ROC曲線對預后預測模型進行預測效能評價。
2.1 轉移性乳腺癌組織DEGs的篩選及GO功能富集、KEGG信號通路分析結果 轉移性乳腺癌組織與乳腺癌原發灶組織之間存在421個DEGs,轉移性乳腺癌組織與正常乳腺組織之間存在1114個DEGs,其中287個DEGs為兩者共表達基因,屬于轉移性乳腺癌組織DEGs,包含29個高表達基因、258個低表達基因。|log FC|最大的30個基因分別為HBA、HBG、HBB、ALAS2、HBD、GAS1、CTGF、S100A8、KRT14、MFAP5、COL6A1、FBN1、SPON1、NID1、PPBP、IGH、EMILIN1、DKK3、ADAM12、DCN、COL5A2、SERPINE1、COL10A1、IGFBP7、POSTN、COL6A2、FBLN1、COL3A1、COL4A1和LAMB1。GO功能富集結果顯示,轉移性乳腺癌組織特異性DEGs在生物學過程中包括膠原蛋白分解代謝過程、血管生成、細胞黏附、細胞外基質分解、成纖維細胞增殖的調節、骨化等,在細胞組分中包括細胞外基質、胞外區、細胞外間隙、內質網腔等,在分子功能中包括細胞外基質結構成分、與整合素綁定、與鈣離子結合、與細胞外基質結合、與膠原結合等。KEGG信號通路分析結果顯示,DEGs主要涉及到細胞增殖、遷移、細胞外基質、免疫炎癥等方面,如黏著斑、細胞外基質及受體相互作用、PI3K-Akt信號通路、癌癥的途徑、p53信號通路、雌激素信號通路、MAPK信號通路等。
2.2 轉移性乳腺癌患者預后相關關鍵基因的篩選結果 訓練集的單因素COX回歸分析結果顯示,DEGs中有15個基因可能與患者預后相關,分別為PTPRB、MET、ZBTB20、LHFP、LAMA4、RNF144A、RARRES1、GEM、MMP7、NFIB、NFAT5、OLFML3、EGFR、SERPINB5和MAP4。隨后LASSO、多因素COX回歸分析發現,EGFR、GEM、PTPRB、RARRES1、LAMA4、NFAT5、LHFP等7個基因是轉移性乳腺癌患者預后相關關鍵基因(P<0.05),可作為獨立預后因素,其中LAMA4、LHFP基因是乳腺癌患者轉移的保護因素,而EGFR、GEM、PTPRB、RARRES1、NFAT5基因是轉移性乳腺癌患者的危險因素。
2.3 轉移性乳腺癌患者預后預測模型的構建及驗證結果
2.3.1 訓練集轉移性乳腺癌患者預后預測模型的構建結果 通過LASSO&COX回歸模型構建由7個預后相關關鍵基因組成的轉移性乳腺癌患者預后預測模型:風險值=(0.279×EGFR)+(0.704×GEM)+(0.326×PTPRB)+(0.138×RARRES1)+(-0.570×LAMA4)+(0.262×NFAT5)+(-0.555×LHFP)。根據公式計算出訓練集每例患者的風險值,取風險值的中位數1.22為截斷值,將72例患者分為高風險組(風險值>1.22,36例)和低風險組(風險值<1.22,36例)。Kaplan-Meier生存曲線分析結果顯示,高風險組患者的中位生存時間明顯低于低風險組患者,分別為18.22個月和49.97個月(P<0.001),見圖1。ROC對預后預測模型3年生存率的預測效能評價結果顯示,轉移性乳腺癌患者3年生存率的曲線下面積為0.787,見圖2,表明該模型可用于乳腺癌轉移患者預后的評估。

圖2 ROC對訓練集患者預后預測模型3年生存率的預測效能

圖1 訓練集轉移性乳腺癌轉移患者高、低風險組Kaplan-Meier生存曲線
2.3.2 測試集轉移性乳腺癌患者預后預測模型的驗證結果 測試集68例患者中,高風險組38例、低風險組30例。Kaplan-Meier生存曲線分析結果顯示,高風險組患者的中位生存時間明顯低于低風險組患者,分別為17.48個月和47.34個月(P<0.05)。ROC對預后預測模型3年生存率的預測效能評價結果顯示,轉移性乳腺癌患者3年生存率的曲線下面積為0.785,表明該模型在乳腺癌轉移患者預后評估中具有良好的預測效能。
乳腺癌的轉移是一個復雜的過程,可通過Paget的“種子與土壤”[9]理論進行闡述:腫瘤細胞在腫瘤組織局部侵襲、滲透入血管,隨之進入循環系統和/或淋巴細胞播散,滲入遠隔器官或組織,導致微轉移灶的發生,最終出現一系列轉移瘤的癥狀和體征,分子機制涉及上皮細胞間充質轉化、細胞外基質降解、組織缺氧、血管生成等多個環節。
本研究通過GEO數據庫檢索獲得GSE124648數據集,分析獲得287個乳腺癌轉移相關的DEGs,包含編碼基質蛋白的基因(COL1A2、COL15A1、COL11A1等)、趨化因子及其受體基因(CXCL12、CXCL14、CXCR2等)、基質金屬蛋白酶基因(MMP2、MMP7、MMP14等),通過GO功能富集和KEGG信號通路分析發現,DEGs涉及的作用機制包括乳腺癌細胞增殖和遷移、細胞外基質調節降解、血管生成等方面。在細胞增殖和遷移方面,趨化因子在轉移形成中具有重要作用,如CXCL12促進腫瘤細胞向靶向器官歸巢,而骨及骨髓系統表達CXCR4,CXCL12/CXCR4軸協同促進乳腺癌細胞種植于骨,腫瘤細胞經歷定植、休眠、再活化、增殖與侵襲等四個階段,加速骨溶解與骨吸收過程,進入“骨惡性循環”狀態[10]。本研究亦發現,多個趨化因子及其受體基因呈異常表達狀態。此外,最近研究[11]顯示,E-鈣黏蛋白在乳腺癌的轉移過程中具有重要作用,在不同情況下扮演不同的角色。在乳腺癌早期,E-鈣黏蛋白的缺乏有利于癌細胞的增殖,促進腫瘤在局部快速生長,但轉移能力較弱;而轉移瘤或循環腫瘤細胞常高表達E-鈣黏蛋白,其作用機制為E-鈣黏蛋白能夠限制活性氧介導的細胞凋亡作用,促進癌細胞的存活,從而加速浸潤性導管癌的轉移進程。細胞外基質是腫瘤組織的重要組成部分,包含成纖維細胞(CAF)、脂肪細胞等,而腫瘤細胞亦分泌各類生長因子,兩者相互影響促進乳腺癌細胞的生長、侵襲和轉移[9]。研究[12,13]顯示,乳腺癌組織中CAF高表達的MMP-9通過激活TGF-β/SMAD通路顯著增強癌細胞的侵襲性;亦能夠通過高表達MMP-2、MMP7等基因直接降解細胞外基質,從而促進乳腺癌細胞侵入血液和淋巴管系統等。
本研究發現,EGFR、GEM、PTPRB、RARRES1和NFAT5的表達水平與預后呈負相關,屬于乳腺癌轉移的危險因素。EGFR是存在于細胞膜表面的酪氨酸激酶受體,在乳腺癌轉移過程中占有重要地位[14];15%~30%乳腺癌患者中存在EGFR過表達的現象,這部分患者預后較差[15]。GEM是在人類外周血T細胞中被發現的小GTP結合蛋白,能夠影響肌動蛋白的細胞骨架重塑和細胞的黏附功能、導致黏著斑數量的減少[16]。研究[17]表明,GEM在膀胱癌和神經母細胞瘤中呈異常表達狀態。在惡性腫瘤中,PTPRB的過表達能夠減少波形蛋白的分泌、促進E-鈣黏蛋白的表達,并有利于腫瘤細胞的上皮間充質轉化,從而促進腫瘤的侵襲和轉移,亦能夠誘導新生血管的形成[18]。RARRES1在三陰性乳腺癌中是抑癌基因,但在部分乳腺癌患者中呈高表達狀態,并與較差的臨床結局存在相關性,其機制可能是通過促進致癌基因Axl的表達,達到促進乳腺癌的生長和侵襲的目的[19,20]。活化T 細胞核因子(NFAT)家族包括NFAT1、NFAT2、NFAT3、NFAT4和NFAT5,能夠促進腫瘤的發生、血管形成等,在浸潤性導管癌中過表達的主要是NFAT1和NFAT5兩種亞型,其中NFAT5夠調節乳腺癌上皮細胞的侵襲、遷移。本研究發現,LAMA4和LHFP的表達水平與患者的預后呈正比,發揮著保護作用。研究[21]顯示,LAMA4廣泛分布于間充質來源的組織和某些上皮基底部,過表達的LAMA4預示著ER陰性患者的無復發生存率較差,但在HR+/HER2-乳腺癌人群中的研究較少。本研究結果表明,LAMA4是保護性因素,該結論尚需進一步實驗驗證。關于LHFP與腫瘤的相關性研究較少。有研究[22]指出,LHFP是HMGIC在脂肪瘤中的易位伴侶基因。
本研究通過LASSO&COX回歸模型分析287個DEGs與轉移性乳腺癌患者預后的相關性,通過訓練集構建了由7個基因組成的預后預測模型。依照該模型計算每例患者的風險值,發現風險評分越高的患者預后越差,并成功地在訓練集中將乳腺癌轉移患者分為高風險組和低風險組。采用Kaplan-Meier生存曲線分析的結果表明,高風險組患者中位生存時間明顯低于低風險組患者;而訓練集的3年生存率AUC為0.787亦表明該模型可用于乳腺癌轉移患者預后的評估,該點同樣在測試集中得到證實,說明該模型具有較好的預測效能。
綜上所述,本研究通過GEO數據庫中的芯片數據深入挖掘DEGs,探索相關基因在轉移性乳腺癌發生過程中的作用,并篩選出EGFR、GEM、PTPRB、RARRES1、LAMA4、NFAT5、LHFP等7個基因與患者的預后具有密切關系,基于上述7個基因構建的預后預測模型能夠為晚期乳腺癌患者的個體化治療策略提供一定依據。