魏思昂, 丁志文, 馮江浩, 郝琴琴, 馮 焱*
(1.山西農業大學生命科學學院, 太谷 030801; 2.復旦大學中山醫院, 心血管病研究所, 上海 200032)
乳腺癌是一種威脅女性生命的疾病,也是導致女性死亡的主要原因。在過去的20年里,與乳腺癌相關的研究已經引導我們在對乳腺癌的理解上取得了巨大的進步,從而獲得更好的治療方法。在所有惡性疾病中,乳腺癌被認為是絕經后婦女死亡的主要原因之一,占所有癌癥死亡人數的23%。臨床研究顯示,癌癥與心血管疾病存在密切關系,在患者死亡率中50%的癌癥患者是由于心血管疾病致死。這是一個全球性的問題,但由于婦女對乳房的自我檢查和臨床檢查的疏忽,診斷發現通常為晚期[1],乳腺癌患者幸存問題得到越來越多的關注。乳腺癌作為一種中位生存期相對較長的腫瘤,大量的長期帶瘤生存者往往死于非腫瘤死亡風險,其中最常見的死因便是心血管疾病[2-3]。在乳腺癌各個時期中,心臟疾病是導致患者死亡的最主要的非癌癥原因,主要包括心肌炎、冠心病、心梗、心力衰竭等。冠心病作為心血管疾病的其中一種,是乳腺癌患者最常見死亡的最終疾病。因此篩選乳腺癌-冠心病生物標志物對腫瘤心臟病的治療和預防起著積極意義。
現基于基因表達數據庫 (gene expression omnibus,GEO) 中篩選2個芯片數據集并進行分析乳腺癌患者冠心病相關差異表達基因 (differentially expressed genes, DEGs),利用生物信息學方法系統探討潛在的功能和相互作用靶點,確定與乳腺癌中冠心病相關的分子及相關信號通路,檢測乳腺癌患者主要差異表達基因的mRNA表達量和預后分析,以期探尋乳腺癌誘發的心血管發病機制中潛在的關鍵基因及其作用靶點。
從GEO中查找并篩選得到浸潤性乳腺癌和冠心病血液組織為研究對象,同時具有患者和正常對照組織樣本的兩個數據集:GSE73613 (浸潤性乳腺癌)、GSE23561 (冠心病),患者和正常對照組織樣本均來自人。為了鑒定健康與患病組織之間表達不同的基因,使用GEO2R工具鑒定出差異表達的基因,通過設置篩選條件為|log2FC|≥1.2,FC為差異倍數(fold change),P≤0.05。
采用SangerBox軟件對每個數據集組繪制火山圖,運用Draw Venn Diagram在線軟件對上述2個數據集的DEGs作Venn圖取乳腺癌心臟病標志物,2個數據集交集以上的DEGs用于后續分析。
利用DAVID在線分析工具對DEGs進行基因功能注釋(gene ontology,GO)功能富集分析,以了解其分子功能 (molecular function,MF)、參與的生物學過程和途徑 (biological process,BP) 及在細胞中組分和定位 (cellular component,CC),并進行京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路分析,并對信號通路進行可視化處理。
將獲得的DEGs導入STRING 數據庫以確定蛋白質-蛋白質相互作用信息 (protein-protein interaction information, PPI),應用Cytoscape 3.7.2軟件進一步構建PPI網絡并可視化。利用分子復合物檢測 (MCODE) 插件在顯著性mRNA水平表達的基因在PPI網絡中選擇重要的基因,P≤0.05均被認為有顯著性差異。
使用GEPIA網站分析PPI網絡中關鍵hub基因乳腺癌癌癥和正常組織表達量 (P≤0.05為顯著性差異);利用在線數據庫Kaplan-Meier Plotter對進行hub基因采用接收者操作特征曲線 (receiver operating characteristic, ROC) 分析乳腺癌患者預后狀況,隨訪周期為6個月。
本研究共包括2個基因數據集:GSE73613、GSE23561,分別繪制數據集火山圖,如圖1(a)、圖1(b)所示,紅色為上調基因,綠色為下調基因。其中GSE73613芯片2例浸潤性乳腺癌患者,2例健康人;GSE23561包含9例冠心病患者,6例健康人。差異表達基因是通過患者組織樣本與正常標本間對比篩選出來 (P≤0.05, |log2FC)|≥1.2)。通過Veen圖[圖1(c)]選擇得到基因286個。

圖1 差異表達基因分析Fig.1 Analysis of differentially expressed genes
為了確定篩選出來的DEGs的功能和機制,將這些不同表達的差異基因數據上傳到在線工具DAVID對DEGs進行KEGG途徑分析,DEGs主要集中在泛素蛋白轉移酶活性、糖蛋白結合、泛素蛋白連接酶結合方面發揮作用。參與的生物學過程主要涉及蛋白質結合的負調控、軸突延伸、干擾素β產生的正調控、細胞內信號轉導、CD8陽性T細胞增殖的調控、膜組件、枝晶形態發生、MyD88依賴性Toll樣受體信號通路的調控、細胞內轉運的負調控、凋亡過程、成纖維細胞增殖的正調控等。差異性表達基因主要富集在突觸后密度、質膜、核染色質、細胞外空間、生長錐、光感受器外段、Cul5環泛素連接酶復合物、Cul2環、泛素連接酶復合物、SAGA復合物、滑面內質網、質膜外側、樹突軸、中心粒部位。表1所示為部分GO富集分析結果。

表1 DEGs的GO富集部分結果Table 1 Partial results of GO enrichment of DEGs
KEGG通路分析表明,DEGs 主要在縫隙連接、腎素分泌、5-羥色胺能突觸、谷氨酸能突觸、血管平滑肌收縮、血小板活化、癌細胞蛋白多糖、局灶黏附、雌激素信號通路、Rap1信號通路、內源性大麻素逆行信號通路、催產素信號通路、cGMP-PKG信號通路、炎癥反應TRP通道、膽堿能突觸、趨化因子信號通路、癌癥信號通路、阿爾茨海默病、癌癥中心碳代謝、鈣信號通路、FOXO信號通路、唾液分泌、醛固酮合成與分泌、前列腺癌、Ras信號通路、晝夜節律的介導調節夾帶、GnRH信號通路、黑色素生成、內分泌及其他因子調節的鈣重吸收、MAPK信號通路、PI3K-Akt信號通路、HTLV-I感染等信號通路富集。基因個數分別為7(P=8.310 000 0)、 5(P=0.002 395 747)、 6(P=0.002 696 924)、 6(P=0.002 799 551)、 6(P=0.003 475 837)、 6(P=0.005 009 959)、 7(P=0.006 458 594)、 7(P=0.007 595 398)、 5(P=0.007 929 206)、 7(P=0.008 491 887)、 5(P=0.008 524 351)、 6(P=0.009 674 889)、 6(P=0.009 928 32)、 5(P=0.010 483 74)、 5(P=0.013 113 852)、 6(P=0.015 304 766)、 9(P=0.015 385 048)、 6(P=0.015 650 994)、 4(P=0.016 061 497)、 6(P=0.016 359 178)、 5(P=0.022 829 621)、 4(P=0.030 738 541)、 4(P=0.032 690 29)、 4(P=0.037 847 572)、 6(P=0.042 825 494)、 4(P=0.043 397 611)、 4(P=0.044 554 189)、 4(P=0.049 333 745)、 3(P=0.051 836 048)、 6(P=0.062 364 745)、 7(P=0.063 607 523)、 6(P=0.064 048 536),如圖2所示。

圖2 DEGs富集參與的信號通路Fig.2 Signal pathways involved in the enrichment of DEGs
為了進一步研究不同表達的DEGs在心肌肥厚中的作用,從STRING數據庫得到的286個基因使用Cytoscape軟件構建PPI網絡。為了更精準地分析這些基因的調控狀態,使用Kaplan-Meier Plotter對這286個基因進一步篩選出來45個mRNA表達量顯著性差異的基因。其中13個上調基因,32個下調基因,如圖3所示。紅色圓標注的基因為上調基因,包括NLN、MSR1、DNAJC12、OCIAD2、POSTN、SCCPDH、CCNB1、MAPT、TPM3、MYB、MYO6、ESR1、TNFSF13B;黃色圓標注的基因為下調基因,包括IRX4、SAMD4A、TIMP3、TFCPZL1、CMYA5、ACSL5、FAT4、C1S、NR4A3、CFH、FOXP2、PLA2R、DCN、SPRY1、CXCL3、TRIM29、FSTL1、MAP18、FBXO31、KALRN、SORBS2、CDO1、RUNX1T1、KIT、PDGFRA、PIK3R1、SPTBN1、DST、LAMA4、MAFF。

圖3 蛋白質-蛋白質互作網絡圖Fig.3 Protein-protein interaction network
接著依據基因間相互作用的緊密程度發現了8個基因用于后續分析。4個上調基因分別為NLN、POSTN、MAPT、MYO6;4個下調基因分別為MAP1B、FBXO31、KIT、PIK3R1。
利用GEPIA工具展示分析8個關鍵基因的mRNA基因表達量,結果如圖4所示,在乳腺癌患者中NLN、POSTN、MAPT、MYO6顯著性高表達,MAP1B、FBXO31、KIT、PIK3R1顯著性低表達。紅色盒子為癌癥組織mRNA表達量,灰色盒子為正常人組織mRNA表達量,P<0.01。Kaplan-Meier Plotter對8個hub基因進行預后分析如圖5所示,紅色曲線為基因高表達,黑色曲線為基因低表達。

MAPT、MYO6、NLN、POSTN、FBXO31、KIT、MAP1B、PIK3R1在癌癥患者和正常人組織差異表達情況, *為P<0.05圖4 關鍵hub基因mRNA在乳腺癌組織的表達量分析Fig.4 Analysis of the expression of key hub genes mRNA in breast cancer

MAPT、MYO6、NLN、POSTN、FBXO31、KIT、MAP1B、PIK3R1表達差異下癌癥患者生存曲線, HR為風險比,采用Logrank P模型檢驗圖5 hub 基因在乳腺癌患者中的ROC分析Fig.5 ROC analysis of hub gene in breast cancer patients
癌癥患者數量的增加和治療時間的延長,使得心血管并發癥的處理和治療引起的心臟毒性成為一個重要的問題,如何有效治療腫瘤心臟病也越來越受到重視[4]。癌癥并發性心血管疾病患者數量的增加,特別是乳腺癌誘發的冠心病患者數量,促使研究腫瘤心臟病有效生物標記物顯得尤為重要[5-7]。近年來,多項研究表明人類乳腺癌疾病存在心血管疾病相關的生物標志物并且在發生和發展中起著關鍵作用,但是大多數具體功能作用尚不清楚。本研究從 GEO 數據庫中獲取2個數據集,篩選出286個相關乳腺癌與冠心病共表達的DEGs,這些基因潛在的功能途徑,DEGs主要在泛素蛋白轉移酶活性、糖蛋白結合、泛素蛋白連接酶結合方面發揮作用。基于GEPIA數據庫篩選mRNA差異顯著表達基因45個,最后篩選出8個在乳腺癌中關鍵表達基因:NLN、POSTN、MAPT、MYO6、MAP1B、FBXO31、KIT、PIK3R1。以期為乳腺癌誘導的心血管疾病的研究和治療提供潛在的治療靶點。
功能富集分析表明,DEGs與泛素蛋白轉移酶活性、糖蛋白結合、泛素蛋白連接酶結合方面密切相關。泛素轉移酶和連接酶在靶蛋白的特異性識別以及泛素化系統活性的調控中起著最重要的作用。蛋白質泛素化是一種基本的翻譯后修飾,調節幾乎所有的細胞過程。泛素蛋白轉移酶的異常與多種疾病有關,如癌癥、帕金森、心肌炎等[5-7],而抑制心肌細胞泛素蛋白連接酶的降解,可改善活性氧誘導的心臟毒性[8]。糖基化修飾改變是癌癥的標志之一,它導致腫瘤相關的甘聚糖或糖蛋白的產生。這些分子隨后被分泌或膜脫落到血流中,從而成為腫瘤相關的標記物[9]。LOX-1是一種跨膜糖蛋白,在內皮細胞中,細胞黏附分子的表達增加,導致炎癥細胞向內膜的附著和遷移增加,然后分化為巨噬細胞。血管收縮劑的增加、ROS的增加、內皮型一氧化氮 (NO) 的耗竭,導致內皮功能障礙的惡化。且抑制LOX-1已被證實能減輕炎癥、氧化應激和動脈粥樣硬化[10]。
通過緊密連接程度篩選得到了8個關鍵hub基因模塊,NLN、POSTN、MAPT、MYO6、MAP1B、FBXO31、KIT、PIK3R1。NLN基因編碼是金屬肽酶M3蛋白家族的一個成員,研究表明其功能與腦腎素-血管緊張素系統及腦卒中的病理生理學有關[11-12]。POSTN是一種基質細胞蛋白,在各種正常成人和胎兒組織中均有表達。高水平的POSTN在心力衰竭,冠狀動脈疾病和中風極為顯著,因此可作為心血管疾病新的生物標志物[13-14]。MAPT基因編碼微管相關蛋白τ,MAPT基因異常表達與多種疾病有關,如乳腺癌[15]、心肌肥厚[16]、腦血管疾病等[17]。MYO6是一種反向運動的肌動蛋白,參與了細胞內吞和肌動蛋白動力學調節等多種細胞過程。Wang等[18]證明敲除MYO6抑制乳腺癌細胞增殖,這與本研究結果一致。MAP1B屬于微管相關蛋白家族的蛋白質。先前的研究證明MAP1B在神經系統的發育和功能中起著重要的作用,但是最近發現其與尿路上皮癌[19]和仔豬乳腺增生[20]也有關,因此在乳腺癌誘發的心血管中值得進一步研究。FBXO31在DNA損傷后G1期阻滯中起核心作用。特異性識別磷酸化細胞周期蛋白D1促進其泛素化和蛋白酶體降解,導致G1期阻滯,可以起到抑癌作用。上調miR-210逆轉了FBXO 31對乳腺癌增殖的抑制作用[21]。KIT和PIK3R1作為在心血管和癌癥疾病發揮作用的重要轉錄因子,在炎癥、細胞分化、癌癥、心血管疾病等均有影響[22-25]。并且最近研究表明PIK3R1驅動化生性乳腺癌伴隨鱗狀化的組織產生,為PIK3R1導致的乳腺癌可能存在其他病理性疾病提供了依據[26]。
綜上所述,通過一系列生物信息學分析,系統地探討DEGs在乳腺癌-冠心病中發生或發展的作用,篩選和鑒定到參與乳腺癌發生或發展的8個冠心病相關hub 基因:NLN、POSTN、MAPT、MYO6、MAP1B、FBXO31、KIT、PIK3R1。這些DEGs可能參與乳腺癌誘導的冠心病的發生、發展過程。研究結果將有助于進一步研究腫瘤心臟病學的發病機制,開發新的治療靶點和預后分子標記物。