劉敏, 黃健,, 晏嬌艷, 楊燁, 袁艷, 何蕓, 宋孝晗, 莫非,, 羅昭遜, 張姝,**
(1.貴州醫科大學 醫學檢驗學院 臨床檢驗基礎與血液學教研室, 貴州 貴陽 550004; 2.貴州醫科大學附屬醫院 臨床檢驗中心, 貴州 貴陽 550004; 3.貴州醫科大學 兒科學院, 貴州 貴陽 550004)
乳腺癌(breast cancer, BC)是發生在乳腺上皮組織的惡性腫瘤[1],由于其發病早期缺乏典型性和特異性臨床癥狀及體征,多數患者臨床確診時已發展至中晚期,成為導致女性BC死亡的最大原因[2]。目前臨床診斷BC常用的病理學、影像學及血清腫瘤標志物等方法存在的某些不足,限制了它們在BC診斷中的應用。隨著基因組技術的發展,生物信息學廣泛應用于基因表達譜分析,可以有效地識別差異表達基因(differentially expressed genes, DEGs)及其作用的相關通路,也發現某些疾病特異性的生物標志物[3-4]。因此,本研究利用生物信息學相關工具從基因表達數據庫(gene expression omnibus,GEO)中檢索并整合分析與BC相關的數據集獲得DEGs,預測其功能及在BC中的作用;選取乳腺外科30對BC組織及癌旁組織,從mRNA水平和蛋白質層面驗證其表達,同時采用Cmap (connectivity map, Cmap)數據庫分析和挖掘與DEGs具有相互作用的候選化合物,以期為研發治療BC的潛在化合物提供新的思路。
1.1.1數據集 從GEO數據庫下載3個獨立的BC微陣列數據集GSE109169、GSE42568和GSE15852。GSE109169數據集基于GPL5175(HuEx-1_0-st) Affymetrix Human Exon 1.0 ST Array[transcript (gene) version] 平臺,包括25例BC組織樣本和25例正常乳腺組織;GSE42568中有104例BC組織樣本和17例正常乳腺組織,是基于GPL570(HG-U133_Plus_2) Affymetrix Human Genome U133 Plus 2.0 Array平臺檢測的;GSE15852數據集基于GPL96(HG-U133A) Affymetrix Human Genome U133A Array平臺,包含的BC組織樣本和正常乳腺組織均為43例。
1.1.2樣本收集 收集2015年1月—2018年12月乳腺外科30對BC組織及癌旁組織(距腫瘤邊緣2~5 cm),均為女性,36~69歲、平均55.5歲,所有患者均經病理學分析證實為BC,且為初次診斷。
1.1.3主要試劑及儀器 TRIzol試劑及引物合成(上海生工生物工程有限公司),PrimeScriptTMⅡ 1st Strand cDNA Synthesis Kit及實時熒光定量PCR試劑[寶日醫生物技術(北京)有限公司],RIPA裂解液、BCA試劑盒及蛋白Marker(北京索萊寶科技有限公司),兔抗人的11個關鍵基因(Hub)基因編碼的蛋白一抗(abcam公司,基因中英文名見表1),兔抗人GAPDH一抗(沈陽萬類生物科技有限公司),羊抗兔二抗(Proteintech公司)。普通PCR儀(美國Thermo Scientific公司),實時熒光定量PCR儀(Roche),Western blot電泳儀、轉印系統、曝光儀[伯樂生命醫學產品(上海)有限公司]。
1.2.1DEGs的識別 通過GEO2R篩選和鑒定BC組織和正常乳腺組織之間滿足條件的DEGs,以P<0.05和|log2FC|≥1為截斷值,其中log2FC<-1的DEGs認為是下調DEGs,log2FC≥1的DEGs認為是上調DEGs。使用Venn在線工具(http://bioinformatics.psb.ugent.be/webtools/Venn/)對3個獨立數據集中上調和下調的DEGs進行可視化,并將3者交集部分的重疊DEGs用于后續分析。
1.2.2DEGs的富集分析 利用DAVID數據庫(版本6.8,https://david.ncifcrf.gov/)[5]進行基因本體論(gene ontology, GO)功能和京都基因與基因組百科全書(kyoto encyclopedia of genes and genome, KEGG)富集分析,了解重疊DEGs的生物學功能和作用的途徑。通過EXCEL和R軟件包“ggplot2”對結果進行可視化,P<0.05認為差異具有統計學意義。

表1 11個Hub基因中英名全稱Tab.1 Identified 11 Hub genes
1.2.3蛋白互作(protein protein interaction, PPI)網絡的構建與模塊化分析 將篩選出的所有DEGs導入到STRING中進行蛋白質相互作用分析,采用Cytoscape (https://cytoscape.org/)軟件將PPI網絡可視化后,使用MCODE插件篩選PPI網絡中score>10的模塊,此外,將該模塊中Degree≥10的基因作為后續研究對象。
1.2.4Hub基因的生存分析與驗證 (1)以Kaplan Meier Plotter(http://kmplot.com/analysis/)在線工具為基礎,評價Hub基因在BC患者中的預后價值,并繪制Kaplan Meier生存曲線;利用基因表達譜交互分析(gene expression profiling interactive analysis, GEPIA)數據庫從基因層面驗證Hub基因在BC組織和正常乳腺組織中的表達情況,并將結果顯示在箱線圖中。(2)逆轉錄-實時熒光定量聚合酶鏈式反應(quantitative and reverse transcription polymerase chain reaction, qRT-PCR)驗證11個Hub基因在BC組織和癌旁組織中的表達:TRIzol法提取BC組織及癌旁組織總RNA,并使用 Nanodrop 2000 進行定量及純度測定,所得RNA均于-80 ℃保存;使用PrimeScriptTMⅡ 1st Strand cDNA Synthesis Kit將總RNA逆轉錄為cDNA后用于qRT-PCR,所用的引物序列見表2。(3)Western blot驗證11個Hub基因編碼的蛋白在BC組織和癌旁組織中的表達:RIPA裂解BC組織及癌旁組織并提取總蛋白,BCA法測定蛋白濃度;使用SDS-PAGE凝膠進行電泳,200 mA恒定電流轉膜2 h,5%脫脂牛奶封閉2 h,使用相應的一抗在4 ℃條件下孵育過夜,TBST洗膜3次后,將二抗于室溫下孵育1 h,孵育完成后TBST洗膜3次進行曝光。

表2 引物序列Tab.2 Primer sequences
1.2.5Hub基因編碼蛋白的免疫組織化學分析 (1)利用人類蛋白質圖譜(the human protein atlas, HPA)數據庫:明確Hub基因編碼的蛋白在BC組織和正常乳腺組織中的表達,并獲得具有代表性的免疫組織化學染色圖像。(2)免疫組織化學染色分析11個Hub基因編碼蛋白在BC組織和癌旁組織中的表達情況:將BC組織和癌旁組織用石蠟包埋,制成4 mm厚的切片,將切片脫臘、加熱修復抗原,使用山羊血清進行封閉,一抗4 ℃過夜、PBS清洗后加二抗37 ℃孵育30 min,使用二氨基聯苯胺(DAB)顯色,蘇木素復染30 s使細胞核顯色、脫水、中性樹膠封片,最后觀察11個Hub基因編碼蛋白的表達。
1.2.6候選化合物的鑒定 將篩選出的DEGs上傳到Cmap數據庫(https://portals.broadinstitute.org/cmap)。在排列的結果中,分數從-1~1表示藥物與上傳DEGs之間的相關性;負值高的化合物表明其與DEGs的相關性越高,并且更有可能用于治療[6]。本研究保留P<0.05且值為-0.8~-1的化合物,并將這些化合物導入PubChem Compound網站繪制它們的三維結構。
采用SPSS 24.0軟件進行統計分析,用非參數檢驗分析Hub基因或其編碼蛋白在BC中的表達,Kaplan-MeierPlotter數據庫分析Hub基因與BC患者預后的關系,P<0.05差異有統計學意義。
共篩選出294(110個上調、184個下調)、2 854(1 345個上調、1 509個下調)及818個(353個上調、465個下調)DEGs,這些DEGs在BC組織和正常乳腺組織中表達比較,差異有統計學意義(圖1A~C)。經Venn在線工具取交集,共鑒定出115個重疊的DEGs,其中26個上調、89個下調(圖1D~E)。

注:A~C分別為GSE15852(A),GSE42568(B)和GSE109169(C)的DEGs的火山圖,D~E為3個數據集中重疊DEGs的Venn圖,包括26個上調的DEGs (D)和89個下調的DEGs (E)。圖1 正常乳腺組織與BC組織中DEGs篩選結果Fig.1 Screening results of DEGs in normal breast tissue and BC tissue
2.2.1分子功能(molecular function, MF) 上調的基因主要富集在蛋白質結合和染色質結合,下調的基因主要富集在肝素結合和酮類固醇單加氧酶活性等。
2.2.2細胞組分(cellular component, CC) 上調的基因主要涉及紡錘體微管、微管細胞骨架和核染色質等,下調的基因主要涉及細胞外間隙和細胞外基質等。
2.2.3生物過程(biological process, BP) 上調的基因主要富集在細胞有絲分裂G2/M期過渡、DNA復制、細胞增殖的正調控和有絲分裂姐妹染色單體分離涉及的轉錄調控等,下調的基因主要富集在血管生成、磷脂酰肌醇3-激酶信號的正調控和肽基酪氨酸磷酸化的正調控中(圖2A~B)。
2.2.4KEGG pathway結果 上調的DEGs富集在2條通路中(P>0.05,圖2C),下調的DEGs主要富集在PPAR signaling pathway(hsa03320)、AMPK signaling pathway(hsa04152)和Adipocytokine signaling pathway(hsa04920)等通路中(圖2D)。

注:A~B分別為上、下調DEGs顯著富集的GO條目,C~D分別為上、下調DEGs顯著富集的KEGG條目,DEGs為差異表達基因,GO為基因本體論,KEGG為京都基因和基因組百科全書。圖2 BC中上調和下調差異表達基因的GO與KEGG富集結果Fig.2 GO annotation and KEGG enrichment results of up-regulated and down-regulated DEGS in BC
構建115個重疊DEGs的PPI網絡,共包含115個節點和368條邊(圖3A),此外,識別了MCODE得分>10的子模塊(圖3B),該模塊包含20個點,94條邊。同時,用模塊中Degree>10的11個Hub基因繪制PPI網絡圖(表1,圖3C),并將以上基因作為Hub基因進行進一步的生存分析。

注:A為3個數據集的DEGs構成的PPI網絡,B為MCODE得分>10的子模塊,紅色節點表示上調的DEGs,藍色節點表示下調的DEGs,C為子模塊中Degree>10的Hub基因,DEGs為差異表達基因,PPI為蛋白互作。圖3 蛋白質-蛋白質相互作用網絡的構建和Hub基因的鑒定Fig.3 Construction of protein-protein interaction network and identification of Hub genes
與癌旁組織或正常乳腺組織比較,BC組織中上述11個HubmRNA的表達上調,且其編碼的蛋白表達也上調,這與GEPIA數據庫分析所得結果趨勢一致(P<0.05,圖4A~C)。如圖4D所示,Kaplan-Meier-Plotter分析表明11個Hub基因均與BC患者的總體生存期(overall survival, OS)相關(P<0.05)。

注:A為qRT-PCR檢測EZH2在BC及相應的癌旁組織中的表達,B為EZH2的Western blot表征結果,C為GEPIA數據庫中EZH2的表達,紅色代表BC組織,灰色代表正常乳腺組織,D為EZH2的生存曲線;(1)與癌旁組比較,P<0.05。圖4 BC患者中11個Hub基因及其編碼蛋白的驗證結果及生存曲線(以EZH2為例)Fig.4 Verification results and survival curves of 11 Hub genes and their encoded proteins in BC patients (take EZH2 as an example)
免疫組織化學染色結果顯示,11個Hub基因編碼的蛋白在正常乳腺組織中呈現弱染色,而在BC組織中呈現強染色,這與HPA數據庫觀察到的11個Hub基因編碼的蛋白表達情況一致(圖5A~B)。

注:A為EZH2免疫組化結果,B為HPA數據庫所得EZH2的免疫組化結果;(1)與BC組比較,P<0.05。 圖5 HPA數據庫及免疫組化分析11個Hub基因的表達(以EZH2為例)Fig.5 HPA Database and Immunohistochemical analysis of the expression of 11 Hub genes and their encoded proteins(take EZH2 as an example)
基于Cmap數據庫的預測,本研究以P<0.05和連接性分數為-8~-1為截斷標準,共獲得6個化合物,分別為DL-thiorphan、repaglinide、phenoxybenzamine、cortisone、rottlerin和gliclazide (表3),這些化合物的負值較高,提示這些化合物具有逆轉BC相關的DEGs的能力。此外,圖6中展示了這些排名靠前的化合物的3D分子結構示意圖。

表3 Cmap數據庫識別的潛在的具有抗BC功能的化合物Tab.3 Potential compounds with anti-BC function identified by Cmap database

注:A為DL-thiorphan,B為Repaglinide,C為Phenoxybenzamine,D為Cortisone,E為Rottlerin,F為Gliclazide。圖6 Cmap數據庫分析獲得的6個候選化合物的3D化學構象Fig.6 3D chemical conformation of 6 candidate compounds obtained by Cmap database analysis
BC是女性最為常見的惡性腫瘤之一,且發病率逐年增長,成為威脅女性健康的“頭號殺手”,BC的診斷、治療及預后已成為當代學者研究的熱點。為了解BC患者DEGs的潛在生物學功能及它們與患者預后的關系,本研究利用綜合的生物信息學分析篩選出115個重疊的DEGs,其中26個上調、89個下調。為挖掘DEGs的關聯性及其中的Hub基因,本研究進行了PPI分析和模塊分析,共獲得11個Hub基因(SMC4、GINS2、CDC45、EZH2、RRM2、MELK、PRC1、CDK1、HMMR、TOP2A和AURKA)。利用GEPIA數據庫分析這些Hub基因的表達差異,通過qRT-PCR進行驗證,發現它們在BC中的表達均上調,這一結果與GEO數據庫中的趨勢一致,本研究通過HPA數據庫、Western blot和免疫組織化學染色進一步觀察并驗證上述基因編碼的蛋白質在BC中的表達,也呈現相同的表達趨勢。為進一步研究其生物學功能和作用途徑,本研究通過DAVID數據庫對這些重疊的DEGs進行GO與KEGG富集分析,結果表明它們富集的GO條目主要有蛋白質結合(protein binding)、肝素結合(heparin binding)、細胞增殖的正調控和血管生成等方面;KEGG pathway分析結果主要包含p53信號通路、PPAR信號通路(hsa03320)和AMPK信號通路(hsa04152),研究表明這些通路與BC的發生發展有關[7-9]。以上結果說明DEGs可能通過這些信號通路來發揮作用。
本研究發現11個Hub基因與腫瘤密切相關,其中EZH2可以調控蛋白質的磷酸化過程。EZH2是PRC2的核心成分,在早期發育中具有重要作用,其失調與各種腫瘤的發生密切相關,可通過組蛋白修飾和沉默表觀遺傳基因而促進上皮惡性腫瘤[10]。Moore等[11]發現EZH2通過磷酸化p38蛋白,促進BC轉移。Zheng等[12]發現EZH2在口腔鱗狀細胞癌中表達上調,過表達的EZH2通過在pY705位點磷酸化STAT3,減少了FoxO1的表達,促進口腔鱗癌細胞上皮-間充質轉化、遷移和侵襲。李朝夕等[13]的結果顯示EZH2與BC密切相關,相對于癌旁組織,EZH2蛋白在BC組織中的表達上調,其可能是BC細胞增殖、浸潤和轉移的關鍵分子。GO分析表明MELK、CDK1、HMMR和AURKA這4個基因均與細胞周期調控相關,其中,MELK是一種新的癌基因,屬于絲氨酸/蘇氨酸激酶Snfl/AMPK家族中的成員。大量研究表明,MELK是細胞周期調控因子,對有絲分裂過程至關重要[14]。Tang等[15]通過Transwell實驗和Western blot發現MELK可能通過上調Twsit1、Slug、MMP7和N-cadherin促進肺腺癌的遷移和侵襲,此外,他們還發現抑制MELK的表達可誘導肺癌細胞的凋亡。CDK1的激活可以磷酸化靶蛋白并產生相應的生理效應,如調節細胞周期和促進細胞增殖。李振淼等[16]發現miR-383通過下調CDK1等細胞周期相關蛋白的表達抑制小鼠卵泡顆粒細胞的增殖。HMMR是一種致癌基因,在多種腫瘤中高表達,不僅在腫瘤的發生發展中發揮重要作用,還可以促進肺腺癌的轉移[17]。AURKA屬于絲氨酸/蘇氨酸激酶家族,它作為一種致癌基因,在多種癌癥中高表達,如腎上腺皮質癌、肝細胞癌和前列腺癌等。研究報道稱AURKA的上調可促進細胞增殖,與膀胱癌的不良預后相關[18]。
本研究還發現GINS2、RRM2和CDC45這3個基因均與DNA的復制或修復相關。GINS2是GINS復合物的成員,在DNA復制過程中發揮重要作用[19]。研究報道稱GINS2在多種侵襲性腫瘤中表達上調,Yu等[20]通過綜合的生物信息學分析表明GINS2可作為BC患者預后的生物標志物,這與本研究的結果一致。RRM2是一種參與DNA修復和合成的限速酶,在Mazzu等[21]的研究中,他們在前列腺癌細胞中敲低RRM2,發現其致癌能力受到抑制,而過表達RRM2則促進前列腺癌細胞的上皮-間充質轉化,此外,他們還在臨床隊列中證實了RRM2的高表達與前列腺癌患者的不良預后相關。CDC45作為DNA復制的起始因子,研究表明在非小細胞肺癌(non-small-cell lung cancer,NSCLC)中,CDC45的下調誘導G2/M期細胞周期阻滯并在體外和體內抑制細胞增殖,它可能是NSCLC中的致癌基因[22]。此外,SMC4、PRC1和TOP2A均被報道在細胞分裂過程中發揮重要作用。SMC4是SMC家族中的一員,在細胞分裂中起著至關重要的作用[23],研究表明,SMC4在舌鱗癌細胞、結直腸癌、肝癌和BC等多種癌癥中表達上調。鄭世楊等[24]的研究表明敲低SMC4基因的表達可抑制MDA-MB-231細胞的增殖、遷移及侵襲能力,其機制可能與PI3K/AKT信號通路的激活相關。PRC1蛋白是一種微管相關蛋白,與細胞的有絲分裂相關,它被報道在包括宮頸癌和BC在內的多種癌癥中表達上調,且韓兆東等[25]發現PRC1的高表達與前列腺癌的惡性程度及患者的預后相關,但其具體機制有待進一步探索。TOP2A在DNA合成,轉錄以及有絲分裂過程中染色體分離時起重要作用[26]。TOP2A基因位于17q12-21,其表達與細胞增殖[27]和細胞周期[28]有關。
由于新藥開發是一個耗時、高風險的過程,在這種情況下,通過基因表達譜技術尋找抗BC的藥物靶點,利用藥物重新定位技術探索現有藥物的新療效,可成為提高藥物開發投入產出比、降低失敗風險的有效措施[29]。本研究共鑒定了6個候選的化合物,其中Rottlerin是一種從天然植物中提取的多酚類化合物,具有抗腫瘤活性,常用作PKCδ的特異性抑制劑。研究表明抑制基質金屬蛋白酶(matrix metalloproteinase, MMP)的表達可以抑制癌癥的轉移[30]。Lin等[31]發現使用Rottlerin阻斷PKCδ的表達可減弱MMP-9的表達并使細胞遷移能力減低,從而達到治療BC的目的。臨床上對于三陰性BC患者常選擇順鉑作為化療藥物,Pabla在順鉑誘導的腎損傷的研究中發現Rottlerin可以改善這一現象[32],該藥是否可用于減弱順鉑對BC患者所致的腎損傷還有待進一步研究。基于這些觀察結果,本研究認為Rottlerin有望成為治療BC的候選化合物。其他5個化合物在BC中的作用目前尚未報道,其藥理作用有待進一步驗證。
綜上所述,本研究利用生物信息學和實驗驗證鑒定出的11個Hub基因可作為BC患者預后的生物靶標,其中GINS2、RRM2和CDK1在DNA復制中發揮重要作用,MELK、CDC45、HMMR和AURKA均參與細胞周期的調控,SMC4、PRC1和TOP2A在細胞分裂中發揮重要作用,Rottlerin有望成為治療BC的候選化合物,但其作用的具體機制仍需要進一步的實驗驗證。