張 茵,王文著,譚政堂,李昶鎣,岳俊杰,郭志云*
(1.西南交通大學生命科學與工程學院,中國四川 成都 610031;2.中國人民解放軍軍事科學院軍事醫學研究院生物工程研究所,中國北京 100071)
增強子是一類具有組織特異性的順式調控元件,通過富集多種轉錄因子調控基因的表達,并且不受距離和方向的限制。先前研究表明,大多數活性增強子在轉錄因子介導下可轉錄出RNA,即增強子RNA(enhancer RNA,eRNA)[1]。已有研究證實eRNA的表達量和增強子的活性相關,增強子的表達失調會導致包括乳腺癌在內的多種癌癥的發生[2]。
p53(tumor protein 53)作為一種腫瘤抑制轉錄因子參與調控絕大多數腫瘤的發生發展[3]。研究表明,大部分p53在染色體上的結合位點除了具有保守的p53模體序列外,還具有增強子的信號特征,并且這些p53結合的區域具有增強子的活性[4]。隨后相關研究進一步證實,在阿霉素誘導DNA損傷的情況下,p53的表達量顯著升高,而且大部分p53都結合在增強子區域并起著調節增強子活性的能力[5]。
然而,p53如何介導增強子調控乳腺癌的發生與發展以及p53調控增強子的特征目前尚不清楚。為此,本文分析了乳腺癌細胞MCF-7中p53的染色質免疫沉淀測序(chromatin immunoprecipitation sequencing,ChIP-seq)數據,發現結合p53的增強子(Enhp53)與未結合p53的增強子(Enhno-p53)在表達量、組蛋白修飾和轉錄因子結合方面存在顯著差異。同時,我們分析了MCF-7細胞中p53活性升高前后的RNA-seq數據,在近端調控和遠端調控兩個層面上共識別了148對Enhp53-mRNAs。這些mRNA的功能富集分析結果表明,受Enhp53調控的mRNA與腫瘤顯著相關,并顯著影響了乳腺癌病人的總生存時間。綜上所述,p53通過介導增強子調控參與乳腺癌通路,從而影響腫瘤的發生與發展,這一結果為進一步探討轉錄因子與增強子的調控提供了理論依據與方法基礎。
MCF-7細胞中的活性增強子來自于HACER數據庫(http://bioinfo.vanderbilt.edu/AE/HACER/)[6],MCF-7細胞中p53的ChIP-seq數據來自于SRA(Sequence Read Archive)數據庫(SRR287800)[7]。9種組蛋白修飾(包括 H3K4me1、H3K4me2、H3K4me3、H3K9ac、H3K9me2、H3K9me3、H3K27ac、H3K27me3、H4K20me1)和76種轉錄因子的ChIP-seq數據來自于ENCODE(The Encyclopedia of DNA Elements)項目。MCF-7細胞在Nutlin處理前后的差異表達RNA來自于 Léveillé等[8]的研究。MCF-7細胞在空間上的染色質相互作用數據來自于4DGenome數據庫(https://4dgenome.research.chop.edu/)[9]。
使用FastQC[10]對測序數據進行質量檢測,并用Cutadapt[11]切除引物和質量分數低于10的片段。使用Bowtie2[12]將Nutlin處理過的p53 ChIP-seq數據匹配到hg19的人類基因組上,并用SAM-tools[13]過濾未匹配的測序片段,隨后使用MACS2[14]的callpeak進行peak calling,最后通過deepTools[15]得到p53的bigWig文件。
將MCF-7細胞中來自HACER數據庫的增強子與p53在染色體上的結合位點進行位點匹配,得到結合p53的增強子(Enhp53),即該增強子受p53調控。通過ENCODE項目獲得MCF-7細胞中組蛋白修飾以及轉錄因子的ChIP-seq數據,進而使用bwtool[16]分析Enhp53和Enhno-p53中點上下游1 kb內的組蛋白修飾和轉錄因子結合情況,并將Enhp53和Enhno-p53的轉錄因子結合信號的均值進行比較,比值大于1.2的轉錄因子被認定為具有協同p53調控增強子的功能。
本文通過兩種方法識別Enhp53調控的差異表達mRNA。首先,通過4DGenome數據庫得到MCF-7細胞在空間上的染色質相互作用數據,若增強子和mRNA分別位于相互作用的兩個片段內,則認為該增強子調控mRNA。其次,若mRNA位于一個增強子的上下游100 kb內,則認為mRNA受該增強子調控[17]。
利用R包clusterProfiler[18]對mRNA進行GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析。從TCGA(The Cancer Genome Atlas)數據庫獲取乳腺癌的RNA-seq數據以及臨床數據,繪制Enhp53調控的mRNA的Kaplan-Meier生存曲線[19],P<0.05即認為該mRNA對乳腺癌患者的總生存時間具有顯著影響。
為了探討MCF-7細胞中受p53調控的增強子的情況,我們首先從HACER數據庫中得到MCF-7細胞中8 714個增強子,隨后對MCF-7細胞中的p53 ChIP-seq數據進行分析,得到7 784個p53的結合位點,通過對增強子和p53的結合位點進行位點匹配,最終共識別出459個Enhp53。通過分析發現,我們識別的增強子普遍具有活性增強子的信號特征,例如:增強子chr7:579 426~579 712具有高水平的H3K27ac和H3K4me1信號以及低水平的H3K4me3信號,這與文獻[20]的報道相符,并且在增強子區域富集p53和脫氧核糖核酸酶(deoxyribonuclease,DNase)(圖 1)。

圖1 增強子chr7:579 426~579 712的基因組信息示例圖黃色標記增強子的位置,綠色標記增強子上的各種信號特征,藍色代表組蛋白修飾在基因組上的信號分布,紅色代表結合在DNA上的轉錄因子的信號分布。Fig.1 Diagram of genomic information of enhancer chr7:579 426~579 712Yellow marks the position of the enhancer,green marks the various signal features on the enhancer,blue represents the distribution of histone modification signals,and red represents the signal distribution of transcription factors bound to DNA.
先前研究表明,p53可結合在增強子上調控腫瘤的發生與發展[3]。為了研究p53的結合對增強子功能的影響,我們以是否結合p53為標準將增強子分為兩類:Enhp53和Enhno-p53(圖2A)。首先,我們對兩類增強子的表達量進行比較,結果表明Enhp53的表達量顯著高于Enhno-p53(圖2B)。研究報道,活性增強子往往具有多種組蛋白修飾[20],為了研究p53在增強子上的結合是否會引起增強子組蛋白修飾信號的變化,我們對Enhp53和Enhno-p53進行了組蛋白特征分析。結果表明,在9種組蛋白修飾中,5種在增強子上出現了明顯的雙峰,分別 是 H3K4me1、H3K4me2、H3K4me3、H3K9ac 和H3K27ac,這5種組蛋白修飾信號在Enhp53上顯著高于 Enhno-p53(圖 2C~G)。
為了進一步探明增強子結合轉錄因子的情況以及p53協同哪些轉錄因子共同調控增強子,我們比較了兩類增強子上轉錄因子的結合情況。結果表明,這76種轉錄因子均在兩類增強子上有結合信號。通過進一步分析轉錄因子在兩類增強子上的信號比值,共識別了36個協同p53調控增強子的轉錄因子(圖3A),其中GATA3(GATA binding protein 3)、FOXA1(forkhead box A1)以及DPF2(double PHD fingers 2)是增強子上受p53影響最顯著的3個轉錄因子(圖3B~D)。此外,參與增強子和靶基因空間成環的關鍵轉錄因子CTCF(CCCTC-binding factor)也在Enhp53上具有更強的信號(圖 3E)。

圖2 兩類增強子的p53結合信號、表達量以及組蛋白修飾信號的差異(A)兩類增強子結合p53的差異;(B)兩類增強子的表達量差異,P值由t檢驗計算得出;(C~G)兩類增強子的多種組蛋白修飾信號差異。Fig.2 Differences between the two types of enhancers in p53-binding signals,expression levels and histone modification signals(A)The difference between the two types of enhancers in p53-binding signals;(B)The difference in expression of the two types of enhancers.The P value is calculated by the t test;(C~G)The differences in multiple histone modification signals on two types of enhancers.
為了探討Enhp53如何參與mRNA的差異表達,我們分析了MCF-7細胞在Nutlin處理前后的RNA-seq數據,得到1 817個差異表達的mRNA。其中,998個mRNA顯著上調,819個mRNA顯著下調。為了盡可能全面地識別Enhp53調控的mRNA,我們通過遠端與近端的增強子-mRNA調控模式識別Enhp53調控的mRNA,結合4DGenome數據庫中染色質相互作用數據和增強子上下游100 kb兩種方法共識別出148組Enhp53-mRNAs,涉及差異表達的mRNA共120個。在這些mRNA中,多個mRNA的表達量與乳腺癌患者的總生存時間顯著相關,例如 FOS、FOSL1(FOS like 1)、ARC(activity-regulated cytoskeleton-associated protein)、BTG2(BTG anti-proliferation factor 2)等。其中,在Nutlin處理后升高2.14倍的FOS受到兩個增強子調控,分別是chr14:75 649 674~75 650 038以及chr14:75 721 756~75 722 023。通過TCGA中乳腺癌患者的臨床數據以及RNA-seq數據繪制FOS的Kaplan-Meier生存曲線,結果表明,FOS的表達對患者生存時間有顯著影響,FOS高表達的患者明顯具有更長的總生存時間(圖4A)。此外,我們對Enhp53調控的mRNA進行了GO和KEGG富集分析,結果表明這些基因在DNA損傷、細胞凋亡以及p53介導的信號轉導過程中發揮著重要作用,并顯著富集在多種癌癥發生和p53相關的通路中(圖 4B,C)。

圖3 兩類增強子的轉錄因子結合信號差異(A)兩類增強子的轉錄因子結合信號的比值;(B~E)兩類增強子的多種轉錄因子結合信號差異。Fig.3 Differences in transcription factor binding signals between two types of enhancers(A)The ratio of transcription factor binding signals of the two types of enhancers;(B~E)Differences in multiple transcription factor binding signals of two types of enhancers.

圖4 FOS的生存曲線以及受Enhp53調控的mRNA的GO和KEGG分析(A)FOS的Kaplan-Meier生存曲線;(B)受Enhp53調控的mRNA的GO分析;(C)受Enhp53調控的mRNA的KEGG分析。Fig.4 The survival curve of FOS and GO and KEGG analyses of mRNAs regulated by Enhp53(A)Kaplan-Meier survival curve for FOS;(B)GO analysis of mRNAs regulated by Enhp53;(C)KEGG analysis of mRNAs regulated by Enhp53。
本研究發現,Enhp53和Enhno-p53在表達量、組蛋白修飾以及轉錄因子結合等方面均存在顯著差異。Enhp53的表達量顯著高于Enhno-p53,暗示p53的結合進一步促進增強子的活性,從而促進下游基因的表達。H3K4me1、H3K4me2、H3K4me3、H3K9ac和H3K27ac均是已被證實的位于活性增強子上的組蛋白修飾[21],本文研究顯示,這5種組蛋白修飾信號在Enhp53上顯著高于Enhno-p53。上述結果表明,p53結合增強子后可能通過改變這些組蛋白修飾信號從而起到調節增強子活性的作用。在對比分析中,Enhp53的H3K4me3信號值略高于H3K4me1,造成這一結果的原因可能是ENCODE項目中不同組蛋白修飾的ChIP-seq數據來自不同的實驗室和樣本,存在一定的實驗誤差,因此直接對H3K4me3和H3K4me1的信號值進行比較并不準確。此外,HACER數據庫中的增強子是通過CAGE(cap analysis of gene expression)實驗得來的,CAGE識別增強子依靠雙向轉錄的RNA,并不依賴組蛋白修飾信號,因此可能包含著未知基因的啟動子。已有研究表明,在多個組織和細胞中普遍存在的增強子往往具有更高的H3K4me3信號[22],因此可以針對MCF-7細胞中增強子的特異性進行進一步的研究。盡管如此,p53的結合對增強子H3K27ac和H3K4me1的影響顯著大于H3K4me3(圖 2)。
之前的研究表明,增強子通過結合轉錄因子與靶基因的啟動子相互作用,從而調控基因的表達[23]。文中對兩類增強子上多種轉錄因子的結合信號進行了比較,發現GATA3、FOXA1以及DPF2是增強子上受p53影響最顯著的3個轉錄因子(圖3)。已有研究表明,一部分p53預先結合在染色體不可及區域,在DNA損傷導致p53升高的情況下,這些p53結合位點的染色體可及性從不可及變成可及[5],而GATA和FOXA家族被證實可以促進染色質的開放[24],因此GATA3、FOXA1等轉錄因子很有可能參與到p53結合位點的可及性變化過程中。DPF2在細胞凋亡過程中發揮著重要作用[25],而p53在不同的刺激下會調節細胞周期和細胞凋亡[26];通過查詢BioGRID數據庫(https://thebi ogrid.org/),我們發現DPF2與p53結合,因此DPF2和p53可能在細胞凋亡過程中發揮協同作用。此外,CTCF在Enhp53上具有更強的信號,這一結果暗示p53可能在介導增強子與靶基因空間成環方面起到一定的作用。綜上所述,p53通過與多種轉錄因子直接或間接相互作用調控增強子活性與染色體的可及性,并且可能參與CTCF介導的染色體成環。
p53與增強子、靶基因可形成復雜的調控網絡。研究發現,p53除了結合增強子外,也可能同時結合在靶基因的啟動子區域[5]。為了研究結合在啟動子區域的p53對Enhp53的影響,我們將Enhp53調控的靶基因的啟動子與p53 ChIP-seq數據進行了位點匹配,結果顯示25%的受Enhp53調控的靶基因啟動子區有p53結合。我們推測這部分基因可能與Enhp53、p53形成前饋環路,也可能在三維結構上發生增強子與靶基因啟動子成環從而拉近兩者距離使p53同時調控增強子與靶基因啟動子,當然這些結論仍需要進一步的實驗驗證。
另外,本文通過近端和遠端兩種調控模式識別了148對Enhp53-mRNAs,其中差異表達的FOS被兩個增強子調控,且FOS與乳腺癌病人的總生存時間顯著相關(圖4A)。已有研究表明,在腫瘤細胞中過表達FOS可增強細胞凋亡[27],這暗示FOS可與p53聯合作用,通過調節相關基因的表達來發揮抗腫瘤作用。以上研究表明,p53通過介導增強子調控參與乳腺癌通路,從而影響腫瘤的發生發展,該結果為進一步探討轉錄因子與增強子調控提供了理論依據與方法基礎。