王 方,薛劍楠,張艷平,賈存靈,魏澤輝
(西北農林科技大學 動物科技學院,陜西 楊凌 712100)
FOX(forkhead box)家族蛋白能作為轉錄因子與核酸DNA上特定的保守序列結合從而調節基因的轉錄,在生物發育、細胞周期調控、糖脂代謝、能量平衡和免疫調節等多種生物過程中都發揮著重要的調控作用[1]。FOXA2是FOXA亞族的一員,FOXA2作為轉錄因子通過調節靶基因的表達對機體的發育和代謝起作用,轉錄過程中FOXA2及多個調節因子共同組成轉錄調節因子復合物從而促進相應蛋白的表達。張猛等[2]研究發現,基因缺陷鼠中FOXA2基因的表達降低,會在一定程度上導致小鼠生長發育遲緩,體重下降,可能造成小鼠心臟房間隔缺損。FOXA2基因的表達會抑制脂肪細胞的分化,在前脂肪細胞中FOXA2能通過激活Pref-1基因的轉錄來抑制脂肪細胞的分化;在已分化脂肪細胞中,FOXA2的表達會誘導葡萄糖和脂肪代謝相關基因的表達,從而促進脂肪分解和生酮作用,并抑制脂肪分化的標志物PPARγ等的生成[3]。因此,FOXA2基因也是肉用牛肥育和牛肉品質改良的一個重要候選基因。FOXA2基因在同一時期的各組織間存在表達差異,在肝臟中表達豐度均很高,在肌肉和脂肪中表達量較低;在肌肉和脂肪組織中,FOXA2基因的表達量與能量水平負相關,表明FOXA2基因對牛肌肉和脂肪生成的調節可受營養水平影響[4]。研究表明,FOXA2對牛胸圍和體重有很大的影響[5]。目前,有關牛FOXA2基因轉錄調控的研究報道仍比較少。通過對FOXA2基因進行生物信息學分析,有助于深入了解FOXA2轉錄調控,并分析FOXA2靶基因的生物學功能作用,為牛FOXA2基因的表達和調控機制的進一步研究奠定了基礎。
從NCBI(https://www.ncbi.nlm.nih.gov/)數據庫中查詢下載黃牛、綿羊、小鼠、挪威大鼠、人以及恒河猴6種動物的FOXA2氨基酸序列和CDs區的核酸序列。本研究利用MEGAX(Molecular Evolutionary Genetics Analysis)軟件采用鄰近相連算法NJ(Neighbor-joining method)構建6種動物的氨基酸序列的系統進化樹,泊松模型(Poisson model)計算物種間遺傳距離,使用自展法(Bootstrap Method)估計所構建系統進化樹的可靠性(5000次),其余參數取默認值。通過NCBI Blast(https://blast.ncbi.nlm.nih.gov/Blast.cgi)程序比較黃牛FOXA2 CDs區與其他5種動物的同源性。
從Ensembl數據庫(http://asia.ensembl.org/index.html)中下載黃牛Bos_taurus.ARS-UCD1.2(ftp://ftp.ensembl.org/pub/release-100/fasta/bos_taurus/dna/)參考基因組及注釋文件,使用TBtools軟件提取黃牛所有基因的啟動子區域,在MEME Suit(http://memesuite.org/)中使用CentriMo 5.1.1對所有基因的轉錄因子結合位點進行富集分析。篩選出具有FOXA2轉錄因子結合位點的基因。啟動子區域中含有FOXA2模體序列的基因在R中使用goProfiles包進行GO功能注釋,使用DAVID(https://david.ncifcrf.gov/)在線軟件進行KEGG通路富集分析。
1.3.1 核心啟動子預測 從NCBI(https://www.ncbi.nlm.nih.gov/)中獲取FOXA2基因起始密碼子ATG前2 000 bp長度的序列為啟動子區域,利用啟動子生物信息學預測軟件Neural Network Promoter Prediction(http://www.fruitfly.org/seq_tools/promoter.html)選擇真核生物以0.9的最低分數標準篩選核心啟動子區,TSSG(http://linux1.softberry.com/all.htm)用于預測轉錄起始位點和TATA盒。
1.3.2 CpG島分析 利用CpG島分析工具EMBOSS Cpgplot(http://emboss.bioinformatics.nl/cgi-bin/emboss/cpgplot)、MethPrimer(http://www.urogene.org/methprimer/)和CpG Finder(http://linux1.softberry.com/all.htm)以GC Percent>50,Length>100,Obs/Exp>0.6為標準進行CpG島的檢測。
1.3.3 轉錄因子結合位點預測 使用PROMO(http://alggen.lsi.upc.es/cgi-bin/promo_v3/promo/promoinit.cgi?dirDB=TF_8.3)最大矩陣相異率參數調整為10篩選轉錄因子結合位點。
由表1可見,黃牛和綿羊的編碼序列最長,而人和恒河猴的編碼序列最短。通過NCBI Blast比對分析黃牛FOXA2基因的CDs序列與綿羊、小鼠、挪威大鼠、人、恒河猴的同源性結果為:98.86%,89.15%,88.72%,94.09%,93.45%。黃牛FOXA2與5種動物之間的都有較高的同源性,尤其是和綿羊的同源性更是高達98.86%。
由圖1可見,6種動物被聚類為兩個大類三個小組,黃牛和綿羊為一組,小鼠和挪威大鼠為一組,人和恒河猴為一組。表明在這6種動物中黃牛和綿羊的進化距離較近,挪威大鼠和小鼠之間的進化距離較近,人與恒河猴之間的進化距離較近。從遺傳距離矩陣(表2)分析結果也可以看出同樣的結果。

表2 不同動物的遺傳距離矩陣

圖1 6種動物FOXA2系統進化樹
使用CentriMo 5.1.1對黃牛所有基因的啟動子區域進行模體富集分析,發現有11026個基因的啟動子區域存在可與FOXA2結合的模體序列。由圖2可以看出,各部分富集基因數目前5的分別是:(1)生物過程:細胞過程、生物調控、生物過程調控、刺激反應、細胞成分組織或生物發生;(2)細胞成分:細胞、細胞組分、細胞器、細胞器組分、膜;(3)分子功能:結合、催化活性、分子功能調節劑、轉運活性、結構分子活性。

圖2 GO功能注釋
對存在FOXA2結合模體的11026個基因進行KEGG分析,發現基因在81條通路上顯著富集,選擇顯著性最強的前20條通路用氣泡圖表示,如圖3所示。這些基因主要參與T細胞受體信號通路、前列腺癌、孕酮介導的卵母細胞成熟、膠質瘤、白細胞經內皮細胞遷移、檸檬酸鹽循環(TCA循環)、子宮內膜癌、Ras信號通路、癌癥中的蛋白多糖、FcγR介導的吞噬作用、Epstein-Barr病毒感染、代謝途徑、腫瘤壞死因子信號途徑、FoxO信號通路、HTLV-I感染、丙酮酸代謝、抗生素的生物合成、AMPK信號通路、乙型肝炎、剪接體等信號通路。

圖3 KEGG通路富集
對黃牛FOXA2基因起始密碼子ATG前2 000 bp的啟動子區域使用Neural Network啟動子預測軟件進行在線分析,以0.9的標準得到潛在的啟動子位置,結果如表3所示,啟動子序列中加粗的堿基為預測到的轉錄起始位點(TSS)。預測結果顯示啟動子可能位于914~964 bp、1 120~1 170 bp、1 520~1 570 bp和1 528~1 578 bp處。其中914~964 bp的得分達到了1.00,1 120~1 170 bp和1 528~1 578 bp兩處得分也達到了0.99。

表3 Neural Network Promoter Prediction基因啟動子預測結果
對2 000 bp啟動子區域序列使用TSSW預測結果發現兩個可能的轉錄起始位點302和1 568 bp處,其中1 568 bp前的1 537 bp處還存在構成真核生物啟動子的元件TATA框。
CpG島是基因上富含連續未甲基化的CG堿基對區域,主要處于基因的啟動子和外顯子,在基因的轉錄過程中發揮著重要的作用。用CpG島在線分析軟件EMBOSS Cpgplot和MethPrimer對FOXA2基因啟動子區域進行預測,發現兩種軟件檢測出來的結果一致(圖4),均在765~1 012 bp,1 071~1 245 bp,1 292~1 454 bp和1 462~1 942 bp四處富含CpG島。又使用CpG Finder對相同序列進行了檢測(表4),共檢測出9處富含CpG島的區域,與cpgplot和MethPrimer預測的結果進行比較發現除了7、8、9三個含CpG島較少的區域,其他6個區域均處于前兩種方法預測的區域范圍內。

表4 CpG Finder預測結果

圖4 Cpgplot和MethPrimer CpG島檢測結果
對2 000 bp啟動子區域使用PROMO進行轉錄因子結合位點的預測,發現存在664個轉錄因子結合位點涉及到68個轉錄因子,68個轉錄因子中的絕大多數都有多個結合位點,其中核心啟動子區預測到16個轉錄因子(表5)。

表5 PROMO核心啟動子區預測的轉錄因子
生物發育多個階段的基因表達都會受到不同的調控,如DNA和染色體水平的調控、轉錄水平的調控、轉錄后加工的調控、翻譯水平調控和翻譯后水平調控。真核生物中基因表達調控中最重要最復雜的是轉錄水平的調控[6],在轉錄起始階段,細胞接收到外界信號的刺激后會激活某些轉錄因子,被激活的轉錄因子結合到DNA上相應的結合位點,將RNA聚合酶及轉錄過程中需要的蛋白吸引到基因相應的轉錄起始位點附近啟動轉錄過程。
黃牛FOXA2基因位于13號染色體上,編碼467個氨基酸。本試驗選取6種哺乳動物的FOXA2基因的氨基酸序列進行分析,顯示黃牛和綿羊的進化距離最近,與在NCBI上序列同源性比對的結果一致,從遺傳距離矩陣分析也可以發現FOXA2基因在進化上比較保守。對黃牛上所有存在與FOXA2結合模體序列的基因進行GO和KEGG富集分析發現,基因還被顯著富集到了FoxO信號通路、AMPK信號通路、mTOR信號通路、胰島素信號途徑、cAMP信號通路、MAPK信號通路、PI3K-Akt信號通路等在生長增殖、細胞分化和糖脂代謝上發揮重要作用的通路上。
基因啟動子核心區是基因在表達調控過程中發揮關鍵性作用的一小段DNA序列,它負責招募轉錄起始復合物到基因的起點,從而開始轉錄。通過使用2種不同的軟件對黃牛FOXA2基因的啟動子核心區進行預測,并結合3種CpG島分析軟件分析的結果,表明黃牛FOXA2基因的核心啟動子最可能在啟動子區域的1 528~1 578 bp處。本研究發現,16個轉錄因子在FOXA2的核心啟動子處結合。其中,核心啟動子區的轉錄因子Sp1、GATA1、GATA2、CREB、C/EBPβ和E2F-1,以及核心啟動子區上游100 bp以內的轉錄因子USF2可能在黃牛FOXA2的表達和功能的發揮上起到重要作用。轉錄因子Sp1是屬于Sp/KLF家族成員的反式激活子,其主要特征是含有鋅指結構[7],可通過鋅指結構與富含GC的DNA區域相結合調控相關基因的表達,參與細胞增殖、分化及凋亡過程[8-9]。正常情況下,Sp1在生物體內廣泛表達,其結合位點在轉錄激活的結構域中的分布也非常廣泛[10-13],在FOXA2的核心啟動子區域內發現存在著Sp1的結合位點,表明Sp1可能調控著FOXA2基因的表達。GATA1、GATA2屬于鋅指轉錄因子家族,GATA1既具有轉錄激活又具有轉錄抑制功能,GATA2只具有轉錄激活功能。這兩個轉錄因子可能對FOXA2的轉錄起著調控作用。脂肪的生成是一個被高度調控的過程,主要受CCAAT/增強子結合蛋白(CCAAT/enhancer binding protein, C/EBP)家族和過氧化物酶體增殖物激活受體γ(peroxisome proliferator-activated receptor gamma, PPARγ)兩類主要轉錄因子激素誘導的協同表達和激活調控[14-15],C/EBPα和C/EBPβ在肝細胞中共同表達,其中C/EBPα調節肝細胞特異性基因的表達,其蛋白產物與葡萄糖、脂質和循環穩態相關[16]。HNF6能與C/EBPα形成C/EBPα-HNF6蛋白復合物刺激CREB結合蛋白(CBP)共激活蛋白的募集,促使FOXA2的表達[17]。C/EBPβ能通過調節其鄰近的啟動子元件激活PPARγ和C/EBPα基因發揮其在脂肪分化過程中的重要作用[18]。FOXA2通過將CREB和GR募集到染色質中各自的靶位點來介導糖異生酶基因的激活從而參與到糖代謝的過程中[19]。黃牛FOXA2啟動子核心區有C/EBPβ和CREB的結合位點可能與其在細胞周期和脂質代謝方面的功能相關。E2F1是具有激活結構域和抑制結構域的轉錄因子,被認為是對細胞周期進程發揮重要調控功能的蛋白。E2F1在早期脂肪細胞分化過程中激活PPARγ基因的表達[20],FOXA2基因在脂肪細胞分化進程中的功能在可能受到轉錄因子E2F1調控。上游轉錄因子(upstream stimulatory factor, USF)是廣泛存在于哺乳動物中的一種序列特異性轉錄因子,其功能多樣和細胞生長、糖脂代謝、腎臟疾病和牙齒發育密切相關[21]。Auer等[22]的研究表明USF1可以激活FOXA2的轉錄,而對于轉錄因子結合位點的研究結果顯示在核心啟動子上游100bp以內存在USF2結合位點,可能會激活FOXA2的轉錄。啟動子是基因的重要組成部分,是真核生物基因表達調控的順式作用元件,控制基因表達的起始和豐度[23]。所以了解啟動子的功能和活性對于研究轉錄水平調控十分重要。除了上面的幾種在本研究中討論的轉錄因子外,仍有在牛FOXA2基因的表達過程中發揮作用的轉錄因子,有待于我們進行更深一步的研究。
本研究對黃牛FOXA2基因的CDs序列和氨基酸序列進行分析發現該基因的在進化上的保守性。對FOXA2靶基因的進行GO和KEGG分析驗證了FOXA2基因的功能作用。通過各種工具對啟動子區域的啟動子進行預測和CpG島分析確定啟動子區域的1 528~1 578 bp處可能是FOXA2基因的啟動子核心區。轉錄因子結合位點的分析表明Sp1、GATA1、GATA2、CREB、C/EBPβ、E2F-1和USF2等轉錄因子可能對FOXA2的在糖脂代謝以及脂肪細胞分化等功能中表達起到重要作用。