張軍,宋麗莉,郭東林,郭長虹,束永俊
(黑龍江省分子細胞遺傳與遺傳育種重點實驗室 哈爾濱師范大學生命科學與技術學院,黑龍江 哈爾濱150025)
MADS-box基因家族是一類轉錄因子,廣泛地存在于動物、植物和真菌等真核生物,它們在N端含有一個由58~60個氨基酸組成的保守結構域,稱為 MADS-box結構域[1-2]。MADS-box是一個可以結合DNA序列的結構域,它可以識別結合CArG基序(CC[A/T]6GG),并激活下游基因的表達[3]。根據分子系統進化分析,MADS-box基因家族可以分為兩大類:I型和Ⅱ型,其中:Ⅰ型主要是指含有SRF結構域,Ⅱ型主要含有MEF2類似結構域和植物中特異的MIKC類MADS-box基因。結合MADS-box基因的結構特征,可以將MADS-box家族分成5個小類:Ⅰ型的 Mα、Mβ和 Mγ;Ⅱ型的 MIKC和 MIKC*[1-2]。
在植物基因組中,MIKC類MADS-box轉錄因子的結構和功能研究比較清楚,它們通常含有4個結構域,分別為:MADS-box(M)、Intervening domain(I)、Kertain-like domain(K)和 C-terminal domain(C)[3]。這些轉錄因子在植物基因組特有的,在各種植物基因組之間是非常保守的,在植物生長、發育等過程起到重要的調控作用,比如:SOC1(SUPPRESSOR OF OVERESPRESSION OF CONSTANS1)、FLC1(FLOWERING LOCUS c),AGL24(AGAMOUS-LIKE GENE 24)、MAF1/FLM (MADS AFFECTING FLOWERING)和SVP (SHORT VEGETATIVE PHASE)等 MADS-box基因調控植物的開花時間[4-9];AP1(APETALA 1)、FUL(FRUITFUL)和CAL(CAULIFLOWER)等 MADS-box基因調控花芽組織的形成[10-12];AP1、SEP1-3(SEPALLATA 1-3)、AP3(APETALA 3)、PI(PISTILLATA)和 AG(AGAMOUS)等 MADS-box基因控制植物花器官的形成和種子的發育[13-15]。
根據分類學定義:苜蓿屬含有4個亞屬,56個種,其中最受科研人員關注的有:紫花苜蓿(Medicagosativa)和蒺藜苜蓿(Medicagotruncatula)兩個種。紫花苜蓿是四倍體植物,具有優良的農藝性狀,是全世界種植范圍最廣的牧草作物;蒺藜苜蓿是二倍體植物,其基因組較小(約470Mb),已經完成基因組測序,成為研究豆科,特別是苜蓿屬(如紫花苜蓿)的模式植物[16-18]。在紫花苜蓿長期種植生產過程中,科研人員多重視苜蓿營養體性狀,如產量、品質、抗性等,對苜蓿生殖過程性狀關注較少,導致紫花苜蓿的種子生產水平一直低下,嚴重制約了紫花苜蓿的種植推廣[17],同時,其他草類植物也存在類似的問題[19-20]。
本研究將對蒺藜苜蓿的基因組測序數據進行結構域搜索,鑒定MADS-box基因家族成員。通過序列比對和系統進化分析,完成MADS-box基因家族成員的分類,同時,根據MADS-box基因家族的染色體定位信息,明確其在基因組的分布特征。最后,結合蒺藜苜蓿的RNA-seq數據,分析MADS-box家族在蒺藜苜蓿心皮和花等生殖器官發育過程的表達譜,為解析蒺藜苜蓿中MADS-box基因家族的重要作用提供參考。
蒺藜苜蓿基因組測序數據、基因轉錄序列、CDS序列、蛋白質序列及其注釋信息[18](版本為:Mt4.0v1)均下載自JCVI(http://www.jcvi.org/medicago/)。
MADS-box基因的結構域信息(PF00319)下載自Pfam 數據庫[21],利用軟件 HMMER[22](V3.0)搜索蒺藜苜蓿的蛋白質序列,運行參數為:-E 0.01。將挖掘的MADS-box基因比對擬南芥的 MADS-box基因,根據擬南芥的MADS-box基因分類信息對蒺藜苜蓿MADS-box基因家族進行分類。同時,提取蒺藜苜蓿 MADS-box基因的注釋信息,確定其內含子分布信息。
提取蒺藜苜蓿MADS-box基因家族的蛋白質序列,利用ClustalW2[23]進行多重序列比較,比對結果采用MEGA4[24]進行系統進化分析,系統進化分析參數如下:1)建樹方法為鄰近法(neighbor-joining,NJ);2)遺傳距離為泊松距離(Poisson correction);3)抽樣次數為1000(bootstrap:1000replications)。
從蒺藜苜蓿基因組中提取MADS-box基因的基因組序列和CDS序列,利用BLAST[25]進行兩兩比對。當2個MADS-box基因的一致性超過85%時,則將這2個 MADS-box基因之間存在基因復制(gene duplication)。提取所有MADS-box基因在蒺藜苜蓿基因中的位置信息,結合MADS-box基因間的基因復制情況,利用軟件CIRCOS[26]繪制MADS-box基因家族在蒺藜苜蓿基因組中的分布情況。
蒺藜苜蓿的轉錄組測序(RNA-seq)數據[18]下載自 NCBI的SRA 數據庫(http://www.ncbi.nlm.nih.gov,登錄號為:SRR350517-SRR350521,SRR350538和SRR349692)。轉錄組數據包含蒺藜苜蓿的根部(root),根部結瘤(nodule),葉片(blade),芽(bud),心皮(seedpod)和花(flower)6個組織和部位。轉錄組數據采用 TopHat[27]和Cufflink[28]進行分析,獲得蒺藜苜蓿基因的表達量(fragments per kilobase of exon per million fragments mapped,FPKM值)。利用MATLAB(R2008B)提取 MADS-box基因的表達量,去除表達量較低的 MADS-box基因(FPKM值小于1),然后,對剩下的 MADS-box基因表達量進行對數轉換和標準化,最后,對蒺藜苜蓿MADS-box基因的表達情況進行聚類分析。
通過HMMER搜索,蒺藜苜蓿基因組總共鑒定出138個MADS-box基因家族成員,如表1所示。這些MADS-box基因主要分成兩大類,即Ⅰ型和Ⅱ型MADS-box基因,其中:Ⅱ型MADS-box基因有46個,包含有MIKC(41個)和 MIKC*(5個)兩類;Ⅰ型 MADS-box基因有92個,包含有 Mα(49個)、Mβ(7個)和 Mγ(36個)3類。兩類MADS-box基因中,Ⅱ型MADS-box基因大多數都含有多個內含子,多數為6~8個,甚至超過10個,如MtMADS044,45和46都含有10~11個內含子;而Ⅰ型MADS-box基因大多數不含有內含子或者含有1個內含子。與其他植物相比,蒺藜苜蓿基因組中MADS-box基因家族成員總數差別不大,如擬南芥為107,水稻為75,大豆為106,但是,成員組成差異較大,蒺藜苜蓿Ⅱ型與Ⅰ型分別為46和92個,Ⅱ型占總MADS-box基因家族的33%,擬南芥為42%,水稻為57%[29],大豆為68%[30],蒺藜苜蓿的Ⅱ型MADS-box基因比例明顯偏低。

表1 蒺藜苜蓿基因組中鑒定的MADS-box基因Table 1 The MADS-box genes identified in M. truncatula

續表1 Continued
利用ClustalW2和MEGA進行系統進化分析,如圖1所示。結果顯示,在系統進化上,Ⅱ型和Ⅰ型MADS-box基因是各自獨立系統演化,兩種之間沒有交叉。其中:Ⅱ型中的MIKC類保守性較好,獨自分成一支;MIKC*類保守性稍微弱一些,分成兩鄰近的兩支;Ⅰ型的3個類:Mα、Mβ和Mγ,總體上系統分類良好,大多數成員都可以正確的分類,只有MtMADS073、130和134這3個成員進化關系出現不一致。這也說明通過MADS-box基因在植物中保守性較強,可以通過擬南芥的分類信息鑒定蒺藜苜蓿MADS-box基因家族的分類情況。
通過提取蒺藜苜蓿MADS-box基因的染色體定位信息,發現4個(MtMADS001、47、48和96)定位在尚未完全組裝的長片段上,剩下的134個成員定位在8條染色體上,如圖2所示。每條染色體分布有5~27個MADS-box基因,其中:1號染色體最多為27個,其次為3號和4號染色體,分別為26和23個;6號染色體最少,只有5個。此外,MADS-box基因家族在蒺藜苜蓿染色體組上不是均勻分布,它們呈聚集形式分布,如1,3,4和5號染色體上都有多個MADS-box的基因簇。通過兩兩比對分析發現:多數蒺藜苜蓿MADS-box基因都擁有2個或以上的拷貝,即存在基因復制情況,其中:Ⅱ型MADS-box基因成員復制較少,如圖2中紅色(MIKC)和淺紅色(MIKC*)線條所示,Ⅰ型的基因復制較多,如圖2中藍色(Mα)、淺藍色(Mβ)和紫色(Mγ)線條所示。
通過下載NCBI數據庫中蒺藜苜蓿的RNA-seq數據,分析得到蒺藜苜蓿MADS-box基因家族在6種組織的表達譜。蒺藜苜蓿的表達譜顯示,多數MADS-box基因(91/138,66%)FPKM都小于1,說明這些MADS-box基因在6種組織中的表達量極低或者不表達,其中:Ⅰ型MADS-box基因有75個,Ⅱ型MADS-box基因有26個。剩下47個MADS-box基因的表達譜進行聚類分析,如圖3所示。根據表達譜信息,47個基因主要可以分成3組:A組含有13個基因,其中Ⅰ型8個,Ⅱ型5個,主要在蒺藜苜蓿的心皮和花等生殖器官中表達;B組含有16個基因,其中Ⅰ型9個,Ⅱ型7個,這些MADS-box基因雖然表達,但是在各種組織中表達量都不高;C組含有12個基因,其中Ⅰ型4個,Ⅱ型8個,主要在蒺藜苜蓿的根部、結瘤、葉片和芽中表達,在心皮和花組織中表達量較低。

圖1 蒺藜苜蓿MADS-box基因家族的系統進化分析Fig.1 Phylogenetic tree of MADS-box gene family in M. truncatula

圖2 蒺藜苜蓿MADS-box基因在染色體定位Fig.2 Chromosomal locations of MADS-box genes in M. truncatula

圖3 蒺藜苜蓿MADS-box基因表達的聚類分析Fig.3 Heat map of MADS-box gene expression obtained from RNA-seq in M. truncatula
通過全基因組分析,從蒺藜苜蓿中鑒定了138個MADS-box基因,其中Ⅱ型MADS-box基因46個,這與擬南芥(Arabidopsisthaliana,45個)和水稻(Oryzasativa,43個)等植物的報導一致,但是比大豆(Glycinemax)中Ⅱ型MADS-box基因(72個)要少,這可能是由于大豆基因組發生加倍,是古四倍體造成。同時,Ⅱ型MADS-box基因一般含有多個內含子,Ⅰ型一般不含有或者只含有1個內含子,通常含有多個內含子的基因一般比較保守,而不含有內含子的基因保守性較差[1,9]。此外,蒺藜苜蓿的Ⅰ型和Ⅱ型MADS-box基因在基因組分布模式也有差異,Ⅱ型基本上遍布基因組各條染色體上(2~10個),比較均勻;Ⅰ型只是集中在少數染色體上,如:1號染色體(22個)和3號染色體(19個),其他染色體(6號染色體,3個)上極少,呈基因簇狀分布。最后,比較基因組學和表達譜分析結果顯示,蒺藜苜蓿的Ⅰ型MADS-box基因含有大量的復制基因,大多基因都不表達或者表達量極低;而Ⅰ型MADS-box基因的復制較少,且表達模式較為穩定。綜合上面可以發現,在蒺藜苜蓿基因組中,Ⅰ型MADS-box基因處于積極復制的“擴張期”,雖然基因數量較多,但是參與調控的過程較少;而Ⅱ型MADS-box基因基本進入“穩定期”,基因復制較少,家族成員數量也較少,但是,這些基因保守性好,積極參與蒺藜苜蓿器官形成和發育等過程的調控。
通過蒺藜苜蓿的RNA-seq數據分析發現,大多數Ⅰ型MADS-box基因成員不表達或者表達量極低,而Ⅱ型MADS-box的表達量相對較高,這也為Ⅱ型MADS-box基因在蒺藜苜蓿的器官發育和形態建成過程中的重要調控作用奠定了基礎。在蒺藜苜蓿MADS-box基因家族的表達譜中,A組基因(圖3)主要是調控蒺藜苜蓿生殖器官花和心皮的發育和形成,其中Ⅱ型MADS-box基因有5個。通過同源搜索和系統進化分析發現,它們分別屬于SEP(MtMADS012和 MtMADS020)、AP3/PI(MtMADS014和 MtMADS044)和 AP1(MtMADS039)等亞家族,在擬南芥、水稻等植物中,這3個亞家族也參與花等生殖器官的發生和形成,說明這些MADS-box基因的功能高度保守,在蒺藜苜蓿中也通過這些MADS-box基因的表達調控控制花等生殖器官的形態發生。此外,C組基因主要調控蒺藜苜蓿根部、葉片和芽等組織的分化和形態形成,其中Ⅱ型MADS-box基因有8個,分別屬于SOC1(MtMADS017、MtMADS035和 MtMADS036)、ANR1(MtMADS019、MtMADS023和 MtMADS029)以及SVP(MtMADS018和MtMADS028),它們在各個組織中表達量都較高,參與植物各個器官的發育,這與其他植物中的報道類似,這就意味著蒺藜苜蓿的Ⅱ型MADS-box基因無論從結構上,還是表達模式上,甚至是生物學功能上都非常保守[1,3,29-30]。
本研究采用結構域搜索的方法,在蒺藜苜蓿基因組中鑒定了MADS-box基因家族的全部基因成員,并通過序列比對和系統進化方法,確定了MADS-box基因家族的分類和進化關系。通過染色體定位分析,研究了蒺藜苜蓿中MADS-box基因家族的演化特點。同時,結合RNA-seq的表達譜,闡述了MADS-box基因家族在植物器官發育,特別是生殖器官發育過程中的重要調控作用,這將為揭示蒺藜苜蓿種子形成機制提供參考,也為解析紫花苜蓿種子生長過程提供重要的借鑒作用。
[1]Theiβen G,Becker A,Di Rosa A,etal.A short history of MADS-box genes in plants[J].Plant Molecular Biology,2000,42(1):115-149.
[2]Becker A,Winter K-U,Meyer B,etal.MADS-box gene diversity in seed plants 300million years ago[J].Molecular Biology and Evolution,2000,17(10):1425-1434.
[3]De Bodt S,Raes J,Van de Peer Y,etal.And then there were many:MADS goes genomic[J].Trends in Plant Science,2003,8(10):475-483.
[4]Michaels S D,Amasino R M.FLOWERING LOCUS C encodes a novel MADS domain protein that acts as a repressor of flowering[J].The Plant Cell,1999,11(5):949-956.
[5]Hartmann U,Hhmann S,Nettesheim K,etal.Molecular cloning of SVP:a negative regulator of the floral transition inArabidopsis[J].The Plant Journal,2000,21(4):351-360.
[6]Samach A,Onouchi H,Gold S E,etal.Distinct roles ofCONSTANStarget genes in reproductive development ofArabidopsis[J].Science,2000,288:1613-1616.
[7]Scortecci K C,Michaels S D,Amasino R M.Identification of a MADS-box gene,FLOWERING LOCUS M,that represses flowering[J].The Plant Journal,2001,26(2):229-236.
[8]Michaels S D,Ditta G,Gustafson-Brown C,etal.AGL24acts as a promoter of flowering inArabidopsisand is positively regulated by vernalization[J].The Plant Journal,2003,33(5):867-874.
[9]Kaufmann K,Melzer R,Theiβen G.MIKC-type MADS-domain proteins:structural modularity,protein interactions and network evolution in land plants[J].Gene,2005,347(2):183-198.
[10]Alejandra Mandel M,Gustafson-Brown C,Savidge B,etal.Molecular characterization of theArabidopsisfloral homeotic geneAPETALA1[J].Nature,1992,360:273-277.
[11]Bowman J L,Alvarez J,Weigel D,etal.Control of flower development inArabidopsisthalianabyAPETALA1and interacting genes[J].Development,1993,119(3):721-743.
[12]Gu Q,Ferrandiz C,Yanofsky M F,etal.The FRUITFULL MADS-box gene mediates cell differentiation duringArabidopsisfruit development[J].Development,1998,125(8):1509-1517.
[13]Pelaz S,Ditta G S,Baumann E,etal.B and C floral organ identity functions require SEPALLATA MADS-box genes[J].Nature,2000,405:200-203.
[14]Liljegren S J,Ditta G S,Eshed Y,etal.SHATTERPROOF MADS-box genes control seed dispersal inArabidopsis[J].Nature,2000,404:766-770.
[15]Nesi N,Debeaujon I,Jond C,etal.The TRANSPARENTTESTA16locus encodes the ARABIDOPSIS BSISTER MADS domain protein and is required for proper development and pigmentation of the seed coat[J].The Plant Cell,2002,14(10):2463-2479.
[16]江騰,林勇祥,劉雪,等.苜蓿全基因組 WRKY轉錄因子基因的分析[J].草業學報,2011,20(3):211-218.
[17]劉志鵬,張吉宇,王彥榮.紫花苜蓿配子體發育遺傳調控的研究進展[J].草業學報,2011,20(4):270-278.
[18]Young N D,Debelle F,Oldroyd G E,etal.TheMedicagogenome provides insight into the evolution of rhizobial symbioses[J].Nature,2011,480:520-524.
[19]呂奉菊,崔美辰,陳明林.蠶繭草的繁殖生物學研究[J].草業學報,2013,22(3):196-203.
[20]黃利春,金樑,張樹振,等.蝶形花亞科植物花粉釋放機制[J].草業學報,2013,22(6):305-314.
[21]Finn R D,Mistry J,Schuster-Bckler B,etal.Pfam:clans,web tools and services[J].Nucleic Acids Research,2006,34(S1):247-251.
[22]Finn R D,Clements J,Eddy S R.HMMER web server:interactive sequence similarity searching[J].Nucleic Acids Research,2011,39(S2):29-37.
[23]Thompson J D,Higgins D G,Gibson T J.CLUSTAL W:improving the sensitivity of progressive multiple sequence alignment through sequence weighting,position-specific gap penalties and weight matrix choice[J].Nucleic Acids Research,1994,22(22):4673-4680.
[24]Tamura K,Dudley J,Nei M,etal.MEGA4:molecular evolutionary genetics analysis(MEGA)software wersion 4.0[J].Molecular Biology and Evolution,2007,24(8):1596-1599.
[25]Altschul S F,Madden T L,Schaffer A A,etal.Gapped BLAST and PSI-BLAST:a new generation of protein database search programs[J].Nucleic Acids Res,1997,25(17):3389-3402.
[26]Krzywinski M I,Schein J E,Birol I,etal.Circos:An information aesthetic for comparative genomics[J].Genome Research,2009,19(9):1639-1645.
[27]Trapnell C,Pachter L,Salzberg S L.TopHat:discovering splice junctions with RNA-Seq[J].Bioinformatics,2009,25(9):1105-1111.
[28]Trapnell C,Williams B A,Pertea G,etal.Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation[J].Nat Biotech,2010,28(5):511-515.
[29]Zhao Y,Li X,Chen W,etal.Whole-genome survey and characterization of MADS-box gene family in maize and sorghum[J].Plant Cell,Tissue and Organ Culture,2011,105(2):159-173.
[30]Shu Y,Yu D,Wang D,etal.Genome-wide survey and expression analysis of the MADS-box gene family in soybean[J].Molecular Biology Reports,2013,40(6):3901-3911.