張瑞,張天留,范婷婷,朱波,張路培,徐凌洋,高會江,李俊雅,陳燕,高雪
牛亞科物種轉座子與串聯重復序列之間的進化關系
張瑞,張天留,范婷婷,朱波,張路培,徐凌洋,高會江,李俊雅,陳燕,高雪
中國農業科學院北京畜牧獸醫研究所,北京 100193
【】重復序列是真核生物基因組中重要組成部分,對物種進化、基因遺傳變異、轉錄調控等具有重要作用。研究旨在揭示牛亞科物種重復序列特征,研究轉座子和串聯重復序列間的進化關系,為牛亞科物種重復序列的研究提供理論支撐。以普通牛、瘤牛、牦牛、水牛、野牛以及大額牛6個牛亞科物種的基因組序列為研究對象,利用TRF和RepeatMasker軟件對6個牛亞科物種基因組中的串聯重復序列(tandem repeats sequence,TRs)和轉座子(transposable elements,TEs)進行鑒定,并通過本地BLAST比對,分析兩類重復序列間的相似性,單位點(single-locus TRs, slTRs)和多位點串聯重復序列(mutiple-locus TRs, mlTRs)以及轉座子內部的串聯重復特征。(1)6個牛亞科物種中,重復序列在普通牛中的比例最高,為49.13%,其次為水牛46.82%、大額牛46.66%、瘤牛42.70%、野牛42.36%、牦牛42.34%;其中轉座子在基因組中的比例為40.57%—45.71%,高于串聯重復序列的比例(1.50%—3.42%)。(2)串聯重復序列中,mlTRs的比例(76%—99%)顯著高于slTRs(1%—24%),表明mlTRs為6個牛亞科物種中串聯重復序列的主要組成。(3)TE-derieved的串聯重復序列分析表明,TRs中43%—84%的序列來源于轉座子,其中多位點串聯重復序列可高達94%。(4)TRs-related 轉座子及其活性分析表明,與TRs具有相似性的轉座子主要來自非長末端重復序列(non-Long Terminal Repeats, non-LTR),包括SINE(Short Interspersed Nuclear Element, SINE)和長末端重復序列(Long Interspersed Nuclear Element, LINE),其中SINE/Core-RTE(主要為BOV-A2)的數量(14 423—24 193)和相對豐度(4.06%—6.77%)最高,被認為是牛亞科物種中最年輕且最具活力的轉座子。(5)轉座子的串聯重復特征分析表明,BovB在0—600 bp,L1_BT在1 500—2 700 bp的序列分別發生了大量的串聯重復,與consensus序列的一致性分別達93%和87%以上,且兩段區域均為非編碼區。重復序列在牛亞科物種中具有相似的分布特征, non-LTR是牛亞科物種TRs-related TEs的重要來源,且SINE/Core-RTE(主要為BOV-A2)為牛亞科物種最年輕且最具活力的轉座子;同時串聯重復序列又可作為轉座子內部結構的組成部分,表明串聯重復序列與轉座子在基因組的進化過程相互影響、相互作用。
牛亞科;轉座子;串聯重復序列;進化
【研究意義】重復序列是指在整個基因組中以多個拷貝出現的核酸序列,是真核生物的重要組成部分,有些真核生物基因組中重復序列的占比甚至可達50%以上,如人類為66%[1]、玉米為85%[2]。根據重復序列在基因組中的分布形式,可將其分為串聯重復序列(tandem repeats sequence,TRs)和散在重復序列(dispersed repeats sequence,DRs)。TRs由多個重復單體以首尾相連的方式串聯排列而成,而DRs則主要由能夠在基因組上復制和移動的轉座子(transposable elements,TEs)組成。TRs和TEs在真核生物基因組中廣泛分布,且易在染色質區域積累[3],是基因組中快速進化的組分,對物種進化、基因遺傳變異、轉錄調控等具有重要作用[4]。【前人研究進展】早期人們對TRs和TEs的研究大部分是分別開展的,很少對兩類重復序列之間的關系進行研究,但近期有研究表明兩類重復序列在許多真核生物中存在聯系。AHMED等發現人類基因組中至少有7 276 TRs或23%衛星序列來源于TEs[5],其中小衛星主要來源于家族[6]。WONG等研究表明著絲粒衛星DNA可能通過不等交換,部分或全部來自轉座子[7]。TEs不僅通過轉座,而且通過產生串聯重復來對基因組進行擴張和改變[5]。這些研究表明TRs和TEs兩類重復序列之間具有序列相似性,可能在其結構和進化中存在著一定的聯系。目前為止,此類研究在植物的家族[8-10],人類的家族[5-6],果蠅中的[11],蛙中的[12],鯨類中的L1[13],美洲牡蠣中MITE-like(Miniature Inverted-repeat Transposable Element(MITE)-like)[14]等研究中均有報道,然而在牛亞科基因組中卻鮮有報道。繼2009年普通牛基因組測序完成后,其他牛亞科物種的基因組測序工作也陸續展開。已報道的牛亞科基因組有普通牛、歐洲野牛、大額牛、非洲水牛等,重復序列占比分別為48.81%[15]、47.03%[16]、48.13%[17]、37.21%[18]。【本研究切入點】與人類、模式生物及植物等物種相比,牛亞科物種重復序列的報道較少,尤其在TRs和TEs兩類重復序列的相似性、結構聯系、進化關系等方面還有待研究。【擬解決的關鍵問題】通過對普通牛、瘤牛、牦牛、水牛、美洲野牛、大額牛等6個牛亞科物種重復序列的鑒定,運用生物信息學方法對TRs和TEs之間的序列相似性進行了關聯分析,并研究了轉座子的組成及其對串聯重復序列的貢獻,以及串聯重復序列在轉座子內的結構組成,為牛亞科重復序列的研究提供理論和數據支撐,也為進一步挖掘重復序列的結構特點、生物學功能及其在物種進化中的作用提供重要依據。
利用6個牛亞科的參考基因組,分別為普通牛(ARS-UCD1.2)、瘤牛(Bos_indicus_1.0)、牦牛(BosGru_v2.0)、水牛(UOA_WB_1)、野牛(Bison_ UMD1.0)、大額牛。其中前五個是從NCBI基因組數據庫(https://www.ncbi.nlm.nih.gov/genome/)下載,大額牛基因組使用的是本團隊組裝的版本(https:// ngdc.cncb.ac.cn/gwh/submit/submission)。本研究數據采集及分析于2018—2019年在中國農業科學院北京畜牧獸醫研究所完成。
通過TRF(Tandem Repeats Finder,V4.09)[19]和RepeatMasker兩個軟件(V4.09)對重復序列進行鑒定。
(1)TRF:鑒定串聯重復序列,參數設置參考Melters等的方法[20],具體為1、1、2、80、10、200、2000,分別表示匹配(match)、錯配(mismatch)、插入缺失(indel)、匹配概率(probability of match,PM)、插入缺失的概率(probability of indel,PI),最低得分(minscore),最大周期(maxperiod)。這里我們選取串聯重復序列中重復單元≥20bp的序列進行分析。
(2)RepeatMasker:鑒定轉座子和短串聯重復序列。將各物種的基因組與數據庫(RepBase和Dfam_ Consensus)中的序列進行比對查找。運行命令為time RepeatMasker -parallel 2 -species 'name' -gff -dir repeat fasta_sequence,輸入文件格式為fasta序列,其中-parallel 2表示并行的線程數為2,-species 'name'表示所對應物種的名字為'name',-gff 表示輸出格式為gff,-dir repeat表示將結果輸出repeat文件夾中。
(3)數據整合:將TRF 和RepeatMasker兩個軟件的結果匯總,并去除重復,即將重疊部分的序列只保留一個,形成串聯重復序列集和轉座子數據集,用作后續的分析。
(1)單位點、多位點TRs判斷標準:串聯重復序列中,相應重復單體在基因組不同位置上出現兩次及以上的為多位點串聯重復序列(mutiple-locus TRs, mlTRs),僅出現一次的為單位點串聯重復序列(single-locus TRs, slTRs)。
(2)重復單體間的序列比對:為了提高序列比對的敏感性,參考Darren等的方法[21],首先根據重復單體的長度,將序列分為兩組(20—39 bp、≥40 bp);然后通過本地BLAST對串聯重復序列中重復單體進行兩兩比對。
(3)單位點、多位點串聯重復序列的分類:根據(2)中比對結果,兩組序列中滿足比對長度≥80%,且E值分別≤0.01或10-6的序列被認為是mlTRs,剩下的是slTRs。
(1)選取重復單元長度≥20 bp的串聯重復序列,通過本地BLAST與轉座子進行兩兩比對。篩選比對結果中滿足相似性≥70%,E值≤10-6的序列,認為該串聯重復序列與轉座子具有一定的相似性。
(2)統計(1)中篩選出的串聯重復序列與轉座子,并計算相應比例。
(3)轉座子的活性分析,通過轉座子的相對豐度來表示:

通過串聯重復序列與轉座子間的序列比對,發現有些轉座子內部具有串聯重復的特征,因而將轉座子進行自我比對,尋找其內部的串聯重復序列,通過emboss中dotmatcher程序實現(http://emboss. bioinformatics.nl/cgibin/emboss/dotmatcher/), 并繪制了dotplot圖。
本研究利用TRF、RepeatMasker兩個軟件對普通牛、瘤牛、牦牛、水牛、美洲野牛、大額牛等6個牛亞科物種的重復序列進行了鑒定,并統計了重復序列以及TRs、TEs在基因組中占比,結果見表1。由表1可知,在6個牛亞科物種的基因組中,普通牛重復序列占比最高,為49.13%,然后依次為水牛46.82%、大額牛46.66%、瘤牛42.70%、野牛42.36%、牦牛42.34%,其中轉座子的占比(42.97%)明顯高于串聯重復序列(2.03%),表明重復序列的組成以轉座子為主導。轉座子在6個物種的比例為40.57%—45.71%,其中各類轉座子的比例分別為長散在重復序列(long interspersed nuclear elements,LINE)(25.88%)>短散在重復序列(short interspersed repeated sequence, SINE)(11.28%)>長末端重復(long terminal repeats,LTR)(3.73%)>DNA轉座子(2.10%)。串聯重復序列在6個物種中的比例為1.50%—3.42%,其中微衛星(0.76%)>小衛星(0.65%)>衛星序列(0.62%)。
通過本地BLAST,筆者對重復單體長度≥20 bp的串聯重復序列進行兩兩比對,得到牛亞科6個物種的mlTRs和slTRs結果(表2)。由表2可知,mlTRs為6個牛亞科物種串聯重復序列的主要組成,平均占比達85%,在瘤牛中甚至高達99%。盡管在不同物種中,mlTRs和slTRs在基因組中的比例有所差異,但mlTRs的比例(76%—99%)明顯高于slTRs(1%— 24%)。該結果與人類基因組中串聯重復序列研究結果一致(mlTRs為79%,高于slTRs中的21%)[21]。

表1 牛亞科基因組重復序列的總體分布

表2 單位點、多位點串聯重復序列在牛亞科6個物種的分布
2.3.1 TE-derieved的串聯重復序列分析 串聯重復序列與轉座子并不是基因組中相互獨立的組成部分,它們彼此之間可能具有一定的聯系[22]。因此,本研究將每個物種的重復序列單體與其轉座子序列進行兩兩比對,以期尋找彼此具有一定相似性的序列。筆者統計了6個牛亞科物種中,轉座子來源的串聯重復序列(TE-derieved TRs)數目及其在全部TRs中所占的比例,以及TE-derieved TRs中mlTRs和slTRs所占的比例(表3)。由表3可見,在牛亞科物種中,TE-derieved TRs的數量在19 711—36 696之間,除水牛基因組外(43%),其他物種所占比例均在一半以上(57%—84%),其中普通牛和瘤牛的比例較高,分別為82%和84%。在TE-derieved TRs中,mlTRs的比例>87%,遠高于slTRs的含量(≤12%),表明基因組中大部分的TRs來源于轉座子。

表3 轉座子來源的串聯重復序列分布
2.3.2 TRs-related轉座子及其活性分析 為了進一步研究轉座子與串聯重復序列間的關系,我們對TRs進化相關的轉座子(TRs- related TEs)分析發現,牛亞科物種的TRs-related TEs主要由非長末端重復(non-long terminal repeats, non-LTR,包括SINE、LINE)組成。由圖1可知,SINE/Core-RTE(主要為BOV-A2)和SINE/tRNA-Core-RTE(主要為Bov-tA)的數量在6個物種中均處于較高水平,分別在14 423— 24 193和7 450—12 694之間,LINE/L1和LINE/RTE- BovB的含量次之,LTR和DNA的含量最少(圖1)。這一點與植物不同,植物中TRs-related TEs主要由LTR組成[8, 23]。

縱坐標表示轉座子,橫坐標表示相對豐度。每個柱狀右側數字:百分比數字表示相對豐度,括號中的數字表示相應轉座子的實際數量
同時據研究,TRs-related TEs相對豐度越高,其活性也越高[5]。因此,我們利用6個牛亞科物種的TRs-related TEs分析了其相對豐度及活性。由圖1可出看出,在6個物種中,SINE/Core-RTE(主要為BOV-A2)的相對豐度均處于最高水平(4.06%— 6.77%),被認為是最年輕且最具活力的轉座子;SINE/tRNA-Core-RTE次之。另外,盡管DNA/hAT-Ac在6個物種基因組中的數量很少,但在普通牛、瘤牛和美洲野牛中,它們的相對豐度分別達到1.23%、1.32%和1.47%,高于除SINE/core-RTE之外的其他轉座子的豐度,表明該轉座子在普通牛、瘤牛和美洲野牛中處于較高的活性。綜上,在TRs與轉座子的進化過程中,BOV-A2轉座子的數量最多,活性最高,對TRs的影響也最大。
2.3.3 BovB和L1_BT轉座子的串聯重復特征分析 在轉座子與串聯重復序列比對過程中,我們發現同一個轉座子內部存在多處串聯重復,表明轉座子內部可能具有串聯重復序列的特征。因此,我們對牛亞科中的BovB和L1_BT轉座子內部的串聯重復序列特征進行了分析,并將其結果可視化。如圖2所示,BovB在0—600 bp之間的序列發生了大量的串聯重復(圖2-A),L1_BT主要在1 500—2 700 bp之間(圖2-B),兩段區域均為非編碼區,不直接編碼蛋白(由RepeatMasker和核酸數據庫中的注釋信息得到)。同時,我們通過序列比對發現,BovB在31—397 bp處有5個串聯重復序列,與consensus的一致性均在93%以上,L1_BT在1 616—2 227 bp 處有4個串聯重復序列,與consensus的一致性均在87%以上(圖3)。這表明BovB和L1_BT轉座子內部具有串聯重復特征,且這些串聯重復序列間的一致性較高。

A:BovB;B:L1_BT。每一條短線段表示相應序列可以匹配上。窗口大小為50,閾值為50
串聯重復序列和轉座子是基因組中最豐富的重復序列,決定著動物、植物、真菌的基因組構成[24]。人類中約有1/4的小衛星來源于轉座子[5],植物中串聯重復序列主要來源于LTR轉座子[8, 23],尤其是,如水稻中的家族[25],玉米中的家族[26],小麥中的家族[27],黑麥中的家族[28]等,土豆中至少4個著絲粒串聯重復序列是由反轉座子擴增而來的[29]。本文分析了牛亞科6個物種的TE-derived TRs,平均占全部TRs的67%,其中mlTRs可達87%以上,表明在牛亞科物種基因組多個位置出現了相似的序列,但其本身不具備轉座的能力,因而TRs可能是由于轉座子進化而來,并在轉座酶的作用下,將序列插入到基因組其他位置,然后又通過DNA復制異常、非法重組、基因轉換等原因發生了串聯排列[9, 30-31]。轉座促使串聯重復序列不斷產生,轉座子在同一位點多次插入而形成串聯重復序列[32]。

圖3 BovB(a)和L1_BT(b)內部的串聯重復序列比對
串聯重復序列與轉座子之間的序列相似性,說明其可能來源于轉座子,尤其是具有活性的轉座子。有研究表明DNA轉座子附近可能通過其活性誘導的非法重組而產生衛星重復[33],在人類基因組中,TRs-derived TEs的相對豐度與其轉錄活性之間具有一定的正相關性,是在家族中豐度最高,被認為該家族中活性最高的一種[5]。本研究中,筆者分析了與TRs相關的轉座子,統計結果表明BOV-A2和Bov-tA的含量在基因組中處于具有高豐度,其轉座子活性也較高,而L2與ERVL的豐度低、活性低。原因可能與L2轉座子在進化過程中失去活性[34],而BOV-A2和Bov-tA的活性保留下來有關。有些轉座子雖然在基因組進化過程中失去了活性,但長期存在于基因組中,只有受到壓力時才會被觸發,即在應激條件下,誘變活性開啟,在應激結束后,誘變活性關閉。如BOV-A2轉座子在受到環境壓力或者激活信號等,會優先表達,在基因表達的轉錄和翻譯中具有重要的功能[35]。
DINE-1轉座子在果蠅基因組中廣泛分布,具有與滾環復制的分布機制,屬于家族,其內部含有串聯重復的中心區域[36-37]。白蟻中發現了terMITE1和terMITE2兩種不同的轉座子,內部分別含有長度為16和114 bp的串聯重復序列[38],擬南芥中 Tnat1和Tnat2轉座子中分別含有長度為60和240 bp的串聯重復序列[39]。此外,在熱帶爪蟾中的MITE(miniature inverted-repeat transposable element)[40],果蠅中的Tetris[41],大芻草和玉米中的Ty3[42]等轉座子內均含有長度不等的串聯重復序列。本研究中,BovB和LI_BT的序列自我比對的結果表明,這兩個轉座子分別在0 —600 bp和1 500—2 700 bp之間存在著不同長度的串聯重復序列。這些研究表明串聯重復序列可作為結構成分存在于轉座子內部,這也許是衛星DNA的重要來源之一。
重復序列在牛亞科物種中具有相似的分布特征,non-LTR是牛亞科物種TRs-derived TEs的重要來源,且SINE/Core-RTE(主要為BOV-A2)為牛亞科物種最年輕且最具活力的轉座子,同時串聯重復序列又可作為轉座子內部結構的組成部分。
[1] DE KONING A P J, GU W J, CASTOE T A, BATZER M A, POLLOCK D D. Repetitive elements may comprise over two-thirds of the human genome. PLoS Genetics, 2011, 7(12): e1002384. doi:10. 1371/journal.pgen.1002384.
[2] SCHNABLE P S, WARE D, FULTON R S, STEIN J C, WEI F S, PASTERNAK S, LIANG C Z, ZHANG J W, FULTON L, GRAVES T A, et al. The B73 maize genome: Complexity, diversity, and dynamics. Science, 2009, 326(5956): 1112-1115. doi:10.1126/science.1178534.
[3] HESLOP-HARRISON J S, SCHWARZACHER T. Organisation of the plant genome in chromosomes. The Plant Journal, 2011, 66(1): 18-33. doi:10.1111/j.1365-313X.2011.04544.x.
[4] 艾對元. 基因組中重復序列的意義. 生命的化學, 2008, 28(3): 343-345. doi:10.3969/j.issn.1000-1336.2008.03.031.
AI D Y. The meaning of repeat sequences. Chemistry of Life, 2008, 28(3): 343-345. doi:10.3969/j.issn.1000-1336.2008.03.031. (in Chinese)
[5] AHMED M, LIANG P. Transposable elements are a significant contributor to tandem repeats in the human genome. Comparative and Functional Genomics, 2012, 2012: 947089. doi:10.1155/2012/947089.
[6] JURKA J, GENTLES A J. Origin and diversification of minisatellites derived from human Alu sequences. Gene, 2006, 365: 21-26. doi:10. 1016/j.gene.2005.09.029.
[7] WONG L H, CHOO K H A. Evolutionary dynamics of transposable elements at the centromere. Trends in Genetics, 2004, 20(12): 611-616. doi:10.1016/j.tig.2004.09.011.
[8] MACAS J, KOBLí?KOVá A, NAVRáTILOVá A, NEUMANN P. Hypervariable 3' UTR region of plant LTR-retrotransposons as a source of novel satellite repeats. Gene, 2009, 448(2): 198-206. doi:10.1016/j.gene.2009.06.014.
[9] SHARMA A, WOLFGRUBER T K, PRESTING G G. Tandem repeats derived from centromeric retrotransposons. BMC Genomics, 2013, 14: 142. doi:10.1186/1471-2164-14-142.
[10] CHENG Z J, MURATA M. A centromeric tandem repeat family originating from a part of Ty3/Gypsy-retroelement in wheat and its relatives. Genetics, 2003, 164(2): 665-672. doi:10.1093/genetics/164. 2.665.
[11] MILLER W J, NAGEL A, BACHMANN J, BACHMANN L. Evolutionary dynamics of the SGM transposon family in thespecies group. Molecular Biology and Evolution, 2000, 17(11): 1597-1609. doi:10.1093/oxfordjournals.molbev.a026259.
[12] PONTECORVO G, DE FELICE B, CARFAGNA M. A novel repeated sequence DNA originated from a Tc1-like transposon in water green frog. Gene, 2000, 261(2): 205-210. doi:10.1016/ S0378-1119(00)00539-4.
[13] KAPITONOV V V, HOLMQUIST G P, JURKA J. L1 repeat is a basic unit of heterochromatin satellites in cetaceans. Molecular Biology and Evolution, 1998, 15(5): 611-612. doi:10.1093/oxfordjournals.molbev. a025963.
[14] GAFFNEY P M, PIERCE J C, MACKINLEY A G, TITCHEN D A, GLENN W K. Pearl, a novel family of putative transposable elements in bivalve mollusks. Journal of Molecular Evolution, 2003, 56(3): 308-316. doi:10.1007/s00239-002-2402-5.
[15] BOVINE G S, ANALYSIS C, ELSIK C G, GIBBS R A,?MUZUNY D M,?WEINSTOCK G M,?AELSON D L,?EICHLER E E,?ELNITSKI L, GUIGO R,et al. The genome sequence of taurine cattle: a window to ruminant biology and evolution. Science, 2009, 324(5926): 522-8.
[16] WANG K, WANG L Z, LENSTRA J A, JIAN J B, YANG Y Z, HU Q J, LAI D Y, QIU Q, MA T, DU Z, ABBOTT R, LIU J Q. The genome sequence of the wisent (). GigaScience, 2017, 6(4): gix016. doi:10.1093/gigascience/gix016.
[17] WANG M S, ZENG Y, WANG X, NIE W H, WANG J H, SU W T, OTECKO N O, XIONG Z J, WANG S, QU K X, YAN S Q, YANG M M, WANG W, DONG Y, WU D D, ZHANG Y P. Draft genome of the gayal,. GigaScience, 2017, 6(11): gix094. doi:10.1093/ gigascience/gix094.
[18] GLANZMANN B, M?LLER M, LE ROEX N, TROMP G, HOAL E G, VAN HELDEN P D. The complete genome sequence of the African buffalo (). BMC Genomics, 2016, 17(1): 1001. doi:10.1186/s12864-016-3364-0.
[19] BENSON G. Tandem repeats finder: a program to analyze DNA sequences. Nucleic Acids Research, 1999, 27(2): 573-580. doi:10. 1093/nar/27.2.573.
[20] MELTERS D P, BRADNAM K R, YOUNG H A, TELIS N, MAY M R, RUBY J G, SEBRA R, PELUSO P, EID J, RANK D, GARCIA J F, DERISI J L, SMITH T, TOBIAS C, ROSS-IBARRA J, KORF I, CHAN S W L. Comparative analysis of tandem repeats from hundreds of species reveals unique insights into centromere evolution. Genome Biology, 2013, 14(1): R10. doi:10.1186/gb-2013-14-1-r10.
[21] AMES D, MURPHY N, HELENTJARIS T, SUN N N, CHANDLER V. Comparative analyses of human single- and multilocus tandem repeats. Genetics, 2008, 179(3): 1693-1704. doi:10.1534/genetics.108. 087882.
[22] ME?TROVI? N, MRAVINAC B, PAVLEK M, VOJVODA-ZELJKO T, ?ATOVI? E, PLOHL M. Structural and functional liaisons between transposable elements and satellite DNAs. Chromosome Research, 2015, 23(3): 583-596. doi:10.1007/s10577-015-9483-7.
[23] VONDRAK T, ROBLEDILLO L á, NOVáK P, KOBLí?KOVá A, NEUMANN P, MACAS J. Characterization of repeat arrays in ultra-long nanopore reads reveals frequent origin of satellite DNA from retrotransposon-derived tandem repeats. The Plant Journal: for Cell and Molecular Biology, 2020, 101(2): 484-500. doi:10.1111/tpj. 14546.
[24] LóPEZ-FLORES I, GARRIDO-RAMOS M A. The repetitive DNA content of eukaryotic genomes. Genome Dynamics, 2012, 7: 1-28. doi:10.1159/000337118.
[25] CHENG Z K, DONG F G, LANGDON T, OUYANG S, BUELL C R, GU M H, BLATTNER F R, JIANG J M. Functional rice centromeres are marked by a satellite repeat and a centromere-specific retrotransposon. The Plant Cell, 2002, 14(8): 1691-1704. doi:10.1105/tpc.003079.
[26] ZHONG C X, MARSHALL J B, TOPP C, MROCZEK R, KATO A, NAGAKI K, BIRCHLER J A, JIANG J M, DAWE R K. Centromeric retroelements and satellites interact with maize kinetochore protein CENH3. The Plant Cell, 2002, 14(11): 2825-2836. doi:10.1105/tpc. 006106.
[27] LIU Z, YUE W, LI D Y, WANG R R C, KONG X Y, LU K, WANG G X, DONG Y S, JIN W W, ZHANG X Y. Structure and dynamics of retrotransposons at wheat centromeres and pericentromeres. Chromosoma, 2008, 117(5): 445-456. doi:10.1007/s00412-008-0161-9.
[28] LANGDON T, SEAGO C, JONES R N, OUGHAM H, THOMAS H, FORSTER J W, JENKINS G. De novo evolution of satellite DNA on the rye B chromosome. Genetics, 2000, 154(2): 869-884. doi:10.1093/ genetics/154.2.869.
[29] GONG Z Y, WU Y F, KOBLí?KOVá A, TORRES G A, WANG K, IOVENE M, NEUMANN P, ZHANG W L, NOVáK P, BUELL C R, MACAS J, JIANG J M. Repeatless and repeat-based centromeres in potato: implications for centromere evolution. The Plant Cell, 2012, 24(9): 3559-3574. doi:10.1105/tpc.112.100511.
[30] HIKOSAKA A, KAWAHARA A. Lineage-specific tandem repeats riding on a transposable element of MITE inevolution: a new mechanism for creating simple sequence repeats. Journal of Molecular Evolution, 2004, 59(6): 738-746. doi:10.1007/s00239-004-2664-1.
[31] PLOHL M, Me?trovi? N, Mravinac B. Satellite DNA evolution. Genome Dynamics, 2012, 7:126-152. doi:10.1159/000337122.
[32] MCGURK M P, BARBASH D A. Double insertion of transposable elements provides a substrate for the evolution of satellite DNA. Genome Research, 2018, 28(5): 714-725. doi:10.1101/gr.231472.117.
[33] KAPITONOV V V, JURKA J. Molecular paleontology of transposable elements from. Genetica, 1999, 107(1/2/3): 27-37.
[34] SMIT A F A, RIGGS A D. MIRs are classic, tRNA-derived SINEs that amplified before the mammalian radiation. Nucleic Acids Research, 1995, 23(1): 98-102. doi:10.1093/nar/23.1.98.
[35] DAMIANI G, FLORIO S, PANELLI S, CAPELLI E, CUCCIA M. The Bov-A2 retroelement played a crucial role in the evolution of ruminants. Rivista Di Biologia, 2008, 101(3): 375-404.
[36] YANG H P, BARBASH D A. Abundant and species-specific DINE-1 transposable elements in 12genomes. Genome Biology, 2008, 9(2): R39. doi:10.1186/gb-2008-9-2-r39.
[37] THOMAS J, VADNAGARA K, PRITHAM E J. DINE-1, the highest copy number repeats inare non-autonomous endonuclease-encoding rolling-circle transposable elements (Helentrons). Mobile DNA, 2014, 5: 18. doi:10.1186/1759-8753-5-18.
[38] LUCHETTI A. terMITEs: miniature inverted-repeat transposable elements (MITEs) in The Termite Genome (Blattodea: Termitoidae). Molecular Genetics and Genomics: MGG, 2015, 290(4): 1499-1509. doi:10.1007/s00438-015-1010-1.
[39] NOMA K. Tnat1 and Tnat2 from: novel transposable elements with tandem repeat sequences. DNA Research, 2000, 7(1): 1-7. doi:10.1093/dnares/7.1.1.
[40] SCALVENZI T, POLLET N. Insights on genome size evolution from a miniature inverted repeat transposon driving a satellite DNA. Molecular Phylogenetics and Evolution, 2014, 81: 1-9. doi:10.1016/ j.ympev.2014.08.014.
[41] DIAS G B, SVARTMAN M, DELPRAT A, RUIZ A, KUHN G C S. Tetris is a foldback transposon that provided the building blocks for an emerging satellite DNA of. Genome Biology and Evolution, 2014, 6(6): 1302-1313. doi:10.1093/gbe/evu108.
[42] MARTíNEZ-IZQUIERDO J A, GARCíA-MARTíNEZ J, VICIENT C M. What makes Grande1 retrotransposon different? Genetica, 1997, 100(1/2/3): 15-28.
Evolutionary Relationship Between Transposable Elements and Tandem Repeats in Bovinae Species
ZHANG Rui, ZHANG TianLiu, FAN TingTing, ZHU Bo, ZHANG LuPei, XU LingYang, GAO HuiJiang, LI JunYa, CHEN Yan, GAO Xue
Institute of Animal Science, Chinese Academy of Agricultural Sciences, Beijing 100193
【】The repetitive sequence is an important part of eukaryotic genomes and plays an important role in species evolution, gene genetic variation, and transcriptional regulation. The purpose of this study was to reveal the characteristics of tandem repeats in bovinae by investigating the evolutionary relationship between transposons and tandem repeats, so as to provide the theoretical support for the study of tandem repeats in bovinae. 【】 In this paper, the six genomes were selected as research object, including,,,,and. The transposable elements and tandem repeats in six genomes was identified through TRF and RepeatMasker software. Meanwhile, the sequence similarity between the two types of tandem repeats was analyzed by BLAST, and single-locus tandem repeats (single-locus TRs, mlTRs), multiple-locus tandem repeats (multiple-locus TRs, mlTRs) and the characteristics of tandem repeat for the transposable elements were investigated too. 【】(1) In the six bovinae genomes, the percent of tandem repeats inwas the highest (49.13%), followed by(46.82%),(46.23%),(42.70%),(42.53%), and(42.36%), in which the content of transposable elements in the genome ranged from 40.57%-45.71%, and was higher than that of tandem repeats (1.50%-3.42%). (2) In the tandem repeats, the proportion of mlTRs (76%-99%) was significantly higher than that of slTRs(1%-24%), indicating that the mlTRs was the main component of tandem repeats in six bovinae species. (3) The proportion of TE-derived tandem repeats was 43% to 84%, among them mutiple-locus tandem repeats could reach up to 94%. (4) The analysis of TRs-related transposable elements and their activity showed that these transposable elements were mainly from non-Long Terminal Repeats (non-LTR, including SINE and LINE) and long interspersed nuclear element (LINE), among which SINE/core-RTE (mainly BOV-A2)had the highest number (14 423-24 193) and relative number (4.06%-6.77%), which was considered to be the youngest and the most dynamic transposable elements. (5) The study on transposable elements of tandem repeats’ characteristics indicated that BovB and L1_BT contained a large number of tandem repeats in 0-600 bp and 1 500 bp-2 700 bp, respectively, which were more than 93% and 87% consistent with the consensus sequence, respectively, and the sequences were located in the non-coding region. 【】 The repetitive sequence had similar distribution characteristics, non-LTR was an important source of TRs-related TEs, and SINE/Core-RTE(mainly BOV-A2) was the youngest and most dynamic transposable elements. At the same time, the tandem repeats could be used as internal structure component of transposable elements, indicating that tandem repeats and transposable elements interacted with each other in the process of genome evolution.
bovinae; transposable elements; tandem repeats; evolution

10.3864/j.issn.0578-1752.2022.09.014
2020-06-09;
2022-03-16
國家自然科學基金面上項目(31572376)
張瑞,E-mail:1245103873@qq.com。通信作者高雪,E-mail:gaoxue76@126.com
(責任編輯 林鑒非)