張 瑞 ,張天留,宋美華,徐凌洋,高會江,李俊雅,陳 燕*,高 雪*
(1.中國農業科學院北京畜牧獸醫研究所,北京 100193;2.山東省棲霞市莊園獸醫站,山東棲霞 265300)
重復序列(Repetitive Sequence)是指在整個基因組中以多個拷貝出現的核酸序列,分布在染色體不同位置,是真核生物基因組的重要組成部分[1-2]。最新研究表明,過去被認為是“垃圾DNA”的重復序列在基因組中扮演著重要角色[3],對物種進化、基因遺傳變異、轉錄調控等具有重要意義[4]。病毒或原核生物中的重復序列存在較少,而重復序列在真核生物中存在廣泛。從病毒、原核生物到真核生物,重復序列在基因組中的比例呈逐漸提高的趨勢:病毒中重復序列不足1%[4];啤酒酵母為3.4%[4];植物基因組中比例波動很大,水稻的重復序列占35%[5],大豆42%[6],小麥80%[7];哺乳動物中比例較為穩定,人類重復序列為47%[8],小鼠為42%[9];牛亞科物種中,普通牛、歐洲野牛、大額牛的重復序列分別為48.81%[10]、47.03%[11]、48.13%[12],非洲水牛中重復序列占37.21%,相對其他幾個牛種比例略低[13]。根據重復序列在基因組中的分布方式,可分為串聯重復序列(Tandem Repetitive Sequence)和散在重復序列(Interspersed Repetitive Sequence)。本文對重復序列的分類和特點進行綜述,重點關注串聯重復序列和散在重復序列在牛亞科中的研究進展,并分析了這兩大類重復序列在牛亞科物種進化中的作用。
1.1 串聯重復序列的分類 串聯重復序列是指核心重復單元以首尾相連的方式多次重復所組成的序列,廣泛存在于真核生物和部分原核生物基因組中,主要分布于染色體著絲粒和端粒區[14],對有絲分裂和減數分裂中染色體的分離以及染色體結構穩定性至關重要[15-16]。根據串聯重復單元的長度,串聯重復序列可分為3 大類,即衛星DNA(Satellite DNA,>100 bp)、小衛星DNA(Minisatellite DNA,10~100 bp)和微衛星DNA(Microsatellite DNA,<10 bp)[17]。
1.1.1 衛星DNA 衛星DNA 是指重復單元長度大于100 bp的序列,是異染色質的重要組成部分,一般為高度串聯重復,主要集中在中心體周圍和亞端粒處。大多數動植物基因組衛星DNA 在150~180 bp 或300~360 bp[18],具有富含AT 的特點[2]。
1.1.2 小衛星DNA 小衛星DNA 也稱可變數目串聯重復序列(Variable Number Tandem Repeats,VNTRs),是指重復單元長度在10~100 bp 的序列,一般為中度串聯重復,主要位于常染色質區域,與基因的轉錄與調控等生物功能相關[19]。第一個小衛星DNA 是由Weller 等[20]在人類肌紅蛋白基因的內含子中發現的。小衛星的大小通常在細胞減數分裂期通過同源重組的擴張和收縮而發生改變[21]。
1.1.3 微衛星DNA 微衛星DNA 又稱為簡單重復序列(Simple tandem repeats,STR),其重復單元一般在10 bp 以內[22],通常為中度串聯重復,主要位于基因組非編碼區或內含子區域[17,23-24],是染色體上端粒的重要組成部分。
1.2 串聯重復序列的特點
1.2.1 衛星DNA 的保守性 同一類型衛星序列具有高度的保守性,尤其是著絲粒區衛星序列。1978 年,Macaya 等[25]通過密度梯度離心技術從牛基因組DNA中分離出1.706、1.711a、1.711b、1.715、1.720、1.723 等8 種不同的衛星DNA,其中1.706、1.711、1.720 衛星序列相似性較高。1982 年,Taparowsky 等[26]提出了衛星序列進化的假設模型,并將衛星DNA 分成了A、B 兩大家族。家族A 包括1.706、1.711a、1.720 衛星序列,其來源于一個12 bp 的重復單元(GATCAGGCAA(G)CT);而家族B 則包括1.715、1.711b 衛星序列,來源于另外一個12 bp 的重復單元(A(T)CTCGGGGTTC C),但這些序列共同起源于一個9 bp(ATCGGGCTA)的簡單重復序列。1996 年,Modi 等[27]通過Southern印跡雜交(Southern Blotting)和熒光原位雜交技術(Fluorescence in situ hybridization,FISH)對偶蹄目下46 個物種進行比較分析,發現bovine-Pst 和著絲粒區特異性衛星序列1.715 衛星家族廣泛存在于反芻動物中,結果表明這兩個家族在反芻物種間具有高度的保守性。Kopecna 等[28]2012 年利用激光顯微技術分離了10個??品N群著絲粒特異性衛星DNA-1.715 衛星家族,并通過衛星DNA 的保守性分析了它們之間的親緣關系,發現普通牛和野牛、亞洲水牛和非洲水牛4 個物種親緣關系更加緊密。2013 年,Melters 等[29]對282 個動植物基因組分析發現,著絲粒區存在大量的串聯重復序列,其中普通牛、瘤牛、歐洲野牛、牦牛和水牛等物種著絲粒區存在680 bp(1.723 衛星家族)和1 410 bp(1.715衛星家族)兩類重復序列,但兩者序列無相似性,且前者的豐度較低,密度更小,如在普通牛中,680 bp 的序列在基因組中所占比例為29%,而1 410 bp 的序列達到了71%。
1.2.2 微衛星DNA 分布的不均性 微衛星DNA 在基因組中分布具有不均性。人類基因組中90%的微衛星DNA是在近端粒區發現的[30],由大量高度重復的TTAGGG序列組成,昆蟲則由TTAGG 組成[31]。真核生物中,二堿基微衛星DNA 豐度最高[32],人及其他哺乳動物以AC最為豐富,植物以AT 最豐富[33]。Adams 等[32]對71 個脊椎動物基因組微衛星序列進行了分析,結果發現魚類、爬行動物和哺乳動物的微衛星含量最多,豐度分別為716.86 loci/Mbp、628.26 loci/Mbp、491.23 loci/Mbp,其中4-mer 微衛星豐度最高,但2-mer 微衛星密度最大;在普通牛中2-mer 密度達到1.8 kb/Mb,而6-mer 微衛星密度只有148 bp/Mb。此外,利用不同的計算方法和軟件得到的微衛星DNA 雖然存在差異,但結果均表明微衛星并不是均勻的分布在染色體上,而是富集在重復序列豐富或者匱乏的地方。在牛科基因組中,不同染色體上微衛星的豐度和密度各異,Y 染色體上最高,整體上與各染色體的長度無關,而與GC 含量呈負相關[34]。
1.2.3 小衛星和微衛星DNA 的多態性 小衛星DNA GC 含量豐富,具有高度多態性和不穩定性[35]。研究發現,酵母、真菌、植物和高等真核生物在內的大多數生物中都存在富含GC 的小衛星序列,少部分AT 含量豐富的小衛星傾向于形成回文序列和發夾結構,使基因組的不穩定性加強[36]。在人類基因組中,小衛星的平均突變率大于0.5%,其中高突變位點可達10%[35]。小衛星的多態性及與基因組中其他類似位點雜交的能力,使其可以作為個體鑒定的DNA 指紋圖譜[37]。Jeffers 等[38]以小衛星作探針,對20 個英國白種人的血樣分析發現,DNA 指紋圖譜的一致性越高,個體間的親緣關系就越近,表明DNA 指紋圖譜具有個體特異性。Vasil'ev 等[39]利用小衛星與牛屬(Bos)和野牛屬(Bison)中多個物種雜交獲得指紋圖譜,并根據雜交片段數量與個體血液組成之間的相關性,鑒定牛亞科中的種間雜交、屬間雜交以及遠緣雜交的物種。Perret 等[40]利用牛亞科基因組Y 染色體上特異性小衛星序列的遺傳多樣性,進行胚胎著床前的性別鑒定。
Glowatzki 等[41]首次利用微衛星對瑞士褐牛、西門塔爾牛、荷斯坦牛等進行親子鑒定,解決了傳統檢測方法(如血型、血清蛋白、紅細胞酶等)無法鑒定的親子關系。Heyen 等[42]利用17 條染色體上的22 個微衛星對5 個品種牛進行了血緣關系分析。郭立平等[43]利用8 個微衛星DNA 作為標記對西門塔爾牛進行親子遺傳關系的鑒定,既節約了成本,又填補了缺失的系譜信息。利用微衛星的多態性不僅可以用于親子鑒定,還可用于研究基因與性狀及群體的遺傳關系。王斌等[44]利用微衛星分析了宣漢牛體高、胸圍等生長發育性狀,發現在11 個微衛星位點上的59 個等位基因與生長發育呈正相關,44 個等位基因與生長發育呈負相關。與小衛星相比,微衛星DNA 指紋圖譜更適合進行群體遺傳分析。張相倫等[45]利用20 個微衛星序列作為標記分析了西門塔爾牛、利木贊牛、魯西黃牛和利魯牛4 個牛群體間的遺傳關系。楊紅文等[46]針對黎平牛、關嶺牛等貴州地方牛品種,利用23 對微衛星引物進行了遺傳多樣性分析,結果表明其品種間的遺傳分化為71.3%,而品種內為28.7%,其中思南牛與關嶺牛的遺傳距離最小、與黎平牛的遺傳距離最大。
1.2.4 串聯重復序列進化快速 串聯重復DNA 的進化似乎比預期快得多,累積突變、不等交換、大片段的復制影響串聯重復家族在較短時期內發生改變[47],其中衛星DNA 通過擴張和收縮而快速進化[48]。Melters 等[29]利用生物信息學方法對不同物種的串聯重復序列進行比較分析,結果表明幾乎所有動植物基因組的著絲粒處都存在高拷貝的衛星序列,但序列組成和長度差異很大,且衛星DNA 在物種間快速進化,尤其當分化超過5 000 萬年,著絲粒重復序列相似度迅速降低。
此外,高階重復序列(Higher-order repeat,HOR)的形成也加速了串聯重復序列的進化,增加了基因組的復雜性。α衛星序列作為人類基因組中最豐富的串聯重復序列,在基因組中以2 種形式存在:一種是作為長度為170 bp 的重復單體,另一種是由2 個相鄰單體同時擴增形成“ABABAB……”的高階重復序列[29]。這在其他哺乳動物中也有發現,如小鼠、豬、牛、馬等[49],表明這種形式在物種內具有普遍性。牛科的1.709 衛星序列,經過脈沖凝膠電泳等方法分析發現凝膠的單列中出現多個條帶,推斷牛科基因組中也存在類似于人α 衛星序列的大小不等的高階重復序列[50]。
2.1 轉座子的分類 散在重復序列是指重復單元在基因組中各不相連,而是以散在的形式存在于整個基因組中,又稱為轉座元件或者轉座子(Transposable elements,TEs),一般為中度重復序列,幾乎存在于所有的真核生物中。在哺乳動物中,1/3~1/2 的基因組序列由轉座子組成[51],如人類基因組中達到45%[8],小鼠中為38%[9],普通牛中為47%[10]。
根據轉座介導元素不同,可將轉座子分為兩大類[52]。第一類為反轉錄轉座子(Retrotransposon),是以RNA為中間媒介進行轉座,為“復制-粘貼”型,包括長末端重復(Long Terminal Repeat,LTR)和非長末端重復(Non-Long Terminal Repeat,non-LTR),后者又由長散在重復(Long Interspersed Nuclear Elements,LINE)和短散在重復(Short Interspersed Nuclear Elements,SINE)組成。第二類為DNA 轉座子(DNA Transposon),以DNA 為中間體進行轉座,為“剪切-粘貼”型。
2.2 轉座子的特點
2.2.1 轉座子的移動性 20 世紀40 年代,美國科學家Barbara McClintock 在玉米基因組中首次發現可移動的元素——轉座子[53],它可以從基因組的一個位置“跳躍”到另一位置上。1999 年Haren[54]提出轉座子是一段不連續的DNA 片段,能夠在基因組內或者不同基因組間從一個位置移動到另一位置;Kidwell[55]認為轉座子是具有改變基因組位置能力的DNA 序列;Piégu[56]2015年再次提到,轉座子能夠從宿主基因組內染色體或質粒的一個位置移動到另外一個位置,并通過橫向轉移到新宿主的基因組上。
2.2.2 轉座子在不同物種基因組中的差異 不同類型的轉座子在物種間所占比例有所差異。哺乳動物基因組中的轉座子重復序列主要由LINE 和SINE 組成,其次是LTR 和DNA 轉座子[51],人類基因組中的比例分別為20%、13%、8% 和3%,小鼠中依次對應的比例為19%、8%、10%和1%[8-9]。通過對普通牛、歐洲水牛、非洲水牛和大額牛4 個??莆锓N的轉座子進行分析發現,LINE 轉座子的含量最高,均大于20%,其中歐洲野牛和大額牛的LINE 轉座子在基因組中的覆蓋率接近40%,最高可達到1.15Gb[12];其次是SINE 和LTR 轉座子,所占比例在3%~18%不等;最后是DNA 轉座子,在基因組中含量最少(低于5%),可能與其缺少自主型轉座子有關[57]。
2.2.3 轉座子的分布與GC 含量和基因密度的關系 基因組中GC 含量和基因密度的不均勻性影響轉座子的分布。人類基因組中,位于常染色體和X 染色體上的L1轉座子富集在GC 含量豐富的區域[8]。反芻動物中的BovB、Bov-tA、Bov-A2 和ART2A 轉座子與基因密度呈負相關,主要集中在基因密度較低的區域;而較為古老的L2 和MIR 轉座子,則與基因密度呈正相關,主要富集在基因密度較高的區域[58]。在?;蚪M中,LINE轉座子主要集中在GC 含量較高的區域,而BovB 則主要存在于GC 含量較低的區域[59]。
2.2.4 活性轉座子在基因組中的含量 大部分轉座子由于沒有完整的開放閱讀框而失去活性,少部分可能是潛在具有活性的轉座子。人類基因組中的轉座子只有0.05% 具有活性[60-61],其中LINE 家族中只有部分L1轉座子具有活性[8]。牛基因組中的轉座子也大都失去活性,如文獻中報道的811 個完整的L1 轉座子中,只有73 個(9%)可能具有活性,而與L1 轉座子相比,BovB 在?;蚪M中的活性更低,1 248 個高度保守的BovB 轉座子中,只有9 個(0.72%)是具有活性的[58]。
2.3 散在重復序列對基因組的影響
2.3.1 轉座子對基因表達的影響 轉座子可以調節或改變基因表達。Tang 等[62]發現8 000 多個人類特異性轉座子分布在4 900 個基因附近,包括編碼區、外顯子、內含子、啟動子等區域,影響基因的表達。有些轉座子可作為啟動子、轉錄因子結合位點等調控元件,在基因組中移動時,可將其自身的調控元件轉移到新的位點上。當轉座子插入到基因的5' 調控區域,可調節基因的表達[63],當插入到基因內時,為編碼蛋白的序列提供了原始的進化材料。劉震等[64]分析了LTR 轉座子內部的基因,通過GO 注釋發現這些基因在細胞代謝、催化活性等方面發揮作用。
2.3.2 轉座子的水平轉移對基因組的影響 哺乳動物的轉座子在基因組間主要通過垂直傳播的方式進行擴散[51],而轉座子的水平轉移(Horizontal Transfer,HT)也是基因組交流的一種方式[65]。在過去1.6 億年間,哺乳動物轉座子發生水平轉移的事件至多20 起,而昆蟲在5 000 萬年中則有2 248 起水平轉移事件[66]。這表明與昆蟲相比,哺乳動物中發生水平轉移的事件很少,但水平轉移在基因組進化中仍發揮著重要作用。如BovB 轉座子通過水平轉移將其傳播到包括非洲獸類(如大象)、反芻動物(如牛和鹿)、有袋動物(如袋鼠)等多種哺乳動物的基因組中[51],促進了哺乳動物基因組之間的交流。
重復序列是生物基因組中的重要組成部分,在分子標記、疾病診斷、動植物育種等方面得到廣泛應用。然而與人類、模式生物及植物中的研究相比,牛亞科中重復序列的報道較少,尤其在基因調控活動、生物功能、進化機制等方面有待進一步研究。高通量測序技術的出現和應用推動了基因組學在各個領域中的研究,為深入了解基因組中的重復序列等復雜結構帶來革命性突破。同時,組學數據的大量積累促使生物信息學在重復序列的鑒定和研究方法上不斷推陳出新,為從比較基因學和多組學等層面研究牛亞科的遺傳與進化提供可能,為深入解析牛亞科重復序列的鑒定、分類、特征與功能預測等提供技術與海量數據支撐,也為進一步挖掘重復序列的結構特點、生物學功能及其在物種進化中的作用提供了重要依據。