張琪,劉鳳燕,趙琪,羅雷,趙貴軍,戚文華*
(1.重慶三峽學院生物與食品工程學院,重慶 404100;2.重慶市藥物種植研究所,重慶 408435)
偶蹄目Aritiodactyla麝科Moschidae麝屬Moschus動物體型較小、生性溫和膽怯,是亞洲的特有物種。麝屬所有物種是我國一級重點保護野生動物,被列入CITES 附錄Ⅰ(Huanget al.,2013),包括5 個種(Yanget al.,2003):林麝M.berezovskii、原麝M.moschiferus、黑麝M.fuscus、馬麝M.sifanicus和喜馬拉雅麝M.leucogaster。雄性個體分泌的麝香具有重要的經濟價值,是名貴香料和藥材。
原麝分布于黑龍江、內蒙古等地的針闊葉混交林。隨著全基因組序列的測定(Fanet al.,2018;Yiet al.,2020),從基因組水平分析基因區和基因間隔區微衛星分布規律,了解微衛星序列具有的生物學功能具有重要的意義,有利于了解麝類動物的起源及進化特征,為其研究提供科學依據和思路(肖宇辰等,2019)。
微衛星又稱簡單重復序列(simple sequences repeats,SSRs),廣泛存在于真核生物、原核生物及細菌基因組中,多數分布于非編碼區,少數分布于編碼區(甘麗萍等,2018;Qiet al.,2020)。SSRs 具有高重復性、高多態性特征,并參與染色體組成、蛋白質功能、基因轉錄、表達與調控等過程。本研究利用R 腳本和TBtools 提取和互相驗證,提取原麝基因組中基因區和基因間隔區序列,基因區序列包括5’非翻譯區(5’untranslated region,5’UTR)、3’非翻譯區(3’untranslated region,3’UTR)、外顯子區和內含子區,統計、分析并比較這些區域SSR 的分布規律及其特征,并對5’UTR 和3’UTR 含SSR的編碼基因進行GO 富集分析,探索SSR 的潛在功能。
從Ensembl 數據庫(http://ftp.ensembl.org/pub/current_fasta/)下載原麝基因組序列,并使用R 腳本和TBtools 提取原麝基因組中提取3’UTR、5’UTR、外顯子區、內含子區和基因間隔區序列,以FASTA格式保存。
1.2.1 微衛星識別與鑒定 利用MSDBv2.4(Duet al.,2013)和Krait(Duet al.,2018)對原麝基因區和基因間隔區中完美型微衛星序列進行識別和鑒定,搜索和統計標準為單堿基至少重復12次,二堿基至少重復7 次,三堿基至少重復5 次,四堿基、五堿基、六堿基至少重復4 次;重復序列兩端的側翼序列為200 bp;其他統計標準及SSR 序列統計術語參考戚文華等(2013)和蔣雪梅等(2015)的研究。
1.2.2 GO 富集分析 利用Perl 和R 語言編程對原麝基因組中3’UTR、5’UTR含有SSR序列的基因進行同源性分析。使用將其含有SSR 的基因與TBtools 提取進行比對,設置E-value<1E-5(Chenet al.,2020),其比對結果利用TBtools 進行GO 功能注釋。按照分子功能、細胞組成和生物學過程進行GO功能富集分析。
原麝全基因組長度2.96 Gb,SSR共757 705 個,長度13 556 887 bp,占0.45%,總豐度為255.60 個/Mb,總密度為4 573.27 bp/Mb。單堿基類型的數量最多,256 990 個(33.92%),豐度為86.69 個/Mb;其次為五堿基(21.71%)、二堿基(20.92%)、三堿基(17.11%)、四堿基(6.22%)和六堿基(0.12%)(表1)。

表1 原麝基因組中完美型微衛星分布概況Table 1 Distribution of the perfect microsatellites in Moschus moschiferus genome
在5’UTR、3’UTR、外顯子區、內含子區和基因間隔區,不同重復類型SSR 的豐度差別較大,而相同重復類型的豐度較相似。在5’UTR 和外顯子區,三堿基最豐富而六堿基最少;而在3’UTR、內含子區和基因間隔區,單堿基最豐富而六堿基最少(圖1)。

圖1 原麝基因組不同區域不同類型SSRs的豐度Fig.1 Abundance of different types of SSRs in different regions of Moschus moschiferus genome
2.3.1 5’UTR和3’UTR 在5’UTR中,單堿基A重復類別多于C 重復類別;二堿基CG 重復類別高于AC、AG 和AT 重復類別;三堿基CCG 重復類別豐度最高,AAG 重復類別豐度最低;四堿基CCCG重復類別多于AAAC 重復類別。在3’UTR 中,單堿基A 重復類別多于C 重復類別;二堿基AC 重復類別高于AG、AT 和CG 重復類別;三堿基ACG 重復類別豐度最高,AAG 重復類別的豐度最低;四堿基AAAC重復類別多于CCCG重復類別(圖2)。

圖2 原麝基因組5’UTR和3’UTR不同重復拷貝類別SSRs豐度Fig.2 Abundance of SSRs of different repeat categories in the 5’UTRs and 3’UTRs of Moschus moschiferus genome
2.3.2 內含子區、基因間隔區和外顯子區 內含子區中,單堿基A 重復類別多于C 重復類別;二堿基AC 重復類別多于AT、AG 和CG 重復類別;三堿基ACG 和AGC 重復類別豐度最高,AAG 重復類別豐度最低;四堿基AAAC 重復類別多于CCCG 重復類別。基因間隔區,單堿基A 重復類別多于C重復類別;二堿基AC 重復類別多于AT、AG 和CG 重復類別;三堿基ACG和AGC重復類別豐度最高,AGG重復類別豐度最低;四堿基AAAC 重復類別多于CCCG 重復類別。外顯子區中,單堿基A 重復類別多于C 重復類別;二堿基AC 重復類別多于AT、AG和CG 重復類別;三堿基CCG 重復類別豐度最高,AAT 重復類別豐度最低;四堿基CCCG 重復類別多于AAAC重復類別(圖3)。

圖3 原麝基因組內含子區、基因間隔區和外顯子區不同重復拷貝類別SSRs豐度Fig.3 Abundance of SSRs of different repeat categories in the intron,intergenic,and exon regions of Moschus moschiferus genome
5’UTR 含SSR 序列的編碼基因富集到150 個條目,分布于2 446 個編碼基因中,其中生物學過程中多生物體細胞膜組織(GO:0044803)、多生物體膜融合(GO:0044800)富集較顯著;分子功能主要與細胞骨架的結構成分(GO:0005200)、宿主細胞表面結合(GO:0046812)、短鏈羧酸酯酶活性(GO:0034338)和磷脂酰肌醇結合(GO:0035091)有關;細胞組分主要與有絲分裂紡錘體的形成(GO:0072686)、細 胞 間 橋 的 調 控 作 用(GO:0045171)、皮質細胞骨架(GO:0030863)和核體(GO:0016604)有關。富集前10的GO 條目主要與代謝、合成過程和轉錄有關,其中細胞骨架的結構成分富集最顯著(P=2.81E-07),有65個條目(圖4)。

圖4 原麝5’UTR含SSR序列的編碼基因的GO注釋與富集分析Fig.4 GO annotation and enrichment analysis of coding genes of SSR sequences in the 5’UTRs of Moschus moschiferus genome
3’UTR 含SSR 序列的編碼基因富集到480 個條目,分布于1 655 個編碼基因中。生物學過程中跨膜反應(GO:0055085)、對異種生物刺激的反應(GO:0009410)和分泌物(GO:0046903)富集較顯著,細胞組分中主要與轉移酶復合物(GO:1990234)和染色體(GO:0005694)有關,分子功能中主要與基因結合(GO:0003677)有關。GO 富集前10的條目主要與代謝、合成過程和轉錄有關,其中,跨膜轉運富集最顯著(P=0.003),有15 個條目(圖5)。

圖5 原麝3’UTR含SSR序列的編碼基因的GO注釋與富集分析Fig.5 GO annotation and enrichment analysis of coding genes with SSR of SSR sequences in the 3’UTRs of Moschus moschiferus genome
本研究利用生物信息學方法測定和統計了原麝基因區和基因間隔區SSR序列。全基因組SSR總數是757 705 個,這與牛Bos taurus(798 778 個)、綿羊Ovis aries(689 671個)、山羊Capra hircus(668 360個)(王月月等,2015)全基因組SSR 總數量較接近,但是低于犬Canis lupus(1 436 242 個)和豬Sus scrofa(1 265 197 個)(Chenet al.,2020)全基因組SSR 總數量,高于馬Equus caballus(430 760 個)。原麝基因組中3’UTR、內含子區和基因間隔區SSR 序列中,單堿基SSRs 占優勢,而在5’UTR 和外顯子區SSR 序列中,三堿基SSRs 明顯占優勢,這與牛、綿羊(戚文華等,2013)、大熊貓Ailuropoda melanoleuca、北極熊Ursus maritimus(李午佼等,2014)等物種基因組中SSR 序列分布規律相似。在編碼區SSR 的GC 含量較高,而GC 含量高的SSR 更加穩定,由此推測GC 含量高的SSR 序列在蛋白質翻譯過程中不易產生移碼突變(Qiet al.,2016)。原麝全基因組SSR 序列中,以單堿基SSRs 占優勢(33.92%),與綿羊(戚文華等,2013)、牛(戚文華等,2013,2019)、大熊貓、北極熊(李午佼等,2014)、林麝(盧婷等,2017)等物種基因組中SSR序列研究基本一致。原麝與牛、羊系統進化關系較近,與馬、犬、豬系統進化關系較遠。推測物種系統進化關系越近,其基因組微衛星特征越相似,這與相關研究報道結論一致(張濤等,2010)。
隨著微衛星的深入研究,發現微衛星序列與基因表達和疾病的發生密切相關。微衛星在復制過程中發生的錯誤常造成微衛星重復數目的改變,從而使微衛星序列具有不穩定性,其發生的機制為錯配修復缺陷(趙璐璐等,2022)。BRAF、PIK3CA、PTEN 等大量原癌基因和抑癌基因具有微衛星不穩定性,容易發生基因突變,在患病動物基因中微衛星不穩定性的發生率增加100~1 000 倍,導致其體內細胞增殖失去調控,進一步加重疾病(Linet al.,2015;Dudleyet al.,2016)。微衛星不穩定性與多種疾病的發生發展密切相關(付煜,杜小燕,2012)。SSRs 重復次數的增加或減少直接影響DNA 修復基因、轉錄調控基因、細胞凋亡基因相關基因的表達(Duvalet al.,1999;Duval & Hamelin,2002;Vassilevaet al.,2002)。微衛星序列也與染色質折疊、基因重組/復制、蛋白質表達水平、蛋白質功能有關(張濤等,2010)。蛋白質翻譯過程中每3 個堿基形成1 個三聯體密碼,當編碼區SSR 重復序列增加,會使其基因功能喪失,從而導致相關疾病。在人類基因中,三堿基SSRs 重復次數的增加與脆性X 綜合征(Schwartset al.,1999)、肌強直性營養不良(Timchenkoet al.,2001)、亨廷頓氏病和幾種共濟失調(Sermonet al.,2001)等神經系統疾病發生發展密切相關。在內含子區域,(CA)n類型SSRs 重復次數增加,可通過增強表皮生長因子受體的基因轉錄,參與乳腺癌的發生發展(Qiet al.,2020)。微衛星序列還與性別決定密切相關。Subramanian 等(2003)的研究發現,在蛇Serpens、家鼠Mus musculus和 酵母Saccharomyces中(GATA)n區與性別決定有關,但在人類Y染色體上暫未發現性別決定基因與(GATA)n區相關。張琳琳等(2008)的研究結果表明,SSR 的數量隨著重復次數的增加而呈現減少的趨勢,這可能與SSR 的長度有關,重復次數越多其長度越長,不穩定性越高,變異速率越快,受到的選擇壓力越大。
本文利用生物信息學方法提取原麝基因組中基因區的序列和基因間隔區序列,基因區包括5’UTR、3’UTR、外顯子區和內含子區,統計和分析這些區域SSRs 分布規律及其特征,比較它們在基因區和基因間隔區SSR分布的規律,并對其5’UTR和3’UTR 含SSRs 的編碼基因進行GO 富集分析,探索SSR 序列具有的潛在功能。原麝在不同區域的單堿基SSRs 到六堿基SSRs 的分布模式不同,相同區域的SSRs 在相同重復類型的分布差別不大。在5’UTR 多為三堿基SSRs,重復拷貝類別多為AAC、ACC、ACG、AGC、AGG、CCG 等;六堿基SSRs數量較少。在3’UTR、外顯子區和內含子區,多為單堿基SSR,重復拷貝類別多為A、C。5’UTR 含SSR 的編碼基因主要參與多生物體細胞膜組織、細胞骨架的結構成分、有絲分裂紡錘體的形成等功能。3’UTR含SSR的編碼基因主要參與跨膜反應、轉移酶復合物、基因結合等功能。