胡福博,王希胤
(1.華北理工大學,河北 唐山 063210; 2.華北理工大學基因組學與計算生物學研究中心,河北 唐山 063210)
姜科(Zingiberaceae)是單子葉植物姜目(Zingiberales)的一個重要分支,在生產生活中占據重要地位。其下屬植物具有重要的經濟價值及藥用價值,如姜(Zingiberofficinale)、草果(Amomumtsao-ko)及砂仁(Wurfbainiavillosa),作為中藥應用了幾千年[1]。多倍化是物種進化與分歧的重要推動力[2]。研究表明,單子葉植物在進化過程中均經歷了全基因組加倍(WGD,whole genome duplication),包括姜科在內的大部分單子葉植物共同擁有一次全基因加倍事件,即τWGD[3-5]。全基因組加倍導致的基因丟失、易位等現象對基因組結構及復雜性造成了重大影響[5-7]。
研究表明,姜在進化過程中從單子葉植物祖先到現在共經歷了3次全基因組加倍事件,草果基因組在近期沒有經歷過全基因組加倍事件,砂仁基因組的研究表明,砂仁和姜的共同祖先可能經歷了1次全基因組加倍事件。但現有研究對姜科植物古多倍化的認識還很模糊。隨著單子葉植物基部物種的測序完成,為姜科植物在進化過程中經歷的更古老加倍事件的研究提供了條件。
對菖蒲(Acorustatarinowii)基因組的研究表明,它只經歷過1次全基因組加倍事件[8]。椰子(Cocosnucifera)在進化過程中除與姜科祖先物種共享了古老的τWGD以外,只單獨經歷了1次全基因組加倍事件,兩者基因組相對保守。[4]這有助于進一步了解姜科植物基因組結構的復雜性。
姜基因組數據下載自公共數據庫Genebank (Index of /genomes/genbank/plant/Zingiber_officinale/latest_assembly_versions (nih.gov)/GCA_018446385.1_Zo_v1.1/)。草果基因組數據來自國家基因庫生命大數據平臺CNGBdb(https://db.cngb.org/search/project/CNP0003772/)。砂仁基因組數據來自公共數據庫Refseq(https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Elaeis_guineensis/all_assembly_versions/GCF_000442705.1_EG5/。菖蒲基因組數據來自中國國家基因庫(https://ftp.cngb.org/pub/CNSA/data4/CNP0001708/CNS0456199/CNA0036157/)。編寫python 腳本,將下載得到的原始數據進行數據預處理得到所需的注釋文件(gff)、染色體長度文件(lens)、蛋白序列文件(pep)及蛋白編碼序列文件(cds)。
使用蛋白序列比對工具BLAST+[9],對研究物種蛋白序列(pep)文件進行種內及種間同源基因搜索(E-value<1e-5,score >100)。使用orthofinder 提取待研究物種的單拷貝基因,構建系發育物種樹(見圖1)。根據blast得到的結果,運行生信分析流程軟件WGDI的“-d”模塊,繪制基因組內及基因組間的同源基因點陣圖[10],運用共線性分析軟件ColinearScan,提取所研究物種基因組內及基因組之間的共線性基因對(共線性片段的基因對>=5個)[11]。

Ata代表菖蒲,Zof代表姜,Ats代表草果,Wvi代表砂仁,Cnu代表椰子圖1 待研究植物系統發育樹Fig.1 Plant phylogenetic tree to be studied
為了區分不同全基因組加倍事件產生的共線基因,計算了待研究物種間同源性基因對的核苷酸同義替代(Ks),以估計共線基因之間的分歧水平。利用clustalW將基因對的編碼序列進行比對,調用PAML包的Nei-Gojobori的方法進行Ks分布計算[12]。利用WGDI對ks分布進行數學擬合,得到ks峰值。
編寫Python腳本,將利用軟件colinearscan提取的姜基因組與菖蒲同源的染色體片段投影到菖蒲染色體上,構建一個展示姜基因組染色體同源區域深度的列表,結合上述處理得到的染色體長度(lens)文件并運行軟件WGDI的“-ci”模塊將列表可視化。
對共線性分析軟件colinearscan獲得的共線性片段進行分析,分別統計了菖蒲、姜、草果、砂仁的基因組內及基因組間的共線性基因對數量5個以上的共線性片段的共線性基因數(見表1)。姜基因組內共線性基因對有11 185對,砂仁有6815對,草果有668對。菖蒲與姜基因組間的共線性基因對有4809對,與砂仁有3323對,與草果有668對。同理,椰子與姜基因組間的共線性基因對有14 425對,與砂仁有10 189對,與草果有9935對。結果顯示,姜基因組進化過程中的同源共線性基因對保留最多,砂仁次之,草果最少,故后續分析以姜作為主要研究對象,探究姜科基因組的復雜性。

表1 同源基因統計
同義核苷酸替換(ks)是蛋白質編碼序列的核苷酸變異不引起氨基酸改變[13]。有研究利用椰子基因組內共線性基因計算了ks分布并進行數字擬合,發現有兩個明顯的峰,認為ks峰值大的峰代表椰子經歷的τWGD。提取了那部分共線性基因繪制了其ks柱狀圖,計算了姜、砂仁及菖蒲基因組內與組間共線性基因的ks分布并繪制ks 柱狀圖(見圖2)。發現菖蒲和姜基因組間的共線性基因對的ks峰值為1.43,對應菖蒲和姜發生分歧的時間。姜和砂仁基因組間共線性基因對的ks峰值為0.36,對應姜和砂仁發生分歧的時間。椰子共線性基因對的ks峰值為0.99,對應椰子經歷τWGD的時間。姜基因組內的同源共線性基因對的ks分布柱狀圖顯示在0.36~1.43有很多小峰,推測在與菖蒲分歧之后,姜科各物種在發生分歧之前可能經歷了包括τWGD在內至少4次全基因組加倍事件。

圖2 菖蒲、椰子、姜、砂仁共線性基因同義核苷酸替換Fig.2 Collinear gene synonym nucleotide substitution of calamus, coconut,Zingiberaceae and amomum kernel
在一定程度上,染色體同源區域深度可以大致反映物種進化過程中經歷的全基因組加倍次數。將姜與菖蒲基因組同源性區域映射到菖蒲染色體并繪制圈圖(見圖3)。結果顯示,姜映射到菖蒲染色體上的同源區域深度最高達到13,由此推測,姜在進化過程中可能至少受到4次全基因組二倍乘事件的影響,越靠近外圈,姜的同源結構空白占比越大,代表同源基因丟失越多,說明姜經歷的全基因組加倍事件次數較多,受古老的加倍事件影響產生的重復基因隨物種進化而大量丟失。

外圈代表菖蒲映射的姜同源性基因圖3 菖蒲映射姜的染色體同源片段深度Fig.3 Chromosomal homologous fragment depth of acorus mapping Zingiberaceae
為探究姜科物種的基因組結構,繪制了菖蒲、椰子、姜等物種基因組間的同源基因點陣圖。物種間的同源點陣圖中的線性片段是由物種分化產生的同源基因片段。如姜與草果、砂仁的點圖中(見圖4),草果的2號染色體同源最好匹配姜的1號染色體,砂仁的2號染色體同源最好匹配姜的1號染色體,說明姜科祖先基因組在分化形成現存物種之后并沒有再經歷全基因組加倍事件。

點圖中紅點表示同源性最好,藍點表示同源性次好,灰點表示同源性較差。圖4 姜與草果、砂仁基因組間的同源點陣圖Fig.4 Homologous dot map of the genome of Zingiberaceae, grass fruit and amomum kernel
菖蒲與姜的同源基因點圖呈現的點非常散亂,不過部分菖蒲染色體對應的姜的同源片段數量顯示大于8條(見圖5)。椰子與姜的點圖顯示,椰子6號染色體對應姜的同源片段數量達到15~22條,再次說明姜基因組在進化過程中經歷的多倍化事件至少有4次,甚至可能更多。至于椰子對應的姜的同源片段數量不同,可能是由于椰子受2次多倍化事件的影響,造成染色體基因的缺失。

圖5 姜與菖蒲、椰子基因組間局部同源基因點陣圖Fig.5 Local homologous gene dot map of Zingiberaceae, calamus and coconut genome
以菖蒲為外類群,對姜科下屬植物姜基因組進行比較研究,了解姜科經歷的全基因組加倍事件可能多于3次,有可能是4次也可能更多,且姜科下屬植物草果在進化過程中受多次加倍事件產生的重復基因大量丟失,導致其更為復雜的基因組結構,令人們對姜科基因組的深入挖掘難度增加。隨著測序技術的不斷更新換代,會有更多姜科乃至單子葉下屬植物基因組完成更為精確的測序工作,有了更多精確的物種基因組數據做參考,會令姜科下屬植物基因組復雜性結構的分析與挖掘得到長足進步,結果更為清晰、準確。生信分析軟件及算法的開發,可為未來姜科基因組比較分析研究提供更強大的技術支撐。