馬孟莉,張 薇,孟衡玲,盧丙越*
1.云南省高校滇南特色生物資源研究與利用重點實驗室,云南 蒙自 661199
2.紅河學院 生物科學與農學學院,云南 蒙自 661199
姜科為泛熱帶分布科,是多年生草本植物,由52屬約1377 種植物組成,在我國主要分布在云南、海南、廣東和廣西等省區。姜科中包括很多著名藥材,如益智、草果、砂仁、姜、草豆蔻、郁金、姜黃、莪術、高良姜等,現代藥學研究表明姜科除具有行氣破瘀、溫中散寒、舒筋活絡、芳香健胃等功效外,還具有抗癌、抗炎、抗菌、抗氧化、鎮痛、降血壓等藥理作用[1]。草果Amomum tsao-koCrevost et Lemarie 是姜科豆蔻屬多年生常綠叢生草本植物,全株具有辛辣味,以干燥成熟果實入藥,具有清濕化痰、溫脾祛寒的功效,此外草果也是烹調佐料中的佳品,被譽為食品調料中的“五香之一”[2-4]。草果生長在海拔1100~1800 m 的熱帶、亞熱帶蔭蔽潮濕的林中,主要分布在中國的云南、廣西和貴州,老撾、越南也有分布[5-6]。由于過度收獲及草果原生境的破壞,草果野生資源近乎絕跡,2012年已被世界自然保護聯盟瀕危物種紅色名錄列為“近危物種”。
葉綠體(chloroplast,cp)是植物細胞內的小細胞器,為綠色植物進行光合作用的場所,葉綠體有自己的遺傳系統,由一個封閉的環狀DNA 分子組成。近年來,葉綠體基因組因其保守的基因序列和在植物中的重要作用而被廣泛用于物種的鑒定和系統進化分析[7-8]。隨著高通量DNA 測序技術的發展,可用的葉綠體基因組序列數量越來越多,這為藥用植物葉綠體基因組研究提供了重要參考。到目前為止,已有姜科姜屬(姜、蜂巢姜)、山姜屬(艷山姜、益智)、姜黃屬(觀音姜、黃花姜黃)和豆蔻屬(爪哇白豆蔻、白豆蔻、陽春砂、綠殼砂和海南砂)葉綠體基因組測序的報道[9-14]。隨著姜科植物葉綠體全基因組數量的增加,姜科其他物種的葉綠體基因組序列也越來越容易拼接。然而,草果作為姜科中重要的藥食同源物種,國內外對草果遺傳方面的研究甚少,尤其是分子遺傳方面,嚴重限制了草果資源的保護、開發和利用。本研究首次詳細報道了草果葉綠體基因組的完整結構,比較草果和其他豆蔻屬植物葉綠體基因組差異及IR區的伸縮與擴張情況,此外通過葉綠體全基因組序列構建進化樹來揭示草果與其他姜科植物的進化關系及其在系統發育中的地位。
草果新鮮幼嫩的葉片采自云南省紅河哈尼族彝族自治州金平苗族瑤族傣族自治縣阿得博鄉草果山村(22°54′30.34″N,103°13′16.39″E),經云南省高校滇南特色生物資源研究與利用重點實驗室張薇教授鑒定為草果A.tsao-koCrevost et Lemarie,標本存放于紅河學院生物科學與農學學院(標本號:LBY20180526)。
取大約5 g 的新鮮草果葉片,經70%乙醇處理后用TIANGEN 植物DNA 提取試劑盒提取草果基因組總DNA,通過瓊脂糖凝膠電泳和NanoDrop2000 微量分光光度計檢測DNA 的純度和濃度,符合測序要求后送測序公司在Illumina HiSeq4000 平臺進行測序。
測序完成后得到的原始序列(raw reads)首先利用NGS QC ToolKit 過濾去除接頭及兩端的低質量序列,得到高質量待分析序列(即clean reads)。以白豆蔻(NC_036935.1)葉綠體基因組序列作為參考序列,利用SOAPdenovo2.04 軟件進行組裝,再根據reads 的paired-end 和overlap 關系對組裝結果進行優化,經多次調整獲得草果完整葉綠體基因組。使用DOGMA 在線工具對葉綠體基因進行注釋[15],使用默認參數預測蛋白質編碼基因、轉移RNA(tRNA)基因和核糖體RNA(rRNA)基因,并結合京都基因和基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)、蛋白質直系同源簇(cluster of orthologous groups of proteins,COG)、非冗余蛋白序列(non-redundant protein sequences,NR)、Swiss-Prot 蛋白質序列(swiss-prot protein sequence,Swiss-Prot)、基因本體(gene ontology,GO)等數據庫對基因進行功能注釋,用OGDRAW v1.2在線軟件繪制草果葉綠體基因組圖譜。將注釋好的序列用BankIt 向NCBI 在線提交,獲得序列登錄號MK926774.1。
利用MISA 軟件(http://pgrc.ipk-gatersleben.de/misa/misa.html)鑒定草果葉綠體基因組中的簡單重復序列(simple sequence repeats,SSR),搜索參數設置為:含有完全重復的單核苷酸最小重復數為10,二核苷酸最小重復數為5,三核苷酸最小重復數為4,四、五、六核苷酸最小重復數為3;另外設置2 個SSR 之間的最小距離為100 bp,如果距離小于100 bp,則2 個SSR 被當做一個復合微衛星。利用IRscope(https://irscope.shinyapps.io/irapp/)比較不同物種葉綠體基因組IR 邊界區特征[16]。
從NCBI 下載姜科豆蔻屬的海南砂Amomum longiligulareT.L.Wu(MN067434.1)、陽春砂Amomum villosumLour.(MH161418.1)、綠殼砂Amomum villosumvar.xanthioides(Wall.ex Baker) T.L.Wu &S.J.Chen(MH161417.1)、爪哇白豆蔻Amomum compactumSol.ex Maton(MG000589.1)、白豆蔻Amomum kravanhPierre ex Gagnep.(NC_036935.1),山姜屬的艷山姜Alpinia zerumbet(Pers.) B.L.Burtt &R.M.Sm.(JX088668.1)和益智Alpinia oxyphyllaMiq.(KY985237.1),姜屬的蜂巢姜Zingiber spectabileGriff.(JX088661.1)和姜Zingiber officinaleRosc.(MH161428.1),姜黃屬的觀音姜Curcuma roscoeanaWall.(NC_022928.1)和黃花姜黃Curcuma flavifloraS.Q.Tong(KR967361.1),山柰屬的山柰Kaempferia galangaLinn.(MK209001.1)和紫花山柰Kaempferia elegans(Wall.)Baker(MK209002.1)共13 個物種完整的葉綠體基因組序列,同時以姜目閉鞘姜科植物綠苞閉鞘姜Costus viridisS.Q.Tong(MK262733.1)為外類群,利用MAFFT7.037 軟件進行序列多重比對,結果經手工檢查與調整后用最大似然法(Maximum Likelihood,ML)法對系統進化關系進行分析。ML系統發育樹用MEGA6 軟件生成,選擇最佳模型GTR+G+I,自展值Bootstrap value 設為1000。
通過非同義替換位點替換次數(Ka)與同義替換位點替換次數(Ks)的比值(Ka/Ks)判斷草果與同屬的陽春砂、綠殼砂、海南砂、白豆蔻和爪哇白豆蔻之間葉綠體蛋白編碼基因是否存在選擇壓力,當Ka/Ks>1,認為有正選擇效應;Ka/Ks=1,認為存在中性選擇;Ka/Ks<1,則認為有純化選擇作用。首先利用PhyloSuite v1.2.1 提取草果、陽春砂、綠殼砂、海南砂、白豆蔻和爪哇白豆蔻的79個共有蛋白質編碼基因[17],提取的基因序列通過MAFFT7.037 軟件進行比對,然后用DnaSP 6.12.03軟件計算Ka 和Ks 值,通過Excel 軟件統計各基因的Ka/Ks 值,繪制不同功能基因的Ka/Ks 圖。
草果葉綠體基因組與絕大多數被子植物葉綠體基因組一樣,為共價閉合的雙鏈環狀分子,全163 648 bp,包括1 對反向重復(IR)區(29 776 bp)、1 個大的單拷貝(LSC)區(88 741 bp)和1 個小的單拷貝(SSC)區(15 355 bp)。全基因組的GC 含量為36.0%,其中IR 區GC 含量最高(41.1%),LSC 區(33.7%)和SSC 區(29.8%)均較低。在草果葉綠體基因組中共注釋到113 個非重復基因,包括79 個蛋白質編碼基因、4 個rRNA 基因和30 個tRNA 基因(表1)。LSC 區包含的基因最多,包括61 個蛋白編碼基因和21 個tRNA 基因;SSC 區包括1 個tRNA 基因(trnL-UAG)和11 個蛋白編碼基因;所有的rRNA 基因、8 個tRNA 基因和8 個蛋白編碼基因均在IR 區重復。其中rps12 基因具有反式剪切結構,其5’端位于LSC 區,而3’端位于IR 區(圖1和表1)。

圖1 草果葉綠體基因組圖譜Fig.1 Gene map of Amomum tsao-ko chloroplast genome
內含子在基因表達調控中發揮重要作用,草果葉綠體基因組中有18 個含內含子的基因,包括6個tRNA 基因(trnA-UGC、trnG-GCC、trnI-GAU、trnK-UUU、trnL-UAA、trnV-UAC)和12 個蛋白質編碼基因(rps12、rps16、rpl2、rpl16、rpoC1、petB、petD、atpF、clpP、ndhA、ndhB、ycf3),其中rps12、clpP 和ycf3 基因包含2 個內含子(表1)。

表1 草果葉綠體基因組基因Table 1 Genes encoded cp genome in Amomum tsao-ko
SSR 廣泛分布于葉綠體基因組中。草果葉綠體基因組中共檢測到123 個SSR,其中單核苷酸重復SSR 最多(62 個),其次是二核苷酸SSR(37 個),四核苷酸SSR 有20 個,三核苷酸SSR 最少,僅檢測到4 個。在所檢測的SSR 中以A/T、AT/AT 和AAAT/ATTT 為重復單元的占83.74%,表明草果葉綠體SSR 偏好使用A 和T 堿基(表2)。

表2 草果葉綠體基因組SSR 信息Table 2 SSR in the Amomum tsao-ko cp genome
將草果葉綠體基因組與已報道的豆蔻屬的陽春砂、綠殼砂、海南砂、白豆蔻和爪哇白豆蔻進行比較(表3),結果表明豆蔻屬物種間基因組大小差異較小,其中陽春砂的葉綠體基因組最長,為164 069 bp,白豆蔻的最短為162 766 bp;除白豆蔻LSC 區較短外,其余5 個物種的LSC 區長度差異較小,而SSC 區長度在6 個物種間相近;比較發現草果的IR區長度最短,為29 776 bp,而陽春砂的IR 區最長,為29 959 bp;草果、陽春砂、綠殼砂和海南砂葉綠體基因組均包含133 個基因,白豆蔻和爪哇白豆蔻則為135 個基因;6 個物種的葉綠體基因組GC 含量相似,均在36.0%~36.1%。

表3 6 個豆蔻屬葉綠體基因組一般特征比較Table 3 Comparison of the general features of the six genus Amomum chloroplast genomes
將草果葉綠體基因組的IR-LSC 和IR-SSC 邊界與已報道的5 個豆蔻屬物種進行比較(圖2)。豆蔻屬葉綠體基因組的6個邊界較為保守,其中LSC/IRa和LSC/IRb 邊界的側翼基因相同,LSC/IRa 邊界均在基因rpl22 和rps19 基因之間,而LSC/IRb 邊界位于rps19 和psbA 基因之間。SSC/IRa 邊界IRa 一側都存在一個ycf1 假基因(ycf1),除草果外,其余5 個物種的ycf1 基因均跨越SSC/IRa 區,ycf1 假基因進入SSC 區的長度從13 bp 到54 bp,其中爪哇白豆蔻ycf1 擴張最大;草果、陽春砂、綠殼砂、海南砂、爪哇白豆蔻的SSC/IRb 均位于ycf1 基因中,而白豆蔻ycf1 基因已完全擴張到IRa 區內部。

圖2 6 個豆蔻屬葉綠體基因組LSC、SSC 和IR 邊界比較Fig.2 Comparison of LSC,SSC and IR borders among six chloroplast genome of genus Amomum
為了明確草果在姜科植物的系統發育地位和進化關系,選取已報道的13 個姜科物種的葉綠體全基因組序列,以閉鞘姜科的綠苞閉鞘姜為外類群,構建ML 系統發育樹。所有姜科物種可分為2 大類,豆蔻屬和山姜屬聚為一類,豆蔻屬中同為砂仁來源的綠殼砂、陽春砂和海南砂親緣關系最近,聚為一支,爪哇白豆蔻和白豆蔻聚為另一支,草果單獨成一支,草果與其它豆蔻屬的分支支持率為99%;在另一類中包括姜屬、姜黃屬和山柰屬,姜黃屬的黃花姜黃先與山柰屬的2 個物種聚在一起,再與姜屬的蜂巢姜和姜聚在一起,最后與姜黃屬的觀音姜聚類(圖3)。

圖3 基于15 個物種葉綠體基因組序列構建的系統發育樹Fig.3 Phylogenetic tree of 15 species based on chloroplast genomes
為進一步研究草果與豆蔻屬物種葉綠體基因在進化過程中受到的選擇壓力,利用DnaSP 軟件分析草果與陽春砂、綠殼砂、海南砂、白豆蔻和爪哇白豆蔻蛋白編碼基因的Ka/Ks 值(圖4)。79 個蛋白編碼基因在草果vs陽春砂、草果vs綠殼砂、草果vs海南砂、草果vs白豆蔻和草果vs爪哇白豆蔻的Ka/Ks 均值分別為0.169、0.168、0.170、0.158 和0.166,其中絕大多數基因Ka/Ks<1,表明豆蔻屬物種葉綠體基因在長期的進化過程中受到了較強的純化選擇。進一步分析表明光合作用相關基因的Ka/Ks 值均小于1;表達相關基因rpl20 在草果vs陽春砂和草果vs綠殼砂中Ka/Ks>1,除草果vs海南砂的rps11 基因Ka/Ks<1 外,草果與其他豆蔻屬物種的rps11 基因Ka/Ks 均大于1;其他功能基因中ccsA 基因在草果vs海南砂中Ka/Ks>1、clpP 基因在草果vs海南砂和草果vs爪哇白豆蔻中Ka/Ks>1、ycf1 和ycf2 基因均在草果vs爪哇白豆蔻中Ka/Ks>1,表明這些基因在進化過程中受到正向選擇作用。

圖4 不同功能基因的Ka/Ks 值Fig.4 Ka/Ks values of different functional genes
通過比較草果和已報道姜科豆蔻屬物種的葉綠體基因組,發現豆蔻屬在葉綠體基因組上具有高度的保守性,已報道的豆蔻屬cp 基因組長度在162 766~164 069 bp[9-11],本研究組裝的草果cp 基因組全序列長度為163 648 bp,表明草果葉綠體基因組大小符合豆蔻屬物種的特點。已報道的豆蔻屬葉綠體總基因數量在133~135(非重復蛋白編碼基因79~80),在本研究中,草果葉綠體基因組注釋到133 個基因(113 個非重復基因,包括79 個蛋白編碼基因、30 個tRNA 基因和4 個rRNA 基因)。豆蔻屬物種間葉綠體基因組GC 含量相似,均在36.0%~36.1%,并且LSC 區(33.7%~33.9%)和SSC 區(29.8%~30.1%)的GC 含量顯著低于IR區(41.1%),其主要原因與8 個GC 含量較高的rRNA 基因均分布在IR 區有關。
一般來說,IR 區是葉綠體基因組中最保守的區域。IR 區、LSC 區和SSC 區的擴張和收縮是進化過程中常見的現象,也是造成葉綠體基因組長度差異的主要原因。在本研究中,發現6 個豆蔻屬物種葉綠體基因組的IR 與LSC 或SSC 之間的邊界變化很小。6 個豆蔻屬植物的LSC/IRb 邊界均在基因rpl22 和rps19 基因之間,IRa/LSC 邊界均位于rps19基因和psbA 基因之間,與姜科的觀音姜、黃花姜黃、益智、姜的邊界基因相似,說明姜科物種IR 區與LSC/IRa、IRa/SSC、IRb/LSC 區的邊界保守性較高[13],但也有姜科物種的IR 邊界基因存在較大的差異,如蜂巢姜的IRb/LSC 邊界只有rps19 基因,且該基因位于LSC 區,而LSC/IRa 邊界的IRa 一側沒有rps19基因[10],此外棕櫚科和禾本科竹亞科也存在這一現象[18-19]。
葉綠體中SSR 拷貝數的變異是一種重要的分子標記,比核和線粒體微衛星有更大的分類距離,在植物群體遺傳學、多態性研究和進化研究中有著廣泛的應用[20]。目前已有應用cpSSR 研究藥用植物丹參、三七、桃兒七、霍山石斛等的報道[21-24]。本研究利用MISA 軟件在一、二、三、四、五和六核苷酸最小重復數設置為10、5、4、3、3、3 情況下共掃描到123 個SSR,其中有105 個SSR 由A/T、AT/TA、AAAT/ATTT 和AATT/AATT 組成,這表明草果cp 基因組中的SSR 包含頻繁的A 或T 重復,這與已報到的其它植物葉綠體基因組相似[25-27]。葉綠體DNA 在由親代向子代傳遞過程中不涉及基因重組,且具有保守性、單親遺傳等特點,在進化過程中有獨立的進化路線,因此,具有cpDNA 特征的cpSSR 技術在植物群體結構分析、種群分類、物種演化等研究領域有明顯的優勢[28]。草果cpSSR 的獲得對進一步研究姜科藥用植物遺傳多樣性、群體結構、分子鑒定等方面具有重要意義。
植物葉綠體基因組僅次于核基因組,含有大量的遺傳信息,葉綠體全基因組測序技術為藥用植物進化系統研究提供了新的平臺及思路,近年來,姜科物種中的爪哇白豆蔻、白豆蔻、砂仁、姜、山柰、益智等葉綠體基因組序列的不斷公布為確定姜科藥用植物的進化和系統發育關系提供了重要依據。本研究從GenBank 下載了13 個姜科植物葉綠體基因組序列,以閉鞘姜科的綠苞閉鞘姜為外類群,構建了姜科物種的系統發育樹,從系統發育分析看,姜科物種被分為2 個大的類群,豆蔻屬的6 個物種與山姜屬的2 個物種被聚在一起,表明豆蔻屬和山姜屬在姜科中的親緣關系較近,這一結果與 Wu等[10]、Cui 等[11]、Li 等[12]和Gao 等[13]的研究結果一致;聚類圖也清晰的展現了豆蔻屬6 個物種之間的親緣關系,《中國藥典》2015年版中作為砂仁來源的陽春砂、綠殼砂和海南砂被聚在一起,做豆蔻使用的白豆蔻和爪哇白豆蔻親緣關系最近,草果則在豆蔻屬中單獨成一支,基于葉綠體基因組的聚類分析從分子角度證實了親緣關系近的物種在藥用成分具有相似性,可替代使用。此外研究也表明葉綠體基因組可有效區分姜科物種的系統發育關系,也為深入研究姜科植物進化、遺傳多樣性和群體結構提供了參考。
Ka/Ks 是評估蛋白質編碼基因是否發生適用性進化的有效方法[29]。生物大多數基因的同義核苷酸替換比非同義替換發生得更頻繁,因此Ka/Ks 值通常小于1[30]。本研究共檢測到6 個正選擇基因,正選擇基因中沒有檢測到與光合作用相關的基因,這可能與豆蔻屬物種生長于熱帶地區林下濕熱環境,利用相似的光照條件進行光合作用有關[4]。在正選擇基因中與基因表達相關的rpl20 和rps11 分別編碼L20 和S11 亞基,特別是rps11 基因在草果vs陽春砂、草果vs綠殼砂、草果vs白豆蔻、草果vs爪哇白豆蔻中Ka/Ks 均大于1,說明該基因近期正發生快速的進化,深入研究該基因對草果進化具有一定的意義。clpP 基因在草果vs海南砂和草果vs爪哇白豆蔻中也經歷著正選擇,該基因編碼Clp 蛋白水解酶亞基,其功能主要負責降解異常蛋白,與維持葉綠體正常代謝有關[31];而在草果vs海南砂中檢測出的ccsA 基因負責編碼細胞色素c 合成蛋白,Xie等[32]研究認為ccsA 基因參與細胞色素c 與血紅蛋白的結合,這為理解該基因參與豆蔻屬物種適用性進化提供了參考。ycf1 和ycf2 作為葉綠體基因組中2 個編碼區序列最長的基因,其編碼產物功能至今仍不清楚,ycf1 和ycf2 基因在多個植物中均存在正向選擇現象,推測這2 個基因在陸生植物適應環境變化中發揮重要作用[10,33-36]。
利益沖突所有作者均聲明不存在利益沖突