蔣 明 柯世省 王軍峰
(1. 臺州學院生命科學學院 臺州 318000; 2. 麗水市林業科學研究院 麗水 323000)
鐵木屬(Ostrya)植物為樺木科(Betulaceae)落葉喬木或小喬木,分布于亞洲東部、歐洲、中美洲和北美洲,木材質地致密,用途十分廣泛(中國科學院中國植物志編委會, 1979)。全世界共有鐵木屬植物7種,我國有4種,分別為鐵木(O.japonica)、多脈鐵木(O.multinervis)、天目鐵木(O.rehderiana)和云南鐵木(O.yunnanensis),其中鐵木、云南鐵木和多脈鐵木的分布相對較廣,野生株數量較多,而天目鐵木的數量十分稀少,野生植株僅5株,分布在浙江臨安的天目山(樂笑瑋等, 2013)。多脈鐵木為落葉大喬木,主要分布在湖北、湖南、四川東南部及貴州等省份,生于海拔650~1 200 m的雜木林中,浙江也有少量分布,但僅在溫州文成縣和麗水慶元縣有記載,植株數量十分稀少,是浙江極小種群野生植物(張若蕙等, 1994)。近年來,有關多脈鐵木的研究主要集中在資源調查、家化栽培、年齡結構、群落結構和物種多樣性等方面(張若蕙等, 1992; 吳世斌等, 2018; 2019)。
葉綠體是綠色植物最重要的細胞器之一,它不僅是光合作用的場所,也是色素、脂類物質、激素和核糖體等合成的重要細胞器,此外,葉綠體還參與環境信號的響應,在逆境響應中起著重要作用(Pogsonetal., 2015)。葉綠體基因組以雙鏈環狀形式存在于葉綠體中,具有結構保守、母性遺傳和單倍性等特點,近年來在遺傳結構、比較基因組、物種鑒定、馴化歷史追溯和遺傳多樣性等方面的研究中得到了廣泛應用(Petitetal., 2005; Wickeetal., 2011; Greineretal., 2015; Walkeretal., 2015; Twyfordetal., 2017)。被子植物葉綠體基因組DNA的長度通常在115~165 kb之間,由2個反向重復(inverted repeat, IR)、1個大單拷貝區(large single copy, LSC)和1個小單拷貝區(small single copy, SSC)組成(Yanetal., 2015)。葉綠體基因組的基因包括編碼蛋白基因、rRNA基因和tRNA基因等,它們參與轉錄、蛋白質的生物合成、光化學反應、淀粉生成和逆境防御等過程(Xieetal., 1996; Wolfetal., 2004; Tillichetal., 2010; Yamburenkoetal., 2015; Danilovaetal., 2018; Songetal., 2018)。目前,有關多脈鐵木葉綠體基因組相關的研究未見報道。本研究以多脈鐵木為材料,在高通量測序的基礎上,對葉綠體基因組進行組裝、簡單重復序列(simple sequence repeat, SSR)分析、序列特征和系統發育分析,為后續開展遺傳結構和群體遺傳多樣性研究奠定基礎。
多脈鐵木葉片采自麗水市林業科學研究院,收集幼嫩、健康的葉片,置于冰盒中帶回實驗室。葉片先用大量的自來水沖洗,再用無菌水沖洗5~6次,置于-80 ℃低溫冰箱中備用。
葉片用適量的液氮速凍后研磨成細粉末,采用SDS法提取基因組DNA,DNA經電泳檢測合格后,用超聲波破碎儀制備片段,構建文庫后用于測序。高通量測序在Illumina HiSeq X Ten測序儀上進行,共得到5.96 Gb原始數據,reads為19 869 412條。利用NGS QC Toolkit v2.3.3對原始數據進行處理,移除接頭和低質量的reads,共獲得clean reads 19 830 514條,Q20值達96.86%,Q30為91.96%,數據質量達到后續拼接的要求。
葉綠體基因組的拼接在ThinkPad P52移動工作站上進行,采用NOVOPlasty的perl程序(Dierckxsensetal., 2017)。利用DOGMA(Dual Organellar GenoMe Annotator, http:∥dogma.ccbb.utexas.edu/)對序列進行注釋(Wymanetal., 2004)。tRNA用tRNAscan-SE(Loweetal., 1997)和ARAGORN(Laslettetal., 2004)預測。注釋完成后,利用在線工具OGDRAW(OrganellarGenomeDRAW, http:∥ogdraw.mpimp-golm.mpg.de)繪制葉綠體基因組結構圖(Lohseetal., 2013)。
根據拼接完成的葉綠體基因組序列,利用Geneious 11.1.5的Find repeats程序獲得IR序列。設計4對PCR引物,用于驗證LSC/IRb、IRb/SSC、SSC/IRa和IRa/LSC邊界序列的正確性。它們是LSC/IRbup: 5′-CAACCGATATGCCCTTAGGCAC-3′; LSC/IRbdn: 5′-GATGAATGGTAGAGATGAAATCCC CA-3′; IRb/SSCup: 5′-CGTTGGCCCATTTTTGTCAT TTTC-3′; IRb/SSCdn: 5′-GGATTGGTATTAGTCTGG ATACAGCA-3′; SSC/IRaup: 5′-GGATTGGTATTAGT CTGGATACAGC-3′; SSC/IRadn: 5′-ATAGGGGGTG GCCGAATTTC-3′; IRa/LSCup: 5′-GTAGTACCCTCG TTCTCGTTGAC-3′; IRa/LSCdn: 5′-GGTAAGCGTC CTGTAGTAAGAGG-3′。
PCR體系的總體積為 20 μL,在薄壁離心管中分別加入ddH2O 15.5 μL、10 ×Taq酶緩沖液2.0 μL、10 mmol·L-1的dNTPs 0.5 μL、20 μmol·L-1的上游引物/下游引物各0.4 μL、50 ng·μL-1的模板DNA 0.8 μL和2 U·μL-1TaqDNA聚合酶0.4 μL。PCR反應在伯樂C1000型PCR儀上進行,程序為: 94 ℃預變性5 min; 94 ℃ 30 s,56.2 ℃ 45 s,72 ℃ 2 min,共32個循環; 循環結束后,72 ℃繼續延伸10 min。PCR產物用1%的瓊脂糖凝膠電泳檢測,再用潔凈的刀片割取含目的片段的膠塊,經試劑盒法回收和純化后,將其與p-GEM T-easy載體(Promega)連接,室溫放置1 h制備連接產物。將重組載體導入大腸桿菌(Escherichiacoli)DH5α感受態細胞,經涂布、挑取單菌落和液體培養后,吸取0.5 μL菌液用作PCR模板,程序同邊界片段克隆,最后各取3份陽性菌液用于測序。
以多脈鐵木全基因組序列為材料,利用MIcroSAtellite Identification Tool(MISA)工具包提供的Perl程序鑒定SSR序列,參數采用默認值,即單核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的最小重復次數分別為10、6、5、5、5、5,2個SSR 之間的最小距離為100 bp。
從NCBI數據庫下載日本榿木(Alnusjaponica)(登錄號: MF136507)、紅榿木(A.rubra)(MG356709)、普陀鵝耳櫪(Carpinusputoensis)(NC_033503)、天臺鵝耳櫪(C.tientaiensis)(KY174338)、毛榛(Corylusmandshurica)(NC_039127)、滇榛(C.yunnanensis)(NC_039129)、鐵木(NC_039816)、天目鐵木(MG662135)、毛果鐵木(O.trichocarpa)(MG662130)、間型虎榛(Ostryopsisintermedia)(NC_040000)和滇虎榛(O.nobilis)(NC_040001)的葉綠體基因組序列,用于后續的共線性分析和系統發育分析。
利用在線工具Circoletto(http:∥tools.bat.infspire.org/circoletto/)對鐵木屬的多脈鐵木、天目鐵木、鐵木和毛果鐵木的葉綠體基因組進行共線性分析,參數采用默認值(Darzentas, 2010)。利用IRscope(https:∥irscope.shinyapps.io/irapp/)繪制鐵木屬4個種的葉綠體基因組的邊界(Amiryousefietal., 2018)。12種植物的葉綠體基因組經多重比較,用PhyML 3.1軟件生成最大似然樹(Guindonetal., 2010)。
以多脈鐵木葉片基因組DNA為模板,利用4對PCR引物擴增葉綠體基因組的邊界序列。電泳結果表明,4個片段的PCR產物分別位于600 bp、1 400 bp、800 bp和800 bp處,條帶單一、明亮,大小與預期一致(圖1)。經割膠、片段回收、連接、轉化和測序,獲得各自的測序結果。結果表明,4個片段的大小分別為638、1 407、891、873 bp,經序列比對,與拼接結果完全一致。
經拼接、注釋和繪圖,獲得多脈鐵木葉綠體基因組圖譜(圖2)。多脈鐵木葉綠體基因組具一個四分體結構,LSC、SSC與IR的長度分別為88 514、18 953、26 058 bp; IR的GC值(G和C占總堿基數的百分比)最大,為42.5%,LSC其次,為34.2%,SSC的GC值最小,僅29.8%。多脈鐵木葉綠體基因組的全長為159 583 bp,GC值為36.4%(表1)。

圖1 PCR產物的電泳

圖2 多脈鐵木葉綠體基因組圖譜
利用MISA軟件檢測多脈鐵木葉綠體基因組中的SSR,共得到58個。單堿基重復的數量最多,為53個,占總SSR數量的91.4%,TA重復次之,為3個,AT重復最少,僅2個。單堿基重復中,T重復的數量最多,為30個,A堿基重復的數量次之,為21個,C重復最少,僅2個。
基因注釋結果表明,多脈鐵木葉綠體基因組共有131個基因,包括87個蛋白編碼基因、36個tRNA基因、8個rRNA基因和2個假基因。蛋白編碼基因中,光系統Ⅱ亞基基因的數量最多,為15個,核糖體蛋白小亞基基因次之,共14個,Rubisco大亞基、成熟酶、蛋白酶、被膜蛋白、乙酰CoA亞基、細胞色素C合成酶和翻譯起始因子基因的數量最少,均只有1個(表2)。多脈鐵木葉綠體基因中,trnA-UGC、trnI-CAT、trnI-GAU、trnL-CAA、trnN-GTT、trnR-ACG、trnV-GAC、rps7、rps12、rpl2、rpl23、ndhB、ycf2、ycf1及4種rRNA基因各有2份拷貝。rps12、clpP和ycf3基因具2個內含子,trnA-UGC、trnI-GAU、trnL-UAA、trnS-CGA、trnV-UAC、rpl2、rpl16、rps16、rpoC1、ndhA、ndhB、petB、petD和atpF有1個內含子,其余基因均沒有內含子。未知功能蛋白基因ycf1有2份拷貝,但位于IRb/SSC邊界的ycf1長度僅1 194 bp,為假基因; 另外,ycf15的序列長度顯著短于正常基因,也是假基因。

表1 多脈鐵木葉綠體基因組的堿基組成

表2 多脈鐵木葉綠體基因組基因信息①
① ×2: 2份拷貝; Ψ: 假基因; *: 1個內含子; **: 2個內含子。×2: Two copies; Ψ: Pseudogene; *: One intron; **: Two introns.
利用在線工具Circoletto對4種鐵木屬植物的葉綠體基因組進行比對,結果表明,多脈鐵木與其他3個種的葉綠體基因組的結構十分相似,并且具有較好的共線性關系(圖3)。序列多重比對的結果表明,4個種的葉綠體基因組序列之間的相似性較高,其中,多脈鐵木與天目鐵木的相似性達99.1%,與鐵木的相似性最低,為98.7%; 而毛果鐵木與鐵木的序列相似性高達99.5%。
借助IRscope工具生成4種鐵木屬植物的邊界圖(圖4),4種植物IRb/SSC和SSC/IRa邊界上的基因分布十分相似,各有一個ycf1基因,SSC/IRa邊界上的ycf1全長為5 744 bp或5 750 bp,而IRb/SSC邊界的ycf1基因較短,僅1 193 bp,它們均為假基因。多脈鐵木與另外3種鐵木屬植物在LSC/IRb及IRa/LSC邊界存在較大差別,鐵木、天目鐵木和毛果鐵木在2個邊界上的基因均為rpl23,而多脈鐵木葉綠體基因組中為rps19和trnH(圖4)。
系統發育分析結果表明,構建系統發育樹的最佳模型為GTR + G + I,AIC(Akaike information criterion, 赤池信息標準)為556 643.629 64,BIC(Bayesian information criterion, 貝葉斯信息標準)為556 954.642 07。系統發育分析結果表明,12種植物在發育樹上可分為兩大組,樺木族(Betuleae)的日本榿木和紅榿木為一組(I),榛族(Coryleae)的10種植物聚于另一組; 榛族植物中,榛屬(Corylus)的毛榛和滇榛聚于組II,鵝耳櫪屬(Carpinus)的天臺鵝耳櫪和普陀鵝耳櫪聚于組III,虎榛子屬(Ostryopsis)的間型虎榛和滇虎榛聚于組V,而多脈鐵木與其他3種鐵木屬植物聚于組IV,支持率均為100%(圖5)。

圖3 多脈鐵木與3種鐵木屬植物葉綠體基因組的比對

圖4 鐵木屬植物葉綠體基因組的邊界

圖5 基于葉綠體基因組序列構建的系統發育樹
多脈鐵木由于數量稀少,已列入浙江省珍稀瀕危野生植物和極小種群保護對象; 經科研人員多年的野外調查和研究發現,多脈鐵木低齡個體數量不足,種群面臨衰退,物種亟待保護(吳世斌等, 2018)。吳世斌等(2019)對多脈鐵木群落結構進行研究,發現該物種的垂直和徑階結構均呈正態分布,群落具有較高的物種多樣性。葉綠體基因組因結構保守、組成穩定、信息位點豐富和母性遺傳等特點,近年來在瀕危植物保護生物學方面得到了一些應用,并取得了一定的成果(Lietal., 2017; Yangetal., 2017; Kyaloetal., 2018)。
植物葉綠體基因組的結構通常十分保守,具有典型的四分體結構,由2個IR區域將LSC和SSC隔開(Wickeetal., 2011)。LSC上分布的基因數量最多,而IR上的基因相對較少,在被子植物中,IR的長度約20~30 kb,而大多數非種子植物中僅為10~15 kb(Wolfetal., 2010)。珍稀植物浙江楠(Phoebechekiangensis)和閩楠(P.bournei)葉綠體基因組大小分別為152 849 bp和152 853 bp,它們的IR長度為18 927 bp和18 928 bp(Lietal., 2017); 喙核桃(Caryasinensis)葉綠體基因組全長為160 195 bp,其IR較長,為26 058 bp(Huetal., 2016)。在某些植物中,IR區域存在完全缺失現象。南方紅豆杉(Taxuswallichianavar.mairei)葉綠體基因組全長為129 513 bp,其中的一個IR發生缺失(Zhangetal., 2014),類似的現象也發生在日本柳杉(Cryptomeriajaponica)和油松(Pinustabulaeformis)中(Hiraoetal., 2008; Yuetal., 2017)。本研究中,多脈鐵木具有一個完整的四分體結構,IR長度為26 058 bp,較天目鐵木、鐵木和毛果鐵木的IR長1 670 bp左右,說明該區域在多脈鐵木葉綠體基因組中存在擴張現象,IR的擴張在闊葉十大功勞(Mahoniabealei)及含羞草亞科(Mimosoideae)植物Acacialigulata和Ingaleiocalycina中也有發現(Guisingeretal., 2010; Maetal., 2013; Dugasetal., 2015)。
與核糖體內轉錄間隔區(internal transcribed spacer, ITS)、葉綠體基因和基因間隔區相比,葉綠體基因組的信息量更為豐富,基于它構建的系統發育樹更為科學,目前,葉綠體基因組已廣泛應用于植物的系統發育分析(Danielletal., 2016)。Thode等(2019)利用葉綠體基因組對杯領藤屬(Amphilophium)植物進行分子進化研究,推測該屬植物起源于早始新世,分化于晚始新世。Chen等(1999)利用核糖體內轉錄間隔區和葉綠體rbcL基因對樺木科植物進行系統發育分析,結果表明,虎榛子屬、鵝耳櫪屬和鐵木屬植物聚于一組,支持率為60%~88%,榛屬植物為它們的姐妹群,支持率達99%。本研究中,利用葉綠體基因組進行系統發育分析,也得到了類似的結果,但支持率更高,達100%。SSR也稱微衛星序列,廣泛分布于生物體的基因組上,由于重復單位數量的不同而形成多態性,SSR在遺傳多樣性、保護生物學和物種鑒定等方面得到了廣泛應用(Tuleretal., 2015; Lietal., 2018)。與核基因組相比,葉綠體基因組相對較小,但也存在一定數量的SSR(Kuangetal., 2011)。多脈鐵木葉綠體基因組共鑒定出58個SSR,其中大部分為單堿基重復,主要為polyA或polyT重復,雙堿基及更多堿基的重復頻率很低,與前人的研究結果(Wangetal., 2013)一致。多脈鐵木葉綠體SSR的檢測和分析,為后續開發SSR分子標記奠定了基礎。
在高通量測序的基礎上,利用NOVOplasty等軟件進行組裝,并通過PCR擴增和測序驗證,獲得多脈鐵木完整的葉綠體基因組序列。多脈鐵木葉綠體基因組的全長為159 583 bp,LSC、SSC和IR的長度分別為88 514 bp、18 953 bp和26 058 bp; 多脈鐵木葉綠體基因組有131個基因,包括87個蛋白編碼基因、36個tRNA基因、8個rRNA基因,其中的2個蛋白編碼基因為假基因。葉綠體基因組中,共有SSR位點58個,其中大部分為單堿基重復。在系統發育樹上,多脈鐵木與鐵木、毛果鐵木及天目鐵目聚為一組,支持率均為100%,并與鵝耳櫪屬互為姊妹群。多脈鐵木葉綠體基因組的組裝、序列比對和系統發育分析,為將來開展該植物的遺傳結構和群體遺傳多樣性研究奠定了基礎。