






摘 要:" 維管植物是地球生物多樣性的重要組成部分,維管植物的系統分類、多樣性起源和演化等問題一直備受關注。隨著測序技術的發展,越來越多的維管植物質體基因組序列被解析和發表,為深入認識維管植物多樣性的起源和演化提供了新的證據。該文介紹了維管植物質體基因組的基本特征和結構多樣性,并以寄生植物為例簡述了質體基因組退化;回顧了當前主流的質體基因組的測序技術及組裝策略,并探討了獲取標本DNA和特殊類群的質體基因組時需要注意的問題。此外,該文還探討了質體基因組在系統發育和超級DNA條形碼研究中面臨的問題與挑戰,并提出了相應的建議。
關鍵詞: 質體基因組演化, 基因組結構變異, 質體基因組獲取, 系統發育, 超級條形碼
中圖分類號:" Q943
文獻標識碼:" A
Plastome diversity of vascular plants and its acquisition and applications: A review
CHEN Liqiong1, LI Ruozhu1,2, LI Xin1,3, YAO Xin1,YANG Junbo4, LI Dezhu4, YU Wenbin1,5*
( 1. Center for Integrative Conservation and Yunnan Key Laboratory for the Conservation of Tropical Rainforests and Asian Elephants, Xishuangbanna Tropical Botanical Garden, Chinese Academy of Sciences, Mengla 666303, Yunnan, China;
2. Qinzhou Agricultural Technology Promotion Center,Qinzhou 535000, Guangxi, China;
3. Graduate School of Science and Technology, Nara Institute of Science and Technology, Nara 6300192,Japan;
4. The Germplasm Bank of Wild Species, Kunming Institute of Botany, Chinese Academy of Sciences, Kunming 650201, China;
5. Southeast Asia Biodiversity Research Institute, Chinese Academy of Science, Mengla 666303, Yunnan, China )
Abstract:" Vascular plants are crucial to global biodiversity, so their systematic taxonomy, origin and evolution of diversity have been the hot topics. With the rapid development of sequencing technology, more and more vascular plant plastomes have been sequenced and published, offering
new evidence for further understanding of the origin and evolution of vascular plants diversity. This paper introduces the basic characteristics and structural variations of vascular plant plastomes, as well as plastome degradation in parasitic plants; reviews the current main methods of plastome sequencing and assembly; and discusses the important considerations for herbarium DNA and lineages with challenging plastome assemblies. In addition, this study discusses the difficulties with applying plastomes to phylogenetic and super-barcode studies, and proposes corresponding suggestions to address these issues.
Key words: plastome evolution, genome structure variation, acquiring plastomes, phylogeny, super-barcodes
植物基因組中蘊含著豐富的遺傳信息,編碼遺傳信息的DNA序列和氨基酸序列是系統發育和演化分析的重要性狀,為探討植物的起源與演化提供了重要證據(Gitzendanner et al., 2018a; Li HT et al., 2021)。植物細胞中通常含有3套基因組,即核基因組、質體基因組和線粒體基因組,其中質體基因組和線粒體基因組合稱為細胞器基因組。核基因組為雙親遺傳;細胞器基因組中的線粒體基因組為母系遺傳;質體基因組多為母系遺傳,但在裸子植物松柏類中為父系遺傳,極少物種是雙親遺傳的(Corriveau amp; Coleman, 1988; Zhang amp; Sodmergen, 2010)。
質體基因組常被稱為葉綠體基因組,這是因為質體基因組通常來源于葉片中的葉綠體。實際上,葉綠體是質體的一種,根據所含色素和功能不同,質體可分為有色體、黃化體、造油體和淀粉體等。質體的光合作用能力被證實源自藍菌類祖先,藍藻祖先主動侵染或被真核生物吞噬后因未被消化而形成共生關系,之后退化為細胞器(Gould et al., 2008; Wicke et al., 2011; Botte amp; Marechal, 2014)。相較于核基因組和線粒體基因組,質體基因組大小及核苷酸置換速率適中,因其廣泛存在于各類植物組織細胞中而易獲得,是研究植物系統發育和演化的重要手段(張韻潔和李德銖, 2011; Gitzendanner et al., 2018b)。
全球已知的維管植物約369 054萬種,是地球生物多樣性的重要組成部分,包括廣義蕨類(石松植物和狹義蕨類植物)、裸子植物和被子植物(Borsch et al., 2020; 錢宏等, 2022)。測序技術的快速發展促使維管植物諸多類群的質體基因組被解析和發表,為解決物種鑒定、起源和演化等重要問題提供了新手段。本文綜述了維管植物質體基因組的基本特征和結構多樣性,并以異養植物為例概述質體基因組的演化;簡要概述主流的質體基因組的獲取及組裝策略,探討獲取標本DNA和特殊類群質體基因組的常用策略;進一步探討質體基因組在系統發育和超級DNA條形碼研究中面臨的問題與挑戰,以期為未來質體基因組的研究方法和研究方向提供參考。
1 質體基因組結構多樣性與演化
1.1 質體基因組的基本特征
截至2024年3月,葉綠體基因組綜合數據庫(chloroplast genome information resource,CGIR,https://ngdc.cncb.ac.cn/cgir)共收錄了27 901條質體基因組序列,維管植物15 624種(約占已知物種的4.23%),其中被子植物占比最多(94.88%),石松類植物占比最少(0.45%)(圖1)。在維管植物中,被子植物的質體基因組結構因相對保守而更易測序組裝,石松類部分類群因存在多種復雜基因組構型而不易組裝(圖2)。維管植物質體基因組大小相差24倍,最小的是質體基因組完全退化的寄生植物大花草屬(Rafflesia)和菟絲子屬(Cuscuta)下Subulatae組(Molina et al., 2014; Banerjee et al., 2023),而最大的是牦牛兒苗科Pelargonium transvaalense (KM527900)可以達到242 575 bp (Weng et al., 2017),存在大量重復序列。維管植物的質體基因組大小平均為150 kb,不同類群的質體基因組平均大小略有差異,依次為155 kb(石松類)、152 kb(被子植物)、151 kb(蕨類植物)、131 kb(裸子植物)。相較于維管植物,非維管植物質體基因組大小相差10倍左右,最小的劍葉蘚(Scopelophila cataractae, LC634773)為122 290 bp,最大的綠藻門紅球藻(Haematococcus lacustris, MG677935)為1 352 306 bp (Bauman et al., 2018; Inoue et al., 2022)。維管植物的質體基因組GC含量相差2倍,最低的是寄生植物Pilostyles hamiltonii僅為22.7% (Bellot amp; Renner, 2016),最高的是石松類的翠云草(Selaginella uncinata)為57.5% (Mower et al., 2019)。
在維管植物中,95%以上物種質體基因組為四分體結構,包括大單拷貝區(large single copy, LSC)約80 kb、小單拷貝區(small single copy, SSC)約20 kb和2個反向重復區(inverted repeat, IR)為15~30 kb (Bock amp; Knoop, 2012; Zhu et al., 2016)(圖2)。質體基因組通常含有101~118個基因,包括66~82個蛋白質編碼基因(protein-coding sequence, CDS)、4個核糖體RNA和29~32個轉運RNA(Bock amp; Knoop, 2012)(表1)。相較于植物核基因組或線粒體基因組,質體基因密度較高,占50%~70% (Ruhlman amp; Jansen, 2014)。質體基因組通常富含AT,GC含量為25%~40%。質體基因組的GC含量分布不均勻現象明顯,通常IR區GC含量最高,LSC區次之,SSC區最低;編碼區和非編碼區之間也存在GC含量差異,蛋白質編碼區顯著高于非編碼區(表1)。此外,編碼基因的GC含量又因功能不同而有所差異,光合作用相關基因為最高,NAD(P)H基因最低(Ruhlman amp; Jansen, 2014; Li X et al., 2021; Chen et al., 2024)。
在質體基因組中,蛋白質編碼基因按功能主要分為3大類,即光合作用相關基因、質體遺傳表達相關基因和其他功能基因。光合作用相關基因包括光系統I和光系統Ⅱ蛋白質亞基(psa/psb)、細胞色素復合物(pet)、ATP合成酶(atp)、NAD(P)H復合物(ndh)、調控光合作用強度(rbcL、ccsA和cemA)、光系統I組裝蛋白(ycf3和ycf4)和不依賴光的原葉綠素酸酯還原酶(Wicke et al., 2011)。其中,chl基因在葉綠素合成途徑中起關鍵作用,但僅存在于苔蘚類、石松類、蕨類和多數裸子植物中(McCoy et al., 2008; Wicke et al., 2011)。質體遺傳表達的相關基因,包括編碼核糖體蛋白質大小亞基(rpl和rps)和質體編碼的聚合酶復合物(rpo),以及Ⅱ型內含子剪切酶(matK)。其他功能基因包括3種基因,即乙酰輔酶A羧化酶亞基D(accD)、Clp蛋白水解酶催化亞基(clpP)、蛋白質翻譯起始因子1(infA),以及功能未知的ycf1、ycf2和ycf15。乙酰輔酶A羧化酶是脂肪酸合成的關鍵酶,由4種ACC族基因共同編碼,其中3種(accA、accB和accC)已轉移到核基因組中,僅accD基因保留在質體基因組中(John amp; Grover, 2002)。已有研究表明accD基因的轉錄表達在煙草葉片的形態建成與發育中必不可缺(Kode et al., 2005),并且accD基因功能表達可間接調控植物的耐熱性 (Huang et al., 2023)。在牻牛兒苗科、廣義柏類等類群中,質體基因組中accD基因(pt-accD)已向核基因組發生了轉移,核基因中accD基因(n-accD)替代pt-accD的功能,從而導致pt-accD基因出現假基因化或丟失(Rousseau-Gueutin et al., 2013; Sudianto amp; Chaw, 2019)。此外,這些類群的部分屬同時存在于pt-accD和 n-accD中,并且都能正常轉錄表達(Rousseau-Gueutin et al., 2013; Park et al., 2017; Sudianto amp; Chaw, 2019)。值得關注的是,買麻藤屬(Gnetum) pt-accD完全丟失,但有2個n-accD拷貝且靶向不同的質體亞結構,其各自功能和起源未能確定(Sudianto amp; Chaw, 2019)。由于編碼蛋白質翻譯起始因子的infA基因頻繁向核基因組轉移,因此導致維管植物的質體基因組發生多次獨立假基因化或丟失(Millen et al., 2001; Robert et al., 2007; Yang et al., 2021)。功能未知的ycf1和ycf2是質體基因組中最長的基因,也是維管植物中最為保守的質體基因之一(Drescher et al., 2000; Wicke et al., 2011),現僅部分寄生植物和禾本科植物,以及少數被子植物的ycf1和ycf2基因會出現不同程度的假基因化和丟失,具體原因不詳(Wicke et al., 2011; Ruhlman amp; Jansen, 2014; de Vries et al., 2015; Jin DM et al., 2020)。因此,深入解析質體基因組的功能,質體和核基因組之間如何協作,并厘清哪些質體基因可以被線粒體或核基因替代,這將有助于光合生物遺傳學和質體合成生物學等技術的研發與突破。
1.2 質體基因組結構多樣性
維管植物質體全基因組序列表現出基因組結構和基因次序的多樣化,可劃分為3種主要類型:第一種是LSC-IR-SSC邊界區域變異,4個邊界區域是基因組結構變異的熱點區域,表現形式為IR/SSC邊界區發生擴張或收縮,甚至出現1個IR區完全丟失,或直接重復結構(directed repeats, DR);第二種是質體基因組動態結構,無IR結構,但存在多個重復片段介導質體基因組結構變異;第三種是基因或大片段序列重排,常見有倒位和移位(Wicke et al., 2011; Wu et al., 2011; Xiang et al., 2022; Zhou et al., 2022)(圖2、圖3)。
維管植物的質體基因組IR區的基因含量雖然比較保守,但在一些類群中也存在差異。保守的IR區通常包含4個rRNA(4.5S、5S、16S和23S)和5個tRNA基因(trnA-UGC、trnI-GAU、trnN-GUU、trnR-ACG 和trnV-GAC),以及5個編碼基因(rpl2、rpl23、rps7、部分rps12和ycf2)(Zhu et al., 2016)。在維管植物演化歷史上,IR區經歷了無數次小的變異和至少2次獨立的大規模擴張:一次是裸子植物祖先IR區擴張使得rps12、rps7、ndhB、trnL-CAA和ycf2基因轉移到IR區內;另一次則是被子植物祖先再次擴張將trnI-GAU、rpl23和rpl2基因移入IR區內(Zhu et al., 2016)。IR區的擴張使得個別基因擁有2份拷貝,從而影響質體基因組的大小與基因數量。例如,Pelargonium transvaalense(天竺葵屬和牻牛兒苗科,KM527900)的質體基因組大小為242 575 bp、基因含量為183個,IR區已擴張至87 724 bp(序列占比72.33%,含63個基因)(Ruhlman amp; Jansen, 2018)(圖2,表1)。IR區擴張廣泛存在于維管植物不同支系中,如松葉蕨科(Psilotaceae)、麻黃屬(Ephedra)、馬先蒿屬(Pedicularis)等(Zhu et al., 2016; Li X et al., 2021; Du et al., 2022)。同樣,IR的收縮也出現在多個類群中,如柳杉(Cryptomeria japonica)、松科(Pinaceae)和廣義柏類等(Wu et al., 2011; Zhu et al., 2016)。IR區的完全丟失是IR收縮的極端情況,松科和廣義柏科以及被子植物8個分支(豆科IRLC分支、牻牛兒苗科、菟絲子屬和仙人掌科等)均有報道(Wu et al., 2011; Zhu et al., 2016; Ping et al., 2022; Chen et al., 2024)(圖2)。IR區丟失的類群表現出更多的基因重排,由此推測IR區可能具有維持質體基因組穩定的作用(Palmer, 1983; Sinn et al., 2018)。最新的一些研究結果表明,IR區變化與基因重排不存在明顯的關聯性(Jin DM et al., 2020),可能是某種調控機制崩潰造成IR區變化和基因重排同時發生(Mower amp; Vickrey, 2018; Maciszewski et al., 2022; Wang et al., 2022)。此外,IR區變異具有很強的系統發育信號,可以用于定義單系群,如豆科蝶形花亞科的IRLC分支共享IR區丟失(王銀環, 2017)、菟絲子亞屬共享IR區丟失(Banerjee amp; Stefanovic', 2020; Chen et al., 2024)。
DNA復制、重組和修復系統的功能障礙和保真性下降,以及短串聯重復序列被認為是驅動質體基因組重排的主要原因(Weng et al., 2014; Zhang et al., 2016)。在DNA修復過程中,重復基因區域可參與結構的修復,而精度不同的修復可能會導致結構變異(Carvalho amp; Lupski, 2016)。通常低復雜度的串聯重復序列因相似性高而易發生復制移位和倒位,進而導致結構重排,如馬兜鈴科馬蹄香屬(Saruma)和豆科的IRLC分支(Sinn et al., 2018; Wang et al., 2022),而長重復序列則可阻礙結構變異的發生(Mower amp; Vickrey, 2018; Wang et al., 2022)。同時,(近)回文序列由于能與編碼鏈和模板鏈配對,構成十字型DNA結構,因此可誘發重組導致基因組結構重排(Sinn et al., 2018)。此外,IR區的擴張收縮也是質體基因組結構變異的驅動因素之一,如菟絲子屬的IR擴張促使ycf1基因鏡像拷貝,隨后SSC區擴張使其丟失一份拷貝,從而導致ycf1基因發生倒位(Chen et al., 2024)。
1.3 異養植物質體基因組退化和基因丟失
自養植物依賴質體進行光合作用產生能量,其質體基因組的大小、結構和基因含量相對保守(Wicke et al., 2011; Bock amp; Knoop, 2012; Wicke et al., 2016)。相比較而言,異養植物(包括寄生植物和菌根異養植物)利用根/莖或菌根真菌從別的植物或有機體“盜取”生長發育必需的營養物質,其特殊的營養方式促使質體基因組發生退化(Westwood et al., 2010)。根據對宿主依賴程度的不同,異養植物可分為半異養植物和全異養植物。半異養植物主要從寄主獲得水分和無機鹽等,可獨立進行光合作用。全異養植物喪失光合作用,依賴寄主獲取營養物質。
目前,異養植物質體基因組的研究已涵蓋半異養到全異養的范疇,基因組特征表現出高度異質性,基因組大小從小葉刺球果(Krameria erecta, OL889926)為177 797 bp退化至質體基因完全丟失(如大花草屬,菟絲子屬下Subulatae組) (Molina et al., 2014; Wicke amp; Naumann, 2018; Cai et al., 2021; Banerjee et al., 2022; Banerjee amp; Stefanovic, 2023)(圖3)。半異養植物質體基因組大小為110~172 kb,與自養植物相近,含有110~130個基因,僅部分基因假基因化或丟失(Goncalves et al., 2019; Li X et al., 2021)。全異養植物的質體基因組在基因組大小和基因含量上發生快速退化,基因組大小從100 kb到完全丟失(如大花草屬),最多可含57個基因 (McNeal et al., 2007; Molina et al., 2014; Wicke amp; Naumann, 2018; Cai et al., 2021)。在列當科中,隨著對寄主依賴程度的增加,寄生植物質體基因組大小和基因含量均逐步降低,這暗示質體基因組特征與寄生習性轉變有關(Wicke amp; Naumann, 2018)。盡管異養生活型的轉變與基因丟失顯著相關(Wicke amp; Naumann, 2018),但選擇壓力的改變對基因丟失和生活型轉變的影響等尚未經過實驗驗證。Chen等(2024)研究表明,菟絲子屬寄生習性的轉變可能放松了質體基因的選擇壓力,引發GC含量降低、密碼子偏好性改變、重復序列增多、dN和dS升高等微變異,從而導致其基因組退化和質體基因組結構變異。因此,深入探究異養生活型與質體基因組特征的關系還需納入更多種可能因素,如重排率、結構變異區段內的dN和dS、倒位區域前后的重復片段等。同時,還需考慮數據之間的自相關以減小結果誤差,如基因的數量直接影響質體基因組大小、GC含量變化與dN和dS相關。現有研究表明,異養習性的轉變促使整個質體基因組發生退化(Wicke amp; Naumann, 2018; Chen et al., 2024),一些質體基因可能轉移到核或被核基因替代,不過大部分全異養植物仍保留了部分質體基因,這些基因是否還有執行功能仍未解析。此外,質體也參與多種激素合成,若將所有質體基因沉默,異養植物是否能夠存活等問題仍需進一步的探究。
不同譜系的異養植物質體基因丟失表現出趨同現象,整合現有的質體基因組,質體基因組退化可分為6個階段 (Barrett et al., 2014; Graham et al., 2017; Wicke amp; Naumann, 2018; Barrett et al., 2019)(圖4)。從自養生活到異養生活型轉變時,NAD(P)H復合物(ndh)基因最先開始丟失;從半異養到全異養過渡時,個別光合作用相關基因(psa、psb、pet、ycf3/ycf4、cemA和ccsA)、質體編碼的聚合酶基因(rpo)和ATP合酶復合體(atp)開始出現假基因化和丟失;全異養階段,光合作用相關基因進一步丟失,與光合作用無關的基因核心非生物能基因(accD、clpP和ycf1/ycf2)和trnE-UUC也陸續假基因化和丟失,最終質體基因完全丟失(圖4)。然而,異養習性是獨立演化的性狀,取樣偏差、缺失關鍵過渡類群和注釋標準的不統一等問題導致尚未有一個演化模型能適用所有異養植物。比如,一個基因注釋為假基因還是基因丟失標準的偏差將導致不同的注釋,假基因化是個體水平突變造成還是種水平共有的特征。因此,為了獲得更為精細的質體基因組演化模式,需要沿著從自養生活型到全寄生生活型梯度、統一注釋的原則、規范注釋的流程,并結合跨譜系類群、高取樣密度和大數據進行探索。
2 質體基因組的獲取
2.1 文庫制備和測序
隨著測序技術的快速革新,質體基因組測序技術日臻成熟。Shinozaki等(1986)利用限制性內切酶法且克隆測序煙草(Nicotiana tabacum),獲得首條質體基因組序列。隨后該方法被PCR擴增和雙脫氧核苷酸末端終止法(或稱Sanger測序法)替代(Tabarlet et al., 1991)。如今,借助二代測序(next-generation sequencing, NGS)的全基因組淺層測序(genome skimming) 技術,獲得全基因組(gDNA)較低測序深度的基因組數據,便能組裝出完整的質體全基因組、線粒體全基因組和部分核基因序列。3套基因組組裝效率差異主要是由于植物細胞中包含了大量質體,單個細胞的質體基因組數量超過核基因組的100倍,因此使用相對較低的測序深度便可獲得足夠的數據來組裝質體全基因組(Straub et al., 2012)。全基因組淺層測序因無需事先富集或者分離純化質體,可直接使用較低測序深度(0.1x~10x)的優點,被認為是目前獲得質體基因組最直接且成本最低的方法(Dodsworth, 2015; Twyford amp; Ness, 2017)。相比較之下,盡管質體分離純化富集法易從頭組裝,但因其耗時、耗力、耗錢且僅能獲得質體基因組而被淘汰。
NGS文庫核心步驟為基因組打斷-末端修復-加接頭-PCR-測序前信號放大,根據是否進行PCR可以分為2類,依賴PCR的NGS文庫和PCR-free的NGS文庫。盡管后者因避免擴增錯誤和偏向性,以及高保真性和高數據利用率而備受研究人員的青睞,但必需的起始DNA量是前者的100倍(為1 ug DNA)。常用的建庫試劑盒有用酶切法的Illumina DNA Prep、片段化的Illumina TruSeq、兼容型的NEB Ultra和磁珠型DNA selection beads。維管植物的質體基因組大小和測序的組織類型存在差異,其gDNA中所含的質體基因片段含量浮動巨大,從0.3%[歐洲云杉(Picea abies)]到接近40%[敘利亞馬利筋(Asclepias syriaca)](Twyford amp; Ness, 2017)。因此,開發一種具有廣泛高兼容性的試劑盒,使其提取所需數量的質體基因組片段進行測序是非常有必要的。
標本材料的DNA由于儲藏時間、組織特性、干燥條件等因素的影響,標本DNA高度降解的DNA提取濃度低,并且易受外源DNA 污染,因此標本的質體全基因組不易獲得。Zeng等 (2018)開發了適合館藏標本材料的基因組淺層測序的實用流程,僅以500 pg的起始DNA量,通過模板分子不打斷、不作片段選擇、不少于8個PCR循環富集barcode文庫,便可獲得完整或幾近完整的質體基因組序列,這為基于館藏標本遺傳信息的生物學研究帶來了新的機遇。Alsos等(2020)對上千份館藏標本和硅膠干燥材料進行比較研究,發現硅膠干燥材料的質體基因組組裝成功率大于館藏標本,表明植物野外科考調查除標本和種子收集以外,還應留有硅膠干燥的分子材料。
目前,NGS平臺的讀長為35~700 bp,盡管這比Sanger測序長度要短,但足以用于質體基因組的從頭組裝。NGS測序通常選擇短片段測序或雙端測序,即2 ×150 bp。測序時應注意,質體片段的覆蓋度(coverage)應大于30x,但覆蓋度并非越大越好,100x~200x為最佳 (Twyford amp; Ness, 2017)。測序后的數據大于500 Mb就足以組裝出質體全基因組,但根據類群的質體基因組大小和結構復雜性的區別,一般需要2~5 Gb數據,除能提取出質體基因組以外,還能組裝nrDNA和線粒體基因(Twyford amp; Ness, 2017)。對于個別復雜類群,如寄生植物質體拷貝數低或GC含量異常,卷柏科質體基因組存在同向重復(direct repeat, DR)結構和重排,可考慮長片段測序或結合三代測序技術,這能有效克服質體全基因組重復和結構變異等問題(Bleidorn, 2016; Hu et al., 2021)。不過,三代測序儀較高的錯誤率和成本較高且通量較低,使其不能完全取代第二代測序平臺。因此,質體基因組結構復雜類群的研究需要組合二代和三代的測序方法。
2.2 植物質體基因組組裝策略和方法
基因組組裝策略和方法的選取直接影響質體基因組數據的完整性和準確性,而組裝策略的選擇不僅要與其測序方法相匹配,而且還應考慮測序質量的好壞、質體結構的復雜多變、組裝結果的片段化、不同細胞器片段錯配等問題。二代測序的數據多為短片段測序,對應的組裝策略可分為有參組裝(reference-guided assembly)和從頭組裝(de novo assembly)2種。有參組裝將測序數據映射到參考質體基因組序列獲得一致性序列為組裝結果,通常需要較少的計算時間和虛擬內存,適合于已有近緣參考基因組的類群組裝(常為同屬植物)。但是,若無參考質體基因組,或是質體基因組結構變異較大的類群,又或是質體基因大量缺失的類群,如果采用有參組裝就會產生很多錯配,只有采用從頭組裝才能獲得準確的組裝結果。優先采用從頭組裝的策略,以避免信息遺漏,并且無需質體基因組的先驗知識。若從頭組裝失敗,可考慮以下3種方法獲得質體基因組,即使用有參組裝,或從頭組裝中引入近緣參考序列,或利用LASTZ等軟件基于參考序列進行手動拼接,但手動拼接比較依賴豐富的先驗經驗。常用的有參組裝程序有ORTHOSKIM(Pouchon et al., 2022)和chloroExtractor (Ankenbrand et al., 2018);常用的從頭組裝程序有GetOrganelle (Jin JJ et al., 2020)、NOVOPlasty (Dierckxsens et al., 2017)、SOAPdenovo 2 (Luo et al., 2012)、Fast-Plast (https://github.com/mrmckain)、CLC基因組學工作平臺(http://www.clcbio.com/)(表2)。
Dierckxsens等(2017)以擬南芥(Arabidopsis thaliana)和水稻(Oryza sativa)測序數據進行測試,結果表明僅NOVOPlasty組裝出完整的質體基因組,耗時和資源占用明顯優于其他程序。Jin JJ等(2020)選取了50個植物樣本對不同軟件進行組裝效果測試,結果表明GetOrganelle的質體組裝成環率遠高于NOVOPlasty。Freudenthal等(2020)以擬南芥為原始數據定量/定性評述了7種常用細胞器基因組組裝程序,結果發現用戶在安裝和運行分析方面體驗最佳的是chloroExtractor,資源損耗最小的是NOVOPlasty,組裝結果成功率和準確性最佳的是GetOrganelle。從總體上看,GetOrganelle可作為質體基因組從頭組裝程序的首選,其次是NOVOPlasty和Fast-Plast。此外,個別類群如杜鵑花科(Ericaceae)和燈心草屬(Juncus),由于其質體基因組含有大于k-mer值的長重復區域,二代測序的短片段不足以連接重復片段及其側翼區域,因此導致包含數百個scaffolds或contigs的結果文件無法獲得完整的質體基因組(Mo et al., 2022; Zhou et al., 2022)。對于此類復雜類群推薦優先使用ORTHOSKIM軟件(Pouchon et al., 2022),或對其不確定的區域可以通過參考序列或可視化每個scaffold或contig的深度進行拼接,但這很依賴現有的參考序列和測序深度,并且該結果無法直接用于質體基因組結構分析。由于三代測序的長序列有可能跨越長重復序列,Zhou等(2022) 通過利用二代測序和三代測序的混合數據,成功獲得燈心草屬的質體全基因組數據,表明二代測序和三代測序的混合數據有助于解決含有長片段的重復序列組裝。常用軟件包括Organelle_PBA (Soorni et al., 2017)、Hifiasm (Cheng et al., 2022)和ptGAUL (Zhou, 2023)。因此,在質體基因組組裝過程中,應優先從頭測序,若不能獲得其完整的質體基因組,需針對類群質體基因組特征選取適合的組裝策略(表2)。
3 基于葉綠體基因組的系統發育分析與超級條形碼
3.1 系統發育分析——從質體基因片段到質體基因組
系統發育分析既可用于重建物種演化關系和歷史,也可用于生物分類物種鑒定,澄清物種之間的遺傳關系。質體基因為單拷貝基因,因中等的演化速率、單親遺傳、易獲取而使其在植物分子系統學研究中備受青睞(Gitzendanner et al., 2018a, b; Daniell et al., 2021)。早期的植物系統發育分析主要利用單個或少數幾個質體基因片段進行構建,如rbcL、matK、atpB和ndhF等。這些基因片段的應用極大地推動了植物系統發育研究的發展,進而出現基于大尺度的分子系統發育框架的目、科分類階元的被子植物系統發育組系統(angiosperm phylogeny group, 簡稱APG) (APG I, 1998; APG Ⅱ, 2003; APG Ⅲ, 2009; APG Ⅳ, 2016)以及各科的線性排列(Haston et al., 2009),石松類與蕨類植物系統發育組系統(pteridophyte phylogeny group,簡稱PPG)(PPG, 2016)。隨著分子系統學研究尺度的深入,基因樹不一致現象越發普遍(Goremykin et al., 2004; Guo amp; Ge, 2005; Qiu et al., 2006),表明僅靠少數幾個基因片段所構建的基因樹,只是反映基因水平的演化歷史,不能完全等同于物種的演化歷史,需要將更多的系統發育信號“嵌入”到物種歷史的重建之中(Heled amp; Drummond, 2009; 張韻潔和李德銖,2011)。Eisen和Fraser(2003)正式提出了系統發育基因組學(phylogenomics)的概念,標志進入系統發育基因組學時代。目前,質體基因組在植物科級水平的系統發育研究和解決系統發育支系內的演化關系方面作出了重要貢獻(Whitfeld, 1945; APG IV, 2016; Daniell et al., 2016; Li et al., 2019; Li HT et al., 2021)。例如,Xi等(2012)利用82個質體編碼基因解析了金虎尾目內部的系統發育關系;Li HT等(2021)基于質體全基因組數據集構建了被子植物科級水平的葉綠體系統發育樹2.0 (PPA Ⅱ),其中75%以上的目間關系和78%科級關系得到大于90%的統計支持。除質體基因組以外,線粒體基因組也被用于維管植物的系統發育分析。由于線粒體基因演化速率慢,不易受長枝吸引的影響,因此常用于科級及以上高分類階元和異養植物的系統學研究。Lin等(2022)利用線粒體基因組有效解決含真菌異養的單子葉植物和杜鵑花科的系統發育關系,明確杜鵑花科并非單系。但是,線粒體基因組高度富集的重復序列和頻繁的重組,同時受限于淺層測序的讀取長度,導致難以獲得完整且準確的線粒體基因組。此外,獲取線粒體基因組數據通常還需要整合Hi-C文庫與PacBio長讀測序。
3.2 質體基因組系統發育分析
目前,構建質體基因組系統發育關系的數據主要有3類,即質體全基因組、質體編碼基因和分區數據(LSC、IR和SSC)。質體基因組建樹的流程較為簡單,原始測序數據經組裝后,先進行序列比對、構建矩陣,剔除矩陣中不可靠區段,再用于系統發育樹的構建(圖5)(Jiang et al., 2022)。值得注意的是,使用質體編碼基因數據建樹時,需先將每個基因單獨進行多序列比對避免不同的基因錯配,再進行系統發育樹構建。質體基因組系統發育分析方法大致上可以分為串聯法(concatenation)和溯祖法(coalescence)2種(Huelsenbeck et al., 1996; Liu et al., 2009; Sarker amp; Sutherl, 2022)。串聯法又叫超級矩陣(supermatrix)法,即先將比對后的質體基因矩陣首尾相連,構成質體基因串聯矩陣,再將串聯矩陣用于系統發育樹的構建。溯祖法則是先利用單個質體基因比對矩陣構建單基因樹,再根據所有基因樹進行溯祖分析,最后推斷最有可能的系統發育樹。質體基因串聯法或稱多基因組聯合建樹盡管是質體基因組系統發育分析的首選,但不適合寄生植物這種特殊類群。這主要是該類群質體基因組的演化速率快、種間演化速率和不同家族基因的堿基替換率差異大,若直接將所有質體基因串聯在一起,推斷出的系統發育樹可能是由部分高突變的“主效”基因所決定。例如,全寄生植物菟絲子屬,其亞屬間的演化速率差異大,并且質體基因間顯著的演化速率差異易引起長枝吸引,若使用質體基因串聯法會將該屬誤認為旋花亞科的基部類群(Chen et al., 2024)。因此,演化速率快的特殊類群系統發育關系的解析還需要結合溯祖法是綜合考慮不同基因的進化歷史,并使用合適的模型如IQ-tree的Ghost模型來推斷系統發育關系。
目前,系統發育樹的構建常面臨系統誤差(systematic error)的問題,系統誤差的主要來源包括堿基突變率不同 (heterotachy)、序列組成異質性(compositional heterogeneity)、速率異質性(rate heterogeneity)。因此,僅增加物種取樣密度,既不能改變系統發育樹框架的拓撲結構,也不能給之前存在問題的節點增加支持率;相較而言,填補基因數據量、模型優化法、增加的近緣外類群取樣、去除分類群中進化速率較快的長枝分類元和具有非常高演化速率的基因或區段,使用多種建樹方法(相較于ML和BI,MP更易出現LBA)、采用基于氨基酸翻譯的多序列比對方法,并考慮了幀移和終止密碼子有助于解決一些快速演化的復雜類群系統發育關系(Gitzendanner et al., 2018a; Li et al., 2019; Sarker amp; Sutherl, 2022)。由于質體基因組并未包含植物所有的遺傳信息,因此僅依靠質體基因組數據無法解決一些快速演化支系間的關系,需結合其他基因組數據,如核基因組數據或線粒體基因組數據。若是利用所有基因組數據也無法解決,不同基因組推斷的系統發育結果之間常存在明顯沖突,則可能為雜交和漸滲起源 (Soltis amp; Kuzoff, 1995; 鄒新慧和葛頌, 2008; Yu et al., 2013)。質體基因組、核基因組和線粒體基因組之間的基因交換和共享亦會導致系統發育關系沖突的出現(Straub et al., 2013)。
3.3 質體基因組超級條形碼和物種鑒定
DNA條形碼(DNA barcoding)是指基因組中普遍存在的、較短的、標準化的且能用于物種鑒定的基因序列(Hebert et al., 2003; Mark amp; Michael, 2009)。因其可鑒別破損標本或加工后組織樣品而廣泛應用于物種資源調查分類、食品安全、中藥質控和海關檢查等方面,為準確處理生物分類地位提供了科學依據,從而促進合理有效地保護、開發和利用自然生物資源、保護生物多樣性和環境保護(Chac amp; Thinh, 2023)。截至2024年3月,生命條形碼數據庫(BOLD,http://www.boldsystems.org/)共收錄了129 726種維管植物的DNA條形碼,其中被子植物占比最多(94.2%)、石松類植物最少(0.3%)。目前,植物常用的DNA條形碼主要包括質體中的atpF-atpH、matK、rbcL、rpoB、rpoC1、psbK-psbI和trnH-psbA (Hollingsworth et al., 2009)和核糖體DNA的內部轉錄間隔區(ITS) (CBOL, 2009; Chac amp; Thinh, 2023)。由于每個DNA條形碼序列長度和變異位點數量不同,鑒別不同水平的植物,如rbcL和ndhF片段可用于屬水平和種水平上的鑒別,matK、rpoB和rpoC1可用于種水平和亞種水平上的區分 (Li et al., 2015; Chac amp; Thinh, 2023)。此外,部分相對較短、不完整的質體基因片段可作為迷你DNA,如trnL-UAA的內含子、ycf1a、ycf1b, 部分rbcL片段和ITS2中的短區域,可有效識別中藥類DNA高度降解樣品(Liu et al., 2018; Zhu et al., 2022)。但是,沒有一個基因片段可鑒別出所有物種,條形碼組合可有效提升分辨率(Mark amp; Michael, 2009; Chen et al., 2010)。CBOL植物工作組(2009)分析發現,rbcL+matK的組合片段可作為維管植物核心通用的DNA條形碼,其區分效率為72%,trnH-psbA和ITS作為補充DNA條形碼。Hu等(2022)研究表明,matK+trnH-psbA+ITS2可高效鑒別出世界常用木材樹種。DNA條形碼組合所含遺傳信號有限,不能很好地鑒定近緣物種、近期分化和輻射演化的類群。然而,近期快速發展的質體基因組學為解決上述問題提供了新的轉機。
質體全基因組因包含了所有的高變區,分辨率高,可避免因引物錯配、測序失敗而對數據分析所帶來的困難,被作為超級條形碼(super-barcodes)用于鑒定困難類群(Zhu et al., 2022)。例如,相比于標準DNA條形碼組合,超級條形碼將蘭屬(Cymbidium)物種的分辨率從58%提升到68% (Zhang et al., 2023)。在鑒別紅豆杉屬(Taxus)近緣物種中,超級條形碼展現出100%的分辨率(Fu et al., 2019);在鑒定分類困難類群的人參屬(Panax)中,展現出超50%的分辨率(Ji et al., 2019);在鑒定藥用植物貝母屬(Fritillaria)近緣物種中則表現出100%的分辨率(Wu et al., 2021)。盡管超級條形碼大大提高了植物的物種分辨率,但還不足以完全區分所有物種,特別是不完全譜系分選、人工栽培、自然雜交和葉綠體捕獲等復雜進化類群,單拷貝/低拷貝核基因有望成為下一代DNA條形碼(Zhang et al., 2023)。此外,DNA條形碼數據庫是DNA條形碼鑒定執行的基礎,但由于目前各個數據庫的質量參差不齊,超半數的數據庫無法正常訪問,因此未來應統一數據庫構建的標準,針對性構建和完善重要類群的數據庫,如中藥材、民族藥用植物和珍稀木材等。除傳統DNA條形碼以外,超級條形碼的數據庫和下一代核基因條形碼也應被收錄在數據庫中。
4 展望
質體基因組數據和大量相關的研究正逐年快速增加,復雜多樣的變異和獨特的質體基因組退化過程逐漸被發現,加深了我們對于植物質體基因組多樣性的認識和理解。但是,大多對質體基因組演化機制的研究仍處于描述報道、簡單相關性推測等層次,深入其機制研究的較少。因此,未來需加強對質體基因組多樣化成因及其演化機制的探索和驗證。海量的質體基因組數據也增加了數據分析計算量和時間耗費。因此,提升計算量、縮短運算時間和分析流程化是未來質體基因組組裝、注釋和分析軟件、算法優化的方向。此外,質體基因組數據已廣泛應用于系統發育和DNA條形碼篩選,對于異養植物或演化速率較快的類群需根據類群的差異性選擇合適的模型和建樹策略構建系統發育樹,也應結合核基因用于構建系統發育和開發下一代DNA條形碼,為物種鑒定、物種起源和時空演化格局,以及識別藥材等提供重要信息,并提高質體基因組數據在植物的資源開發和可持續利用中的應用。
參考文獻:
ALSOS IG, LAVERGNE S, MERKEL MKF, et al., 2020. The treasure vault can be opened: Large-scale genome skimming works well using herbarium and silica gel dried material" [J]. Plants, 9(4): 432.
ANKENBRAND MJ, PFAFF S, TERHOEVEN N, et al., 2018.chloroExtractor: Extraction and assembly of the chloroplast genome from whole genome shotgun data" [J]. The Journal of Open Source Software, 3(21): 464.
APG I, 1998. An ordinal classification for the families of flowering plants [J]. Annals of the Missouri Botanical Garden, 85(4): 531-553.
APG Ⅱ, 2003. An update of the Angiosperm Phylogeny Group classification for the orders and families of flowering plants: APG Ⅱ" [J]. Botanical Journal of the Linnean Society, 141(4): 399-436.
APG Ⅲ, 2009. An update of the Angiosperm Phylogeny Group classification for the orders and families of flowering plants: APG Ⅲ" [J]. Botanical Journal of the Linnean Society, 161(2): 105-121.
APG IV, 2016. An update of the Angiosperm Phylogeny Group classification for the orders and families of flowering plants: APG IV" [J]. Botanical Journal of the Linnean Society, 181(1): 1-20.
BANERJEE A, SCHNEIDER AC, STEFANOVIC' S, 2022. Plastid genomes of the hemiparasitic genus Krameria (Zygophyllales) are intact and exhibit little relaxation in selection" [J]. International Journal of" Plant Sciences, 183(5): 393-403.
BANERJEE A, STEFANOVIC' S, 2023. A comparative study across the parasitic plants of Cuscuta subgenus Grammica (Convolvulaceae) reveals a possible loss of the plastid genome in its section Subulatae" [J]. Planta: An International Journal of Plant Biology, 257(4): 66.
BANERJEE A, STEFANOVIC' S, 2020. Reconstructing plastome evolution across the phylogenetic backbone of the parasitic plant genus Cuscuta (Convolvulaceae)" [J]. Botanical Journal of the Linnean Society, 194(4): 423-438.
BARRETT CF, FREUDENSTEIN JV, LI J, et al., 2014.Investigating the path of plastid genome degradation in an early-transitional clade of heterotrophic orchids, and implications for heterotrophic angiosperms" [J]. Molecular Biology and" Evolution, 31(12): 3095-3112.
BARRETT CF, SINN BT, KENNEDY AH, 2019. Unprecedented parallel photosynthetic losses in a heterotrophic orchid genus" [J]. Molecular Biology and" Evolution, 36(9): 1884-1901.
BAUMAN N, AKELLA S, HANN E, et al., 2018.Next-generation sequencing of Haematococcus lacustris reveals an extremely large 1.35-Megabase chloroplast genome" [J]. Genome Announcements, 6(12): e00181-18.
BELLOT S, RENNER SS, 2016. The plastomes of two species in the endoparasite genus Pilostyles (Apodanthaceae) each retain just five or six possibly functional genes" [J]. Genome Biology and Evolution, 8(1): 189-201.
BLEIDORN C, 2016. Third generation sequencing: Technology and its potential impact on evolutionary biodiversity research" [J]. Systematics and Biodiversity, 14(1): 1-8.
BOCK R, KNOOP V, 2012. Genomics of chloroplasts and mitochondria" [M]. Dordrecht: Springer: 103-120.
BORSCH T, BERENDSOHN W, DALCIN E, et al., 2020. World Flora Online: Placing taxonomists at the heart of a definitive and comprehensive global resource on the worlds plants" [J]. Taxon, 69(6): 1311-1341.
BOTTE CY, MARECHAL E, 2014. Plastids with or without galactoglycerolipids" [J]. Trends in Plant Science, 19(2): 71-78.
CAI L, ARNOLD BJ, XI Z, et al., 2021.Deeply altered genome architecture in the endoparasitic flowering plant Sapria himalayana Griff. (Rafflesiaceae)" [J]. Current Biology, 31(5): 1002-1011.
CARVALHO CMB, LUPSKI JR, 2016. Mechanisms underlying structural variant formation in genomic disorders" [J]. Nature Reviews Genetics, 17(4): 224-238.
CBOL Plant Working Group, 2009. A DNA barcode for land plants [J]. Proceedings of the National Academy of Sciences of the United States of America, 106: 12794-12797.
CHAC LD, THINH BB, 2023. Species identification through DNA barcoding and its applications: A review" [J]. Biology Bulletin, 50(6): 1143-1156.
CHEN LQ, LI X, YAO X, et al., 2024. Variations and reduction of plastome are associated with the evolution of parasitism in Convolvulaceae" [J]. Plant Molecular Biology, 114(3): 40.
CHEN SL, YAO H, HAN JP, et al., 2010. Validation of the ITS2 region as a novel DNA barcode for identifying medicinal plant species" [J]. PLoS ONE, 5(1): e8613.
CHENG HY, JARVIS ED, FEDRIGO O, et al., 2022. Haplotype-resolved assembly of diploid genomes without parental data" [J]. Nature Biotechnology, 40(9): 1332-1335.
CORRIVEAU JL, COLEMAN AW, 1988. Rapid screening method to detect potential biparental inheritance of plastid DNA and results for over 200 angiosperm species" [J]. American Journal of" Botany, 75(10): 1443-1458.
DANIELL H, JIN SX, ZHU XG, et al., 2021. Green giant — a tiny chloroplast genome with mighty power to produce high-value proteins: History and phylogeny" [J]. Plant Biotechnology Journal, 19(3): 430-447.
DANIELL H, LIN CS, YU M, et al., 2016. Chloroplast genomes: diversity, evolution, and applications in genetic engineering" [J]. Genome Biology, 17(1): 134.
DE VRIES J, SOUSA FL, BLTER B, et al., 2015. YCF1: A green TIC?" [J]. Plant Cell, 27(7): 1827-1833.
DIERCKXSENS N, MARDULYN P, SMITS G, 2017. NOVOPlasty: De novo assembly of organelle genomes from whole genome data" [J]. Nucleic Acids Research, 45(4): e18.
DODSWORTH S, 2015. Genome skimming for next-generation biodiversity analysis" [J]. Trends in Plant Science, 20(9): 525-527.
DRESCHER A, RUF S, CALSA JR T, et al., 2000. The two largest chloroplast genome-encoded open reading frames of higher plants are essential genes" [J]. The Plant Journal, 22(2): 97-104.
DU XY, KUO LY, ZUO ZY, et al., 2022. Structural variation of plastomes provides key insight into the deep phylogeny of ferns" [J]. Frontiers in" Plant Science, 13: 862772.
EISEN JA, FRASER MC, 2003. Phylogenomics: Intersection of evolution and genomics" [J]. Science, 300(5626): 1706-1707.
FREUDENTHAL JA, PFAFF S, TERHOEVEN N, et al., 2020. The landscape of chloroplast genome assembly tools" [J]. Genome Biology: 665869.
FU CN, WU CS, YE LJ, et al., 2019. Prevalence of isomeric plastomes and effectiveness of plastome super-barcodes in yews (Taxus) worldwide" [J]. Scientific Reports, 9(1): 2773.
GITZENDANNER MA, SOLTIS PS, WONG GKS, et al., 2018a. Plastid phylogenomic analysis of green plants: A billion years of evolutionary history" [J]. American Journal of Botany, 105(3): 291-301.
GITZENDANNER MA, SOLTIS PS, YI TS, et al., 2018b. Plastome phylogenetics: 30 years of inferences into plant evolution" [J]. Advances in" Botanical Research, 85: 293-313.
GONCALVES JPD, SIMPSON BB, ORTIZ EM, et al., 2019. Incongruence between gene trees and species trees and phylogenetic signal variation in plastid genes" [J]. Molecular Phylogenetics Evolution, 138: 219-232.
GOREMYKIN VV, HIRSCH-ERNST KI, WLFL S, et al., 2004. The chloroplast genome of Nymphaea alba: Whole-genome analyses and the problem of identifying the most basal angiosperm" [J]. Molecular Biology and Evolution, 21(7): 1445-1454.
GOULD SB, WALLER RF, MCFADDEN GI, 2008. Plastid evolution" [J]. Annual Review of" Plant Biology, 59: 491-517.
GRAHAM SW, LAM VK, MERCKX VS, 2017. Plastomes on the edge: The evolutionary breakdown of mycoheterotroph plastid genomes" [J]. The New Phytologist, 214(1): 48-55.
GUO YL, GE S, 2005. Molecular phylogeny of Oryzeae (Poaceae) based on DNA sequences from chloroplast, mitochondrial, and nuclear genomes" [J]. American Journal of" Botany, 92(9): 1548-1558.
HOLLINGSWORTH PM, FORREST LL, SPOUSE JL, et al., 2009. A DNA barcode for land plants" [J]. Proceedings of the National Academy of" Science of the United States of America, 106(31): 12794-12797.
HASTON E, RICHARDSON JE, STEVENS PF, et al., 2009. The Linear Angiosperm Phylogeny Group (LAPG) Ⅲ: A linear sequence of the families in APG Ⅲ" [J]. Botanical Journal of" Linnean Society, 2(161): 128-131.
HEBERT PDN, CYWINSKA A, BALL SL, et al., 2003. Biological identifications through DNA barcodes" [J]. Proceedings of the Royal" Society of London Series B: Biological Sciences, 270(1512): 313-321.
HELED J, DRUMMOND AJ, 2009. Bayesian inference of species trees from multilocus data" [J]. Molecular Biology and" Evolution, 27(3): 570-580.
HU JL, CI XQ, LIU ZF, et al., 2022. Assessing candidate DNA barcodes for Chinese and internationally traded timber species" [J]. Molecular Ecology Resources, 22(4): 1478-1492.
HU TS, CHITNIS N, MONOS D, et al., 2021. Next-generation sequencing technologies: An overview" [J]. Human Immunology, 82(11): 801-811.
HUANG C, LIU D, LI ZA, et al., 2023.The PPR protein RARE1-mediated editing of chloroplast accD transcripts is required for fatty acid biosynthesis and heat tolerance in Arabidopsis" [J]. Plant Communications, 4(1): 100461.
HUELSENBECK JP, Bull JJ, CUNNINGHAM WC, 1996. Combining data in phylogenetic analysis" [J].Trends in Ecology amp; Evolution, 11(4): 152-158.
INOUE Y, NAKAHARA-TSUBOTA M, TSUBOTA H, 2022. The complete chloroplast and mitochondrial genomes of Scopelophila cataractae (Mitt.) Broth. (Pottiaceae, Bryophyta)" [J]. Mitochondrial DNA Part B, 7(1): 125-127.
JIANG N, DONG LN, YANG JB, et al., 2022. Herbarium phylogenomics: Resolving the generic status of the enigmatic Pseudobartsia (Orobanchaceae) [J]. Journal of Systematics and Evolution, 60: 1218-1228.
JI YH, LIU CK, YANG ZY, et al., 2019. Testing and using complete plastomes and ribosomal DNA sequences as the next generation DNA barcodes in Panax (Araliaceae)" [J]. Molecular Ecology Resources, 19(5): 1333-1345.
JIN DM, WICKE S, GAN L, et al., 2020. The loss of the inverted repeat in the Putranjivoid clade of Malpighiales" [J]. Frontiers in" Plant Science, 11: 942.
JIN JJ, YU WB, YANG JB, et al., 2020. GetOrganelle: A fast and versatile toolkit for accurate de novo assembly of organelle genomes" [J]. Genome Biology, 21(1): 241.
JOHN CE, GROVER WL, 2002. Multi-subunit acetyl-CoA carboxylases" [J]. Progress in" Lipid Research, 41(5): 407-435.
KODE V, MUDD EA, IAMTHAM S, et al., 2005. The tobacco plastid accD gene is essential and is required for leaf development" [J]. The Plant Journal, 44(2): 237-244.
LI HT, LUO Y, GAN L, et al., 2021. Plastid phylogenomic insights into relationships of all flowering plant families" [J]. BMC Biology, 19: 232.
LI HT, YI TS, GAO LM, et al., 2019. Origin of angiosperms and the puzzle of the Jurassic gap" [J]. Nature Plants, 5(5): 461-470.
LI X, YANG JB, WANG H, et al., 2021. Plastid NDH pseudogenization and gene loss in a recently derived lineage from the largest hemiparasitic plant genus Pedicularis (Orobanchaceae)" [J]. Plant and Cell Physiology, 62(6): 971-984.
LI X, YANG Y, HENRY RJ, et al., 2015. Plant DNA barcoding: From gene to genome" [J]. Biological Reviews Cambridge Philosophical Society, 90(1): 157-166.
LIN QS, BRAUKMANN WAT, GOMEZ SM, et al., 2022. Mitochondrial genomic data are effective at placing mycoheterotrophic lineages in plant phylogeny" [J]. The New Phytologist, 236(5): 1908-1921.
LIU L, YU LL, KUBATKO L, et al., 2009. Coalescent methods for estimating phylogenetic trees" [J]. Molecular Phylogenetics and Evolution, 53(1): 320-328.
LIU Y, WANG XY, WEI XM, et al., 2018.Rapid authentication of Ginkgo biloba herbal products using the recombinase polymerase amplification assay" [J]. Scientific Reports, 8(1): 8002.
LUO RB, LIU BH, XIE YL, et al., 2012. SOAPdenovo 2: An empirically improved memory-efficient short-read de novo assembler" [J]. Giga Science, 1(1): 18-24.
MACISZEWSKI K, FELLS A, KARNKOWSKA A, et al., 2022. Challenging the importance of plastid genome structure conservation: New insights from Euglenophytes" [J]. Molecular Biology and Evolution, 39(12): msac255.
MARK WC, MICHAEL FF, 2009. Barcoding of plants and fungi" [J]. Science, 325(5941): 682-683.
MCCOY SR, KUEHL JV, BOORE JL, et al., 2008.The complete plastid genome sequence of Welwitschia mirabilis: An unusually compact plastome with accelerated divergence rates" [J]. BMC Evolutionary Biology, 8(1): 130.
MCNEAL JR, KUEHL JV, BOORE JL, et al., 2007. Complete plastid genome sequences suggest strong selection for retention of photosynthetic genes in the parasitic plant genus Cuscuta" [J]. BMC Plant Biology, 7(1): 57.
MILLEN SR, OLMSTEAD GR, ADAMS LK, et al., 2001. Many parallel losses of infA from chloroplast DNA during angiosperm evolution with multiple indepen dent transfers to the nucleus" [J]. The Plant Cell, 13(3): 645-658.
MO ZQ, FU CN, ZHU MS, et al., 2022. Resolution, conflict and rate shifts: Insights from a densely sampled plastome phylogeny for Rhododendron (Ericaceae) [J]. Annals of Botany, 130(5): 687-701.
MOLINA J, HAZZOURI KM, NICKRENT D, et al., 2014.Possible loss of the chloroplast genome in the parasitic flowering plant Rafflesia lagascae (Rafflesiaceae)" [J]. Molecular Biology and Evolution, 31(4): 793-803.
MOWER JP, MA PF, GREWE F, et al., 2019. Lycophyte plastid genomics: Extreme variation in GC, gene and intron content and multiple inversions between a direct and inverted orientation of the rRNA repeat" [J]. The New Phytologist, 222(2): 1061-1075.
MOWER JP, VICKREY TL, 2018. Structural diversity among plastid genomes" of land plants" [J]. Advances in Botanical Research, 85: 263-292.
PALMER JD, 1983. Chloroplast DNA exists in two orientations" [J]. Nature, 301(5895): 92-93.
PARK S, RUHLMAN TA, WENG ML, et al., 2017. Contrasting patterns of nucleotide substitution rates provide insight into dynamic evolution of plastid and mitochondrial genomes of Geranium" [J]. Genome Biology and Evolution, 9(6): 1766-1780.
PING JY, HAO J, LI JY, et al., 2022. Loss of the IR region in conifer plastomes: Changes in the selection pressure and substitution rate of protein-coding genes" [J]. Ecology and" Evolution, 12(1): e8499.
POUCHON C, BOYER F, ROQUET C, et al., 2022.ORTHOSKIM: In silico sequence capture from genomic and transcriptomic libraries for phylogenomic and barcoding applications" [J]. Molecular Ecology Resources, 22(5): 2018-2037.
PPG, 2016. A community-derived classification for extant lycophytes and ferns" [J]. Journal of Systematics and Evolution, 54(6): 563-603.
QIAN H, ZHANG J, ZHAO JC, 2022. How many known vascular plant species are there in the world? An integration of multiple global plant databases" [J]. Biodiversity Science, 30(7): 22254." [錢宏, 張健, 趙靜超, 2022. 世界上已知維管植物有多少種? 基于多個全球植物數據庫的整合" [J]. 生物多樣性, 30(7): 22254.]
QIU YL, LI LB, WANG B, et al., 2006. The deepest divergences in land plants inferred from phylogenomic evidence" [J]. Proceedings of the" National Academy of" Science of USA, 103(42): 15511-15516.
ROBERT JK, ZHENGQIU C, RAUBESON AL, et al., 2007. Analysis of 81 genes from 64 plastid genomes resolves relationships in angiosperms and identifies genome-scale evolutionary patterns" [J]. Proceedings of the" National Academy of" Science of USA, 104(49): 19369-19374.
ROUSSEAU-GUEUTIN M, HUANG X, HIGGINSON E, et al., 2013. Potential functional replacement of the plastidic acetyl-CoA Carboxylase subunit (accD) gene by recent transfers to the nucleus in some angiosperm lineages" [J]. Plant Physiology, 161(4): 1918-1929.
RUHLMAN TA, JANSEN RK, 2014. The plastid genomes of flowering plants" [M]. Berlin: Springer: 3-38.
RUHLMAN TA, JANSEN RK, 2018. Aberration or analogy? The atypical plastomes of Geraniaceae [J]. Advances in" Botanical Research, 85: 223-262.
SARKER S, SUTHERLAND M, 2022. Molecular characteri-sation of a novel pathogenic avipoxvirus from an Australian little crow (Corvus bennetti) directly from the clinical sample" [J]. Scientific Reports, 12(1): 15053.
SHINOZAKI K, OHME M, TANAKA M, et al., 1986. The complete nucleotide sequence of the tobacco chloroplast genome: Its gene organization and expression" [J]. The EMBO Journal, 5(9): 2043-2049.
SINN BT, SEDMAK DD, KELLY LM, et al., 2018. Total duplication of the small single copy region in the angiosperm plastome: Rearrangement and inverted repeat instability in Asarum" [J]. American Journal of" Botany, 105(1): 71-84.
SOLTIS DE, KUZOFF RK, 1995. Discordance between nuclear and chloroplast phylogenies in the Heuchera group (Saxifragaceae)" [J]. Evolution, 49(4): 727-742.
SOORNI A, HAAK D, ZAITLIN D, et al., 2017. Organelle_PBA, a pipeline for assembling chloroplast and mitochondrial genomes from PacBio DNA sequencing data" [J]. BMC Genomics, 18(1): 49.
STRAUB SCK, CRONN RC, EDWARDS C, et al., 2013. Horizontal transfer of DNA from the mitochondrial to the plastid genome and its subsequent evolution in milk weeds (Apocynaceae)" [J]. Genome Biology and Evolution, 5(10): 1872-1885.
STRAUB SCK, PARKS M, WEITEMIER K, et al., 2012. Navigating the tip of the genomic iceberg: Next-generation sequencing for plant systematics" [J]. American Journal of" Botany, 99(2): 349-364.
SUDIANTO E, CHAW SM, 2019. Two independent plastid accD transfers to the nuclear genome of Gnetum and other insights on Acetyl-CoA carboxylase evolution in gymnosperms "[J]. Genome Biology and Evolution, 11(6): 1691-1705.
TABARLET P, GIELLY L, PAUTOU G, et al., 1991. Universal primers for amplification of three non-coding regions of chloroplast DNA" [J]. Plant Molecular Biology, 17: 1105-1109.
TWYFORD DA, NESS WR, 2017. Strategies for complete plastid genome sequencing" [J]. Molecular Ecology Resources, 17(5): 858-868.
WANG YH, 2017. Plastid phylogenomics of Fabaceae [D]. Kunming: Yunnan University: 20-75." [王銀環, 2017. 豆科的葉綠體系統發育基因組學 [D]. 昆明: 云南大學: 20-75.]
WANG ZX, WANG DJ, YI TS, 2022. Does IR-loss promote plastome structural variation and sequence evolution?" [J]. Frontiers Plant Science, 13: 888049.
WENG ML, RUHLMAN TA, JANSEN RK, 2017. Expansion of inverted repeat does not decrease substitution rates in Pelargonium plastid genomes" [J]. The New Phytologist, 214(2): 842-851.
WENG ML, BLAZIER JC, GOVINDU M, et al., 2014.Reconstruction of the ancestral plastid genome in Geraniaceae reveals a correlation between genome rearrangements, repeats, and nucleotide substitution rates" [J]. Molecular Biology and Evolution, 31(3): 645-659.
WESTWOOD JH, YODER JI, TIMKO MP, et al., 2010. The evolution of parasitism in plants" [J]. Trends in Plant Science, 15(4): 227-235.
WHITFELD PR, 1945. A method for the determination of nucleotide sequence in polyribonucleotides" [J]. The Biochemical Journal, 58(3): 390-396.
WICKE S, MULLER KF, DEPAMPHILIS CW, et al., 2016. Mechanistic model of evolutionary rate variation en route to a nonphotosynthetic lifestyle in plants" [J]. Proceedings of the" National Academy of" Science of the United States of America, 113(32): 9045-9050.
WICKE S, NAUMANN J, 2018. Molecular evolution of plastid genomes in parasitic flowering plants" [J]. Advances in" Botanical Research, 85: 315-347.
WICKE S, SCHNEEWEISS GM, DEPAMPHILIS CW, et al., 2011. The evolution of the plastid chromosome in land plants: Gene content, gene order, gene function" [J]. Plant Molecular Biology, 76(3/4/5): 273-297.
WU CS, WANG YN, HSU CY, et al., 2011. Loss of different inverted repeat copies from the chloroplast genomes of Pinaceae and Cupressophytes and influence of heterotachy on the evaluation of gymnosperm phylogeny" [J]. Genome Biology and Evolution, 3: 1284-1295.
WU L, WU ML, CUI N, et al., 2021. Plant super-barcode: A case study on genome-based identification for closely related species of Fritillaria" [J]. Chinese Medicine, 16(1): 52.
XI ZX, RUHFEL BR, SCHAEFER H, et al., 2012. Phylogenomics and a posteriori data partitioning resolve the Cretaceous angiosperm radiation Malpighiales [J]. Proceedings of the" National Academy of" Science of the United States of America, 109(43): 17309-17310.
XIANG QP, TANG JY, YU JG, et al., 2022. The evolution of extremely diverged plastomes in Selaginellaceae (lycophyte) is driven by repeat patterns and the underlying DNA maintenance machinery" [J]. The Plant Journal, 111(3): 768-784.
YANG J, PARK S, GIL HY, et al., 2021. Characterization and dynamics of intracellular gene transfer in plastid genomes of Viola (Violaceae) and order Malpighiales" [J]. Frontiers in" Plant Science, 12: 678580.
YU WB, HUANG PH, LI DZ, et al., 2013.Incongruence between nuclear and chloroplast DNA phylogenies in Pedicularis section Cyathophora (Orobanchaceae)" [J]. PLoS ONE, 8(9): e74828.
ZENG CX, HOLLINGSWORTH PM, YANG J, et al., 2018. Genome skimming herbarium specimens for DNA barcoding and phylogenomics" [J]. Plant Methods, 14: 43.
ZHANG J, RUHLMAN TA, SABIR JSM, et al., 2016.Coevolution between nuclear-encoded DNA replication, recombination, and repair genes and plastid genome complexity" [J]. Genome Biology and Evolution, 8(3): 622-634.
ZHANG L, HUANG YW, HUANG JL, et al., 2023.DNA barcoding of Cymbidium by genome skimming: Call for next-generation nuclear barcodes" [J]. Molecular Ecology Resources, 23(2): 424-439.
ZHANG Q, SODMERGEN, 2010. Why does biparental plastid inheritance revive in angiosperms" [J]. Journal of Plant Research, 123(2): 201-206.
ZHANG YJ, LI DZ, 2011.Advances in phylogenomics based on complete chloroplast genomes" [J]. Plant Diversity and Resources, 33(4): 365-375." [張韻潔,李德銖, 2011. 葉綠體系統發育基因組學的研究進展" [J]. 植物分類與資源學報, 33(4): 365-375.]
ZHOU XM, ZHAO J, YANG JJ, et al., 2022.Plastome structure, evolution, and phylogeny of Selaginella" [J]. Molecucal Phylogenetics and Evolution, 169: 107410.
ZHU AD, GUO WH, GUPTA S, et al., 2016. Evolutionary dynamics of the plastid inverted repeat: The effects of expansion, contraction, and loss on substitution rates" [J]. The New Phytologist, 209(4): 1747-1756.
ZHU S, LIU QZ, QIU SM, et al., 2022. DNA barcoding: An efficient technology to authenticate plant species of traditional Chinese medicine and recent advances" [J]. Chinese Medicine, 17(1): 112.
ZHOU W, ARMIJOS CE, LEE C, et al., 2023. Plastid genome assembly using long-read data [J]. Molecular Ecology Resources, 23: 1442-1457.
ZOU XH, GE S, 2008. Conflicting gene trees and phylogenomics" [J]. Journal of Systematics and Evolution, 46(6): 795-807." [鄒新慧, 葛頌, 2008. 基因樹沖突與系統發育基因組學研究" [J]. 植物分類學報, 46(6): 795-807.]
(責任編輯 蔣巧媛 王登惠)
基金項目:" 國家自然科學基金(31870196, 32371700); 云南省興滇人才專項(202405AS350019); 中國科學院西部青年人才項目; 云南省基礎研究專項重大項目(202101BC070003); 海南省重點研發計劃項目(ZDYF2023RDY201)。
第一作者: 陳麗瓊(1996—),碩士,研究方向為細胞器基因組演化,(E-mail)chenliqiong@xtbg.ac.cn。
*通信作者:" 郁文彬,博士,研究員,研究方向為植物系統與演化,(E-mail)yuwenbin@xtbg.ac.cn。