劉 潮,李 敏,任怡園,錢柏霖,韓利紅
(曲靖師范學院生物資源與食品工程學院/云南省高校特色果酒技術創新與應用工程研究中心,云南 曲靖 655011)
【研究意義】人參屬(PanaxL.)屬傘形目五加科(Araliaceae)多年生草本植物,起源于喜馬拉雅山區[1],主要分布于東亞和北美的高海拔山區,該屬幾乎所有物種均具有重要的藥用價值,特別根莖被廣泛用作草藥[2]。葉綠體是綠色植物體重要的細胞器,植物物種和個體之間的葉綠體基因組變異,對于植物群體遺傳學研究和物種鑒定均具有重要價值。葉綠體基因組研究可為人參屬物種鑒定、起源、進化、遺傳多樣性分析和資源保護與利用提供基礎。【前人研究進展】人參屬包含14個物種,其中人參(P.ginseng)、西洋參(P.quinquefolius)、三七(P.notoginseng)、竹節參(P.japonicus)和越南參(P.vietnamensis)為中國、美國、日本和越南等地貴細類藥材,用于治療和預防多種疾病,具有很大國際市場[3]。人參、屏邊三七(P.stipuleanatus)和姜狀三七(P.zingiberensis)均已入選中國珍稀瀕危植物名錄,其中人參屬植物具有相似的形態特征,但在活性成分和藥理作用上存在明顯差異[4-5]。人參富含100余種人參皂苷類活性成分,是我國中草藥材中著名的植物類藥材,有助于緩解疲勞、促進康復和預防潛在疾病[5],其富含的人參皂苷Ra2、Rg1、Ra1以及丙二酰人參皂苷Ra3等,可通過作用于哺乳動物雷帕霉素靶蛋白(mTOR)、胞內磷脂酰肌醇激酶(PI3K)和其他靶點來調節前列腺特異性抗原(PSA)、核糖體 S6激酶(S6K)、MDM2(Murine double minute 2)和P53基因的 mRNA表達,從而抑制乳腺癌的增殖[4]。西洋參產自美國和加拿大南部,主要用于治療氣虛性貧血、咳嗽和哮喘[6]。三七主要分布在中國云南省,含有皂苷和三七素等止血活性成分,常用于調節和治療心血管系統、神經系統和免疫系統等方面疾病[7]。葉綠體基因組編碼多個參與光合作用等重要代謝反應的關鍵蛋白,由一對反向重復區(Inverted repeats,IRs)分別將大單拷貝區(Large single copy,LSC)和小單拷貝區(Small single copy,SSC)分開,從而構成典型的四分體結構[2,8-11]。大部分被子植物葉綠體基因組包含120~130個基因,其中包括編碼光合作用相關的蛋白編碼基因、核糖體RNA基因和轉運RNA基因[8,11]。隨著高通量測序技術的快速發展,大量植物葉綠體基因組序列已完成測序,葉綠體基因組被廣泛用于物種鑒定和系統發育分析[8,11-12]。【本研究切入點】目前,多個人參屬物種葉綠體基因組序列已被公布[13-14],鑒于人參屬物種重要的開發和利用前景,應用葉綠體基因組的遺傳分析,對于人參屬物種鑒定、資源保護和開發利用均具有重要的理論和實踐意義。【擬解決的關鍵問題】本研究基于已公布的葉綠體基因組數據,利用生物信息學方法,對人參屬物種葉綠體基因組結構、重復序列、核苷酸變異位點、基因進化以及系統發育進行分析。人參屬物種親緣關系和遺傳多樣性分析,將為我國人參屬資源的品種改良和開發利用提供理論依據。
從美國國家生物技術信息中心GenBank數據庫(https://www.ncbi.nlm.nih.gov/)檢索并下載14種人參屬植物葉綠體基因組序列信息(表1)。

表1 人參屬物種葉綠體基因組特征Table 1 Chloroplast genomes of Panax species
1.2.1 重復序列分析 通過REPuter軟件[15]分析長重復序列,參數設置為最小重復長度30 bp,最大堿基錯配數3。通過MISA軟件[16]檢測簡單重復序列(Simple sequence repeat,SSR)數目及位置分布,最小重復數設為單核苷酸10,二核苷酸5,三核苷酸4,四核苷酸、五核苷酸和六核苷酸均為3。
1.2.2 基因組結構分析 使用IRscope軟件[17]對人參屬物種葉綠體基因組LSC、SSC和IRs邊界的收縮與擴張進行可視化。通過mVISTA軟件[18],以人參葉綠體基因組序列(MK408938)為參照,選用Shuffle-LAGAN全局比對模式,對人參屬物種葉綠體基因組序列同源性進行可視化比對。
1.2.3 核苷酸多樣性分析 使用MAFFT軟件[19]對葉綠體基因組序列進行比對,使用DnaSP軟件[20]計算葉綠體基因組序列核苷酸多態性(Pi),參數設置為搜索窗口長度600 bp,步長200 bp,使用R程序繪圖。
1.2.4 基因進化分析 使用MAFFT軟件對各物種葉綠體蛋白編碼基因進行比對,使用PAMLX[21]的CODEML算法采用位點模型法對正選擇位點進行檢測,并評價人參屬物種葉綠體蛋白編碼基因的進化情況。
1.2.5 系統發育分析 利用14種人參屬植物葉綠體基因組序列,以五加科物種楤木(Aralia elata)和波緣楤木(A.undulata)為外類群,使用IQ-TREE 2軟件[22]基于最大似然法(Maximum likelihood,ML)構建系統發育樹,建樹模型為TVM+F+R6,步長值為1 000。
14種人參屬植物葉綠體基因組均為雙鏈環形結構,由LSC、SSC、IRa和IRb等4部分構成,基因組總長度為155 984 bp(越南參變種P.vietnamensisvar.langbianensis)~156 402 bp(珠子參P.major),屬內葉綠體基因組長度差異小于500 bp,總GC含量為38.04%~38.08%,LSC、SSC和 IR長度分別為86 077 ~86 322 bp、17 934 ~18 150 bp 和 25 887 ~26 103 bp,GC含量分別為36.26%~36.31%、32.07%~32.27%和42.98%~43.10%(表1)。所有基因組均包含114個unique基因,其中有80個蛋白編碼基因,4個rRNA和30個tRNA。21個基因屬于雙拷貝基因,包括8個蛋白編碼基因(ndhB、rpl2、rpl23、rps7、rps12、ycf1、ycf2和ycf15),4個 rRNA基因(rrn4.5、rrn5、rrn16和rrn23), 7個 tRNA基因(trnA-UGC、trnI-CAU、trnI-GAU、trnL-CAA、trnN-GUU、trnR-ACG和trnV-GAC)。3個基因(rps12、clpP和ycf3)包含2個內含子,15個基因包含1個內 含 子 (atpF、ndhA、ndhB、petB、petD、rpl2、rpl16、rpoC1、rps16、trnA-UGC、trnG-UCC、trnIGAU、trnK-UUU、trnL-UAA和trnV-UAC)。
利用REPuter軟件對14種人參屬植物葉綠體基因組序列4種長重復序列進行分析,共檢測到長度為30~100 bp的重復序列625條(圖1)。4種重復類型中,回文重復數目最多,平均含有24條,其次為正向重復,平均20條,各物種中反向重復和互補重復數較少,除了野三七(P.vietnamensisvar.fuscidiscus)中含有4條反向重復和2條互補重復外,其他物種僅含有0~1條反向重復,且均不含互補重復序列(圖1-A)。根據重復序列長度分析顯示,各物種中30~39 bp長度的序列最多,平均占56%,其次為40~49 bp序列,平均占23%,60~69 bp序列占15%,而50~59 bp和大于70 bp的序列占比均為3%(圖1-B)。重復序列數目最多的是疙瘩七(P.japonicusvar.bipinnatifidus)102條,最少的為屏邊三七(P.stipuleanatus)27條,其他物種的重復序列數目為31~56條。
從14種人參屬植物葉綠體基因組中共檢測到574個SSR位點,各物種中分布數目為37~45個,單核苷酸重復數目最多,平均占49%,四核苷酸重復占21%,二核苷酸占15%,三核苷酸占7%,五核苷酸占6%,六核苷酸僅占2%(圖2-A)。單核苷酸重復類型主要為A/T,占單堿基重復的83%;二核苷酸重復均為AT/AT型;三核苷酸重復有AAT/ATT、AAG/CTT和AGC/CTG等3種類型,其中AAT/ATT占60%;5種四核苷酸重復中,AAAG/CTTT型占42%,AAAT/ATTT型占 36%,ACCT/AGGT型占28%,AATT/AATT型占14%,而AAAC/GTTT型僅占1%;五核苷酸重復主要為AATCT/AGATT型,占76%,部分物種中未檢測到六核苷酸重復(圖2-B)。人參屬種間SSR數目差異相對較小,竹節參葉綠體基因組中SSR數目最多(45個),三七和疙瘩七的SSR最少(均為37個)。
使用IRscope軟件對人參屬物種葉綠體基因組LSC/IRs/SSC邊界收縮與擴張進行比較(圖3)。14種植物IR區長度最大差異為216 bp,表明IR區存在一定程度的擴張或收縮。所有物種LSC/IRb邊界均跨越基因rps19,IRb區延伸到rps19的長度為46~51 bp;IRb/SSC邊界存在較大差異,7個物種IRb/SSC邊界跨越基因ycf1,ycf1編碼區延伸到SSC長度為1~3 bp,6個物種 IRb/SSC邊界跨越基因ndhF,IRb區延伸到ndhF長度為8~12 bp;所有物種SSC/IRa邊界均位于基因ycf1編碼區內,IRa區延伸到ycf1的長度為1 476~1 649 bp;全部物種IRa/LSC邊界均跨越基因trnH,IRa的延伸長度為4~7 bp。
以人參葉綠體基因組(MK408938)為參照,使用mVISTA軟件比較人參屬物種葉綠體基因組序列,發現14種人參屬植物葉綠體基因組序列一致性較高,非編碼區序列變異高于編碼區,LSC區和SSC區序列變異高于IR區。相比于人參屬其他物種,屏邊三七和三葉參序列變異相對較高,人參屬葉綠體基因組基因數目和順序一致,未發現基因重排現象(圖4)。
使用DnaSP軟件對14種人參屬植物葉綠體基因組序列核苷酸多態性(Pi)進行分析(圖5),比對序列總長度為158 911 bp,共檢測到多態性位點2 889個,核苷酸多樣性值范圍為0~0.030,平均值為 0.004,LSC、SSC和 IR區Pi平均值分別為0.005、0.008和0.001,顯示LSC區和SSC區高度可變,IR區相對保守。鑒定的12個高度可變熱點(Hotspot)中,7個位于LSC區(trnH-psbA、rps16-trnQ、psbI-trnS、trnE-trnT、clpP、psbH-petB和rpl16-rps3),5個位于 SSC區(ndhF-rpl32、rpl32-trnL、ndhD-psaC、rps4-trnT和ycf1),IR區未檢測到核苷酸多態性位點,表明單拷貝區核苷酸多態性明顯高于IR區。
為了解人參屬葉綠體蛋白編碼基因在進化過程中是否受到選擇作用,利用PAML軟件對基因dN/dS比率和正選擇位點進行分析(圖6、表2)。結果發現,clpP、ycf1和ycf2的dN/dS比率均大于1,表明這些基因受到正選擇作用。而cemA、matK和rpl2的dN/dS比率雖然小于1,但均大于0.92,表明這些基因進化過程中主要受純化選擇作用,同時也受到一定的選擇作用影響。根據經驗貝葉斯分析,共有8個蛋白編碼基因正選擇位點達顯著水平(P> 95%), 分 別 為cemA、clpP、matK、ndhF、rbcL、rpoA、ycf1和ycf2,顯著性正選擇位點數分別為 1、1、1、8、3、2、10和 4(表2)。三葉參rpoA基因在803和804位插入兩個堿基A造成移碼突變,隨后出現終止密碼子TAG,導致蛋白翻譯提前終止。

表2 基于位點模型的人參屬葉綠體蛋白編碼基因正選擇分析Table 2 Potential positive selection test on chloroplast genomes of Panax species based on site model
基于葉綠素基因組數據,使用IQ-TREE軟件構建了人參屬物種系統發育樹(圖7)。結果顯示,屏邊三七和三葉參位于人參屬系統發育樹的基部,人參和西洋參構成支持率為100%的單一支系。三七單獨構成一支。越南參及其兩個變種與峨眉三七和姜狀三七構成一支,與由珠子參、假人參、竹節參和疙瘩七構成的單支形成姊妹類群。
人參屬植物是一類生長緩慢的多年生草本植物,根莖中富含人參皂苷等生物活性物質,被廣泛用于預防和治療多種疾病[5]。目前,多個人參屬物種葉綠體基因組已完成測序[2,13-14]。通過葉綠體基因組分析,可深入探討人參屬物種的系統發育與進化特征,為該屬種質資源保護、分子育種和品種改良奠定基礎。本研究從NCBI數據庫下載人參屬物種葉綠體基因組數據,對基因組基因構成、序列重復、結構變異、基因進化及物種系統發育關系進行分析,發現14種人參屬植物葉綠體基因組高度保守,物種間葉綠體基因組大小差異500 bp以內,編碼的基因種類、數目和排序一致,顯示基因組結構高度保守。
物種間的重復序列差異是進化過程中自然選擇和環境適應性的結果,重復序列數量與物種的進化水平直接相關[23]。長重復序列廣泛存在于植物葉綠體基因組中,其通過保護編碼區維持了基因組的穩定性,在基因表達和調控中發揮重要作用,由于具有高度多態性,長重復序列成為群體遺傳學研究的理想工具[24]。人參屬物種葉綠體基因組中平均包含24條回文重復和20條正向重復,而反向重復和互補重復較少,30~39 bp長度的重復序列占50%以上,這與其他物種類似[25]。人參屬重復序列數目高于木姜子屬(Litsea)[8],低于辣椒屬(Capsicum)[10]、懸鉤子屬(Rubus)[11]、姜屬(Zingiber)[26]和冬青屬(Ilex)[27]。與人參屬其他物種(除越南參變種基因組較小外)相比,屏邊三七和三葉參均含有較少的重復序列,這在一定程度上反映物種進化水平,與二者屬于基部類群的結果一致。簡單序列重復具有豐富的多態性、高度重復性和可靠性等優點,特別是在種內水平上表現出相對較高的突變率,在群體遺傳關系和系統發育研究中經常被用作遺傳分子標記[28],被廣泛用于藥用植物群體遺傳學研究[10-11]。人參屬物種葉綠體基因組中含有37~44個SSR位點,其中大多數為A/T重復,單核苷酸重復是最豐富的重復序列,與其他物種研究類似[8,10,29-30],這與植物葉綠體基因組A、T含量較高有關。人參屬物種SSR數目高于懸鉤子屬[11]和松屬(Pinus)[24],低于姜屬[26]和草果(Amomum tsao-ko)[31]。本研究中發現的長重復序列以及SSR將有助于開發人參屬物種的遺傳多態性分子標記,為群體遺傳學研究提供材料。
IR區邊界的收縮和擴張是葉綠體基因組結構變異的重要原因[32]。人參屬葉綠體基因組IR區與單拷貝區邊界高度保守[13],4個邊界分別跨越rps19、ycf1-ndhF、ycf1和trnH,但不同物種 IR/SSC邊界的差異也較為顯著,IR/SSC邊界的變化可能是導致人參屬葉綠體間大小差異的原因,這與五加科其他物種類似[33]。葉綠體基因組共線性分析顯示,物種演化過程中人參屬葉綠體基因組未發生基因重排,IR區序列一致性高于單拷貝區,這與前人研究結果一致[3,11,34]。通過比較14種人參屬植物葉綠體基因組,檢測到12個高度可變熱點,7個位于LSC區(trnH-psbA、rps16-trnQ、psbI-trnS、trnE-trnT、clpP、psbH-petB和rpl16-rps3),5個位于 SSC區(ndhF-rpl32、rpl32-trnL、ndhD-psaC、rps4-trnT和ycf1),IR區未檢測到高變位點,表明單拷貝區核苷酸多態性明顯高于IR區,且多態性位點多為基因間隔區[35-36]。鑒定的12個高變區可與SSR等其他標記一起用于群體遺傳學和系統地理學研究[11,30]。
植物在進化過程中,往往受到環境等多種因素的影響,而基因的正選擇分析可為植物適應性進化提供理論依據。當dN/dS>1,認為基因主要受正選擇作用;dN/dS=1,認為主要受中性選擇作用;dN/dS<1,則認為主要受純化選擇作用[37]。研究發現,人參屬葉綠體功能未知基因clpP、ycf1和ycf2受正選擇作用。目前,clpP、ycf1和ycf2編碼蛋白功能仍不明確,但其基因在多個物種中均受正選擇作用[25-26,31]。與本研究結果不同,Liu等[13]對8個人參屬物種分析后,未檢測到正選擇位點,這可能與物種數目、檢測軟件和計算方法有關。本研究使用14種人參屬植物的基因序列,采取通用的CODEML算法,能得到更準確的結果。在光合作用相關基因ndhF和rbcL中檢測到多個正選擇位點,可能與人參屬物種不同緯度生長環境的光照條件有關。以上分析表明,這些正選擇基因或位點在人參屬植物與環境互作過程中受到了選擇作用,可能與物種的生態適應性有關。
基于完整葉綠體基因組序列的人參屬系統發育分析顯示,屏邊三七和三葉參位于基部分支,這與前人研究結果一致[2,14,38]。與本研究不同,岳杰[14]認為珠子參與越南參和姜狀三七關系更為緊密,這可能與建樹時選擇的基因組序列不同有關,NCBI數據庫中有3條珠子參葉綠體基因組序列,本研究選擇了聚類關系較近的兩條序列中的一條(MN496312)。本研究結果中的物種系統演化拓撲結構與前人研究類似,人參和西洋參在進化過程中經歷了兩次全基因組復制事件,促進了人參屬物種的多樣化[6,39]。人參和西洋參四倍化后于2.59百萬年前從二倍體物種中分化出來,主要分布在東北亞和北美,由于地理隔離和生態環境適應性進化,與其他二倍體物種進一步分開,于0.77百萬年前分離成單種[6]。
人參屬植物葉綠體基因組長度為155 984 ~156 402 bp,均包含114個unique基因,其中80個蛋白編碼基因,4個rRNA和30個tRNA。基因組序列中含有較多的回文重復和正向重復。SSR主要由A/T堿基構成,以單核苷酸重復為主。人參屬植物葉綠體基因組序列一致性較高,非編碼區序列變異高于編碼區,IR區存在一定程度的擴張和收縮。12個高度可變熱點中,7個位于LSC區,5個位于SSC區。未知功能基因clpP、ycf1和ycf2受正選擇作用。屏邊三七和三葉參為人參屬的原始類群,而三七、竹節參和越南參則親緣關系較近,構成了人參屬的較新分化類群。