李江瑩 陸添權 楊俊波 田波







摘 要:? 印度血桐與中平樹是大戟科血桐屬植物,該屬植物具有多種藥用價值,被廣泛應用于民間醫學中許多疾病的治療,這兩種植物種子中含有的神經酸也引起了研究者的高度關注。為確定適合印度血桐與中平樹的全基因組測序研究策略,該研究采用二代高通量測序技術,結合生物信息學的方法首次測定了印度血桐與中平樹的基因組大小、雜合率、重復率等基因組信息并初步分析了兩種材料的SSR序列特征。結果表明:(1)印度血桐與中平樹的基因組大小分別為986.84和946.23 M。(2)印度血桐與中平樹的雜合率分別為0.75%和0.65%,重復序列比例分別為73.02%和71.5%。(3)通過對2種材料基因組序列的SSR特征分析,在印度血桐中共鑒定了4 499 185個SSR,在中平樹中共鑒定了4 969 098個SSR。該研究結果為印度血桐與中平樹SSR分子標記的篩選、開發以及全基因組深度測序提供了理論指導。
關鍵詞: 印度血桐, 中平樹, 神經酸, 基因組調查, SSR
中圖分類號:? Q943
文獻標識碼:? A
文章編號:? 1000-3142(2021)11-1897-08
Genome survey and analysis of SSR molecular markers on Macaranga indica and M. denticulata
LI Jiangying1,3, LU Tianquan1, YANG Junbo2, TIAN Bo1*
( 1. Key Laboratory of Tropical Plant Resource and Sustainable Use, Xishuangbanna Tropical Botanical Garden, Chinese Academy of Sciences, Kunming 650223, China; 2. Germplasm Bank of Wild Species, Kunming Institute of Botany, Chinese Academy of Sciences, Kunming 650204, China; 3. University of Chinese Academy of Sciences, Beijing 101408, China )
Abstract:? Macaranga indica and M. denticulata belong to the genus Macaranga Thou.(Euphorbiaceae family). Plants of this genus are widely used in treatments of many diseases in Chinese folk medicine. The nervonic acid contained in the seeds of these two plants has also attracted great attention of researchers. In order to determine the strategy of the whole genome of M. indica and M. denticulata. In the present study, we first determined the genome sizes, heterozygosities, and repetitive rates of M. indica and M. denticulata through the second generation sequencing technology and bioinformatics methods, and the SSR sequence characteristics of M. indica and M. denticulata were preliminarily analyzed. The results were as follows: (1) The genome sizes of M. indica and M. denticulata were 986.84 and 946.23 M, respectively; (2) Heterozygosities and repetitive rates were 0.75% and 73.02% respectively in M. indica, and 0.65% and 71.5% in M. denticulata; (3) In addition, 4 499 185 and 4 969 098 genomic simple sequence repeat (SSR) markers in M. indica and M. denticulata were generated respectively. The results provide theoretical guidance for deep whole-genome sequencing of the two species and the screening and development of SSR molecular markers of M. indica and M. denticulata.
Key words: Macaranga indica, Macaranga denticulata, nervonic acid, genome survey, simple sequence repeat (SSR)
印度血桐(Macaranga indica)與中平樹(M. denticulata)屬于大戟科鐵莧菜族血桐屬(Macaranga Thou.)植物,二者均為葉盾狀著生的高大喬木,廣泛分布于我國西南地區的山谷、次生林或常綠闊葉林中。《中華本草》中記錄了中平樹的主要藥用部位根與樹皮具有退黃、清熱利濕等功效,可用于治療胃脘疼痛、黃疸型肝炎(黃建猷等,2015)。已有相關研究報道了從印度血桐中分離出了鞣花酸,異戊烯化黃酮等多種化合物,這些化合物具有如抗氧化作用、抗炎作用等多種生物活性,可發展為一種新的工業萃取源(Yang et al., 2015)。通過對印度血桐與中平樹種子中所含脂肪酸的成分測定,我們發現印度血桐與中平樹的種子脂肪酸組成成分中,都含有超長鏈單不飽和脂肪酸——神經酸,這一實驗結果驗證了王性炎等(2006)在多份植物樣品中發現盾葉木 [注: 新版《中國植物志》已修訂盾葉木(Macaranga adenantha)與印度血桐(Macaranga indica)為同一個種]是自然界已發現的植物中種子油脂中神經酸含量較高的木本植物,是目前已發現物種中較為理想的開發神經酸產品的植物資源。神經酸是大腦纖維和神經細胞的核心天然成分,與腦部神經的生物合成密切相關,具有多種重要的生物學功能,如促進大腦發育、改善記憶、延緩大腦衰老(Li et al., 2019),攝入神經酸能預防和治療老年癡呆癥、腦中風后遺癥、腦萎縮、腦癱、健忘失眠及記憶力減退等腦神經系統疾病(田德雨等,2015)。基于以上原因,神經酸的開發與應用引起了國內外專家的高度關注。因此,為滿足人們對神經酸的需求,利用富含神經酸的植物開發神經酸產品已成為獲取神經酸的主要途徑。
目前,對印度血桐與中平樹的研究主要集中在常見藥用部位化學成分的藥理活性及種子脂肪酸成分方面,而關于印度血桐與中平樹基因組信息的研究未見報道,這給高效利用印度血桐與中平樹野生資源選育植物新品種帶來了極大不便,由于印度血桐與中平樹均為木本植物,基因組大小尚不明確,各種因素使得血桐屬植物的分子生物學研究進展緩慢,因此在對兩種材料進行全基因組深度測序之前,需要先對兩種材料進行低覆蓋度的基因組調查,以了解材料基因組的組成特征和模式(Li et al., 2019)。深入分析DNA中的遺傳信息是一項浩大的工程,其首要任務就是突破技術上的重難點(Albach et al., 2007)。植物全基因組的研究進程的迅速發展得益于新一代測序技術日益進步(施季森等,2012)。隨著測序技術的逐漸成熟及測序價格的降低,基因組測序已被廣泛應用到各種具有科研價值、經濟價值、觀賞價值的物種中。物種的基因組測序有助于我們了解各種生物體中生命現象的調控機制以及物種的群體進化、生長發育等生物學問題。目前,可對物種進行基因組大小測定的方法有流式細胞術、Feulgen分光光度法、脈沖場凝膠電泳法以及在技術不斷進步革新的條件下快速發展的高通量測序技術(伍艷芳等,2014)。在大戟科植物中,麻風樹、蓖麻、木薯、橡膠樹等(Chan et al., 2010; Shusei et al., 2011; Simon et al., 2012; Zou & Yang, 2019)植物的基因組信息已有報道,這些已測物種的基因組可為我們研究大戟科血桐屬植物的基因組信息提供參考。
本研究采用Illumina二代高通量測序技術,首次對印度血桐與中平樹進行了基因組調查,并利用生物信息學方法估計了兩種材料的重復率、雜合率及基于基因組調研的SSR (simple sequence repeat)特征分析,旨在為印度血桐與中平樹的全基因組的測序和組裝方案的制定和該屬植物的進一步研究和開發利用提供依據為血桐屬植物的遺傳改良提供支持,也為進一步運用SSR分子標記在對兩種材料的種質資源保護和遺傳多樣性等方面的研究提供一定參考。
1 材料與方法
1.1 材料
本實驗材料印度血桐與中平樹均為正常開花結果的野生植株,于2019年7月采自西雙版納傣族自治州景洪市勐龍鎮勐宋村公路邊,帶回實驗室,液氮速凍后放置于-80 ℃超低溫冰箱保存,備用。
1.2 樣品基因組DNA的提取、檢測與測序
采用CTAB法提取印度血桐與中平樹葉片基因組DNA,紫外分光光度計檢測樣品濃度,瓊脂糖凝膠電泳檢測完整性;將提取的DNA樣品送至公司進行建庫測序,參考其他木本植物的基因組大小及大戟科植物的C值范圍,選取1 Gb左右的基因組大小來評估印度血桐與中平樹的基因組測序覆蓋度。
1.3 建庫信息及數據量統計
印度血桐與中平樹基因組采用二代測序技術,利用WGS (全基因組鳥槍法),分別構建插入片段為350 和500 bp的DNA文庫,再用Illumina HiseqTM2000平臺進行雙末端(Pair-End)測序,最終得到原始測序數據(raw reads),取全部原始數據對測序結果進行圖像識別,去污染,去接頭;統計結果包括測序read數量、數據產量、測序錯誤率、Q20、Q30、GC含量等。
1.4 基因組大小預測和雜合度估計
將本實驗通過測序得到的序列,基于K-mer的分析方法估計印度血桐與中平樹的基因組大小及雜合率,取K=17進行分析。K-mer分布圖用來判斷基因組的重復序列多少,如果材料的基因組重復比例較高,K-mer分布圖右側將會出現拖尾現象。mer深度分布服從泊松分布,根據曲線獲得K-mer 深度期望值,用于估計基因組大小(周媛等,2019)。另外,在K-mer的分布曲線中,一般會出現一個覆蓋度最高的主峰,若在主峰兩側出現另一個小峰,則說明該材料的基因組有較高的雜合度;反之,則沒有。
1.5 樣品污染判斷
在基因組研究中,樣品是否存在污染問題至關重要。若數據未被污染,可保證實驗樣品基因組序列的完整性,數據真實有效,結果可靠;若數據被污染,則無法獲得相關信息。對過濾后的高質量數據隨機抽取10 000條reads(read1和read2各5 000條)數據,通過BLAST軟件比對NCBI核苷酸數據庫(NT庫),若比對結果是同源比對,則認為樣本不存在外源污染;若比對結果出現親緣關系較遠的物種,說明樣品可能存在污染(閆婧,2018)。
1.6 SSR分析
采用微衛星識別工具(microsatellite identi-fication tool, MISA) (http://pgrc.Ipk-gatersleben.de/misa/)在所有序列中搜索SSR位點,搜索參數如下:mono-10、di-6、tri-5、Tetra-5、penta-5、hexa-6。其中,復合序列中兩個不同SSR之間允許的最大間隔設置為100 bp (張璟璇等,2019)。
2 結果與分析
2.1 材料的DNA提取
采用CTAB法提取印度血桐與中平樹幼嫩葉片的基因組DNA。電泳圖顯示提取的兩種材料基因組DNA質量良好(圖1)。其中,印度血桐的DNA濃度為15.42 ng·μL-1,中平樹的DNA濃度為10.46 ng·μL-1,可用于后續實驗分析。
2.2 測序數據產量統計
利用Illumina平臺對兩種材料進行高通量雙端測序,經過對原始測序數據的嚴格篩選,得到高質量的產出數據(clean data),以下統計是印度血桐與中平樹4個文庫的產出數據(表1)。統計結果包括測序數據數量、數據產量、錯誤率、Q20、Q30、GC含量等。過濾掉低質量的數據后,分別得到了53.56和68.07 Gb的印度血桐與中平樹的數據用于后續分析。兩種材料堿基質量正常,Q20與Q30都大于90%,測序錯誤率都為0.04%,印度血桐的GC含量為33.89%,中平樹的GC含量為33%,結果表明原始測序質量較好,能保證后續實驗分析的正常進行。
2.3 K-mer分析與基因組大小估測
采用基于K-mer的分析方法對印度血桐與中平樹的53.56和68.07 Gb的數據進行分析,得到印度血桐與中平樹的17-mer分布情況(圖2),橫坐標表示K-mer出現的總次數,縱坐標表示K-mer出現的頻率(唐其等,2015),兩種材料主峰之前都出現雜合峰,說明它們都有一定的雜合率。兩種材料的17-mer曲線均有嚴重拖尾,說明它們都有很高的重復序列比例。結合表2可知,印度血桐與中平樹的測序深度分別為40X和54X,印度血桐的K-mer總數為39 725 851 195,中平樹的K-mer總數為51 594 983 117,根據公式基因組大小(G)的估計算法:G=K-mun/K-depth,其中K-depth表示K-mer的期望測序深度,K-mun表示K-mer的總數(閆婧,2018),由此公式可得印度血桐的大小為993.15 M,修正后的基因組大小為986.84 M;中平樹的基因組大小為955.46 M,修正后的基因組大小為946.23 M;印度血桐與中平樹的雜合率分別為0.75%和0.65%,印度血桐與中平樹的重復率分別為73.02%和73.5%。由測序結果可知,印度血桐與中平樹都屬于高重復微雜合基因組。
2.4 樣品污染評估——核苷酸比對結果
分別從印度血桐與中平樹的350 和500 bp的序列文庫中隨機抽取10 000條過濾后的單端高質量reads (read1和read2各5 000條),與NT庫(NCBI核苷酸數據庫)進行BLAST比對,將比對結果比率最高的前六位物種展示出來(表3),比對結果顯示,在印度血桐與中平樹的兩個文庫中,比對結果比率最高的物種均為蓖麻,在印度血桐的350和500 bp文庫中,蓖麻分別占比對上NT庫的reads總數的1.61%和1.9%,而在中平樹的350和500 bp文庫中,蓖麻分別占比對上的NT庫的reads總數的1.78%和1.65%,根據分類學結果可知,蓖麻屬于大戟科植物,為印度血桐與中平樹的近緣物種。此外,比對結果的其他物種均為植物,未發現動物或微生物等異常物種的高比率情況,因此判斷樣品材料無污染,可用于后續基因組調研圖的正常分析。
2.5 印度血桐與中平樹基因組SSR分析
利用微衛星識別工具MISA在印度血桐與中平樹初步組裝的所有序列中進行SSR查找,搜索結果如表4所示,在印度血桐中共搜索到4 499 185個SSR,在所含有SSR的序列中,445 117條序列包含1個以上SSR,以復合形式存在的SSR數量有492 341個;在中平樹中共搜索到4 969 098個SSR,在所含有SSR的序列中,458 726條序列包含1個以上SSR,以復合形式存在的SSR序列有507 887條。分別對兩種材料的不同類型的SSR核苷酸數量進行統計,在印度血桐的SSR核苷酸數量中,單、雙、三、四、五和六核苷酸重復模體分別有2 800 292、1 199 707、432 509、48 890、10 498、7 289個,分別占印度血桐總重復模體的62.24%、26.66%、9.61%、1.09%、0.23%、0.16%;在中平樹的SSR核苷酸數量中,單、雙、三、四、五和六核苷酸核苷酸重復模體分別有3 037 613、1 321 752、522 801、63 973、11 254、11 705個,分別占中平樹總重復模體的61.13%、26.60%、10.52%、1.29%、0.23%、0.24%。然后,進一步對印度血桐與中平樹中每種SSR重復模體按照序列組成進行細分,分別展示出兩種材料中重復類型的部分數目(表5)。
3 討論與結論
基因組大小是比較和進化基因組學的基礎,基因組的雜合率和重復率是決定基因組組裝質量的關鍵,評估測序數據的雜合率與重復率,有助于找到合適的組裝策略(Bi et al., 2019)。對印度血桐與中平樹進行17-mer分析后發現,印度血桐與中平樹的預估基因組大小分別為987和946 M,由測定結果來看,印度血桐與中平樹的基因組大小相近,兩種材料的基因組大小均比大戟科植物木薯的基因組770 M(Simon et al., 2012)、蓖麻的基因組350 M(Shusei et al., 2011)、麻瘋樹的基因組410 M(Chan et al., 2010),比橡膠樹的基因組1.1 G(Zou & Yang, 2019)要稍小一些,這種現象可能是因為印度血桐與中平樹屬于大戟科血桐屬植物,而木薯、蓖麻、麻風樹與橡膠樹分別為大戟科其他屬植物,結果顯示屬內差異較小,而屬間差異較大,這可能是由于種系發育關系較遠、染色體數目不同或者自交親和現象的出現所導致(周佳熠等,2017)。基因組大小的測定對了解物種的生長發育、起源進化等問題具有重大意義。印度血桐與中平樹基因組大小測定的完成,為研究大戟科血桐屬植物基因組大小變化規律提供了一定的參考依據。
判斷測序數據的雜合度有利于尋找合適的基因組拼接方法,根據雜合度大小可將基因組進一步分為微雜合基因組(0.5%≤雜合率<0.8%)、高雜合基因組(雜合率≥0.8%) 以及高重復基因組(重復序列比例≥50%)(王雪等,2018)。測序結果顯示,印度血桐與中平樹的雜合率分別為0.75%和0.65%,重復率分別為73.03%和71.6%,兩種植物的基因組都有一定的雜合率以及較高的重復率,印度血桐與中平樹都屬于雌雄異株的植物,這可能是導致二者含有較高雜合率的原因之一, 因此,使用WGS策略對印度血桐與中平樹的基因組分析有一定的風險和難度,建議后續的研究采用二代測序(Illumina)和三代測序(PacBio)技術相結合的策略,對印度血桐與中平樹基因組進行測序和組裝,此外,利用Hi-C技術達到染色體水平的組裝,多種方法互補,以期獲得兩種材料的高質量全基因組圖譜。
SSR分子標記具有易操作、多態性高、成本低、數量豐富等優點。本研究基于印度血桐與中平樹基因組調查數據進行SSR分析發現,印度血桐中平均2 251 bp出現1個SSR,中平樹中平均2 348 bp出現1個SSR,含豐富的重復類型,結果顯示兩種材料的SSR分子標記具有顯著的堿基偏好性,其單核苷酸重復模體中A/T含量均高于C/G含量;兩種材料中雙核苷酸重復模體中含量最高均為AT/AT,含量最低為CG/CG,這可能是甲基化的C殘基變為T,使得兩種核苷酸重復的差異較大(周佳煜等,2017)。有研究認為基因組中低級重復單元較多則表示該物種進化水平較高,而高級重復單元比例高的物種其進化時間短或變異頻率低(于福來等,2019)。因此,在基因組調查測序的基礎上規模化開發與篩選SSR分子標記,為進一步運用SSR標記在物種遺傳圖譜的構建和遺傳多樣性分析以及QTL定位等方面的研究提供參考。
參考文獻:
ALBACH DC, LI HQ, ZHAO N, et al., 2007. Molecular systematics and phytochemistry of Rehmannia (Scrophularia
-ceae) [J]. Biochem Syst Ecol, 35(5): 293-300.
BI QX, ZHAO Y, CUI YF, et al., 2019. Genome survey sequencing and genetic background characterization of yellow horn based on next-generation sequencing [J]. Mol Biol Rep, 46(4): 4303-4312
CHAN AP, CRABTREE J, ZHAO Q, et al., 2010. Draft genome sequence of the oilseed species Ricinus communis [J]. Nat Biotechnol, 28(9): 951-956.
HUANG JY, LU WJ, TAN X, et al., 2015. Chemical constituents from Macaranga denticulata root [J]. Chin Med Mat, 38(8): 1671-1673.? [黃建猷, 盧文杰, 譚曉, 等, 2015. 中平樹根化學成分研究 [J]. 中藥材, 38(8): 1671-1673.]
LI GQ, SONG LX, JIN CQ, et al., 2019. Genome survey and SSR analysis of Apocynum venetum [J]. Biosci Rep, 39(6): BSR20190146.doi: https://doi.org/10.1042/BSR20190146.
LI Q, CHEN J, YU XZ, et al., 2019. A mini review of nervonic acid: Source, production, and biological functions [J]. Food Chem, 301: 125286. doi: https://doi-org-443.webvpn.las.ac.cn/10.1016/j.foodchem. 2019. 125286.
SHI JS, WANG ZJ, CHEN JH, 2012. Progress on whole genome sequencing in woody plants [J]. Hereditas, 34(2): 145-156.? [施季森, 王占軍, 陳金慧, 2012. 木本植物全基因組測序研究進展 [J]. 遺傳,? 34(2): 145-156.]
SHUSEI S, HIDEKI H, SACHIKO I, et al., 2011. Sequence analysis of the genome of an oil-bearing tree, Jatropha curcas L. [J]. DNA Res, 18(1): 65-76.
SIMON P, PRADEEP R, BRIAN D, et al., 2012. The cassava genome: current progress, future directions [J]. Trop Plant Biol, 5(1): 88-94.
TANG Q, MA XJ, MO CM, et al., 2015. Genome survey analysis in Siraitia grosvenorii [J]. Guihaia, 35(6): 786-791.? [唐其, 馬小軍, 莫長明, 等, 2015. 羅漢果全基因組Survey分析 [J]. 廣西植物, 35(6): 786-791.]
TIAN DY, WANG SA, WANG LH, et al., 2015. The biosynthesis and metabolic engineering of very long-chain monounsaturated fatty acid [J]. Biotechnol Bull, 31(12): 42-49.? [田德雨, 王士安, 王立昊, 等, 2015. 超長鏈單不飽和脂肪酸的生物合成和代謝工程 [J]. 生物技術通報, 31(12): 42-49.]
WANG XY, FAN JS, WANG SQ, 2006. Development situation and outlook of nervonic acid plants in China [J]. Chin Oils Fats, 3: 69-71.? [王性炎, 樊金栓, 王姝清, 2006. 中國含神經酸植物開發利用研究 [J]. 中國油脂, 3: 69-71.]
WANG X, ZHOU JY, SUN HG, et al., 2018. Genomic survey sequencing and estimation of genome size of Ammopiptanthus mongolicus [J]. J Plant Genet Resourc, 19(1): 143-149.? [王雪, 周佳熠, 孫會改, 等, 2018. 新疆沙冬青基因組調查測序與基因組大小預測 [J]. 植物遺傳資源學報, 19(1): 143-149.]
WU YF, XIAO FM, XU HN, et al., 2014. Genome survey in Cinnamomum camphora L. presl [J]. J Plant Genet Resourc, 15(1): 149-152.? [伍艷芳, 肖復明, 徐海寧, 等, 2014. 樟樹全基因組調查 [J]. 植物遺傳資源學報, 15 (1): 149-152.]
YAN J, 2018. Genome survey of Rehmannia chingii, a rare and medicinal herb in China [D]. Xi’an: Northwest University: 17-27. [閆婧, 2018. 珍稀植物天目地黃(Rehmannia chingii)的基因組調查研究[D]. 西安: 西北大學: 17-27.]
YANG DS, PENG WB, YANG YP, et al., 2015. Cytotoxic prenylated flavonoids from Macaranga indica [J]. Fitoterapia, 103: 187-191.
YU FL, HUANG M, ZHANG YB, et al., 2019, Genome survey and characteristic analysis of SSR in Callicarpa nudiflora [J]. Chin J Chin Mat Med, 44(18): 3974-3978.? [于福來, 黃梅, 張影波, 等, 2019. 裸花紫珠基因組調研及SSR特征分析 [J]. 中國中藥雜志, 44(18): 3974-3978.]
ZHANG JX, TU MW, XUE S, et al., 2019. Genome survey and analysis of ssr molecular markers on traditional Chinese medicine Nauclea officinalis [J]. Mol Plant Breed, 17(23): 7829-7833.? [張璟璇, 涂夢薇, 薛燊, 等, 2019. 南藥膽木的基因組調查及SSR分子標記分析 [J]. 分子植物育種, 17(23): 7829-7833. ]
ZHOU JY, WANG X, GAO F, et al., 2017. Genome survey and SSR analysis of Ammopiptanthus mongolicus [J]. Genom Appl Biol, 36(10): 4334-4338.? [周佳熠, 王雪, 高飛, 等, 2017. 蒙古沙冬青基因組調查及SSR分析 [J]. 基因組學與應用生物學, 36(10): 4334-4338.
ZHOU Y, ZI H, TONG J, et al., 2019. A genome survey of Rhododendron simsii and Rhododendron indicum [J]. Mol Plant Breed, 17(15): 4928-4935.? [周媛, 資宏, 童俊, 等, 2019. 杜鵑花屬映山紅與皋月杜鵑的基因組調查 [J]. 分子植物育種, 17(15): 4928-4935.]
ZOU Z, YANG JH, 2019. Genomic analysis of Dof transcription factors in Hevea brasiliensis, a rubber-producing tree [J]. Ind Crops Products, 134: 271-283.
(責任編輯 李 莉)