姜濤,劉靈娣,田偉,劉銘,溫春秀
(河北省農林科學院經濟作物研究所,河北 石家莊 050051)
荊芥(Nepeta cataria)屬唇形科裂葉荊芥屬一年生藥用植物,具有祛風解表、宣毒透疹、散瘀止血功能,用于治療感冒,頭痛,麻疹,風疹和疼痛,也可用于消炎、止血等[1]。荊芥在全國大部分地區均有種植,主要分布在河北、江蘇、江西、湖北、浙江、湖南和東北三省等地,市場上流通的荊芥品種主要是河北安國產的北荊芥,以及部分生長在江蘇、浙江、江西、湖北和湖南等省份的南荊芥[2]。目前,荊芥分子育種工作還非常薄弱,其種質資源遺傳多樣性分析、生物合成代謝通路、分子標記開發、基因功能分析等方面的研究報道較少[3]。
基因組學的研究已經能為植物基因定位、基因編輯、植物進化和遺傳育種提供精準的信息,目前對基因組大小的評估主要有流式細胞分析儀測定法和基因組測序法。流式細胞分析儀測定法(Flow Cytometry,FCM)是20 世紀70 年代發展起來的一種利用流式細胞儀對DNA 含量進行測定的一種技術,具有方法簡單、快速敏捷、準確性高等優點,已成為測定基因組大小的主要方法之一[4]。隨著測序技術的發展,測序成本已大幅下降,使全基因組測序成為可能。全基因組調查(Genome Survey,GS)是利用測序技術的小片段文庫的低深度測序,通過K-mer分析,快速獲得物種的基因組大小、雜合度和重復序列等相關信息[5]。Midin 等[6]基于流式細胞術和K-mer 分析測定了山竹染色體數目和基因組大小,結果顯示山竹染色體數目在74~110 之間,基因組大小大概為5.92 Gb。馬鵬舉等[7]利用流式細胞術和K-mer 分析了油料植物好好芭的基因組大小,為好好芭基因組學的研究提供了參考。梅啟明等[8]基于流式細胞術和K-mer 測定了兩種車前屬植物(車前和大車前)的基因組大小,結果顯示車前的基因組是大車前基因組的3 倍。
染色體是遺傳物質的載體,來源于不同地區的荊芥染色體核型分析顯示,荊芥含有12 條染色體,共有4 種核型,為荊芥的種質鑒定和親緣關系分析提供了細胞學研究[9]。而荊芥的分子生物學、基因組學研究才剛剛起步,通過對荊芥DNA 含量的測定,評估出荊芥基因組大小,是開展荊芥基因組學研究的基礎,對推動荊芥的生物進化、分子遺傳學和遺傳育種的研究具有重要意義。本研究前期對安國荊芥進行了核型分析,結果顯示安國荊芥染色體數為2n=12,與前人研究結果一致。為了進一步了解荊芥基因組大小,本研究基于流式細胞儀和全基因組測序技術的K-mer 分析對荊芥基因組大小進行了評估,為荊芥的基因組學研究提供了參考依據。
試驗材料為河北省安國市荊芥主要栽培種質資源,2022 年9 月,在河北省安國市荊芥種植基地里采集荊芥植株,經河北省中醫學院專家鑒定為荊芥屬植物。
1.2.1 流式細胞分析
1.2.1.1 細胞懸浮液的制備及染色 將新鮮荊芥葉片置于0.8mL預冷的MGb解離液(45mmol/LMgCl26H2O,20 mmol/L MOPS,30 mmol/L 檸檬酸鈉,1% PVP 40,0.2%Tritonx-100,10 mmol/L Na2EDTA,20L/mL -巰基乙醇,pH 7.5)中,用鋒利的刀片將組織迅速垂直切碎,使其在解離液中靜置冰育10 min,然后用400 目濾網過濾,即得到細胞核懸浮液。在細胞核懸液中添加適當體積預冷的的碘化丙啶(Propidiumiodide,PI)和RNAase溶液,置于冰上避光染色0.5~1 h。PI 染液和RNAase溶液的工作濃度均為50g/mL。
1.2.1.2 流式細胞儀檢測和基因組大小計算 以玉米和番茄為內參,其基因組大小分別為2.3 Gb和900 Mb,采用內標法測定荊芥細胞核懸浮液和內參樣品的細胞核懸浮液。利用BD FACScalibur 流式細胞儀對染色后的細胞核懸浮液樣品上機檢測,采用488 nm 藍光激發,檢測PI 的發射光熒光強度,每次檢測收集10 000個顆粒。變異系數CV%控制在5%以內,使用Modifit 3.0 分析軟件作圖分析。
待測樣品基因組大小=內參基因組大小×待測樣品的熒光強度/內參樣品的熒光強度
1.2.2 荊芥基因組Survey分析
1.2.2.1 荊芥DNA 提取 使用TransGen Biotech 植物基因組DNA 提取試劑盒(EE111-01)提取荊芥的基因組DNA,用TUOHE超微量分光光度計(Tnano-800F)檢測DNA 濃度和純度,檢測合格的DNA 進行小片段文庫建庫測序。
1.2.2.2 荊芥基因組測序 利用北京諾禾致源科技股份有限公司的Illumina HiSeq 測序平臺進行荊芥基因組測序,文庫構建:超聲波震蕩將合格的基因組DNA破碎至片段為350 bp,然后經過末端修復、加A、加接頭、目標片段選擇和PCR 等步驟構建小片段測序文庫;文庫質檢:利用Qseq400 和Qubit 檢測文庫片段大小和文庫定量,確定文庫是否符合測序標準;芯片固定:通過橋式PCR 將文庫固定到測序芯片上;上機測序:利用Illumina 測序儀對文庫進行雙端150 bp(PE 150)測序。雙端測序數據通過GC 分布統計、質量值Q20、Q30 評估,過濾后得到高質量的數據(Clean reads),用于基因組大小、GC 含量的統計評估。
1.2.2.3 基因組大小評估 根據荊芥基因組測序數據,利用K-mer 分析方法對荊芥進行基因組大小、重復序列比率和雜合率的評估。K-mer 是從測序數據中提取出的長度為k 的寡聚核苷酸序列,在測序reads均勻分布的前提下,根據基因組計算公式:基因組長度=總堿基數/平均測序深度=總K-mer 數/平均K-mer深度,使用軟件jellyfish 2.1.4 對荊芥2 個350 bp 文庫數據構建K=17 的K-mer 分布圖,標準的K-mer 深度分布曲線呈正態分布,根據實際曲線偏離正態分布的程度,可以估計基因組雜合度和重復序列比例。
利用流式細胞儀對荊芥和內參(玉米和番茄)的細胞核懸浮液進行檢測,分別測定荊芥、玉米和番茄的基因組大小,見圖1。根據荊芥與玉米、番茄的熒光強度比值即可計算出荊芥的基因組大小。如表1 所示,利用流式細胞儀評估出荊芥基因組平均大小為0.76 Gb。

表1 荊芥基因組流式細胞術檢測結果Table 1 Results of genomic flow cytometry for Nepeta cataria

圖1 玉米(A)、番茄(B)和荊芥(C)的細胞流式檢測圖Fig.1 Flow cytometry of maize(A),tomato(B)and Nepeta cataria (C)
按照Illumina 公司提供的標準protocol 進行荊芥基因組DNA 文庫制備和測序實驗,經過測序并過濾得到高質量的數據(表2)。荊芥測序獲得54.39 Gb數據,GC含量約38.77%,Q20 比例達到96.27%,Q30比例達到90.34%。

表2 荊芥基因組測序數據Table 2 Sequencing data of Nepeta cataria genome
對荊芥的基因組進行K-mer17 分析,荊芥的K-mer數分別為36 005 709 512 個(表3);K-mer 分布圖顯示荊芥的K-mer 深度主峰在39 左右(圖2),通過公式計算獲得荊芥的基因組大小為0.903 Gb。在荊芥的K-mer 深度主峰后1.8 倍處出現雜峰,說明二者存在雜合情況和基因組重復序列,通過計算雜合位點的比例和雜峰與主峰的百分比獲得荊芥的雜合率約為0.32%,重復序列約為66.93%。

圖2 荊芥基因組K-mer17 分布圖Fig.2 K-mer 17 distribution of the genomes of Nepeta cataria
利用Soapdenovo 軟件進行荊芥reads 數據拼接,獲得contigs 序列,根據reads 之間的連接關系和插入片段大小信息,采用K-mer=41將contigs組裝成scaffolds序列(表4),獲得contig 總長為792 215 707 bp,contig N50 為960 bp,scaffold總長為813 473 842 bp,scaffold N50 為1 650 bp。

表4 荊芥基因組組裝結果Table 4 The assembly results of Nepeta cataria genome
荊芥是中國傳統的藥用植物,是河北省大宗道地藥材,安國八大祁藥之一[10]。近年其藥用價值的充分發掘,價格不斷攀升。隨著荊芥市場需求急劇增加,荊芥產業進入了一個快速發展時期。而荊芥育種相對滯后,市場急需優良的荊芥品種來改善現有荊芥種質混雜,類型眾多,產量和品質參差不齊等現狀[10]。傳統的育種方法周期長、隨機性大,難以滿足現階段市場對荊芥的巨大需求。隨著分子生物學和測序技術的發展,分子育種可以加快荊芥育種進程,提高育種效率、降低育種成本,從而解決傳統育種的瓶頸問題[12]。目前,對于荊芥的分子生物學研究十分有限,基因資源也較缺乏,荊芥全基因組測序將為其分子生物學的研究提供基礎。由于荊芥剛由野生轉為人工栽培,遺傳背景復雜,基因組大小未知等因素,需要開展荊芥全基因組大小評估與測序。
測定植物的基因組大小不僅對于物種本身的細胞遺傳學等具有重要意義,而且也為植物的基因組測序、基因組文庫建立以及基因組學及其進化研究提供了不可或缺的基礎資料[13]。到目前為止,已建立的基因組DNA-C 值數據庫將近6 000 種植物,包括藻類、苔蘚類、裸子植物和被子植物[14]。目前常用的基因組檢測手段有多種方法,其中流式細胞分析術最為普及,具有檢測速度快、準確性好等優點[15]。流式細胞術是利用流式細胞儀對處在快速直線流動狀態中的單細胞分析技術,是綜合了計算機技術、激光技術、細胞化學等學科的一種自動分析技術[16]。然而,流式細胞儀測定基因組大小過程中,因測定方法和實驗材料差異,經常會造成測定結果的差異[17]。因此,在前人工作的基礎上,本研究綜合考慮樣品制備、染色、內參植物的選擇,最大限度的避免誤差,提高流式細胞術的精準性。利用流式細胞儀對荊芥基因組大小進行鑒定,選擇玉米和番茄作為內參植物,測試結果顯示荊芥基因組大小為0.76Gb。
隨著高通量測序技術的發展,通過測序結合K-mer分析方法對測序片段的K-mer 分布進行統計,可以準確評估基因組大小[18]。通過測序技術除了能夠獲得物種的基因組大小,還能獲得基因組的GC 含量、基因組雜合率和重復序列等信息[19]。伍艷芳等[20]利用高通量測序技術首次測定了樟樹基因組大小為760 Mb,并用生物信息學分析了樟樹的基因組雜合率較高。鐘永達等[21]對鵝掌楸開展了基因組大小測定,評估出鵝掌楸基因組大小為1.57 Gb,屬于高重復、高雜合基因組。周少華等[22]對藥用植物青藤進行了全基因組調查,基于Illumina 測序平臺,結合生物信息學方法獲得了青藤基因組的大小、雜合率和重復序列等特征。
本研究對荊芥進行了前期調研,發現荊芥遺傳多樣性復雜,不同來源的荊芥種質,其株高、葉片大小、抗性都表現出差異性。為了更好的開展荊芥的分子育種工作,本研究基于流式細胞術,利用全基因組調查對荊芥基因組進行了評估,利用K-mer 17 分析顯示荊芥基因組大小為0.903 Gb,雜合率約為0.32%,重復序列約為66.93%。由于荊芥基因組重復率較高,本研究進一步采用K-mer41 進行荊芥基因組的組裝,獲得荊芥contig總長為792 215 707 bp,contig N50 為960 bp,scaffold總長為813 473 842 bp,scaffold N50 為1 650 bp。結合流式細胞術和全基因組調查結果,本研究分析評估荊芥基因組大小在0.7~0.9 Gb 左右,序列重復比例偏高,屬于高重復序列的基因組。本研究對荊芥基因組進行了初步的探索,為下一步開展荊芥分子生物學研究和基因組測序提供了參考依據。