肖厚紅 劉倩文 郭帥 覃仕揚 徐帆 曹剛 徐江 胡灝禹 陳士林
麻黃為麻黃科植物草麻黃Ephedra sinicaStapf、中麻黃E.intermediaSchrenk ex C.A.Mey.或木賊麻黃E.equisetinaBge.的干燥草質莖[1],是中國傳統中藥材,有發汗解表、宣肺平喘、利水消腫的功效,其發汗作用強被歷代醫家稱為“發汗第一要藥”,始載于東漢時期《神農本草經》列為中品,具有悠久的藥用歷史[2]。除了藥用價值外,麻黃還用到膳食、保健品中,具有減肥和增強能量的作用[3];麻黃雌株種子成熟時的紅色肉質苞片具有開發食品潛力[4];麻黃屬植物還具有防風固沙保護生態環境的價值[5],也能作為一種優良牧草。九十年代以來,由于棲息地的破壞加上人為不受控制掠奪式的開采,麻黃野生資源急劇萎縮,在有關部門出臺的政策推動和鼓勵下[6],麻黃種植技術逐漸成熟,市場流通麻黃來源已逐漸由野生采集轉變為人工種植。如今,麻黃藥材摻偽、基原混雜問題日益突顯。一方面,麻黃類生物堿是發揮藥理作用的主要活性成分[7]為全球醫藥界所公認,但是不同基原的麻黃生物堿含量有明顯差異[8],生物堿含量最高的是木賊麻黃E.equisetina,其次是草麻黃E.sinica和中麻黃E.intermedia[9],其功效和質量也有顯著差異。另一方面,還存在多種非正品麻黃作為藥用的現象[10],無法形成標準統一的藥材市場,這些無疑對麻黃種植加工、工業生產和用藥安全造成了嚴重的影響和隱患。
麻黃在全球大約有50種[11],中國境內現有12種,4變種[12]。雖然麻黃屬植物包含了幾十種,但所能觀察到的形態特征差異并不明顯,如果在沒有繁殖器官的情況下,傳統鑒別方法很難鑒定到種[13]。此外,麻黃屬有超83%的物種是多倍體或具有多倍體細胞型[14],而且麻黃多倍體幾乎都是由異源多倍體形成,這更加豐富了麻黃群體內遺傳的多樣性和復雜性。目前,麻黃栽培品已經成為麻黃藥材的主要來源[15],由于其基原植物的多倍體細胞型和種間性狀的不完全分離,存在許多雜合子特征[13],這導致了麻黃在種植過程中后代會出現性狀分離鑒別不清的問題,造成藥材品種混亂,從而影響了藥材的質量,想要篩選優質遺傳穩定的麻黃資源,進行大規模栽培非常困難。毫無疑問,準確鑒定不同麻黃品種,篩選穩定的遺傳種質資源對中藥麻黃育種和種質資源保護具有極其重要的意義,傳統鑒定技術在不斷發展,其主要原理是化學分析,例如薄層色譜和高效液相色譜[16]、超高效液相色譜結合實時飛行質譜[17]、近紅外光譜和高光譜成像技術[18],為中藥鑒定作出了重要的貢獻,但面對近緣物種的鑒定還存在分辨率低,難以鑒別的尷尬處境,分子生物學鑒定在此展現出獨到的一面。
DNA條形碼是一種用于物種識別的強大分子工具,它使用生物體內一個或多個保守的標準DNA序列作為分子標記來鑒定物種[19],在中藥材鑒定方面取得顯著的成效,但對于多基原的中藥種質資源涉及較少。麻黃具有復雜的遺傳多樣性以及基原混雜的問題存在[20],準確鑒別麻黃基原種還存在一定的挑戰性。隨著生物科學前沿技術不斷地發展和創新,中醫藥研究已經進入“本草基因組學”時代[21]。近年來,測序技術的進步促進了本草植物基因組數據的快速增長,高通量測序(high-throughput sequencing)又名下一代測序(next generation sequencing,NGS)成本的大幅降低,加上更長的測序讀取和更深的測序深度[22],為鑒定多基原中藥材提供了新的指導方針和方法。Liu等[23]提出高通量全長多重DNA條形碼,主要包括PCR擴增,ITS擴增子測序和數據分析,成功鑒定區別了一種多基原植物藥材。這得于rDNA基因內部拷貝序列具有可變性,這些重復的DNA序列會發生變化,得到新的堿基序列,尤其在短的內部轉錄間隔區較為明顯,ITS數據已被廣泛應用于植物系統發育分析中。高通量測序技術可以通過測定DNA條形碼片段在個體內不同拷貝之間的多態性位點堿基比例,分析體現個體遺傳特征,進而比較研究個體—群體—物種的遺傳背景差異。本文基于高通量測序,結合Sanger測序,對麻黃3個基原種的ITS2和psbA-trnH序列進行分析,探索麻黃特征位點的變異情況,并判斷麻黃樣本的內部雜合度,以期為鑒別麻黃藥材基原和種質混雜問題提供解決方法。
采集麻黃基原植物樣本12份,包括:草麻黃4份,其中1份來自北京中國醫學科學院藥用植物研究所,3份來自內蒙古;木賊麻黃4份,其中1份來自北京中國醫學科學院藥用植物研究所,1份來自新疆烏魯木齊市,2份來自內蒙古清水河縣;中麻黃4份,其中1份來自北京中國醫學科學院藥用植物研究所,3份來自青海民和縣(表1)。所有材料均由中國中醫科學院中藥研究所胡灝禹博士鑒定為麻黃科植物草麻黃E.sinica、中麻黃E.intermedia和木賊麻黃E.equisetina的草質莖,以中國植物志(FRPS)分類學系統為參考依據。

表1 十二份麻黃樣本信息
將麻黃樣品草質莖用液氮研磨成粉末,使用植物基因組DNA試劑盒(天根生物科技有限公司,北京,中國)提取總DNA,用Qubite3檢測DNA濃度。PCR擴增采用25 μL體系,其中包括12.5 μL PCR MasterMix(Aidlab生物技術有限公司,北京,中國)、8.5μL ddH2O、正反引物各1 μL(2.5μM,中國生工公司合成),2 μL DNA模板。用于擴增每個條形碼區域的PCR引物和條件如表2所示。PCR產物均通過瓊脂糖凝膠電泳檢測,呈現單一亮度較好的條帶。這些質檢合格的PCR產物交中國北京睿博生物科技有限公司進行Sanger測序。使用Codoncode Aligner V5.1.5(CodonCode Co,USA)軟件用于校準和拼接測序結果,并去除低質量序列和引物區域。使用MEGA 6.0軟件進行Clustal W對齊和構建NJ(1000x)系統發育樹以確定其生物來源。

表2 條形碼區域的PCR引物和條件
根據高通量DNA條形碼方法(圖1)所示進行擴增、測序和分析。所有DNA樣本用作ITS2的PCR擴增模板。使用不同的標記引物對每個擴增子進行擴增,并在常規引物的5′端連接幾個保護堿基和標記堿基。ITS2擴增子使用Illumina Novaseq進行測序,測序服務由中國北京博奧匯玖生物科技有限公司提供。

圖1 高通量DNA條形碼方法流程圖
所有測序結果均經過質量控制,用Burrows-Wheeler比對器最小精確匹配法(BWA-MEM)(V0.7.17)對12份麻黃樣品的ITS2的擴增子序列進行比對。比對過程結束后,對測序結果進行統計分析。通過對每個分子標記的堿基比例進行統計分析,來判斷雜合度。
麻黃為裸子植物門蓋子植物綱麻黃目麻黃科麻黃屬多年生草本狀小灌木植物,沒有真正的花被,4至8對膜質或肉質苞片包裹著胚珠,形成雌球花的結構[24]。比較來看(圖2),中麻黃的莖段相對較粗和長,葉3裂,顏色灰白,具有顯著的差異,容易分辨。草麻黃和木賊麻黃葉片的裂數都是2裂,木賊麻黃葉片顏色棕色,草麻黃葉片顏色灰白,差異不明顯。雖然存在一些差異,如莖的粗細長短,橫切面形狀,但三者在面對龐大數量級混合的情況下,特別是在大量重要分類學特征缺失的藥材和飲片中,依據形態特征難以鑒別。

圖2 三種基原麻黃草質莖
草麻黃表面細槽紋不明顯,節間長2.5~5.5厘米,直徑約為2毫米;葉2裂,裂片銳三角形,先端急尖,莖橫切面形成層類圓形。中麻黃草質莖粗壯,縱槽紋較細淺,直徑1~2毫米,節間長3~6厘米;葉3裂,裂片鈍三角形或窄三角披針形,莖橫切面形成層類三角形。木賊麻黃小枝細,縱槽紋細淺不明顯,直徑約1毫米,節間長1~3.5厘米;葉2裂,裂片短三角形,先端鈍,莖橫切面形成層類圓形。結果見表3。

表3 三種基原麻黃的形狀特征
Sanger雙端測序12個樣本共獲得24條序列,得到ITS2序列平均長度為495bp,通過ITS2數據庫(The ITS2 Database uni-wuerzburg.de)除去低質量序列以及引物區,獲得麻黃ITS2序列長度為251 bp。使用MEGA分析結果顯示,有7處變異位點,分別在87,172和245位點為A-G變異,221位點為C-T變異,223和248位點為G-A變異,233位點為G-T變異;可以分為兩種基因型I2-i(87A-172A-221T-223G-233G-245A-248G)和I2-ii(87G-172G-221C-223A-233T-245G-248A),其中前者為草麻黃和中麻黃的基因型,后者為木賊麻黃的基因型。另外,通過從Genebank下載登錄號為MF096959的序列,經過比對剪切后得到psbA-trnH序列長度為403 bp,堿基序列比對后發現存在一處堿基片段的插入和缺失,長度為12 bp,在9~20 bp(CAGGAAATCCAA)這段堿基序列,草麻黃和中麻黃都缺失了這段堿基序列,木賊麻黃插入了這段堿基序列,但通過構建NJ系統發育樹(圖3b)發現三種麻黃都處于一個分支上,說明堿基片段的插入和缺失不能鑒別3種基原麻黃。對應ITS2序列的變異位點,筆者發現峰圖文件中存在嵌套峰(圖3c),其中新疆木賊麻黃存在不同的嵌套峰,中麻黃和草麻黃沒有發現嵌套峰,通過高通量測序統計堿基比證實了221處位點的嵌套峰是存在的。此外,基于ITS2序列的NJ系統發育樹分析顯示(圖3a),木賊麻黃不與其他兩種麻黃聚在一支,自己形成一個單獨的分支。結果表明,ITS2序列的變異位點可以鑒定區分木賊麻黃,但不能區分草麻黃和中麻黃;而psbA-trnH序列分析發現,存在一段堿基序列的插入和缺失,但不能作為變異位點進行鑒別。
測序結果使用flash2和seqkit軟件進行序列的拼接和分析,所有序列質量都符合標準(表4)測序結果,證實了嵌套峰的實際存在。結果也顯示,除了Sanger測序得到的基因型外,還有其它不同的基因型。如圖4所示,木賊麻黃和其它兩種麻黃的主導單倍型不同,并且種內單倍型具有顯著的差異,

表4 十二個樣本ITS2 序列結果統計

圖4 十二個樣本ITS2 中不同基因型的頻率
這一結果反映出木賊麻黃存在內部雜合性。草麻黃和中麻黃主導單倍型相同,同時說明了兩者在分子層面的相似性,這也從正面反映了ITS2序列區別不了二者的一個因素。 此外,在所有分子標記中BJES 樣品的非主導基因型的百分比和頻次都顯示最低,表明在12 份麻黃樣品中,其雜合性最低。 筆者發現并統計了12 個樣本中出現的嵌套峰(圖5a),為了驗證Sanger 測序Chromas文件中ITS2 序列出現的嵌套峰是否準確,對ITS2的擴增子進行高通量測序。 使用ITSx 和BWA 軟件,進行序列剪切和比對,獲得12 個麻黃樣本的ITS2 序列平均長度為249 bp。 堿基分布的統計分析結果表明,BJES 在 ITS2 序列136 位點有嵌套峰,堿基比為 C ∶T=76 ∶24;BJEE 在 19、20 和 22位點有嵌套峰,堿基比為 C ∶T=60 ∶40,C ∶T=60 ∶40,A ∶G=51 ∶49;XJEE 在 22、158、179 和221 位點有嵌套峰,堿基比為 A ∶G=46 ∶53,C ∶T=53 ∶47,A ∶G=47 ∶53,C ∶T=51 ∶49;QSHEE在 19、20 和 22 位點有嵌套峰,堿基比為 C ∶T=84 ∶16,C ∶T=84 ∶16,A ∶G=59 ∶41。 麻黃樣品中存在SNP,根據堿基存在的比例分為主要堿基和次要堿基(圖5b),在后者的結果中的SNP 次級堿基占較大比例時,前者峰圖文件中會呈現嵌套峰,當SNP 次級堿基所占比例較小時,則觀察到單峰。XJEE 在221 位點是其中一個變異位點,同時存在嵌套峰,以T 堿基為優勢堿基,C 堿基為次要堿基,其它木賊麻黃均以C 堿基為優勢堿基。 BJES在136 位點有嵌套峰,但其他草麻黃第136 處位點并沒有出現嵌套峰,排除了特異性。 另外在BJEE、XJEE 和QSHEE 三個地方的木賊麻黃發現不是變異位點的22 位點都有嵌套峰,次級堿基占比均大于20%,具有明顯的特異性,這表明可以作為木賊麻黃鑒別新的特征性位點。

圖5 麻黃嵌套峰統計及堿基比例統計矩陣餅圖
DNA 條形碼最早由加拿大動物學家赫伯特提出,并在國內外學者的積極探索和補充下逐步完善[25-27]。 生命條形碼聯合會結合先前研究的數據分析結果建議將葉綠體基因rbcL、matK、psbA-trnH和核基因 ITS 作為陸地植物的標準 DNA 條形碼[28]。 作為一種經濟高效、標準化的快速物種鑒定方法,DNA 條形碼已廣泛應用于幾乎所有類型的生物體,廣泛促進了現代中藥鑒定的發展[29-30]。 全球藥典基因組數據庫中中藥品種條碼識別的成功建立和廣泛應用( http:/ /www.gpgenome.com:8080)[31-32],可以快速方便地進行物種鑒定,成功地補充了傳統鑒定方法如基原鑒定、性狀鑒定、顯微鑒定、理化鑒定,為中藥材的物種鑒定帶來了新的機遇[33]。
麻黃是中國非常重要的中藥材及麻黃素的提取原料,其需求量一直在不斷的增加,越來越需要人工栽培以滿足臨床用藥的需求[34]。 麻黃人工栽培經歷了十幾年的發展,其形態特征相較于野生種有可能發生了變化,傳統鑒定難以準確把握。 因此,對于準確鑒定麻黃基原物種尤為重要,分子生物學技術在此方面發揮了獨有的優勢。 DNA 條形碼技術的原理歸根結底在于DNA 序列的差異,DNA測序也就是核酸DNA 分子一級結構的測定,是分子鑒定一項必不可少的過程[35]。 基于高通量測序,結合Sanger 測序對麻黃樣品進行測序和分析,可以補充麻黃種質資源的DNA 條形碼應用。 此外,該方法可以評價麻黃的內部雜合度,篩選可靠的種質資源。 Sanger 測序得到的序列結果顯示,ITS2 序列作為植物類藥材鑒定的核心序列,可以鑒定區別木賊麻黃,但還不能鑒別草麻黃和中麻黃,這與龐曉慧等[36]所得的結果大致相同,對此筆者通過高通量測序得到的數據統計出二者主導單倍型相同,可能是導致草麻黃和中麻黃不能區分的進一步原因,并對麻黃的psbA-trnH 序列進行測序,作為植物葉綠體特有的序列,出現了堿基序列的缺失和插入,草麻黃和中麻黃二者相對于木賊麻黃插入了一段堿基序列,是否能體現麻黃種內和種間系統發育關系,現在還不得而知。
筆者認為Sanger 測序會掩蓋多態性位點,如果多態性位點比例相對較低,則后者不能區分較低峰圖的變異,并將其視為噪聲干擾。 只有當SNP 堿基變異的比例相對較高時,它才能不被忽略并以套峰的形式顯示出來。 假設堿基的SNP 變異較低,在這種情況下,一代測序結果不能區分一個低峰值的變化,并且不能判斷出它是否是由噪聲干擾而導致。只有堿基的峰度較高,在電泳中形成較強的熒光信號,才會以嵌套峰的形式表現出來[37-38]。 基于高通量技術,結合Sanger 測序,保障了序列結果的相對準確性,進一步驗證了嵌套峰的真實存在,而不是其它干擾因素所致,同時得到了套峰具體的堿基比例,并且發現在同一個不是變異位點的三個不同地方的木賊麻黃都出現了嵌套峰并證實存在。 另外,筆者對麻黃種質的雜合度進行了考察和評價,想要獲得穩定代際遺傳的麻黃種質資源,應確保群體的低雜合度,并確認群體中單個植株的低變異性。 從高通量數據分析的得到的結果來看,來自北京中國醫學科學院藥用植物研究所的麻黃顯示出低雜合度和巨大的育種潛力,無論是在單倍型統計還是基礎SNP 位點。 盡管如此,仍然需要進一步鑒定和研究更多的個體樣本,以確定麻黃中分子標記的多態性。 在一定程度上,該方法也為多個樣品的異質性鑒定和篩選具有相似雜合拷貝變異或種間雜交的中藥種質資源提供了參考。
本文基于高通量測序結合Sanger 測序,發現并證實了木賊麻黃ITS2 序列中221 變異位點存在嵌套峰,推測木賊麻黃可能是其它麻黃物種在長期的環境變化中演化而來,另外發現木賊麻黃ITS2 序列第22 位點的嵌套峰具有特異性,可作為鑒別木賊麻黃新的特征性位點。 最后,對麻黃SNP 內的拷貝變異特征進行了挖掘,這對篩選具有相似雜合子拷貝變異的中藥種質資源具有重要意義。 DNA 條形碼結合高通量技術,不僅可以應用于中藥材摻偽和混雜的鑒別,還可以應用于中藥材種質資源篩選,進而從源頭上保證了種植品種的準確性,對促進中藥材種質資源標準化具有重要意義。