賀君星,馬慶國,裴 東,張俊佩
(林木遺傳育種國家重點實驗室,國家林業和草原局林木培育重點實驗室,中國林業科學研究院林業研究所,北京 100091)
核桃(Juglans regiaL.)是在全世界范圍內廣泛栽培利用的重要經濟樹種,中國是核桃的原產地之一。核桃種質資源極為豐富,在我國華北、西北、中南、華東、四川以及西藏東南等地區均有分布,種植歷史達3 000余年[1],截至2020年底,我國核桃種植面積達782.22 萬hm2,總產量479.59萬t,居世界首位[2]。核桃雌雄同株異形異花,育種周期長,多數品種親和力很強。20世紀60年代以來,我國的引種和雜交育種工作不斷推進,涌現了大量的自主知識產權品種,現有的國家審、認定良種17個,生產中使用較多的省審定良種和有效期內的認定良種約計239個,遍布全國各地[3],豐富的品種資源有力地支撐了我國核桃產業發展。
微衛星或簡單重復序列(SSR)標記以其數量豐富、多態性高、重復性好、對基因組覆蓋度廣、易于擴增以及共顯性等顯著特點,成為目前遺傳學研究和植物品種鑒定中使用最便捷、應用最廣泛的標記系統之一[4-6],國際植物新品種保護聯盟(UPOV)生化和分子生物技術工作組(BMT)也將其作為用于品種鑒定和分子身份證構建的最佳分子標記[7]。SSR通常是以1~6個核苷酸為重復單位的串聯重復序列,在基因組中廣泛分布。在微生物[8]、植物[9-10]、動物[11]和人類[12-13]等不同物種中都開展過全基因組范圍內的SSR引物開發工作。Woeste等[14]首次基于美國東部黑核桃基因組DNA開發了SSR標記,這些引物在后續核桃屬植物的遺傳研究中也得到了應用[15]。Zhang等[16]、Dang等[17]基于核桃EST序列各開發了41和39對ESTSSR引物。陳凌娜等[18]、Ikhsan等[19]和Eser等[20]基于細菌人工染色體(Bacterial artificial chromosome,BAC)序列分別開發了19、307和20對BES-SSR引物。據不完全統計,目前大約已開發出770對SSR引物,多數是從J. regia這個種開發的,為核桃的分子標記研究奠定了一定的基礎[20]。但是,由于核桃基因組的復雜性和越來越深入的研究工作對分子標記產生新的需求,這些引物已經不能滿足相關工作的需要,而可用于子代純度檢測等分子輔助育種研究的核桃單態性SSR位點則未見報道[21]。
隨著核桃基因組測序的開展和完善,本課題組已組裝完成并發表了一套染色體水平的高質量參考基因組[22],本研究基于該參考基因組序列分析其不同染色體上SSR位點的分布、重復單元數量及長度、稀有SSR堿基分布情況等特征,利用電子PCR技術分析SSR引物的多態性,并隨機選取部分單態性SSR引物進行PCR實驗驗證,旨在明確電子PCR方法在核桃SSR引物分析中的有效性,有助于核桃SSR引物的快速批量化開發,進而為核桃種質資源保護及開發利用、遺傳研究提供支撐。
選取6個核桃主栽品種用于PCR實驗驗證,其名稱和來源地等信息見表1,于生長季采其健康、無病蟲害、中等成熟度的葉片,低溫帶回實驗室,立即提取其基因組DNA。

表1 供試核桃品種Table 1 Walnut cultivars used in this study
FASTA格式的核桃品種‘中牧查一’的染色體水平參考基因組序列下載自國家基因組科學數據中 心(CNCB-NGDC,網 址https://ngdc.cncb.ac.cn/bioproject/browse/PRJCA002070),編號PRJCA002070,共包含16條染色體,全長為540 Mb,Contig N50為3.34 Mb[22];核桃品種‘Chandler’[23]的染色體水平全基因組序列下載自GigaDB(http://gigadb.org/dataset/100735)。使用famap和fahash軟件將2套基因組數據轉換為hash數據庫,以備引物多態性電子PCR模擬評估使用。
利用MIcroSAtellite(MISA,http://pgrc.ipkga tersleben.de/misa/)程序對核桃全基因組不同染色體中的SSR位點進行搜索和統計,設定單核苷酸(Mono-)、二核苷酸(Di-)、三核苷酸(Tri-)、四核苷酸(Tetra-)、五核苷酸(Penta-)和六核苷酸(Hexa-)的最少重復分別為10、6、5、5、5和5次,統計SSR位點的數量、長度和重復單元類型等信息,分析不同染色體上各種類型SSR位點的頻率分布。
利用Primer 3.0設計SSR引物,采用的參數及篩選標準主要有:引物長度為18~28 bp,20 bp為佳;產物長度100~500 bp;引物退火溫度為55~65 ℃,以60 ℃為佳;引物序列GC含量為40%~60%,以50%為佳;避免引物二聚體、發夾結構及錯配[6,24-25]。
利用電子PCR程序中的re-PCR模塊將篩選出的SSR標記在1.2中構建的基因組數據庫中進行模擬擴增,主要參數為:re-PCR-S<hashfile>-n 0-g 0100-1 000,根據模擬擴增結果將引物分為單態和多態兩類,其中,單態引物在基因組數據庫中只能擴增出一個位點,而多態引物可以擴增得到多個位點,即如果擴增產物大小相差≥2 bp,則SSR被歸類為多態性引物,擴增產物大小相同則被視為單態,而僅有1 bp差異的SSR位點則認為是不明確的,并從分析中刪除[26]。
從每條染色體上隨機選擇單態性SSR引物各2對,合成TP-M13引物(上海生工),M13尾巴序列為TGTAAAACGACGGCCAGT。采用改良的CTAB法[15]提取核桃葉片的基因組DNA,參照Chen等[27]的方法進行擴增和毛細管電泳檢測,利用GeneMarker v2.2.0讀取電泳條帶,然后使用Excel 2016軟件進行數據統計和分析。
利用MISA v2.1軟件對全長540 Mb的核桃全基因組序列中的SSR位點進行鑒定,共得到357 629個SSR位點,平均每1.51 kb出現1個SSR位點,SSR序列總長度為8 019 209 bp,占基因組全長的1.49%,包括4 005種重復單元。其中,單核苷酸重復單元占比最高,達58.93%;二核苷酸到四核苷酸重復單元占比分別為34.00%、5.19%、1.03%;五核苷酸和六核苷酸重復單元的占比則不足1.00%,但堿基組合可選擇性和隨機性更強,種類更加豐富,且重復單元占自身核苷酸重復類型的比例分布更加均勻。如ACTCCG/AGTCGG占六核苷酸重復的比例為8.96%,AAAAAT/ATTTTT占比為8.46%(圖1 a)。單核苷酸重復類型中(A)n最為豐富,接近所有核苷酸重復比例的一半,二核苷酸重復類型中(AT)n最多(32.10%),三核苷酸類型中(AAT)n最多(16.50%),而四核苷酸類型中(AAAT)n(9.00%)占比最高(圖1 b)。無論是單堿基還是多堿基重復,占比居前四位的重復基序中,僅有A、T堿基出現,說明核桃全基因組微衛星具有A/T豐富的特性。AGG、AAC、AGC、ACT、ACG和CCG占比不足1.00%,可能屬于稀有SSR單元的主要基序組成成員。核桃SSR序列長度在10~297 bp間變化,平均為73.30 bp,以10~30 bp長度的短重復序列為主(95.93%),而長度大于30 bp的僅占4.07%,不同長度的SSR序列所占比例存在較大差異,其中,10 bp長度的SSR所占比例最大(18.09%),隨著SSR序列長度的增加,其占比呈下降趨勢(圖1 c)。

圖1 核桃全基因組SSR位點重復類型的分布特征Fig.1 Genome-wide distribution of SSR repeat types in walnut
核桃參考基因組包含16條染色體,即Chr1~Chr16。不同染色體上SSR位點數量差異較大(圖2 a),其Chr1上數量最多(34 749,9.72%),Chr16上數量最少(13 666,3.82%)。采用一元線性回歸分析擬合發現,SSR位點數量與染色體長度間的線性關系明顯,得到回歸方程y=1 437x+1 679 338,決定系數為0.96,擬合效果較好,即染色體長度越大,相應的SSR位點數量越多(圖2 b)。各染色體上SSR位點的分布密度相對穩定,數量變化幅度為1 427~1 685個,其中,Chr9最低,Chr15最高。同時,進一步對SSR的數量、種類與染色體長度間的相關分析表明,染色體長度與SSR數量(r=0.982 0,p<0.01)、種類(r=0.900 3,p<0.01)間均呈極顯著正相關,表明隨著染色體長度的增加,其SSR的種類與數量均呈增加趨勢。
對16條染色體上不同重復類型的SSR位點數量進行相關性分析發現,不同重復類型SSR位點間均呈極顯著相關關系(p<0.01),其中,單核苷酸與二核苷酸位點數的相關系數(r)最大(0.986 3),四核苷酸和六核苷酸的相關系數最小,僅為0.785 4(表2)。單核苷酸到四核苷酸間聯系極緊密(r>0.90);而5~6核苷酸重復類型的數量和其它重復類型間相關系數較低,最大為0.879 6,最小僅為0.785 4。

表2 核桃不同重復類型SSR相關性分析Table 2 Correlation coefficient of different SSR repeat types in Walnut
根據SSR位點不同重復類型和重復次數等,構建不同染色體SSR位點280×16階分布矩陣,并進行相關性分析建立相關系數矩陣,通過相關系數矩陣,對染色體進行聚類分析(圖2 d)。以遺傳距離0.075為閾值可將核桃16條染色體分為4組(Ⅰ~Ⅳ),其中,第Ⅰ組只有1條染色體,即Chr10;第Ⅱ組包括2個成員,即Chr1和Chr3;第Ⅲ組包括Chr14和Chr16這2條染色體;第Ⅳ組則囊括了其余11條染色體,這個組又可分為2個亞組,第1個亞組中有Chr4、Chr7、Chr5和Chr11這4條染色體,第2個亞組包括Chr6、Chr13、Chr2、Chr9、Chr15、Chr8和Chr12這7條染色體,這2個亞組中的成員也是SSR分布模式最相似的染色體。總體上,第Ⅱ、Ⅲ及Ⅳ組回溯到同一個主枝,而第Ⅰ組則歸類于單獨的一個主枝,表明Chr10上SSR位點的數量、分布和頻率等與其他15條染色體相比差異較大。
不同染色體間重復單元數及重復堿基的種類存在一定的差異(圖2 c),Chr1染色體上最多(406種),其次為Chr3、Chr5和Chr11,而Chr16染色體上最少(188種),其中,單核苷酸重復SSR序列均以A/T重復單元為主,其含量在不同染色體上相對穩定,其中,Chr4上最低(93.76%),Chr12上最高(95.05%);二核苷酸重復SSR序列均以AT/AT重復單元為主,所占比例在53.61%(Chr12)~59.43%(Chr9)間變化;三核苷酸重復SSR序列的重復單元不同染色體均為10種重復單元類型,主導單元均為AAT/ATT,其所占百分比在48.34%(Chr16)~55.35%(Chr12)間變化;四核苷酸SSR序列的主要重復單元是AAAT/ATTT,其所占百分比在30.52%(Chr13)~52.29%(Chr14)間變化;五核苷酸重復SSR序列在不同染色體上的重復單元類型數量為18(Chr12、13、16)~36(Chr3)種,其中,Chr3(22.73%)和Chr14(29.29%)上的SSR主導單元為AAAAG/CTTTT,Chr6(23.91%)、Chr13(29.32%)和Chr15(25.47%)染色體上為AAAAG/CTTTT和AGATG/ATCTC且占比相同,其余11條染色體的SSR主導單元均為AGATG/ATCTC,所占百分比為27.52%(Chr4)~34.78%(Chr10);六核苷酸重復單元的類型為13(Chr14)~43(Chr1)種,且大部分染色體都以AAAAAT/ATTTTT或AAAAAG/CTTTTT單元為主,所占比例在8.32%(Chr2)~22.73%(Chr11)間變化。

圖2 核桃基因組不同染色體SSR位點分布Fig.2 Distribution of SSR loci in different chromosomes of walnut genome
核桃基因組中存在644種稀有SSR單元(即該重復單元僅在單一染色體中存在),不同染色體上存在的SSR稀有單元數存在較大差異,其中,Chr4中最少,為22 種,Chr5中最多,達64 種(表3)。稀有SSR單元為4~6核苷酸重復,其中以六核苷酸最多(426 種),四核苷酸最少(38種),說明SSR單元組成的核苷酸越多,其所占比例越低,成為稀有SSR單元的概率越大。

表3 核桃參考基因組不同染色體的稀有SSR重復單元Table 3 Rare SSR units of different chromosomes in Walnut reference genome

續表 3
利用Primer 3.0軟件根據SSR位點側翼的保守序列,從357 629個SSR位點中共設計出303 009對(91.51%)SSR引物,包括6種完全微衛星(258 024,85.15%)、不完全微衛星(1 688,0.56%)和復合型微衛星(43 297,14.29%)等3種類型。然后,利用re-PCR將2~6核苷酸重復的完全型SSR引物比對到基因組hash數據庫,通過電子模擬擴增評價其多態性,根據在不同基因組中的電子模擬擴增條帶將其分為單態和多態兩類,條帶大小差異僅1 bp的引物將被棄用。電子模擬擴增分析發現,不同染色體上的單態性標記最少為2 295個(Chr16),最多為10 881個(Chr3),長重復單元(>30 nt)的引物中多態性引物的比例要高于短重復單元的引物,這與Biswas等[26]在甜橙基因組中的研究結果類似。
為了驗證電子模擬擴增結果的可靠性和新開發的SSR標記的有效性,從經re-PCR評估的單態引物中隨機均勻地選擇三堿基重復引物32對(表4),合成TP-M13引物在‘強特勒(Chandler)’等6個品種中擴增,并利用毛細管電泳技術進行檢測(圖3)。所選32對引物中除CAF36和CAF350以外,其余30對SSR引物(93.75%)均可以在供試樣品中擴增出清晰的目標產物,PCR擴增結果與電子模擬評估結果一致性較好。此外,30對SSR引物中有4對(CAF11、CAF129、CAF271和CAF364)在供試樣品之間表現出多態性。

圖3 CAF11引物在6個核桃主栽品種中的毛細管電泳圖譜Fig.3 The capillary electrophoresis patterns from primer CAF11 in 6 main cultivars of walnut.

表4 32對核桃單態SSR引物信息Table 4 Information of 32 primers from walnut genome
SSR在基因組中的出現主要源于進化過程中的突變,如滑鏈錯配、一個或多個重復基序的插入缺失等,因此,特定數量和長度的SSR可以作為進化過程中遺傳變異的指標[24]。本研究從‘中牧查一’核桃參考基因組16條染色體中共鑒定出了357 629個SSR位點,其密度為662.28 SSRs·Mb-1,低于石榴(1 294.62 SSRs·Mb-1)[6]和棗(872.60 SSRs·Mb-1)[28]等樹種,高于亞麻(225.3 SSRs·Mb-1)[29]、茶樹(216.88 SSRs·Mb-1)[30]和花生(392.45 SSRs·Mb-1)[31]等植物,而與楊樹(667.9 SSRs·Mb-1)[32]在基因組上的研究結果相當。這些數據可能反映了不同物種本身基因組大小的差異以及基因組序列中堿基排列組合方式的隨機性和變異性,以往研究表明基因組大小會影響SSR的密度,但并不是所有物種中二者之間都具有顯著相關性[33-34],而本研究中核桃基因組SSR的數量、種類與染色體序列長度均呈極顯著正相關。同時,SSR的分布和密度變化很大,也可能是由于搜索標準和數據庫挖掘工具的不同導致的。
單堿基重復的SSR是核桃基因組每條染色體上最常見的類型,2~3堿基重復次之,4~6堿基重復則較少,這在小麥[24]和甜橙[26]等物種的基因組中也有報道,但與煙草[35]中以二堿基重復類型為主的情況不同。核桃的SSR基本組成在所有重復類型中以A和T為主,而CG/CG在二核苷酸重復序列中密度最低,這與煙草[35]和四倍體野花生[36]等物種相似,核桃SSR中最多的二核苷酸重復是AT/AT,其次是AC/GT和AC/GT,王玉龍等[36]報道,四倍體野花生基因組中數量最多的重復單元依次是A/T、AT/AT、AAT/ATT,AAAT/ATTT、AAAAT/ATTTT和AAAAAT/ATTTTT。Lu等[31]對栽培花生的研究結果與此類似。盡管分布模式有所差異,但對許多植物基因組而言,AAN、AAAN、AAAAN和AAAAN比其他重復基序更常見。
研究指出,單堿基或二堿基重復單元大量發生則表明該物種的進化水平較高[37],而核桃單核苷酸與二核苷酸數量的總和占所有微衛星位點的92.80%,這可能說明核桃起源相對較晚同時容易發生SSR變異,從而產生更多的堿基重復類型,其中,單堿基重復占58.85%。有研究表明,單堿基重復的數量隨物種基因組大小不同而產生差異,相比而言物種基因組增大,其單堿基相對豐富增加[38]。Song等[39]分析了112種植物3 951 919條基因序列中SSR的分布情況,發現三堿基重復SSR數量超過50%,與核桃SSR數量分布比例有所不同,這可能與密碼子以3個堿基為組成單位有關。近期的一項研究將石榴基因組中的SSR分為三大類,即class I(>30 nt),class II(20~30 nt)和class III(<20 nt),其中,第一類SSR可能更易發生突變呈現不穩定狀態[6],更早的研究中Portis等[40]、陳凌娜等[18]和Temnykh等[41]也強調了SSR片段長度在標記開發和育種中的重要性。本研究發現,核桃SSR序列主要以10~30 bp的短重復序列為主,SSR序列的出現頻率呈現一定的規律性變化,重復長度越長,出現頻率則越低。
以往研究表明,單核苷酸重復的SSR并不適宜于開發SSR引物[26,42],因此,本文在引物設計和開發時僅使用了2~6核苷酸重復的類型;以往研究表明,單態SSR標記可作為遺傳分析和育種子代群體“私生檢測”的有力工具[21,43],也有將單態性標記轉換為多態性標記的報道[44-45]。在re-PCR檢測到的單態性標記中,二核苷酸基序(77.28%)最常見,其中,Chr3染色體含有最多的單態性標記,其可能是核桃分子標記輔助育種的較好選擇。隨機選擇32對單態性SSR引物在6個不同核桃主栽品種中進行PCR驗證,其中,4對預測為單態的引物擴增出了多個基因座,這可能是由于電子PCR分析僅采用了2套基因組所致,也有可能是核桃的全基因組尚有未完全揭示的序列,而多達28對引物獲得了與電子PCR分析相一致的PCR實驗擴增結果。由此可見,基于全基因組序列采用電子PCR結合傳統分子標記篩選策略的方法進行SSR標記開發效果較好。
核桃是世界范圍廣泛栽培的重要經濟樹種,本研究從‘中牧查一’核桃參考基因組中鑒定了357 629個SSR位點,這些位點在不同染色體上的數量和重復類型具有明顯差異,其中,單堿基重復占比較高,A/T堿基重復是其優勢重復單元。在此基礎上,建立了聯合應用電子PCR和傳統引物篩選方法進行引物開發的新策略,每條染色體上隨機選取2對共計32對引物以6個核桃主栽品種為試材進行擴增,結果顯示其中30對引物的擴增效果較好,28對(87.50%)引物的擴增結果與電子PCR分析結果相一致,從而驗證了這一引物開發策略的有效性,為核桃SSR引物的個性化快速開發提供了有效策略,篩選獲得的28對單態性引物可為分子輔助育種中雜交子代“私生檢測”等研究提供科學借鑒與參考。