劉有春,劉威生,王興東,孫斌,劉修麗,楊艷敏,魏鑫,楊玉春,張舵,劉成,李天忠
基于簡化基因組測序的越橘雜交后代鑒定

1遼寧省果樹科學研究所,遼寧營口 115009;2中國農業大學園藝學院,北京 100193
【】針對遺傳群體測序數據開發一種雜交后代鑒定方法,以獲得繼承雙親基因的真雜種后代,為果樹雜交育種、遺傳分析及遺傳圖譜構建奠定基礎。本研究以越橘正反交群體共計318個F1子代和2個親本為試材,利用SLAF技術進行簡化基因組測序并比對越橘參考基因組獲得群體SNP數據,通過稀有等位變異分析和基于PCA、K-means聚類的遺傳關系分析鑒定供試群體中的非雜交后代,結果利用雙親純合顯性SNP標記進行驗證。SLAF簡化測序共獲得65.89 Gb數據,GC含量39.72%,平均Q30為95.04%,親本和子代平均測序深度為12.86×和5.41×。參照四倍體越橘基因組信息,正、反交組合分別獲得73 543個和114 851個SNP,利用次等位基因頻率(MAF)>0.05的SNP數據集分別對正、反交群體進行PCA和K-means聚類分析,鑒定出4個離群個體;利用MAF<0.05的SNP數據集對正、反交群體進行個體稀有等位變異和個體特有的稀有等位變異數統計,共鑒定出10個離群個體(包含了MAF>0.05的SNP數據集鑒定的4個離群個體)。通過雙親純合顯性SNP標記進行驗證,正、反交群體雙親純合SNP位點分別占群體總SNP的34.56%和38.95%,除H194-123個體外,其余非雜交后代在驗證結果中同為離群個體,即準確通過驗證。對于有參考基因組物種的雜交群體,利用基于測序的SNP次等位基因頻率(MAF)數據集,采用遺傳關系和個體特有的稀有等位變異分析方法,從不同角度反映群體子代間的遺傳關系以鑒別離群個體,是一種鑒定群體假雜交后代的有效方法。
越橘;正反交群體;SLAF測序; SNP;稀有等位變異數;雜交后代
【研究意義】在遺傳育種研究中,獲得繼承雙親基因的真雜種后代是進行品種改良、遺傳分析及遺傳圖譜構建等研究的前提和基礎[1],為了使雜交后代如實反映雙親和群體的遺傳特征,初期對雜交后代的真實性鑒定十分必要,以避免或降低非雜交后代對群體的影響。在育種實踐中,出現非雜交后代的可能性有如下幾種:1)異花授粉中非選定父本花粉混入,導致此類后代缺少選定父本的遺傳信息而混入其他材料的遺傳信息;2)母本植株具有一定的自花受精習性,雜交過程中人工去雄不及時、不徹底可能會產生自交后代;3)雜交種子收集及幼苗管理過程中誤引入非雙親雜交后代。由上述原因導致的非雜交后代混雜在群體中,在植物形態特征上不易辨別。而基于DNA的變異分析不受外界環境影響,能真實反映分離群體分子水平上的遺傳信息,可靠性高。因此,群體在基因組水平上反映的遺傳差異可借鑒于非雜交個體鑒別研究中,但篩選鑒別策略至關重要。【前人研究進展】對于植物,早期主要通過植株形態學、細胞學以及同工酶進行雜交后代的鑒定,但均存在一定不足之處,如形態學鑒定周期長、易受環境影響、準確率低,細胞學鑒定程序繁瑣、分辨率低[2],同工酶則受酶種類限制不能反映全部結構基因的信息,存在基因位點少、多態性水平低等[3]問題。分子標記技術的發展使得雜種鑒定的準確性大幅提高,AFLP[4]、RAPD[5-6]、SRAP[7]、SSR[1,8-9]等分子標記已應用于果樹非雜交后代鑒定工作中,但這一類分子標記已均存在自身通量小、耗時耗力、成本高等局限性。此類技術主要以親本基因型作為判斷依據,即通過親本DNA的擴增產物多態性(片段長度或堿基差異)篩選出具有分辨能力的分子標記,并掃描雜交群體的基因型,經比對統計后代異于親本的等位基因類型開展非雜交后代差異分析。以SNP為代表的第三代分子標記技術,相對于第一、二代分子標記,具有多態性高、能廣泛分布于全基因組的特點,可鑒別更豐富的遺傳信息,韓燕等[10]建立了利用親本多態SNP位點設計引物,通過凝膠電泳鑒定花生F1代的方法。ZHANG等[11]、NIU等[12]通過檢測樣品中出現的非親本類型異常SLAF標簽鑒別無參考基因組物種的非雜交后代。然而,上述基于PCR擴增的DNA序列長度差異分析存在以下幾個可能的誤判情況:1)PCR擴增過程可能存在一定的非特異擴增,造成基因型的辨識困難(特別通過電泳凝膠成像);2)片段長短一致的擴增產物可能序列不同,所含遺傳信息的差異難以檢測,導致非雜交后代通過檢測混入群體;3)由于序列的缺失、插入和重排等突變事件可以同時發生在親本與其后代(包括非雜交后代),使鑒定試驗存在誤差。對于SNP標記可存在的誤判則多來自一種堿基或核苷酸被另一種替換,或者因堿基插入或缺失等點突變事件,造成基因型變化。上述情況在試驗操作中存在偶然性、隨機性,單一標記位點造成的誤差權重可隨分子標記數量的增加而相應降低。此類情況若發生在分子標記數量較少的試驗中,會在一定程度上干擾最終判斷。而基于異常SLAF標簽進行非雜交后代篩選的方法[11-12],其SLAF標簽的產生基于酶切產生SLAF片段的相似性,無基因組信息參照,且相似性聚類和異常SLAF標簽的判定很大程度上受閾值影響。【本研究切入點】隨著生物技術的快速發展,NGS(next generation sequencing)測序成本不斷降低,三代測序和Hi-C技術也廣泛應用于遺傳群體測序,如何從測序產生的SNP大數據中準確鑒別非雜交后代十分重要,相關方法鮮見報道。由于非雜交后代所含遺傳信息不源于或部分源于親本(如自交后代),會呈現出遺傳關系較遠和等位基因分離異常等現象。因此,本研究以多年生果樹越橘()的正、反交F1代群體為研究對象,通過高通量簡化測序獲取大量樣本(親本和子代)基因組序列和遺傳變異信息,基于子代特有稀有等位變異為核心,重點揭示子代與群體間(不以親本為標準)的遺傳關系以鑒定非雜交后代。【擬解決的關鍵問題】探索適合于高通量測序數據的快速、準確的非雜交后代鑒別方法,排除假陽性樣本干擾,為遺傳圖譜構建、性狀定位、遺傳育種及高通量分子標記開發等相關研究奠定基礎。
測序試驗于2019年在北京百邁客生物科技有限公司進行,數據統計及驗證分析于2020年在遼寧省果樹科學研究所完成。
供試群體取自遼寧省果樹科學研究所藍莓雜交圃,為南高叢越橘品種‘N6’(SHB)和北高叢越橘品種‘Berkeley’(NHB)的雜交F1后代,其中正交組合‘Berkeley’בN6’群體133株,群體代號FM_133;反交組合‘N6’× ‘Berkeley’群體185株,群體代號MF_185。試材采集群體及親本幼嫩葉片液氮速凍后存于-80℃冰箱備用,CTAB法[13]提取基因組DNA,用Nanodrop 2000C(Thermo Fisher)和Qubit 2.0熒光計(Thermo Fisher)進行DNA的質量和濃度檢測,以確保所提基因組DNA質量達到測序文庫構建要求:OD260與OD280的比值分布在1.8—2.0,DNA濃度達到30 ng?μL-1。
1.2.1 DNA酶切預測與測序文庫構建 為了保證酶切片段在基因組上分布均勻,同時避開重復序列區域,利用越橘近緣物種蔓越莓參考基因組[14](https:// www.ncbi.nlm.nih.Gov /bioproject/PRJNA245813)隨機選取2個親本和10個子代,以I+III、III+166II和166II三種酶切方案進行電子酶切預測試驗,根據開發的標簽數等確定酶切方案。供試親本及群體DNA經ddH2O稀釋到100 ng?μL-1濃度后,利用確定的酶切組合(HaeIII+Hpy166II)雙酶切并過夜,酶切產物在37℃下用Klenow 片段(3′→5′)(NEB)和dATP進行末端加A,之后T4連接酶連接區分樣品的標簽(barcode)和測序接頭序列。常規PCR進行片段擴增,上游引物為5′-AATGATACGGC GACCACCGA-3′,下游引物為5′-CAAGCAGAAGA CGGCATACG-3′(Life Technologies,Gaithersburg,MD,United States),擴增循環數為8。最后利用試劑盒QIAquick gel extraction kit(Qiagen,Hilden,Germany)進行切膠純化,切膠范圍為314—444 bp。切膠后將文庫混合,加入一條流動槽(flowcell)中,cBot進行cluster生成,進行Illumina Hiseq 2500(Illumina,Inc.,San Diego,CA,United States)高通量測序。為了監控建庫有效性,本試驗以模式物種水稻()(http://rice. plantbiology.msu.edu/)為對照,同步進行平行試驗。
1.2.2 基于越橘參考基因組的SNP標記獲取 過濾后的樣本序列(clean reads)經BWA-0.7.10軟件比對到四倍體越橘參考基因組[15](http://gigadb.org/dataset/ 100537),用Picard 1.118軟件http://picard.sourceforge. net)標記出來。用GATK 3.8軟件[16]對堿基測序質量重新校正、序列重新比對,根據標準過濾參數分別對越橘親本和正、反交群體(FM133和MF185)進行基因分型,獲得SNP基因型數據。所有分析步驟按照GATK最優的執行方法進行操作(https://www. broadinstitute.org/partnerships/education/broade/best- practices-variant-calling-gatk-1)。設置SNP次等位基因頻率(Minor allele frequency)在0.05處為閾值(低于5%則視為稀有位點),將SNP基因型數據劃分到MAF>0.05 和MAF<0.05兩個數據集,整理保留各自多態性位點進行后續相關分析。
1.3.1 供試群體遺傳關系分析 利用GenoDive version 3.03[17]對SNP基因型數據(MAF>0.05)進行處理和分析。為避免缺失數據導致的偏差(bias)影響,數據經Filling-in Missing Data功能隨機選取已有等位基因進行填充(Imputation)。采用Amova方法[18-19]對供試群體樣品的SNP次等位基因進行K- Means聚類分析,設置模擬退火(Simulated Annealing,SA)算法[20]為50 000步,重復20次。主成分分析(principal component analysis,PCA)采用計算協方差方式對供試越橘樣品進行統計,并整合K-Means聚類結果通過“scatterplot3d”[21]R分析繪制坐標圖。
1.3.2 供試群體稀有等位變異分析 統計符合MAF<0.05條件的SNP基因型數據中雜交后代個體稀有等位變異總數(Total rare-alleles)和個體特有的稀有等位變異數(Private rare-alleles)。利用“ggplot2”R分析包[22]的箱圖(geom_boxplot)功能分析計數的分布與異常個體標注。
經上述分析獲得的非雜交后代通過親本特定的基因型進行驗證分析。為避免受稀有等位變異干擾,筆者應用MAF>0.05的SNP數據篩選越橘正、反交群體中親本為純合顯性的基因型數據,并統計后代群體中出現異于親本基因型的SNP位點比率,利用箱圖統計群體中后代異于母本(或父本)基因型的SNP位點比率,篩選各自的離群個體,與已獲得的非雜交后代進行比較。
測序共獲得 330.06 Mb reads(包含65.89 Gb)數據,平均Q30為95.04%,平均GC含量為39.72%,Q30和GC含量在供試材料間僅小幅波動(表1),說明GC分布正常,測序質量好,適合分析。

表1 越橘樣品測序數據統計表
基于2019年發表的越橘參考基因組,對供試318個F1后代和2個親本樣本進行序列分值校正、局部重比對、SNP和INdel的發掘與基因分型。在MAF>0.05水平下,在MF_185群體和FM_133群體分別鑒定到70 243個和111 527個SNP,在MAF<0.05水平下分別鑒定到3 200個和3 324個SNP(表2)。

表2 不同越橘雜交群體中SNP標記數量統計
利用MAF>0.05的SNP數據集,基于協方差矩陣的主成分分析表明,MF_185群體的親本‘Berkeley’處于x軸右側,距離親本‘N6’與雜交群體均較遠,多數雜交后代集中在x軸左側(圖1-A),其后代‘H194-180’偏離程度較遠。FM_133群體中除H194-295和H194-297后代之外,均緊湊地聚在x軸左側(圖1-C)。利用K-means聚類對離群點敏感的特性,比較k=2和k=3時的聚類結果篩選雜交群體中的離群點。對于MF_185群體,k=2時,親本分別處于不同聚類群(圖1-A);k=3時,后代H194-169、H194-126和H194-180不同于親本與其他后代,歸為單獨的聚類群(圖1-B,cluster3,綠色),為離群點,視為非雜交后代。而對于FM_133群體,k=2時,親本處在同一聚類群(圖1-C);k=3時,后代H194-297不同于親本與其他后代,歸為單獨的聚類群(圖1-D,cluster3,綠色)為離群點,視為非雜交后代。
雙等位SNP數據(biallelic,MAF<0.05)可在正交FM_133群體和反交MF_185群體中分別產生6 648個和6 400個等位變異。試驗分別統計個體稀有等位變異總數和個體特有的稀有等位變異數。個體在群體中產生的全部稀有等位變異數如圖2-A所示,FM_133群體的個體稀有等位變異總數普遍高于FM_185,范圍在2 594—4 802個,其中H194-300、H194-298和H194-231個體稀有等位變異數最多,分別為4 802個、4 578個和4 556個,且偏離群體,FM185群體中個體稀有等位變異數范圍在2 098—3 606個,無離群個體。個體在群體中產生的稀有等位變異中異于其他群體成員及親本的特有變異數如圖2-B所示,FM_133群體中出現1個離群個體,即H194-297,特有的稀有等位變異數379個,與群體明顯偏離;MF_185群體中離群個體共計9個,分別是H194-175、H194-169、H194-179、H194-126、H194-180,H194-107、H194-123、H194-170、H194-174,特有的稀有等位變異數為193—271個,視為非雜交后代。

A—B:MF185群體;C—D:FM133群體。聚群(cluster)1、2和3分別代表K-means在k=2和k=3的聚類結果
篩選雙親基因型為純合顯性的SNP位點進行驗證。統計結果顯示,FM_133群體包含17 646個母本純合SNP位點和20 906個父本純合SNP位點,共占群體總SNP數據的34.56%;MF_185群體包含12 351個母本純合SNP位點和15 012個父本純合SNP位點,共占群體總SNP數據的38.95%。基于該SNP數據集,利用箱圖統計群體后代擁有異于母本(或父本)基因型的SNP位點比率,篩選各自的離群個體(圖3)。基于親本純合SNP位點中的異常SNP位點,正交FM_133群體中H194-297為離群個體,與圖2-B中FM_133群體離群點一致;MF_185群體中,H194-169,H194-180、H194-175、H194-126、H194-107、H194-174、H194-173、H194-170、H194-160及H194-179為離群個體,與圖2-B中MF_185鑒定結果相比,除H194-123外,其余非雜交后代樣品與驗證結果離群個體一致,即利用雙親基因型為純合顯性的SNP位點中異常SNP位點準確驗證了基于等位基因頻率鑒定的非雜交后代。

圖3 基于親本基因型為純合顯性SNP的非雜交后代驗證
有關植物全基因組水平的遺傳多樣性、群體結構和親緣關系等分析中[23-25],需要對次要等位基因頻率進行降噪處理(MAF>0.05),減少低頻率等位變異對數據整體造成的偏差影響。本研究中除噪后的SNP數據保留大量多態性位點,可以較為可靠地反映群體的遺傳差異,并較為保守地用來篩選離群個體。采取PCA來推測離群點(outlier)是較為普遍和有效的辦法,廣泛地應用在各種數據集和樣品集的過濾環節[26-28],是進一步數據分析的重要前提。本研究經PCA解析兩個越橘正、反交群體的遺傳差異結果表明,親本‘N6’和‘Berkeley’無論在越橘的正交群體還是反交群體中的遺傳差異均較明顯,而它們的后代個體多集中分布于兩個親本之間,遺傳差異有限。該結果有利于離群個體的篩選,可以較容易地通過觀察PCA坐標中個體距離親本和絕大多數后代的聚集位置遠近來推測。然而,基于單一個體間協方差矩陣的PCA分析,不足以判斷離群個體是否為非雜交后代。為此,筆者增加一種迭代求解的均值聚類辦法,通過解析個體間在遺傳水平上的相似性并歸入差異群組,結合PCA結果進一步對離群個體加以討論。K-means聚類對離群點較為敏感[29],對于MAF>0.05的SNP數據集,在PCA和K-means聚類分析中,當k=2轉換為k=3時,群體MF185中的‘H194-169’‘H194-126’和‘H194-180’及群體FM133中的‘H194-297’單獨成為聚類群(綠色)(圖1),均表現出“與眾不同”,因此視為非雜交后代。
此外,自交個體因只攜帶母本遺傳信息,不屬于雙親的雜交后代,但在聚類時,遺傳上更傾向母本,不易形成明顯的離群點而被誤為雜交后代,分析中須特別注意。本試驗中越橘屬于異花結實植物[30],也有報道發現越橘存在一定的自花結實現象[31],筆者對供試正、反交組合的親本‘N6’和‘Berkeley’進行了自花結實性驗證,發現均可自花結實并產生自交種子和自交后代。本研究正、反雜交群體的PCA和K-means聚類中并未發現與母本遺傳十分相近的個體,說明供試群體中不存在由于自交產生的假雜種。
本研究將低頻率的等位基因(MAF<0.05)視為稀有等位變異。稀有等位變異的形成存在幾個可能:1)親本的等位基因型在雜交后代的分離,出現嚴重偏分離情況(頻率小于0.05);2)由于堿基點突變造成的低頻率異常基因型出現;3)非雜交后代自身攜帶的未知(新)等位基因型混入。前兩種可能中,遺傳偏分離情況主要發生在整個群體,由雙親間遺傳分化程度、基因相互作用和環境因素等影響[32];而植物組織細胞內的DNA堿基突變既可發生在世代繁衍和一般生長周期階段,具有隨機性和低頻性;第三種情況的發生通常會包含第二種情況,因稀有等位變異的基因型來自外部,所以非雜交后代會攜帶大量區別于親本和其他后代的特有稀有等位變異。本研究在群體FM_133和MF_185中分別檢測到1個和9個個體,其特有的稀有等位變異多且偏離群體(箱體之外)(圖2-B),視為非雜交后代。
綜上所述,PCA和K-means聚類分析對MAF>0.05數據集鑒定的4個非雜交后代全部重現在MAF<0.05數據集中個體特有稀有等位變異的鑒定結果中,說明以上兩種鑒定方法均可有效用于越橘群體非雜交后代篩選,后者鑒定條件更嚴格。
本研究將簡化測序基于四倍體越橘參考基因組比對,獲得基因組水平的SNP基因型數據,引入稀有等位變異作為判斷標準,利用PCA和K-means聚類等不同方法著重解析群體子代遺傳差異和親緣關系,通過箱圖反映離散個體從而鑒定非雜交后代。鑒定結果在利用親本純合顯性SNP標記(基于群體與親本遺傳差異)進行驗證時,絕大多數基于稀有等位變異的非雜交后代也被鑒定為離群個體,即準確通過驗證,充分證明了本試驗采用的基于基因組SNP基因型的個體稀有等位變異分析策略適用于越橘雜交群體的非雜交后代篩選和鑒定,這與前人[4-10]完全依賴于親本基因型的鑒定策略不同。此外,由于稀有等位變異的非雜交后代鑒定策略是基于群體間的遺傳差異進行分析,所以該策略可直接應用于親本未知的群體進行非雜交后代鑒定,排除非該群體的后代。借助于參考基因組可靠、準確的基因分型,根據本研究所采用的策略和方法可簡單、有效地對雜交群體的大規模測序數據進行質控處理,排除假陽性干擾。
本研究基于四倍體越橘參考基因組,利用個體特有的稀有等位變異分析和遺傳關系分析的策略從不同角度反映數據特征,共鑒定出10個離群個體,確定為非雜交后代,在未來越橘植物的遺傳圖譜構建、性狀定位和遺傳育種等研究中應給予剔除或謹慎使用。通過該策略鑒定的非雜交后代絕大多數與基于雙親純合顯性SNP位點的驗證結果一致,因此,對于有參考基因組物種的雜交群體,利用基于測序的SNP次等位基因頻率(MAF)數據集,采用遺傳關系和個體特有的稀有等位變異分析方法,從不同角度反映群體子代間的遺傳關系以鑒別離群個體,是鑒定群體真假雜種的一種有效策略。
致謝:感謝北京科技大學劉冬成研究員和中國農業大學許語輝博士對英文摘要的校正,感謝遼寧省果樹科學研究所劉碩博士在數據分析中的指導和建議。
[1] 朱駿馳, 郭印山, 劉鎮東, 李坤, 楊曉旭, 石廣麗, 牛早柱, 李成祥, 郭修武. 利用SSR分子標記鑒定葡萄F1代雜種. 沈陽農業大學學報, 2016, 47(2): 148-152.
ZHU J C, GUO Y S, LIU Z D, LI K, YANG X X, SHI G L, NIU Z Z, LI C X, GUO X W. Identification of the F1hybrids of grape using SSR molecular markers. Journal of Shenyang Agricultural University, 2016, 47(2): 148-152. (in Chinese)
[2] 顏廷進, 譚振新. 農作物種子純度鑒定技術研究進展. 種子科技, 2004, 22(3): 153-155.
YAN T J, TAN Z X. Purity vertification research prospect of crops seed. Seed Science & Technology, 2004, 22(3): 153-155. (in Chinese)
[3] 曾明, 楊柏云. 同工酶技術在柑橘研究中的應用. 江西科學, 2006, 24(1): 100-104.
ZENG M, YANG B Y. The application of isoenzyme technology in citrus studies. Jiangxi Science, 2006, 24(1): 100-104. (in Chinese)
[4] 鹿金穎, 毛永民, 申蓮英, 彭士琪, 劉敏. 用AFLP分子標記鑒定冬棗自然授粉實生后代雜種的研究. 園藝學報, 2005, 32(4): 680-683.
LU J Y, MAO Y M, SHEN L Y, PENG S Q, LIU M. Application of AFLP markers for identification of hybrids from open pollinated Dongzao (Mill) progenies. Acta Horticulturae Sinica, 2005, 32(4): 680-683. (in Chinese)
[5] 馬鴻翔, 陳佩度, 余桂紅, 任麗娟. 東北草莓×鳳梨草莓種間雜種一代的細胞遺傳學觀察與RAPD分析. 園藝學報, 2007, 34(3): 597-604.
MA H X, CHEN P D, YU G H, REN L J. Cytogenetics and RAPD analysis of interspecific hybrids from the cross ofStaudt andDuch. Acta Horticulturae Sinica, 2007, 34(3): 597-604. (in Chinese)
[6] 喬燕春, 林順權, 何小龍, 楊向暉. 普通枇杷種內和種間雜種苗的RAPD鑒定. 果樹學報, 2010, 27(3): 385-390.
QIAO C Y, LIN S Q, HE X L, YANG X H. Identification of intraspecific and interspecific hybridizati0ns in Loquat () using RAPD molecular markers. Journal of Fruit Science, 2010, 27(3): 385-390. (in Chinese)
[7] 郭修武, 張鵬翔, 郭印山, 劉鎮東, 李坤, 李成祥. 應用SRAP分子標記技術鑒定葡萄種間雜交后代. 分子植物育種, 2011. doi: 10.5376/mpb.cn.2011.09.0052.
GUO X W, ZHANG P X, GUO X S, LIU Z D, LI K, LI C X. Authenticity of identification of progenies from interspecific cross Red Globe () × Shuangyou () by SRAP markers. Molecular Plant Breeding, 2011. doi: 10.5376/mpb.cn.2011. 09.0052. (in Chinese)
[8] 樊秀彩, 張穎, 姜建福, 孫海生, 焦建, 劉崇懷. SSR分子標記鑒定山葡萄和河岸葡萄種間雜種. 西北植物學報, 2012, 32(11): 2195-2200.
FAN X C, ZHANG Y, JIANG J F, SUN H S, JIAO J, LIU C H. Identification of interspecific hybrids derived from×by SSR marker. Acta Botanica Boreali-Occidentalia Sinica, 2012, 32(11): 2195-2200. (in Chinese)
[9] 蘇聰聰, 金燕, 徐豐, 白描, 石雪暉, 楊國順, 鐘曉紅, 劉昆玉, 陳陳恒, 李含晰. 利用SSR分子標記鑒定刺葡萄F1代雜種. 江蘇農業科學, 2018, 46(17): 35-38.
SU C C, JIN Y, XU F, BAI M, SHI X H, YANG G S, ZHONG X H, LIU K Y, CHEN C H, LI H X. Identification of the F1hybrids of thorn grape using SSR molecular markers. Jiangsu Agricultural Sciences, 2018, 46(17): 35-38. (in Chinese)
[10] 韓燕, 馬登超, 劉譯陽, 崔鳳, 孫秀芹, 李榮沖, 萬書波, 李國衛.利用特異性SNP位點鑒定花生雜交F1代真假雜種. 山東農業科學, 2016, 48(4): 14-17.
HAN Y, MA D C, LIU Y Y, CUI F, SUN X Q, LI R C, WAN S B, LI G W. Identification of true F1peanut hybrid with specific SNP locus. Shandong Agricultural Sciences, 2016, 48(4): 14-17. (in Chinese)
[11] ZHANG J, YUAN H, LI M, LI Y J, WANG Y, MA X J, ZHANG Y, TAN F, WU R L. A high-density genetic map of tetraploid Salix matsudana using specific length amplified fragment sequencing (SLAF-seq). PLoS ONE, 2016, 11(6): e0157777.
[12] NIU D, DU Y, WANG Z, WANG Z, XIE S, NGUYEN H, DONG Z G, SHEN H D, LI J L. Construction of the first high-density genetic linkage map and analysis of quantitative trait loci for growth-related traits in Sinonovacula constricta. Marine Biotechnology, 2017, 19(5): 488-496.
[13] DOYLE J J T, DOYLE J L. Isolation of plant DNA from fresh tissue. Focus, 1990, 12: 13-15.
[14] POLASHOCK J, ZELZION E, FAJARDO D, zalapa J, GEORGI L, BHATTACHARYA D, VORSA N. The American cranberry: First insights into the whole genome of a species adapted to bog habitat. BMC Plant Biology, 2014, 14(1): 165.
[15] COLLE M, LEISNER C P, WAI C M, QU S J, BRID K A, WANG J, WISECAVER J H, YOCCA A E, ALGER E I, TANG H B, XIONG Z Y, CALLOW P, BEN-ZVI B, BRODT A, BARUCH K, SWALE T, SHIUE L, SONG G Q, CHUIDS K L, SCHILMILLER A, CORSA N, BUELL C R, VANBUREN R, JIANG N, EDGER P P. Haplotype- phased genome and evolution of phytonutrient pathways of tetraploid blueberry. GigaScience, 2019, 8: giz012.
[16] VAN DER AUWERA G A, CARNEIRO M O, HARTL C, POPLIN R, DEL ANGEL G, LEVY-MOONSHINE A, JORDAN T, SHAKIR K, ROAZEN D, THIBAULT J, BANKS E, GARIMELLA K V, ALSHULER D, GABRIEL S, DEPRISTO M A. From FastQ data to high-confidence variant calls: The genome analysis toolkit best practices pipeline. Current Protocols in Bioinformatics, 2013, 43(1110): 11.10.1-11.10.33.
[17] MEIRMANS P G, VAN TIENDEREN P H. Genotype and genodive: Two programs for the analysis of genetic diversity of asexual organisms. Molecular ecology notes, 2004, 4(4): 792-794.
[18] EXCOFFIER L, SMOUSE P E, QUATTRO J M. Analysis of molecular variance inferred from metric distances among DNA haplotypes: Application to human mitochondrial DNA restriction data. Genetics, 1992, 131(2): 479-491.
[19] MICHALAKIS Y, EXCOFFIER L. A generic estimation of population subdivision using distances between alleles with special reference for microsatellite loci. Genetics, 1996, 142(3): 1061-1064.
[20] KIRKPATRICK S, GELATT C D, VECCHI M P. Optimization by simulated annealing. Science, 1983, 220 (4598): 671-680.
[21] LIGGES U, MACHIER M. Scatterplot3d-an R package for visualizing multivariate data (No. 2002, 22). Technical Report, 2002.
[22] WICKHAM H. ggplot2: Elegant Graphics for Data Analysis. Springer, 2016.
[23] SU J S, ZHANG F, CHONG X R, SONG A P, GUAN Z Y, FANG W M, CHEN F D. Genome-wide association study identifies favorable SNP alleles and candidate genes for waterlogging tolerance in chrysanthemums. Horticulture Research, 2019, 6(1): 1-13.
[24] MCKENZIE K S, ADAYA V C, JODARI F, SAMONTE P B, OSTER J J, ADAYA C B. Rice breeding at the california rice experiment station. SABRAO Journal of Breeding & Genetics, 2015, 47(1): 1-13.
[25] KUJURA A, BAJAJ D, UPADHYAYA H D, DAS S, RANJAN R, SHREE T, GOWDA C L L. A genome-wide SNP scan accelerates trait-regulatory genomic loci identification in chickpea., 2015, 5: 11166. doi: 10.1038/srep11166.
[26] FILZMOSER P, HRON K, REIMANN C. Principal component analysis for compositional data with outliers. Environmetrics: The Official Journal of the International Environmetrics Society, 2009, 20 (6): 621-632.
[27] GODSTEIN M, UCHIDA S. A comparative evaluation of unsupervised anomaly detection algorithms for multivariate data. PLoS ONE, 2016, 11(4): e0152173.
[28] LENZ M, MüLLER F J, ZENKE M, SCHUPPERT A. Principal components analysis and the reported low intrinsic dimensionality of gene expression microarray data.Scientific Reports, 2016, 6(1): 1-11.
[29] CHAWLA S, GIONIS A. K-means: A unified approach to clustering and outlier detection//Proceedings of the 2013 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2013: 189-197.
[30] BENEVENUTO J, FERR?O L F V, AMADEU R R, MUNOZ P. How can a high-quality genome assembly help plant breeders? GigaScience, 2019, 8(6): giz068.
[31] KREBS S L, HANCOCK J F. Early-acting inbreeding depression and reproductive success in the highbush blueberry,L. Theoretical and Applied Genetics, 1990, 79: 825-832.
[32] 王哲. 植物雜交后代中基因偏分離的產生原因及其進化意義. 遺傳, 2016, 38(9): 801-810.
WANG Z. Distorted segregation in plant hybrids and its implication for evolution. Hereditas, 2016, 38(9): 801-810.(in Chinese)
Identification of F1Hybrids in Blueberry (L.) Based on Specific-Locus Amplified Fragment Sequencing (SLAF-seq)

1Liaoning Institute of Pomology, Yingkou 115009, Liaoning;2College of Horticulture, China Agricultural University, Beijing 100193
【】The aim of this investigation was to develop a method of identifying true F1hybrids based on next-generation sequencing data, so as to provide an alternative strategy for fruit breeding, genetic analysis and genetic map construction.【】A total of 318 F1population derived from reciprocal cross between two blueberry (L.) accessions were sequenced by specific-locus amplified fragment sequencing (SLAF-seq). Based on the blueberry reference genome, the rare allelic variation, principal component analysis (PCA) and k-means clustering were used to identify the accidental hybrid in blueberry population. Furthermore, homozygous SNP were used to confirm the data.【】A total of 65.89 Gb sequence data was generated by Illumina sequencing, in which the GC content was 38.63% and Q30 value was 95.44%. The average sequencing depth of the two parents and F1progenies were 12.86× and 5.41×, respectively. By aligning the sequencing reads onto the reference genome of, a total of 73 543 and 114 851 SNPs were called in two reciprocal cross populations, respectively. According to these SNPs with minor allele frequency (MAF) more than 0.05, PCA, and k-means analysis, it was yielded four outlier individuals regarded as accidental hybrid progenies. Moreover, ten outliers were identified after total rare-alleles analysis and the private rare-alleles analysis by using SNP with MAF﹤0.05, including the above four individuals. By verifying the accidental hybrid progenies, homozygous SNP between the two parents was accounted for 34.56% and 38.95% of the total SNP, respectively, which were subjected to genotype the ten outliers and conflicted genotypes, and which were observed in individuals except H194-123 with the two parents, and the accuracy of our developed methods was validated.【】For species with a reference genome, it was an effective strategy by using allele frequency (MAF) data set to identify the accidental hybrid progeny based on genetic relationship analysis and unique rare allele variation analysis.
blueberry; reciprocal population; SLAF-seq; SNP; unique rare allele variation; hybrid

10.3864/j.issn.0578-1752.2021.02.012
2020-04-26;
2020-07-30
國家自然科學基金青年基金(31701881)、遼寧省農業科學院學科建設計劃(2019DD164924)、遼寧省重點實驗室建設項目(2020JH13/ 10200051)、“一帶一路”聯合研究中心(2020JH2/10500005)、地方專業性技術創新平臺(2018103002)
劉有春,Tel:18641713730,E-mail:liuyouchun911@126.com。通信作者劉成,E-mail:stevecliu@hotmail.com。通信作者李天忠,E-mail:litianzhong1535@163.com
(責任編輯 趙伶俐)