夏 雷 石米娟 張婉婷 段 攸 程瑩寅 吳 南 夏曉勤 ,
(1. 中國(guó)科學(xué)院水生生物研究所, 武漢 430072; 2. 中國(guó)科學(xué)院科學(xué)院大學(xué), 北京 100149;3. 中國(guó)科學(xué)院種子創(chuàng)新研究院, 北京 100101)
魚(yú)類(lèi)育種技術(shù)是水產(chǎn)養(yǎng)殖業(yè)可持續(xù)發(fā)展的重要保障, 目前已有大量的遺傳育種手段應(yīng)用于魚(yú)類(lèi)育種[1]。在各類(lèi)經(jīng)濟(jì)魚(yú)類(lèi)的選育過(guò)程中, 所得到的子代群體往往數(shù)量龐大, 為了保證飼養(yǎng)環(huán)境條件的一致而將多個(gè)家系群體同池混養(yǎng), 后期重建親本與子代之間的對(duì)應(yīng)關(guān)系時(shí), 需要使用親子鑒定技術(shù)[2]。
在通常情況下, 親子鑒定主要根據(jù)孟德?tīng)栠z傳定律, 以分子標(biāo)記作為依據(jù)來(lái)判斷具體的子代與親代之間是否存在親子關(guān)系。目前親子鑒定主要采用微衛(wèi)星(Simple Sequence Repeat, SSR)和單核苷酸多態(tài)性(Single Nucleotide Polymorphism, SNP)這兩種分子標(biāo)記, 其中SNP在人類(lèi)親子鑒定中應(yīng)用較多[3],而SSR主要應(yīng)用于水產(chǎn)養(yǎng)殖育種[2,4—6]。SSR具有信息含量高、多態(tài)性好的優(yōu)點(diǎn)[7], 但標(biāo)記本身的篩選過(guò)程比較繁瑣, 而且后續(xù)的親子鑒定實(shí)驗(yàn)也較多地依賴(lài)于人力勞動(dòng), 樣本量較大時(shí), 耗時(shí)長(zhǎng), 效率低;相比之下, SNP標(biāo)記則具有不易發(fā)生變異和易于分析的優(yōu)點(diǎn), 但其多態(tài)性較低[8], 需要使用較多的SNP標(biāo)記才可達(dá)到與SSR標(biāo)記同等的效果。理論上SSR標(biāo)記可以直接從測(cè)序數(shù)據(jù)與參考基因組比對(duì)后所得的插入缺失(INDEL)區(qū)域中進(jìn)行篩選而獲得[9,10], 但直接獲得SSR的方法都受限于reads長(zhǎng)度及堿基滑移方式, 對(duì)于重復(fù)次數(shù)相近或超過(guò)reads長(zhǎng)度的SSR無(wú)法進(jìn)行有效分型[10], 因此主要還是依靠傳統(tǒng)的實(shí)驗(yàn)手段來(lái)檢測(cè)。單個(gè)SNP位點(diǎn)的分型也可以通過(guò)多種測(cè)序技術(shù)獲得, 2011年Davey等[11]對(duì)這些技術(shù)進(jìn)行了總結(jié), 包括重測(cè)序技術(shù)和RAD-seq(Restriction-site-associated DNA sequencing)等簡(jiǎn)化基因組測(cè)序技術(shù), 其中重測(cè)序技術(shù)可以獲得全基因組范圍內(nèi)的SNP位點(diǎn), 而簡(jiǎn)化基因組測(cè)序技術(shù)只能獲得部分SNP位點(diǎn), 但相較而言其成本較低。在水產(chǎn)動(dòng)物的遺傳育種研究中, SSR分子標(biāo)記主要用于親子鑒定[12—14]和群體遺傳多樣性分析[15]等工作, SNP分子標(biāo)記則主要應(yīng)用于遺傳連鎖圖譜構(gòu)建[16]和GWAS分析[17]。
2013年Kidd等[18]結(jié)合上述兩種分子標(biāo)記的優(yōu)點(diǎn), 提出了微單體型(Microhaplotype, MH)的概念,這是指長(zhǎng)度在200 bp以?xún)?nèi)、可連鎖遺傳的SNP組合。作為一種分子標(biāo)記, MH多態(tài)性高并且能夠穩(wěn)定遺傳, 已應(yīng)用于法醫(yī)行業(yè)[18—20]、人類(lèi)群體分析[21,22]及祖先推斷[23,24]等。2018年, Garciafernandez等[25]以每個(gè)目標(biāo)基因中的所有SNP位點(diǎn)作為一個(gè)單體型(Haplotype)分子標(biāo)記, 即長(zhǎng)片段的連鎖遺傳的SNP組合, 應(yīng)用于鯛(Sparus aurata)的親子鑒定。另外微單體型分子標(biāo)記也曾用于分析墨綠平鲉(Sebastes atrovirens)的親緣關(guān)系[26], 然而迄今沒(méi)有應(yīng)用于魚(yú)類(lèi)親子鑒定。
目前獲取微單體型或單體型分型的方法主要有兩種: 第一種方法是根據(jù)所獲得的各個(gè)SNP位點(diǎn),用群體遺傳學(xué)的手段進(jìn)行單體型推斷; 第二種方法是直接用個(gè)體基因組的測(cè)序數(shù)據(jù)的單體型組裝。用群體遺傳學(xué)推斷方法的常用軟件HaploView[27]、PHASE[28]、SHAPEIT[29]和Beagle[30]等, 它們對(duì)群體大小的依賴(lài)性較強(qiáng), 對(duì)于大樣本群體可以獲得較準(zhǔn)確的分型結(jié)果[31]。然而, 在魚(yú)類(lèi)的遺傳育種中親本數(shù)量通常較小[4,15,32], 難以獲得適用于此方法的足夠數(shù)量樣品, 不容易做到準(zhǔn)確分型。基于序列組裝的軟件主要有HapCUT2[33]、ReFHap[34]以及FLfinder[35]等, 目前僅用于單體型的推斷與分型, 而未應(yīng)用于微單體型的分析。這種方法不受樣本數(shù)量限制, 僅對(duì)測(cè)序深度敏感, 測(cè)序深度不足時(shí)無(wú)法獲得準(zhǔn)確的分型結(jié)果[36], 但隨著高通量測(cè)序成本的迅速下降, 測(cè)序深度已不再構(gòu)成瓶頸問(wèn)題。
本研究在基于個(gè)體測(cè)序數(shù)據(jù)的單體型組裝的基礎(chǔ)上, 開(kāi)發(fā)了一套基于微單體型分子標(biāo)記的親子鑒定流程, 其核心為微單體型標(biāo)記的獲取、分型與篩選, 所需要樣本更少且準(zhǔn)確率高, 適用于已有參考基因組的二倍體水產(chǎn)動(dòng)物。為評(píng)估新方法的效果, 我們以一個(gè)草魚(yú)群體的全基因組重測(cè)序數(shù)據(jù)為例, 以其親子鑒定結(jié)果與SSR鑒定結(jié)果的一致性為主要指標(biāo)對(duì)新方法加以驗(yàn)證和評(píng)估。
我們通過(guò)個(gè)體單體型組裝軟件獲取微單體型,整個(gè)親子鑒定流程主要分為三個(gè)步驟(圖1): 第一步是獲取親本微單體型。通過(guò)與參考基因組進(jìn)行比對(duì), 獲取每個(gè)親本個(gè)體的所有SNP位點(diǎn), 依據(jù)測(cè)序結(jié)果使用HapCUT2軟件進(jìn)行親本個(gè)體的單體型組裝, 從中選取微單體型區(qū)域, 將所有個(gè)體的區(qū)域集合起來(lái), 獲取在該基因片段上的微單體型區(qū)域。按照劃分好的微單體型區(qū)域, 對(duì)每個(gè)個(gè)體進(jìn)行微單體型組裝及分型。然后對(duì)子代進(jìn)行微單體型的分型。對(duì)于上面從親本中得到所有微單體型區(qū)域, 為每個(gè)子代個(gè)體進(jìn)行微單體型組裝。將該區(qū)域上子代與親本的全部分型結(jié)果形成列表, 依據(jù)各分型的索引構(gòu)建每個(gè)個(gè)體在該微單體型下的分型結(jié)果。最后根據(jù)全部子代分型結(jié)果, 用CERVUS 3.0軟件[37]進(jìn)行親子鑒定。

圖1 微單體型獲取和親子鑒定流程Fig. 1 Pipeline for microhaplotype genotyping and paternity testing
用HapCUT2軟件處理親本的重測(cè)序數(shù)據(jù), 獲取每個(gè)親本個(gè)體的MR, 即一個(gè)單體型的首尾SNP位點(diǎn)在參考基因組上的位置。集中所有親本個(gè)體的MR, 合并任何在位置上有重疊的MR, 構(gòu)成一個(gè)序列較長(zhǎng)的、信息量更高的MR總庫(kù)。
接下來(lái)將總庫(kù)中的每一個(gè)MR逐一與各親本的MR進(jìn)行比較。由于總庫(kù)MR是合并所有親本中相重疊MR所得, 那么, 每一個(gè)總庫(kù)MR必然不短于單個(gè)親本中與之有重疊的MR, 如果其非重疊區(qū)域(超出的部分)在該親本序列中也存在雜合的SNP位點(diǎn),那么這個(gè)MR將按重疊與非重疊區(qū)域拆分成兩個(gè)區(qū)域, 僅保留至少有2個(gè)SNP位點(diǎn)的區(qū)域作為新的MR,這樣可增加后續(xù)分析結(jié)果的準(zhǔn)確性。最終所得的MR總庫(kù)將用于后續(xù)分型研究。
依據(jù)MR總庫(kù)可對(duì)各親本進(jìn)行微單體型的分型, 即針對(duì)總庫(kù)中的每個(gè)MR確定各親本的具體微單體型序列。二倍體親本在每個(gè)MR最多只可能有2種微單體型, 這可以根據(jù)HapCUT2的分型結(jié)果篩選, 也可以參考該親本與參考基因組比對(duì)所得的VCF文件來(lái)確定。如果由于測(cè)序錯(cuò)誤或數(shù)據(jù)量不足, 無(wú)法明確地鑒定某MR的1—2種微單體型序列,則舍棄該MR。剩下的各有效MR中所得到微單體型序列都可僅保留各SNP位點(diǎn)的堿基, 然后計(jì)算各MR在親本群體中的信息熵, 公式如下:

式中,n表示該MR中微單體型序列的種類(lèi)數(shù),pi表示第i種微單體型在親本群體中出現(xiàn)的頻率,H表示該MR在親本群體中的信息熵。
使用與親本微單體型分型的方法, 也可以在每個(gè)子代中獲得各MR的微單體型序列, 用于后續(xù)的親子鑒定工作。
傳統(tǒng)上單體型標(biāo)記是通過(guò)群體遺傳學(xué)分析推斷而獲得的, 因此本研究也使用此方法進(jìn)行了單體型分子標(biāo)記的分型。分析過(guò)程比較簡(jiǎn)單: 首先通過(guò)SHAPEIT軟件將每個(gè)基因構(gòu)建一個(gè)單體型, 再依據(jù)各分型出現(xiàn)順序標(biāo)注每個(gè)個(gè)體的分型情況。
我們從草魚(yú)參考基因組[36]中篩選部分短序列重復(fù)片段作為候選SSR標(biāo)記, 并設(shè)計(jì)引物對(duì)2尾父本(1#和M10)和3尾母本(2#, F13和F40)進(jìn)行擴(kuò)增,擴(kuò)增程序?yàn)?5℃預(yù)變性10min, 95℃變性45s, 55℃退火45s, 72℃延伸1min, 循環(huán)30次, 72℃延伸10min,4℃保存。使用ABI 3730對(duì)各標(biāo)記的擴(kuò)增產(chǎn)物進(jìn)行毛細(xì)管凝膠電泳, 以條帶大小為分型依據(jù)判斷其多態(tài)性。最終選取5個(gè)多態(tài)性高的SSR標(biāo)記進(jìn)行親子鑒定, SSR標(biāo)記的相關(guān)信息見(jiàn)表1。171尾子代個(gè)體也同樣進(jìn)行目標(biāo)SSR標(biāo)記擴(kuò)增及分型, 然后進(jìn)行親子鑒定分析。

表1 用于親子鑒定的SSR標(biāo)記信息Tab. 1 Information of the SSRs used for the paternity test
我們以草魚(yú)基因組重測(cè)序數(shù)據(jù)(尚未發(fā)表)進(jìn)行了微單體型組裝, 數(shù)據(jù)來(lái)自上述五尾親本及其171尾子代個(gè)體, 其中親本測(cè)序深度為30X, 子代測(cè)序深度為15X, 并且評(píng)估了微單體型標(biāo)記應(yīng)用于親子鑒定的結(jié)果與SSR鑒定結(jié)果的一致性。重測(cè)序數(shù)據(jù)經(jīng)過(guò)了質(zhì)量分析(FastQC)、與參考基因組的比對(duì)(BWA[38])等步驟, 最后利用SAMtools[39]和GATK 4.0[40]軟件獲取各樣本的SNP位點(diǎn), 作為SNP信息集。
考慮到子代個(gè)體數(shù)并不多, 我們僅選擇了15個(gè)富含SNP的基因, 即adamts20(ADAM metallopeptidase with thrombospondin type 1 motif 20)、brca2(breast cancer 2)、dlc1(deleted in liver cancer 1)、gbp(guanylate binding protein)、lgals9(galectin 9)、lrp5(LDL receptor related protein 5)、meis2b(meis homeobox 2)、mrps23(mitochondrial ribosomal protein S23)、msi2(musashi RNA binding protein 2)、nos2b(nitric oxide synthase 2)、prtga(protogenin A)、rpz4(rapunzel 4)、snx14(sorting nexin 14)、thsd4(thrombospondin type 1 domain containing 4)和zmym4(zinc finger MYM-type containing 4), 以代表整個(gè)基因組來(lái)評(píng)估我們方法的效果, 這樣就大大減少了計(jì)算量。從這15個(gè)基因中SNP的密度分布可以看出, 在這些基因中確實(shí)存在一些SNP較為集中的片段(圖2)。微單體型由連鎖遺傳的SNP位點(diǎn)組合構(gòu)成且這些SNP位點(diǎn)通常距離較近, 因此這些分布較為集中的SNP可以組合成潛在的微單體型。
為了獲得PTMC, 我們首先依據(jù)親本性別構(gòu)建全部可能的親本對(duì), 為降低連鎖遺傳帶來(lái)的影響,隨后依次挑選若干來(lái)源于不同基因的標(biāo)記, 依據(jù)親本的分型情況, 可得到每一個(gè)親本對(duì)的后代在這些標(biāo)記中的所有可能的分型組合。若存在某兩個(gè)親本對(duì)的子代分型有重合的情況, 則認(rèn)為所選的標(biāo)記組合無(wú)法進(jìn)行親子鑒定; 反之, 若所有親本對(duì)的子代分型均唯一, 則認(rèn)為所選標(biāo)記組合可以用于親子鑒定, 并作為可用的親子鑒定標(biāo)記組合(PTMC)輸出。通過(guò)此步驟可以得到所有可能的PTMC, 從中選用平均信息熵最高的一套PTMC用于親子鑒定可以提高結(jié)果的準(zhǔn)確性。
基因組重組可能在子代中產(chǎn)生異于親本的分型類(lèi)型, 從而妨礙親子鑒定。適當(dāng)增加冗余標(biāo)記可以應(yīng)對(duì)這種分型矛盾。冗余標(biāo)記的選擇可以采用一種簡(jiǎn)單的策略, 即從與所有已選用標(biāo)記位于不同基因(或染色體)上的標(biāo)記中, 選擇信息熵最高的一個(gè)。重復(fù)該過(guò)程則可以選擇多個(gè)冗余標(biāo)記。
我們親本重測(cè)序數(shù)據(jù)對(duì)15個(gè)基因區(qū)域進(jìn)行了微單體型的組裝, 統(tǒng)計(jì)了每個(gè)基因上微單體型區(qū)域和SNP位點(diǎn)的數(shù)量, 以及第一個(gè)SNP位點(diǎn)到最后一個(gè)SNP位點(diǎn)之間的距離(表2), 并計(jì)算信息熵作為評(píng)價(jià)微單體型區(qū)域信息量的標(biāo)準(zhǔn)。總體而言, 大部分微單體型區(qū)域的信息熵的值介于1和2之間(圖3A),但其分布范圍在各基因之中有較大的變化(圖3B),并且信息熵值也隨SNP數(shù)量的增長(zhǎng)而呈上升趨勢(shì)(圖3C)。
親子鑒定使用的軟件為CERVUS 3.0[37], 參數(shù)為默認(rèn)值。

圖2 15個(gè)基因中SNP分布密度Fig. 2 Distribution of SNPs in 15 genes
由于親本的測(cè)序深度高于子代, 有些從親本上鑒定的MR序列在子代中沒(méi)有被覆蓋, 只有在所有子代中出現(xiàn)的MR才是有效MR。我們首先嘗試將一個(gè)基因上的全部有效MR作為一套標(biāo)記進(jìn)行親子鑒定, 其結(jié)果與用SSR鑒定結(jié)果的一致性見(jiàn)表2。不同基因的鑒定能力差異很大, 其中adamts20、brca2、prtga和snx14鑒定的結(jié)果與SSR分析的一致性較高(>95%), 而gbp、lrp5、meis2b和mrps23的一致性較低(<50%)。親子鑒定的效果與基因中微單體型標(biāo)記的數(shù)量或信息熵之和存在一定的關(guān)系, 但并非簡(jiǎn)單的線性關(guān)系(R2=0.2302)。對(duì)于我們所測(cè)試的數(shù)據(jù), 當(dāng)基因中標(biāo)記數(shù)或信息熵之和低于10時(shí),親子鑒定的效果與之有正相關(guān)性, 但之后即達(dá)到飽和, 與SSR分析的一致性維持很高(圖4)。
如果不考慮基因重組, 根據(jù)5個(gè)親本所有標(biāo)記的實(shí)際分型情況, 理論上僅需3個(gè)標(biāo)記就能分辨出它們之間任何子代的親本, 而這樣的3標(biāo)記組合總共有189個(gè)。從中選擇平均信息熵最高的一組作為標(biāo)記進(jìn)行親子鑒定, 結(jié)果在171個(gè)子代中, 與SSR鑒定結(jié)果不同的個(gè)體僅5個(gè), 一致率達(dá)到97.08%。再逐次增加第1個(gè)和第2個(gè)冗余標(biāo)記后, 不一致個(gè)體減少為2個(gè)和1個(gè), 一致的比率進(jìn)一步提高到98.83%和99.42%(表3)。
除了使用單個(gè)個(gè)體的測(cè)序數(shù)據(jù)進(jìn)行微單體型組裝的方法外, 還可以利用群體遺傳學(xué)的方法進(jìn)行單體型推斷, 從而獲取微單體型分型。為了比較這兩種方法在親子鑒定上的區(qū)別, 我們使用SHAPEIT軟件獲取了上述176尾個(gè)體在15個(gè)基因上的單體型分型情況。通過(guò)比較發(fā)現(xiàn), 當(dāng)某個(gè)基因中SNP數(shù)量過(guò)多時(shí), 個(gè)體分型種類(lèi)十分復(fù)雜, 不能用于親子鑒定, 因此我們選擇SNP數(shù)量較少的基因msi2嘗試進(jìn)行單體型分型。在5尾二倍體親本中, 該基因的SNP總共出現(xiàn)了10種分型, 也就是說(shuō), 在5個(gè)親本中出現(xiàn)了10個(gè)不同的等位基因類(lèi)型。在正常情況下,如果不考慮重組以及各種偏差, 任何兩個(gè)親本得到的后代都應(yīng)該是這10個(gè)等位基因的組合, 可以被明確地鑒定其等位基因來(lái)自哪兩個(gè)親本。然而, 通過(guò)群體遺傳學(xué)推斷, 在171尾子代中共檢出42種分型,出現(xiàn)了34種親本并不存在的分型, 并且有一個(gè)母本(2#)的兩種分型還不包含在其中。
目前標(biāo)記的獲取主要有三種策略: (1)從已經(jīng)報(bào)道的多態(tài)性標(biāo)記位點(diǎn)中獲得[32,41]; (2)選取適當(dāng)數(shù)量(通常小于100尾)的個(gè)體數(shù)據(jù)用于測(cè)試標(biāo)記多態(tài)性[12,42,43]; (3)使用全部親本子代組成的群體進(jìn)行標(biāo)記篩選[25,44]。本研究所采用的方法為第二種, 并且考慮到重組和變異的頻率不可能很高, 子代的絕大部分標(biāo)記均與其親本一致, 因此我們用于獲取標(biāo)記的個(gè)體為全體親本, 不包括子代個(gè)體。在魚(yú)類(lèi)育種研究中, 通常是很有限的親本產(chǎn)生大量的子代。在親子鑒定過(guò)程中, 我們只需要通過(guò)數(shù)量有限的親本獲取少量標(biāo)記, 即可從大量的子代中獲取出必要的信息, 這種做法具有快速和低成本的優(yōu)點(diǎn), 非常有利于大規(guī)模的親子鑒定。

表2 各基因上的SNP位點(diǎn)與微單體型區(qū)域的數(shù)量以及親子鑒定準(zhǔn)確率Tab. 2 SNP loci and MR in each gene and the accuracy of paternity testing
本研究比較了基于群體遺傳推斷的方法和基于個(gè)體序列組裝的方法。前者使用的算法大多為EM算法或其他概率算法, 核心為參數(shù)優(yōu)化, 從理論本身而言, 需要大樣本量來(lái)進(jìn)行推斷, 對(duì)于樣本量較少而SNP位點(diǎn)較多的群體分型結(jié)果不準(zhǔn)確[31]。依據(jù)孟德?tīng)柗蛛x定律與自由組合定律, 理論上絕大多數(shù)子代的分型應(yīng)與其對(duì)應(yīng)的親本相一致, 然而在本研究中該方法的分型結(jié)果與親本的實(shí)際分型情況相差很大, 因此我們沒(méi)有使用這些分型數(shù)據(jù)進(jìn)行親子鑒定。出現(xiàn)這樣親子分型差異較大的情況, 說(shuō)明對(duì)于這種方法來(lái)說(shuō), 包含171尾子代個(gè)體的群體樣本量依然太小, 導(dǎo)致進(jìn)行概率計(jì)算時(shí)無(wú)法獲得準(zhǔn)確的估計(jì), 從而產(chǎn)生了錯(cuò)誤的分型結(jié)果。可見(jiàn)使用群體遺傳學(xué)方法進(jìn)行單體型分型對(duì)于樣本數(shù)據(jù)量有很高的要求, 在應(yīng)用中有明顯的局限性。

圖3 基于個(gè)體序列組裝的微單體型分析結(jié)果Fig. 3 Analysis of the microhaplotypes assembled using the sequence data of individuals

圖4 親子鑒定一致性與MH標(biāo)記數(shù)量(A)和各基因有效標(biāo)記信息熵之和(B)的關(guān)系Fig. 4 Consistency between the SSRs used in the paternity test and MH marker numbers (A) or the sum of the informative indexes of the markers within each gene (B)

表3 所選用的MR標(biāo)記與171尾子代個(gè)體的親子鑒定Tab. 3 MR markers adopted and paternity test results of 171 offspring
相比之下, 利用測(cè)序數(shù)據(jù)直接進(jìn)行單體型或微單體型組裝的方法不僅更為準(zhǔn)確地從親本中得到了各個(gè)標(biāo)記的多種分型, 也能從子代中找到這些分型, 從而順利完成親子鑒定過(guò)程。這種方法的主要劣勢(shì)在于易受到單個(gè)位點(diǎn)測(cè)序深度和測(cè)序錯(cuò)誤的影響[36]。在本研究中, 子代測(cè)序深度為15X, 在某些SNP位點(diǎn)上測(cè)序深度不足, 導(dǎo)致無(wú)法獲取某些微單體型的分型。不過(guò), 在實(shí)際應(yīng)用中這也不會(huì)成為一個(gè)問(wèn)題, 因?yàn)樵诮?jīng)通過(guò)親本的測(cè)序數(shù)據(jù)選定標(biāo)記之后, 只需要在子代中擴(kuò)增這些微單體型標(biāo)記, 直接測(cè)序即可得到其準(zhǔn)確的分型, 而不需要進(jìn)行高成本的基因組重測(cè)序與序列組裝。此外, 目前靶向捕獲基因組聯(lián)合二代測(cè)序技術(shù)已經(jīng)得到了廣泛應(yīng)用[45],同樣可以用于在大量的子代群體中測(cè)序少量的標(biāo)記序列。很顯然, 在高通量測(cè)序技術(shù)已經(jīng)普及的背景下, 基于序列組裝的方法更加適合于魚(yú)類(lèi)親子鑒定的工作。
本研究比較了用MH與SSR進(jìn)行親子鑒定的結(jié)果, 并未得到完全的一致, 可能有兩方面的原因。首先, 某些個(gè)體測(cè)序深度不足, 導(dǎo)致無(wú)法分型, 這已在上文進(jìn)行討論。其次, 各標(biāo)記多態(tài)性不同, 導(dǎo)致親本區(qū)分度不同。從圖2和表2來(lái)看, 一致率低的基因往往只有極少或根本不存在SNP密集分布區(qū)域, 導(dǎo)致這些基因的絕大多數(shù)MH分型種類(lèi)也較少,大量親本為純合子, 對(duì)各親本的區(qū)分度不足, 而目前常用的CERVUS 3.0軟件傾向于選擇純合子親本作為親子鑒定的輸出結(jié)果[46], 因此, 對(duì)于這類(lèi)基因,MH親子鑒定得到的親本往往是純合子, 而與真實(shí)親本對(duì)可能有較大誤差, 最終影響親子鑒定結(jié)果的準(zhǔn)確性。相反, 一致率高的基因大多存在若干SNP分布密集的區(qū)域且有效MR數(shù)較多, 即使單個(gè)基因近似連鎖遺傳, SNP密集的MH具有高多態(tài)性, 使得此基因MH標(biāo)記總信息熵高, 可彌補(bǔ)其他MH區(qū)分度低的缺陷, 從而保留較高親本區(qū)分度。此外, 在這些MH上親本大多為雜合子, 因此可以極大提升親子鑒定效果, 最終親子鑒定一致率較高(圖4B)。最后, MH標(biāo)記內(nèi)部也可能存在的重組問(wèn)題, 雖然這種可能性很小, 但一旦發(fā)生, 子代分型結(jié)果便無(wú)法與其真實(shí)親本對(duì)完全對(duì)應(yīng), 從而導(dǎo)致親子鑒定結(jié)果出現(xiàn)誤差, 這種情況在SSR標(biāo)記中也存在。為盡可能減少上述因素的影響, 本研究使用了高多態(tài)的分子標(biāo)記及冗余標(biāo)記, 其中高多態(tài)的分子標(biāo)記用于提升標(biāo)記區(qū)分度, 冗余標(biāo)記用于矯正測(cè)序深度和重組帶來(lái)的分型誤差, 最終親子鑒定一致率得到了提升(表3)。
MH標(biāo)記應(yīng)用于親子鑒定的優(yōu)勢(shì)在于此類(lèi)標(biāo)記易于獲取、分型及篩選, 如果結(jié)合靶向測(cè)序就能夠以極低的成本高效而準(zhǔn)確地完成子代的分型與親子鑒定; 其劣勢(shì)則在于鑒定能力嚴(yán)重依賴(lài)于MH標(biāo)記的多態(tài)性, 而且使用全基因組重測(cè)序數(shù)據(jù)分析時(shí),有些標(biāo)記可能會(huì)受局部測(cè)序偏低的影響, 此外, 標(biāo)記內(nèi)重組也影響親子鑒定效果。因此, 我們的方法首先根據(jù)親本序列對(duì)目標(biāo)區(qū)域的SNP密度進(jìn)行評(píng)估, 篩選出高多態(tài)性的MH分子標(biāo)記, 從而提升所用標(biāo)記的分辨能力; 加入冗余標(biāo)記則可以盡可能地減少測(cè)序深度低和標(biāo)記內(nèi)重組帶來(lái)的影響; 如果對(duì)目標(biāo)基因或片段進(jìn)行靶向測(cè)序, 就能夠完全排除局部測(cè)序深度低的干擾。
雖然本研究的范例中僅從15個(gè)基因序列里篩選了親子鑒定的標(biāo)記, 但對(duì)于有參考基因組的物種,該方法完全可以在全基因組范圍內(nèi)進(jìn)行微單體型標(biāo)記的獲取與分型。通過(guò)計(jì)算這些微單體型信息熵值以篩選信息熵最高的微單體型標(biāo)記, 提升標(biāo)記的多態(tài)性和分辨能力, 可以用于個(gè)體鑒定、親子鑒定, 以及更廣泛的親緣關(guān)系鑒定, 甚至還可將其應(yīng)用于經(jīng)濟(jì)性狀的關(guān)聯(lián)分析中, 作為全基因組選擇育種的分子標(biāo)記。