陳 宇,邱 奧,張梓鵬,都鶴鶴,白俊艷,王貴江,羅文學,倪俊卿,李 凱,丁向東*
(1.河南科技大學動物科技學院,洛陽 471000; 2.中國農業大學動物科學技術學院畜禽育種國家工程實驗室 農業農村部動物遺傳育種與繁殖重點實驗室,北京 100193;3.河北省畜牧良種工作總站,石家莊 050061; 4.河南省畜牧總站,鄭州 450008)
單核苷酸多態性(SNP)是基因組上最常見的一種遺傳變異,是由單個核苷酸突變引起,占所有已知多態性的90%以上,廣泛存在于基因組中。其具有密度高、分布范圍廣、遺傳穩定、分型簡單、可自動化檢測等優點,被認為是目前最佳的分子標記。已廣泛應用于全基因組關聯分析(genome-wide association study)和基因組選擇(genomic selection)等遺傳分析和育種應用。尤其是基因組選擇,高通量基因型檢測是其實施的前提,正是由于2006年高通量SNP芯片的推出,基因組選擇才正式應用于育種實踐。SNP芯片標記密度對基因組選擇準確性十分重要,然而高密度SNP芯片在大群體上的應用成本很高,為了降低成本,低密度SNP芯片應運而生,可通過基因型填充將其填充至高密度SNP芯片甚至測序數據,兼顧基因型檢測成本和分子育種效率。在基因組選擇育種實踐中,通過基因型填充技術,能有效地將低密度芯片填充到高密度水平,并保持相當高的填充準確率,不影響基因組選擇準確性,從而大大提高了低密度芯片的使用價值和育種效果。
基因型填充技術就是利用已有的分型信息對實際未分型的位點進行基因型預測。目前,已經發展了很多基因型填充方法。根據是否利用家系信息分為兩種,一種是利用群體連鎖不平衡信息構建單倍型,相應的軟件有FAMHAP、fastPHASE、IMPUTE2、Beagle、PLINK等;另一種是利用系譜信息和標記連鎖信息構建單倍型,相應的軟件有Find-hap、Fimpute、AlphaImpute、PEDIMPUTE等。其中Beagle主要利用隱性馬爾科夫鏈技術,填充準確性高,應用廣泛。本試驗使用Beagle 4.1軟件進行填充。
液相芯片是繼凝膠電泳、熒光檢測、固相芯片之后的新型分子檢測技術,該技術基于靶向測序基因型檢測(GBTS)技術,因其能夠使目標探針與靶向序列互補結合從而進行定點捕獲,且能夠在液相中同時快速完成成千上萬個探針雜交反應的試劑盒,形象稱之為液相芯片。與傳統的基因型檢測技術和固相芯片相比,液相芯片具有平臺廣適性、標記靈活性、檢測高效性、信息可加性、支撐便捷性和應用廣譜性等優點,具有廣闊的應用前景。中國農業大學先后開發了豬低密度SNP芯片(專利號:ZL201711190317.6)和豬50K液相芯片(專利申請號:202110359470.7),用于豬性狀遺傳解析和基因組選擇。雖然從低密度SNP填充至高密度的研究很多,但主要以固相芯片為主,目前液相芯片基因型填充的研究并不多見。為此本研究利用中國農業大學開發的豬10K和50K液相芯片,研究液相芯片從10K到50K的基因型填充效果,為其他畜禽相關研究提供借鑒。
本研究中3 761頭豬只均來自河北大好河山養豬科技有限公司的健康大白群體,出生日期在2018—2021年間,日齡160 d左右,體重110 kg左右,采全血后,使用由中國農業大學開發的液相50K芯片(包含52 000個SNPs標記)進行基因型測定。
采用 PLINK 軟件對所有個體基因型數據進行質量控制,剔除性染色體和位置未知的位點及位點檢出率(call rate)<90%的SNP,剔除檢出率<90%的個體。質量控制后,保留47 890個標記和全部個體。
本試驗使用Beagle4.1軟件進行基因型填充。填充的流程如下:從質控后群體中隨機抽取100頭大白豬,從50K芯片中抽取標記生成10K芯片,作為填充群體。再從剩余群體中分別隨機抽取800、2 000、3 600個個體作為參考群體,對100頭填充群體進行基因型填充。相同流程重復10次。
基因型填充準確性是檢驗填充效率的一個重要指標。本研究用100頭填充群體基因型填充后與原始50K基因型的一致性和相關系數衡量填充效果。基因型一致性是指正確填充的基因型占需要進行填充的基因型的比例。基因型相關系數(Cor)是指推斷的基因型和原始基因型之間的相關系數。此外,Beagle 4.1軟件計算出的理論填充準確性(DR)也可作為參考。
表1列出了質控后2款液相芯片18條常染色體的SNP標記數、平均間距和連鎖不平衡水平統計。質控前液相10K和50K芯片18條常染色體共計9 823和49 886個位點,質控后分別有9 685和47 890個位點,位點的缺失率分別為0.40%和1.58%。如表1所示,液相10K芯片的位點平均間距為226 394 bp,平均連鎖不平衡(r)為0.227;液相50K的平均位點間距為44 231 bp,平均連鎖不平衡為0.258,說明10K與50K液相芯片相比,標記間距雖然從44 kb擴大到226 kb,但是SNP標記間的連鎖不平衡程度卻幾乎沒有下降。雖然大部分染色體50K液相芯片的連鎖不平衡程度高于10K芯片,但是8、12、18號染色體10K芯片的連鎖不平衡程度高于50K芯片。

表1 10K和50K液相芯片各染色體標記間距和連鎖不平衡(r2)統計Table 1 The markers distance and linkage disequilibrium (r2) of 10K and 50K SNP panels on each chromosome
圖1顯示了不同參考群體大小下最小等位基因頻率(MAF)對基因型填充準確性的影響。從圖1a、1b可以看出,用來反映填充準確性的兩個指標基因型一致性和相關系數展現了相同趨勢。MAF為0.05時是填充準確性的拐點。當質控標準 MAF 小于 0.05 時,填充準確性都很低,隨著 MAF 的增加,基因型填充的準確性急速上升;當 MAF 大于 0.05 時,雖然填充準確性依然隨著 MAF 的上升有所增加,但增加幅度明顯減緩。由于 MAF<0.05 的標記填充準確性不高,因此本研究剔除 MAF<0.05 的位點,用于后續分析。同時,從圖1中也可看出,隨著參考群規模的增大,相同MAF下的填充準確性也隨之升高,參考群體越大,填充準確性越高。

a.MAF對基因型填充一致性的影響;b.MAF對基因型填充相關系數的影響a.Impact of MAF on genotype imputation consistency; b. Impact of MAF on genotype imputation correlation coefficients圖1 MAF對基因型填充準確性的影響Fig.1 Impact of minor allele frequency (MAF) on genotype imputation accuracy
表2列出了刪除10K和50K芯片中MAF<0.05標記前后的基因型填充準確性。結果表明,刪除MAF<0.05的標記后,3種參考群體規模下,填充準確性都提高了。當參考群體大小為3 600時,DR、基因型一致性和相關系數分別從0.976、0.941和0.922提高到0.978、0.965和0.948。同樣,10次重復的每個填充準確性指標的標準差也變小了。參考群體大小為800和2 000時,也是如此。說明刪除MAF<0.05的標記可以進一步提高填充準確性。同圖1一樣,表2進一步表明了參考群體規模對填充準確性的影響。可以看出,當參考群體規模為800時,基因型一致性和相關系數分別為0.907和0.902;當參考群體規模增加至2 000時,基因型一致性和相關系數分別為0.939和0.924,相較于800群體,其基因型一致性和相關系數分別提升了3.53%和2.44%;繼續增加參考群體規模至3 600時,基因型一致性和相關系數分別為0.965和0.948,較2 000規模群體提升了2.77%和2.60%,較800規模群體提升了6.39%和5.10%。填充準確性的上升幅度均比較明顯。與基因型一致性和相關系數相比,DR雖然也隨著參考群體規模增大而提高,但是變化幅度不大,參考群體規模為2 000和3 600時,DR幾乎沒有差異。

表2 刪除MAF<0.05標記后填充準確性變化Table 2 The comparison of the imputation accuracy before and after removal of SNPs with MAF<0.05
圖2a、2b展現了刪除MAF<0.05標記后每條常染色體上的基因型一致性(a)和相關系數(b),可以看出,參考群體規模較小時,染色體填充準確性波動較大,隨著參考群體規模增大,每條染色體填充準確性相差不大。

a.參考群大小對基因型填充一致性的影響;b.參考群大小對基因型填充相關系數的影響a.Impact of reference population size on genotype imputation consistency; b.Impact of reference population size on genotype imputation correlation coefficients圖2 參考群大小對基因型填充準確性的影響Fig.2 Impact of reference population size on genotype imputation accuracy
已有很多研究表明,參考群大小會對基因型填充的準確性產生較大影響。Lee等使用了3 821頭漢伍牛,以889頭漢伍牛作為填充群體,以其余500、1 000、1 500、2 000、2 000余頭漢伍牛作為參考群體,研究了3個低密度芯片(5K、10K、15K)到高密度(50K)芯片的基因型填充準確性,結果表明在參考群體規模為3 600時,基因型填充的準確性可達0.904~0.967。He等在關于中國荷斯坦奶牛從6K到50K的填充效果研究中,比較了3種不同的填充軟件對3種不同參考群下基因型填充準確性的影響,結果表明在fimpute 軟件中,所有情況下都表現最好,從公牛到女兒或半同胞之間的相關性由0.921提升至0.978。Weng等也在2 108頭中國荷斯坦奶牛3K到7K的填充效果研究中,發現使用3款填充軟件無論以何種比例奶牛作參考群,Beagle的表現最穩定,平均填充準確性可達0.90。Badke等用1 800頭大白豬作參考群,從10K填充至60K,平均填充準確性可達到0.95。Xiang等研究表明,使用4 263頭大白豬作為參考群,從8K填充至60K,填充準確性可達0.94。這與本研究結果相似,當參考群體規模為2 000和3 600時,10K液相芯片填充到50K液相芯片的準確性為0.92、0.95(相關系數)和0.94、0.97(基因型一致性)。本研究用DR、基因型一致性和相關系數作為衡量填充準確性指標,相同情況下,DR的值最高,相關系數最低,通常使用相關系數評價填充準確性較多。
最小等位基因頻率對基因型填充準確性的影響也有很多報道。本研究結果表明,對于較低MAF的填充準確性會隨著參考群體規模的增大提高,這是因為對于較低的MAF,更大的參考群體可以提供更多的稀有變異的單倍型種類,從而提高填充準確性。Lee等在研究不同水平下低密度芯片到高密度芯片的填充效果時,發現在相同MAF下,提高參考群大小能顯著提升基因型填充的準確性,且MAF等于0.015是該試驗填充準確性的拐點。曾浩南等研究了3款50K芯片填充至測序數據MAF對基因型填充準確性的影響時,發現MAF等于0.1是該試驗填充準確性的拐點。馬裴裴在芬蘭和瑞典紅牛的混合群體中,比較了幾種填充軟件將標記從3K填充到54K時MAF對填充準確性的影響,發現無論使用哪種軟件,MAF等于0.05是該試驗基因型填充準確性的拐點。在本試驗中,也發現MAF為0.05是填充準確性的拐點,MAF<0.05時,基因型填充的準確性比較低,遠小于MAF>0.05時的基因型填充準確性,當MAF>0.05后,基因型填充準確性會趨于平穩,這也與Heidaritabar等和Zheng等的研究結果相似。在大多數基于芯片的全基因組關聯分析或基因組選擇中,剔除 MAF<0.05 的位點是常用的基因型質量控制標準,本研究也表明,剔除MAF<0.05的位點后,液相芯片10K到50K的填充準確性得到提高。因此,液相芯片可同固相芯片一樣,將剔除MAF<0.05的標記作為基因型質量控制標準。
本研究表明,參考群體大小對基因型填充準確性的影響很大,當參考群體由800擴大到3 600時,填充準確性從0.90提高到0.95,10次重復的標準差也從0.006下降到0.002(表2),說明不僅準確性提高了,而且填充效果穩定。進行基因型填充時,構建單倍型的準確性影響填充的效果,而參考群體的大小直接影響單倍型的構建。如果參考群較小,那么構建的單倍型種類可能不完全,填充時目標群體的單倍型就可能無法在參考群內找到。Pausch等在德系西門塔爾牛群體中分別利用50、100、200和400頭牛作為參考群,將50K芯片填充至700K,結果也發現基因型填充準確性隨著參考群的增加而增加。He等在中國荷斯坦奶牛群體中,以不同參考群的10%、30%、60%、90%作為參考群,將6K芯片填充至50K,3款填充軟件的基因型填充準確性都會隨參考群的增大而增大。Weng等也以2 108頭中國荷斯坦奶牛的20%、40%、80%、95%作參考群,從3K填充至7K,基因型填充準確性逐漸增大。這與本研究的結果一致。此外,Ghoreishifar等也發現,在填充群體一定時,參考群由小規模提升至中等規模,基因型填充的準確性提升很大,而當參考群繼續增大至大規模時,填充準確性的提升緩慢。這與本研究的結果相似,在本試驗中,隨著參考群體的逐漸增大,基因型填充準確性的提升幅度會逐漸減小。
本研究探討了豬液相芯片從10K到50K的基因型填充效果,結果表明,相同參考群體規模下,液相芯片填充準確性同研究較多的固相芯片一樣。隨著參考群體規模的擴大,基因型填充的準確性也會隨之提升;但當參考群體擴大至一定程度時,繼續擴大參考群體對基因型填充準確性的提升幅度會變小,但依舊可以提升基因型填充的準確性。因此,可以適當選取參考群規模,在降低檢測成本的同時,保證基因型填充的準確性。另外,同固相芯片一樣,MAF<0.05是填充準確性的拐點,可以在基因型質量控制時剔除MAF<0.05位點。
基因芯片的低密度化是有效降低測定成本的育種手段,也是國際動物育種的趨勢。將低密度芯片與液相芯片結合可以實現基于檢測成本的大幅降低,有助于推動基因組選擇的實際應用。本研究結果表明了豬液相芯片從10K填充到50K是可行的,可以大規模用于基因組選擇,進行早期選種,降低基因組選擇育種成本。