999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因型特征提取方法影響基因組選擇預測準確性的研究

2024-09-22 00:00:00吳華煊杜志強
畜牧獸醫學報 2024年6期
關鍵詞:特征提取

摘 要:旨在探索并評估6種不同的單核苷多態性(single nucleotide polymorphisms,SNP)基因型特征提取方法。本研究分析比較了6種方法:主成分分析(principal component analysis,PCA)、基因主成分分析(gene-principal component analysis,gene-PCA)、SNP位點間皮爾遜相關系數(SNP-pearson correlation coefficient,SNP-PCC)、連鎖不平衡(linkage disequilibrium,LD)、全基因組關聯分析(genome-wide association study,GWAS)和隨機抽樣(random sampling,RS),在兩組數據(北京鴨,542個樣本,SNP位點數39932;杜洛克豬,2549個樣本,SNP位點數230884)3組表型(北京鴨體長(body length)、杜洛克豬背膘厚(backfat thickness)和乳頭數(teat number))上的GEBV預測準確率。發現SNP-PCC結合5種GS方法(GBLUP、BayesA、BayesB、BayesC、Bayesian Lasso),在北京鴨數據獲得相對可靠的預測精度,在豬背膘厚和乳頭數表型獲得最高平均預測準確性(提升5%,達到32.3%),并顯著提升計算效率(平均提升5~7倍)。綜上,本研究發現選擇合適的特征提取方法可以有效提升GS的預測準確性和計算效率,為深入研究不同特征提取方法對GS預測準確性的影響奠定了基礎,并為其在育種實踐中應用提供了參考。

關鍵詞:基因組選擇;特征提取;預測準確性

中圖分類號:S813.1

文獻標志碼:A

文章編號:0366-6964(2024)06-2431-10

收稿日期:2023-11-08

基金項目:安徽省畜禽聯合育種改良項目(2021-2025)

作者簡介:吳華煊(1998-),男,江西上饒人,碩士生,主要從事動物遺傳育種研究,E-mail:2021710855@yangtzeu.edu.cn

*通信作者:杜志強,主要從事動物遺傳育種與繁殖研究,E-mail:zhqdu@yangtzeu.edu.cn

Methods of Genotype Feature Extraction InfluenceAffecting the Prediction

Accuracy of Genomic Selection

WUHuaxuan,DUZhiqiang*

(College of Animal Science and Technology,Yangtze University,Jingzhou434025,China)

Abstract:The purpose of this study was to explore and evaluate6different methods for extracting genotype feature of single nucleotide polymorphisms(SNP).Six methods were analyzed and compared:principal component analysis(PCA),gene-principal component analysis(gene-PCA),SNP-Pearson correlation coefficient(SNP-PCC),linkage disequilibrium(LD),and genome-wide association study(GWAS)and random sampling(RS).The prediction accuracy of GEBV in2sets of data(Beijing duck,542samples,SNP loci39932; Duroc pig,2549samples,SNP loci230884)and3sets of phenotypes(Beijing duck body length,Duroc pig backfat thickness and teat number)was evaluated using random sampling.Results showed that SNP-PCC combined with5GS methods(GBLUP,BayesA,BayesB,BayesC,and Bayesian Lasso)achieved relatively reliable prediction accuracy for the Pecking duck body length phenotype and achieved the highest average prediction accuracy in pig backfat thickness and nipple countteat number phenotypes(increased by5%,reaching32.3%),and significantly improved computational efficiency(on average5-7times faster).In summary,this study found that selecting appropriate feature extraction methods can effectively improve the accuracy and computational efficiency of GS prediction,laying the foundation for in-depth research on the impact of different feature extraction methods on GS prediction accuracy,and providing reference for their application in breeding practice.

Key words:genomic selection; feature extraction; prediction accuracy

*Corresponding author:DU Zhiqiang,E-mail:zhqdu@yangtzeu.edu.cn

基因組選擇(GS)是現代動植物遺傳育種和基因組學研究中的重要領域之一[1]。GS旨在分析高通量基因組學和表型數據如單核苷酸多態性(single nucleotide polymorphisms,SNPs)等遺傳變異標記,計算個體基因估計育種值(GEBV),以期縮短世代間隔,提高動植物的遺傳改良效率,加快選育進展[2-6]。計算GEBV的常用方法如最小二乘法、嶺回歸-最佳線性無偏預測(ridge regression best linear unbiased prediction,RR-BLUP)、貝葉斯(Bayesian)方法等主要用于估計等位基因的遺傳效應[3]。此外,基因型數據的特征選擇或提取(feature selection or extraction)會構建出不同的基因組關系矩陣(GRM),從而影響GEBV的準確性,例如基因組最佳線性無偏預測(genomic best linear unbiased prediction,GBLUP)通過比較個體間SNP的等位基因相似度來構建GRM矩陣[7]

隨著基因組重測序技術的發展和成熟,高維基因組學數據統計分析成為了GS中的一個核心問題。已有研究表明,基因組學數據的特征提取不僅可以提高預測的準確性,還可以加快計算速度和效率[8-10]。機器學習方法在特征提取和基因組選擇中存在著潛在優勢,如復雜數據模式識別和處理能力[11-13]。然而,如何構建一種簡單且高效的特征提取方法,提高GS的預測準確性仍有待深入研究[13-16]

本研究聚焦于探索并評估針對基因型數據的特征提取技術,旨在構建一個既準確又高效的GS方法。研究結果將為進一步算法開發,并應用于動物育種實踐奠定基礎。

1 材料與方法

1.1 數據來源

本研究選擇兩批數據共3組表型,分別為北京金鴨有限公司提供的北京鴨(使用相同的飼料喂養,保持相同的光照條件)[17],和中國農業大學提供的杜洛克豬數據[18]。北京鴨數據包含542個樣本,表型為體長(body length)。豬數據包含2549個樣本,共計兩組表型:背膘厚(backfat thickness)和乳頭數(teat number)。

使用PLINIK(v1.90b6.21)對數據進行初步質控:-mind和-geno參數設定為0.02過濾掉基因型缺失率為大于2%的個體和SNP位點;-maf=0.05過濾掉最小等位基因(minor allele frequency,MAF)小于0.05的位點;-hwe=1×10-4過濾哈迪-溫伯格(Hardy-Weinberg)平衡檢驗中P值小于1×10-4的SNPs;最后使用Beagle(v5.2)填充缺失基因型。

1.2 特征提取

特征提取是數據分析和機器學習領域中的一個重要概念,目的是將高維、復雜的數據轉換為低維形式,同時保留重要的數據特性。通過特征提取,可以降低計算復雜度、減少噪音對模型的影響,并提高算法的效率和性能[19]

本研究包括以下6種特征提取的方法:主成分分析(PCA)、基因PCA(Gene-PCA)、SNP位點皮爾遜相關系數(SNP-PCC)、連鎖不平衡(LD)、全基因組關聯分析(GWAS)和隨機抽樣(RS)。

1.2.1 PCA

PCA首先計算數據的協方差矩陣,然后找到協方差矩陣的特征值和對應的特征向量。選擇具有最大特征值(即最大方差)的前k個特征向量。并利用這些特征向量將原始數據矩陣轉換到一個新的空間中,從而完成降維。

1.2.2 基因PCA

基因PCA是PCA中專門用于基因數據的變種。這些數據通常是一個矩陣,行代表不同的樣本,列代表不同的位點,元素是對應位點上的基因型。

本次研究基于機器學習庫scikit-learn[20](1.1.3)構建PCA和Gene-PCA算法。

1.2.3 SNP位點皮爾遜相關系數

皮爾遜相關系數是用于計算兩組變量之間線性關系的統計方法。PCC的取值在-1到1之間,具有以下含義:PCC等于1時表示兩組變量呈現完全正相關;PCC等于-1時表示兩組變量之間完全負相關;PCC等于0則表示兩組變量間不存在線性相關性。本次研究編寫Python(3.8.0)代碼計算兩個SNPs位點之間的相關性,如果大于0.8,即兩個SNPs位點間呈現強正相關,則只保留其中一個位點:

PCC(X,Y)=∑ni=1(Xi-X-)(Yi-Y-)∑ni=1(Xi-X-)2ni=1(Yi-Y-)2

其中,Xi、Yi是第i個元素的觀察值,X-、Y-分別是X、Y的均值。

1.2.4 連鎖不平衡

連鎖不平衡是遺傳學和基因組學領域的一個重要概念[21],描述了兩個或多個基因座(基因的位置)之間的非隨機關聯性。使用LD進行特征提取的步驟主要如下:1)數據集準備,準備包含經過初步質控的多個個體的SNP矩陣,并對不同的基因型進行重編碼(A/A、A/a、a/A、a/a編碼后為0、1、1、2);2)計算LD,使用r2來度量SNPs位點之間的LD。D和r2被用于量化兩個位點(假設為雙等位基因)的連鎖不平衡(LD):

D=PAiBi-PAi*PBi

r2=D2PAi(1-PAi)PBi(1-PBi

其中,PAi、PBi及PAiBi分別代表在基因座A與B上的第i、j等位基因和PAiBi單倍型的頻率。通常更傾向使用r2而非D,因為D可能為負數[22-24];3)設定LD的閾值篩選,常見的LD閾值在0.7~0.9之間,本次研究所選取的LD閾值為0.8,即兩個SNP位點之間的r2值大于0.8被認為存在強烈的LD關聯,只保留其中一個位點。

1.2.5 GWAS

GWAS用于鑒定與特定表型特征或疾病相關的遺傳變異,因此可以作為特征選取的一種方法。本研究基于GCTA線性混合模型,進行GWAS特征選取:

y=Xb+Zu+e

其中,y表示表型向量;X表示固定效應矩陣;b表示固定效應回歸系數向量;Z表示隨機效應矩陣;u表示SNP位點隨機效應向量,符合正態分布u~N(0,G),其中,G為隨機效應協方差矩陣;e為隨機殘差,遵循正態分布e~N(0,Iσ2e)。

1.2.6 隨機抽樣

與其他特征提取方法相比,隨機抽樣更加簡單和直觀,不需要進行相關計算,從而減少分析的復雜性。此方法適用于初步的探索性分析:當研究者不確定哪些位點最有價值或希望避免主觀選擇時,隨機抽樣可以提供一個廣泛的數據視角,進而找到可能值得關注的位點。此外,隨機抽樣還可以作為一個基準,與其他特征提取方法進行對比,驗證這類方法的有效性。

1.3 基因組選擇方法

本次研究采用的基因組選擇方法包括GBLUP、BayesA、BayesB、BayesC和Bayesian Lasso。

GBLUP[25]是基因組選擇領域中的一個經典方法,最早用于家畜遺傳改良。其關鍵思想是將基因組數據與表型性狀進行線性組合,用以估計個體的遺傳值:

y=Xb+Zu+e

其中,y為性狀向量,X為固定效應矩陣,b為固定效應系數,Z為SNP位點矩陣,u為隨機效應,e為隨機殘差。GBLUP使用線性模型來估計個體的遺傳值。基因效應u被視為隨機效應,其分布通常假定為多變量正態分布。

BayesA使用貝葉斯方法來估計每個SNP位點的效應α。與GBLUP不同,BayesA允許不同位點的效應不同,因此具有更大的靈活性:

y=Xb+Zα+e

BayesB類似于BayesA,但BayesB引入了稀疏性先驗,鼓勵某些位點的效應為零。因而,BayesB可以進行位點選擇,確定哪些位點對性狀具有顯著影響:

y=Xb+∑Ni=1Ziαi+e

其中,Zi為SNP位點的設計矩陣;αi為每個SNP位點的效應。

BayesC的效應參數αi包括了一個均勻分布,進一步強調了稀疏性,從而更傾向于將部分位點的效應值推向零[26]

y=Xb+∑Ni=1Ziαi+e

Bayesian Lasso通過后驗分布來估計參數向量β的后驗概率,進而確定哪些特征對性狀具有顯著影響,哪些特征對性狀影響較小或沒有影響。此過程通常使用貝葉斯推斷方法,如馬爾科夫鏈蒙特卡羅(Markov chain monte Carlo,MCMC)采樣來實現。根據后驗分布,得到特征的后驗概率,從而進行特征選擇:

y=Xβ+e

β表示特征系數。Bayesian Lasso引入了L1正則化項,鼓勵參數向量β中的某些系數為零,從而實現稀疏性。具體表示為:

本研究使用R語言中的BGLR包(v1.1.0)計算基因組估計育種值[27]

1.4 模型評估

選取皮爾遜相關系數(PCC)和均方誤差(mean squared error,MSE)評估預測精度。MSE是一種常用的統計度量,用于衡量一個估計值或模型預測誤差的平均平方值:

MSE=1n∑ni=1(yi-y^i2

計算真實值yi與預測值y^i之間差的平方,最后計算平均值。MSE值越小,表示模型的預測越接近實際觀測值,從而越準確。

1.5 交叉驗證

為了評估模型的泛化能力,采用10次10折交叉驗證(10-fold cross-validation)。交叉驗證(cross-validation)是一種模型驗證技術,首先將數據集劃分為10個子集,選取9個子集作為訓練數據(參考群體)來訓練模型,剩下的1個子集用作驗證數據(候選群體),驗證模型預測準確性,重復10次。每次選擇1個不同的子集作為驗證數據,確保所有樣本都被用于驗證。最后取10次驗證結果的平均值并計算標準差[19]

2 結 果

2.1 特征提取

對這3組表型進行初步統計,結果見表1,表型均值分別為51.30、10.91、10.72,最大值分別為58.00、19.70、15.00,最小值分別為42.00、5.48、8.00。統計表型的均值分布頻率,結果見圖1,可見基本遵循正態分布,說明樣本具有較好的代表性。GWAS分析的曼哈頓圖結果見圖2。

兩批數據的5種特征提取結果見表2。由表2可知PCA和Gene-PCA保留了較少的SNPs位點,LD和SNP-PCC保留的位點數相似。

2.2 預測精確度對比

所有結果見圖3。北京鴨體長性狀,基于GWAS的Bayesian Lasso方法,達到了0.531的相關性,預測準確度最高。豬背膘厚,最好結果是SNP-PCC方法,結合Bayesian Lasso達到了0.392的相關性。豬乳頭數,結合GBLUP的PCA方法,和基于SNP-PCC的Bayesian Lasso,分別達到0.339和0.338的相關性。

表3詳細列出了每種特征提取方法在3組表型上的平均預測精度。結果表明,北京鴨體長表型,基于GWAS方法篩選后具有最高的預測精度,平均PCC達到了0.484,但是平均MSE卻為最高值8.701。豬的兩組表型,SNP-PCC都有最高的預測精度,相比未經特征提取數據,分別提高了約7.3%和3.1%的預測精度。LD方法的預測精度僅比SNP-PCC低約1%。SNP-PCC、LD和PCA三者在豬乳頭數表型上的預測精度在標準差范圍內。與未經特征提取相比,預測精度提高了3%~8%。而表現最差的方法為Gene-PCA,平均相關性不到20%。

2.3 基準測試分析

基因組學數據量通常特別龐大,對計算性能有很高的要求。為比較不同的特征提取方法在處理這些數據時的性能表現,引入基準測試分析(benchmark analysis)評估[28-30]

本研究服務器配置為:CPU四顆(Intel(R)Xeon(R)CPU E7-4820v4@2.00GHz),共計80個線程,1TB運行內存。對單次計算所耗時間進行基準測試分析和統計(表4)。結果顯示,計算時間與位點數量呈正相關。位點越多,計算所消耗的時間越長[14]。SNP-PCC方法,其計算效率可接受,并獲得了最高的預測準確度。Gene-PCA方法,雖然計算時間最快,但預測準確度最差。PCA方法,其計算時間與Gene-PCA相近。LD方法,雖然預測準確度略低于SNP-PCC方法,但是所需計算時間卻是SNP-PCC的1.6倍。

3 討 論

PCA在GWAS和GS中廣泛應用[31-34]。盡管本研究表明該方法在GS中具有一定的有效性,但預測精度缺乏穩定性。這一結果與Elhaik發現[35]的研究結果一致,他發現PCA在可靠性、穩健性和復現性都存在問題,原因在于PCA是一種數學變換,而未能考慮基因之間的復雜互作。因此,僅依賴PCA可能導致結果不穩定,建議在后續研究中謹慎選擇PCA方法。

Gene-PCA方法相較于其他方法的表現較為不佳,可能原因如下:1)信息平衡:Gene-PCA在強化基因間的相關性時,可能使得特定基因的變異性受到忽視;2)基因間的互作:Gene-PCA強調基因組內的關系,但在某些情況下,基因間的互作或通路級的相互作用可能更加關鍵。因此簡單地考慮基因級別的變異性可能不足以捕捉這些更為復雜的互作。3)數據預處理與規范化:不同的PCA方法可能需要不同的數據預處理步驟。如果Gene-PCA的數據預處理與常規PCA有差異,這可能對其最終的預測結果造成影響。

LD-adjusted kinship(LDAK)和LD-stratified multicomponent(LDS)兩種模型提出[36]可解決基因組上LD異質性導致的GS預測精度問題。而且發現LDS模型可以有效消除區域間LD的異質性,提高GS預測精度,這與本研究結果一致。但是,LD主要考慮位點之間的兩兩關聯,可能無法捕捉多個位點之間的復雜互作[37]

SNP-PCC方法的高預測精確度,可能原因如下:1)該方法通過評估位點間的相關性,能夠捕捉到多個位點之間的互作效應,可能對表型具有重要影響。2)通過考慮相關性,該方法能反映位點如何在不同的生物學途徑和網絡中共同作用,共同影響遺傳特性。這意味著它不僅能夠識別對表型有顯著影響的關鍵位點,還能揭示這些位點在生物學過程中的作用機制和相互依賴性[38]。3)該方法不依賴于特定的遺傳模型或生物學假設,因此具有較高的靈活性和通用性,能廣泛應用于不同性狀的遺傳預測和多物種之間的比較研究。

GWAS方法,在北京鴨體長上平均PCC最高,但其平均MSE也最高,表明預測值和實際觀測表型之間線性關聯程度較高,但兩者之間實際誤差卻較大。基因組選擇僅使用PCC作為評估指標是片面的,需要結合MSE一起評估[39]。豬背膘厚的GWAS與SNP-PCC結果幾乎一致,而乳頭數的GWAS結果,相比SNP-PCC與LD等方法表現最差。究其原因,可能是GWAS通過設定遺傳模型來尋找位點與表型之間的關聯程度,而且主要考慮具有顯著加性效應的位點。然而,復雜表型受到顯性效應和互作效應的影響,其遺傳模式通常未知,若簡單以GWAS來篩選具有加性效應的位點并應用于GS,可能不是最佳選擇方案[8]

研究表明減少構建GRM的SNPs數量可以提高預測精度[8-10]。如Akbarzadeh等[8]選取10%SNPs位點,其預測結果優于使用全部位點。可能是由于減少了過度擬合的風險,而且模型可以更好地泛化到新數據[40]。然而,選擇的SNP位點不應過少,只有當數量足夠而且恰當時,其精度才能超越使用全部位點的方法[8-9]。這也解釋了為什么使用隨機抽樣方法也能獲得不錯的預測精度。

使用所有位點時預測準確度反而較低[26,40-41],可能是因為其中有許多位點與目標表型的關聯性較弱或不存在。包含這些位點將引入噪聲,從而降低預測準確性。此外,沒有考慮復雜的基因間互作,特別是非加性效應。即使表現較好的SNP-PCC方法,也可能無法捕獲基因與環境間的非線性互作。如何將非線性方法(機器學習)與SNP-PCC方法相融合將是下一步的主要研究方向之一。

4 結 論

通過評估6種特征提取方法在GS中的應用,本研究發現SNP-PCC方法表現最佳,在所有數據上其計算效率提升了5~7倍。在北京鴨數據獲得最低的MSE。在豬背膘厚和乳頭數平均基因組育種值預測準確度高達32.3%,相較于每個方法平均值提升大約5%。研究該結果為深入研究不同特征提取方法對GS預測準確性的影響奠定了基礎,并為其在育種實踐中的應用提供了參考。

參考文獻(References):

[1]MEUWISSEN TH E,HAYES BJ,GODDARD ME.Prediction of total genetic value using genome-wide dense marker maps[J].Genetics,2001,157(4):1819-1829.

[2]OSTERSEN T,CHRISTENSEN OF,HENRYON M,et al.Deregressed EBV as the response variable yield more reliable genomic predictions than traditional EBV in pure-bred pigs[J].Genet Sel Evol,2011,43(1):38.

[3]ZHAO YS,GOWDA M,LIU WX,et al.Accuracy of genomic selection in European maize elite breeding populations[J].Theor Appl Genet,2012,124(4):769-776.

[4]LIU TF,QU H,LUO CL,et al.Genomic selection for the improvement of antibody response to Newcastle disease and avian influenza virus in chickens[J].PLoS One,2014,9(11):e112685.

[5]BEYENE Y,SEMAGN K,MUGO S,et al.Genetic gains in grain yield through genomic selection in eight Bi-parental maize populations under drought stress[J].Crop Sci,2015,55(1):154-163.

[6]PALAIOKOSTAS C,FERRARESSO S,FRANCH R,et al.Genomic prediction of resistance to pasteurellosis in gilthead sea bream(Sparus aurata)using2b-RAD sequencing[J].G3(Bethesda),2016,6(11):3693-3700.

[7]MEUWISSEN TH.Accuracy of breeding values of'unrelated'individuals predicted by dense SNP genotyping[J].Genet Sel Evol,2009,41(1):35.

[8]AKBARZADEH M,DEHKORDI SR,ROUDBAR MA,et al.GWAS findings improved genomic prediction accuracy of lipid profile traits:tehran cardiometabolic genetic study[J].Sci Rep,2021,11(1):5780.

[9]LI B,ZHANG NX,WANG YG,et al.Genomic prediction of breeding values using asubset of SNPs identified by three machine learning methods[J].Front Genet,2018,9:237.

[10]PILES M,BERGSMA R,GIANOLA D,et al.Feature selection stability and accuracy of prediction models for genomic prediction of residual feed intake in pigs using machine learning[J].Front Genet,2021,12:611506.

[11]TORADA L,LORENZON L,BEDDIS A,et al.ImaGene:a convolutional neural network to quantify natural selection from genomic data[J].BMC Bioinformatics,2019,20(Suppl9):337.

[12]王萬年,陳思佳,郜金榮,等.基于多層感知機的綿羊限性性狀基因組選擇模擬研究[J].畜牧獸醫學報,2023,54(7):2824-2835.

WANG WN,CHEN SJ,GAO JR,et al.Simulation study on genomic selection of sex-limited traits using multilayer perceptron in sheep[J].Acta Veterinaria et Zootechnica Sinica,2023,54(7):2824-2835.(in Chinese)

[13]丁紀強,李慶賀,張高猛,等.比較機器學習等算法對肉雞產蛋性狀育種值估計的準確性[J].畜牧獸醫學報,2022,53(5):1364-1372.

DING JQ,LI QH,ZHANG GM,et al.Comparing the accuracy of estimated breeding value by several algorithms on laying traits in broilers[J].Acta Veterinaria et Zootechnica Sinica,2022,53(5):1364-1372.(in Chinese)

[14]AZODI CB,BOLGER E,MCCARREN A,et al.Benchmarking parametric and machine learning models for genomic prediction of complex traits[J].G3(Bethesda),2019,9(11):3691-3702.

[15]WANG KQ,YANG B,LI Q,et al.Systematic evaluation of genomic prediction algorithms for genomic prediction and breeding of aquatic animals[J].Genes(Basel),2022,13(12):2247.

[16]XIANG T,LI T,LI JL,et al.Using machine learning to realize genetic site screening and genomic prediction of productive traits in pigs[J].FASEB J,2023,37(6):e22961.

[17]DENG MT,ZHU F,YANG YZ,et al.Genome-wide association study reveals novel loci associated with body size and carcass yields in Pekin ducks[J].BMC Genomics,2019,20(1):1.

[18]TAN C,WU ZF,REN JL,et al.Genome-wide association study and accuracy of genomic prediction for teat number in Duroc pigs using genotyping-by-sequencing[J].Genet Sel Evol,2017,49(1):35.

[19]GOODFELLOW I,BENGIO Y,COURVILLE A.Deep learning[M].Cambridge:The MIT Press,2016.

[20]PEDREGOSA F,VAROQUAUX G,GRAMFORT A,et al.Scikit-learn:machine learning in Python[J].J Mach Learn Res,2011,12:2825-2830.

[21]SLATKIN M.Linkage disequilibrium-understanding the evolutionary past and mapping the medical future[J].Nat Rev Genet,2008,9(6):477-485.

[22]HILL WG,ROBERTSON A.Linkage disequilibrium in finite populations[J].Theor Appl Genet,1968,38(6):226-231.

[23]HILL WG,MACKAY TF C.D.S.Falconer and introduction to quantitative genetics[J].Genetics,2004,167(4):1529-1536.

[24]SVED JA,HILL WG.One hundred years of linkage disequilibrium[J].Genetics,2018,209(3):629-636.

[25]HENDERSON CR.Best linear unbiased estimation and prediction under aselection model[J].Biometrics,1975,31(2):423-447.

[26]HABIER D,FERNANDO RL,KIZILKAYA K,et al.Extension of the Bayesian alphabet for genomic selection[J].BMC Bioinformatics,2011,12:186.

[27]PéREZ P,DE LOS CAMPOS G.Genome-wide regression and prediction with the BGLR statistical package[J].Genetics,2014,198(2):483-495.

[28]GRE?OVáK,MARTINEK V,?ECHáK D,?IME?EK P,ALEXIOU Pet al.Genomic benchmarks:a collection of datasets for genomic sequence classification.BMC Genom Data,2023,24(1):1-25.

[29]LUECKEN MD,BüTTNER M,CHAICHOOMPU K,et al.Benchmarking atlas-level data integration in single-cell genomics[J].Nature methods,2022,19(1):41-50.

[30]LI Y,MANSMANN U,DU S,HORNUNG Ret al.Benchmark study of feature selection strategies for multi-omics data.BMC Bioinformatics,2022,23(1):412.

[31]PRICE AL,PATTERSON NJ,PLENGE RM,et al.Principal components analysis corrects for stratification in genome-wide association studies[J].Nat Genet,2006,38(8):904-909.

[32]BEHAR DM,YUNUSBAYEV B,METSPALU M,et al.The genome-wide structure of the Jewish people[J].Nature,2010,466(7303):238-242.

[33]ATZMON G,HAO L,PE′ER I,et al.Abraham′s children in the genome era:major Jewish diaspora populations comprise distinct genetic clusters with shared Middle eastern Ancestry[J].Am JHum Genet,2010,86(6):850-859.

[34]CAMPBELL CL,PALAMARA PF,DUBROVSKY M,et al.North African Jewish and non-Jewish populations form distinctive,orthogonal clusters[J].Proc Natl Acad Sci US A,2012,109(34):13865-13870.

[35]ELHAIK E.Principal component analyses(PCA)-based findings in population genetic studies are highly biased and must be reevaluated[J].Sci Rep,2022,12(1):14683.

[36]REN DY,CAI XD,LIN Q,et al.Impact of linkage disequilibrium heterogeneity along the genome on genomic prediction and heritability estimation[J].Genet Sel Evol,2022,54(1):47.

[37]REICH DE,CARGILL M,BOLK S,et al.Linkage disequilibrium in the human genome[J].Nature,2001,411(6834):199-204.

[38]CLIMER S,YANG W,DE LAS FUENTES L,et al.A custom correlation coefficient(CCC)approach for fast identification of multi-SNP association patterns in genome-wide SNPs data[J].Genet Epidemiol,2014,38(7):610-621.

[39]ZHOU Y,VALES MI,WANG AX,et al.Systematic bias of correlation coefficient may explain negative accuracy of genomic prediction[J].Brief Bioinform,2017,18(5):744-753.

[40]SUBRAMANIAN J,SIMON R.Overfitting in prediction models-is it aproblem only in high dimensions?[J].Contemp Clin Trials,2013,36(2):636-641.

[41]FROUIN A,DANDINE-ROULLAND C,PIERRE-JEAN M,et al.Exploring the link between additive heritability and prediction accuracy from aridge regression perspective[J].Front Genet,2020,11:581594.

(編輯 郭云雁)

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 波多野结衣第一页| 亚洲专区一区二区在线观看| 亚洲精品第五页| h网址在线观看| 四虎国产永久在线观看| 欧美成人午夜影院| 91无码网站| 成人精品视频一区二区在线| 国产一区二区精品高清在线观看| 一级毛片中文字幕| 亚洲视频四区| 无码在线激情片| 99青青青精品视频在线| 亚洲精品日产AⅤ| 欧美日韩国产高清一区二区三区| 无码 在线 在线| 91久久国产综合精品女同我| 日韩免费成人| 69精品在线观看| 午夜性刺激在线观看免费| 中文字幕在线永久在线视频2020| 激情无码字幕综合| 久久大香伊蕉在人线观看热2| 野花国产精品入口| 国产精品国产三级国产专业不 | 国产日韩丝袜一二三区| 国产精品片在线观看手机版| av天堂最新版在线| 乱码国产乱码精品精在线播放| 国产91av在线| 国产99视频精品免费视频7| 日韩毛片基地| 国产18在线播放| 欧美不卡二区| 欧美日韩动态图| 在线视频精品一区| 亚洲AⅤ永久无码精品毛片| 波多野结衣一区二区三区四区视频| 国产丝袜91| 亚洲一级毛片免费观看| 国产视频久久久久| 九九热这里只有国产精品| 色丁丁毛片在线观看| A级毛片高清免费视频就| 亚洲自偷自拍另类小说| 亚洲成a人片77777在线播放| 伊人成人在线| 国产AV无码专区亚洲A∨毛片| 久久久久国产精品嫩草影院| 91精品啪在线观看国产| 在线a网站| 97在线国产视频| 亚洲第一网站男人都懂| 色香蕉影院| 国产9191精品免费观看| 四虎永久在线视频| 久久精品娱乐亚洲领先| 1024国产在线| 国产成人精品高清不卡在线| 一级毛片高清| 久久精品无码国产一区二区三区 | 在线亚洲精品自拍| 久热中文字幕在线| 午夜日韩久久影院| 亚洲人网站| 日本国产在线| 免费可以看的无遮挡av无码| 四虎精品国产AV二区| 夜色爽爽影院18禁妓女影院| 国产一级无码不卡视频| 一本大道香蕉高清久久| 国产成人高清精品免费| 97国内精品久久久久不卡| 狠狠操夜夜爽| 亚洲人成网站在线播放2019| 国产精品视频猛进猛出| 国产成人综合久久精品尤物| 国产精品视频公开费视频| av无码一区二区三区在线| 大陆国产精品视频| 青青操视频在线| 青青久久91|