999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于全基因組數據的AI-SNPs篩選及大陸次級區域內群體遺傳結構差異研究

2021-11-01 10:29:50王浩宇胡渝涵曹悅巖朱強黃雨果李茜張霽
遺傳 2021年10期
關鍵詞:結構分析研究

王浩宇,胡渝涵,曹悅巖,朱強,黃雨果,李茜,張霽

研究報告

基于全基因組數據的AI-SNPs篩選及大陸次級區域內群體遺傳結構差異研究

王浩宇,胡渝涵,曹悅巖,朱強,黃雨果,李茜,張霽

四川大學華西基礎醫學與法醫學院,成都 610041

在涉及多群體樣本的醫學研究中,群體遺傳結構差異是不容忽視的影響因素之一。利用族源信息單核苷酸多態性遺傳標記(ancestry-informative single nucleotide polymorphism, AI-SNP),通過分析群體遺傳成分、推斷個體遺傳背景并對群體樣本進行預篩選,可以有效降低群體遺傳結構差異對醫學研究影響。鑒于已發表的研究多為解析大陸間、大陸次級區域間的群體遺傳結構差異,本研究擬基于千人基因組計劃(GRCh37.p13)中東亞五群體:日本東京群體(Japanese in Tokyo, JPT)、北京漢族(Han Chinese in Beijing, CHB)、南方漢族(Southern Han Chinese, CHS)、西雙版納傣族(Chinese Dai in Xishuangbanna, CDX)、越南京族(Kinh in Ho Chi Minh City, KHV)的數據,以F值為標準篩選AI-SNP并分析大陸次級區域內群體遺傳結構差異。結果表明,研究涉及的東亞群體可分為三簇:JPT、CHB和CHS、CDX和KHV。利用AI-SNP可成功解析個體的遺傳背景,而群體代表性遺傳成分占比超過80%的個體具有良好的群體代表性。本研究表明,基于F值篩選一組AI-SNP用于核驗樣本遺傳背景、篩選群體代表性樣本的方法在降低大陸次級區域內群體遺傳結構差異對群體相關醫學研究的影響中具有實際應用價值。

族源信息遺傳標記;單核苷酸多態性;東亞群體;遺傳結構差異

不同群體間遺傳結構的差異受到種群遷移、隔離、混合等人口學因素,以及基因突變、重組、自然選擇、隨機遺傳漂變等遺傳學因素影響[1,2]。涉及群體的醫學領域研究中,往往需考慮由群體遺傳結構差異帶來的影響。如關聯分析中,需排除與目標基因無關、由群體間結構差異導致的等位基因頻率差異,才能提供標記與疾病間的真實關聯[3,4]。而明確藥物反應相關基因變異[5]在群體中的差異則有利于針對不同人群進行靶向藥物的篩選并提供精準個性化用藥建議。此外,族源信息遺傳標記也被法醫遺傳學家用于生物樣本的生物地理起源推斷,并用于案件偵破[6]。

在排除群體結構差異對醫學研究的影響時,需對納入研究的個體和生物樣本進行遺傳背景分析以核驗聲明血統和實際血統的一致性,并選擇具有群體代表性的樣本進行后續研究。常用的遺傳背景分析工具包括基因芯片[7]、全基因組測序[8]和使用族源信息遺傳標記(ancestry informative marker, AIM)[9]。盡管基因組測序可得到最精確的分析結果,但其數據分析量巨大且成本較高。在當前大數據時代下,諸如國際基因組樣本資源庫(The International Genome Sample Resource, IGSR)[10]中千人基因組計劃(1000 Genomes Project)[11]、人類基因組多樣性計劃(Human Genome Diversity Project)等數據庫提供了大量不同人群的基因組參考數據。依托于公開數據庫的大規模數據,以AIM為基礎的族源分析可解析個體遺傳背景,并作為應用基因芯片或全基因組測序前進行群體代表性樣本預篩選的有效手段[12]。

分析個體遺傳背景常用的方法包括主成分分析(principal component analysis, PCA)[13]、基因組控制(genomic control)[14]及結構化關聯(structured associa-tion)[15]等。PCA分析是校正全基因組關聯研究中群體分層的標準方法,但對如東亞群體這類遺傳結構復雜的群體敏感性較差[16]。STRUCTURE[17]、ADMIXTURE[18]等結構化關聯方法可依據族源成分和等位基因頻率提供個體族源的最大似然估計,STRUCTURE還提供了基于相關等位基因頻率的混合祖先模型用于復雜遺傳結構群體的分析。同時,預篩選僅分析一組AIM,避免了結構化關聯方法難以計算大型數據集的缺點[19],故結構化關聯方法可在樣本預篩選中發揮關鍵作用。

族源推斷分析最初多以區分大陸群體為目標[20]。近來也有不少研究者針對大陸內特定區域群體的區分開發了多類次級體系。以亞洲為例,主要包括亞洲內次級區域群體[21]、大陸次級區域內群體與全球其他群體區分[22]、亞洲內次級區域群體間的區分[23]和國家內民族的區分[24],而大陸次級區域內群體間區分的相關研究則相對較少[25]。由于大陸次級區域內群體間遺傳結構的相似性,以及人口遷移、通婚帶來的基因流動等因素,此類區分最為困難,但也是最為必要的。

本研究擬以F值大小為標準,從千人基因組計劃東亞五群體的數據中篩選一組AIM對東亞五個群體進行群體結構分析,從各個群體中找到具有群體代表性的個體。并以結果評估使用AIM方法對遺傳結構復雜群體中個體遺傳背景的解析能力,為其實際應用于核實樣本的聲明血統和實際血統、準確排除群體遺傳結構對群體相關醫學研究的影響提供理論依據和方法參考。

1 材料與方法

1.1 研究對象

本研究使用的東亞五個群體共504個無關個體均來自千人基因組計劃第三階段(GRCh37.p13)數據庫(http://www.1000genomes.org)[11],包括104個日本東京(Japanese in Tokyo, JPT)個體、103個中國北京漢族(Han Chinese in Beijing, CHB)個體、105個中國南方漢族(Southern Han Chinese, CHS)個體、93個中國西雙版納傣族(Chinese Dai in Xishuangbanna, CDX)個體和99個越南胡志明市京族(Kinh in Ho Chi Minh City, KHV)個體。

1.2 位點篩選

基于千人基因組數據庫(GRCh37.p13)的整體數據,使用VCFtools[26]篩選1~22號常染色體上最小等位基因頻率大于0.01、>0.05閾值下滿足Hardy- Weinberg平衡的二等位基因SNP。按Weir和Cocker-ham等[27]的方法計算東亞五個群體兩兩之間,即10個群體對中所有保留SNP的F值。本研究保留F> 0.05的SNP,并使用VCFtools進行同染色體上的連鎖不平衡計算。目前在族源推斷體系中加入連鎖不平衡位點是否會對體系區分具體群體的效能產生影響尚無定論,但研究者們在進行AIM篩選時會避免使用強連鎖不平衡的基因座[21]。此外,STRUCTURE軟件也建議在體系中盡可能只使用弱連鎖不平衡的位點[28]。因此本研究進行連鎖不平衡計算時根據前人經驗將閾值設置為2>0.2,并將檢測窗口設置為50 Mb。當一個位點與任意位點滿足2>0.2時,將它們分為同一連鎖不平衡組,否則分至弱連鎖不平衡組。

1.3 數據集構建

基于前述分組結果,10個群體對分別建立數據集。各個群體對的每個連鎖不平衡組中僅保留F值最高的SNP,將連鎖不平衡組中篩選出來的SNP與該弱連鎖不平衡組合并后確定最終的數據集A1~A10。

各數據集分別從F值最高的10個SNP開始,使用Snipper在線分析應用套件進行分析(后簡稱為Snipper分析)。自該體系開始,每次按F值大小逐步順序增加10個SNP并進行Snipper分析。為了保證結果的穩定性,此步驟將持續到連續三組體系(如分別由60、70、80個SNP組成的體系)均能將兩個群體的個體均正確分配至原所屬群體,也即分配正確率達到100%時停止。經STRUCTURE分析和PCA分析驗證后,認為該三組體系中的第一組(上述例子中由60個SNP組成的體系)所包含的SNP數是完全區分該群體對所需的最少SNP數。基于此結果,本研究篩選了包含盡可能多SNP(975個)的數據集B分析東亞五個群體的遺傳結構。在篩選數據集B時,綜合考慮了SNP的如下信息:在10個數據集中出現的次數、在各數據集中對應的F值大小、F值在該數據集中的排序、是否涉及較難區分的群體(數據集內SNP數目較少或SNP的F值普遍較低)等因素。

依據數據集B的STRUCTURE分析結果,篩選群體代表性遺傳成分占個體總遺傳成分分別達到70%~80% (C7)、80%~90% (C8)和90% (C9)以上的個體作為數據集C,各數據集內群體則按照群體編號(如數據集C7中JPT編號為JPT7)。對數據集C進行STRUCTURE分析和PCA分析,驗證篩選群體代表性個體的可靠性、評估群體代表性遺傳成分占比對判斷群體代表性個體的影響。

1.4 群體遺傳結構分析

使用STRUCTURE v2.3.4[17]基于相關等位基因頻率的混合祖先模型對每個數據集進行群體基因結構分析,數據集A1~A10設置=2,數據集B、C設置=2~7,均運行10次。利用STRUCTURE HARVESTER[29]計算最佳值,CLUMPP v.1.1.2[30]和Distruct v.1.1[31]用于構建結果圖。Python腳本用于基于個體基因型的PCA分析和結果圖構建。Snipper 2.5在線貝葉斯二分類分析應用套件(http:// mathgene.usc.es/snipper/)用于基于訓練集和測試集的交叉驗證計算,各群體訓練集和測試集的個體均按7∶3的比例隨機設置,每組體系重復三次,最終測試集的結果取均值。

2 結果與分析

2.1 數據集A、B中SNP概況

數據集A1~A10中SNP的F值分布情況見表1。F值最高的20個SNP分別來自A3(JPT-CDX,12個)、A4(JPT-KHV,3個)、A2(JPT-CHS,3個)和A6(CHB-CDX,2個);而F值最小的20個SNP均來自A5(CHB-CHS)。除A3(JPT-CDX)、A4(JPT-KHV)中SNP的F值主要分布于0.15~0.25外,其余數據集內絕大多數SNP的F值均小于0.15,其中A5(CHB-CHS)所有SNP的F值均小于0.15。

數據集B中975個SNP在染色體上的分布情況如圖1所示,整體分布較為均勻。來自1號染色體和6號染色體的SNP最多,分別為109個和95個,而來自22號染色體的SNP最少,為12個。此外,本研究也統計了此975個SNP在10個群體對中出現的情況,結果如圖2所示。975個SNP中,大多數SNP只在一個(470/975)、兩個(296/975)或三個(132/975)群體對中出現,只有極少數SNP在五個及以上(25/975)群體對中出現。其中rs11850206和rs28558239在除了CHS-KHV以外的九個群體對中均有出現,rs28498529則在除了JPT-CHB、CHS-KHV、CDX-KHV以外的七個群體對中出現。此三個SNP均來自于14號染色體。

表1 數據集A中SNP的FST值分布情況

圖1 數據集B中SNP在染色體上的分布情況

圖2 數據集B中SNP在10個群體對中出現次數的分布情況

此外,本研究將數據集B與部分此前研究東亞群體遺傳結構差異的文獻[21,23,25]所使用的SNP進行了比較,發現數據集B未包含此三文獻中報道的任一SNP。

2.2 東亞五群體的遺傳結構差異分析

對數據集A1~A10進行Snipper交叉驗證分析,測試集分配完全正確所需最少SNP數結果見表2。群體對中個體祖先分配完全正確所需的最少位點數可反映出群體兩兩之間遺傳關系的遠近。結果表明JPT-CDX、JPT-KHV群體對最易區分,而CHB-CHS、CHS-KHV、CDX-KHV較難區分。各群體對中的群體與STRUCTURE計算得到的聚類高度符合,而PCA分析中各個群體對均能在使用最少位點數時分別聚類且彼此分離(結果未列出)。

使用數據集B對東亞五群體進行STRUCTURE分析的結果如圖3所示。值設置為2~7,STRUCTURE HARVESTER計算得到的最佳K值為3。各個K值下JPT均表現出與其余群體不同的遺傳成分。在最佳值時,各群體均表現為混合遺傳成分,975 SNPs可將東亞五群體分為三簇:JPT一簇、CHB和CHS一簇、CDX和KHV一簇,其中CHB和CHS還可依據遺傳成分的比例區分。自=4開始,CDX和KHV也表現出主要遺傳成分的差異,這一差異在=5時更加顯著。而自=6開始,各群體混合遺傳成分中的主要遺傳成分各不相同,即主要遺傳成分可與STRUCTURE計算得到的聚類匹配,可據此將五個群體分為五簇。

使用數據集B對東亞五群體進行PCA分析的結果如圖4所示。前三個主成分分別占總方差的3.21%、2.12%、1.36%。JPT、CHB、CDX群體的個體緊密聚集,而CHS、KHV群體的聚類較分散。整體上,JPT、CHB、CHS之間較為接近,其可與互相接近的CDX、KHV區分。PC1維度可進一步將JPT與CHB、CHS區分,其中CHB和CHS個體相互重疊,表明二者的遺傳關系十分接近(圖4),而PC3維度可將CDX和KHV區分(圖4B)。

2.3 東亞五群體代表性個體篩選及分析

以數據集B進行STRUCTURE分析時=6的結果為參考,按1.3的方法判斷五個群體的群體代表性遺傳成分并構建數據集C (表3)。數據集C中共包括317個個體,JPT中群體代表性遺傳成分占總體遺傳成分超過70%的個體最多,達93%,其次是CDX和KHV,分別為78%和59%,CHB和CHS均未超過50%。JPT、CDX、KHV的篩選個體中大部分群體代表性遺傳成分占比超過80%,CHB和CHS只有較少個體的群體代表性遺傳成分占比超過90%。

表2 數據集A中兩兩群體完全區分所需最少SNP數

圖3 975 SNPs (數據集B)的東亞五群體STRUCTURE分析結果

圖4 975 SNPs (數據集B)的東亞五群體PCA分析結果

各顏色代表群體:JPT(藍色),CHB(紅色),CHS(橙色),CDX(綠色),KHV(黃色)。A:975 SNPs的東亞五群體PCA分析(PC1-PC2),PC1=3.21%,PC2=2.12%;B:975 SNPs的東亞五群體PCA分析(PC1-PC3),PC1=3.21%,PC3=1.36%。

表3 數據集C中C7、C8、C9組個體數目

使用數據集B的975個SNP對篩選個體進行STRUCTURE分析的結果如圖5所示。在各個值下,篩選個體均表現為混合遺傳成分。計算得到的最佳值為4,此時篩選出的個體可被分為四簇:JPT一簇、CHB和CHS一簇、CDX一簇、KHV一簇。自=5開始,317個個體可被分為五簇,各簇幾乎都完全由其主要遺傳成分組成,且其比例隨著群體代表性遺傳成分占比的增加而增加,但占比達到80%后趨于穩定。STRUCTURE的結果表明體系能夠很好地區分篩選出的個體,即篩選個體能有效代表其所屬群體。此外,群體代表性遺傳成分占比更高的個體具有更強的群體代表性。

將數據集C7、C8、C9在前述PCA分析中分別高亮表示的結果如圖6所示。在全部個體中,篩選個體之間區分度更高,并隨著個體的群體代表性遺傳成分增加而增強。數據集C7(圖6A)和C8(圖6B)中的五個群體聚類為四簇,數據集C7中僅JPT和CHB、CHB和CHS的個體仍有少部分重疊,數據集C8中僅有個別CHB、CHS的個體重疊。群體代表性遺傳成分增加至90%以上后(圖6C)五個群體可分別單獨聚類。

圖5 975 SNPs的數據集C STRUCTURE分析結果

圖6 975 SNPs的數據集C PCA分析結果

數據集C7、C8、C9中個體分別依次標記為彩色,各數據集以外的個體標記為灰色。各顏色代表群體:JPT(藍色),CHB(紅色),CHS(橙色),CDX(綠色),KHV(黃色)。前三個主成分分別為:PC1=3.21%,PC2=2.12%,PC3=1.36%。A:標記數據集C7;B:標記數據集C8;C:標記數據集C9。

依據上述STRUCTURE分析和PCA分析結果,本研究認為群體代表性遺傳成分超過個體總遺傳成分80%的個體具有很好的群體代表性,可用于排除群體結構對醫學研究的影響。

3 討論

涉及群體的醫學研究中,群體遺傳結構的差異可影響結果的正確性和準確性,進行研究時需排除這種影響。而明確采集的樣本能否真正代表群體、反映群體遺傳結構則是準確排除這種影響的關鍵。因此,對采集的樣本進行遺傳結構分析、判斷個體聲明血統和實際血統的吻合度、篩選群體代表性個體對于獲取正確、準確的研究結果十分必要。

一般而言,研究者們多直接在研究過程中對樣本的群體遺傳結構進行質控。此方法在有較少特定目標基因片段的研究[32]中十分合理且高效。然而,對于目標基因片段較多,或應用基因芯片或全基因組測序進行大規模基因篩查的研究[33],不合格的樣本可能會導致測序成本的損耗。近年來,公開的多群體全基因組數據庫為研究者們提供了新的思路:通過對大量數據進行分析、按照一定標準(如本研究所使用的F值)進行篩選,找到一組可以反映特定群體之間遺傳結構差異、區分群體來源的AIM,將其作為測序前對群體樣本進行預篩選的手段。

本研究使用F值作為篩選AI-SNP的標準。Wright[34]提出的F值是最常用于表征群體間遺傳分化程度的指標之一[27],其也可應用于控制遺傳結構對關聯分析的影響[35]。一組高F值的AIM是進行群體遺傳結構和遺傳關系分析的有力工具。基于F值篩選的SNP進行Snipper分析、STRUCTURE分析和PCA分析的結果揭示了東亞群體中的亞結構。結果表明,雖然東亞五個群體兩兩之間遺傳結構復雜,遺傳分化程度并不顯著,但仍可使用一組包含較多AIM的體系加以解析。

STRUCTURE分析可計算各個聚類中每個個體的遺傳成分比例。當定義的群體與其計算得到的聚類十分匹配(或相似)時,各聚類中的血統比例可看作群體的血統比例[36]。此時,STRUCTURE聚類對應的遺傳成分在整個群體的總體成分中占比最大,在每個個體中穩定存在,且與其他群體無關,這種成分可看作該群體的群體代表性遺傳成分。高群體代表性遺傳成分的個體遺傳背景相對單一,可作為該群體一種較固定的遺傳背景模式。同時,本研究中具有這類遺傳背景模式的個體出現頻率也較高,具有一定的群體代表性。綜上,本研究設定此類個體作為潛在的群體代表性樣本,按群體代表性遺傳成分的占比設定了三個閾值:70%、80%、90%,并篩選出相應個體進行STRUCTURE分析和PCA分析驗證。PCA分析是目前最常用于校正研究中群體分層的方法[13],可用于驗證基于STRUCTURE篩選的群體代表性個體是否可靠,同時評估并確定篩選標準。結果表明篩選的個體具有群體代表性,群體代表性遺傳成分超過個體總遺傳成分80%可作為篩選群體代表性個體的標準。

需要注意的是,篩選AIM、分析群體遺傳結構以及篩選群體代表性個體依賴于實際群體樣本的組成。本研究的樣本來自被廣泛應用于各類研究的千人基因組數據庫,分析這些群體、篩選具有群體代表性的個體可提供更大的實際應用價值。而為了彌補在大陸次級區域內AIM分析群體間遺傳結構差異研究的缺失,同時證明使用AIM核驗樣本血統的實際應用可行性,本研究選取遺傳結構非常復雜的東亞群體作為研究對象。在分析時,盡可能使用更多的AIM以得到更準確的群體結構信息,以夯實后續篩選群體代表性個體的數據基礎。與既往區分全球群體的研究[20]相比,本研究所使用的AIM數量更多,但與同樣對大陸次級區域內(歐洲)人口亞結構進行的研究[7]相比,本研究所使用AIM的數量則要更少。研究結果表明,即使是遺傳背景高度混雜的多個群體,也可使用一組AIM解析群體遺傳結構并成功篩選出具有群體代表性的個體,這充分說明了本研究方法的可行性,也證明了其應用于各類涉及群體的醫學研究中以排除群體結構對醫學研究影響的實際價值。

如上所述,此類研究的結論高度依賴于實際群體樣本的組成。本研究證明了基于公開數據庫中東亞五群體數據篩選的一組AI-SNP能在理論上解析遺傳結構復雜的群體間遺傳結構的差異,并成功依據個體血統差異篩選出群體代表性個體。然而,受到眾多的族群種類、龐大的人口基數,以及復雜的人口流動等因素的影響,東亞地區實際的群體遺傳結構極端復雜。因此,使用更多不同來源的族群個體真實樣本對研究東亞群體間遺傳結構的差異是十分迫切且必要的。對于本研究中篩選出的此組AI-SNP,后續將構建體系并進一步使用來源于各個群體的真實樣本進行驗證。此外,今后的研究也將基于該體系盡可能補充更多不同群體的樣本,以進一步將研究結果擴大化,使其能真正在實際應用中發揮價值。

綜上所述,本研究使用F值篩選的一組AI-SNP對遺傳結構復雜的東亞五群體進行了遺傳結構分析,基于STRUCTURE的結果成功從各個群體中篩選了具有潛在群體代表性的個體。經STRUCTURE分析和PCA分析的驗證,群體代表性遺傳成分占個體總遺傳成分超過80%的個體具備良好的群體代表性。本研究的結果表明,使用一組篩選的AIM可對研究群體中個體的遺傳結構進行解析,可核實樣本的聲明血統和實際血統的吻合度并成功篩選具有群體代表性的個體,這一方法在排除群體遺傳結構差異對醫學研究的影響時具備實際應用價值。

[1] Hellwege JN, Keaton JM, Giri A, Gao XY, Velez Edwards DR, Edwards TL. Population stratification in genetic association studies.2017, 95: 1.22.1–1.22.23.

[2] Schlebusch CM, Skoglund P, Sj?din P, Gattepaille LM, Hernandez D, Jay F, Li S, De Jongh M, Singleton A, Blum MG, Soodyall H, Jakobsson M. Genomic variation in seven Khoe-San groups reveals adaptation and complex African History., 2012, 338(6105): 374–379.

[3] Price AL, Zaitlen NA, Reich D, Patterson N. New approaches to population stratification in genome-wide association studies., 2010, 11(7): 459–463.

[4] Gong X, Zhang C, Yiliyasi A, Shi Y, Yang XW, Nuersimanguli A, Guan YQ, Xu SH. A comparative analysis of genetic diversity of candidate genes associated with type 2 diabetes in worldwide populations., 2016, 38(6): 544–565.

弓弦, 張超, 伊利亞斯·艾薩, 時瑛, 楊雪唯, 努爾斯曼古麗·奧斯曼, 關亞群, 徐書華. 2型糖尿病易感候選基因在世界不同人群中的多樣性比較分析. 遺傳, 2016, 38(6): 544–565.

[5] Dai R, Zhang C, Cheng YJ, Chen WL, Li Q, Wang YM. Pharmacogenomics genetic differences between Wa and Blang ethnic groups in Yunnan., 2020, 41(5): 33–40.

代潤, 張嬋, 程瑜靜, 陳婉璐, 李琦, 王玉明. 云南佤族和布朗族人群藥物基因組學基因遺傳差異. 昆明醫科大學學報, 2020, 41(5): 33–40.

[6] Phillips C, Prieto L, Fondevila M, Salas A, Gómez-Tato A, Alvarez-Dios J, Alonso A, Blanco-Verea A, Brión M, Montesino M, Carracedo A, Lareu MV. Ancestry analysis in the 11-M Madrid bomb attack investigation., 2009, 4(8): e6583.

[7] Tian C, Plenge RM, Ransom M, Lee A, Villoslada P, Selmi C, Klareskog L, Pulver AE, Qi LH, Gregersen PK, Seldin MF. Analysis and application of European genetic substructure using 300 K SNP information., 2008, 4(1): e4.

[8] Enoch MA, Shen PH, Xu K, Hodgkinson C, Goldman D. Using ancestry-informative markers to define populations and detect population stratification., 2006, 20(4): 19–26.

[9] Pritchard JK, Stephens M, Rosenberg NA, Donnelly P. Association mapping in structured populations., 2000, 67(1): 170–181.

[10] Clarke L, Fairley S, Zheng-Bradley X, Streeter I, Perry E, Lowy E, Tassé AM, Flicek P. The international genome sample resource (IGSR): a worldwide collection of genome variation incorporating the 1000 genomes project data., 2017, 45(D1): D854–D859.

[11] 1000 Genomes Project Consortium, Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, Marchini JL, McCarthy S, McVean GA, Abecasis GR. A global reference for human genetic variation., 2015, 526(7571): 68–74.

[12] Qin PF, Li ZQ, Jin WF, Lu DS, Lou HY, Shen JW, Jin L, Shi YY, Xu SH. A panel of ancestry informative markers to estimate and correct potential effects of population stratification in Han Chinese., 2014, 22(2): 248–253

[13] Severe Covid-19 GWAS Group, Ellinghaus D, Degenhardt F, Bujanda L, Buti M, Albillos A, Invernizzi P, Fernández J, Prati D, Baselli G, Asselta R, Grimsrud MM, Milani C, Aziz F, K?ssens J, May S, Wendorff M, Wienbrandt L, Uellendahl-Werth F, Zheng TH, Yi XL, de Pablo R, Chercoles AG, Palom A, Garcia-Fernandez AE, Rodriguez- Frias F, Zanella A, Bandera A, Protti A, Aghemo A, Lleo A, Biondi A, Caballero-Garralda A, Gori A, Tanck A, Carreras Nolla A, Latiano A, Fracanzani AL, Peschuck A, Julià A, Pesenti A, Voza A, Jiménez D, Mateos B, Nafria Jimenez B, Quereda C, Paccapelo C, Gassner C, Angelini C, Cea C, Solier A, Pesta?a D, Mu?iz-Diaz E, Sandoval E, Paraboschi EM, Navas E, García Sánchez F, Ceriotti F, Martinelli-Boneschi F, Peyvandi F, Blasi F, Téllez L, Blanco-Grau A, Hemmrich-Stanisak G, Grasselli G, Costantino G, Cardamone G, Foti G, Aneli S, Kurihara H, ElAbd H, My I, Galván-Femenia I, Martín J, Erdmann J, Ferrusquía-Acosta J, Garcia-Etxebarria K, Izquierdo- Sanchez L, Bettini LR, Sumoy L, Terranova L, Moreira L, Santoro L, Scudeller L, Mesonero F, Roade L, Rühlemann MC, Schaefer M, Carrabba M, Riveiro-Barciela M, Figuera Basso ME, Valsecchi MG, Hernandez-Tejero M, Acosta-Herrera M, D'Angiò M, Baldini M, Cazzaniga M, Schulzky M, Cecconi M, Wittig M, Ciccarelli M, Rodríguez-Gandía M, Bocciolone M, Miozzo M, Montano N, Braun N, Sacchi N, Martínez N, ?zer O, Palmieri O, Faverio P, Preatoni P, Bonfanti P, Omodei P, Tentorio P, Castro P, Rodrigues PM, Blandino Ortiz A, de Cid R, Ferrer R, Gualtierotti R, Nieto R, Goerg S, Badalamenti S, Marsal S, Matullo G, Pelusi S, Juzenas S, Aliberti S, Monzani V, Moreno V, Wesse T, Lenz TL, Pumarola T, Rimoldi V, Bosari S, Albrecht W, Peter W, Romero-Gómez M, D'Amato M, Duga S, Banales JM, Hov JR, Folseraas T, Valenti L, Franke A, Karlsen TH. Genomewide association study of Severe Covid-19 with respiratory failure., 2020, 383(16): 1522–1534.

[14] Foo JN, Tan LC, Irwan ID, Au WL, Low HQ, Prakash KM, Ahmad-Annuar A, Bei JX, Chan AY, Chen CM, Chen YC, Chung SJ, Deng H, Lim SY, Mok V, Pang H, Pei Z, Peng R, Shang HF, Song K, Tan AH, Wu YR, Aung T, Cheng CY, Chew FT, Chew SH, Chong SA, Ebstein RP, Lee J, Saw SM, Seow A, Subramaniam M, Tai ES, Vithana EN, Wong TY, Heng KK, Meah WY, Khor CC, Liu H, Zhang F, Liu J, Tan EK. Genome-wide association study of Parkinson's disease in East Asians., 2017, 26(1): 226–232.

[15] Setakis E, Stirnadel H, Balding DJ. Logistic regression protects against population structure in genetic association studies., 2006, 16(2): 290–296.

[16] Gaspar HA, Breen G. Probabilistic ancestry maps: a method to assess and visualize population substructures in genetics., 2019, 20(1): 116.

[17] Pritchard JK, Stephens M, Donnelly P. Inference of population structure using multilocus genotype data., 2000, 155(2): 945–959.

[18] Alexander DH, Novembre J, Lange K. Fast model-based estimation of ancestry in unrelated individuals., 2009, 19(9): 1655–1664.

[19] Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D. Principal components analysis corrects for stratification in genome-wide association studies., 2006, 38(8): 904–909.

[20] Phillips C, Salas A, Sánchez JJ, Fondevila M, Gómez-Tato A, Alvarez-Dios J, Calaza M, de Cal MC, Ballard D, Lareu MV, Carracedo A; SNPforID Consortium. Inferring ancestral origin using a single multiplex assay of ancestry-informative marker SNPs., 2007, 1(3–4): 273–80.

[21] Li CX, Pakstis AJ, Jiang L, Wei YL, Sun QF, Wu H, Bulbul O, Wang P, Kang LL, Kidd JR, Kidd KK. A panel of 74 AISNPs: improved ancestry inference within Eastern Asia., 2016, 23: 101–110.

[22] Liu j, Liu CC, Ma M, Wang L, Zhao WT, Ma Q, Ji AQ, Liu J, Li CX. The ancestry inference of Chinese populations using 74-plex SNPs system., 2020, 42(3): 296–308.

劉楊, 孫昌春, 馬咪, 王玲, 趙雯婷, 馬泉, 季安全, 劉京, 李彩霞. 74-plex SNPs復合檢測體系在中國人群中的族群推斷研究. 遺傳, 2020, 42(3): 296–308.

[23] Qu SQ, Zhu J, Wang YJ, Yin L, Lv ML, Wang L, Jian H, Tan Y, Zhang RR, Liu YQ, Li F, Huang SC, Liang WB, Zhang L. Establishing a second-tier panel of 18 ancestry informative markers to improve ancestry distinctions among Asian populations., 2019, 41: 159–167.

[24] Bulbul O, Speed WC, Gurkan C, Soundararajan U, Rajeevan H, Pakstis AJ, Kidd KK. Improving ancestry distinctions among Southwest Asian populations., 2018, 35: 14–20.

[25] Shi CM, Liu Q, Zhao SL, Chen H. Ancestry informative SNP panels for discriminating the major East Asian populations: Han Chinese, Japanese and Korean., 2019, 83(5): 348–354

[26] Danecek P, Auton A, Abecasis G, Albers CA, Banks E, DePristo MA, Handsaker RE, Lunter G, Marth GT, Sherry ST, McVean G, Durbin R; 1000 Genomes Project Analysis Group. The variant call format and VCFtools., 2011, 27(15): 2156–2158.

[27] Weir BS, Cockerham CC. Estimating F‐statistics for the analysis of population structure., 1984, 38(6): 1358–1370.

[28] Falush D, Stephens M, Pritchard JK. Inference of population structure using multilocus genotype data: linked loci and correlated allele frequencies.. 2003, 164(4): 1567–87.

[29] Earl DA, vonHoldt BM. Structure Harvester: a website and program for visualizing structure output and implementing the Evanno method., 2012, 4(2): 359–361.

[30] Jakobsson M, Rosenberg NA. Clumpp: a cluster matching and permutation program for dealing with label switching and multimodality in analysis of population structure., 2007, 23(14): 1801–1806.

[31] Rosenberg NA. Distructd: a program for the graphical display of population structure., 2004, 4(1): 137–138.

[32] Zhou CX, Li M, Huai C, He L, Qin SY. Study on hereditary susceptibility genetic markers to anti-tuberculosis drug induced liver injury in Chinese population., 2020, 42(4): 374–379.

周晨希, 李沫, 懷聰, 賀林, 秦勝營. 中國人群中抗結核藥物引發肝損傷的易感基因標記研究. 遺傳, 2020, 42(4): 374–379.

[33] Sun YD, Tian ZZ, Zhou W, Li M, Huai C, He L, Qin SY. Genome-wide association study on liver function tests in Chinese., 2021, 43(3): 249–260.

孫一丹, 田子釗, 周偉, 李沫, 懷聰, 賀林, 秦勝營. 中國人群肝功能檢測指標全基因組關聯分析研究. 遺傳, 2021, 43(3): 249–260.

[34] Wright S. The genetical structure of populations., 1951, 15(4): 323–354.

[35] Holsinger KE, Weir BS. Genetics in geographically structured populations: defining, estimating and interpreting., 2009, 10(9): 639–650.

[36] Santos C, Phillips C, Gomez-Tato A, Alvarez-Dios J, Carracedo á, Lareu MV. Inference of ancestry in forensic analysis II: analysis of genetic data.. 2016, 1420: 255–285.

AI-SNPs screening based on the whole genome data and research on genetic structure differences of subcontinent populations

Haoyu Wang, Yuhan Hu, Yueyan Cao, Qiang Zhu, Yuguo Huang, Xi Li, Ji Zhang

The genetic structure differences in population is one of the key elements in medical research involving multi-population samples. A set of ancestry-informative single nucleotide polymorphisms (AI-SNPs) can be utilized to analyze genetic component of a population, infer ancestral origin of individuals and pre-filter samples to reduce the impact of population genetic structure differences on medical research. However, most of the published studies were focused on revealing the differences between populations of continents or regions of a continent. In this paper, AI-SNPs were screened by calculatingFvalue in each pair of five East Asian populations: Japanese in Tokyo (JPT), Han Chinese in Beijing (CHB), Southern Han Chinese (CHS), Chinese Dai in Xishuangbanna (CDX) and Kinh in Ho Chi Minh City (KHV) in the 1000 Genomes Project phase 3 (GRCh37.p13) to analyze differences in subcontinent populations. The results demonstrate that the five East Asian populations in our study were assigned to three clusters: JPT, CHB and CHS, CDX and KHV. A set of AI-SNPs can be used for analysis of individual genetic composition and selection of representative individuals. Individuals with over 80% population representative genetic components have good representativeness of a population. This paper demonstrated the practical value of the method, which was performed to verify the ancestral composition and select representative samples with a panel of screened AI-SNPs byFvalue, thereby reducing the influence of genetic structure differences in subcontinent populations on population-related medical research.

ancestry-informative marker; single nucleotide polymorphism (SNP); East Asian populations; genetic structure differences

2021-05-26;

2021-07-23

國家自然科學基金項目(編號:81571861, 81630054)資助[Supported by the National Natural Science Foundation of China (Nos. 81571861, 81630054)]

王浩宇,在讀碩士研究生,專業方向:法醫物證學。E-mail: wanghy0707@gmail.com

胡渝涵,在讀碩士研究生,專業方向:法醫物證學。E-mail: huyuhan28@163.com

王浩宇和胡渝涵并列第一作者。

張霽,博士,教授,研究方向:法醫物證學。E-mail: zhangj@scu.edu.cn

10.16288/j.yczz.21-185

2021/8/4 17:50:29

URI: https://kns.cnki.net/kcms/detail/11.1913.R.20210804.1141.001.html

(責任編委: 朱波峰)

猜你喜歡
結構分析研究
FMS與YBT相關性的實證研究
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
論《日出》的結構
主站蜘蛛池模板: 成年A级毛片| 久久精品国产在热久久2019| 最新日韩AV网址在线观看| 精品国产成人国产在线| 在线观看网站国产| 伊人激情综合网| 精品国产自在现线看久久| 日本尹人综合香蕉在线观看| 欧美特黄一级大黄录像| 青青热久麻豆精品视频在线观看| 18禁黄无遮挡免费动漫网站| 五月婷婷丁香综合| 亚洲电影天堂在线国语对白| 亚洲国产AV无码综合原创| 色国产视频| 伊人天堂网| 欧美日一级片| 精品国产成人av免费| 国产成人精品2021欧美日韩| 99热亚洲精品6码| 久久久久免费看成人影片| 国产99精品久久| 四虎影视库国产精品一区| 亚洲Av综合日韩精品久久久| 欧美另类图片视频无弹跳第一页| 国产一在线| 国产在线一区视频| 91亚洲视频下载| 亚洲无码视频一区二区三区| 国产精品自在线天天看片| 国产91丝袜| 无码精品国产dvd在线观看9久 | 一本大道香蕉高清久久| 114级毛片免费观看| 在线精品亚洲一区二区古装| 91日本在线观看亚洲精品| 毛片免费在线| 国产精品妖精视频| 欧美亚洲日韩不卡在线在线观看| 久久香蕉国产线看观看精品蕉| 国产v欧美v日韩v综合精品| 中文字幕乱码中文乱码51精品| 亚洲欧美激情小说另类| 久久精品嫩草研究院| 动漫精品啪啪一区二区三区| 91精品情国产情侣高潮对白蜜| 免费无遮挡AV| 成人综合在线观看| 亚洲欧美色中文字幕| 亚洲视频免费在线| 亚洲国产成人在线| 久久精品娱乐亚洲领先| 日本成人在线不卡视频| 久久久久人妻精品一区三寸蜜桃| 在线看片中文字幕| 国模私拍一区二区三区| 老司机精品一区在线视频| 免费va国产在线观看| 少妇极品熟妇人妻专区视频| 欧美一级在线看| 亚洲一区二区无码视频| 国产精品不卡片视频免费观看| 亚洲欧洲自拍拍偷午夜色| 日本国产在线| 一级毛片在线免费视频| 日本精品影院| 亚洲h视频在线| 亚洲国产一区在线观看| 午夜视频日本| 在线观看视频一区二区| 精品国产免费第一区二区三区日韩| 一本久道久综合久久鬼色 | 毛片基地美国正在播放亚洲 | 深爱婷婷激情网| 亚洲成人手机在线| 亚洲精品无码成人片在线观看 | 久久亚洲日本不卡一区二区| 国产一区二区精品福利| 日日碰狠狠添天天爽| 四虎影视8848永久精品| 亚洲成肉网| 国产欧美高清|