王曉薇,樊 毅,楊 陽,史遠剛,施 安,侯鵬霞*
(1.寧夏大學農學院,寧夏 銀川 750021;2.寧夏農林科學院動物科學研究所,寧夏 銀川750002;3.銀川產業技術研究院,寧夏 銀川 750002;4.寧夏農墾賀蘭山奶業有限公司,寧夏 銀川 750205)
全基因組關聯分析(genome-wide association studies,GWAS)指在全基因組水平上,對大樣本群體開展數以百萬計的分子遺傳標記檢測并進行對照分析或相關性分析,通過比較發現影響復雜性狀基因變異的一種新策略。通過對大規模的試驗群體DNA樣本進行全基因組高密度遺傳標記,如單核苷酸多態性(single nucleotide polymorphism,SNP)或拷貝數變異(copy number variation,CNV)等,通過統計學方法、遺傳學知識和生物信息學軟件關聯分析大量的分子標記數據與表型性狀,篩選得到與目標性狀相關聯的候選基因[1]。Risch等[2]通過研究人類復雜疾病遺傳學提出GWAS的概念,全基因組關聯分析比連鎖分析具有更高的基因變異檢測效力,可不受預先設定候選基因的限制。Klein 等[3]首次利用GWAS 發現了補體因子H基因與視網膜黃斑病呈顯著相關。隨著基因分型技術逐步成熟,牛全基因組測序和參考基因組均已完成,大量與肉牛生長發育、胴體以及肉質性狀顯著相關的SNP位點被鑒定。本文綜述GWAS 的概念、原理及現階段國內外GWAS 在肉牛生長、肉質性狀方面的主要分析方法、研究進展,并對GWAS 的研究應用進行展望,以期為今后利用GWAS開展肉牛經濟性狀遺傳基礎研究提供參考。
目前,GWAS分析采用的主要分子標記是SNP標記[4]。GWAS的原理為依賴連鎖不平衡(LD)研究所關注群體的遺傳變異與性狀之間的關聯,借助全基因組范圍的分子標記進行總體關聯分析,通過統計基因型和表型的關聯性,篩選得到顯著相關性最大的遺傳變異。GWAS 通過分析遺傳變異與表型變異的關聯性,定位影響表型性狀的重要候選基因和數量性狀位點(quantitative trait loci,QTL),進而揭示其遺傳機制[5]。
GWAS 的一般試驗分析流程為:樣品采集、基因分型和表型數據記錄、分析處理(一般多為數量性狀數據),原始數據處理(識別樣本中的SNP 位點)、基因型過濾、群體結構分層分析、親緣關系分析、關聯性分析、SNP注釋和候選基因篩選、連鎖不平衡分析和單倍型分析以及后續的驗證試驗[5]。
根據群體家系存在與否,研究方法主要可分為基于無關個體的關聯分析和基于家系的關聯分析。對于不存在家系的試驗群體,研究人員通常采用基于無關個體關聯分析的方法,該方法又為隨機群體關聯分析和病例對照分析法。基于隨機群體關聯的分析方法通常采用方差分析、協方差分析和回歸分析的統計方法關聯分析數量性狀。病例對照分析法主要采用卡方檢驗比較全基因組范圍內試驗組和對照組等位基因頻率的差異,常應用于疾病等質量性狀的研究。若試驗組和對照組有顯著差異,則提示該遺傳變異可能與疾病相關。
基于家系的關聯分析充分考慮試驗樣本的群體混雜和群體分層現象,可在一定程度上避免這些因素對分析結果產生的影響。當研究群體家系信息完整時,可利用傳遞或不平衡檢驗關聯分析遺傳標記和性狀。樣本數量和系譜信息完整性存在限制。因此,針對畜禽各類性狀的GWAS設計通常基于無關個體。
按照研究策略,研究方法可分為單階段法、兩階段法和多階段法[6]。單階段法需要一次性選擇樣本量足夠大的群體,在此群體中對每個樣本的目標SNP 進行基因分型,分析每個SNP 與目標性狀的關聯,統計分析關聯強度和OR值。此法設計簡單,但成本過大。因此,在實際操作中主要采用兩階段法或多階段法[7]。第一階段先在較小樣本群體中進行覆蓋全基因組范圍的SNP基因分型,統計分析后篩選得到少數的目標陽性SNP,進行后續第二階段或多階段中更大容量樣本群體的基因分型研究;結合兩階段或多階段的結果進行分析,確定有效的遺傳變異[8]。此設計應保證第一階段篩選出的與目標性狀相關SNP 的特異性和敏感性,減少分析的假陽性,在第二階段采用大樣本量群體進行基因分型驗證。
生長發育性狀和胴體性狀是肉牛生產中最重要的經濟性狀,可占胴體價格影響因素的60%~70%[9]。相關研究人員和養殖者的主要目標是改善肉牛的生長和胴體性狀[9-11]。體尺性狀是育肥期監測家畜生長情況的重要工具[12],可通過提高飼料利用率和管理效率控制家畜的生長發育,從而得到更高的利潤[13]。肉質是一個復雜的多表型性狀,包括多個感官特征,如肉色、多汁性和嫩度,是牛肉產品定價和消費者接受度的主要決定因素[14]。多重因素(如基因與環境)共同調節肉牛的體尺、胴體和肉質性狀,對家畜的優良生產性狀進行基因分型和基因檢測可顯著提高其遺傳效率[15]。
實際生產中,常用的生長性狀包括定期測定不同生長階段的體重、體尺以及依據體重和體尺計算得出的生長速度等。生長速度通常以體重變化表示,如一段時間內的平均日增重、增重總量或是特定時間點的生長速率等。肉牛達到成年前體重和體尺的變化可反映生長速度。體尺可反映家畜體軀容量的大小及品種特征。青年牛階段大部分體尺測量結果與同階段體重數據存在強相關性。在實際生產中,體尺較體重更易測量。因此,在牛場中定期測定的體尺數據較體重更為準確、詳細。
肉牛的生長性狀受到眾多基因的調控,但其主效基因的鑒定尚不明確。早期研究多采用候選基因法篩選鑒定主效基因,候選基因法覆蓋面小、無偏性差、數量有限,難以在全基因組范圍內對主效基因進行鑒定并對復雜性狀進行解釋。隨著分子生物學技術發展,全基因組關聯分析已成為在復雜性狀候選基因的篩選研究中更有效的方法。目前,常利用牛基因芯片等分析肉牛經濟性狀,篩選得到許多與生長性狀相關的基因組區域。
An等[16]利用Illumina牛HD 770K SNP分型芯片,鑒定463 頭日本和牛的身體測量性狀候選基因,檢測到5 個和1個與體高和體長相關的SNPs;這些SNP總共位于11個基因之內或附近,其中5個為與體重測量性狀相關的新候選基因。An 等[12]利用Illumina 牛770k 芯片,結合LONGGWAS、單性狀GWAS 和多性狀GWAS,研究不同生長階段的西門塔爾牛肉牛的心臟大小、腹圍、身高、體長、尻高和管圍的變化,結果表明,3 個模型共檢測到58 個顯著的SNPs,與中國黃牛體尺相關的21 個基因相匹配。張文剛[17]利用重測序技術研究篩選西門塔爾牛生長發育、胴體品質相關基因,通過全基因組關聯分析找到4個候選區間和18個候選基因;利用多策略全基因組關聯分析進一步探索肉牛日增重性狀遺傳機制。結果顯示,3 種全基因關聯分析同時定位到NCAPG-DCAF16 區段,且該顯著區段富集許多與細胞增殖分化相關轉錄因子的結合位點,經一系列驗證得出NCAPG基因表達量變化可能是日增重變異的致因因素。陳付英等[18]采用測序技術和全基因組關聯分析,篩選郟縣紅牛生長性狀相關的候選基因,結果顯示,篩選得到3個相關SNP位點;在每個SNP周圍1 Mb區域內篩選相關基因進行GO 分析,發現rs210024569 位點所在的C6orf106基因可作為6 月齡體高性狀的候選基因,rs449748996 位點所在的LOC100337124基因可作為18 月齡體高性狀的候選基因。呂世杰等[19]采用SLAF-seq測序技術對71 頭南陽母牛的血液DNA 進行測序,對每頭牛的初生重及不同月齡(6、12、18、24、36)的體重、體尺及6個月體增重等生長性狀進行全基因組關聯分析。結果顯示,與12月齡體重、12月齡胸圍和12~18月齡體增重等生長性狀顯著相關的5個基因組區域通過基因功能注釋,共篩選得11號染色體上8個與骨生長、肌肉發育和生長調控有關的基因。苗健[20]對1 225頭西門塔爾牛進行Illumina 770K高密度芯片基因分型和復合策略GWAS模型的分析,共找到10 個與骨重顯著關聯的基因和6 個與胴體重顯著關聯的基因。Zhuang 等[21]利用GWAS 鑒定與中國西門塔爾牛出生重、周歲重、出生至周歲體重和18 月齡體重相關的SNP和基因,發現66個基因組窗口,這些窗口和相應基因解釋了1.01~20.15%性狀的遺傳變異。
Buzanskas 等[22]應用廣義線性模型對坎奇姆牛進行GWAS 研究,發現C 型凝集素結構域家族3 成員B(CLEC3B)和二肽基肽酶6(DPP6)等基因對骨骼系統和腦組織的發育具有重要作用。GQLS 技術揭示了與體重、斷奶重和周歲重相關的染色體區域,還發現一些與增重和特定生理功能性狀相關的新區域。Utsunomiya 等[23]研究表明,全基因組范圍內最顯著的SNP 位于BTA14:25376827區段,該區段跨越多個與初生重、性成熟體重、胴體重、體高和斷奶前平均日增重相關的QTL。Martinez 等[24]采用GWAS定位1 562頭哥倫比亞婆羅門牛生長性狀相關的區域,發現了與初生重、斷奶重和周歲重顯著相關的多種基因。Edea 等[25]采用混合線性模型對韓牛胴體重進行GWAS研究,鑒定得到主要分布在第4號染色體上的16個與胴體重相關的SNP;4 號染色體上有21 Mb 的區域對43.45 kg 時的胴體重具有等位基因替代效應,該區域包括可能參與調控脂肪生成、生長性狀、脂肪組織分化、骨骼肌再生和代謝7 個候選基因。Akanno 等[26]研究與肉牛胴體和生長性狀相關的基因組區域或SNPs,發現7個與出生體重、斷奶前日增重、周歲重和大理石紋評分相關的SNPs。
上述SNPs 分別在牛染色體1、3、4、6 和21 上檢測到,并與U6atac、bta-mir-2888-1、REPIN1、AGBL4、ICA1和NXPH等16 個推測候選基因相對應。這些基因的生理功能與碳水化合物、脂類和脂肪組織的代謝有關。Zhang等[27]利用3 種GWAS 方法篩選出影響西門塔爾牛平均日增重的28 個共同SNP 和候選基因區段DCAFl6-NCAPG,并在轉錄水平得以驗證;外顯子測序發現,影響西門塔爾牛胸圍和體長的稀有變異,GO 富集分析和KEGG 通路分析將注釋到的基因均富集到生長發育相關通路。
肉的品質特性主要涉及感官特性、加工性能、營養價值、衛生和食品安全評定[28]。肉質性狀指標包括色澤、嫩度、氣味、pH值、系水力、風味、硬度、肌內脂肪含量和脂肪酸組成等,這些性狀受包括牛的品種、年齡、性別和基因型等遺傳因素以及飼養管理和屠宰工藝等環境因素的共同影響[29]。眾多學者利用GWAS 對影響肉質的各個因素進行研究,通過對控制牛肉品質性狀相關遺傳變異的鑒定,試圖發現更多控制肉質性狀的基因[30]。已有研究結果可幫助育種學家設計最佳育種計劃,更好地選育改良肉牛,使優良的肉質特性穩定遺傳,以實現經濟目標。
提高肉制品質量是增強肉牛企業盈利能力和競爭力的最佳途徑。牛肉中的脂肪含量與肉質、口感、風味密切相關。Chen 等[31]利用Illumina Bovine SNP50 分型芯片對不同性別的1 366 頭雜交肉牛群體進行基因分型,對測定的81 個皮下脂肪和83 個背最長肌的脂肪酸性狀進行GWAS分析,利用基因組最佳線性無偏估計法和貝葉斯法評估預測脂肪酸組成的基因組的準確性。結果顯示,在顯著相關的位點中找到效應較大的標記位于脂肪酸合酶(FASN)和硬脂酰-輔酶A去飽和酶(SCD)等基因附近。
牛肉脂肪酸組成受少數主效應基因和許多效應較小基因的影響。Xia 等[32]對1 141 頭西門塔爾牛肉的脂肪顏色、肉色、大理石紋、眼肌面積和剪切力等肉質性狀相關候選基因和基因組區域進行GWAS 分析研究,結果確定20 個與肉品質性狀相關的SNP,其中與脂肪顏色相關的5 個重要SNP 位于13 號染色體上的一個單倍型模塊;在7 號染色體上發現19 個與剪切力和眼肌面積等性狀相關的SNP。Lu 等[33]利 用Illumina BovineSNP50 芯 片 檢 測747 頭雜種肉牛肉質相關的SNP,運用GWAS 尋找可能與肉牛胴體質量潛在相關的染色體區域,發現8個與胴體重顯著相關的SNP,其中7個位于6號染色體上;發現53個與肋骨百分比相關的SNP,其中12 個SNP 位于20 號染色體上。研究表明,29 號染色體上CAPN1基因是影響牛肉嫩度最顯著的基因,該位點等位基因G的存在與雜交肉牛剪切力測量值有關[34]。Allais 等[35]對3 個法國肉牛品種的3 225 頭個體進行肌內脂肪基因互作和通路的研究,發現候 選 基 因,如CAPN6 STC2、MAP2K4、EYA1、COPS5、XKR4、NR2E1、ATF1、ASPH、TGS1和TTPA,均參與調節肉牛和肉質性狀。有研究發現,標記在3 號染色體上的calpastatin和calpain1基因可影響布朗德·安奎坦牛的嫩度[36],且存在1 組與嫩度和其他肉質性狀相關的相互關聯的基因。Xia 等[37]在中國西門塔爾牛的3號染色體上發現3 個與肉pH 值相關的基因,基于全基因組的關聯分析,檢測得到1個位于3號染色體上的S100A10基因。有研究認為,大部分檢測到的SNPs 均通過單核苷酸多態性分析和基因關聯分析發現,這些基因在動物體內參與多種生物學途徑,如胎牛生長發育、胴體重和脂質沉積[38]。
肌內脂肪是牛肉的風味和營養價值的重要影響因素。有研究在內洛爾牛中發現23個與肌內脂肪沉積和脂肪酸組成相關的區域[39-40]。通過對安格斯牛肉中脂肪酸組成的GWAS 分析,在第19、26 和29 號染色體發現相應區域;這3條染色體含有硬脂酰CoA去飽和酶、脂肪酸合酶和甲狀腺激素基因,說明脂肪酸組成的遺傳變異比例很高[41-42]。
通過混合模型和回歸分析對日本黑牛基因型與脂肪酸組成進行相關性研究,發現19 號染色體中存在30 個顯著的脂肪酸SNP,且檢測到突變對脂肪酸性狀無明顯影響的FASN基因;此區域也檢測到FASN基因,該基因的突變對脂肪酸性狀無明顯影響[43]。采用GWAS 對韓牛肉質性狀的QTL標記進行分析,共鑒定得到52個SNPs,其中3個SNP對肉品質有顯著影響:AX-26742891和AX-26703353分別定位于6 號染色體的101、110 Mb 處,影響嫩度、多汁性和適口性;AX-18624743定位于10 號染色體的3MB 區域,僅影響嫩度和適口性[44]。
與傳統的基因研究策略不同,GWAS在突變區域定位更精確,可直接利用基因內部或個體水平(無系譜特異性)的SNP/LD 鑒定得到新的單基因和寡源疾病基因,發現新的生物機制,提供對復雜性狀種族變異的洞察力;提高通量分析、統計效力,節約時間并降低測序的各項成本;數據可通過網絡共享,公共數據有助于新發現,還可應用于基因識別之外的多種應用[5,45]。
GWAS雖具有上述優點,但也存在一定局限:(1)研究群體遺傳背景的不一致將出現分層現象;進行全基因組關聯分析時須考慮群體結構的影響因素,可利用優化基因組控制、主成分分析、結構關聯分析等統計手段進行分層控制;否則可能將群體結構導致的虛假關聯誤當作試驗結果,增加假陽性,影響試驗結果的可靠度[30]。
(2)基于SNP 標記的GWAS 分析檢測得到的顯著位點,僅能解釋表型中部分(2%~15%)遺傳變異,其他基因組變異形式如CNV 等也需高度關注,GWAS 數據中還存在大量的剩余遺傳信息有待挖掘[4,46]。
(3)不同群體所得研究結果重復性不強,SNP 作用的群體異質性增加GWAS重復檢驗的難度,不同課題對同一研究對象的同一表型性狀檢測結果很少一致[47-48]。
(4)GWAS 采用基因組逐點掃描的方法進行檢測,無法同時利用控制性狀的多基因間網絡調控信息,中等或低效應(遺傳力小于21%)的QTL難以驗出,數量性狀多遵循“微效多基因”的遺傳基礎,可決定GWAS定位策略的檢驗功效。
(5)GWAS僅利用DNA水平的遺傳標記信息,對標記潛在的生物學信息難以利用(如標記所在染色體區域的進化和保守性信息、標記所處非編碼的基因表達調控功能區域等的信息)。
GWAS 在畜禽復雜性狀的遺傳機制探究上取得顯著成績,仍是1種在全基因組范圍內尋找家畜重要經濟性狀顯著相關SNP 位點和復雜QTL 的重要方法。高通量測序技術的飛速進步使得全基因組測序全方位滲透入生物研究的各個領域,動物育種相關研究陸續進入后基因組時代。對傳統GWAS無法挖掘到遺傳信息的部分進行研究,人們開始嘗試在多組學水平上進行聯合分析,繼續進行深度挖掘。最新的GWAS 包括以代謝物為表型的代謝組GWAS、基于表達譜數據的基因表達GWAS以及基于單倍型的單倍型GWAS。當前GWAS 研究中主要利用薈萃分析,對多個獨立領域的研究結果進行結構和系統的定性或定量分析,克服了小樣本研究檢驗效力低的問題,減少假陽性,提高結果可靠度。此外,大部分GWAS 研究并未考慮遺傳位點與環境之間的互作,導致無法有效檢測一些稀有變異。未來更多的研究方向會集中在多位點分析、非加性效應以及互作效應對GWAS 的影響。隨著基因組測序等技術的更新發展以及統計方法的不斷完善,GWAS將會更高效地應用于肉牛重要性狀的基因篩選鑒定,在推動中國肉牛育種事業的發展中持續貢獻力量。