雷志惠,張利平*,趙洪昌,朱韶華,盧曾奎,郭婷婷,孫渭博,赫 雪,岳耀敬*
(1.甘肅農業大學動物科學技術學院,蘭州 730070; 2. 中國農業科學院蘭州畜牧與獸藥研究所,蘭州 730050)
羊毛在養羊業中具有重要經濟價值,提高羊毛的產量和品質是增加毛用綿羊經濟價值的有效途徑。隨著羊毛產量的增加和剪毛工藝的發展,羊毛價值與剪毛成本之間呈現出收支失衡的現象[1],因此,人們嘗試在保留產毛性能的基礎上,通過挖掘與脫毛性狀相關的候選基因來培育無需剪毛的綿羊品種[2-3],以降低剪毛成本并有效控制毛叢寄生蟲滋生,維持動物機體健康。但目前綿羊脫毛性狀的相關研究鮮有報道,其遺傳機制尚不清楚。
綿羊經過長期的品種選育和品種質量提高等過程,使其被毛分化出粗毛、細毛和半細毛等多種類型,其中,非洲杜泊羊等無絨毛型綿羊,具有明顯的脫毛性狀,能夠適應多種氣候條件和生態環境,羊毛可隨氣候變化自然脫落,無需剪毛[4];而高山美利奴羊等細毛型綿羊,不具有脫毛性狀,被毛基本由同質細毛組成,長度7~10 cm,整齊均勻,剪毛量4.2~9.8 kg,是毛紡工業的優質原料[5];薩福克羊等中毛型綿羊,羊毛細度50~58支,長度7~8 cm,剪毛量2.3~6.0 kg,主要用于毛線、毛毯和工業用氈等[6]。多種羊毛類型主要受基因調控、毛囊結構及其生長發育之間的差異等因素影響,諸多研究表明,FGF家族成員與毛囊的生長周期和分化有密切關系[7]:在毛囊生長時期,FGF2和FGF5均有調控毛囊發育的作用[8];FGF5可抑制毛發生長,當過表達時會縮短毛囊生長期,促使毛囊進入退行期[9];FGF7可以抑制毛囊細胞的分化[10]。毛囊主要分布在皮膚的表皮和真皮中,真皮中的毛乳頭細胞可誘導調控毛囊生長發育,在毛囊形態學發生和周期性生長調控中起主導作用[11]。
隨著生物技術快速發展,選擇信號分析可鑒定出選擇過程中基因組上留下的痕跡。在諸多選擇信號分析方法中,Fst可利用多態性數據,檢測群體之間等位基因頻率差異[12],并有效檢測群體中受正向選擇的位點;θπ Ratio是基于基因雜合度的選擇性消除分析的方法[13],可通過兩個群體之間θπ的比值來確定受選擇位點所在的群體。Guo等[14]對6個表型不同的山羊品種進行選擇信號分析,發現了影響被毛顏色(IRF4、EXOC2、RALY、EIF2S2、KITLG)、生長性狀(LDB2)和繁殖性狀(KHDRBS2)的相關基因。Li等[15]利用Fst和θπ Ratio方法對絨山羊重測序數據進行選擇信號分析,篩選出FGF5、SGK3、IGFBP7、ROCK1等可能參與羊絨纖維形成的基因。Islam等[16]利用Fst和XP-EHH對6種不同山羊群體進行選擇信號分析,篩選出MARF1、SYCP2、TMEM200C、SF1、ADCY1和BMP5等與山羊繁殖性狀相關的候選基因。因此,利用選擇信號分析方法挖掘綿羊毛囊發育及脫毛性狀的關聯基因并了解其功能[17],對探究其遺傳機制具有重要意義。
本研究以3種羊毛類型(無絨毛型、細毛型和中毛型)共21個品種的綿羊群體作為研究對象,利用Illumina Ovine SNP 50K芯片分型數據,基于Fst和θπ Ratio方法進行選擇信號分析,挖掘綿羊毛囊發育及脫毛性狀的候選基因,以期為綿羊的分子育種提供重要參考。
本研究選用國內外21個綿羊品種的290只個體作為研究對象,依據羊毛類型分為無絨毛型(hair)、細毛型(fine wool)和中毛型(medium wool),各品種名稱、縮寫和樣本量信息見表1。本試驗所使用的21個綿羊品種Illumina Ovine SNP 50K芯片的基因分型數據來源于ISGC(https://www.sheephapmap.org/)、NRSP(https://www.animalgenome.org/sheep/community/)、WIDDE(http://widde.toulouse.inra.fr/)和OSF(https://www.ontariosheep.org/)4個數據庫。為了將芯片基因分型數據與現有綿羊基因組注釋文件相對應,將SNP位置信息按照Ovis_aries_v4.0參考基因組的位置重新排序。使用PLINK(v1.90b)軟件[18]進行質控,標準如下:1)SNP檢出率大于90%;2)次等位基因頻率MAF大于0.01;3)哈代溫伯格平衡P值大于10-6;4)僅對常染色體上的選擇信號進行檢測[17,19]。經過以上質控后共得到290個綿羊個體的34 436個SNPs用于后續選擇信號分析。

表1 本研究中綿羊品種信息
1.2.1 群體背景分析 為了解所選試驗樣本的聚類情況和遺傳關系,本研究通過PLINK(v1.90b)軟件(參數:plink--file bestqc.comsnp--pca 3 header tabs)進行主成分分析,利用R軟件包(ggplot)[20]對所得結果進行可視化展示。
為從群體層面上研究所選群體的分層情況,本研究基于貝葉斯模型進行STRUCTURE分析,利用ADMIXTURE軟件[21](參數:for k in 1 2 3 4; do admixture--cv admixture_bestqc.comsnp.bed $k| tee admixture_bestqc.comsnp/log${k}.out; done;)對各個位點的基因型數據進行聚類模型的構建。
1.2.2 選擇信號檢測 本研究利用Fst和θπ Ratio兩種方法開展選擇信號檢測,利用VCFtools (0.1.15)軟件[22]進行數據分析,運用滑動窗口的方法,以1 000 kb作為一個滑動窗口,100 kb作為步長,計算染色體窗口內的Fst值[23-24]。提取Fst和θπ Ratio均為top 5%[12]的窗口內位點作為顯著SNP位點,即為選擇信號的候選位點。
1.2.3 候選基因檢測與注釋 將Fst和θπ Ratio篩選出top 5%的SNPs作為本次試驗的“離群位點”,離群位點上、下游各50 kb視為選擇信號作用區域,參照綿羊Ovis_aries_v4.0基因組信息對選擇信號作用區域進行基因注釋,注釋所得到的基因稱作“候選基因”。
對21個綿羊群體的基因分型數據進行主成分分析和群體結構分析,結果如圖1所示。PC1能夠解釋12.63%的遺傳變異,很明顯地將中毛型綿羊從所有群體中區分開;在PC1正值方向,細毛羊基本聚集在一起,部分無絨毛型綿羊與細毛型綿羊混在一起,PC2能夠解釋9.15%的遺傳變異,在PC2正值方向,部分無絨毛型綿羊單獨聚在一起。

圖1 不同綿羊群體的主成分分析Fig.1 Principal component analysis of different sheep populations
為證實PCA所得結果的準確性,另采用ADMIXTURE軟件進行分析。通過比較不同K值的交叉驗證錯誤率發現,當K=10時交叉驗證的錯誤率最小(圖2),因此CV error (K=10)是最佳的建模選擇,ADMIXTURE結果如圖3所示。綿羊各群體的親緣關系較遠,起源相對復雜,不同羊毛類型的綿羊之間存在明顯的基因交流。
2.2.1Fst分析 用PLINK(v1.90b)軟件對質控后的34 436個SNPs位點進行計算,得到3個不同毛型群體之間成對的遺傳分化指數Fst值,并繪制Fine-Hair和Medium-Hair兩組中每個位點的Fst值經驗分布圖,如圖4所示。在全基因組水平取Fine-Hair組和Medium-Hair組top 5%的SNPs作為受選擇位點,分別有1 469個和1 049個SNPs位點高于閾值線。其中,在Fine-Hair組間存在14個位點位于Fst分布的尾端(Fst>0.25),在Medium-Hair組間存在77個位點位于Fst分布的尾端(Fst>0.25),表明在Fine-Hair組和Medium-Hair組中均存在遺傳分化。
2.2.2 θπ Ratio分析 將細毛型綿羊與中毛型綿羊作為參考群體,無絨毛型綿羊作為試驗群體進行θπ Ratio分析(表2)。分別取Fine-Hair組和Medium-Hair組top 5%的SNPs作為受選擇位點,結果均有1 221個SNPs位點高于閾值線。當核苷酸多態性比率θπ Ratio越偏離1時,基因組受選擇程度越高,其中在Fine-Hair組間存在46個位點偏離較大(θπ Ratio>1.4),在Medium-Hair組間存在69個位點偏離較大(θπ Ratio>1.4)。

圖2 綿羊群體的交叉驗證Fig.2 Cross validation of sheep populations
2.2.3Fst和θπ Ratio的基因定位和功能注釋 利用Fst和θπ Ratio在綿羊基因組中篩選顯著基因,其中在Fine-Hair組中篩選到608個顯著基因(圖5A);在Medium-Hair組中篩選到473個顯著基因(圖5B)。根據兩組中獲得的顯著基因繪制Venn diagram,在交叉區域內獲得177個基因(圖6),經功能注釋,最終篩選出SOX18、EXT2、ACP2、ALX4、FGF1和LRP4等與毛囊發育及脫毛性狀相關的基因(表3)。

圖3 綿羊群體的STRUCTURE分析Fig.3 STRUCTURE analysis of sheep populations

圖4 試驗群體間Fst值分布圖Fig.4 The distribution of Fst values in experimental groups
本研究采用群體間等位基因頻率變化的方法計算Fst,以衡量群體分化程度和遺傳距離,尋找受選擇的潛在位點。但基于單位點估計的方法會導致假陽性結果,為提高檢測的準確性,選用滑動窗口的方法降低假陽性出現的概率[25];θπ Ratio根據基因雜合度進行分析,計算兩個群體之間的比值,基因組受選擇程度越高,θπ Ratio就越偏離1[15,26];因此,本研究通過上述兩種方法篩選顯著SNP位點,選取top 5%的SNPs作為受選擇位點[27],可有效提高選擇信號篩選的準確性。對3種羊毛類型的綿羊群體進行遺傳背景和主成分分析發現,不同品種所組成的群體,根據其產地和親緣關系分布在不同位置,結果與預期一致;根據群體結構分析,研究涉及的群體祖先來源廣泛,血緣組成復雜,存在明顯的基因交流,主成分分析和群體結構分析的結果一致,為選擇信號分析提供準確依據。采用Fst和θπ Ratio兩種方法進行相互驗證,可提高基因定位可靠性,兩種方法的交叉區域內共獲得177個強烈受選擇基因。

表2 試驗群體間θπ Ratio 值的分布

A. Fine-Hair的選擇信號分布;B. Medium-Hair的選擇信號分布A. The selection signal distribution of Fine-Hair; B. The selection signal distribution of Medium-Hair圖5 綿羊常染色體選擇信號分布分析Fig.5 Analysis of selection signal distribution on sheep autosomes

圖6 Fine-Hair與Medium-Hair兩組中的重疊基因Fig.6 Overlapping genes of Fine-Hair and Medium-Hair

表3 無絨毛羊中與毛囊發育及脫毛性狀相關的基因
以交叉區域內的基因為基礎,結合前人研究結果進行基因功能注釋,根據注釋結果可知,成纖維細胞生長因子(FGF)家族成員參與機體許多不同類型細胞的增值和分化,在調節毛囊發育中起重要作用[28-29],FGF家族由許多肝素結合蛋白組成,能夠影響細胞的有絲分裂,促進遷移和分化以及誘導血管生成[30]。此外,成纖維細胞生長因子1(FGF1)在毛囊中表達并可能調節其生長[31]。本研究中,在綿羊Chr5中檢測出SNP位點5-50965861(Fst1=0.418 6,Fst2=0.348 0,θπ Ratio1=1.051 7,θπ Ratio2=1.537 8),經功能注釋,發現了與皮膚及毛囊發育相關的FGF1基因,該位點在無絨毛型綿羊群體中受到強烈選擇,據此推斷,該基因對無絨毛型綿羊群體羊毛脫落具有重要作用;在Chr13中檢測出SNP位點13-53089456(Fst1=0.362 2,Fst2=0.157 0,θπ Ratio1=1.014 6,θπ Ratio2=1.015 0),位于SOX18(SRY (sex determining region Y) -box 18)內,該位點在無絨毛型綿羊群體受到強烈選擇。SOX18是SOX轉錄因子F(SOX F)亞家族的重要成員之一,在人和小鼠上分別位于Chr20和Chr2,在血管、淋巴管發育過程中發揮重要作用[32]。SOX蛋白屬于SRY相關基因家族編碼的轉錄因子,在機體中參與多種組織器官發育過程與調控機制[33]。此外,該蛋白還參與血管生成、毛囊發育和淋巴管生成等生物學過程[34]。稀毛癥-淋巴水腫-毛細血管擴張綜合征通常表現為淋巴水腫、眉毛稀疏、發育遲緩和脫發等癥狀[35],Irrthum等[36]對患有稀毛癥-淋巴水腫-毛細血管擴張疾病的臨床患者及后代進行相關研究,發現轉錄因子SOX18基因在這些患者中存在隱性突變。Pennisi等[37]發現SOX18在小鼠胚胎發育中的血管內皮細胞和毛囊中均有表達,此外,在兩個不同的突變小鼠等位基因中均發現SOX18存在點突變,與野生型對比的結果表明,含有上述突變的融合蛋白缺乏激活轉錄能力,綜上,SOX18的異常表達會引發毛發稀少-淋巴水腫-毛細血管擴張綜合征,并確定SOX18是心血管和毛囊形成的關鍵基因[32]。因此推測,SOX18在綿羊毛囊形成中具有關鍵作用,SOX18的異常表達可能與綿羊毛囊的發育及脫毛性狀有關,但仍需進一步驗證。在綿羊Chr15的SNP位點15-74875572(Fst1=0.139 7,Fst2=0.198 9,θπ Ratio1=1.305 0,θπ Ratio2=1.954 7)注釋到LRP4,發現該位點在無絨毛綿羊中受到強烈選擇,孫向東[38]研究發現,LRP4為低密度脂蛋白受體家族成員之一,編碼的蛋白質可能是Wnt信號的調節劑,在皮膚和大腦等組織中廣泛表達[39]。Ahn等[40]的研究結果表明,在細胞培養過程中,LRP4過表達可抑制調控毛囊周期性發育的Wnt信號激活[41-42];此外,BMP家族基因是毛囊發育及周期性生長關鍵因子,調控毛囊生長發育、胚胎發育及骨骼生長等[43],研究表明LRP4可參與BMP信號調節[44],綜上,LRP4對Wnt和BMP通路及信號轉導存在直接或間接抑制作用,其機理目前尚不清楚。Zhang等[45]發現,LRP4在乳腺和毛囊等皮膚附屬物中表達,與機體毛囊發育關系密切。在綿羊Chr15中檢測出SNP位點15-75217088(Fst1=0.101 7,Fst2=0.179 4,θπ Ratio1=1.155 4,θπ Ratio2=1.138 6),位于ACP2內,該基因突變會導致小鼠的小腦和皮膚畸形,引起生長遲緩和毛發延遲出現等現象[46];在Chr15中檢測出SNP位點15-72418538(Fst1=0.150 4,Fst2=0.167 2,θπ Ratio1=0.022 0,θπ Ratio2=1.035 6)注釋到ALX4,發現該基因突變可能與Wnt/β-catenin信號相互作用影響表皮分化,導致毛囊形成和分化異常,使機體出現毛發脫落的現象[47]。
研究發現,上述6個與綿羊毛囊發育相關的候選基因均處于Chr5、Chr13和Chr15,因此,后續研究可將以上染色體作為重點區域進行深入挖掘。另外,毛囊具有自我更新和周期性生長等特點,是研究器官大小、組織形態、干細胞再生和內環境穩態等的理想模型[48]。可為深入挖掘綿羊的分子遺傳機制提供重要的參考依據,也為研究綿羊毛囊發育及生理性脫毛提供新思路。
本研究利用Fst和θπ Ratio方法對綿羊SNP芯片的分型數據進行選擇信號檢測,對強烈受到選擇的SNPs位點進行注釋得到177個受強烈選擇的基因,其中FGF1、SOX18、ALX4和LRP4與毛囊的發育周期、毛發形成以及毛囊和皮脂腺的部分細胞具有密切聯系,且主要位于Chr5、Chr13和Chr15,這些發現可為綿羊毛囊發育機制的研究提供參考,也可將其作為后期功能驗證的候選基因。