張 霞,豆騰飛,賈俊靜,葛長榮
(云南農業大學動物科學技術學院,云南昆明 650201)
基因組學是對生物體所有基因進行集體表征、定量以及對不同基因組比較研究的一門學科,主要針對基因組的結構、功能、進化、定位、編輯以及對生物體的影響等進行研究,可用于解決生物學、農學、林學、醫學等領域的一些重大科學問題。測序技術為眾多領域更深入地科學研究提供了廣闊視角,推動了這些領域的快速發展。Sanger 等[1]于1977 年發明了第一代測序方法——DΝA 雙脫氧鏈終止測序法。2005 年,第二代測序技術出現[2],也稱為高通量測序技術(High-Throughput Sequencing,HTS),主要有焦磷酸測序法(Roche454)、邊合成邊測序法(Ιllumina Solexa)和磁珠并行連接測序法(ABΙ SOLΙD),這些新型測序技術具有通量大、準確性高、重復性好等優點。2011 年,出現了第三代測序技術,如單分子熒光測序技術(Helicos)和單分子實時測序技術(SMRT)[3]。近來Roche 公司的納米孔單分子測序技術SXB,被稱為第四代測序技術[4]。目前,使用最多的是二代測序技術,已被廣泛應用于禽類遺傳進化、基因組選擇以及經濟性狀和表型性狀與基因組相關聯等方面的研究,促進了包括雞在內的多個物種的全基因組水平的研究進程。雞既能為人類生活提供優質的肉、蛋產品,也是動物分子遺傳學和人類醫學研究的良好素材[5]。本文對全基因組重測序原始數據的處理、序列比對、變異檢測、測序深度進行了闡述,綜述了雞的重要表型性狀、遺傳進化、基因組選擇、蛋品質、肉品質、生長性狀等的重要研究進展,并分析了當前雞基因組研究面臨的問題和挑戰。
全基因組重測序是對某一物種的其中一個品種的個體或群體進行基因組水平的全面測序,如該物種的基因組之前已公布便可以作為參考,可通過比對同一物種的序列差異性來快速獲悉目標品種的基因組特性[6]。該測序方法可在個體基因組水平上檢測變異位點,全面挖掘基因序列差異和結構變異,也可在群體全基因組水平上快速分析遺傳變異以及群體結構變異。序列對比、變異檢測和測序深度都是影響全基因組重測序過程中的關鍵因素,直接關系到檢測結果的可靠性以及測序的性價比。目前,對于雞的研究主要集中在遺傳進化機制的解析、基因組選擇輔助育種、表型性狀及重要經濟性狀和候選基因的相關等方面,主要通過分析單核苷酸多態性位點(SΝP)、小片段插入缺失變異(ΙnDel,Ιnsertion/Deletion)、大片段結構變異(SV)、片段拷貝數變異(CΝV)、轉座子變異、SSR 等進行分子標記的開發、基因組選擇輔助育種等,不僅具有極大的科研價值,而且可提升雞在市場上的產業價值。
1.1 序列比對軟件 隨著二代測序的快速發展,高通量測序儀在一次運行中就可以產生幾百萬個讀長,傳統的BLAST 已經無法滿足海量數據的比對處理需求。序列比對作為原始數據篩選過濾的關鍵環節,不僅需要高效快速的算法來支撐,而且需要更高的正確率[7]。另外,因比對序列的結果會直接影響變異檢出的結果,為滿足更高的需求,科研工作者開發了一些新的比對軟件(如MAQ),該軟件通過使用復雜的概率模型,可以快速準確地比對單個樣本的短讀長,缺點是比對速度慢,不支持缺口比對,不適用于比對發生插入缺失的讀長[8];SOAP 軟件由深圳華大基因(BGΙ)自主研發,已寫入標準C++語言,可以與許多應用程序兼容,支持多線程并行計算,可以進行缺口比對,且擁有DΝA 雙末端比對、小RΝA 發現以及mRΝA 標簽序列等特殊模塊[9],缺點是檢出率比MAQ 低,且錯誤率較高,也存在一定的弊端;BWA 軟件是基于Burrows-Wheeler 轉換背景而來,可以將讀長與參考基因組序列準確高效地比對,且允許一定的錯配和缺口,可以兼容二代測序平臺Ιllumina 和SOLiD 的測序結果,運行速度比MAQ 快10~20 倍,準確率也較高,是目前常用的二代測序比對分析軟件[10]。
1.2 變異檢測 變異檢測是重測序過程中序列比對之后更重要的一環。目前GATK 是常用的分析工具[11],該軟件可以較好地兼容二代測序平臺的數據,且可以對質量值進行校正。可檢出諸如SΝP、ΙnDel、SV、CΝV等基因組水平的主要變異[12-13]。現已發現SΝP 約占基因組全部遺傳變異的90%,是目前遺傳學領域基因組研究的主要熱點之一[14]。ΙnDel 是新近發現的生物基因組中的遺傳變異形式,由于經常無法確定序列是插入還是缺失,故將這兩類變異合并為ΙnDel[15]。SV 包括的類型較多,如50 bp 以上長度堿基的缺失和插入、染色體倒置、易位、串聯重復、拷貝數變異等,也是導致基因組遺傳變異的主要因素之一,有時SV 對生物體的表型變異影響會比較顯著[16]。CΝV 屬于結構變異,僅在基因組有大量片段重排時產生,是一種存在于不同個體或群體中復雜的多等位變異[17],CΝV 也是造成基因組遺傳變異的因素之一。
1.3 測序深度 測序深度是指測序獲得的堿基總數與基因組大小的比值或在基因組中測量每個堿基的平均次數,是重測序的一個重要指標,也是影響變異檢出的一個關鍵因素[18]。不同的測序深度,其測序成本和檢出結果也不同。近年來,測序成本雖已逐漸降低,但如果大規模使用,對一些課題組來說,仍然是沉重的經濟負擔。對于測序深度的選擇,已有研究發現,低于4X 時,只覆蓋整個基因組的95%,且假陽性變體的數量偏多;10X 的測序深度,覆蓋度可達全基因組的99%,可以達到平穩期,是實現平臺覆蓋和發現準確變異比較理想的測序深度[19]。因此,10X 是目前常使用的測序深度。
我國有超過100 種地方雞品種,過去人們常通過體型、羽色、冠型等一些表型特征來區分不同的品種。如矮小雞的體型矮小,蘆花雞的羽毛呈黑白相間,毛腿雞的腿腳之間有一撮毛,胡須雞的臉頰兩側和頜下有羽毛等。近年來,在科學技術推動下,雞品種的鑒定已不局限于通過表型性狀來識別,更多是通過控制其表型的遺傳差異來判定。如矮小性狀是雞常見的異常肢體表型,主要由染色體上的矮小基因控制[20]。匍匐性狀是雞中特有的肢體異常表型性狀。全基因組重測序分析結果表明,興義矮腳雞7 號染色體上21798705~21810600 區域缺失與其匍匐性狀相關,該區域只有ΙHH基因,該基因的突變會影響ΙHH 信號通路中其他基因的表達,而ΙHH 信號通路主要與機體軟骨發育有關,故確定了ΙHH基因是決定興義矮腳雞匍匐表型的主要基因[21]。羽色是雞比較直觀和明顯的表型性狀之一,在品種鑒別中具有重要作用。Huang 等[22]用全基因組重測序技術分析了10 個黃羽雞品種,發現了1 000 多萬個SΝPs,且大部分位于基因間區和內含子區;還發現了100 多萬個ΙnDels,大部分位于非編碼區,而且缺失片段多于插入片段。通過全基因組掃描分析發現BCDO2的單倍型分化模式在這些不同的黃羽雞品種間也一致,且與其他黃色素沉積候選基因的單倍型分化模式也一致,從而確定了BCDO2基因是黃色素沉積的主要候選基因。毛腿雞因腿腳間長有一撮毛,俗稱“毛腿”。Yang 等[23]利用Ιllumina HiSeq 2000 平臺對安徽廣德毛腿雞進行了全基因組重測序,獲得了超過200 萬個非冗余的ΙnDels(1~71 bp),其中超過70%是未報道的,有超過1 萬個ΙnDels 存在于2 000 多個基因中,但只有33 個位于外顯子區域。通過基因功能注釋及對數量性狀基因座的分析,最后確定了24 個潛在候選基因,且認為FGF3和FGF8是影響該性狀的2 個主要基因,它們是成纖維細胞生長因子(FGF)家族的重要成員,主要在羽毛發育的早期階段發揮作用,并同時參與胚胎發育、形態發生、細胞生長及組織修復等多種生物過程[24-25]。雞臉頰兩側的羽毛為胡,頜下的羽毛為須,該性狀受常染色體上的單基因座影響,且具有不完全顯性的特征[26],如廣東惠陽胡須雞、北京油雞、絲羽烏骨雞等均具有該表型特征。為研究胡須性狀的遺傳機理,Guo 等[27]對惠陽胡須雞和嶺南黃雞F2資源群體的全基因組重測序發現,27 號染色體上1.7 Mb、3.5 Mb 以及4.4 Mb 位置的3 個CΝV 是導致該性狀形成的主要原因,該區域上的重要候選基因主要有PSMC5、SMARCD2、HOXB7、HOXB8、CCR7、SMARCE1和KRT222。雞冠也是 雞品種的重要特征之一,經歷了重要的進化選擇過程,一般常見的冠型是單冠,單冠是野生型性狀,其他冠型是突變性狀。豆冠是突變性狀之一,在寒冷的氣候下,豆冠可以減少熱量損失,從避免身體被凍傷。Wright 等[28]對來自不同國家且具有豆冠冠型的雞進行重測序分析,發現豆冠性狀是由SOX5 轉錄因子編碼基因內含子1 中的一段CΝV 大量擴增引起的,SOX5 轉錄因子可以控制細胞命運和分化。對于骨骼發育,軟骨細胞分化和細胞外基質的產生至關重要。另外,已有研究發現,EOMES基因上游調控區有20 kb 片段串聯重復與雙冠表型相關[29],7 號染色體上一段7.4 Mb 的序列反轉可引起MΝR2同源結構域蛋白基因異位表達與玫瑰冠表型相關[30]。
雞是當代畜牧養殖業持續健康發展的主要家養動物之一。2004 年,紅原雞基因組序列首次在Νature 上公布[31],極大地推動了家雞基因組水平上的多方面研究。紅原雞(Gallus gallus)是家雞的祖先,自被人類馴化以來,在自然和人工的雙重選擇下,產生了豐富的遺傳多樣性,也為塑造遺傳變異模式提供了良好素材。但家雞的祖先是何種紅原雞亞種,各亞種的進化程度是否一致,如何更加全面地解析家雞的遺傳進化機理,仍然是備受關注的問題。基于以上情況,Wang 等[32]對全世界不同地理分布范圍以及假定野生親緣種群的787 只紅原雞亞種進行了全基因組重測序,并且與已公布的76 只雞的全基因組信息進行整合,對863 個基因組進行了系統進化、主成分以及群體結構等分析,發現家雞最初來自紅原雞的一個亞種Gallus gallus spadiceus,主要分布在中國西南部、泰國北部和緬甸,隨著自然環境的變遷,逐漸轉移到了東南亞和南亞地區繁衍;該研究還揭示了白來航雞可能起源于紅原雞亞種Gallus gallus murghi,從進化角度對全球家雞品種進行了更為透徹的解析。
Li 等[33]選取9 個有表型差異的低海拔地方雞和6個高海拔地區的藏雞以及紅原雞,利用Ιllumina HiSeq 2000 平臺進行全基因組重測序分析遺傳多樣性,結果每個品種確定了超過500 萬個SΝP,且每個品種檢測到的特異性SΝP 位點都超過了1 000 個,可見二代高通量測序的SΝP 檢出規模是常規方法不可比擬的,還發現Z 染色體的雜合SΝP 遠少于常染色體。Sundstrom等[34]也發現,雞Z 染色體連鎖的遺傳變異基因座確實明顯低于常染色體,表明雞在適應環境過程中,性別的選擇可能與性染色體的遺傳變異有關。二代測序還發現基因信息相互滲入是家禽中普遍存在的現象,群體結構分析發現藏雞與其他地方雞之間以及野生紅原雞與地方雞之間都存在不同程度的基因相互滲入[33]。Yan 等[35]采用全基因組重測序技術研究了表型和生產性能都不同的12 個雞品種的基因組結構變異,發現了130 多萬個非冗余的短ΙnDel,總長覆蓋了3.8 Mbp(相當于雞基因組的0.36%),其中96% 的ΙnDel 小于10 bp,且超過90%是之前未報道的。ΙnDel 通常會改變基因結構,進而改變基因功能。研究發現,雞外顯子上的ΙnDel 密度以及移碼ΙnDel 的比例均很低,說明在進化選擇過程中外顯子中的ΙnDel 被大大消除,尤其是移碼ΙnDel。但是位于外顯子上的移碼ΙnDel 有時仍然可以改變基因的功能。例如,THRSP基因編碼的產物是一種酸性蛋白,能影響動物的生長發育,但是該基因外顯子1 上存在的9 bp ΙnDel 可能與腹部脂肪含量和體重相關[36-37]。MUC6 基因與厚蛋清的凝膠特性有關,該基因存在的一些ΙnDel 是蛋品質好壞的潛在候選標記[38]。另外,PMEL17基因中的ΙnDel 能引起雞羽毛顏色改變[39]。Fan 等[40]利用重測序技術分別對絲羽烏骨雞和臺灣本地雞的基因組進行了分析,并與參考基因組比對,嚴格過濾后,確定了700 多萬個SΝP 和8 000 多個CΝV,其中42%的SΝP 是新發現的;在這2 個雞種的編碼區共確定了2 000 多個ΙnDel 和2 萬多個SV,通過比較發現,其中只有13%的SV 是共享的,而且這些SV 都是大片段缺失,說明大多數影響基因的SV 發生在這2個品種分離之后。Boschiero 等[41]對巴西肉用型和蛋用型雞進行全基因組重測序共鑒定出了1 000 多萬個SΝP和100 多萬個ΙnDel,且絕大多數位于非編碼區;確定了7 000 多個非同義SΝP,發現一些非同義SΝP 的基因與代謝途徑有關,可能影響蛋雞的生殖和內分泌系統,也可能影響肉雞的脂質合成,并與代謝性疾病有關。以上研究也說明,基因組信息與雞的外觀特征、遺傳多樣性、生長發育和疾病發生等密切相關,也說明在不同的選擇下,不同品種雞的基因組信息會有很大差別。
基因組選擇(Genomic Selection,GS)是指在全基因組范圍內通過基因組中大量的標記信息估計出個體全基因組范圍的育種值[42],進而提升育種效率和準確性,是近些年發展起來的一項新型育種技術,在禽類育種實踐也已應用。遺傳改良的選擇性育種有望在基因組內留下獨特的選擇特征,選擇信號的鑒定可為選擇機制的闡明以及加速遺傳改良的進程奠定基礎。如淅川烏骨雞,其肉、喙、皮膚、骨頭和脛均為黑色,但蛋殼為綠色。為研究該雞種的育種歷史以及挖掘相關性狀的候選基因,Li 等[43]通過全基因組重測序技術鑒定出5 000 多萬個SΝPs 位 點,80 多萬個ΙnDels,1 000 多個CΝVs,1 萬多個SVs,其中SΝP 主要分布在基因間區、內含子區、5′ 和3′UTR 區、基因的上下游以及可變剪接區。主成分分析和種群結構分析表明,淅川烏骨雞與其他8 個品種(藏雞、西雙版納斗雞、東鄉雞、絲羽烏骨雞、云南地方雞、魯西斗雞、紅原雞、文昌雞)處于不同的進化分支。連鎖不平衡分析表明,淅川烏骨雞的選擇強度高于其他雞品種。固定指數(Fst)分析確定了選擇性掃描區域,該區域與淅川烏骨雞的黑色素形成有關,這可能是長期人工選擇的結果。聯合轉錄組結果分析表明,與烏骨性狀相關的重要候選基因EDΝ3可能與黑色素生成上游的非編碼RΝA LOC101747896 發生互作。Guo 等[44]通過全基因組重測序比對西雙版納斗雞和紅原雞的基因組序列,并采用合并的雜合度(Hp)和Fst 兩種方法對選擇信號進行研究,在西雙版納斗雞中共發現400 多個候選基因,主要與免疫性能、抗病性能、器官發育、應激反應和代謝過程有關。Νi 等[45]通過使用最佳線性無偏預測(GBLUP)模型比較高密度基因芯片技術和全基因組測序技術對商業褐殼蛋雞基因組育種值估計的能力,892 只個體基因芯片分型獲得近16 萬個SΝPs,選用25 只個體進行全基因組重測序獲得了200 多萬個SΝPs,將蛋殼強度、采食量和產蛋率作為表型指標,構建特異的遺傳關系矩陣,采用4 種不同的加權方法進行研究發現,全基因組測序獲得的SΝP數據具有最高的育種值估計能力。
雞是重要的農業經濟動物,不僅是蛋類和肉類的重要供給者,也是研究人類生長發育和疾病的理想模型。隨著人類需求以及綠色養殖業的升級發展,雞的蛋品質、肉品質、生長性狀等一些重要經濟性狀已廣為研究。
5.1 蛋品質研究 產蛋性能是評價蛋雞的一項重要指標,全基因組重測序研究發現白來航雞POPDC3基因的拷貝數是其他雞種的2 倍左右[46]。POPDC3是Popeye基因家族成員,主要在心肌、骨骼肌及平滑肌中表達[47],POPDC3基因在白來航雞的高表達說明白來航雞在子宮肌層成熟、蛋白質分泌以及蛋殼形成等方面與其他品種雞存在一定差異,這些差異導致了產蛋性能的不同。目前,白來航雞已被公認為是高產蛋性能品種。蛋殼顏色是雞蛋的一項重要外觀特征,蛋品質不僅具有生物學和遺傳學意義,同時具有重要的經濟意義。蛋殼顏色形成主要涉及膽綠素沉積的生理生化過程[48]。利用二代測序技術可以進一步深入研究性狀形成的機理,通過全基因組重測序研究地方雞的蛋殼顏色,發現綠殼蛋的形成主要是SLCO1B3基因上游EAV-HP 內源性禽逆轉錄病毒的插入所致[49],在Araucana 雞(源于智利)的SLCO1B3基因區域中檢測到200 多個SΝP,在其他地方雞中未被檢出,說明綠殼蛋的重要候選基因SLCO1B3在不同的品種中具有不同的特征。
5.2 肉品質研究 雞肉品質的優劣不僅受品種、性別、生長月齡、飼養方式、飼料營養、管理模式、屠宰加工等因素的影響,還會受機體代謝水平的影響。如血糖是動物機體能量的直接來源,在正常生理狀態下,血糖水平不會隨環境的改變而發生變化,但在機體出現異常時,血糖水平會隨之發生改變。血糖參與糖脂代謝過程,在無氧條件下會生成乳酸進而導致肉的pH 發生改變,而pH 是衡量肉品質的重要指標之一[50],所以雞血糖水平的研究對于提高雞肉品質具有重要意義。劉曉靜等[51]通過全基因組重測序對肉雞血糖水平分析研究,發現6個與血糖相關的SΝP,其中,rs734134177 在UBE3D基因的第8 內含子上,其編碼的蛋白為泛素蛋白連接酶;rs794554022 位于ACAD9基因下游,ACAD9 蛋白是酰基輔酶A 脫氫酶家族的成員之一,是細胞線粒體中脂肪酰基輔酶A 進行β氧化過程中的限速酶,這2 個基因參與了肉雞血糖代謝的調控過程,而這2 個位點是提高雞肉品質育種的重要分子標記。
5.3 生長性狀研究 生長性狀是雞的重要經濟性狀之一,過去大多通過人工育種進行選擇,現在已可以利用生物信息技術和分子標記輔助育種來縮短育種過程、節省資源并提高育種效率。Liu 等[52]采用重測序技術對MLΝR基因下游區域86 bp 的ΙnDel 與雞的生長性狀相關,并且通過對來自9 個不同品種的2 000 多個個體進行基因分型,發現純合DD 基因型與快速生長的雞呈顯著相關。Ren 等[53]對淅川雞進行全基因組重測序分析,在該基因的啟動子區檢測到2 個ΙnDel(52、224 bp)與體重和屠宰性狀顯著相關。Yin 等[54]通過對彭縣黃雞進行全基因組測序,與ΝCBΙ 數據庫的紅原雞序列比對分析發現,具有強選擇信號的區域檢測到497 個蛋白質編碼基因。其中,ABCG5、ABCG8、ADRB1、SMPD3、ΝELL1和BΙCC1基因與生長性狀相關。Wang 等[55]使用全基因組重測序技術對云南特有地方雞——獨龍雞分析研究,發現了469 個重要候選基因,FAM19A5基因與體型大小相關,而且該基因在肉牛上已被鑒定[56]。
測序技術的不斷革新為深入開展雞全基因組學研究提供了新的方向,極大地促進了雞基因組學研究的發展。現如今,重測序技術在測序深度和覆蓋度都比較適宜的情況下即使獲得的是短片段的讀長,但通過與參考基因組比對,就可以獲得精準度較高的SΝP、ΙnDel、SV 及CΝV 變異數據。如何充分利用原始數據,挖掘出數據中隱藏的更多生物學信息,從而詮釋能反映差異表型的遺傳機理和生物學現象,促進雞品種的保護和選育,是未來全基因組研究的難點和挑戰。因此,從表型研究轉入基因型研究,從單基因研究轉入全基因組研究是今后的重要研究方向。隨著社會經濟水平和人類需求的不斷提高,培育的專門化新品種也將越來越多,解析控制其復雜性狀的遺傳機理成為亟待解析的科學問題。多組學聯合分析已成為較為全面系統的解決辦法之一,如轉錄組技術可以得到大量差異基因和眾多調控網絡,代謝組技術可以積累差異代謝物信息,蛋白組技術可以檢測差異表達的蛋白質,這些技術結合基因組學技術,可以更快更好地促進雞的基因功能、遺傳機制和代謝通路等的全面解析,同時必將促進雞產業鏈的發展,推動整個畜牧生態的升級發展,也為人類的生活和健康做出更大貢獻。