陳 黎,李國勤,田 勇,沈軍達,陶爭榮,徐 堅,曾 濤,盧立志
(浙江省農業科學院 畜牧獸醫研究所,浙江 杭州310021)
北京鴨腹部脂肪組織的轉錄組特征分析
陳黎,李國勤,田勇,沈軍達,陶爭榮,徐堅,曾濤,盧立志*
(浙江省農業科學院 畜牧獸醫研究所,浙江 杭州310021)
摘要:鴨的基因組序列雖已釋放,但其基因組信息,尤其是轉錄組信息仍需進一步開發。文章利用轉錄組測序分析了鴨的腹部脂肪組織轉錄組特征。共獲得203 200 984個高質量測序數據,鑒定出18 464個基因表達(RPKM≥1),其中96.9%的基因RPKM值小于1 000。15 070個基因發生了可變剪切,剪切次數為35 913次。統計可變剪切類型發現,內含子保留所占比例最低,占所有可變剪切類型的1.17%,而第一外顯子可變剪切、末端外顯子可變剪切、外顯子跳躍依次是3種比例最高的可變剪切類型,比例分別為45.92%, 43.67%和6.23%。此外,利用這批轉錄組數據共檢測出229 276個SNPs,其中轉換是最主要的突變類型,占所有SNPs的73.28%。對SNP所在基因進行功能注釋(GO)發現,這些基因涉及細胞組分、分子功能、生物學過程3大功能類別中廣泛的生物功能,表明該研究開發的SNPs較為全面;通路分析(KEGG)發現,SNPs所在基因除了富集于脂類、能量代謝相關通路,更多的基因則富集于癌癥、免疫以及內分泌系統相關的通路上,表明脂肪組織除了是能量儲備組織,同時也是重要的免疫、內分泌組織。這些數據拓展了鴨的遺傳信息,建立的SNPs數據庫將有助于鴨分子標記輔助育種及功能基因定位。與癌癥、免疫相關的SNPs可為癌癥及免疫學研究提供候選遺傳標記。
關鍵詞:基因表達;可變剪切;單核苷酸多態性;脂肪組織
轉錄組測序(RNA-seq)是基于二代測序技術的轉錄組學研究方法。RNA-seq可在全基因組范圍內檢測轉錄本表達水平,同時還能發現未知轉錄本和新基因,識別可變剪切位點以及SNP(single nucleotide poly morphism)[1]。與傳統的RNA研究手段(例如芯片)相比,RNA-seq具備靈敏度高、重復性好等優勢。目前,隨著測序技術發展及成本降低,RNA-seq已經成為轉錄組學研究的有效手段,借助該技術,多個物種的轉錄組信息得以釋放。
鴨是重要的經濟水禽,同時也是免疫研究的模式動物。目前,在鴨中已有利用RNA-seq開展轉錄組研究的報道。Li等[2]通過對鴨羽毛組織轉錄組測序,篩選出與羽色相關的候選基因;Tang等[3]對鴨肝臟組織的轉錄本進行了組裝、注釋,篩選出一批受甲肝病毒感染后表達變化的基因,為后續研究甲肝病毒感染的分子機制提供了線索。隨后,Huang等[4]在公布鴨基因組序列的同時,利用RNA-seq檢測了肺部被禽流感病毒感染后的基因表達變化。以上這些研究僅關注轉錄本的表達變化,尚未對可變剪切、SNP等信息進行報道。盡管Chen等[5]利用RNA-seq,比較了北京鴨與綠頭野鴨在基因表達、可變剪切以及SNP方面的差異,但缺乏對鴨基因表達、可變剪切以及SNP的特征分析。 因此,本研究利用北京鴨腹部脂肪組織RNA-seq數據,對鴨脂肪組織內基因的表達水平及可變剪切特征進行分析,同時利用轉錄組數據構建SNP數據庫,為鴨提供可用的遺傳標記。
1材料與方法
1.1試驗材料
1.1.1試驗動物
本研究所用北京鴨來自湖州卓旺養鴨場。試驗用鴨采用玉米豆粕型飼糧,自由采食和飲水。喂養至8周齡時進行屠宰,并立即取其腹部脂肪組織待提取RNA用。實驗動物屠宰標準按照國家實驗動物處理行為準則執行。
1.1.2主要試劑
提取RNA所用TRIzol試劑購自Life Technologies公司。
1.2試驗方法
1.2.1RNA-seq測序、數據組裝及注釋
3只8周齡北京鴨,每只個體取300 mg腹脂,按照RNAeasy Lipid Tissue Mini Kit (QIAGEN,Germany)說明書分別提取總RNA。每個個體總RNA單獨建庫,隨后利用Illumina HiSeq 2000 (Illumina, America) 平臺進行雙末端測序。測序數據過濾掉低質量數據及無用序列,包括測序接頭、rRNA、tRNA以及miRNA等非編碼RNA序列。獲得高質量數據后,利用TopHat v2.0.9[6]將數據比對到鴨參考基因組上(BGI_duck_1.0),隨后利用Cufflinks v2.1.1[7]默認參數對比對上的序列進行組裝、注釋及表達量的計算。
1.2.2SNP的挖掘及可變剪切鑒定
以鴨基因組(BGI_duck_1.0)做參考序列,利用SAMtools 0.1.19[8]尋找SNPs(single nucleotide polymorphisms),并利用BEDTOOLS 2.17.0對SNP進行篩選。可變剪切參照Florea 等[9]的方法利用ASprofile 進行分析。所有軟件參數設置為默認參數。
1.2.3基因注釋
GO(gene ontology)注釋來源于GO數據庫(http://www.geneontology.org/);通路分析采用KEGG(kyoto encyclopedia of genes and genomes)數據庫。
2結果與分析
2.1北京鴨腹部脂肪組織基因表達分析
共獲得203 200 984個高質量的北京鴨腹脂轉錄組數據,3個樣本的Q20均大于95%,GC含量均接近50%,表明測序數據質量較好(表1)。RPKM(reads per kilo bases per million reads)是每百萬reads 中來自某一基因每千堿基長度的reads 數目,是目前最常用的基因表達水平估算方法[10]。本研究以RPKM≥1作為基因表達標準,在北京鴨腹部脂肪組織中共鑒定出18 464個基因表達,其中11 047個基因在基因組上已有注釋。對不同RPKM區間的基因數量進行統計發現,多數基因的RPKM值在1 000以下,其中RPKM值在1~10的基因最多,為8 600個;其次是RPKM值位于10~100的基因,數量為7 478個;RPKM值位于100~1 000的基因有1 806個,而RPKM值大于1 000的基因最少,有580個,占所有表達基因的3.1%。
表1測序數據統計表
Table 1Statistics of RNA-seq data

樣本名稱高質量數據Q20值/%GC含量/%PD310935514297.3449.27PD44499186697.3549.31PD54885397697.3549.48
注:PD3,PD4,PD5分別代表北京鴨的3個生物學重復。下同。
2.2北京鴨可變剪切分析
可變剪接是調節基因表達和產生蛋白質多樣性的重要機制。本研究分析了5種主要的可變剪切類型,包括內含子保留(intron retention, IR)、5’或3’可變剪切(alternative exon ends, AE)、外顯子跳躍(skipped exon, SE)、第一外顯子可變剪切(alternative first exons, AF)、末端外顯子可變剪切(alternative last exons, AL)。利用轉錄組數據,本研究共鑒定出約35 913次可變剪切,這些可變剪切由15 070個基因產生。在這5種可變剪切類型中IR所占比例最低,AF及AL比例最高,分別占所有可變剪切事件的45.92%及43.67%(表2)。
表2可變剪切類型統計表
Table 2Statistics of the alternative splicing (AS) events

樣本名基因數/個可變剪切次數/次5種可變剪切類型的基因數/個(比例/%)IRAESEAFALPD31579638028552(1.45)1183(3.11)2394(6.30)17429(45.83)16470(43.31)PD41462934566370(1.07)988(2.86)2136(6.18)15887(45.96)15185(43.93)PD51478635146350(0.99)1064(3.03)2186(6.22)16162(45.98)15384(43.77)
2.3SNP鑒定
利用SAMtools,共挖掘出229 276個SNP,其中168 028個為轉換,61 248個為顛換。轉換發生比例為73.28%,是最主要的突變類型(圖1)。

圖1 SNPs類型統計Fig.1 Statistics of types of SNPs
GO注釋發現SNP所在基因共歸入到9 814個GO term中。根據富集的基因數量,分別統計分子功能、生物學過程、細胞組件中位于前10位的GO term(圖2)。在分子功能中,與蛋白綁定(protein binding)、ATP綁定(ATP binding)以及鋅離子綁定(zinc ion binding)相關的基因最多,分別為5 262,798,653個;在細胞組件中,位于細胞核(nucleus)、細胞質(cytoplasm)和細胞膜(membrane)的基因最多,分別有2 151,2 017和904個;生物學過程中,歸入DNA依賴的轉錄調控(regulation of transcription, DNA-dependent)、RNA聚合酶Ⅱ啟動子的轉錄正調控(positive regulation of transcription from RNA polymerase Ⅱ promoter)以及信號轉導(signal transduction)3個GO term的基因最多,分別有473,401,392個。



三大類別分別列出了富集基因數量位于前10位的GO term。圖2 SNP所在基因的GO分類Fig.2 GO classifications of genes containing SNPs
同時,為確定SNP參與的主要生化代謝途徑和信號通路,對SNP所在基因進行KEGG(kyoto encyclopedia of genes and genomes)通路分析,共鑒定出25個通路(圖3),其中歸入癌癥的基因最多,為1 031個,其次是信號轉導及免疫系統,分別有956個及812個基因;歸入內分泌系統及脂肪代謝的基因也較多,分別有466和235個;歸入碳水化合物代謝及能量代謝中的基因分別有138和66個。
3討論
RNA-seq原始數據需要進行嚴格的質控。本研究在獲得鴨轉錄組測序數據后,首先對原始數據進行質控。Q20與GC含量是衡量測序質量的重要指標。Q20表示質量數大于20的堿基占總體堿基的比例,Q20越高表明測序錯誤率低于1%的堿基比例越高。GC含量則用于分析建庫或測序過程是否帶來堿基偏離,正常情況下,4種堿基的出現頻率接近。本研究3個樣本的Q20及GC%的平均值分別為97.35%和49.35%,表明測序質量較高,為后續數據分析的可靠性奠定了基礎。

圖3 SNPs所在基因的KEGG通路分析Fig.3 KEGG pathways of genes including SNPs
可變剪接是真核生物基因轉錄后調控的重要機制。基因通過可變剪切產生不同的轉錄本,使遺傳信息得到放大。最近,Chen等[5]利用RNA-seq在鴨中鑒定出6 980個基因發生了23 393次可變剪切,發生可變剪切的基因數量遠低于本研究中鑒定出的基因數量,這可能是因為可變剪切分析方法與鑒定標準不同。本研究利用北京鴨腹脂轉錄組數據共鑒定出18 464個基因表達,其中15 070個基因發生了35 913次可變剪切,可變剪切發生率約為82%,低于人類的95%[11],高于果蠅的60%[12],與越是高等生物可變剪切比例越高的報道一致[13]。在本研究中,IR在所有可變剪切類型中比例最低,與目前報道的動物中IR是比例最低的可變剪切類型[13-15]的觀點一致。
利用轉錄組數據挖掘SNP已有多篇報道。Chen等[5]利用轉錄組測序比較了北京鴨與綠頭野鴨腹部脂肪組織中的差異SNP,但未對全基因組SNP進行特征分析。本研究利用北京鴨腹部脂肪組織轉錄組數據共檢測出229 276個SNP,這是目前鴨中首次在全基因組范圍內挖掘SNP的報道,對SNP所在基因進行功能注釋,發現這些基因涉及細胞組分、分子功能及生物學過程3大功能類別中廣泛的生物功能,表明本研究開發出的SNP較為全面,與多種生物功能關聯,方便了后續的基因定位及分子標記育種。對SNP所在基因通路分析發現,歸入癌癥以及免疫、內分泌系統的基因最多,這與脂肪組織除了是能量儲備組織,同時也是重要的免疫、內分泌組織的報道相符[5,16],這些SNP可作為癌癥、免疫相關的候選SNP。
參考文獻:
[1]AN J, WAN H, ZHOU X, et al. A comparative transcriptomic analysis of uveal melanoma 465 and normal uveal melanocyte [J].PloSOne, 2011, 6(1): e16516.
[2]LI S, WANG C, YU W, et al. Identification of genes related to white and black plumage formation by RNA-Seq from white and black feather bulbs in ducks[J].PloSOne, 2012, 7(5): e36592.[3]TANG C, LAN D L, ZHANG H R, et al. Transcriptome analysis of duck liver and identification of differentially expressed transcripts in response to duck hepatitis A virus genotype C infection [J].PloSOne, 2013, 8(7): e71051.
[4]HUANG Y H, LI Y R, BURT D W, et al. The duck genome and transcriptome provide insight into an avian influenza virus reservoir species [J].NatureGenetics, 2013, 45(7): 776-783.[5]CHEN L, LUO J, LI J X, et al. Transcriptome analysis of adiposity in domestic ducks by transcriptomic comparison with their wild counterparts [J].AnimalGenetics, 2015, 46(3): 299-307.[6]TRAPNELL C, PACHTER L, SALZBERG S L. TopHat: discovering splice junctions with RNA-seq [J].Bioinformatics, 2009, 25(9): 1105-1111.
[7]TRAPNELLC, WILLIAMS B A, PERTEA G, et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation [J].NatureBiotechnology, 2010, 28: 511-515.
[8]LI H, HANDSAKER B, WYSOKER A, et al. The sequence alignment/map (SAM) format and SAM tools [J].Bioinformatics, 2009, 25: 2078-2079.
[9]FLOREA L, SONG L, SALZBERG S L. Thousands of exon skipping events differentiate among splicing patterns in sixteen human tissues [J].F1000Research, 2013, 2: 188.
[10]MORTAZAVI A, WILLIAMS B A, MCCUE K, et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq [J].NatureMethods, 2008, 5(7): 621-628.
[11]PAN Q, SHAI O, LEE J L, et al. Deep surveying of alternative splicing complexity in the human transcriptome by high-throughput sequencing [J].NatureGenetics, 2008, 40(12): 1413-1415.
[12]GRAVELEY B R, BROOKS A N, CARLSON J W, et al. The developmental transcriptome ofDrosophilamelanogaster[J].Nature, 2011, 471(7339): 473-479.
[13]KIM E, MAGEN A, AST G. Different levels of alternative splicing among eukaryotes [J].NucleicAcidsResearch, 2007, 35(1): 125-131.
[14]REDDY A S, ROGERS M F, RICHARDSON D N, et al. Deciphering the plant splicing code: experimental and computational approaches for predicting alternative splicing and splicing regulatory elements [J].FrontiersinPlantScience, 2012, 3(9): 18.[15]SUGNET C W, KENT W J, ARES M J, et al. Transcriptome and genome conservation of alternative splicing events in humans and mice [J].PacificSymposiumonBiocomputing, 2004: 66-77.
[16]MINER J L. The adipocyte as an endocrine cell [J].JournalofAnimalScience, 2004, 82(3): 935-941.
(責任編輯盧福莊)
Transcriptome analysis of abdominal fats from Peking ducks by RNA-seq
CHEN Li, LI Guo-qin, TIAN Yong, SHEN Jun-da, TAO Zheng-rong, XU Jian, ZENG Tao, LU Li-zhi*
(InstituteofAnimalHusbandryandVeterinaryScience,ZhejiangAcademyofAgriculturalSciences,Hangzhou310021,China)
Abstract:Although the duck genome sequence has been released, its genomic structure, especially its transcriptome characterization needs to be further studied. This study characterized the transcriptome of abdominal fat in ducks by using RNA-seq. In total, 203 200 984 clean reads were obtained, and 18 464 genes were identified to be expressed in abdominal fat, among which 96.9% genes’ RPKM values were lower than 1 000. 15 070 genes had alternative splicing (AS), and the splicing times were 35 913. Intron retention was found to be the rarest AS type, while alternative first exons, alternative last exons and skipped exon were the three major types, with the proportions of 45.92%, 43.67% and 6.23%, respectively. Using these transcriptome data, 229 276 SNPs were called, among which transitions were the main type, accounting for 73.28% of all the SNPs. Gene ontology(GO) annotation analysis revealed that genes including these SNPs took part in numerous functions belonging to the three categories of cellular component, molecular function, and biological process, and further kyoto encyclopedia of genes and genomes(KEGG) pathway analysis showed that most of these genes were related to cancer, immune system, and endocrine system, suggesting that the adipose tissue was an important immune and endocrine tissue, as well as an energy store tissue. These data could enlarge the genetic information of ducks. The numerous SNPs identified in this study would contribute to the molecular breeding and help in mapping the genes associated with important economic traits. The SNPs related with cancers and immune systems would serve as useful markers in related studies.
Key words:gene expression; alternative splicing; single nucleotide polymorphism; adipose tissue
基金項目:國家自然科學基金項目(31402065);浙江省自然科學基金項目(LQ14C170003)
作者簡介:陳黎(1984—),女,江蘇徐州人,博士,助理研究員,從事家禽遺傳育種方面的研究。E-mail: chenli0429@163.com
*通信作者,盧立志,E-mail:lulizhibox@163.com
DOI:10.3969/j.issn.1004-1524.2016.05.05
中圖分類號:S834+.81;Q789
文獻標志碼:A
文章編號:1004-1524(2016)05-0743-05
投稿日期:2016-01-28
浙江農業學報ActaAgriculturaeZhejiangensis, 2016,28(5): 743-747
http://www.zjnyxb.cn
陳黎,李國勤,田勇,等. 北京鴨腹部脂肪組織的轉錄組特征分析[J].浙江農業學報,2016,28(5): 743-747.