王楚彪,盧萬鴻,林彥,羅建中
?
轉錄組測序的發展和應用
王楚彪1,2,盧萬鴻1,林彥1,羅建中1*
(1.國家林業和草原局桉樹研究開發中心,廣東 湛江 524022;2.南京林業大學,江蘇 南京 2100037)
轉錄組學研究是近年來分子生物學研究的熱門,而轉錄組測序是其核心技術。分子測序技術經歷了第一代到第三代的發展,取得長足進步,通量和準確性不斷提高,現在應用最廣的是二代測序技術,它主要有Roche/454、ABI/Solid、Illumina/Solexa三種測序平臺,各有利弊。轉錄組測序歷經基因芯片技術、基因表達系列分析技術、大規模平行測序技術和RNA-Seq技術,目前最活躍的RNA-Seq技術是基于二代測序技術。轉錄組測序的應用在基因表達水平分析和差異表達分析、新基因的挖掘、尋找單核苷酸多態性及應用、基因功能注釋都有所體現。轉錄組測序和應用是活躍的研究課題,將迅速發展,并在生物研究中起到愈發重要的作用。
轉錄組;測序技術;高通量;RNA-Seq
在人類基因組計劃完成后,進入了探究生物奧秘的后基因時代。基因組學、蛋白質組學和轉錄組學等逐漸得以應用,由于轉錄組學研究能相對較快得到結果、容易入手,故迅速發展起來[1]。轉錄組,通常有廣義和狹義之分。廣義轉錄組:指生物體的細胞或組織在一個特定狀態下轉錄出來的所有RNA的總和,包括不編碼蛋白質的RNA(包括tRNA,rRNA, micro RNA等)和能編碼蛋白質的信使RNA(mRNA)[2];狹義轉錄組:單指所有信使RNA(mRNA)的總和[3]。轉錄組的研究有其重要的作用,是基因結構、功能和基因表達的重要研究手段,也是表型關聯研究的重要方法。轉錄組學研究迅猛發展,并已應用在醫學、動物、植物等領域應用,其研究的重點是對轉錄組的測序和分析。轉錄組學和基因組學比較而言,研究范圍更小,針對性更強,因其僅研究被轉錄的基因[4]。而轉錄組測序是轉錄組學研究的關鍵技術,正是由于轉錄組測試技術的迅猛發展,推動了轉錄組學研究進入快車道。
1.1.1 第一代測序技術
DNA測序技術是分子生物學研究的基礎和重要技術,它的發展經歷了幾個重要階段。早在1975年,研究人員就發明了加減法用于測定DNA序列[5]。兩年后,他們對原有測序方法進行改良,引入了雙脫氧核苷三磷酸(ddNTP),從而得到了雙脫氧鏈終止法(即Sanger測序法),這很好地提高了DNA序列測定的效率與準確性[6]。同年,MAXAM等[7]報道了通過化學降解以測定DNA序列的方法。以雙脫氧鏈終止法和化學降解法為基礎建立起來的DNA測序技術,稱為第一代測序技術。第一代測序技術的優點是讀長長、精度高,至今仍局部應用于序列的重測序、突變位點的檢測等相關研究當中。但是,隨著研究的深入和需求的增長,第一代測序方法存在通量小、成本高等方面的缺陷,已經不能滿足深度、高通量測序、基因組測序等大規模的測序需求,其應用前景受到了明顯的制約[8]。
1.1.2 第二代測序技術
2005年,454生命科學公司(之后被Roche公司收購)首先推出了第二代測序平臺Genome Sequencer 20,它是基于焦磷酸測序的,并測定了支原體的基因組序列,打開了第二代測序技術的序幕[9]。很快美國Illumina公司推出了Genome Analyzer測序平臺[10],ABI公司推出SOLID測序平臺[11],多平臺的推出標志著新測序時代的到來。新一代測序技術主要特點是測序時間和成本大幅下降、測序通量大幅提高[12],該技術又稱作深度測序技術,是一次革命性變革。該測序技術目前仍然廣泛應用于各行業的測序和研究。
邊合成邊測序(sequencing by synthesis, SBS)是第二代測序技術的中心思想之一,例如Illumina公司的的測序方法,先是將目標DNA打碎成約100 ~ 200個堿基小片段,并在片段兩端加上特定的接頭序列,構建成為測序文庫,之后將要測序的單鏈的DNA堿基片段利用接頭與芯片表面引物進行互補配對,令其一端固定在該芯片上,而另一端和其他引物進行互補固定,構造橋狀結構。通過約30輪的擴增反應,每個芯片表面會形成若干億單克隆DNA簇[8]。接下來,加入4種帶有不同顏色熒光標記的dNTP和DNA聚合酶。在DNA合成時,帶有熒光標記的核苷酸在引物末端配對時都會釋放焦磷酸鹽,令熒光標記蛋白放出熒光。之后利用激光掃描反應板來獲取各個核苷酸聚合時的熒光顏色,這就能轉化為對應的核苷酸序列。重復這個過程,使得每條模板DNA全部聚合為雙鏈。對所有的熒光信號進行統計,可獲得各個DNA小片段的序列[8]。
二代測序的3種測序平臺各有優缺點,見表1。

表1 不同二代測序平臺的比較[12]
注:*成本會有所變化。
Illumina公司的優點是測序性價比最高,其運行成本低,測相同數據量,成本約為454測序的1/10,機器售價也低,缺點是測序片段短。早期的Illumina測序技術只有測序讀長20 ~ 30 bp時能保證較高正確率,隨著技術的進步,目前高質量的測序讀長能達到2 × 150 bp或以上。該公司的Hiseq 4000一次運行能產生的數據量達到150 G。
454 FLX的的優勢是測序片段長,能獲得讀長達400 bp的高質量序列。2008年,該公司全新GS FLX Titanium系列試劑和軟件,使測序通量提高了5倍,一次測序可測得萬條讀長,數據總量約500 M。
SOLID測序的測序讀長比較短,然而優點是準確度高,測序數據的準確度大于99.94%,在15 X覆蓋率的情況下準確度可達到99.99%,是所有公司測序技術中準確度最高的[13]。
1.1.3 第三代測序技術
二代測序技術通量高,成本低,但存在讀長短的問題,使測序后的分析存在不少困難。因此,以單分子測序為特點的第三代測序技術,也開始逐漸進入人們的視野當中。目前主流的三代測序技術有Helico BioScience公司的HeliScope技術[14];Pacific Bioscience公司的SMRT技術[15]等。目前三代測序技術不夠完善,因為單分子的熒光信號較弱,單堿基檢測的準確率也較低,應用還不廣泛。
轉錄組包括一個細胞的所有轉錄本信息,是指特定細胞在特定功能狀態下全部表達基因的總和,而通常所說的轉錄組學研究主要是mRNA。轉錄組測序和分析可以用于發現低豐度轉錄本、尋找多態性標記、深度挖掘新基因、繪制轉錄圖譜、鑒定基因家族、調控可變剪切、確定代謝途徑以及進化分析等研究[16],尤其是分子生物學進入應用階段的今天,轉錄組學顯得尤為重要。轉錄組測序的方法有:基因芯片技術(Microarray)[17],基因表達系列分析技術(SAGE)[18],大規模平行測序技術(MPSS)[19]以及RNA測序技術(RNA-Seq)[20]。其中RNA-Seq技術有著高通量、高重復性、寬檢測范圍、準定量等優點,而且其應用不局限于已知基因組序列信息的物種,對于未知基因組序列的物種也能夠使用,是其最大的優勢[21]。
1.2.1 基因芯片技術
在“人類基因組計劃”進行中,基因芯片技術迅速發展和廣泛被應用,是當時功能基因組學研究最重要的研究手段之一。1991年Affymetrix公司在核酸雜交的基礎上開發世界上第一塊寡核苷酸基因芯片[22]。經過多年的發展,基因芯片技術比較成熟,提高了分析速度,減少了實驗所需樣品和試劑,實驗技術及后期數據分析都是相當成熟,也形成了龐大的公共數據庫。缺點一是芯片上探針的信息決定了基因芯片的檢測范圍,該技術只適用于檢測已知序列的情況而沒有探索新基因的作用,二是其雜交技術靈敏度不高,很難檢測到低豐度基因或捕捉到基因表達水平的細小變化[23]。
1.2.2 基因表達系列分析技術(SAGE)
SAGE技術的技術流程是使用錨定酶切開雙鏈并連接相應的接頭,后利用標簽酶酶切取得SAGE標簽并進行擴增,再將接頭序列使用錨定酶切除,獲得含標簽二聚體的多聚體并對其測序[24]。SAGE技術是以前文提到的Sanger測序為基礎的,優點是能很快獲得轉錄圖譜。
1.2.3 大規模平行測序技術(MPSS)
對SAGE技術的改進形成了MPSS測序技術。MPSS技術首先將cDNA克隆到具有不同接頭的載體庫中,再利用PCR擴增載體庫中各個cDNA片段,然后利用聚合酶和dGTP的共同作用將PCR產物轉換成單鏈文庫,最后通過雜交將其結合在帶有Anti-adaptor的微載體上并進行測序。MPSS技術能在較短時間內檢測組織或細胞內全部基因的表達情況,在功能基因組研究方面是有效的工具之一[25]。
1.2.4 RNA測序技術(RNA-Seq)
RNA-Seq是近年發展起來也是使用最廣泛的轉錄組測序技術,具有很多優點。一是高分辨率,轉錄組測序技術可以準確分辨出單個堿基,同時由熒光模擬信號所引起的背景噪音、交叉反應等問題能夠有效地避免;二是高通量,通過轉錄組測序技術不僅能夠得到數以億計個堿基序列,基本能夠達到覆蓋整個轉錄組的要求;三是高靈敏度,目標細胞中低至幾個拷貝的稀有轉錄本利用該測序技術也能檢測到;四是使用更便捷,該技術能對物種的全轉錄組進行分析,不需要在測序前設計特異性探針,而是直接分析物種的全轉錄組[26-28]。
RNA-Seq測序的步驟如下:首先利用純化的mRNA反轉錄構建cDNA片段文庫,目標mRNA被隨機打斷并反轉錄成cDNA或者先進行反轉錄后再隨機打斷,之后在文庫各片段兩端加上測序接頭,進行高通量測序。由于測序方法的不同,得到的讀長為30 ~ 400 bp。最后,將這些讀段比對到參考基因組或轉錄組上,目的是進行拼接,或者直接計算轉錄本的一些參數,例如表達量;如果沒有參考基因組,則進行de novo拼接,之后再進行計算相關參數,而要對轉錄組進行更深入的研究,則需要借助其他技術,例如數字基因表達譜技術[21],其流程可參考圖1。

圖1 RNA測序及分析的典型流程[29]
RNA-Seq是二代測序技術的一個重要應用,近來發展較為迅速,已成為對生物體進行轉錄組分析和基因表達定量分析的重要途徑[30]。利用RNA-Seq對生物體進行轉錄組測序分析,可以補充擴展該物種的基因數據庫,獲得大量的相關ESTs信息,發掘一些新的功能基因,有利于后續的基因克隆和相 關分子標記的開發,還可以研究特定組織或細胞基因的時空表達和探索一些未知的小RNA等,為后 續的研究與應用提供理論基礎[31]。
生物體細胞中基因的表達特性可以通過mRNA水平(濃度)的測量來表示,在任何組織中以不同水平進行表達均可檢測。由于存在轉錄后水平調控(干擾RNA),相關的mRNA和相關的蛋白之間的聯系并不一定強烈,但是測量mRNA的濃度依然是檢測細胞相關表達水平和健康與否的一個重要指標[32]。唯一能夠準確判斷個體基因發生突變的方法是與種系的轉錄組序列進行比較。而表達譜芯片技術可用于研究個體、時間、基因對表達的影響,即相同個體在同一時間不同基因的表達差異,相同個體在不同時間里相同基因的表達差異;不同個體的在相同時間相同基因的表達差異等,主要體現表達量的不同[33]。
RNA差異表達分析主要是細胞在不同情況下的表達差異。RNA測序能夠檢測整個轉錄組的能力,使得它成為檢測生物體基因表達的重要工具。生物信息學家發明專用自動化系統來管理數據數量龐大的序列,創造新的算法和軟件進行測序結果的比較。RNA-Seq 數據庫已經被用來尋找在特殊途徑中的基因[34]。RNA-Seq數據的在微列陣平臺分析的主要優點是可以覆蓋整個轉錄組,從而有可能解開基因調控網絡,也可以用于檢測和預測與它們的生物學功能相同的基因的剪接。
轉錄組測序一般是對生物體可表達的全部基因的測序,將得到的序列與公共數據庫中已知的序列進行比對,則可以尋找出新的基因并大致預測其功能[35],甚至不同物種間的比對也能夠挖掘出目標物種的一些基因。在高等植物基因組測序之后能夠對該物種的基因組進行組裝和拼接,并且對基因進行QTL定位和功能預注釋分析,但是目前的研究水平對很多基因研究不深入,位置把握不準,這時候就需要通過轉錄組測序,并與物種的性狀進行關聯分析,從而對目標基因的分析進行優化。
轉錄組測序之后通過比對到參考基因組能夠發現大量的SNP (single nucleotide polymorphism),對SNP的深入分析對生物學的研究具有重要意義。早期轉錄組單核苷酸發掘能夠在Roche 454 sequencing平臺進行分析,而在進行sanger sequencing 驗證中,研究人員能夠在 2 400多個玉米基因獲得差不多5 000個保守的單核苷酸多態性[36]。隨著測序技術的發展,能夠發現的SNP數量越來越多,轉錄組測序已成為研究生物環境的影響、發育調控、細胞類型等較復雜分子機制的重要手段,同時也是應用于SSR和SNP等分子標記多態性鑒定的重要前提[37]。RAJEEV等[38]對292個木豆屬()種質進行測序,共取得了1 510萬個SNP,其中在基因區域的SNP達到302萬,對SNP的分析并與性狀進行關聯,得到了木豆種質的差異和木豆相關性狀的關聯基因區域。
對轉錄組進行測序之后能較直接地進行基因功能注釋。基因功能注釋需要利用生物信息學方法,將測序得到的未知基因序列在公共數據庫進行比對,通過分析與公共數據庫中已知基因的聚類或同源性,來預測目標未知基因的功能。目前使用的基因功能預測分類系統主要是Gene Ontology(GO)分類和KEGG功能分類[39]。GO采用的思想是聚類分析,聚類是將同一組中的對象與相似的其他組(簇)相比較,從而推測出目標基因的功能。聚類分析包括層次聚類、K-均值聚類、K-中心點聚類和基于網絡或模型等的一些聚類技術[40]。KEGG是基于分子水平信息,特別是大型分子數據集合而生成的基因組測序數據庫和其他高通量實驗得出的數據庫資源,是一個有關Pathway的主要公共數據庫,在給出一套完整基因的情況下,它可以對蛋白質在各種細胞活動中的作用作出預估[41]。
由于轉錄組是參與表達的基因組合,對生物體各性狀的表現具有非常重要的作用,也是基因功能關系最密切的組學,所以目前轉錄組測序是分子生物學發展最迅速,應用相對最廣的一種測序形式,幾乎所有常見并在研的生物體都有進行轉錄組方面的研究。轉錄組學的研究方向不斷拓展,在自然群體和遺傳群體的材料中有基因定位、基因功能注釋、遺傳進化分析和比較轉錄組學等方面的分析,在個體材料中主要有發育調控、環境適應,、表觀調控等方面的分析。在大量生物體進行轉錄組研究的背景下,越來越多的基因被發現,功能被注釋,對生物體的研究將愈發深入,而基因功能有一定的共通性,這也使得相近物種的研究更加容易。
測序技術日新月異,隨著三代測序技術的不斷完善,其實際應用也更加臨近,從而使轉錄組測序的結果更加準確完整,未來轉錄組測序在生物學研究中將扮演更加重要的角色,轉錄組測序應用將更廣,成本更低,使用也更加便捷高效。
[1] LOCKHART D J, WINZELER E A. Genomics, gene express and DNA arrays[J].Nature,2000,405(6788):827-836.
[2] COSTA V, ANGELINI C, DE FEIS, et al. Uncovering the complexity of transcriptomes with RNA-Seq[J]. Jorunal of Biomedicine and Biotechnology, 2015, 2010(5757): DOI:10.1155/2010/853916.
[3] 張春蘭.小尾寒羊和杜泊羊臂二頭肌轉錄組及肌球蛋白輕鏈基因家族結構特征分析[D].泰安:山東農業大學,2014.
[4] ANAORGE W J. Next-generation DNA sequencing techniques [J]. New Biotechnology, 2009, 25(4): 195-203.
[5] SANGER F, COULSON A R. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase[J]. Journal Molecular Biology,1975,94(3): 441–448.
[6] SANGER F, NICKLEN S, COULSON A R. DNA sequencing with chain-terminating inhibitors. Proceedings of the National Academy of Sciences[J]. 1977,74(12):5463-5467.
[7] MAXAM A M, GILBERT W. A new method for sequencing DNA[J]. Proceedings of the National Academy of Sciences, 1977, 74(2):560-564.
[8] 解增言,林俊華,譚軍,等.DNA測序技術的發展歷史與最新進展[J].生物技術通報,2010(8):64-70.
[9] MARGULIES M, EGHOLM M, ALTMAN W E, et al. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature, 2005, 437(7057): 376-380.
[10] PORRECA G J, ZHANG K, LI J B, et al. Multiplex amplification of large sets of human exons[J]. Nature Methods,2007,4(11):931-936.
[11] ONDOV B D, VARADARAJAN A, PASSALACQUA K D, et al. Efficient mapping of Applied Biosystems SOLiD sequence data to a reference genome for functional genomic applications[J]. Bioinformatics,2008,24(23):2776-2777.
[12] SHENDURE J, JI H. Next-generation DNA sequencing[J]. Nature Biotechnology, 2008,26(10):1135-1145.
[13] 陳浩東.達爾文氏棉旱脅迫轉錄組測序、EST-SSR開發及高密度遺傳圖譜構建[D].北京:中國農業科學院,2013.
[14] 王麗鴛.基于EST數據庫和轉錄組測序的茶樹DNA分子標記開發與應用研究[D].北京:中國農業科學院,2011.
[15] HARRIS T D, BUZBBY P R, BABCOCK H, et al. Single-molecule DNA sequencing of a viral genome[J]. Science, 2008, 320(5872): 106-109.
[16] EID J, FEHR A, GRAY J, et al. Real-time DNA sequencing from single polymerase molecules[J]. Science,2009, 23(5910): 133-138.
[17] 侯婷婷.缺血再灌注脊髓損傷不同時序變化轉錄組學相關研究[D].長春:吉林大學,2015.
[18] DUGGAN D J, BITTNER M, CHEN Y, et al. Expression profiling using cDNA microarrays[J]. Nature Genetics, 1999, 21(1):10-14.
[19] VELCULESCU V E, ZHANG L, VOGELETEIN B, et al. Serial analysis of gene expression[J]. Science, 1995, 270(5235) :484-487.
[20] HENE L, SREENU V B, VUONG M T, et al. Deep analysis of cellular transcriptomes-Long SAGE versus classic MPSS[J]. BMC Genomics, 2007(8): DOI: 10.1186/1471-2164-8-333.
[21] BRAUTIGAM A, GOWIK U. What can next generation sequencing do for you? Next generation sequencing as valuable tool in plant research [J]. Plant Biology, 2010, 12(6): 831-841.
[22] 王少甲.基于轉錄組測序的小金海棠缺鐵脅迫相關基因研究[D].北京:中國農業大學, 2014.
[23] 郭溆.基于轉錄組測序的石斛生物堿和人參皂苷生物合成相關基因的發掘、克隆及鑒定[D].北京:北京協和醫學院,2013.
[24] MA Y, YUAN L,WU B, et al. Genome-wide identification and characterization of novel genes involved in terpenoid biosynthesis in Salvia miltiorrhiza[J]. Journal of Experimental Botany, 2012, 63 (7): 2809-2823.
[25] ANDREW J S, GREGORY G, NICOLAS P, et al. Peroxisomal localisation of the final steps of the mevalonic acid pathway in[J]. Planta, 2011, 234 (5): 903-914.
[26] HU Y, WALKER S. Remarkable structural similarities between diverse glycosyltransferases [J]. Chemistry and Biology, 2002, 9 (12): 1287-1296.
[27] WILHELM B T, MARGUERAT S, WATT S et al. Dynamic repertoire of a eukaryotic transcriptome surveyed at single nucleotide resolution[J]. Nature, 453(7199): 1239-1243
[28] 梁燁,陳雙燕,劉公社.新一代測序技術在植物轉錄組研究中的應用[J].遺傳,2011,33(12):1317-1326.
[29] 賈昌路,張瑤,朱玲,等.轉錄組測序技術在生物測序中的應用研究進展[J].分子植物育種,2015,13(10):2388-2394.
[30] ZHONG W, MARK G, MICHAEL S. RNA-Seq: a revolutionary tool for transcriptomics [J]. Nature Reviews Genetics, 2009, 10(1):57-63.
[31] AUFFARY C, HOOD L. Editorial: Systems biology and personalized medicine-the future is now [J]. Biotechnology Journal , 2012, 7(8) : 938–939.
[32] XIANG Z, ZHAO P, LI Q, et al. MicroRNAs ofidentified by Solexa sequencing [J]. BmcGenomics,2010(11):DOI:10.1186/1471-2164-11-148.
[33] GREENBAUM D, COLANGELO C,WILLIAMS K, et al. Comparing protein abundance and m RNA expression levels on a genomic scale [J]. Genome Biology, 2003, 4(9): DOI:10.1186/gb-2003-4-9-117.
[34] Li H, LOVCI M T, KWON Y, et al. Determination of tag density required for digital transcriptome analysis: application to anandrogensensitive prostate cancer model [J]. Proceedings of the National Academy of Sciences, 2008,105(51): 20179-20184.
[35] MARCOTTE E M, PELLEGRINI M, THOMPSON M J ,et al. A combined algorithm for genomewide prediction of protein function [J]. Nature,1999, 402(6757): 83-86.
[36] 郝大程,馬培,穆軍,等.中藥植物虎杖根的高通量轉錄組測序及轉錄組特性分析[J].中國科學,2012,42(5):398-412,431-433.
[37] BARBAZUKK W B, SCOTT J E, HSIN D C, et al. SNP discovery via 454 transcriptome sequencing [J]. The plant journal, 2007,51(5): 910-918.
[38] 劉峰,謝玲玲,弭寶彬,等.辣椒轉錄組SNP挖掘及多態性分析[J].園藝學報,2014,41(2):343-348.
[39] RAJEEV K V,RACHUIT K S,HARI D U, et al. Whole-genome resequencing of 292 pigeonpea accessions identifies genomic regions associated with domestication and agronomic traits[J]. Nature Genetics.2017,49(7):1082–1088.
[40] 黃小花,許鋒,程華,等.轉錄組測序在高等植物中的研究進展[J].黃岡師范學院學報,2014,34(6):28-35.
[41] ESTIVILLCASTRO V. Why so many clustering algorithms: a position paper [J]. Acm Sigkdd Explorations Newsletter,2002,4(1): 65-75.
[42] KANEHISA M. et al., KEGG for representation and analysis of molecular networks involving diseasesand drugs[J].Nucleic acids research,2010,38(suppl 1):355-360.
Development and Application of Transcriptome Sequencing
WANG Chubiao1,2, LU Wanhong1, LIN Yan1, LUO Jianzhong1
(1.,,,; 2.)
Transcriptomics has become a hot topic in molecular biology research in recent years. Transcriptome sequencing, which has emerged as a core technology for molecular genetics research, has progressed rapidly from its first to third generation methodologies with great improvement in throughput and accuracy. Currently, the most widely used is second generation sequencing methodology employing one of three sequencing platforms: Roche/454, ABI/Solid, and Illumina/Solexa, each of which has advantages and disadvantages. All of these methodologies rely on transcriptome sequencing using gene chips and examination of gene expression using SAGE, MPSS or RNA-Seq methods, with the latter being that most commonly used. Applications of transcriptome sequencing include analyses of gene expression levels and differential gene expression, mining for new genes, SNP discovery and annotation of gene functions. Transcriptome sequencing is forecast to continue to be an active research area that will continue to develop rapidly and play an increasingly important role in biological research.
Transcriptome; sequencing technology; high throughput; RNA-Seq
Q752
A
廣東省林業科技創新項目(2017KJCX031, 2018KJCX027)。
王楚彪(1982— ),男,在讀博士,助理研究員,主要從事林木遺傳育種研究,E-mail:scauwcb@163.com.
羅建中(1969— ),男,博士,研究員,碩導,主要從事林木遺傳育種研究,E-mail:luojz69@hotmail.com.