馬素平
摘 要 高通量測序技術為生命科學研究提供了前所未有的機遇。本文主要對以DNase-seq、ChIP-seq和RNA-seq為代表的二代測序技術,以及以Nanopore測序為代表的三代測序技術的原理、建庫步驟和優缺點做了總結,并對今后測序技術的發展做了展望。
關鍵詞 高通量測序技術;DNase-seq;ChIP-seq;RNA-seq;Nanopore測序
高通量測序技術,也稱二代測序技術、下一代測序技術(Next-Generation Sequencing,NGS)。人類全基因組序列草圖在2001年完成后,其他幾種模式生物的基因組序列也被確定,這些實驗基于Sanger DNA測序技術完成,但逐漸暴露出該技術耗時較長、反應數目有限的問題。自2005年起,454焦磷酸測序技術(Roche公司,2005年)、Solexa聚合酶測序技術(Illumina公司,2006年)和Solid連接酶測序技術(ABI公司,2007年)逐漸發展成熟,這三個技術擁有共同的突出特點是單次運行即可產出大量的序列數據,故統稱為高通量測序技術(High-throughput sequencing)。
高通量測序技術的發展,為人類探索基因組奧秘提供了重要的序列信息。近年來,該技術在動植物等領域都得到了廣泛應用,包括基因組的測序,轉錄組的測序及小 RNA的測序等,為多組學的發展提供了更多的思路和方案。
1二代測序技術
二代測序技術常用的測序平臺是Illumina/Solexa,其工作原理是邊合成邊測序,在測序之前需要先對樣品進行橋式擴增,以便得到更高的測序深度。后續實驗流程為:以橋式擴增后得到的單鏈DNA作為模板,添加帶有保護基團與不同熒光標記基團的四種游離堿基,故每次反應只會添加一個堿基,并且可用通過成像系統采集熒光以確定添加堿基的類別。該次反應結束后,洗去游離堿基,并通過化學試劑移除保護基團,使熒光標記失活,以進行下一次反應測定下一位堿基[1]。該技術初期只能讀取較短的序列(20-30bp),但隨著技術不斷地改進,現已可讀取100bp以上,并且雙端測序(Paired End,PE)也普遍應用,雙端測序得到的讀長是單端的兩倍,測序深度也在不斷地增加。
1.1 DNase-seq技術
在過去的25年里,傳統的Southern印跡方法已鑒定出數百個DNase I 的高敏感位點(DHS,指位于核小體之間且可以被DNase I切割的位點),并發現它們與許多活性調控元件相關,包括啟動子、增強子、沉默子、絕緣子以及其他基因組調控區域,這使得DNase I高敏感位點的檢測成為鑒定基因調控元件的理想方式。傳統的Southern印跡方法雖然準確有效但不適用于全基因組的分析,故DNase-seq技術被開發出來,此技術單次可檢測大量的DHS。該技術主要利用DNase I對基因組上具有高敏感性的位點進行切割,實驗流程為:利用合適濃度的DNase I對基因組進行消解,然后對消解后的片段進行擴增,進而測序。測序結果中片段富集的區域,通常就是轉錄因子或者核小體結合的位置[2-3]。
該方法的優點是操作簡單、易于建立實驗體系;可用于多種細胞;根據測序結果可大致推測出核小體及轉錄因子的結合位置。缺點是很難控制最佳的DNase I消解條件;需要細胞的起始量較多,因此不適用于細胞量較少的樣本;DNase I切割DNA具有序列依賴性,存在較大誤差。
1.2 ChIP-seq技術
染色質免疫共沉淀技術(ChIP-seq, Chromatin Immunoprecipitation with high throughput sequencing)[4],也稱結合位點分析法,是繼ChIP、ChIP-chip之后將染色質免疫共沉淀反應與深度測序相結合的一種技術,旨在研究生物體內蛋白質與DNA的相互作用,常用于轉錄因子結合位點以及組蛋白特異性修飾位點的研究。該技術大致實驗流程包括:①利用甲醛交聯細胞或組織;②分離基因組DNA,超聲打斷;③加入目的蛋白的特異性抗體;④解交聯,純化DNA片段;⑤加測序接頭,進行PCR文庫擴增;⑥高通量測序。
該技術與ChIP和ChIP-chip相比,優點是可實現真正的全基因組范圍分析轉錄因子或組蛋白的結合;有較好的分辨率,能夠精確地募集到與蛋白結合的DNA序列;所需樣本量少;且不需要雜交。缺點是抗體的價格較昂貴。
1.3 RNA-seq技術
RNA-seq技術于2008年首次被提出,成為近年來利用轉錄組測序研究基因功能的最常用技術[5]。實驗基本流程如下:①提取樣本中總的RNA;②通過Oligo(dT)磁珠富集mRNA;③超速離心片段化;④加入隨機引物逆轉錄形成cDNA;⑤進行末端修復加上poly A尾及測序所需接頭序列;⑥片段選擇;⑦純化和PCR擴增;⑧質檢并測序。該技術被廣泛應用因為其具有很多優勢:①定量準確,對單堿基有較高的分辨率,可識別SNP;②適用于任何物種,無須提供基因注釋信息。③所需樣品量少,適用于不易獲得的樣品或稀缺樣品,比如,癌癥的干細胞測序。④可檢測可變剪接事件。RNA-seq雖優勢眾多,但同時也存在缺點:因為細胞中存在大量的核糖體RNA(rRNA),所以人們常采用polyA RNA選擇的方法,但有研究人員發現這種方法只能檢測到人細胞內部分的非核糖體RNA,故檢測的RNA不能代表細胞內所有的mRNA水平[6]。
RNA-seq技術優勢眾多,所以其應用也尤為廣泛:①可用于定量分析基因的表達水平。②可用于轉錄本結構的研究。RNA-seq利用其單堿基分辨率結合深度測序可以提供豐富的基因注釋信息,包括5′ UTR、3′ UTR以及新轉錄區域的鑒定等[7],同時可檢測到低豐度表達的轉錄本.③可用于非編碼區域的功能研究。在人類基因組中,93%以上的基因組可以轉錄出RNA,但只有不到2%的序列可以編碼蛋白質,剩余91%的基因組轉錄出來的RNA都不具有編碼蛋白質的能力,這類RNA稱為ncRNA(non-coding RNA)。
2三代測序技術
近些年來,三代測序技術發展如火如荼,目前主要有兩大代表:PacBio的SMRT sequencing以及Nanopore公司的Nanopore sequencing(納米孔測序)。納米孔測序由于設備簡單,樣品制備靈活,更適合在普通實驗室條件下進行,所以這里主要介紹納米孔測序。
Nanopore技術的核心原理是有一個由蛋白(稱為“Reader”蛋白)構成的納米級小孔,稱為“Pore”,一般是由跨膜蛋白經基因工程改造后的蛋白,該蛋白插在一層電阻率很高的薄膜中,因薄膜兩側的電位不同,這樣就使得離子可以從膜的一側移動到另一側,小孔中便會有電流產生,當測序的單鏈分子通過該小孔時,就會對離子的流動造成阻礙,因不同堿基阻礙大小不同,故可由記錄下來的電流波動信號經分析反推得到對應的堿基。Nanopore測序技術的優點是:①儀器輕便,方便攜帶。②讀長長。Nanopore可測得30~40w個堿基,可進行De novo或者基因組結構的預測。③可直接對RNA進行測序,便于發現RNA上的堿基修飾。缺點是:①判讀堿基的準確率有待提高。因每次通過小孔時會同時經過5個堿基,所以形成的信號是5個堿基共同作用的結果;其次對于結構相似的堿基,識別率低(如A與G;C與T) 。②試劑的穩定性還有待提高[8]。由于納米孔測序原理的特殊性,甚至有團隊試圖開發用其對氨基酸序列進行直接測序的方法。
3展望
目前基因組學、生物物理學、計算生物學和數學建模等領域跨學科的發展,可有望實現在時間和空間上描繪出人類基因組的4D結構特征,同時人工智能時代的到來將會加速這一進程。相信在不久的將來,高通量測序技術的發展會為解析人類生命奧秘做出巨大貢獻。
參考文獻
[1] Fedurco M,Romieu A,Williams S,et al. BTA,a novel reagent for DNA attachment on glass and efficient generation of solid-phase amplified DNA colonies[J]. Nucleic acids research,2006,34(3):22.
[2] Song L,Crawford G E . DNase-seq:A High-Resolution Technique for Mapping Active Gene Regulatory Elements across the Genome from Mammalian Cells[J]. Cold Spring Harbor Protocols,2010,2010,(2):5384.[3]Hesselberth JR,Chen X,Zhang Z,et al. Global mapping of protein-DNA interactions in vivo by digital genomic footprinting[J]. Nature Methods,2009,6(4):283.
[4] Park PJ. ChIP-seq:advantages and challenges of a maturing technology[J]. Nature Reviews Genetics,2009,10(10):669.
[5] Marioni JC,Mason CE,Mane SM,et al. RNA-seq:An assessment of technical reproducibility and comparison with gene expression arrays[J]. Genome Research,2008,18(9):1509-1517.
[6] Raz T,Kapranov P,Lipson D,et al. Protocol Dependence of Sequencing-Based Gene Expression Measurements[J]. Plos One,2011,6(5):19287.
[7] Mortazavi A,Williams BA,McCue K,et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq[J]. Nature Methods,2008,5(7):621-628.
[8] Branton D,Deamer DW,Marziali A,et al. The potential and challenges of nanopore sequencing[J]. Nature Biotechnology,2008,26(10):1146-1153.