陳琛 綜述 萬海粟 周清華 審校
基因測序技術的進步,為分子生物學的發展,起到了巨大的推動作用。傳統的基因測序技術的重要代表,是所謂的Sanger測序法,這是一種以末端終止法為原理建立起來的技術[1]。20世紀90年代開始啟動的人類基因組計劃,就是將Sanger測序法加以自動化的改進之后,通過大規模的國際合作,才最終完成的[2]。這項計劃,耗時十數年,直接花費超過十億美元。顯然,高昂的測序成本,限制了基因測序技術的更常規的使用。近幾年,新一代基因測序技術(next-generation sequencing technology)的出現,則呈幾何級數地降低了基因測序的成本,在不遠的將來,類似人類基因組規模的測序,預期只需要1 000美元就可以完成[3]。
新一代基因測序技術,由于測序成本的大幅度降低,使之能夠成為解決一般性的基因分子生物學問題的有效工具[4,5]。新一代基因測序技術的發展,無疑也為腫瘤分子生物學的研究,提供了新的手段。本文將主要就新一代基因測序技術的特點和發展趨勢及其在腫瘤研究中的應用,作簡要的綜述。
對于一個經典的生命科學實驗,其過程通常主要由三個部分組成,即:實驗材料和試劑的準備;生物反應的進行,對反應結果的觀察和總結。將這一過程具體到傳統的Sanger基因測序法,即:序列片段和相關試劑的準備,末端終止法測序反應的進行,通過電泳將序列片段分離并觀察結果。對這類經典的生命科學實驗而言,通常第一和第二兩個步驟比較簡單,而最耗時耗力的是第三步,對實驗結果的觀察。在傳統的基因測序法中,利用電泳將序列片段分離并觀察結果,是一個最影響測序效率的步驟。在人類基因組計劃實施的過程中,其所依賴的是對第三步實驗過程的自動化。但即使這樣,人類基因組的成本依然很高。
顯然,要想從根本上降低生命科學實驗的成本,就必須大大降低以上對實驗結果觀察的費用,而要從根本上降低序列片段的分離和觀察的費用。新一代基因測序技術所代表的,就是一個重要的方向:對實驗反應的信號進行實時觀察,從而避免了以上所說的經典實驗過程的第三個步驟的制約,而也正是這個特點,才使得測序成本能夠被大大的降低[6]。
嚴格地說,所謂新一代基因測序技術,并不是某種單一的技術,而是一個技術群。不同的新一代基因測序技術,在其原理上,還是有很大的差別的。目前,相對比較成熟、已經市場化或者接近市場化的,主要有三家:Roche公司的454技術、Illumina公司的Solexa技術以及ABI公司的SOLiD技術。它們則分別使用了不同的測序原理。
2.1 454測序原理 454測序技術主要應用pyrosequencing原理:先使特異性的測序引物和單鏈DNA模板結合后,在多種酶,包括DNA聚合酶(DNA polymerase)、ATP硫酸化酶(ATP sulfurylase)、熒光素酶(luciferase)和雙磷酸酶(apyrase)以及底物APS和Luciferin等的共同參與下,將每一個dNTP的聚合與熒光信號的釋放偶聯起來。具體說來則是當向反應體系中加入1種dNTP,如果它剛好能和DNA模板的下一個堿基配對,則會在DNA 聚合酶的作用下,添加到測序引物的3’末端,同時釋放出一個分子的焦磷酸(PPi)。在ATP硫酸化酶的作用下,生成的PPi可以和APS結合形成ATP;在熒光素酶的催化下,生成的ATP又可以和熒光素結合形成氧化熒光素,同時產生可見光。通過CCD光學系統即可獲得一個特異的檢測峰,峰值的高低則和相匹配的堿基數成正比。反應體系中剩余的dNTP和殘留的少量ATP在Apyrase的作用下發生降解,這樣,就可以在反應體系中,加入另一種dNTP,使以上反應重復進行,根據獲得的峰值圖即可讀取準確的DNA序列信息[7](圖1)。
2.2 Solexa測序原理 Solexa測序技術,同樣是利用DNA聚合酶的鏈延伸反應,只是所使用的dNTP,經過了特殊的修飾,四種不同的dNTP分別被標記上了不同的熒光基團,同時,又在所有的dNTP中加入了3’末端保護基團,即封閉基團,以使每一步反應只能延伸一個堿基,直到其熒光信號被收集后,將熒光基團去除,再將封閉基團去掉,從而進行下一步反應,而每步反應所收集到的熒光信號,則對應了所要檢測的序列。
在具體的實驗操作中,通常是在待測序列片段的兩個末端加上含有特定序列的接頭,然后,再利用專利的芯片進行:首先是待測序列在芯片上的原位擴增,芯片表面含一層分別和待測片段兩個末端的特定序列對應的兩個單鏈引物,可以通過互補原理,捕獲被變性成單鏈的待測片段,引物擴增使得單鏈DNA成為雙鏈,該雙鏈變性后成為單鏈,其一端“固定”在芯片上,另外一端(5’或3’)隨機和附近的另外一個引物互補,被“固定”住,形成“橋”。這樣的反應在上千萬DNA單分子上發生,形成的單鏈橋以周圍的引物為擴增引物,在芯片表面進行擴增,形成雙鏈。雙鏈經變性成單鏈,再次形成橋,成為下一輪擴增的模板繼續擴增,經過30輪擴增,每個單分子得到了若干倍擴增,成為單克隆“DNA簇群”。其次,是“DNA簇群”在Genome Analyzer綜合分析儀上進行序列分析。如圖2所示,正如前面所提及,Solexa測序技術采用“可逆性末端終止反應”進行的;序列合成反應體系包括有引物、DNA聚合酶、4種標記了不同熒光的核苷酸,每個核苷酸的堿基被保護基團封閉。每次反應摻入一個核苷酸,該核苷酸類別可通過標記熒光進行識別,經過掃描,讀取該次反應顏色后,位于堿基3’末端的保護基團被除去,繼續下一輪反應,如此反復,得出片段的精確序列。該技術讀長為30個-35個核苷酸[8];不過,隨著技術的不斷改善,其讀長會逐步增加。
2.3 SOLiD測序原理 SOLiD應用連接法測序,同時利用了獨特的雙堿基編碼原理。待測的短的DNA片段的兩側,被連上SOLiD接頭,分別是P1接頭和P2接頭,然后,則對加上接頭的待測片段,在特定的磁珠表面進行擴增,具體則是通過油包水PCR反應進行的,其中,和P1接頭對應的P1引物,被固定在P1磁珠的表面,在PCR反應前,將含有PCR反應所有成分(其中包括P1磁珠和對應于P2接頭的P2引物等)的水溶液,注入高速旋轉的礦物油表面,水溶液就可以被分離成無數被礦物油包圍的小液滴,并各自構成獨立的反應空間,理想狀況下,每個小液滴只含一個DNA模板和一個P1磁珠,隨著PCR反應的進行,磁珠上就形成了若干具有相同來源的擴增產物,這就為后續的測序反應做好了準備。
如圖3所示,測序反應,是在前面制備的磁珠的基礎上進行的;先使用一個測序引物,該測序引物與磁珠上的擴增產物的P1接頭可以互補雜交,而如果在其鄰近的位置上,存在另一個互補鏈,則在測序引物和鄰近的互補鏈之間,可以進行連接反應;SOLiD系統使用了特殊的八個堿基長的寡核苷酸鏈,其3’端第1、2位構成的堿基對是表征探針染料類型的編碼區,5’末端標有熒光染料,因此不同的序列組合就被標記上不同的熒光基團。寡核苷酸鏈競爭性與測序引物鄰近的序列雜交連接,通過顏色判斷序列組成,當其標記顏色被讀取后,即將連接上的寡核苷酸在第五位和第六位之間切斷,以移除標記,進行下一輪反應,依此循環。在第一輪反應中,可以得到確定的堿基位點為:1、2、6、7、11、12位堿基等。重復該反應過程,偏移一位堿基,使用較第一輪少一個堿基的引物進行反應,如此往復,直至整個序列讀序完成。此技術目前的讀長為30個-35個堿基[9]。
以上可見,雖然這幾種測序技術在基本原理上有所不同,但都具有一個共同之處,即都使用了反應信號的實時閱讀,在測序反應進行的同時,就將反應信號收集起來。這樣,就幾乎將經典的生命科學實驗所需要的第三步省略了,從而使得測序成本得到降低。

圖 2 Solexa測序原理示意圖Fig 2 Principle of solexa sequencing

圖 3 SOLiD測序原理示意圖Fig 3 Principle of SOLID sequencing
以上所描述的,是幾種相對成熟的技術。但就人們對新一代基因測序技術的需求而言,這幾種技術,還遠談不上完美。例如,454技術的樣品準備過程過于復雜,Solexa技術的測序閱讀長度還比較短,而SOLiD技術甚至還沒有得到科研群體的廣泛驗證,這些具體的問題,都需要一一解決[10],但這些技術所面臨的問題,許多是其測序原理所固有的。事實上,除這幾種技術外,許多依賴不同的原理的技術,也正在研究中,至少從目前看,它們的潛力是非常巨大的。
例如: AQI Sciences公司推出有關熒光共振能量轉移(fluorescent resonance energy transfer technologies, FRET)技術的系統平臺。這種技術可以通過設計出相應的熒光標記核酸探針,對靶DNA進行均相定性定量測定。對于長片段序列的測定,Agilent Laboratories公司也主要利用的是納米孔道技術(nanopore technology)。納米通道技術可以對基因快速測序,并且能多組分(高通量)快速檢測。最近,IBM公司改進了這種技術,其方法是利用DNA晶體管來控制DNA在納米孔道中的運動,從而可以準確讀出通過納米孔道的堿基對,達到精確測序的目的[11]。其它還有多家類似的從事高通量測序技術研究的公司或研究團隊。例如:Helicos 推出了一種單分子測序技術,這種技術在測序時不再需要將基因組擴增成上千個拷貝,而是只需要將一個拷貝的基因組打碎成30 bp左右的片段即可測序,因此大大減少了測序的費用。這種技術已經被應用于臨床檢測。有研究[12]將這些更具潛力的基因測序技術,稱為新新一代基因測序技術(next next-generation sequencing technology)。在改善測序技術的同時,人們同時也在關注如何更快更有效分析得到的大量數據[13]。例如,cDNA測序不僅確定表達水平,而且確定等位基因特異性的基因表達。Kofler等[14]建立PanGEA方法,就是利用454技術快速有效分析等位基因表達。PanGEA繪制454-est和基因或基因組對應圖譜,顯示基因表達資料,單核苷酸多態性以及等位基因特異性表達的定量化。Hackenberg等[15]建立了miRanalyzer——一種分析小分子RNA測序結果的工具,可以用來檢測miRBase中所有已知的microRNA序列,找出所有最佳的轉錄序列,并且預測新的microRNAs。
技術的總的發展趨勢,是更少的樣品消耗、更高的通量、更長的閱讀長度、更準確的測序結果、更低的成本[16]。相信在三到五年的時間內,會有突破性的進展出現。
新一代基因測序技術,將許多從前無法實現的事情變成可能。如果說當年的人類基因組計劃是一個巨大的挑戰的話,現在,在新一代基因測序技術的基礎上,對不同物種基因組的測序,幾乎成為一個研究單位就可以決定的常規的行為[17,18]。2009年初,由中外科研單位共同提出的千人基因組計劃,也正式啟動,其總體目標,是繪制一張關于人類基因多態性的高分辨率的圖譜。
新一代基因測序技術,其在生命科學領域的主要影響,還在于使基因分子生物學的研究,獲得了一種大規模高通量的研究工具,這得在全基因組水平上,對組織細胞的分子機制的分析成為可能[19-21]。Zheng等[22]建立了多重的高通量管路以得到高質量數據,并利用此方法對437個樣本外顯子的1 500個基因約5 Mb DNA重測序。
從對正常的發育過程的研究,到對不同病理狀況特征的研究,研究人員都能獲得更加全面數據[23-25]。這使得人類對生命現象的認識,也從過去的單一過程的水平,進入了整體的層次[26,27]。
傳統上的腫瘤分子生物學的研究,開始是基本是對單一生物分子或者少數生物分子的分析,后來隨著技術的進步,發展成為對單一分子過程或者少數分子過程的分析,后來,由于基因芯片的出現,使得高通量集成化的分析成為可能,而新一代基因測序技術,則為腫瘤的分子生物學的研究,提供了一種和基因芯片技術互為補充的新的高通量的工具[28,29]。新一代基因測序技術,對腫瘤分子生物學研究的影響是多方面的。
5.1 腫瘤基因組序列的再測序 高通量測序可以幫助研究者跨過文庫構建這一實驗步驟,避免了亞克隆過程中引入的偏差。 依靠后期強大的生物信息學分析能力,對照一個參比基因組(reference genome)高通量測序技術可以非常輕松完成基因組重測序(re-sequencing)[30-32]。進而可以分析腫瘤基因組的拷貝數、多態性、不同類型的突變、基因相關性等[33]。
Gorlov等[34]利用高通量測序技術檢測了基因編碼區域上的83 715個SNP位點以確定肺癌的多態性敏感的變異體。在文中共分析了369例男性病例和287例對照例,確定了22q12.2區域,含有許多病例與對照不同的SNP位點,這個結果與在細胞系中的實驗結果相同。
5.2 全基因組基因表達譜的分析 Mortazavi等[35]人對小鼠的大腦、肝臟和骨骼肌進行了RNA 深度測序,這項工作展示了深度測序在轉錄組研究上的兩大進展,表達計數和序列分析。對測得的每條序列進行計數獲得每個特定轉錄本的表達量,是一種數碼化的表達譜檢測,能檢測到豐度非常低的轉錄本。分析測得的序列,約90%的數據顯示落在已知的外顯子中,同時,也發現了許多序列并不在已知的外顯子序列中,而那些在已知序列之外的信息,通過數據分析展示的是從未被報道過的RNA剪切(alternative splicing)、3’端非翻譯區、變動的啟動子(alternative promoter)以及潛在的小分子RNA前體,發現至少有3 500個基因擁有不止一種剪切形式。而這些信息用傳統技術是無法被發現的。
新一代高通量測序技術還被用于對基因轉錄起始位點的研究,例如,Balwierz等[36]利用高通量測序技術分析了122個樣本的轉錄起始位點,構建了人和鼠的啟動子轉錄起始位點圖譜,包括轉錄起始位點、轉錄起始簇和轉錄起始區域三個層次。同樣,這項研究也是很難用傳統的方法實現的。
5.3 全基因組小分子RNA的分析 測序方法能輕易地解決芯片技術在檢測小分子時遇到的技術難題(短序列,高度同源), 而且小分子RNA的短序列正好配合了高通量測序的長度,使得數據“不浪費”,同時測序方法還能在實驗中發現新的小分子RNA[37,38]。
5.4 全基因組層次上甲基化分析 近年來研究者不斷探索定性及定量檢測單個或多個甲基化位點的方法,但由于甲基化多態性區域存在的密度很高,所以對于常規的延伸反應,其引物的位置很難設計。焦磷酸測序技術能夠快速地檢測甲基化的頻率,對樣品中的甲基化位點進行定性及定量檢測[39,40]。用焦磷酸測序技術檢測基因甲基化水平,常用重亞硫酸鹽將基因組DNA中的未甲基化的胞嘧啶修飾為尿嘧啶,甲基化的胞嘧啶則保持不變,在以后的PCR擴增中,尿嘧啶將變成胸腺嘧啶,因此甲基化位點就成為一個普通的C/T單堿基多態性位點,其中等位基因 C的頻率即為基因甲基化的程度,這就可以通過測序的方法分析了。
White等[41]建立了針對Angelman綜合征和praderwilli綜合征srnpn基因甲基化檢測平臺,診斷率達到100%。Shaw等[42]在甲基化特異性PCR(methylation specific PCR, MSP)基礎上結合焦磷酸測序技術提出了甲基化強化焦磷酸測序技術(methylation enrichment pyrosequencing, MEP)改進了常規的焦磷酸測序甲基化分析(pyrosequencing methylation assay, PMA)對10例口腔鱗狀細胞癌患者p16基因和細胞周期蛋白A1基因啟動子進行甲基化分析,結果顯示MEP對甲基化位點的檢出率明顯比PMA為高,與常規 PMA不同的是,MSP引物是CpG位點特異性的,從而提高了檢測敏感度,減少了假陽性結果。
Taylor等[43]利用454測序技術測序并分析40株細胞的25個CpG富集的基因,發現ALL和FL樣品的甲基化水平高于CLL和MCL,并且,在ALL和FL中甲基化從CpG島的外周到中心遞增散布。作者還通過同時分析基因組學和表觀遺傳學數據,揭示了LRP1B啟動子的單核苷酸多態性和甲基化水平之間的聯系。
5.5 染色體結構的分析 在DNA-蛋白質相互作用的研究上,染色質免疫沉淀-深度測序(ChIP-seq)實驗也展示了其非常大的潛力[44]。染色質免疫沉淀以后的DNA直接進行測序,對比ref seq可以直接獲得蛋白與DNA結合的位點信息,相比ChIP-chip,ChIP-seq可以檢測更小的結合區段、未知的結合位點、結合位點內的突變情況和蛋白親合力較低的區段[45]。和基因芯片一起,新一代基因測序技術,使人們能從整體的全基因組的層次上,認識腫瘤的分子機制,為腫瘤的預防和治療,提供了新的基礎。
如果說基因芯片技術是基因分子生物學研究領域的第一個高通量的研究技術的話,新一代基因測序技術,則同樣構成了另一個重要的高通量的研究工具[46]。雖然還有許多問題需要解決,但這項技術,已經為基因分子生物學的研究,帶來新的變化,而在腫瘤分子生物學的研究以及臨床應用方面,也顯示了多方面的影響[47,48]。相信隨著測序通量的進一步提高和測序成本的進一步降低,新一代基因測序技術,將在腫瘤分子生物學領域,發揮更加重要的作用。