陸泓雨,劉波,秦超勇,張彥
1.北京市第十二中學,北京100071;2.軍事科學院 軍事醫學研究院 生物工程研究所,北京100071
RNA 處于生命科學中心法則的中央:遺傳信息儲存在DNA 中,DNA 經過轉錄產生RNA,其中的mRNA 再經過翻譯成為發揮具體功能的蛋白質。在這個過程中,RNA 承前啟后,是遺傳信息傳遞的中樞。目前,許多研究表明,不同種類的RNA 對于基因的編碼和表達調控具有十分重要的意義,因此系統研究生理或病理狀態下RNA 的序列和豐度,對于理解相關基因的作用非常重要。近年來發展起來的RNA 測序(RNA-seq)技術[1-2]不僅可以測定RNA 序列,同時也能對RNA豐度進行分析,因此在生命科學的多個領域應用前景十分廣泛,已經成為研究基因表達調控的關鍵技術。目前常用的RNA 測序技術多種多樣,但由于不能對RNA 直接測序,必須通過一系列生化反應轉變成線性雙鏈DNA 并輔以測序接頭才能建立測序文庫用于測序,因而成本昂貴,且對RNA 總量和濃度的要求高,不利于一般研究人員進行RNA 測序研究。本研究的目的是建立簡便、低門檻的RNA 測序建庫方法,從而使RNA 測序更為實用,為開展相關研究提供技術支持。
人胚腎HEK293 細胞來自ATCC 細胞庫;模板轉換寡核苷酸(template switching oligo,TS-oli?go)、RT 引物及PCR 引物(表1)由生工生物工程(上海)股份有限公司合成;RNA 提取試劑TRIzol、RNA片段化酶RNase Ⅲ、Maxima H Minus Re?verse Transcriptase 和Superscript Ⅱ購自Thermo Fisher 公司;反轉錄酶SMARTscribe 購自Clontech公司;KAPA HiFi HotStart ReadyMix 購自KAPA公司;MagicPure RNA Beads 購自Transgen Biotech公司;Proflex型PCR儀、Ion Proton 型測序儀購自Thermo Fisher 公司。

圖1 基于模板轉換反轉錄的RNA 測序建庫原理

表1 本研究所用到寡核苷酸引物
本研究的建庫方案非常簡便,涉及的實驗步驟僅有2 步(圖1),關鍵實驗參數包括反轉錄酶、反轉錄反應溫度、TS-oligo 的選擇,以及是否進行cDNA 純化,因此本研究的重點就是對這些參數進行優化,并根據文庫DNA 長度和濃度結果確立理想的RNA-seq 建庫技術。
為了測試對于微量RNA(總量10 ng)的建庫能力,首先制備HEK293 細胞的RNA,再用RNaseⅢ制備片段后經MagicPure RNA Beads 純化,定量取10 ng RNA 用于建庫測試。
本研究的核心就是利用反轉錄酶的模板轉換活性,實現一步實驗即完成從RNA 到雙鏈DNA的轉變。因此,模板轉換活性的強弱是決定實驗成敗的重要因素。選擇3 種常用的、被報道具有模板轉換活性的商品反轉錄酶,比較其對于微量RNA 的反轉錄和模板置換合成第二鏈的能力。以10 ng 片段化RNA 為起點,反轉錄反應結束后取1 μL 進行PCR,除反轉錄酶和各自配套的酶反應緩沖液以外,其他所有條件都完全一致,最終以反轉錄后PCR 產物的多少來判斷模板置換的能力。
由于反轉錄酶合成DNA 到末端后都會隨機加上數個堿基,因此每次反轉錄結束后在3′端都增加額外數個堿基,啟動下一輪模板轉換時就會造成TS-oligo 串聯的現象(圖2)。要想改善這一現象,就需要在實驗設計中將TS-oligo 的5′端進行封閉。
本研究采用兩種方案,即生物素化修飾(采用表1 中的Biotin-TS-oligo)和無堿基間壁修飾(采用表1 中的AP-TS-oligo)。這2 種修飾都可以使得反轉錄酶不能以最后一個堿基為模板合成DNA,從而避免到達末端后增加額外的堿基。本研究通過比較這2 種TS-oligo 對建庫效率的影響,篩選適宜的TS-oligo。
在同時利用反轉錄酶的反轉錄活性和模板置換活性制備雙鏈cDNA 文庫時,通常情況下提高反轉錄的溫度有助于打開RNA 的二級結構,利于反轉錄酶延伸至cDNA 末端。但是過高的溫度不利于TS-oligo 和cDNA 末端3 個連續的配對,從而會降低模板置換的效率。在酶的最適溫度附近選擇42℃、45℃及50℃分別進行反轉錄和第二鏈合成反應。
在反轉錄過程中,反轉錄引物和TS-oligo 也可以互相配對形成2 個寡核苷酸的二聚體,所以產物中往往會存在二聚體雜質,而cDNA 純化有可能減少二聚體的形成。由于這種二聚體的大小顯著低于真正RNA 反轉錄的產物,因此可以通過片段長度測定進行條件篩選。將反轉錄產物分為2 組,每組5 μL,其中一組不經過純化,直接取1 μL 進行PCR,另一組用1.0×AMPure Beads 純化后用5 μL 去離子水洗脫再取1 μL 進行PCR。
利用高通量測序分析驗證數據重復性以及分子條形碼對基因表達豐度的校正。RNA-seq 測序文庫制備完成后,交由北京諾禾致源公司進行文庫質檢和測序。對于不含分子條形碼的文庫,直接用STAR 比對軟件使用默認參數進行比對,對片段的技術規則是片段讀數;對于包含條形碼的文庫,則先去除條形碼再進行比對,對每一個片段的技術規則是條形碼數量。

圖2 模板轉換產生TS-oligo 串聯現象的機制

圖3 不同的酶對建庫效率的影響
反轉錄酶選擇實驗結果見圖3。所有經過測試的酶都具有模板置換活性,Clontech 公司的SMARTscribe 的活性最高,因此選擇該酶進行后續實驗。
生物素化修飾(Biotin-TS)和無堿基間壁修飾(AP-TS)2 種建庫方案所獲得的PCR 產物電泳結果見圖4,2 種情況下所獲得cDNA 庫的組成和濃度相似,表明2 種修飾方案都可以實現較好的擴增。最終需要通過高通量測序結果進一步驗證。
選擇42℃、45℃及50℃分別進行反轉錄和第二鏈合成反應,并通過核酸電泳檢測不同反應溫度下的擴增效率,結果顯示50℃的擴增效率相對較好(圖5)。
為了探究cDNA 純化是否能夠提高建庫效率,本研究設置了經cDNA 純化組和未經cDNA 純化組,結果表明cDNA 經過純化后PCR 產物中二聚體顯著減少(圖6)。
2.5.1 數據重復性 對測序結果進行比對和基因計數后,分別對2 種方案的基因表達量進行重復性分析,結果顯示2 種方案的重復性都非常高,相關性系數達到0.95 以上(圖7)。
2.5.2 分子條形碼對基因表達豐度的校正 圖8顯示的是2 個snoRNA 基因的表達情況。再比較使用(AP-TS 組)和不使用(Biotin-TS 組)分子條形碼的測序數據,發現使用條形碼校正后的基因讀數更加均一(圖8 左紅色);而且SNORD6 基因的表達量低于SNORA32(圖8 左上),而未校正的測序數據則不能判斷這2 個基因的表達差異(圖8 左下)。進一步通過經典的熒光定量PCR 實驗驗證所選擇的2 個snoRNA 基因的表達差異,顯示SNORD6 的表達量低于SNORA32(圖8 右)??梢姡? 種TS-oligo 的建庫測序分析效果存在差異,而使用攜帶分子條形碼的TS-oligo 可以使一些基因表達量得到有效校正,更加真實地反映基因表達水平。

圖4 不同修飾的TS-oligo 建庫效率相當

圖5 不同反轉錄溫度對建庫效率的影響

圖6 cDNA 純化顯著提高建庫效率

圖7 2 種建庫方案生物學重復的相關性
MMLV 轉錄酶具有多種活性:以RNA 為模板的DNA 聚合酶活性(即反轉錄活性);在cDNA 合成的3′端增加數個非模板依賴的核苷酸活性(末端轉移酶活性);在TS-oligo 存在的情況下,能以合成的cDNA 第一鏈為模板繼續合成cDNA 第二鏈(模板轉換活性)。2001年最早報道了利用這些活性進行cDNA 末端快速擴增(rapid amplifica?tion of cDNA ends,RACE)的研究[3],之后Clontech公司進一步利用這一技術發展出目前市場上較為成熟的RNA 測序技術[4-5],但該公司的試劑盒成本昂貴。本研究通過自主設計寡核苷酸并優化參數,建立了基于模板轉換和分子條形碼的微量樣本RNA-seq 一步法建庫流程,簡化了操作,縮短了建庫時間,降低了建庫成本。此外,雖然本研究是按照Thermo Fisher 的Iontorrent 平臺設計測序接頭,但由于反轉錄引物和TS-oligo 都是自行設計,故理論上該方法可以適配任何測序平臺以進行RNA 測序分析,包括Illumina 測序平臺和PacBio 三代測序平臺等,從而突破商業化試劑盒對測序平臺的選擇限制。

圖8 分子條形碼對基因表達量進行校正
本研究所確立的實驗參數包括反轉錄酶、反轉錄反應溫度、TS-oligo 的選擇,以及是否進行cDNA 純化。研究發現目前市場上相關反轉錄酶產品在模板置換活性方面存在差異,其中Clon?tech 公司生產的SMARTscribe 活性最高。在反轉錄反應溫度選擇上,一方面要保證反轉錄酶在高效的溫度下工作,另一方面須同時考慮核酸的動力學特點。在本研究選擇的測試溫度下,50℃時效果較好,可能因為二級結構能更充分地打開,幫助反轉錄酶延伸到末端,從而啟動模板轉換。反轉錄過程中難以避免RT 引物和TS-oligo 形成二聚體,而這種二聚體對于微量樣品文庫制備有嚴重的干擾作用,本研究發現通過純化cDNA 來去除二聚體產物能夠顯著提高建庫效率。
當前主流的RNA-seq 分析基因表達量主要考察測序讀數(即一個基因或轉錄本被測定多少次)[6],然而由于建庫中用到PCR 擴增,容易引起擴增效率偏好,最終產物片段的多少和初始樣品中基因片段的多少不能成正比[7]。分子條形碼是在TS-oligo 上引入一段隨機核苷酸,每個RNA 分子只可能與一個TS-oligo 對應,因此最終測序得到每個基因對應的條形碼數量就可以推算基因的表達量。這種方法理論上會大大降低PCR 偏好性對基因表達量估計的干擾。本研究在模板置換引物上加入分子條形碼設計后,改變了單純用測序讀數來判定基因表達量的做法,而采用分子條形碼的數量來判別基因表達量。初步分析結果顯示,這樣的判定方法計算的基因覆蓋更加均勻,且表達量估計更加準確,這在微量RNA-seq中具有重要意義。首先,這種判讀方法更加準確,可進一步增加數據的可信度;其次,對于極微量的樣品,如血液中來自腫瘤外泌體的RNA 或單細胞樣品來說,需要擴增較多循環數,而僅僅通過測序讀數判讀基因表達量可能會引入較大誤差。加入分子條形碼使得表達量估計偏差減小的同時,還可以適度提高文庫擴增循環數,從而降低文庫制備的門檻,提高RNA 分析的成功率。
本研究針對10 ng RNA 樣品,探索出基于模板轉換、分子條形碼和cDNA 純化的RNA-seq 建庫技術,有望在腫瘤外泌體研究、單細胞測序等極微量核酸研究領域得到應用。該法與目前主流的建庫方案相比,成本低、耗時短、通用性強,建庫分析的成功率高,具有明顯優勢。