ABI PGM測序平臺用于細菌基因組de novo測序的評價

2016-01-15 02:02:00黃方亮

生物信息學 2015年2期

黃方亮

(浙江大學生命科學學院大型儀器平臺,杭州310058)

摘要：為了探索加快細菌基因組研究的方法，利用ABI PGM 測序平臺測定了 1 株單細胞硫還原地桿菌的基因組序列。測序共獲得1.4 Gbp 數據，平均讀長為177 bp。通過多個拼接軟件并采用合適的組裝策略，得到一個完整細菌基因組3.55 Mbp和一條完整質粒序列110 kbp。測定基因組序列與參考基因組kn400序列的相似性達到 94%，參考基因組91%的基因能在測定基因組中找到相似基因。通過本研究表明采用ABI PGM測序平臺結合靈活的拼接策略可快速構建細菌基因組精細圖譜，為進一步的功能注釋及深入的信息分析提供準確的數據，大大加快研究進程。

關鍵詞：PGM測序平臺；細菌基因組測序

中圖分類號：Q75文獻標志碼：A

收稿日期：2015-04-04;修回日期：2015-04-20.

基金項目：國家自然科學

作者簡介：單光宇，男，碩士研究生，研究方向：生物信息學；E-mail: sci@shanguangyu.com.

doi:10.3969/j.issn.1672-5565.2015.02.08

Evaluation of PGM sequencing platform using in bacterial genome de novo sequencing

HUANG Fangliang

(EquipmentandTechnologyServicePlatformofCollegeofLifeSciencesZhejianguniversity，Hangzhou310058,China)

Abstract：In order to speed up bacterial genome exploration, we performed the genome sequencing of Geobacter sulfurreducens using PGM. Totally, 1.4 Gbp raw data were obtained with an average read length of 177 bp. 2 contigs were assembled by multiple software calculations using appropriate assembly strategies. The size of whole obtained genome and plasmid was measured to be 3.55 Mbp and 110 kbp, respectively. The sequenced genome identified 94% of reference genome strain KN400 and 91% genes of KN400 were tested to be orthologous in the sequenced genome. This study proved that the use of ABI PGM sequencing platform with splicing flexible strategy can rapidly build bacteria genome map. By providing accurate data for the functional annotation and in-depth information analysis, it will greatly accelerate research progress.

Keywords：ABI PGM Sequencing Platform; Bacterial Genome de novo Sequencing

隨著測序技術的迅速發展和測序成本的急速降低，細菌全基因組精細測序成為科學家研究目的細菌的基本要求[1]。2005年羅氏454測序儀出現后，一次開機產生上百萬條數據的高通量測序技術大大加快了基因組研究的進程[2]，2012年454測序儀發明人Jonathan Rothberg 博士在焦磷酸測序[3]的基礎上，發明了新一代測序儀ABI PGM，它的測序通量更有彈性，能夠使用314、316、318三種芯片，分別出10 M，100 M，1 G測序數據。用半導體檢測技術替代了冷光CCD拍照成像技術檢測DNA信號，測序成本更低，原始數據占用的計算機資源更少[4]。一張芯片上機測序只要3小時。利用ABI PGM 318芯片配合本來用于5500測序儀上的mate pair試劑盒，使ABI PGM測序平臺成為細菌基因組精細測序的強大工具。

本研究中，我們希望快速得到目的菌株完整基因組序列。為此，構建了200 bp短片段文庫和3 KB mate pair文庫，接上不同的接頭，使用PGM測序。得到的數據用CLC Bio Genomics work bench 6.0(CLC Bio, Aarhus, Denmark)軟件拼接，采用合適的拼接策略后，兩周左右就得到完整的目的細菌基因組精細圖譜。

1材料與方法

1.1菌株培養和核酸提取

單細胞硫還原地桿菌菌株由浙大熱能所提供，挑取單克隆菌落,在37 ℃下用改進過的LB液體培養基密閉振蕩培養過夜。取200 mL菌液最高速離心1 min，棄上清，將沉淀轉入研缽，加液氮研磨，研磨充分后加入 1 mL Plant DNAzol ，2 μL 2-ME( β-巰基乙醇)繼續研磨，轉移裂解產物至1.5 mL離心管中。將離心管置65 ℃水浴 30 min。加750 μL氯仿，混合均勻。12 000 rpm，離心5 min。小心取上清(避免吸取中間蛋白層)，轉入一新的1.5 mL 管(體積大約有600 μL)。加0.7體積的異丙醇(約420 μL)，12 000 rpm,離心10 min。棄上清，加入1 mL 75%乙醇至離心管中，顛倒數次以重懸DNA，直立離心管1 min至DNA團塊沉至管底，傾去或吸除洗滌液。細小的DNA沉淀團塊容易在傾倒洗滌液時丟失，可室溫3 000 rpm，離心3 ～ 5 min，然后傾去或吸除洗滌液。重復清洗1次。最后簡短離心，用槍頭小心吸棄殘留液體。室溫靜置數分鐘(約10 min)使殘余乙醇揮發，注意不要完全晾干DNA。加入適量(100 ～ 200 μL)滅菌雙蒸水或TE緩沖液，使DNA 沉淀溶解。向DNA溶液中加入終濃度為40 μg·mL-1的RNase A，37 ℃孵育 30 min，-20 ℃保存。

1.2基因組測序文庫構建及PGM測序

取200 ng目的細菌基因組DNA，用millipore水稀釋到50 μL體積，放入Biorupt，參數：Power Level:L ，Time ON:0.5 min，Time OFF:0.5 min，Number of 15-min Cycles:3。超聲破碎到250 bp左右，用Ion XpressTMPlus Fragment Library Kit構建200 bp左右測序文庫。取3 μg基因組DNA，用millipore水稀釋到150 μL體積，利用hydroshear核酸片斷化儀打斷到3 KB，參數：Standard Shearing Assembly，SC 13，20cycles。1%凝膠電泳回收純化，使用5500 SOLID MATE-PAIRED LIBRARY KIT構建3 KB mate-pair文庫。兩個文庫接不同的接頭，上PGM測序，PGM測序參照ABI PGM操作手冊。

1.3測序數據de novo拼接

將兩個文庫數據導入CLC Bio Genomics work bench 6.0，用trimed功能去除低質量數據后，以de novo模塊拼接。參數使用如下：word size values 范圍是25~40核苷酸，bubble sizes 選擇 50 bp， 60 bp，70 bp三種，Map reads back to contig(slow)：mismatch cost：2，insertion cost：2，deletion cost：3，length fraction：0.5，similarity fraction：0.8。將得到的最理想拼接結果做為參照序列，比對得到的兩個文庫數據，從而填補scaffold序列中的gap，并根據落在兩個不同scaffold上的成對mate-pair數據，確認scaffold間的關系。不同參數條件拼接出來的contigs重新mapping回拼好的scaffold上，消除gap。拼接策略見圖1。

圖1　拼接策略示意圖

注：(a) 利用3 KB mate pair數據確定scaffold間關系; (b) 利用不同參數條件下得到的contig序列，填補scaffold中的gap，得到完整序列。

Notes:(a) Scaffold ordering phase:using 3 KB mate pair data to determine the relationship between scaffolds; (b) Genome finish phase:fill gap by contig mapping.

1.4基因組FINISH

經1.3拼接后，得到成環的基因組序列,根據缺少的gap，設計基于gap的引物。經PCR擴增后，利用一代測序儀3130的數據，補全序列，從而構建完整環狀基因組。

1.5基因預測注釋分析

將基因組數據提交到RAST(Rapid Annotation using Subsystem Technology)[5]網站，得到3 822個預測基因。結合另外幾個原核生物基因預測軟件Glimmer[6]，Genemarker[7]，FgeneSB[8]校正預測結果。利用RAST網站Compare模塊中的function based功能與其它基因組做功能比較。KEGG模塊看基因組中基因所在pathway信息。并與InterPro[9]，COG[10]數據庫比對確認預測基因生化代謝功能。對于非蛋白質編碼基因rRNA和tRNA的預測，分別用RNAmmer[11]和tRNAscanSE[12]確認。

1.6基因組比較分析

選取單細胞硫還原地桿菌生物型菌株kn400[13]做為參考序列，運用NCBI網站的Blast2SEQ軟件比較兩個基因組相似性。根據預測的基因，用RAST網站的compare基于sequence based查找參考基因組中的同源基因。

2結果

2.1測序數據量和基因組拼接

兩個文庫共獲得8.1 M條序列，1.4 Gbp堿基，數據詳情見表1。將數據導入CLC分析軟件，經過trimed后，還有7.8 M條序列可用，序列統計見圖2。經過多次de novo拼接，調整各種參數,最后word size values選35, bubble sizes選擇60 bp，組裝成16個scaffolds，總長3.66 M，N50為492 k，最大長度889 k。將16個scaffolds序列做為參照序列，把兩個文庫的數據mapping上去，找到16個scaffolds間的前后關系，并補上scaffold中的gap。經過多輪的mapping最終將基因組拼接成一個環狀染色體序列3.55 M，并發現一個完整的質粒序列110 KB，基因組G+C含量61%。環狀染色體序列中還有4個不能通過序列拼接確定的gap，用PRIMER3在線軟件設計引物[14]，PCR擴增測序后，拼回原來的位置得到一個完整的環狀染色體序列，擴增產物電泳圖見圖3。

表1　200 bp及3 KB mate pair文庫數據統計情況

圖2　序列示意圖

注：(a) 200 bp文庫和3 KB mate pair文庫序列讀長分布; (b) 3 KB mate pair數據在基因組上的實際定位統計，峰值出現在2.1 KB,范圍在1.7 KB~3.1 KB間。

Notes:(a) Read length distribution of the 200 bp library and 3 KB mate pair library; (b) Distance of 3 KB mate pair library data locate in genome, peak appeared in the 2.1 KB, ranging from between 1.7 KB~3.1 KB.

2.2與參考序列比較結果

選擇基因組大小為3.7 M 的kn400做為參考，進行基因組比對，結果顯示兩個基因組序列相似度94%。參考基因組中91%的基因能在測定基因組的預測基因中找到,相似度≥95%的基因占52%，95%>相似度≥30%的基因占39%。

圖3　電泳圖

注:1,2,3,4分別是四個gap PCR產物電泳條帶。

Notes:1~4 is PCR amplification products of 4 gaps.

3討論

目前，得到細菌全基因組序列完整圖譜已經是高質量細菌文章發表的必備條件。而很多時候科學家在高通量測序完成后，得到的是幾十個獨立的scaffolds，要找到它們之間的關系，拼接成環狀完整的基因組，還需要訂購很多的引物，幾個月的時間做PCR擴增，費時費力。采用200 bp文庫加3 KB mate pair文庫，用PGM 318芯片測序后，得到1.4 G原始數據，經過高質量篩選后，余下881 M數據，覆蓋基因組266倍左右，軟件初步拼接得到16個scaffolds。將16個scaffolds做為參考序列，把所有測序數據mapping上去，通過定位在兩個不同scaffolds上的多個成對的mate-pair序列來確定scaffolds間的前后關系，也可以結合軟件SSPACE來輔助確認scaffolds間的關系。確認關系排好順序的scaffolds被拼接到一起，做為參考序列，再做mapping，通過mapping結果可以進一步確認是否正確拼接scaffolds。如此反復，直到拼接成環狀序列。過程中可以結合gap修復軟件Gapfiller[15]，SOAPdenovo GapCloser v1.12r6來關閉gaps[16]。可能是因為重復序列的關系，環狀基因組中還是會有4個gap無法修復，最終通過設計引物PCR擴增，3130測序，拼接出完整的基因組數據。拼接完成后還檢測到一個完整的質粒序列。

PGM測序平臺還應用到了另外幾個細菌基因組的研究中，都得到完整的細菌基因組圖譜。但經過實驗發現如果目的細菌中出現多個質粒，且質粒間的序列高度相似時，雖然可以得到完整的基因組數據，卻很難保證得到完整的質粒序列。必須將質粒分離開單獨測序才行。本研究實驗結果證明PGM單次上機成本較低，一天就能完成兩張318芯片測序，一張318芯片數據足夠滿足4 M左右細菌基因組的精細圖拼接。因此采用ABI PGM測序平臺結合合適的拼接軟件，采用靈活的拼接策略可以快速構建細菌基因組精細圖譜，為進一步的基因功能注釋和深入的信息分析提供準確的數據，能夠大大加快細菌基因組研究的進程。

參考文獻(References)

[1]BARBOSA E G, ABURJAILE F F, RAMOS R T, et al. Value of a newly sequenced bacterial genome[J]. World J Biol Chem,2014, 5(2): 161-168.

[2]YANG Y, XIE B, YAN J. Application of next-generation sequencing technology in forensic science[J]. Genomics Proteomics Bioinformatics, 2014, 12(5): 190-197.

[3]RONAGHI M, UHLEN M, NYREN P. A sequencing method based on real-time pyrophosphate[J]. Science, 1998, 281(5375): 363-365.

[4]MERRIMAN B, ROTHBERG J M. Progress in ion torrent semiconductor chip based sequencing[J]. Electrophoresis, 2012, 33(23): 3397-3417.

[5]OVERBEEK R, OLSON R, PUSCH G D, et al. The SEED and the rapid annotation of microbial genomes using subsystems technology (RAST)[J]. Nucleic Acids Res, 2014, 42(Database issue): 206-214.

[6]DELCHER A L, BRATKE K A, POWERS E C, et al. Identifying bacterial genes and endosymbiont DNA with Glimmer[J]. Bioinformatics, 2007, 23(6): 673-679.

[7]HOLLAND M M, PARSON W. GeneMarker(R) HID: A reliable software tool for the analysis of forensic STR data[J]. J. Forensic Sci, 2011, 56(1): 29-35.

[8]VICTOR S, ASAF S. Automatic annotation of microbial genomes and metagenomic sequences in metagenomics and its applications in agriculture[J]. Biomedicine and Environmental Studies, 2011: 61-78.

[9]HUNTER S, JONES P, MITCHELL A, et al. InterPro in 2011: new developments in the family and domain prediction database[J]. Nucleic Acids Res, 2012, 40(Database issue): D306-312.

[10]TATUSOV R L, KOONIN E V, LIPMAN D J. A genomic perspective on protein families[J]. Science, 1997, 278(5338): 631-637.

[11]LAGESEN K, HALLIN P, RODLAND E A, et al. RNAmmer: consistent and rapid annotation of ribosomal RNA genes[J]. Nucleic Acids Res, 2007, 35(9): 3100-3108.

[12]SCHATTNER P, BROOKS A N, LOWE T M. The tRNAscan-SE, snoscan and snoGPS web servers for the detection of tRNAs and snoRNAs[J]. Nucleic Acids Res, 2005, 33(Web Server issue): W686-689.

[13]BUTLER J E, YOUNG N D, AKLUJKAR M, et al. Comparative genomic analysis of Geobacter sulfurreducens KN400, a strain with enhanced capacity for extracellular electron transfer and electricity production[J]. BMC Genomics, 2012, 13: 471.

[14]UNTERGASSER A, CUTCUTACHE I, KORESSAAR T, et al. Primer3-new capabilities and interfaces[J]. Nucleic Acids Res, 2012, 40(15): e115.

[15]NADALIN F, VEZZI F, POLICRITI A. GapFiller: a de novo assembly approach to fill the gap within paired reads[J]. BMC Bioinformatics, 2012, 13 (Suppl 14): S8.

[16]LUO R, LIU B, XIE Y, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler[J]. Gigascience, 2012, 1(1): 18.

*通信作者：盧一鳴，男，軍事醫學科學院助理研究員，研究方向：生物信息學;E-mail: luym@outlook.com.

張成崗，男，研究員，博士生導師，研究方向：生物信息學；E-mail:zhangcg@bmi.ac.cn.

生物信息學2015年2期

生物信息學的其它文章: 高維蛋白質波譜癌癥數據特征提取; 利用位點特異性打分矩陣對大腸桿菌啟動子的預測; 基于氨基酸約化和統計特征的蛋白質亞細胞定位預測; 大鼠肝臟半乳糖凝聚素-3 cDNA分子多樣性分析; 基于微信公眾平臺的文獻定制服務; 基于EST數據的水稻基因表達大規模初步分析