999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ABI PGM測序平臺用于細菌基因組de novo測序的評價

2016-01-15 02:02:00黃方亮
生物信息學 2015年2期

ABI PGM測序平臺用于細菌基因組de novo測序的評價

黃方亮

(浙江大學生命科學學院大型儀器平臺,杭州310058)

摘要:為了探索加快細菌基因組研究的方法,利用ABI PGM 測序平臺測定了 1 株單細胞硫還原地桿菌的基因組序列。測序共獲得1.4 Gbp 數據,平均讀長為177 bp。通過多個拼接軟件并采用合適的組裝策略,得到一個完整細菌基因組3.55 Mbp和一條完整質粒序列110 kbp。測定基因組序列與參考基因組kn400序列的相似性達到 94%,參考基因組91%的基因能在測定基因組中找到相似基因。通過本研究表明采用ABI PGM測序平臺結合靈活的拼接策略可快速構建細菌基因組精細圖譜,為進一步的功能注釋及深入的信息分析提供準確的數據,大大加快研究進程。

關鍵詞:PGM測序平臺;細菌基因組測序

中圖分類號:Q75文獻標志碼:A

收稿日期:2015-04-04;修回日期:2015-04-20.

基金項目:國家自然科學

作者簡介:單光宇,男,碩士研究生,研究方向:生物信息學;E-mail: sci@shanguangyu.com.

doi:10.3969/j.issn.1672-5565.2015.02.08

Evaluation of PGM sequencing platform using in bacterial genome de novo sequencing

HUANG Fangliang

(EquipmentandTechnologyServicePlatformofCollegeofLifeSciencesZhejianguniversity,Hangzhou310058,China)

Abstract:In order to speed up bacterial genome exploration, we performed the genome sequencing of Geobacter sulfurreducens using PGM. Totally, 1.4 Gbp raw data were obtained with an average read length of 177 bp. 2 contigs were assembled by multiple software calculations using appropriate assembly strategies. The size of whole obtained genome and plasmid was measured to be 3.55 Mbp and 110 kbp, respectively. The sequenced genome identified 94% of reference genome strain KN400 and 91% genes of KN400 were tested to be orthologous in the sequenced genome. This study proved that the use of ABI PGM sequencing platform with splicing flexible strategy can rapidly build bacteria genome map. By providing accurate data for the functional annotation and in-depth information analysis, it will greatly accelerate research progress.

Keywords:ABI PGM Sequencing Platform; Bacterial Genome de novo Sequencing

隨著測序技術的迅速發展和測序成本的急速降低,細菌全基因組精細測序成為科學家研究目的細菌的基本要求[1]。2005年羅氏454測序儀出現后,一次開機產生上百萬條數據的高通量測序技術大大加快了基因組研究的進程[2],2012年454測序儀發明人Jonathan Rothberg 博士在焦磷酸測序[3]的基礎上,發明了新一代測序儀ABI PGM,它的測序通量更有彈性,能夠使用314、316、318三種芯片,分別出10 M,100 M,1 G測序數據。用半導體檢測技術替代了冷光CCD拍照成像技術檢測DNA信號,測序成本更低,原始數據占用的計算機資源更少[4]。一張芯片上機測序只要3小時。利用ABI PGM 318芯片配合本來用于5500測序儀上的mate pair試劑盒,使ABI PGM測序平臺成為細菌基因組精細測序的強大工具。

本研究中,我們希望快速得到目的菌株完整基因組序列。為此,構建了200 bp短片段文庫和3 KB mate pair文庫,接上不同的接頭,使用PGM測序。得到的數據用CLC Bio Genomics work bench 6.0(CLC Bio, Aarhus, Denmark)軟件拼接,采用合適的拼接策略后,兩周左右就得到完整的目的細菌基因組精細圖譜。

1材料與方法

1.1菌株培養和核酸提取

單細胞硫還原地桿菌菌株由浙大熱能所提供,挑取單克隆菌落,在37 ℃下用改進過的LB液體培養基密閉振蕩培養過夜。取200 mL菌液最高速離心1 min,棄上清,將沉淀轉入研缽,加液氮研磨,研磨充分后加入 1 mL Plant DNAzol ,2 μL 2-ME( β-巰基乙醇)繼續研磨,轉移裂解產物至1.5 mL離心管中。將離心管置65 ℃水浴 30 min。加750 μL氯仿,混合均勻。12 000 rpm,離心5 min。小心取上清(避免吸取中間蛋白層),轉入一新的1.5 mL 管(體積大約有600 μL)。加0.7體積的異丙醇(約420 μL),12 000 rpm,離心10 min。棄上清,加入1 mL 75%乙醇至離心管中,顛倒數次以重懸DNA,直立離心管1 min至DNA團塊沉至管底,傾去或吸除洗滌液。細小的DNA沉淀團塊容易在傾倒洗滌液時丟失,可室溫3 000 rpm,離心3 ~ 5 min,然后傾去或吸除洗滌液。重復清洗1次。最后簡短離心,用槍頭小心吸棄殘留液體。室溫靜置數分鐘(約10 min)使殘余乙醇揮發,注意不要完全晾干DNA。加入適量(100 ~ 200 μL)滅菌雙蒸水或TE緩沖液,使DNA 沉淀溶解。向DNA溶液中加入終濃度為40 μg·mL-1的RNase A,37 ℃孵育 30 min,-20 ℃保存。

1.2基因組測序文庫構建及PGM測序

取200 ng目的細菌基因組DNA,用millipore水稀釋到50 μL體積,放入Biorupt,參數:Power Level:L ,Time ON:0.5 min,Time OFF:0.5 min,Number of 15-min Cycles:3。超聲破碎到250 bp左右,用Ion XpressTMPlus Fragment Library Kit構建200 bp左右測序文庫。取3 μg基因組DNA,用millipore水稀釋到150 μL體積,利用hydroshear核酸片斷化儀打斷到3 KB,參數:Standard Shearing Assembly,SC 13,20cycles。1%凝膠電泳回收純化,使用5500 SOLID MATE-PAIRED LIBRARY KIT構建3 KB mate-pair文庫。兩個文庫接不同的接頭,上PGM測序,PGM測序參照ABI PGM操作手冊。

1.3測序數據de novo拼接

將兩個文庫數據導入CLC Bio Genomics work bench 6.0,用trimed功能去除低質量數據后,以de novo模塊拼接。參數使用如下:word size values 范圍是25~40核苷酸,bubble sizes 選擇 50 bp, 60 bp,70 bp三種,Map reads back to contig(slow):mismatch cost:2,insertion cost:2,deletion cost:3,length fraction:0.5,similarity fraction:0.8。將得到的最理想拼接結果做為參照序列,比對得到的兩個文庫數據,從而填補scaffold序列中的gap,并根據落在兩個不同scaffold上的成對mate-pair數據,確認scaffold間的關系。不同參數條件拼接出來的contigs重新mapping回拼好的scaffold上,消除gap。拼接策略見圖1。

圖1 拼接策略示意圖

注:(a) 利用3 KB mate pair數據確定scaffold間關系; (b) 利用不同參數條件下得到的contig序列,填補scaffold中的gap,得到完整序列。

Notes:(a) Scaffold ordering phase:using 3 KB mate pair data to determine the relationship between scaffolds; (b) Genome finish phase:fill gap by contig mapping.

1.4基因組FINISH

經1.3拼接后,得到成環的基因組序列,根據缺少的gap,設計基于gap的引物。經PCR擴增后,利用一代測序儀3130的數據,補全序列,從而構建完整環狀基因組。

1.5基因預測注釋分析

將基因組數據提交到RAST(Rapid Annotation using Subsystem Technology)[5]網站,得到3 822個預測基因。結合另外幾個原核生物基因預測軟件Glimmer[6],Genemarker[7],FgeneSB[8]校正預測結果。利用RAST網站Compare模塊中的function based功能與其它基因組做功能比較。KEGG模塊看基因組中基因所在pathway信息。并與InterPro[9],COG[10]數據庫比對確認預測基因生化代謝功能。對于非蛋白質編碼基因rRNA和tRNA的預測,分別用RNAmmer[11]和tRNAscanSE[12]確認。

1.6基因組比較分析

選取單細胞硫還原地桿菌生物型菌株kn400[13]做為參考序列,運用NCBI網站的Blast2SEQ軟件比較兩個基因組相似性。根據預測的基因,用RAST網站的compare基于sequence based查找參考基因組中的同源基因。

2結果

2.1測序數據量和基因組拼接

兩個文庫共獲得8.1 M條序列,1.4 Gbp堿基,數據詳情見表1。將數據導入CLC分析軟件,經過trimed后,還有7.8 M條序列可用,序列統計見圖2。經過多次de novo拼接,調整各種參數,最后word size values選35, bubble sizes選擇60 bp,組裝成16個scaffolds,總長3.66 M,N50為492 k,最大長度889 k。將16個scaffolds序列做為參照序列,把兩個文庫的數據mapping上去,找到16個scaffolds間的前后關系,并補上scaffold中的gap。經過多輪的mapping最終將基因組拼接成一個環狀染色體序列3.55 M,并發現一個完整的質粒序列110 KB,基因組G+C含量61%。環狀染色體序列中還有4個不能通過序列拼接確定的gap,用PRIMER3在線軟件設計引物[14],PCR擴增測序后,拼回原來的位置得到一個完整的環狀染色體序列,擴增產物電泳圖見圖3。

表1 200 bp及3 KB mate pair文庫數據統計情況

圖2 序列示意圖

注:(a) 200 bp文庫和3 KB mate pair文庫序列讀長分布; (b) 3 KB mate pair數據在基因組上的實際定位統計,峰值出現在2.1 KB,范圍在1.7 KB~3.1 KB間。

Notes:(a) Read length distribution of the 200 bp library and 3 KB mate pair library; (b) Distance of 3 KB mate pair library data locate in genome, peak appeared in the 2.1 KB, ranging from between 1.7 KB~3.1 KB.

2.2與參考序列比較結果

選擇基因組大小為3.7 M 的kn400做為參考,進行基因組比對,結果顯示兩個基因組序列相似度94%。參考基因組中91%的基因能在測定基因組的預測基因中找到,相似度≥95%的基因占52%,95%>相似度≥30%的基因占39%。

圖3 電泳圖

注:1,2,3,4分別是四個gap PCR產物電泳條帶。

Notes:1~4 is PCR amplification products of 4 gaps.

3討論

目前,得到細菌全基因組序列完整圖譜已經是高質量細菌文章發表的必備條件。而很多時候科學家在高通量測序完成后,得到的是幾十個獨立的scaffolds,要找到它們之間的關系,拼接成環狀完整的基因組,還需要訂購很多的引物,幾個月的時間做PCR擴增,費時費力。采用200 bp文庫加3 KB mate pair文庫,用PGM 318芯片測序后,得到1.4 G原始數據,經過高質量篩選后,余下881 M數據,覆蓋基因組266倍左右,軟件初步拼接得到16個scaffolds。將16個scaffolds做為參考序列,把所有測序數據mapping上去,通過定位在兩個不同scaffolds上的多個成對的mate-pair序列來確定scaffolds間的前后關系,也可以結合軟件SSPACE來輔助確認scaffolds間的關系。確認關系排好順序的scaffolds被拼接到一起,做為參考序列,再做mapping,通過mapping結果可以進一步確認是否正確拼接scaffolds。如此反復,直到拼接成環狀序列。過程中可以結合gap修復軟件Gapfiller[15],SOAPdenovo GapCloser v1.12r6來關閉gaps[16]。可能是因為重復序列的關系,環狀基因組中還是會有4個gap無法修復,最終通過設計引物PCR擴增,3130測序,拼接出完整的基因組數據。拼接完成后還檢測到一個完整的質粒序列。

PGM測序平臺還應用到了另外幾個細菌基因組的研究中,都得到完整的細菌基因組圖譜。但經過實驗發現如果目的細菌中出現多個質粒,且質粒間的序列高度相似時,雖然可以得到完整的基因組數據,卻很難保證得到完整的質粒序列。必須將質粒分離開單獨測序才行。本研究實驗結果證明PGM單次上機成本較低,一天就能完成兩張318芯片測序,一張318芯片數據足夠滿足4 M左右細菌基因組的精細圖拼接。因此采用ABI PGM測序平臺結合合適的拼接軟件,采用靈活的拼接策略可以快速構建細菌基因組精細圖譜,為進一步的基因功能注釋和深入的信息分析提供準確的數據,能夠大大加快細菌基因組研究的進程。

參考文獻(References)

[1]BARBOSA E G, ABURJAILE F F, RAMOS R T, et al. Value of a newly sequenced bacterial genome[J]. World J Biol Chem,2014, 5(2): 161-168.

[2]YANG Y, XIE B, YAN J. Application of next-generation sequencing technology in forensic science[J]. Genomics Proteomics Bioinformatics, 2014, 12(5): 190-197.

[3]RONAGHI M, UHLEN M, NYREN P. A sequencing method based on real-time pyrophosphate[J]. Science, 1998, 281(5375): 363-365.

[4]MERRIMAN B, ROTHBERG J M. Progress in ion torrent semiconductor chip based sequencing[J]. Electrophoresis, 2012, 33(23): 3397-3417.

[5]OVERBEEK R, OLSON R, PUSCH G D, et al. The SEED and the rapid annotation of microbial genomes using subsystems technology (RAST)[J]. Nucleic Acids Res, 2014, 42(Database issue): 206-214.

[6]DELCHER A L, BRATKE K A, POWERS E C, et al. Identifying bacterial genes and endosymbiont DNA with Glimmer[J]. Bioinformatics, 2007, 23(6): 673-679.

[7]HOLLAND M M, PARSON W. GeneMarker(R) HID: A reliable software tool for the analysis of forensic STR data[J]. J. Forensic Sci, 2011, 56(1): 29-35.

[8]VICTOR S, ASAF S. Automatic annotation of microbial genomes and metagenomic sequences in metagenomics and its applications in agriculture[J]. Biomedicine and Environmental Studies, 2011: 61-78.

[9]HUNTER S, JONES P, MITCHELL A, et al. InterPro in 2011: new developments in the family and domain prediction database[J]. Nucleic Acids Res, 2012, 40(Database issue): D306-312.

[10]TATUSOV R L, KOONIN E V, LIPMAN D J. A genomic perspective on protein families[J]. Science, 1997, 278(5338): 631-637.

[11]LAGESEN K, HALLIN P, RODLAND E A, et al. RNAmmer: consistent and rapid annotation of ribosomal RNA genes[J]. Nucleic Acids Res, 2007, 35(9): 3100-3108.

[12]SCHATTNER P, BROOKS A N, LOWE T M. The tRNAscan-SE, snoscan and snoGPS web servers for the detection of tRNAs and snoRNAs[J]. Nucleic Acids Res, 2005, 33(Web Server issue): W686-689.

[13]BUTLER J E, YOUNG N D, AKLUJKAR M, et al. Comparative genomic analysis of Geobacter sulfurreducens KN400, a strain with enhanced capacity for extracellular electron transfer and electricity production[J]. BMC Genomics, 2012, 13: 471.

[14]UNTERGASSER A, CUTCUTACHE I, KORESSAAR T, et al. Primer3-new capabilities and interfaces[J]. Nucleic Acids Res, 2012, 40(15): e115.

[15]NADALIN F, VEZZI F, POLICRITI A. GapFiller: a de novo assembly approach to fill the gap within paired reads[J]. BMC Bioinformatics, 2012, 13 (Suppl 14): S8.

[16]LUO R, LIU B, XIE Y, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler[J]. Gigascience, 2012, 1(1): 18.

*通信作者:盧一鳴,男,軍事醫學科學院助理研究員,研究方向:生物信息學;E-mail: luym@outlook.com.

張成崗,男,研究員,博士生導師,研究方向:生物信息學;E-mail:zhangcg@bmi.ac.cn.

主站蜘蛛池模板: 久久黄色影院| 真实国产精品vr专区| 欧美日韩国产综合视频在线观看 | 国产日本欧美亚洲精品视| 91精品专区| 久久久久免费看成人影片 | 国产精品久久久免费视频| 国产成人免费视频精品一区二区 | 最新国语自产精品视频在| 97久久精品人人做人人爽| 国产精品自在自线免费观看| 欧美午夜视频| 久久国产热| Aⅴ无码专区在线观看| 国产麻豆精品手机在线观看| 狠狠五月天中文字幕| 天堂网国产| 一区二区欧美日韩高清免费| 国产午夜无码专区喷水| 国产在线精品网址你懂的 | 成人午夜在线播放| 三上悠亚精品二区在线观看| 久热中文字幕在线观看| 亚洲欧美激情小说另类| 亚洲va欧美ⅴa国产va影院| 久久视精品| 日韩国产综合精选| 国产成人一区在线播放| 少妇被粗大的猛烈进出免费视频| 天天躁夜夜躁狠狠躁图片| 久久国语对白| 国产成人h在线观看网站站| 91福利免费视频| 色妞www精品视频一级下载| av一区二区三区高清久久| a级毛片免费看| 亚洲丝袜第一页| 99尹人香蕉国产免费天天拍| 日韩av在线直播| 国产91高跟丝袜| 亚洲中文字幕在线一区播放| 欧美午夜在线播放| 日韩AV无码一区| 日韩中文欧美| 国产亚洲欧美在线人成aaaa| 国产主播在线观看| 人人艹人人爽| 天天做天天爱夜夜爽毛片毛片| 69视频国产| 国产成人欧美| 97视频免费在线观看| 国产国语一级毛片| 欧美翘臀一区二区三区| 国内精品久久人妻无码大片高| 精品福利国产| 77777亚洲午夜久久多人| 国产成人综合久久精品尤物| 91福利在线看| 国产网站免费| 黄色网站在线观看无码| 天堂亚洲网| 99热这里只有精品免费国产| 欧美午夜理伦三级在线观看| 日本人妻丰满熟妇区| 国产福利微拍精品一区二区| 91麻豆精品国产91久久久久| 99国产精品国产| 国产精品亚洲综合久久小说| 久久国产黑丝袜视频| 婷婷激情亚洲| 亚洲国产精品人久久电影| 99免费视频观看| 日本精品一在线观看视频| 国产午夜精品鲁丝片| 在线看AV天堂| 亚洲欧美在线精品一区二区| a级高清毛片| 亚洲第一在线播放| 国产清纯在线一区二区WWW| 亚洲第七页| 三级欧美在线| 综合亚洲网|