999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一站式全基因組和外顯子組測(cè)序數(shù)據(jù)自動(dòng)分析軟件(SeqMule)

2016-11-24 08:28:26李一佳
生物信息學(xué) 2016年3期
關(guān)鍵詞:分析

李 鑫,李 凱,李一佳*,馬 磊

(1.云南舜喜再生醫(yī)學(xué)工程有限公司,昆明 650000;2.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,昆明 650500)

?

一站式全基因組和外顯子組測(cè)序數(shù)據(jù)自動(dòng)分析軟件(SeqMule)

李 鑫1,李 凱2,李一佳1*,馬 磊2

(1.云南舜喜再生醫(yī)學(xué)工程有限公司,昆明 650000;2.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,昆明 650500)

SeqMule可根據(jù)調(diào)用的人類基因組和外顯子組數(shù)據(jù)自動(dòng)調(diào)節(jié)變量,對(duì)所有測(cè)序數(shù)據(jù)的單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)進(jìn)行分析和注釋。目的:通過對(duì)兩名痛風(fēng)患者的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,詳細(xì)地為生物信息學(xué)研究人員介紹了SeqMule軟件,以期為全基因組和外顯子組測(cè)序數(shù)據(jù)提供一站式的分析途徑。方法:基于SeqMule內(nèi)置的BWA(Burrows-Wheeler Aligner)、GATK(The Genome Analysis Toolkit)、SAMtools、Freebayes比對(duì)和分析工具,以兩名痛風(fēng)患者的DNA測(cè)序數(shù)據(jù)分析為例,本文詳細(xì)地論述了SeqMule的特點(diǎn)及操作,并對(duì)兩名患者的外顯子測(cè)序數(shù)據(jù)進(jìn)行了自動(dòng)化比對(duì)與SNP分析。發(fā)現(xiàn)SeqMule優(yōu)化了很多分析軟件存在的一些問題,可以對(duì)外顯子組和全基因組測(cè)序數(shù)據(jù)實(shí)現(xiàn)全面、靈活、高效地自動(dòng)化分析,能更好地分析高通量測(cè)序數(shù)據(jù),最終提升數(shù)據(jù)分析的一致性和準(zhǔn)確性。

基因;測(cè)序;SeqMule;外顯子;SNP

隨著人類基因組計(jì)劃的勝利完成和后基因組時(shí)代的來臨[1],DNA測(cè)序技術(shù)已成為人類探索生命秘密的重要手段之一, 對(duì)生物、生命科學(xué)、醫(yī)學(xué)等領(lǐng)域的技術(shù)發(fā)展起到了巨大的推動(dòng)作用[2]。經(jīng)過三十多年的努力,DNA測(cè)序技術(shù)已經(jīng)取得巨大的進(jìn)展,在第一代和第二代測(cè)序技術(shù)的基礎(chǔ)上,以單分子測(cè)序?yàn)樘攸c(diǎn)的第三代測(cè)序技術(shù)已經(jīng)誕生。第三代測(cè)序技術(shù)雖然解決了第二代測(cè)序技術(shù)讀長短、速度慢等缺點(diǎn),但由于其成本和錯(cuò)誤率偏高、通量低,目前最常用的依然是以Illumina公司的Solexa技術(shù)[3]為標(biāo)志的第二代測(cè)序技術(shù)。

第二代測(cè)序技術(shù)擁有相當(dāng)高的測(cè)序通量,覆蓋度高。得到的reads不僅長度短,數(shù)量又極為巨大,這給序列拼接帶來了巨大的挑戰(zhàn),而基因組測(cè)序中的一個(gè)關(guān)鍵的步驟就是序列拼接[4]。拼接后,還需要對(duì)所有的SNP進(jìn)行分析和注釋。

針對(duì)SNP的分析,目前有一些基于云端的高通量測(cè)序數(shù)據(jù)分析平臺(tái),比如Galaxy[5]。Galaxy等現(xiàn)行的生物信息學(xué)平臺(tái),使大量的生物信息學(xué)工具易于操作,用戶上傳數(shù)據(jù)后可立即開始分析。但是,當(dāng)用戶擁有超大數(shù)據(jù)量時(shí),存儲(chǔ)限制了數(shù)據(jù)的傳輸速度,較長的工作排隊(duì)時(shí)間使其變得不切實(shí)際。除了平臺(tái)解決方案,還有其他獨(dú)立途徑可進(jìn)行SNP的多樣分析。例如SeqMule[6]、HugeSeq[7]、Ngs_backbone[8]和Bcbio-nextgen[9]四款集成分析軟件,可以運(yùn)用自帶的工具對(duì)SNP進(jìn)行比對(duì)、注釋、分析等。但是,由于部分軟件集成某些專用工具,比如Bcbio-nextgen軟件專有的比對(duì)工具NovoAlign[10],不是對(duì)所有研究人員免費(fèi)開放。四款集成分析軟件相比,SeqMule軟件結(jié)合了5種SNP比對(duì)工具和5種SNP分析工具,其余三款分析軟件只有一種或兩種SNP比對(duì)工具和SNP分析工具。除此之外,只有SeqMule軟件擁有可選且開源的SNP比對(duì)工具,具有更高的靈活性和可用性。

SeqMule軟件是以人類遺傳病研究為背景,專門針對(duì)外顯子組或全基因組序列分析設(shè)計(jì)的。它采用高度靈活的各種調(diào)用格式對(duì)SNP進(jìn)行完全自動(dòng)化的分析和注釋,支持Sun Grid Engine并行處理,可以進(jìn)行測(cè)序質(zhì)量的檢測(cè)、孟德爾錯(cuò)誤率檢測(cè)、一致性評(píng)估,生成最終的HTML報(bào)告。相比之下,SeqMule是上述解決方案中較好的一款軟件,推薦生物信息學(xué)人員使用。

1 SeqMule軟件

1.1 基本介紹

對(duì)測(cè)序數(shù)據(jù)進(jìn)行分析的時(shí)候,除了測(cè)序平臺(tái)的差異[11],仍要考慮算法間的差異。例如,5種生物信息學(xué)算法(SOAP、BWA-GATK、BWA-SNVer、GNUMAP、BWA-SAMtools)分析SNV(Single Nucleotide Variants)的一致性只有57.4%,而每種計(jì)算途徑間的變異數(shù)為0.5%~5.1%[12]。在不同的測(cè)序錯(cuò)誤率和indel標(biāo)記下,校準(zhǔn)也存在差異[13]。目前,公開發(fā)表的計(jì)算方法幾乎沒有提供兩種或更多的比對(duì)和SNP分析方法。

分析軟件的安裝和配置是首要問題,而且這個(gè)問題的重要性已經(jīng)被許多試圖去使用它的人所證實(shí),像Bioconductor、Bioperl和Web-based三款軟件[14-16]。理論上,來自一個(gè)程序的輸出結(jié)果很難被輸入另一個(gè)和它類似的程序中。例如,GATK不能接受來自SOAP2的輸出。此外,軟件的不同步更新,可能導(dǎo)致軟件的不兼容。虛擬機(jī)和虛擬化技術(shù)為用戶解決了該問題[17-19],然而,虛擬機(jī)系統(tǒng)不可避免地限制了客戶系統(tǒng)可用的計(jì)算資源,減少了軟件工具的靈活性。因此,對(duì)于沒有計(jì)算機(jī)背景的普通用戶來說,部署軟件成為了一個(gè)很大的難題。針對(duì)普通用戶,迫切需要一種易于執(zhí)行和整合多種工具的分析途徑。

在不影響易用性、高效性和重復(fù)性的前提下,由南加州大學(xué)的王凱實(shí)驗(yàn)室開發(fā)了一個(gè)全能的解決方案——SeqMule,能夠執(zhí)行一系列自動(dòng)化的命令來分析高通量測(cè)序數(shù)據(jù)。它結(jié)合了5種比對(duì)工具:BWA(包括BWA-backtrack和BWA-MEM)、Bowtie、Bowtie2、SOAP2、SNAP[20-24],5種不同SNP分析工具:GATK(包括GATKLite 和version 3)、SAMtools、VarScan 2、Freebayes、SOAPsnp[25-28]和一些配件程序:FastQC、Picard、tabix、VCFtools 30,而且可以通過修飾配置文件來獲得多種組合。通過不同工具結(jié)合而設(shè)置變量形成交叉,從而獲得更高的準(zhǔn)確性、敏感性和特異性。SeqMule能提供建立在不同調(diào)用者之上的并行功能,還能夠更好地分析高通量測(cè)序數(shù)據(jù),提升分析的一致性和準(zhǔn)確性。針對(duì)目前主流服務(wù)器(CPU:2 Intel Xeon X5650, 內(nèi)存48GB),只需24小時(shí),SeqMule可從設(shè)置好的全基因組數(shù)據(jù)生成帶注釋的VCF文件。

SeqMule的工作流程如圖1所示,分析過程中有很多可利用的工具。其中,先使用FastQC進(jìn)行質(zhì)量控制,再采用BWA-backtrack、BWA-MEM、Bowtie等工具進(jìn)行初始校準(zhǔn),校準(zhǔn)后可使用Picard Tools對(duì)質(zhì)量控制進(jìn)行評(píng)估,再使用GATK、SAMtools、SOAPsnp、VarScan工具進(jìn)行突變調(diào)用和過濾,最后采用GATK CombineVariants交叉或合并。

1.2 SeqMule安裝方法

SeqMule可在如下網(wǎng)址下載:http://seqmule.openbioinformatics.org.

1)筆者使用的是CentOS 7系統(tǒng),安裝SeqMule之前要先安裝必要的軟件和環(huán)境,相關(guān)命令如下:

sudo yum install-y gcc gcc-c++ make cmake ncurses-devel ncurses R unzip automake autoconf git-core gzip tar

圖1 SeqMule的工作流程圖Fig. 1 Scheme of SeqMule workflow

2)下載SeqMule程序 git clone https://github.com/WGLab/SeqMule.git,如果Https不支持也可以用git模式git clone git://github.com/WGLab/SeqMule.git。

3)進(jìn)入SeqMule文件夾,利用./Build freshinstall進(jìn)行初始安裝。

4)安裝一次后,利用./Build installexes安裝missing的部分。

5)由于GATK要單獨(dú)安裝,利用./Build gatk看安裝命令,核心就是把GATK的jar文件拷貝到制定文件夾。

6)把環(huán)境變量寫到用戶的bashrc里面,然后用source命令更新以下環(huán)境變量,這樣Seqmule就可以不制定他的絕對(duì)位置來使用了,否則會(huì)出現(xiàn)command找不到的情況。

echo ’export PATH=$PATH:absolute_path_to

_seqmule/bin’ >> ~/.bashrc source ~/.bashrc

7)下載Seqmule要使用到的Database,seqmule download -down hg19all。

此部分利用terminal下載很緩慢,建議使用專用下載工具下載,大概有40 G左右。將下載的文件放到SeqMule的database文件里,再利用SeqMule download-down hg19all命令進(jìn)行解壓縮,然后把文件再按名稱放到指定文件夾。另外,筆者已將下載好的database文件夾都放置到百度云,讀者可以通過shunxirm@163.com獲取下載秘鑰。

1.3 SeqMule軟件的運(yùn)行

SeqMule軟件運(yùn)行在Linux系統(tǒng)平臺(tái)下,命令簡(jiǎn)單且易于掌握。根據(jù)測(cè)序方法不同,SeqMule的分析方式也不同。SeqMule主要包括三種分析方式,分別是:典型的外顯子組分析、快速轉(zhuǎn)換的全基因組分析和基于家系的三人外顯子組分析。此外,SeqMule軟件可以一次性分析多個(gè)樣本,大大簡(jiǎn)化了生物信息學(xué)研究人員的操作。

1.3.1 SeqMule軟件的使用命令

在存放需要分析的FASTQ格式文件的文件夾下,打開系統(tǒng)終端,輸入以下命令運(yùn)行SeqMule:

seqmule pipeline-a normal_R1.fastq.gz-b normal_R2.fastq.gz-prefix example-N 2-capture default-threads 4-e

其中,normal_R1.fastq.gz和normal_R2.fastq.gz是DNA經(jīng)過測(cè)序儀測(cè)序后產(chǎn)生的FASTQ格式的壓縮文件,分別是一條DNA上兩條鏈的基因數(shù)據(jù)。參數(shù)“-prefix example”是告訴SeqMule軟件你的樣本名稱是example;“-capture default”是讓SeqMule軟件使用默認(rèn)的區(qū)域定義文件——hg19外顯子區(qū),對(duì)應(yīng)文件可從安捷倫SureSelect工具包中下載;“-threads 4”是令SeqMule軟件在運(yùn)行時(shí)使用該計(jì)算機(jī)的四個(gè)線程;“-e”的意思是這個(gè)數(shù)據(jù)集是外顯子組數(shù)據(jù)或者捕獲的測(cè)序數(shù)據(jù),而不是全基因組數(shù)據(jù)。

1.3.2 典型的外顯子組分析命令

通過測(cè)序儀對(duì)外顯子組測(cè)序后,得到四個(gè)FASTQ文件的壓縮文檔,在終端下運(yùn)行以下命令進(jìn)行典型外顯子組分析:

seqmule pipeline-a sample_lane1_R1.fq.gz, sample_lane2_R1.fq.gz-b sample_lane1_R2.fq.gz, sample_lane2_R2.fq.gz-capture seqmule/database/hg19-

nimblegen/nexterarapidcapture_exome_targetedregions_v1.2.bed-m-e-advanced seqmule/misc/predefined_con-

fig/bwa_gatk_HaplotypeCaller.config-quick-t 4-prefix mySample

命令中“-advanced seqmule/misc/predefined_config

/bwa_gatk_HaplotypeCaller.config”表示使用BWA和GATK這兩個(gè)可選工具包進(jìn)行SNP的比對(duì)和分析。參數(shù)中-quick是使軟件使用更多的計(jì)算機(jī)內(nèi)存來進(jìn)行快速分析;“-t 4”表示分析時(shí)使用計(jì)算機(jī)的四個(gè)CPU;“-m”是合并兩個(gè)數(shù)據(jù)集。

1.3.3 快速轉(zhuǎn)換的全基因組分析命令

通過測(cè)序儀對(duì)全基因組測(cè)序后,得到兩個(gè)FASTQ文件的壓縮文檔,在終端下運(yùn)行以下命令進(jìn)行快速轉(zhuǎn)換的全基因組分析:

seqmule pipeline-a sample_R1.fq.gz-b sample_R2.fq.gz-advanced seqmule/misc/predefined_c-onfig/snap_freebayes.config-quick-t 12-g-prefix mySample

命令中“-advanced seqmule/misc/predefined_config/snap_freebayes.config”表示使用SNAP和FreeBayes這兩個(gè)可選工具包進(jìn)行全基因組SNP的比對(duì)和分析。參數(shù)“-g”表示全基因組分析;“-t 12”是令SeqMule使用計(jì)算機(jī)的12個(gè)CPU進(jìn)行比對(duì)分析,因?yàn)镾NAP工具使用時(shí)非常消耗內(nèi)存,因此采用多個(gè)CPU來提高軟件運(yùn)行速度。

1.3.4 三人外顯子組分析命令

對(duì)同一個(gè)家庭的三個(gè)人進(jìn)行外顯子組測(cè)序后,使用SeqMule軟件對(duì)三人的測(cè)序數(shù)據(jù)進(jìn)行分析來發(fā)現(xiàn)致病基因,命令如下:

seqmule pipeline-a fa_R1.fq.gz,mo_R1.fq.gz,son

_R1.fq.gz-b fa_R2.fq.gz,mo_R2.fq.gz,son_R2.fq.gz-ms-e-q-t 4-prefix father,mother,son-capture default-sge "qsub-V-cwd-pe smp XCPUX"

命令中“-sge "qsub-V-cwd-pe smp XCPUX””表示使用SG工具包來進(jìn)行分析。參數(shù)中“-ms”表示針對(duì)多樣本的基因突變識(shí)別,可以更加準(zhǔn)確地分析來自同一家庭的三個(gè)人的外顯子組數(shù)據(jù)。

2 使用SeqMule軟件進(jìn)行SNP分析

2.1 數(shù)據(jù)準(zhǔn)備

患者數(shù)據(jù)來自舜喜再生醫(yī)學(xué)工程有限公司。昆明醫(yī)科大學(xué)第一附屬醫(yī)院的兩名痛風(fēng)患者在云南舜喜再生醫(yī)學(xué)工程有限公司抽血并提取DNA后,使用Illumina公司的Hiseq3000測(cè)序儀進(jìn)行外顯子組測(cè)序。測(cè)序后得到FASTQ格式文件的壓縮文件,作為實(shí)驗(yàn)前準(zhǔn)備數(shù)據(jù)。使用SeqMule軟件進(jìn)行基因的比對(duì)、拼接并進(jìn)行SNP分析。

2.2 分析報(bào)告

SeqMule分析完成后,生成HTML格式的詳細(xì)分析報(bào)告(SeqMule Report)。分析報(bào)告網(wǎng)頁上有分析總結(jié)、樣本分析報(bào)告、分析途徑、分析參數(shù)和幫助文件按鈕,點(diǎn)開后即可查看詳細(xì)信息。

樣本分析結(jié)果展示了統(tǒng)計(jì)資料、SNV與NON-SNV韋恩圖和覆蓋度圖。統(tǒng)計(jì)資料里包含基因校準(zhǔn)數(shù)據(jù)表、基因覆蓋率統(tǒng)計(jì)數(shù)據(jù)表和基因突變數(shù)據(jù)表。其中,表1是SeqMule軟件對(duì)該患者的基因數(shù)據(jù)進(jìn)行初始校準(zhǔn)得到的校準(zhǔn)統(tǒng)計(jì)表,包含通過的質(zhì)量控制讀長數(shù)、失敗的讀長數(shù)、比對(duì)的讀長數(shù)及和數(shù)據(jù)庫匹配上的讀長數(shù)等數(shù)據(jù)。表2是該患者的基因覆蓋率度統(tǒng)計(jì)數(shù)據(jù)表,包括總的長度、目標(biāo)區(qū)域的平均覆蓋度等數(shù)據(jù)。表3是該患者的基因突變數(shù)據(jù)表,包含該患者的所有突變位點(diǎn)數(shù)、SNV突變位點(diǎn)數(shù)和插入/缺失位點(diǎn)數(shù)等數(shù)據(jù)。

表1 患者1的校準(zhǔn)統(tǒng)計(jì)表

表2 患者1的覆蓋率統(tǒng)計(jì)數(shù)據(jù)表

表3 患者1的突變數(shù)據(jù)表

SNV與NON-SNV韋恩圖是SeqMule結(jié)合3種不同的SNP分析工具得出的SNV和NON-SNV突變重疊圖。圖2是兩名患者的SNV與NON-SNV韋恩圖。從圖中可以得出,基于3種分析工具單獨(dú)分析出的基因突變結(jié)果、兩兩之間分析出的相同突變基因的結(jié)果以及三種分析工具分析出的相同突變基因的個(gè)數(shù)。患者1的數(shù)據(jù)中,GATK、SAMtools和freebayes三種分析工具的分析結(jié)果中都出現(xiàn)SNV突變的位點(diǎn)有22 011個(gè),NON-SNV突變的位點(diǎn)有2 291個(gè)。患者2的數(shù)據(jù)中,三種分析工具的分析結(jié)果中都出現(xiàn)SNV突變的位點(diǎn)有29 111個(gè),NON-SNV突變的位點(diǎn)有2 269個(gè)。

圖2 兩名患者的SNV與NON-SNV韋恩圖Fig. 2 Venn Diagram (SNV and NON-SNV) of two patients

3 結(jié) 語

從實(shí)驗(yàn)結(jié)果可以看出,SeqMule可對(duì)外顯子組測(cè)序數(shù)據(jù)實(shí)現(xiàn)全面、簡(jiǎn)易、靈活、高效的一站式自動(dòng)化分析。分析結(jié)果采用HTML報(bào)告的方式,展示出詳細(xì)、美觀的圖表,簡(jiǎn)單易讀。除了外顯子組測(cè)序,SeqMule還支持對(duì)全基因組測(cè)序進(jìn)行一站式自動(dòng)分析,更加多元化。SeqMule解決了大部分分析軟件存在的軟件兼容性、配置復(fù)雜及不能訪問高性能計(jì)算設(shè)施等問題,能更好地分析高通量測(cè)序數(shù)據(jù),提升基因數(shù)據(jù)分析的一致性和準(zhǔn)確性。該軟件的5種比對(duì)方式、5種SNP分析工具和多種多樣的配件程序給用戶提供了眾多選擇,內(nèi)置的并行處理能力可加快分析的進(jìn)程。除了上述特點(diǎn)外,SeqMule使用單行命令完成復(fù)雜的任務(wù),使其成為易于下載、安裝、配置和運(yùn)行的生物信息學(xué)的工具。

筆者已經(jīng)用SeqMule來分析測(cè)序數(shù)據(jù),并且獲得了有意義的結(jié)果。隨著新一代測(cè)序技術(shù)的快速發(fā)展和部署,我們期望SeqMule能夠促進(jìn)即將來臨的大量測(cè)序數(shù)據(jù)分析,從而為人類遺傳病研究奠定基礎(chǔ),并促進(jìn)人類遺傳病的診斷方法的完善。

References)

[1]唐旭清, 朱平. 后基因組時(shí)代生物信息學(xué)的發(fā)展趨勢(shì)[J]. 生物信息學(xué), 2008, 6(3): 142-144.

TANG Xuqing, ZHU Ping. The development trends of bioinformatics in post-genomic era [J]. China Journal of Bioinformatics, 2008, 6(3): 142-144.

[2]陳文輝, 羅軍, 趙超. 固態(tài)納米孔:下一代DNA測(cè)序技術(shù)——原理、工藝與挑戰(zhàn)[J]. 中國科學(xué):生命科學(xué), 2014(7): 649-662.

CHEN Wenjun, LUO Jun, ZHAO Chao. Solid nano pore: Next generation DNA sequencing technology-principle, techonology and challenge[J]. Science in China: Life Sciences, 2014(7): 649-662.

[3]CAPORASO J G, LAUBER C L, WALTERS W A, et al. Ultra-high-throughput microbial community analysis on the Illumina HiSeq and MiSeq platforms[J]. Isme Journal, 2012, 6(8): 1621-1624.

[4]逯雯雯, 盧志遠(yuǎn), 王亞旭,等. 面向新一代基因組測(cè)序技術(shù)的序列拼接算法[J]. 生物信息學(xué), 2010, 8(3): 248-253.

LU Wenwen, LU Zhiyuan, WANG Yaxu, et al. Facing the sequence stitching algorithm of new generation genome sequencing technology[J]. China Journal of Bioinformatics, 2010, 8(3): 248-253.

[5]AFGAN E, BAKER D, CORAOR N, et al. Galaxy CloudMan: delivering cloud compute clusters[J]. BMC Bioinformatics, 2010, 12(6): S4-S4.

[6]GUO Y, DING X, SHEN Y, et al. SeqMule: automated pipeline for analysis of human exome/genome sequencing data[J]. Scientific Reports, 2015, 5: 14283. DOI: 10.1038/srep14283.

[7]LAM H Y, PAN C, CLARK M J, et al. Detecting and annotating genetic variations using the HugeSeq pipeline[J]. Nature Biotechnology, 2012, 30(3): 226-229.

[8]BLANCA J M, PASCUAL L, ZIARSOLO P, et al. ngs_backbone: a pipeline for read cleaning, mapping and SNP calling using next generation sequence[J]. BMC Genomics, 2011, 12(1): 193-201.

[9]GUIMERA R V. Bcbio-nextgen: Automated, distributed next-gen sequencing pipeline[J]. Embnet Journal, 2012, 18(Supplement B):1-153.DOI: 10.14806/ej.17.B.286.

[10]RAMOS E, LEVINSON B T, CHASNOFF S, et al. Population-based rare variant detection via pooled exome or custom hybridization capture with or without individual indexing[J]. BMC Genomics, 2012, 13(1): 1-15.

[11]LAM H Y K, CLARK M J, CHEN R, et al. Performance comparison of whole-genome sequencing platforms[J]. Nature Biotechnology, 2012, 30(1): 78-82.

[12]O’RAWE J, JIANG T, SUN G, et al. Low concordance of multiple variant-calling pipelines: practical implications for exome and genome sequencing[J]. Genome Medicine, 2013, 5(13): 1735-1742.

[13]RUFFALO M, LAFRAMBOISE T, KOYUTURK M. Comparative analysis of algorithms for next-generation sequencing read alignment[J]. Bioinformatics, 2011, 27(27): 2790-2796.

[14]GENTLEMAN R C , CAREY V J , BATES D M, et al. Bioconductor: open software development for computational biology and bioinformatics[M]. Genome Biology, 2004, 5: R80. DOI: 10.1186/gb-2004-5-10-r80.

[15]STAJICH J E, BLOCK D, BOULEZ K, et al. The Bioperl toolkit: Perl modules for the life sciences[J]. Genome Research, 2002, 12(10): 1611-1618.

[16]CHANG X, WANG K. wANNOVAR: annotating genetic variants for personal genomes via the web[J]. Journal of Medical Genetics, 2012, 49(7): 433-436.

[17]KRAMPIS K, BOOTH T, CHAPMAN B, et al. Cloud BioLinux: pre-configured and on-demand bioinformatics computing for the genomics community[J]. BMC Bioinformatics, 2012, 13(1): 1-8.

[18]NOCQ J, CELTON M, GENDRON P, et al. Harnessing virtual machines to simplify next-generation DNA sequencing analysis[J]. Bioinformatics, 2013, 29(17): 2075-2083.

[19]ANGIUOLI S V, MATALKA M, GUSSMAN A, et al. CLOVR: a virtual machine for automated and portable sequence analysis from the desktop using cloud computing[J]. BMC Bioinformatics, 2011, 12(49): 356-356.

[20]LI H, DURBIN R. Fast and accurate short read alignment with Burrows-Wheeler transform[J]. Bioinformatics, 2009, 25(14): 1754-1760.

[21]LANGMEAD B, TRAPNELL C, POP M, et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome[J]. Genome Biology, 2009, 10(3): 1-10.

[22]LANGMEAD B, SALZBERG S L. Fast gapped-read alignment with Bowtie 2[J]. Nature Methods, 2012, 9(4): 357-359.

[23]LI R, YU C, LI Y, et al. SOAP2: an improved ultrafast tool for short read alignment[J]. Bioinformatics, 2009, 25(15): 1966-1967.

[24]ZAHARIA M, BOLOSKY W J, CURTIS K, et al. Faster and more accurate sequence alignment with SNAP[J]. ARXIV, 2011(1):1-10.

[25]MCKENNA A, HANNA M,BANRS E,et al. The genome analysis toolkit: a mapreduce framework for analyzing next-generation DNA sequencing data[J]. Genome Research, 2014, 20(9): 1297-1303.

[26]LI H, HANDSAKER B, WYSOKER A,et al. The sequence alignment-map format and SAMtools[J]. Bioinformatics, 2009, 25(16): 2078-2079.

[27]KOBOLDT D C, ZHANG Q, LARSON D E, et al. VarScan 2: somatic mutation and copy number alteration discovery in cancer by exome sequencing[J]. Genome Research, 2012, 22(3): 568-576.

[28]LI R, LI Y, FANG X, et al. SNP detection for massively parallel whole-genome resequencing[J]. Genome Research, 2009, 19(6): 545-552.

A one-stop analytic software for sequencing data of whole genome and exome: SeqMule

LI Xin1, LI Kai2, LI Yijia1*, MA Lei2

(1.StemCellAndRegenerativeMedicineResearchCenter,YunnanSunsRegenerativeMedicineEngineeringCo.Kunming650000,China;2.SchoolofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,China)

SeqMule can adjust variables automatically according to the data of the invoked human genomes and the exomes, and also can analyze and annotate SNPs (Single Nucleotide Polymorphism). Objectives: This paper introduces SeqMule software to researchers on bioinformatics in detail by analyzing the experimental data of two patients with gout, with the hope of providing a one-stop analytical approach for the whole genomes and exomes. Methods: This paper discusses the features and operations of the SeqMule taking the analysis of DNA data of two patients with gout using the BLAST and analysis softwares such as BWA, GATK, SAMtools, Freebayes embedded in SeqMule, and also we have carried out BLASTs for the their exomes automatically and analyzed SNPs for them. Conclusions: SeqMule has resolved some questions present in many softwares. It also can analyze the data from the whole genomes and the exomes automatically in a comprehensive, flexible and efficient way, better analyze the data from high throughput sequencing, and finally improve the consistency and accuracy of the data analysis.

Gene; Sequencing; SeqMule;Exome;SNP

2016-04-05;

2016-06-12.

李鑫,男,本科生,研究方向:二代測(cè)序技術(shù);E-mail: 281528209@qq.com;

李凱,男,碩士研究生,研究方向:生物信息學(xué);E-mail: 553234748@qq.com.

10.3969/j.issn.1672-5565.03.10

Q343.1

A

1672-5565(2016)03-188-07

*通信作者:李一佳,男,博士,研究方向:干細(xì)胞和基因臨床轉(zhuǎn)化;E-mail: yijia.tsinghua@gmail.com.

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
對(duì)計(jì)劃生育必要性以及其貫徹實(shí)施的分析
GB/T 7714-2015 與GB/T 7714-2005對(duì)比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫(yī)結(jié)合治療抑郁癥100例分析
偽造有價(jià)證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 在线观看国产精品一区| 亚洲Av激情网五月天| 欧美日韩亚洲国产| 国产不卡国语在线| 亚洲欧美综合在线观看| 国产女人18毛片水真多1| 亚洲欧美一区在线| 亚洲无码熟妇人妻AV在线| 亚洲人成影视在线观看| 日韩欧美中文| 久久久久久久久18禁秘| 国产精品尹人在线观看| 特级毛片免费视频| 国产精品久久久久久久久久久久| 亚洲第一天堂无码专区| 波多野结衣一区二区三视频| 亚洲精品手机在线| 日韩中文无码av超清| 全午夜免费一级毛片| 欧美国产菊爆免费观看 | 成人日韩精品| AV在线麻免费观看网站| 手机精品福利在线观看| 国内精品小视频在线| 亚洲人成网18禁| 久青草免费在线视频| 亚洲三级a| 国产欧美性爱网| 在线观看国产精品第一区免费| 免费高清a毛片| 国产精品免费p区| 国产伦精品一区二区三区视频优播| 免费AV在线播放观看18禁强制| 538国产视频| 国产精品无码AⅤ在线观看播放| 久久6免费视频| 高清无码不卡视频| 久996视频精品免费观看| 波多野结衣第一页| 青青久久91| 亚洲av无码成人专区| 亚洲小视频网站| 91久久夜色精品国产网站 | 18禁色诱爆乳网站| 免费人成视频在线观看网站| 欧美成人亚洲综合精品欧美激情| 国产白浆视频| 亚洲国内精品自在自线官| 亚洲欧美色中文字幕| 久久精品无码中文字幕| 婷婷激情亚洲| 久久久久国色AV免费观看性色| 国产精品免费久久久久影院无码| 国产青榴视频在线观看网站| 激情综合图区| 亚洲第一成年免费网站| 国产一区二区影院| 无码在线激情片| 丰满的熟女一区二区三区l| 又大又硬又爽免费视频| 热99re99首页精品亚洲五月天| 国产极品嫩模在线观看91| 毛片网站免费在线观看| 亚洲中文字幕在线精品一区| 久久特级毛片| 国产av色站网站| 欧美日韩免费在线视频| 欧美亚洲另类在线观看| 国产91色在线| 中文字幕亚洲综久久2021| 特级精品毛片免费观看| 人人91人人澡人人妻人人爽 | 四虎AV麻豆| 亚洲天堂视频在线免费观看| 亚洲精品国产自在现线最新| 国产乱肥老妇精品视频| 亚洲欧美日韩中文字幕一区二区三区| 精品国产自在在线在线观看| 欧美福利在线观看| 青青青视频蜜桃一区二区| 国产91视频免费观看| 日本黄色a视频|