劉楨
摘 要:數(shù)據(jù)分析是生物信息學(xué)的核心,當(dāng)前用于數(shù)據(jù)分析的生物信息學(xué)軟件眾多,但兼容性差。本文以分析研究Linux系統(tǒng)中的bowtie、samtools、g++及x11設(shè)計(jì)開(kāi)發(fā)出生物信息數(shù)據(jù)分析高速高兼容性的可視化流程。其中bowtie用于生物數(shù)據(jù)比對(duì),samtools用于數(shù)據(jù)的儲(chǔ)存,g++用于權(quán)限環(huán)繞,x11用于可視化。
關(guān)鍵詞:數(shù)據(jù)分析;數(shù)據(jù)比對(duì);數(shù)據(jù)儲(chǔ)存;可視化
生物信息學(xué)數(shù)據(jù)分析核心在于數(shù)據(jù)格式的轉(zhuǎn)化、數(shù)據(jù)的儲(chǔ)存及可視化。數(shù)據(jù)格式轉(zhuǎn)化涉及數(shù)據(jù)比對(duì),數(shù)據(jù)儲(chǔ)存涉及將比對(duì)后的數(shù)據(jù)轉(zhuǎn)儲(chǔ)。在當(dāng)前有較多軟件用于數(shù)據(jù)分析的不同階段。但是多數(shù)軟件之間相互不兼容使得數(shù)據(jù)分析繁瑣冗雜。本文基于當(dāng)前生物信息數(shù)據(jù)分析繁瑣環(huán)節(jié)設(shè)計(jì)搭配出了一套兼容性強(qiáng)、分析速度快的流程。該流程可以為高校內(nèi)各種中小型實(shí)驗(yàn)室服務(wù)。
1 比對(duì)軟件安裝
比對(duì)常用的工具有bowtie/bowtie2, BWA,SOAP1/SOAP2等。在轉(zhuǎn)錄組比對(duì)中,通常比對(duì)都會(huì)經(jīng)歷兩部分問(wèn)題,一部分是基因組比對(duì),一部分是轉(zhuǎn)錄組比對(duì)。當(dāng)比對(duì)是在基因組上比對(duì)時(shí)若物種為真核生物又要考慮是否是外顯子還是內(nèi)含子,如果是原核生物比對(duì)又要考慮重疊基因。在轉(zhuǎn)錄組比對(duì)上,這個(gè)問(wèn)題又要考慮是mRNA比對(duì)還是小RNA比對(duì)。當(dāng)比對(duì)產(chǎn)生堿基變化的時(shí)候要考慮是比對(duì)出錯(cuò)還是測(cè)序出錯(cuò)。所以在這個(gè)基礎(chǔ)上將比對(duì)轉(zhuǎn)化為數(shù)學(xué)上的函數(shù)映射問(wèn)題,這部分問(wèn)題可以采用以上方法解決。使用bowtie來(lái)map DNA測(cè)序,使用tophat來(lái)map RNA測(cè)序。實(shí)際上,tophat是通過(guò)調(diào)用bowtie來(lái)完成工作的。而tophat1和tophat2的差別最主要的就是調(diào)用了bowtie1還是bowtie2。Bowtie是一個(gè)超級(jí)快速的,較為節(jié)省內(nèi)存的短序列拼接至模板基因組的工具。它在拼接35堿基長(zhǎng)度的序列時(shí),可以達(dá)到每小時(shí)2.5億次的拼接速度。而該軟件讀取的讀段長(zhǎng)度相對(duì)較長(zhǎng),可以較好比對(duì)。
下載及配置方式
Wget http://downloads.sourceforge.net/project/bowtiebio/bowtie2/2.2.9/bowtie22.2.9linuxx86_64.zip?
r=https%3A%2F%2Fsourceforge.net%2Fprojects%2Fbowtiebio%2Ffiles%2Fbowtie2%2F2.2.9%2F&ts=1473729431&use_mirror=nchc&unzip bowtie22.2.9linuxx86_64.zip cd bowtie22.2.9echo 'PATH=$PATH:/home/shuxue/soft/bowtie22.2.9/' >>
2 SAMtools安裝
SAMtools是一個(gè)儲(chǔ)存數(shù)據(jù)的工具,安裝配置非常麻煩。首先需要安裝編譯很多前置包[2]
build static libraries
.../zlib1.2.1]# ./configure
.../zlib1.2.1]# make test
.../zlib1.2.1]# make instal
.../zlib1.2.1]# make clean
.../zlib1.2.1]# ./configure ——shared
.../zlib1.2.1]# make test
.../zlib1.2.1]# make install
.../zlib1.2.1]# cp zutil.h /usr/local/include
.../zlib1.2.1]# cp
tar jxf samtools1.5.tar.bz2
cd samtools1.5
echo 'export PATH=$PATH:/opt/biosoft/samtools1.5/bin' /etc/profile
cd ../ && rm rf samtools1.5 samtools1.5.tar.bz2
3 配置g++
對(duì)所有用戶有效修改/etc/profile 對(duì)個(gè)人有效則修改~/.bashrc
在PATH中找到可執(zhí)行文件程序的路徑。sudo export PATH =$PATH:$HOME/usr/bin
gcc找到頭文件的路徑
sudo export PATH=/usr/contain/libxmlsnvown2:/Mysqlsi export C_contain_PATH
sudo export PATH=export C_contain_PATH/usr//contain/libxmlsnvownPLUS_contain_PATH
動(dòng)態(tài)鏈接庫(kù)的路徑
C_contain_PATH/usr//contain/libxmlsnvownPLUS_contain_PATH source bashrc
#找到靜態(tài)庫(kù)的路徑 LIBRARY_PATH=$LIBRARY_PATH:/Mysqlsi export LIBRARY_PATH
使用source,可以將修改的bashrc更改,或者重啟。[3]生成文件的依賴關(guān)系,比如:g++ MM;在屏幕上可以展示兩者的動(dòng)態(tài)相關(guān)性,根據(jù)動(dòng)態(tài)相關(guān)性設(shè)置重定向;[4]MM無(wú)法在重定向時(shí)期檢查Shell語(yǔ)法的正確性,所以需要注意重定向期間語(yǔ)法和路徑的正確性。
4 X11的安裝
Linux是基于命令操作的操作系統(tǒng),同windows不同,windows是圖形可視化界面系統(tǒng)。根據(jù)兩者系統(tǒng)的不同。慣于使用windows系統(tǒng)的用戶在轉(zhuǎn)入Linux系統(tǒng)時(shí)非常不熟悉。需要使用X11來(lái)過(guò)渡。簡(jiǎn)言之,X11是將命令格式的操作空間變?yōu)榭梢暬牟僮骺臻g。綜合X11下,Linux系統(tǒng)中的bwa/bowtie等軟件也可以被X11間接可視化,所以X11的安裝是新用戶使用Linux系統(tǒng)的重要關(guān)鍵部分之一。不過(guò),X11與Windows的可視化界面不同,這種不同類似于windows的DOS環(huán)境與Linux環(huán)境的終端不同。不同之處在于Windows離開(kāi)DOS后可以繼續(xù)使用,而Linux不能離開(kāi)終端,也不能完全離開(kāi)可視化。[5]。
點(diǎn)擊 System > Preference > Remote Desktop,允許遠(yuǎn)程連接
若Uuntu下沒(méi)有安裝xfs服務(wù)與xdm服務(wù),先進(jìn)行安裝
#sudo aptget install xfs
#sudo aptget install xdm
X11提供的顯示管理器是xdm,配置文件在/etc/X11/xdm/xdmconfig改為下面的方式:
保存后,重新啟動(dòng)ubuntu 即可在Ubuntu環(huán)境下使用圖形化界面。
5 結(jié)論
bowtie適用于各種生物測(cè)序數(shù)據(jù)的比對(duì),比對(duì)速率高。
samtools則可以將各種數(shù)據(jù)分析結(jié)果進(jìn)行儲(chǔ)存。保證數(shù)據(jù)的完整性。
X11能將命令式的Linux界面變?yōu)榭梢暬缑妫奖銛?shù)據(jù)的圖形化展示。
參考文獻(xiàn):
[1]范玉磊,張杰,盧群,孫文.基于便攜式Ubuntu的GAMIT安裝與使用[J].地理空間信息,2017,15(06):2830+4.
[2]羅名駒. 基于ARM CortexA9的嵌入式Linux內(nèi)核移植研究與實(shí)現(xiàn)[D].廣東工業(yè)大學(xué),2017.
[3]蔣熹.淺析如何在Ubuntu使用qcow2快速創(chuàng)建虛擬機(jī)[J].科技資訊,2016,14(31):17+19.
[4]孫中祥,洪芳華.Ubuntu Linux系統(tǒng)安全分析[J].江蘇科技信息,2016(10):3335.
[5]柴寶強(qiáng),劉光明,李葆光,馬堯.基于Ubuntu操作系統(tǒng)OpenStack虛擬化環(huán)境的部署[J].甘肅科技,2015,31(23):1317.