劉楨 于岸洲
摘要:生物信息學是現代生物學、計算機科學和數學的交叉學科,主要通過數學方法借助計算機對生物數據進行科學分析,相對于傳統實驗方法更高效、更具有邏輯性。本文主要以Linux系統的衍生系統——Ubuntu系統為分析系統,介紹如何配置最適合于生物信息學分析的計算機環境。
關鍵詞:生物信息學;分析環境配置;Ubuntu系統;生物數據分析
生物信息學是研究生物信息的采集、處理、存儲、傳播,分析和解釋等各方面的學科,是生命科學和計算機科學相結合形成的一門新學科。它通過綜合利用生物學,計算機科學和信息技術而揭示繁雜的生物數據所蘊含的生物學意義。ubuntu系統基于Debian發行版和GNOME桌面環境。它的目標在于為用戶提供一個最新的、相對穩定的主要由自由軟件構成的操作系統,可免費使用,并帶有社團及專業支持。本文介紹了如何借助Ubuntu系統,配置較優的生物信息學分析環境。
1 生物信息分析環境的配置
1.1 安裝win+Ubuntu雙系統
第一步:進入程序員管理空間Win + X,在管理磁盤欄目下面選擇二進制空間完好且較大的空間進行分配。將分配空間進行二進制碼壓縮,選擇60*1024MB的二進制空間壓縮。然后產生黑色可用空間。
第二步:同樣在程序員空間下進入電源選項,修改原來在windows系統下的電源功能。將原來的默認值修改為關閉快速啟動的值,保證在安裝Ubuntu系統后的grub正常運行。最后使用wq方式保存當前安裝。也可以進入DOS環境編譯修改win的設置。
第三步:在DOS環境中restart個人終端。通過快捷鍵進入bios空間。進入方式依據PC型號不同而不同,進入系統bios后將U盤啟動調整為最優先項目,設置后再次restart切換進入ubuntu安裝界面。進入ubuntu主界面后在U盤中找到刻錄的ISO文件雙擊打開ubuntu安裝文件,完成默認設置。[1]
第四步:在Ubuntu下創建新的二進制空間,以add方式創建四個新的分區空間,分區空間以之前分配的60*1024MB為基準。首先將10*1024MB分配為基礎二進制空間,又在基礎二進制空間上,添加20*1024MB作為空間的起始部分。通過布爾轉換設置空間的日志及邏輯分區,將剩下的空間全部作為銜接雙系統的swap邏輯空間。
切換回windows系統設置引導內容,保證兩個系統在開機中有選擇性進入欄目。在DOS下進入/boot編譯設置,將引導路徑設置為由windows下主導的路徑。restart終端,進入Win10下的EasyBCD完成最后的引導設置。在進入add新條目欄目下選擇Linux/BSD操作系統,在“驅動器”欄目選擇接近200M的Linux分區,點添加條目。
1.2 修改gcc
為了將Ubuntu系統配置為適合生物信息分析系統,方便編譯生物信息分析軟件,需要修改gcc,通常計算機內置gcc為以下:
Lrwx 1 root root 7 2018.02.18 22:45:31 /usr/bin/ect/gcc>gcc4.6
rwxrxrx 1 root root 2215423 2018.02.18 22:45:31 /usr/bin/etc/gcc4.4
rwxx 1 root root 214369 2018.02.18 22:45:31 /usr/bin/etc/gcc4.5
rwxrxrx 1 root root 336547 2018.02.18 22:45:31 /usr/bin/etc/gcc4.6
由上面顯示可以看出默認安裝的是gcc4.6,現在來改成gcc4.4:
(1)rmdir pgcc-4.6 /usr/bin/etc/gcc。將這個連接的軟性設置刪除
(2)terminal:sudo rmdir r /usr/bin/etc/gcc & chown /usr/bin/etc/gcc 770
(3)創建一個軟連接,指向gcc4.4[2]
(4)terminal:sudo ln s /usr/bin/etc/gcc4.4 /usr/bin/etc/gcc
(5)terminal using:gcc v
(6)使用內建 specs
目標:i686linuxgnu
配置為:
../src/configurevwithpkgversion='wksngbusgkxhjkg/Ubuntu/Linaro4.4.611ubuntu2'withbugurlPATH=$PATH&file:///usr/share/doc/gcc4.4/README.Bugsenabl,fortran,objc,objc++prefix=/usr/shufkgu/kgihgfnue/programsuffix=4.4/dhiajsd/ighugriuenableshared/dajcunduewithsystemzlib libexecdir=/usr/lib withoutfdcuekshuf/cbiutgk/lognu/logout/ttext=posix/PATH:bashrc>>sifhu/ubuntu/clude/c++/4.4libdir=/usr/lib/longus/ubutnu/usr/bin/etcenableclocale=gnutdcxxdebugenableobjcgc/snculsi/enabletargets=all/prefix/disablewerrorwitharch32=i686withtune=genericenablechecking=release/ubuntubuild=i686linuxgnuhost=i686linuxgnu target=i686linuxgnu
2 軟件安裝與編譯
2.1 Fastx_toolkit
高通量測序數據下載后的原始fastq文件,包含4行,其中一行為質量值,另外一行則為對應序列,我們都了解高通量的數據處理首先要進行質量控制[3],這些過程包括去接頭、過濾低質量reads、去除低質量的3和5端,去除N較多的reads等,而針對高通量測序數據的質控軟件也有很多,一般使用Fastxtoolkit,下載如下:
fastx_toolkit0.0.13.2.tar.bz2libgtextutils0.6.1.tar.bz2
tar zxvflibgtextutils0.6.1.tar.bz2
cd libgtextutils0.6.1
./configure && make && sudo make install
Export PATH PKG_CONFIG_PATH=/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH
cd ../fastx_toolkit sudo make install
2.2 TopHat安裝
TopHat是一個快速將RNASeq數據剪接映射的程序,它將讀段大小分散成不同的小片段,對每個小片段進行重新建模,再根據空位罰分機制將小片段和參考基因組上的片段進行比對。在片段長度足夠小的時候會增加非特異性比對次數,所以需要設置最小片段的最大長度限制。通常大基因組物種選擇長讀段測序,設置較大最小片段的最大長度,小基因組物種則反之。
直接下載適合于Linux x86_64的二進制文件,解壓縮即可使用。
http:tophat.cbcb.umd.edu/downloads/tophat2.0.8b.Linux_x86_64.tar.gz
需要注意,很多接頭序列比較長,應搞清楚具體實驗時的接頭長度。通常情況下,我們需要將接頭之間的序列進行比對和過濾。
3 結論
生物信息的環境配置首先要將原Ubuntu系統的g++/gcc進行修改,這樣可以將權限及操作環境修改為最適合生物信息分析的狀態。
軟件安裝上,使用Fastx_toolkit和比對軟件可以對各種測序結果進行數據分析。
Tophat可以將數據進行動態映射,保證數據分析的快速性。
參考文獻:
[1]郭敏,張東林,劉艷軍,彭永東,王建濤,付志新,董淑珍,劉錚鑄,鞏元芳,李祥龍.藍狐MITFM基因序列擴增及生物信息學分析[J].中國畜牧獸醫,2018(01):4756.
[2]湯莊力,王添,肖生祥,王曉鵬.表皮松解性掌跖角化病一家系KRT9基因突變檢測及生物信息學分析[J].中國麻風皮膚病雜志,2017,33(12):709711+716.
[3]羅文奇.計算機技術在生物信息學研究中的應用分析[J].中國管理信息化,2017,20(20):151152.