陳鵬
摘 要
隨著現(xiàn)代計(jì)算機(jī)信息技術(shù)的快速發(fā)展,生物信息學(xué)與計(jì)算機(jī)技術(shù)的結(jié)合度也越來越高,在生物信息學(xué)的數(shù)據(jù)庫中就很好地應(yīng)用了計(jì)算機(jī)信息技術(shù),而數(shù)據(jù)庫的建立與完善對(duì)生物信息學(xué)的發(fā)展也具有重要的作用,本文中主要對(duì)數(shù)據(jù)庫的應(yīng)用進(jìn)行分析。
【關(guān)鍵詞】生物信息學(xué) 數(shù)據(jù)庫 應(yīng)用
現(xiàn)代社會(huì)是一個(gè)信息化的社會(huì),人們每天進(jìn)行各種信息的交流愈加頻繁,在這個(gè)信息化的時(shí)代,計(jì)算機(jī)以及信息技術(shù)為人們信息的交流提供了重要的工具。生物信息學(xué)數(shù)據(jù)庫的建設(shè)與應(yīng)用就是利用了現(xiàn)代的計(jì)算機(jī)信息技術(shù)對(duì)生物信息進(jìn)行存儲(chǔ)、檢索與分析。
1 生物信息學(xué)數(shù)據(jù)庫
生物信息學(xué)是建立在應(yīng)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)以及生命科學(xué)等多學(xué)科基礎(chǔ)之上的交叉學(xué)科,這門學(xué)科的主要任務(wù)就是探究如何高效地獲取生物學(xué)信息,對(duì)信息進(jìn)行處理與分析,存儲(chǔ)信息以及應(yīng)用生物學(xué)信息。數(shù)據(jù)庫技術(shù)主要解決了將世界海量的生物學(xué)數(shù)據(jù)、已有的研究成果以及技術(shù)信息等收納并存儲(chǔ)在數(shù)據(jù)庫中,這樣可以大大方便人們的生物研究與信息的查詢與借鑒。
2 數(shù)據(jù)庫的分類與特點(diǎn)
生物信息學(xué)數(shù)據(jù)庫中的數(shù)據(jù)種類極為多樣,其數(shù)據(jù)庫中的信息覆蓋面也極為廣泛,數(shù)據(jù)信息很全面;數(shù)據(jù)庫的信息更新速度快,信息的內(nèi)容更新的也很豐富;數(shù)據(jù)庫的規(guī)模在不斷地?cái)U(kuò)大,數(shù)據(jù)庫的復(fù)雜性也在不斷增加;在使用上更加地網(wǎng)絡(luò)化、便捷化。
2.1 一級(jí)數(shù)據(jù)庫(一次數(shù)據(jù)庫)
在生物信息學(xué)數(shù)據(jù)庫中的一級(jí)數(shù)據(jù)庫主要包括了核酸和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫,基因組數(shù)據(jù)庫以及生物大分子(主要為蛋白質(zhì))的三維空間結(jié)構(gòu)數(shù)據(jù)庫,通常稱為基本數(shù)據(jù)庫。一級(jí)數(shù)據(jù)庫的明顯優(yōu)勢(shì)就是在這個(gè)數(shù)據(jù)庫中數(shù)據(jù)的信息量很大,海量信息存儲(chǔ)在數(shù)據(jù)庫中并且數(shù)據(jù)每天都在增加,數(shù)據(jù)的信息也會(huì)及時(shí)更新并且更新速度很快,一級(jí)數(shù)據(jù)庫的用戶量也很多并且用戶面也很廣泛。因此以及數(shù)據(jù)庫的建立是需要性能高的、磁盤的容量很大的并且擁有專門的數(shù)據(jù)庫信息管理系統(tǒng)的計(jì)算機(jī)作為載體來支撐這些功能的完成。另外,數(shù)據(jù)信息還需要一些大型的商業(yè)軟件作為數(shù)據(jù)管理的支撐。例如,在我國(guó)的生物信息學(xué)研究所中使用的是Oracle數(shù)據(jù)庫系統(tǒng),這種軟件管理系統(tǒng)可以較好地將數(shù)據(jù)進(jìn)行管理與分類。研究所中針對(duì)基因組的數(shù)據(jù)庫進(jìn)行管理以及運(yùn)行則主要是基于Sybase數(shù)據(jù)庫系統(tǒng)來完成的。
2.2 二級(jí)數(shù)據(jù)庫
所謂的二級(jí)數(shù)據(jù)庫主要是以一級(jí)數(shù)據(jù)庫以及文獻(xiàn)資料為基礎(chǔ)建立起來的數(shù)據(jù)庫,也稱專業(yè)數(shù)據(jù)庫。二級(jí)數(shù)據(jù)庫相較于一級(jí)數(shù)據(jù)庫,其數(shù)據(jù)信息的容量也小得多,數(shù)據(jù)信息的更新速度也相對(duì)要慢一些。二級(jí)數(shù)據(jù)庫不需要大型的商業(yè)軟件來支撐數(shù)據(jù)庫的管理,可以直接使用一些基本的瀏覽器,如web瀏覽器。二級(jí)數(shù)據(jù)庫有很多種類,例如,基于核酸數(shù)據(jù)庫建立的二級(jí)數(shù)據(jù)庫中有真核基因順式調(diào)控元件和反式作用因子數(shù)據(jù)庫的TransFac數(shù)據(jù)庫,以及真核基因啟動(dòng)子數(shù)據(jù)庫EPD,密碼子使用表數(shù)據(jù)庫CUTG等?;谌S空間結(jié)構(gòu)為基礎(chǔ)構(gòu)建的數(shù)據(jù)庫有蛋白質(zhì)二級(jí)結(jié)構(gòu)構(gòu)象參數(shù)數(shù)據(jù)庫DSSP,已知空間結(jié)構(gòu)的蛋白質(zhì)家族數(shù)據(jù)庫FSSP等。
3 生物信息學(xué)數(shù)據(jù)庫的應(yīng)用
3.1 序列的比較
所謂的序列的比較主要是指將兩個(gè)序列中的各個(gè)元素放在一起然后按照對(duì)應(yīng)等同的關(guān)系對(duì)元素進(jìn)行有關(guān)的排列。對(duì)于兩個(gè)序列中共有的那些排列順序表示的是這兩個(gè)序列的相似程度是較高的,是對(duì)序列的一種較為定性的描述。對(duì)于最優(yōu)的排列主要是反應(yīng)在這兩個(gè)序列中的最大相似程度以及最少相異處,現(xiàn)在較為普遍尋找最優(yōu)排列的方法是通過動(dòng)態(tài)的規(guī)劃算法來尋找最優(yōu)序列。一般來說,對(duì)于一個(gè)新的序列以及數(shù)據(jù)庫中的某個(gè)序列的比較是可以在非常短的時(shí)間內(nèi)就可以比較出來的,但是由于基因數(shù)據(jù)庫中的數(shù)據(jù)極為繁多,因此在這個(gè)序列中的比較會(huì)相對(duì)花費(fèi)較長(zhǎng)的時(shí)間才可以比較出來,尤其是逐個(gè)對(duì)比的時(shí)候,所需要的時(shí)間更長(zhǎng)。所以,現(xiàn)在對(duì)于基因數(shù)據(jù)庫中的序列的比較主要是使用搜索計(jì)較算法來進(jìn)行序列的比較。另外,關(guān)于序列的搜索主要是有兩種使用較為普遍的使用程序,一個(gè)是BLASR程序,另外一個(gè)是FASTA程序,這兩個(gè)程序在實(shí)踐應(yīng)用中是比較成功的,其可以根據(jù)給定的序列,然后在基因數(shù)據(jù)庫中快速地找出一些同源的序列,進(jìn)而提高搜素與比較的速度。例如,在BLASR這個(gè)程序中主要使用的是一種對(duì)于序列的數(shù)據(jù)進(jìn)行局部的對(duì)比與分析,這可以較快找出一些同源的序列,然后進(jìn)行比較找出較優(yōu)的序列,因?yàn)檫@種程序可以較快提高比較速度,軟件的使用性能也不錯(cuò),因而在實(shí)踐中應(yīng)用度較廣。
3.2 數(shù)據(jù)挖掘技術(shù)
隨著生物信息學(xué)的數(shù)據(jù)庫的數(shù)據(jù)在飛速增長(zhǎng),怎樣在海量的信息中提取出用戶需要的信息成為一個(gè)問題的關(guān)鍵,也是在生物技術(shù)信息數(shù)據(jù)庫的應(yīng)用中需要解決的一個(gè)問題。另外,如何在已有的數(shù)據(jù)信息中以及從基因數(shù)據(jù)庫中識(shí)別出編碼的蛋白質(zhì)的基因,如何對(duì)識(shí)別的基因進(jìn)行多種信息的表達(dá)與控制,如何解讀出生物的遺傳密碼,分析出蛋白質(zhì)的相關(guān)結(jié)構(gòu)以及功能等都是需要面對(duì)以及解決的問題,也在當(dāng)下生物信息學(xué)數(shù)據(jù)庫中面臨著的比較棘手的困難。針對(duì)上述問題,在實(shí)踐應(yīng)用中比較常用的是一種數(shù)據(jù)的挖掘技術(shù)。這種信息挖掘技術(shù)可以高效地從數(shù)據(jù)庫的海量信息中挖掘出有效的信息或者生物知識(shí)。這種數(shù)據(jù)挖掘的技術(shù)主要就是從數(shù)據(jù)庫中這些海量的信息、隨機(jī)的信息數(shù)據(jù)中提取出一些人們以前不知道的但確實(shí)是有用的信息來提供給用戶使用。用戶通過這種技術(shù)可以高效地找出自己需要的信息與知識(shí),因此這種技術(shù)具有很強(qiáng)的應(yīng)用性,值得推廣與應(yīng)用。
4 結(jié)束語
關(guān)于生物信息學(xué)數(shù)據(jù)庫以及應(yīng)用方面還有很多需要探究的方面,本文主要是對(duì)其進(jìn)行了一些簡(jiǎn)單的介紹,并沒有很詳細(xì)的延展開來,需要在今后繼續(xù)分析與研究。但可以肯定的是很多的生物技術(shù)的研究都是需要數(shù)據(jù)庫的支撐來促進(jìn)世界生物技術(shù)的發(fā)展與進(jìn)步。
參考文獻(xiàn)
[1]趙屹,谷瑞升,杜生明.生物信息學(xué)研究現(xiàn)狀及發(fā)展趨勢(shì)[J].醫(yī)學(xué)信息學(xué)雜志.2012,33(5):2-6.
[2]孫清鵬,賈棟,萬善霞.生物信息學(xué)應(yīng)用教程[M].北京:中國(guó)林業(yè)出版社.2012:23-56.
作者單位
重慶醫(yī)科大學(xué) 重慶市 400016endprint