隨著人類基因組計劃順利實施,生命科學已大踏步地進入了基因組時代,隨之而來的是大量生物分子數據的產生。生物分子數據的增長速度極快,DNA堿基數目呈指數方式增加,大約每14個月增加一倍,這一速度已超過了半導體芯片上的晶體管數量每18個月翻一番的“摩爾定律”。1999年12月國際核酸數據庫GenBank中的DNA堿基數目只有30億,它們來自47000種生物,2000年4月DNA堿基數目已達60億,2001年初這一數目已達110億,目前已超過1000億,各種生物的EST序列已達1600多萬條,其中人類的EST(表達序列標簽)序列已超過300萬條,估計覆蓋人類基因90%以上;單基因的數目約達9萬個以上。自全長1.8Mb的嗜血流感桿菌基因組序列于1995年發表以來,已有包括古細菌、真細菌和真核生物等在內的300多個模式生物的完整基因組被測序完成,還有很多生物的基因組也在測試當中。分子數據仍將繼續快速增長。這些生物分子數據具有豐富的內涵,其背后隱藏著人類目前尚不知道的生物學知識。充分利用這些數據,通過數據分析、處理,揭示這些數據的內涵,從而得到對人類有用的信息,是生物學家、數學家和計算機科學家的研究目的。生物信息學就是為迎接這種挑戰而發展起來的一門新型學科,它是由生物學、應用數學、計算機科學相互交叉所形成的學科,是當今生命科學和自然科學的重大前沿領域之一,也是21世紀自然科學的核心領域之一。
1、生物信息學的發展階段
生物信息學的發展可以分為以下3個階段。
第一階段,前基因組時代。標志性的工作包括數據庫的建立,檢索工具的開發以及DNA和蛋白質序列分析,建立了GenBank數據庫。第二階段,基因組時代。標志性的工作包括基因的尋找和識別,網絡數據庫系統的建立和交互界面的的開發等,建立和發展了表達序列標簽數據庫以及電子克隆。第三階段,后基因組時代。標志性的工作是大規模基因組分析,蛋白質組分析以及各種數據的比較與整合,例如蛋白質組學的產生以及人類基因組草圖的完成等。
2、生物信息學的研究目標和范圍
生物信息學的研究目標:揭示“基因組信息結構的復雜性及遺傳語言的根本規律”。它是當今乃至下一世紀自然科學和技術科學領域中“基因組”、“信息結構”和“復雜性”3個重大科學問題的有機結合。
生物信息學的研究范圍大致可分3類:(1)數據庫的建立與優化,國際上著名的公共數據庫有GenBank、EMBL、DDBJ、swissport、PIR、PDB,另外一些公司還有內部數據庫;(2)培養生物信息學專業人員;(3)數據庫的理論研究、軟件的研制、序列的排列比較、對新序列的識別與預測等。
3、生物信息學的主要研究內容和研究方法
生物信息學的主要研究內容大體上集中在以下10個方面:(1)序列比對,即序列的相似性比較;(2)結構比對,即結構的相似性比較;(3)蛋白質結構預測,包括2級和3級結構預測;(4)計算機輔助基因識別(僅指蛋白質編碼基因);(5)非編碼區分析和DNA語言研究;(6)分子進化和比較基因組學;(7)序列重疊群裝配;(8)遺傳密碼的起源;(9)基于結構的藥物設計;(10)基因表達譜分析,代謝網絡分析,基因芯片設計和蛋白質組學數據分析等。
生物信息學基本方法包括:(1)建立數據庫,雖然已有大量的數據庫,但特定的研究與開發工作仍需要建立自己的數據庫;(2)數據庫檢索;(3)序列分析是生物信息學的核心,包括從序列的對位排列,到序列的同源性的比較和進化分析,直至基因組和蛋白質組分析;(4)統計模型,不同的統計模型已用于生物信息學,如隱馬可夫模型在基因識別和藥物設計中的應用,最大擬然模型等;(5)算法:如自動序列拼接,外顯子預測和同源性比較等算法。
4、生物信息學的應用
生物信息學的應用領域包括:(1)生物信息蘊藏著巨大的經濟價值,大量的生物信息公司應運而生;(2)生物信息在基因組分析中的應用,如序列片斷的拼接、可能基因的尋找、基因功能的預測,特別是多基因結構的分析與預測(三級結構與功能)、功能基因組和蛋白質組分析、代謝過程分析、分子進化分析等;(3)新藥開發中的應用,如藥物基因組學旨在理解個體對藥物不同反應的遺傳學背景;(4)其他領域的應用,如在寄生蟲與流行病學研究、農作物基因組分析、神經科學研究中均有廣泛應用。
5、分子生物信息數據庫概述
分子生物信息數據庫是種類繁多。歸納起來,大體可以分為4個大類,即基因組數據庫、核酸和蛋白質一級結構序列數據庫、生物大分子(主要是蛋白質)三維空間結構數據庫及其根據以上3類數據庫和文獻資料為基礎構建的二次數據庫。基因組數據庫來自基因組作圖,序列數據庫來自序列測定,結構數據庫來自X一衍射和核磁共振結構測定。這些數據庫是分子生物信息學的基本數據資源,通常稱為基本數據庫,初始數據庫,也稱一次數據庫。根據生命科學不同研究領域的實際需要,對基因組圖譜、核酸和蛋白質序列、蛋白質結構以及文獻等數據進行分析、整理、歸納、注釋,構建具有特殊生物學意義和專門用途的二次數據庫,是數據庫開發的有效途徑。近年來,世界各國的生物學家和計算機科學家合作,已經開發了幾百個二次數據庫和復合數據庫,也稱專門數據庫、專業數據庫、專用數據庫。