摘要:數據挖掘是一個嶄新的計算機應用領域,而生物信息學是生物學與計算機科學以及應用數學等學科相互交叉而形成的一門新興學科。綜述了數據挖掘技術的內容、過程、方法和模式,介紹了生物信息學的內涵和新的應用技術,同時探索了數據挖掘技術對生物信息挖掘應用的途徑。
關鍵詞:數據挖掘;生物信息;基因;脫氧核糖核酸序列
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)14-20816-02
1 數據挖掘技術簡介
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程[1]。數據挖掘是一種從大型數據庫或數據倉庫中提取隱藏的預測性信息的新技術。它能開采出潛在的模式,找出最有價值的信息,指導商業行為或輔助科學研究。原始數據可以是結構化的,如關系數據庫中的數據,也可以是半結構化的,如文本、圖形、圖像數據,甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。已有的知識可以被用于信息管理、查詢優化、決策支持、過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門廣義的交叉學科,它匯聚了不同領域的研究者尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。因此有必要了解數據挖掘的技術、方法、過程和步驟,并探索其對生物信息數據挖掘的潛在應用或應用領域。
數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的信息應具有先前未知,有效和可實用三個特征。
先前未知的信息是指該信息是預先未曾預料到的,即數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。在商業應用中最典型的例子就是一家連鎖店通過數據挖掘發現了小孩尿布和啤酒之間有著驚人的聯系。信息的有效要求挖掘前要對被挖掘的數據進行仔細檢查,保證它們的有效性,才能保證挖掘出來的信息的有效性。從某種程度來講,科學數據的有效性與其他數據相比往往是能得到保證的。最為重要的是要求所得的信息是有可實用性,即這些信息或知識對于所討論的業務或研究領域是有效的,是有實用價值和可實現的。常識性的結論,或已被人們或競爭對手早已掌握的或無法實現的事實都是沒有意義的。
2 數據挖掘技術在生物信息的應用
生物信息學是一門新興的交叉學科。生物信息學是伴隨基因組研究而產生的,它的研究內容緊隨著基因組研究而發展。廣義地說,生物信息學從事對基因組研究相關生物信息的獲取、加工、儲存、分配、分析和解釋。這一定義包括了兩層含義,一是對海量數據的收集、整理與服務,即管好這些數據;另一個是從中發現新的規律,即用好這些數據。具體地說,生物信息學是把基因組DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質和RNA基因的編碼區;同時,闡明基因組中大量存在的非編碼區的信息實質,破譯隱藏在DNA序列中的遺傳語言規律;在此基礎上,歸納、整理與基因組遺傳信息釋放及其調控相關的轉錄譜和蛋白質譜的數據,從而認識代謝、發育、分化、進化的規律[2]。生物信息學自誕生以來,經歷了3個階段:1) 基因年代的生物信息學,主要是序列分析、數據庫的查詢、計算機操作和PC的應用;2) 基因組年代的生物信息學,主要是基因的尋找、數據與數據之間的比較、網絡相互界面;3) 后基因組年代的生物信息學,主要是數據的挖掘、表達、數據多樣性的分析、相互交叉數據分布的總結與分析。其研究的內容不僅包括基因的查尋和同源性分析,而且進一步到基因和基因組的功能分析,即所謂的功能基因組研究。
其具體內容表現在:a) 將已知基因的序列與功能聯系在一起研究;b) 從以常規克隆為基礎的基因分離轉向以序列分析和功能分析為基礎的基因分離;c) 從單個基因致病機理的研究轉向多個基因發病機理的研究;d) 從組織與組織之間的比較來研究功能基因組和蛋白組。其目的就是為了能夠對整個基因組進行分析和比較,對多元基因及相應蛋白間的功能和作用進行整體分析。如何有效地進行數據的采集、收集、整理、檢索、分析,從中提取規律,上升為理論,以便“讀懂”基因組的遺傳信息。后基因組時期的主要任務為數據挖掘,即從完全測序的基因組中預測功能。
生物信息學的大量研究都集中在DNA數據的分析上,這里重點探討其應用。DNA分析的研究成果已經導致了對許多疾病和殘疾的基因成因的發現,以及對疾病的診斷、預防和治療的新藥物、新方法的發現。基因研究中的一個重要關注點是DNA序列的研究。所有的DNA序列由四個基本的構塊(稱為核苷)組成:腺嘌呤(A)、胞核嘧啶(C)、鳥嘌呤(G)、胸腺嘧啶(T)。這4個核苷組合構成很長的序列或鏈,類似一個雙螺旋梯。人類有約10萬個基因。一個基因通常有成百個核苷按一定的次序組織而成。核苷按不同的次序和序列可以形成不同的基因,幾乎是不計其數。具有挑戰性的問題是從中找出導致各種疾病的特定基因序列模式。由于在數據挖掘中已經有許多有意義的序列模式分析和相似的檢索技術,因此數據挖掘成為DNA分析中的強有力工具,并在以下方面對DNA分析起作用[3]。
(1) 異構、分布式基因數據庫的語義集成。廣泛多樣的DNA數據高度分散、無控制地生成與使用,需要對這種異構和廣泛分布的基因數據庫的語義集成,以便對DNA數據庫進行系統而協同的分析。這促進了集成式數據倉庫和分布式聯邦數據庫的開發。
(2) DNA序列間相似搜索和比較。序列比對是生物信息學的基礎。在基因分析中一個最為重要的搜索問題是DNA序列中的相似搜索和比較。對分別來自帶病和健康組織的基因序列,進行比較以識別兩類基因間的主要差異。在基因序列相似與非相似的分析中,應用頻繁序列模式,首先從兩類基因中檢索出基因序列,然后找出并比較每一類中頻繁出現的模式。通常,在帶病樣本中出現頻度超出健康樣本的序列,可以認為是導致疾病的基因因素;另一方面,在健康樣本中出現頻度超出帶病樣本的序列,可以認為是抗疾病的因素。注意基因分析所需要的相似搜索技術與時序數據中使用的相似數字方法不同。如數據變換的伸縮、規范化和窗口縫合等是時序數據分析中經常用到的方法,但對基因數據而言是無效的。因為基因數據是非數字的,其內部的不同種類核苷間的精確交叉起著重要的功能角色。頻繁序列模式應用。
(3) 關聯分析。目前,許多研究關注的是一個基因與另一個基因的比較。但大部分疾病不是由單一基因引起的,而是由基因組合起來共同作用的結果。關聯分析方法有助于發現基因組和對基因間的交叉與聯系,幫助確定在目標樣本中出現的基因種類。
(4) 路徑分析。引起一種疾病的基因可能不止一個,不過不同的基因可能在疾病的不同階段起著作用。如果能找到疾病發展的不同階段遺傳因素序列,就有可能開發針對疾病不同階段的治療藥物,從而取得更為有效的治療效果。在遺傳研究中路徑分析能對同時出現的基因序列的區別,發現在疾病不同階段的致因基因。
(5) 聚類分析。聚類通過把目標數據放入少數相對同源的組或“類”里,分析表達數據。a) 通過一系列的檢測將待測的一組基因的變異標準化,然后成對比較線性協方差;b) 通過用最緊密關聯的譜進行樣本聚類,例如用簡單的層級聚類方法。這種聚類亦可擴展到每個實驗樣本,利用一組基因總的線性相關進行聚類;c) 多維等級分析是一種在二維“距離”中顯示實驗樣本相關的程度。D.K-means方法聚類,通過重復再分配類成員來使“類”內分散度最小化的方法。在基因的表達、DNA序列的研究中,聚類分析已經成為標準的程序。
(6) 可視化工具和遺傳數據分析。基因的復雜結構和序列模式通常可以通過各種可視化工具以圖、樹、方體和鏈的形式展現。可視化的結構和模式促進了模式理解,知識發現和數據交互是發展有力的數據可視化方法和工具。大規模基因表達數據挖掘另一重要方面。已經用簡單圖形顯示提供聚類結果的途徑,對大規模基因表達原始數據的可視化并鏈接的標注過的序列數據庫,可為基因表達分析提供非常有價值的工具,有助于從新的視角看待基因組水平的轉錄調控并建立模型。可視化因此在生物信息學的數據挖掘中起著重要的作用。
3 數據挖掘技術在生物信息的應用展望
生物學是生物信息學的核心和靈魂[4],生物信息學是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。數據挖掘是一個嶄新的計算機應用領域,目前,它已成為對人類生活影響最大的幾項IT技術之一。隨著數據挖掘技術發展的深入和相關領域知識的滲透,它將極大地促進信息對于人類社會進步所起的作用。數據挖掘技術對生物信息挖掘應用起著越來越重要的作用。
參考文獻:
[1] Jiawei Han, Micheline Kamber. 范明, 孟小峰 譯. 數據挖掘概念與技術[M]. 北京:機械工業出版社,2001.
[2] 陳潤生. 生物信息學——基因組研究的有力工具[EB/OL]. http://www.kernbio.com/hotdot/detail.asp? hotsid=951,2001/11/16.
[3] 張春霆. 生物信息學的現狀與展望[EB/OL]. http://tubic.tju.edu.cn/current% 20and% 20prospect.files/cur-rent%20and%20prospect.htm,2000.