數據挖掘在生物信息學中的應用

2018-02-14 12:49:08褚皓

數字技術與應用 2018年10期

關鍵詞：數據挖掘

褚皓

摘要：本文重點介紹了生物信息學和數據挖掘技術的基本概念，以及生物信息學的一些主要研究方向。同時也舉例了一些數據挖掘技術在生物信息學領域的具體應用，強調了如今數據挖掘技術在生物信息學領域中存在部分不足以及未來廣闊的應用前景。

關鍵詞：數據挖掘;生物信息學;數據挖掘工具;生物學數據庫

中圖分類號：TP399? ?文獻標識碼：A? ? 文章編號：1007-9416（2018）10-0000-00

1 引言

近年來，基因組學和蛋白質組學的快速發展積累了大量的生物數據，為揭開生命神秘的面紗提供了良好的數據基礎。生物信息學，或計算生物學，是用信息技術和計算機科學來解釋生物數據的跨學科科學，它是伴隨基因組研究而產生的，其研究內容也緊隨著基因組研究而發展。

如今，在生物信息學領域中最受關注的一個方向就是應用和開發數據挖掘技術來解決生物問題，其中包括蛋白質結構預測、基因分類、基于微陣列數據的癌癥分類、基因表達數據的聚類以及蛋白質相互作用的統計建模等。由此可見，數據挖掘在生物信息領域前景廣闊。

2 生物信息學

生物信息學（Bioinformatics）是生命科學、計算機科學、信息科學和數學等學科交匯融合所形成的一門交叉學科[1]。生物信息學這個術語是由保利恩·霍格威格在1979年為研究生物系統中的信息過程而創造的。它自上世紀80年代末后大量應用于基因組學和遺傳學領域，尤其是涉及到高通量DNA測序的基因組學領域。

生物信息學也可以定義為計算機技術在生物信息管理中的應用，它是從生物序列和生物分子中提取、存儲、組織、分析、解釋和利用信息的科學。在過去的幾十年中，得益于DNA測序技術和生物繪圖技術的進步以及基因組技術和電子信息技術的高速發展結合在一起產生了大量與分子生物學相關的數據信息。生物信息學的主要目標是通過對這些信息的分析挖掘增加對生物過程的理解。

生物信息學研究的一些重要領域包括：

2.1 序列分析

序列分析是生物信息學的基礎，主要通過應用計算機對DNA序列或多肽序列進行序列比對、序列數據庫和重復序列搜索等操作，研究生物序列在醫學分析和基因組定位過程中相似的位點以及不同的位點。

2.2 基因組注釋

基因組注釋在生物信息學中指通過計算的手段來為基因組中的基因或其他生物元素進行標注[3]。第一個基因組注釋軟件系統是由Owen White博士在1995年設計的。

2.3 基因表達分析

基因的表達水平可以通過運用各種技術測量mRNA表達水平的方式來確定，比如采用微陣列技術，cDNA表達序列標簽測序（EST），基因表達系列分析（SAGE），大規模并行測序（MPSS），或各種復合原位雜交法等。以上所有技術都有著良好的抗噪性，且不受生物測量誤差影響。這一領域還涉及到需要開發相應統計工具以分離并移除高通量基因表達研究所產出信號值中的噪音。

2.4 蛋白質表達分析

基因表達的測量方法有很多，包括mRNA表達和蛋白表達。由于蛋白質是細胞活動的最終催化劑，但蛋白表達水平是確定實際基因表達水平的最佳線索之一。蛋白質微陣列和高通量質譜（MS）可以提供生物樣品中蛋白質的快照圖像信號。生物信息學在蛋白質微陣列和高通量質譜研究中起著重要的作用。

2.5 癌癥突變分析

受癌癥影響的細胞的基因組往往以復雜乃至不可預測的方式排列，因此大量的測序工作被用來對此前未知的癌癥基因的點突變進行識別。生物信息學家一直在開發專業的自動軟件系統，以處理高通量測序產出的海量序列數據。他們不斷運用新開發出的算法和軟件，將測序結果與不斷完善的人類基因組序列和多態序列進行比對。同時，新的物理檢測技術，比如利用寡核苷酸微陣列技術來識別染色體的增益和損耗，以及利用單核苷酸多態性陣列來檢測已知的點突變等，在腫瘤研究中的復發病變基因序列分析中也得到了廣泛的應用。

2.6 蛋白質結構預測

蛋白質的氨基酸序列（又稱為初級結構）可以通過編碼該蛋白質的基因序列來確定。一般情況下，蛋白質初級結構決定了其原生環境中的結構。因此，深入了解這種結構對于理解蛋白質的內在功能至關重要。在蛋白質初級結構之上還有二級結構、三級結構和四級結構。蛋白質結構預測也是藥物設計和新型酶設計的重要內容。

2.7 比較基因組學

比較基因組學是研究不同的物種間基因組結構和功能的關系的學科。基因發現是比較基因組學的一個重要應用，主要應用于發現基因組中新的非編碼功能元素。蛋白質、RNA以及不同物種調控區域間差異也是比較基因組學的主要研究方向。近年來，隨著生物信息學的快速發展，基因組比較算法研究在計算機科學領域也非常流行。

2.8 生物系統建模

生物系統建模是系統生物學和數學生學的重要組成部分。研究人員開發和運用高效的算法、數據結構以及可視化工具，將海量生物數據進行集成化處理，以便于最后應用于計算機建模作業。這涉及到了使用計算機模擬生物系統，比如代謝產物與酶的網絡、信號轉導通路和基因調控網絡之類的細胞子系統，以觀察和分析這些細胞過程之間的復雜關系。近年來，通過計算機模擬簡單生命形式逐漸成為生物學家理解生物進化過程的一種重要嘗試。

2.9 高通量圖像分析

如今，得益于計算機技術的發展，大量的生物醫學圖像數據得以在短時間內被自動處理、量化和分析。現代圖像分析系統加強了研究人員觀測大型復雜圖像的能力。一個完善的分析系統甚至可以完全獨立運行。生物醫學成像技術對于診斷和研究已經變得越來越重要并已在實際案例中得到應用，比如臨床圖像分析與可視化、DNA圖譜中的克隆重疊推斷、生物圖像信息學等。

2.10 蛋白質對接

在過去的二十年中，數以萬記的蛋白質三維結構已通過x射線晶體學和蛋白質核磁共振波譜（蛋白質NMR）技術得到確定。因此，生物學家們如今面臨的一個核心問題是不通過具體的生物學實驗，而僅僅基于這些三維結構來預測蛋白質間的相互作用是否可行。

3 數據挖掘

數據挖掘是指從大量數據中提取或“挖掘”知識，是在大量數據中發現新的模式和關系的科學。它被定義為通過挖掘存儲在數據倉庫中的大量數據以發現有意義的新關聯、新模式和新趨勢的過程。數據挖掘有時也被稱為數據庫中的知識發現（KDD）。數據挖掘并不專屬于某一個學科門類，而是多學科交叉，相關學科包括數據庫、統計學、機器學習、領域知識等[2]。

對于生物信息學來說，數據挖掘理論非常適用，雖然高通量測序會產出大量的生物數據，但是在生物個體的分子水平上仍缺少一個完整的數據理論體系。同時，龐大的生物信息數據庫也為知識發現理論的發展帶來了機遇和挑戰。在生物領域進行數據挖掘有助于從生物學和其他相關生命科學領域（如醫學和神經科學等）產出的海量數據中提取有用的知識，或在相關領域取得突破。

在處理實際問題時，數據挖掘的主要目標其實就是描述和預測。數據挖掘的主要任務，包括如從數據中發掘出一些新的模式和細節的步驟，如下所列：

分類：分類是將一個數據項映射（分類）到某個預定義的類中。

估計：根據提供的數據為一些未知的連續變量估出的值。

預測：與分類和估計類似，根據一些事物未來行為或未來的估值進行分類。

關聯規則：確定哪些工作可以同時進行，也被稱為依賴建模。

聚類：將一個總體分成若干組或群。

可視化：運用可視化技術描述數據。

數據學習可以分為兩類：定向（“監督”）和無定向（“無監督”）學習。前三個任務——分類、估計和預測——是監督學習的例子。后面三個任務——關聯規則、聚類和可視化——是無監督學習的例子。監督學習的目標是在所有變量之間建立關系，并從中發掘新的模型。

由于數據發掘和只是發現在現代生物學中的巨大作用，新的數據發掘工具的研發是如今最熱門的課題之一。

4 數據挖掘在生物信息學中的應用

數據挖掘在生物信息學中的應用包括基因發現、蛋白功能域檢測、功能基序檢測、蛋白功能推斷、疾病診斷、疾病預后、疾病治療優化、蛋白與基因交互網絡重構、數據清理、蛋白質亞細胞定位預測等。

例如，微陣列技術經常用于疾病診斷。根據癌癥患者基因型的微陣列數據可以預估患者的生存期，以及腫瘤轉移或復發的風險。機器學習能夠通過質譜技術用于多肽的識別。串聯質譜中片段離子之間相關性的研究對于通過數據庫搜索以減少多肽識別的隨機錯配至關重要。因此，現在急需一種對相關性信息的進行綜合高效評分的數據挖掘算法。

5 結語

在生物信息學領域中，數據挖掘仍然受到生物數據庫本身大小、數量、多樣性、數據質量、數據來源以及生物本體樣本缺失等各方面的限制。隨著基因組研究的進展與現代生物技術的發展，如何將眾多的數據挖掘技術應用于生物信息分析是當前研究的熱點，包括適合生物信息處理的數據挖掘體系架構、算法的開發、新的數據挖掘分析功能研究等[4]。數據挖掘技術與生物信息學的緊密結合會得到更多更有意義的挖掘結果，對人類社會的進步起到積極的作用。

參考文獻

[1]Luscombe NM，Greenbaum D， Gerstein M. What is bioinformatics？ A proposed definition and overview of the field. Methods information in Medicine，2001，40（4）：346-58

[2]王星，等.大數據分析：方法與應用[M].北京：清華大學出版社，2013：13

[3]梁艷春，張琛，等.生物信息學中的數據挖掘方法及應用[M].北京：科學出版社，2011：12.

[4]李佳，江濤.生物信息數據挖掘應用研究[J].中國科技信息，2009，（20）：42-43

Application of data mining in bioinformatics

CHU Hao

（Beijing Capitalbio Technology， Beijing? 102600）

Abstract：This article highlights some of the basic concepts of bioinformatics and data mining and some of the major research areas of bioinformatics. The main application of data mining in the domain of bioinformatics is explained as well. It also emphasizes some of the current shortcomings and promising opportunities in future of data mining in bioinformatics.

Key Word： Data mining， Bioinformatics， Data mining tool， biology database