999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生物醫學文獻中的蛋白質相互作用抽取研究

2016-12-01 01:36:30周玉新
山東工業技術 2016年20期
關鍵詞:規則信息方法

周玉新

(內蒙古民族大學計算機科學與技術學院,內蒙古 通遼 028000)

生物醫學文獻中的蛋白質相互作用抽取研究

周玉新

(內蒙古民族大學計算機科學與技術學院,內蒙古 通遼 028000)

在最近幾十年中,生物醫學取得了令人矚目的巨大發展,涌現出了大量實驗性和可計算生物醫學數據,同事,相關的生物醫學文獻呈現出了指數增長。同時,科學界一直對利用文本挖掘工具發現諸如蛋白質關系等對特定分析任務相關和有用的知識有巨大的興趣。本文提供了一個生物醫學領域蛋白質相互作用發現的一個基本輪廓,同時討論了該領域進一步發展所面臨的挑戰,并且討論了可能的解決方案。

生物醫學文獻;蛋白質相互作用;信息抽取

1 引言

在后基因組時代,蛋白質被認為是復雜蛋白質作用網絡中的重要因素,蛋白質—蛋白質作用(PPI)在細胞的結構性和功能性組織的各個方面發揮著關鍵作用,關于PPI的知識揭示了生物過程的分子機制。然而,這類知識大部分隱藏在已發表文獻、科技期刊、書籍和技術報告中。迄今為止,超過1600萬此類文章的引用可以在MEDLINE數據庫中獲得,并且還建立了許多數據庫以存儲關于PPI信息的各種類型。然而,為了確保數據得正確性,這些數據庫中的數據主要是以手工采集的,但也因此限制了將純文本信息轉換為結構信息的速度。

目前,已經開發了很多系統來進行PPI信息的抽取,這些系統一般需要包括分區模塊、蛋白質名稱識別模塊、PPI抽取模塊和可視化模塊等三到四個模塊。分區模塊主要將文檔劃分為基本的塊;蛋白質名稱識別模塊主要用于蛋白質名稱的識別;PPI抽取模塊則是系統的最主要環節;而可視化模塊雖不像前三個模塊那樣關鍵,但是它為用戶提供了一個友好的接口從而允許用戶可以深入研究所抽取的知識

為了評估一個信息抽取系統的性能,通常采用的評估指標主要有正確率、召回率和F值,它們的定義如下:

正確率=識別出的正確實體數/識別出的實體數;召回率=識別出的正確實體數/樣本中的實體數。

兩者的取值都在0和1之間,數值越接近1,正確率或召回率就越高。在實際應用中需要綜合考慮它們的加權調和平均值,也就是F值,其中最常用的F1值,當F1值較高時說明試驗方法比較有效。F1值定義如下:

F1值=(2*正確率*召回率)/(正確率+召回率)

本文側重于PPI抽取模塊,對現有方法進行了簡單綜述。通常,現有的方法依賴于一個或多個領域的技術,包括信息檢索、機器學習、自然語言處理、信息抽取和文本挖掘等。早期的所用的方法主要依賴于命名實體共現和模式匹配,而后期則主要采用可以處理復雜句子中關系的可計算語言學技術。

2 方法

通常,現有的方法可以被分為三類:基于計算語言學的方法、基于規則的方法和基于機器學習和統計的方法。

2.1 基于計算語言學的方法

基于計算語言學的方法采用語言學技術從句子中提取語法結構或語義。在這種方法中,首先對語料庫進行解析以獲取每個句子的形態學和句法信息,在這之后才能完成識別PPI信息等復雜的任務。然而,對生物學領域中的非結構化文本進行解析是非常困難的。

這類方法可以根據所采用語言學方法的復雜性進一步劃分為淺解析或深解析。淺解析執行句子結構的部分解析,它旨在通過犧牲分析的完整性和深度來從文本中高效可靠地提取句法信息。它首先將句子分為非重疊塊,接著抽取塊間的局部依賴而不重建整個句子結構。淺解析在捕獲一個句子實體間相對簡單的二元關系方面表現良好,但是無法識別關系子句中更加復雜的關系。對包含三個或更多實體間復雜關系的句子來說,淺解析方法通常會產生錯誤的結果,這時采用基于全句的深解析方法往往更加精確。深解析以構造語法的方式為基礎分析整個句子,這通常可以得到較好的性能,但是卻具有較高的計算復雜度。基于深解析的方法可以被分為通過人工定義語法的唯理論方法和通過觀察自動生成語法的經驗主義方法。

2.2 基于規則的方法

在基于規則的方法中,需要定義建立在單詞或詞性標記上正規表達式的規則集,并以此為基礎識別實體間的關系。

通常,理論上來說,使用預定義的規則可以產生令人滿意的結果,然而在實際應用中卻是不可行的,因為當轉移到另一個域時,仍需要繁重的工作以重新定義規則集。

現有的基于規則的方法可以通過突破被抽取的互相作用集合上的整體局限和被處理句子的復雜性進行識別規則的擴展。但是,這些方法經常忽略許多復雜的實例,比如跨越文本多個句子的互相作用。基于規則方法的缺點是它們無法處理除比較短的以及直接陳述以外的任何句子,而基于規則的方法能夠處理的句子在正常的生物醫學文獻中是相當少的。這種方法忽視了句子結構的很多重要方面,比如句子的語氣、情態和否定,而這些都可以顯著改變甚至完全顛倒句子的意思。

2.3 基于機器學習和統計的方法

在生物信息學領域,已經應用了很多機器學習方法,這些方法涵蓋了從在術語共現基礎上推斷術語間關系的簡單方法到采用NLP技術的復雜方法。

很多以蛋白質名稱共現的發現為基礎的機器學習和統計方法已經被用于PPI信息抽取,如果以挖掘單位為基礎,它們可以被進一步分為三種類型,如摘要、句子等。后來的系統采用了其他的技術,如隱馬爾科夫模型和支持向量機來識別描述PPI的句子。一般來說,使用基于機器學習和統計的方法檢測PPI的過程可以被分為三個階段:建立訓練和測試語料庫、構建判別詞和通過討論PPI的可能性對測試語料庫中的每個摘要進行評分。

一般來說,基于蛋白質共現的簡單統計方法往往不能精確地描述蛋白質間的關系,因而會產生比較低的F1值。相反,復雜的統計模型需要大量訓練數據估計模型參數,但這在實際應用中通常難以實現。在實際應用中,許多現存的系統都采用了結合來自兩個或更多上面所提方法的混合方法以獲得較好的性能。

3 所面臨的挑戰和可能的解決方案

在不久的將來,知識發現工具將在系統生物學中起到關鍵的作用。近些年來,生物醫學的信息抽取已經從簡單的基于規則的模式匹配發展到復雜的、應用計算語言學技術的混合解析器。但是知道現在,仍存在一些諸如性能差、無法處理生物實體間可變關系以及被抽取的知識自相矛盾等障礙,以后的發展,必將以解決這些問題作為首要的問題。

[1]陳謀通,劉建軍.蛋白質相互作用的研究方法[J].生物技術通報,2009.

[2]冀俊忠,劉志軍,劉紅欣等.蛋白質相互作用網絡功能模塊檢測的研究綜述[J].自動化學報,2014,40(04):577-593.

[3]劉念,馬長林,張勇等.基于樹核的蛋白質相互作用關系提取的研究[J].華中科技大學學報 (自然科學版),2013(02).

10.16640/j.cnki.37-1222/t.2016.20.207

猜你喜歡
規則信息方法
撐竿跳規則的制定
數獨的規則和演變
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
TPP反腐敗規則對我國的啟示
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产欧美精品一区aⅴ影院| 日韩欧美视频第一区在线观看| 性视频一区| 亚洲无码精彩视频在线观看 | 美女视频黄频a免费高清不卡| 亚洲精品无码不卡在线播放| 欧美日韩高清在线| 少妇人妻无码首页| 欧美亚洲国产日韩电影在线| 欧美人与性动交a欧美精品| 亚洲午夜片| www.99在线观看| a色毛片免费视频| 欧美三级自拍| 色哟哟色院91精品网站| 日韩高清中文字幕| 色综合a怡红院怡红院首页| 性网站在线观看| 亚洲欧洲日韩久久狠狠爱| 中文字幕在线免费看| 91午夜福利在线观看精品| 波多野结衣中文字幕一区二区| 伊人激情综合| 粉嫩国产白浆在线观看| h网站在线播放| 国内精品91| 国产一区三区二区中文在线| 国产成人综合在线观看| 久久国产乱子| 久久无码av三级| 亚洲av无码成人专区| 草草影院国产第一页| 欧美激情视频二区三区| 理论片一区| 国产日本欧美亚洲精品视| 婷婷色一二三区波多野衣| 日韩无码黄色| 在线精品自拍| 亚洲大学生视频在线播放| 成人av手机在线观看| 亚洲色图另类| a级高清毛片| 免费xxxxx在线观看网站| 国产在线91在线电影| 九色国产在线| 乱色熟女综合一区二区| 亚洲国产天堂在线观看| 一本一道波多野结衣av黑人在线| 一区二区三区毛片无码| 国产精品欧美激情| a级毛片免费网站| 国产小视频网站| 久久午夜夜伦鲁鲁片无码免费| 91福利免费| 青青草国产精品久久久久| 日韩欧美在线观看| 国产成人精品在线| 成年人福利视频| 99久久无色码中文字幕| 丁香六月激情综合| 国产欧美日韩另类精彩视频| 欧美成人精品高清在线下载| 玖玖精品在线| 狠狠色成人综合首页| 日本久久网站| 国产亚洲精品自在久久不卡| 呦视频在线一区二区三区| 久久精品无码一区二区国产区| 亚洲综合精品第一页| 国产尤物视频在线| 国产成人综合在线视频| av一区二区人妻无码| 国产一级毛片高清完整视频版| 国产十八禁在线观看免费| 国产在线观看人成激情视频| 2024av在线无码中文最新| 亚洲日韩AV无码一区二区三区人| 熟妇丰满人妻| 一级爆乳无码av| 亚洲va欧美va国产综合下载| 日本精品视频一区二区| 国产永久在线观看|