999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生物醫學文獻的蛋白質關系發現

2008-12-31 00:00:00彭春艷包玲玉陳昌平
電腦知識與技術 2008年34期

摘要:實驗提出了一種基于詞頻統計的蛋白質關系知識發現方法,該方法首先通過生物命名實體識別技術識別出蛋白質實體,然后統計共出現頻率,形成候選實體對,從而發現最有可能的實體關聯。

關鍵詞:知識發現;生物命名實體識別;實體關聯

中圖分類號:TP274 文獻標識碼:A文章編號:1009-3044(2008)34-1719-02

Knowledge Discovery of Protein Based on Biomedical Literature

PENG Chun-yan, ZHANG Hui, BAO Ling-yu, CHEN Chang-ping

(School of Computer Science and Technology, Southwest University of Science and Technology, Mianyang 621002, China)

Abstract: A method of protein knowledge discovery based on word frequency is proposed which firstly identify the protein entity by the bio-entity recognition.,then form the candidate-entity by processing co-cucurrent statistic,finally discovery the most possible entity relation.

Key words: knowledge discovery; bio-entity recognition; entity relation

1 引言

分子生物學研究的飛速發展,使生物醫學文獻呈指數級增長。如此多的文獻資源,為科研人員運用數據挖掘和文本挖掘技術,發現隱含的、有價值的知識提供了有利的條件。

由于大多數的生物信息都保存在文本中,因此對生物醫學的研究一般采用文本挖掘技術。文本挖掘是一個交叉的研究領域,它涉及了數據挖掘、信息檢索、自然語言處理等多個研究領域的內容。利用文本挖掘技術,可以發現許多有用的信息。一些科研人員利用文本挖掘工具,發現了許多對人類有用的知識, 例如:魚肝油可治療雷諾式癥[1] 、蛋白質之間的相互作用等。另外,從生物醫學文獻中抽取蛋白質(基因)相互作用關系對蛋白質知識網絡的建立、蛋白質關系預測以及輔助新藥的研制等都具有重要的意義。

2 相關研究

生物醫學的知識發現,一般針對文獻進行研究。基于文獻的知識發現,主要有基于統計、關聯規則、信息測度和基于語義的方法。

華盛頓大學的Swanson 教授[1]提出了基于單詞的詞頻統計方法。首先統計出共出現的單詞的頻率,然后對文獻集進行分析。通過這種方法,Swanson 發現了許多對人類有益的知識。例如,魚肝油對于雷諾氏癥的治療作用,鎂的缺失會引起偏頭痛,某些病毒可以成為潛在的生化武器等等,這些發現都得到了臨床上的證實。

Hristovski[2]將關聯規則挖掘引入了基于文獻的知識發現。他將生物文獻看作數據庫中的事務,而用來代表文獻內容的詞則看作是規則中的項,通過設置支持度閾值和置信度閾值來產生關聯的詞匯。

Wren[3]認為詞匯間具有信息的關聯。他使用互信息方法來計算詞的關聯度,通過互信息值的大小來表示關聯的強度。他的方法具有領域無關的特性,可以用來推廣到很多的研究領域。

Weeber[4]等人設計了一個文本挖掘工具DAD 系統。它利用自然語言處理系統MetaMap 將文獻中的語句映射為UMLS本體中的生物概念,用概念來取代詞匯作為知識發現的基礎。該方法實現了語義層次上的知識發現。他們利用DAD 系統找出了生姜潛在的醫療作用。

在關聯規則挖掘中,有效閾值的設定很困難。如果閾值設置的過低,會產生大量的候選規則,而設置的過高,則有可能過濾掉許多有意義的規則。另外,基于語義的方法,需要構建領域本體,這需要許多專業人士的共同參與。

因此,本文在Swanson 的理論基礎提出了一種基于命名實體的詞頻統計方法,該方法通過實體提取、句子分析等過程發現蛋白質之間潛在的關系。該方法閾值的設定對實驗結果影響不大,而且不需要領域專家的參與。

3 方法描述

本文實現了一個蛋白質知識發現系統。該系統使用Medline中隨機生成的2000篇摘要進行分析。系統首先對語料進行蛋白質實體識別,形成蛋白質實體列表,然后對句中的每個蛋白質實體對進行共出現頻率統計,進而生成候選實體對,最后找出最高出現頻率的實體對,從而發現最可能的實體關聯。該系統的框架如圖1所示。

3.1 蛋白質實體識別

在對生物醫學領域的文本挖掘中,實體識別的目的是對文本中的專業詞匯,包括基因、蛋白質、DNA和RNA等加以確認和分類。對蛋白質的知識發現,第一步就是進行蛋白質實體的識別。實驗采用了一種基于條件隨機域的生物實體識別方法,該方法以Mallet工具為基礎,并增加了單詞的數字、字母、以及距離依賴特性。

3.2 共出現頻率分析

文獻挖掘有不同層次的分析單元,如單詞、短語、句子、摘要或者全文。對于實體共出現頻率而言,以句子為最大分析單元式最合理的選擇。如果兩個實體對象同時出現在一個句子中,那么就稱為實體共出現,而這兩個實體稱為共出現實體。通過文本挖掘方法處理大批的文獻,提取得到共出現實體,統計它們的總數并計算出實體共出現頻率。如果兩個實體對象的共出現頻率很高,表明這兩個實體對象經常被同時提及,這暗示著這兩個實體對象之間存在關聯的可能性較高。相反,如果實體對象的功出現頻率很低,那么這兩個實體對象之間存在關聯的可能性就較低。

實驗主要針對蛋白質實體,因此只討論蛋白質—蛋白質實體的共出現頻率。

3.3 關系挖掘

通過計算共出現實體在所有句子中的出現頻率,提取關聯實體。根據設定不同的最低共出現頻率閾值,得到不同可靠程度的存在關聯的實體數據,從而發現最有可能存在關聯的蛋白質—蛋白質實體對象。

4 實驗

4.1 實驗數據集

本實驗以從MEDLINE中隨機新選的2000篇摘要為語料,實驗數據統計見表1。

表1 數據集

4.2 實驗結果

實驗采用條件隨機域模型進行實體識別,通過計算共出現頻率形成候選實體對。實驗結果詳見表2。其中,“過濾”指忽略低于指定頻率的共出現實體,在這里,指定頻率為5。

表2 實驗結果

5 結束語

隨著數據挖掘和文本挖掘技術的進步,生物醫學文獻挖掘在生物信息中的應用越來越廣泛。以知識發現為目的的文獻挖掘 可以分為提取知識、整合知識以及推導知識。文獻挖掘在尋找蛋白質相互作用、發現疾病相關的基因以及注釋基因功能等方面得到了廣泛應用。本文首先識別出蛋白質實體,形成實體列表,然后統計共出現頻率,形成候選實體對,從而發現最有可能的實體關聯。

實驗采用基于實體識別的共出現頻率統計模型,該方法過程簡單,不需要領域專家的直接參與。由于實體在句中具有特定的語義,因此,如果模型能夠融合部分語義特征,進行實體關聯動詞統計,進而進行共出現頻率與關聯動詞相結合的分析。這是我們今后的研究方向。

參考文獻:

[1] Swanson D R,Fish O.Raynaud’s syndrome,and undiscovered public knowledge[J].Perspectives in Biology and Medicine,1986(31):526-557.

[2] Hristovski D,Stare J,Peterlin B,et al.Supporting Discovery in Medicine by Association Rule Mining in Medline and UMLS[J].Medinfo,2001,10(2):1344-1348.

[3] Wren J D.Knowledge discovery by automated identification and ranking of implicit relationships[J].Bioinformatics,2004,20(3):389-398.

[4] Wren J D.Knowledge discovery by automated identification and ranking of implicit relationships[J].Bioinformatics,2004,20(3):389-398.

[5] Weeber M ,Klein H,Lolkje T W,et al.Using concepts in literature–based discovery :Simulating Swanson’s Raynaud - fish- oil and migraine - magnesium discoveries[J].Journal of the American Society for Information Science and Technology,2001,52(7):548-557.

主站蜘蛛池模板: 久草热视频在线| 高清欧美性猛交XXXX黑人猛交| 欧美成人影院亚洲综合图| 精品国产电影久久九九| 91美女在线| 亚洲精品无码抽插日韩| 日本免费一区视频| 精品剧情v国产在线观看| 国产激情在线视频| 高清免费毛片| 免费看美女毛片| 婷婷中文在线| 97久久精品人人做人人爽| 无码综合天天久久综合网| 国产91av在线| 在线高清亚洲精品二区| 久久国产成人精品国产成人亚洲 | 亚洲精选高清无码| 一级片免费网站| 91久久偷偷做嫩草影院电| 在线播放精品一区二区啪视频 | 国产成人精品一区二区| 日韩一二三区视频精品| 日本三级欧美三级| 久久无码av三级| 性69交片免费看| 亚洲国产综合自在线另类| 色135综合网| 毛片在线播放网址| 国产xx在线观看| 欧美亚洲日韩中文| 欧美日在线观看| www.精品国产| 欧洲高清无码在线| 精品一區二區久久久久久久網站| 成人国产三级在线播放| 日本免费精品| 一级毛片免费高清视频| 亚洲精品制服丝袜二区| 最新午夜男女福利片视频| 视频二区欧美| 在线看片中文字幕| 91福利片| 最近最新中文字幕在线第一页 | 99热最新网址| 99精品视频在线观看免费播放| 1769国产精品免费视频| 久久一色本道亚洲| 色婷婷亚洲十月十月色天| 国产欧美精品一区二区| 亚洲v日韩v欧美在线观看| 亚洲欧美不卡| 色综合网址| 欧美成人午夜影院| 欧美精品在线免费| 国产成人亚洲精品色欲AV| 亚洲免费成人网| 国产高清在线精品一区二区三区| 美女被操91视频| 又爽又大又黄a级毛片在线视频 | 国产成人一区在线播放| 青青网在线国产| 美女被躁出白浆视频播放| 91av成人日本不卡三区| 亚洲第一成网站| 免费看av在线网站网址| 噜噜噜综合亚洲| 91麻豆国产精品91久久久| 男女男免费视频网站国产| 国产精品太粉嫩高中在线观看 | 无遮挡国产高潮视频免费观看| 欧美一级视频免费| 97亚洲色综久久精品| 国产精品无码久久久久久| 久久精品无码一区二区国产区 | 色综合天天综合中文网| 国内丰满少妇猛烈精品播 | 国产精品视频a| 欧美日韩精品一区二区在线线 | 伊大人香蕉久久网欧美| 性色生活片在线观看| 久久天天躁夜夜躁狠狠|