999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘技術在生物醫學文獻管理中的應用

2012-04-12 00:00:00樓婷淵孟志青胡強
現代營銷·學苑版 2012年10期

摘要:生物醫學文獻以非結構化的文本形式存在,文本挖掘能夠從海量的生物醫學文獻中發現有趣的知識和模式,可以提高對生物醫學文獻的管理和建設效率。本文針對生物醫學領域,闡述了文本挖掘的具體過程,論述了生物醫學文本挖掘現有的研究方法,詳細討論了生物醫學文獻的分類和關系抽取,最后對文本挖掘在生物醫學領域的應用前景做了展望。

關鍵詞:文本挖掘 生物醫學文獻 文本分類 關系抽取

一、引言

信息爆炸時代,各行業每時每刻都在產生和積累大量的以各種形式保存的信息,這些信息以指數級的速度不斷積累和增長,如何快速準確地從這些紛亂的數據中提取出有價值的信息是急待解決的問題。文本挖掘是指從大量文本數據中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織信息以便將來參考[1]。如今文本挖掘已經成為國際上非常活躍的一個研究領域。

隨著生物醫學領域的快速發展,生物醫學文獻呈指數級增長,成為一座巨大的知識寶庫。然而面對如此大規模的、快速增長的科學文獻數據,即便是該領域內的專家也無法依賴手工方式從中獲取感興趣的信息。由于生物醫學文獻絕大多數都是以非結構化的形式存在于文本文件中,因此采用文本挖掘技術對生物醫學文獻數據進行管理是非常有必要的。

二、文本挖掘過程

文本挖掘通常包括文本數據預處理、特征信息提取和數據挖掘三個步驟。文本挖掘過程如圖1所示:

圖1 文本挖掘過程

文本數據預處理的質量會直接影響到最終的結果,英文文本數據預處理包括無用詞過濾和詞干化處理。文本特征信息提取是將非結構化或半結構化的文本數據轉化為挖掘工具可以處理的中間形式的過程,特征提取首先要識別文本中包含重要信息的特征項。本文采用數學模型來表示這些特征項,常用的特征表示模型有布爾模型、向量空間模型和概率模型,通過特征表示得到的向量維數較高,特征抽取的基本思想是利用映射的方法將高維特征映射到低維空間中,特征抽取一般是構造一個評價函數,然后對每個特征向量進行評估,刪除評估分數較低的特征向量。經過特征信息提取之后,文本數據以結構化形式存儲在數據庫中,因此計算機就可以對文本數據的特征信息進行分類、聚類、關聯分析和趨勢分析等數據挖掘處理。

三、文本挖掘技術在生物醫學文獻管理中的應用

將文本挖掘技術應用到生物醫學領域中,通過挖掘文本數據發現生物醫學的規律,能夠提高生物醫學文獻管理的效率。

(一)生物醫學文獻分類

對生物醫學文獻進行合理分類可以對文獻的組織和搜索帶來極大的便利,也為進一步的數據處理打下基礎。文本分類是指將文本數據映射到預先定義好的類別中,我國常用的分類方法有基于距離的方法、決策樹分類法、貝葉斯分類法等。生物醫學文獻語料庫是對生物醫學文獻分類的基礎,目前國際上可以公開獲取的生物醫學語料庫有:GENIA語料庫、Yapex語料庫、PDG語料庫等。另外由于生物醫學文獻中的專用術語較多,有些術語在文獻中出現次數不多但非常重要,具有很強的分類特征,因此如何在已有的分類方法的基礎上設計出符合這一特點的算法來提高生物醫學文獻分類的準確率和效率是亟待解決的問題。

(二)生物醫學文獻關系抽取

生物醫學文獻關系抽取的目的是從文獻信息中找出生物實體之間的關系,例如基因與某種疾病之間的關系。由于生物醫學文獻中同一概念有多種不同的表示方法,同時文獻中也可能出現很多語料庫中不存在的新概念,因此生物醫學文獻關系抽取的難度較大,國際上常用的關系抽取方法有共現方法、關鍵詞方法、機器學習方法和自然語言處理方法[2]。這些方法在生物醫學文獻關系抽取中都存在一些不足之處,有學者提出利用向量空間模型來識別文獻中生物實體間的關系,在現有方法的基礎上進行開發或多種方法融合運用以期獲得更準確的關系抽取結果。

本文主要介紹了生物醫學文獻的分類和關系抽取,當前生物醫學文本挖掘的研究熱點主要集中在文獻分類、信息檢索、自動摘要、生物醫學領域實體識別、文獻信息關系抽取等方面。通過文本分類可以縮小搜索范圍,為后續的數據處理做準備;通過信息檢索可以幫助用戶在海量的文本信息中快速找到有價值的信息;通過自動摘要技術計算機可以自動地從原始生物醫學文獻中提取出主要內容,使研究者不用花費較多時間就可以從海量的生物醫學文獻中獲得有價值的信息。通過文獻信息關系抽取技術可以從生物醫學文獻中抽取出特定的事實信息,對生物知識網絡的建立、生物體關系的預測和新藥的研制等均具有重要的意義。

四、總結

文本挖掘是當今國內外學者研究的熱點問題,其在生物醫學領域的研究具有廣闊的應用前景和重要的現實意義。本文概述了在生物醫學文獻中文本挖掘的具體過程,重點論述了文本挖掘在生物醫學文獻的分類和關系抽取中的應用和研究狀況。文本挖掘技術在生物醫學文獻管理中的應用在近年來已取得了一定成果,但在很多方面仍需要更深入地研究和探索,文本挖掘技術的提升將會推動生物醫學領域的發展進步。

參考文獻:

[1]楊斌,孟志青.一種文本分類數據挖掘的技術[J].湘潭大學自然科學學報,2001,23(4):34-37

[2]王浩暢,趙鐵軍.生物醫學文本挖掘技術的研究與進展[J],中文信息學報,2008,22(3):89-98

主站蜘蛛池模板: 精品夜恋影院亚洲欧洲| 国产永久无码观看在线| 国产综合网站| 99人妻碰碰碰久久久久禁片| 亚洲欧美日韩视频一区| 亚洲人成网站观看在线观看| 91精品国产麻豆国产自产在线| 国产高潮视频在线观看| 99re66精品视频在线观看| 久久人体视频| 精品视频第一页| 亚洲天堂视频网站| 中文一区二区视频| 亚洲日本韩在线观看| 国产精品无码AV中文| 久久国产亚洲偷自| 亚洲国产综合自在线另类| 99这里只有精品6| 亚洲国产成人久久77| 欧美黄色a| 亚洲第一香蕉视频| 日本成人精品视频| 色精品视频| 欧美日韩国产系列在线观看| 亚洲乱亚洲乱妇24p| 国产精品嫩草影院视频| 久久亚洲美女精品国产精品| 成年免费在线观看| 亚洲综合婷婷激情| 无码丝袜人妻| 日韩AV手机在线观看蜜芽| 欧美三级日韩三级| 日韩区欧美国产区在线观看| 中文字幕欧美日韩| 在线观看亚洲国产| 欧美一区中文字幕| 最近最新中文字幕在线第一页| 天堂va亚洲va欧美va国产 | 亚洲欧美日韩综合二区三区| www.亚洲一区| 欧美一区日韩一区中文字幕页| 午夜精品一区二区蜜桃| 看av免费毛片手机播放| 小蝌蚪亚洲精品国产| 国产自在线播放| 精品久久久久久中文字幕女| 人人澡人人爽欧美一区| 国产福利小视频高清在线观看| 国产无码高清视频不卡| 欧美亚洲另类在线观看| 欧美日韩国产成人高清视频| 超级碰免费视频91| 亚洲三级视频在线观看| 国产亚洲精久久久久久久91| 中国一级毛片免费观看| 久久这里只精品国产99热8| 九九九精品成人免费视频7| 久久免费精品琪琪| 国产麻豆福利av在线播放| 欧美一区二区精品久久久| 欧美中文一区| 色婷婷在线影院| 国产第二十一页| 99er精品视频| 免费观看无遮挡www的小视频| 四虎影视永久在线精品| 日韩av无码精品专区| 国产成人毛片| 欧美在线观看不卡| 五月综合色婷婷| 人妻精品久久无码区| 啦啦啦网站在线观看a毛片| 日韩毛片免费| 免费一级毛片完整版在线看| 国产成人一区| 国产91透明丝袜美腿在线| 欧美日韩另类在线| 色哟哟国产精品一区二区| 99热国产这里只有精品无卡顿" | 国产自在线播放| 日韩亚洲综合在线| 欧美精品综合视频一区二区|