999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘技術在生物醫學文獻管理中的應用

2012-04-12 00:00:00樓婷淵孟志青胡強
現代營銷·學苑版 2012年10期

摘要:生物醫學文獻以非結構化的文本形式存在,文本挖掘能夠從海量的生物醫學文獻中發現有趣的知識和模式,可以提高對生物醫學文獻的管理和建設效率。本文針對生物醫學領域,闡述了文本挖掘的具體過程,論述了生物醫學文本挖掘現有的研究方法,詳細討論了生物醫學文獻的分類和關系抽取,最后對文本挖掘在生物醫學領域的應用前景做了展望。

關鍵詞:文本挖掘 生物醫學文獻 文本分類 關系抽取

一、引言

信息爆炸時代,各行業每時每刻都在產生和積累大量的以各種形式保存的信息,這些信息以指數級的速度不斷積累和增長,如何快速準確地從這些紛亂的數據中提取出有價值的信息是急待解決的問題。文本挖掘是指從大量文本數據中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織信息以便將來參考[1]。如今文本挖掘已經成為國際上非常活躍的一個研究領域。

隨著生物醫學領域的快速發展,生物醫學文獻呈指數級增長,成為一座巨大的知識寶庫。然而面對如此大規模的、快速增長的科學文獻數據,即便是該領域內的專家也無法依賴手工方式從中獲取感興趣的信息。由于生物醫學文獻絕大多數都是以非結構化的形式存在于文本文件中,因此采用文本挖掘技術對生物醫學文獻數據進行管理是非常有必要的。

二、文本挖掘過程

文本挖掘通常包括文本數據預處理、特征信息提取和數據挖掘三個步驟。文本挖掘過程如圖1所示:

圖1 文本挖掘過程

文本數據預處理的質量會直接影響到最終的結果,英文文本數據預處理包括無用詞過濾和詞干化處理。文本特征信息提取是將非結構化或半結構化的文本數據轉化為挖掘工具可以處理的中間形式的過程,特征提取首先要識別文本中包含重要信息的特征項。本文采用數學模型來表示這些特征項,常用的特征表示模型有布爾模型、向量空間模型和概率模型,通過特征表示得到的向量維數較高,特征抽取的基本思想是利用映射的方法將高維特征映射到低維空間中,特征抽取一般是構造一個評價函數,然后對每個特征向量進行評估,刪除評估分數較低的特征向量。經過特征信息提取之后,文本數據以結構化形式存儲在數據庫中,因此計算機就可以對文本數據的特征信息進行分類、聚類、關聯分析和趨勢分析等數據挖掘處理。

三、文本挖掘技術在生物醫學文獻管理中的應用

將文本挖掘技術應用到生物醫學領域中,通過挖掘文本數據發現生物醫學的規律,能夠提高生物醫學文獻管理的效率。

(一)生物醫學文獻分類

對生物醫學文獻進行合理分類可以對文獻的組織和搜索帶來極大的便利,也為進一步的數據處理打下基礎。文本分類是指將文本數據映射到預先定義好的類別中,我國常用的分類方法有基于距離的方法、決策樹分類法、貝葉斯分類法等。生物醫學文獻語料庫是對生物醫學文獻分類的基礎,目前國際上可以公開獲取的生物醫學語料庫有:GENIA語料庫、Yapex語料庫、PDG語料庫等。另外由于生物醫學文獻中的專用術語較多,有些術語在文獻中出現次數不多但非常重要,具有很強的分類特征,因此如何在已有的分類方法的基礎上設計出符合這一特點的算法來提高生物醫學文獻分類的準確率和效率是亟待解決的問題。

(二)生物醫學文獻關系抽取

生物醫學文獻關系抽取的目的是從文獻信息中找出生物實體之間的關系,例如基因與某種疾病之間的關系。由于生物醫學文獻中同一概念有多種不同的表示方法,同時文獻中也可能出現很多語料庫中不存在的新概念,因此生物醫學文獻關系抽取的難度較大,國際上常用的關系抽取方法有共現方法、關鍵詞方法、機器學習方法和自然語言處理方法[2]。這些方法在生物醫學文獻關系抽取中都存在一些不足之處,有學者提出利用向量空間模型來識別文獻中生物實體間的關系,在現有方法的基礎上進行開發或多種方法融合運用以期獲得更準確的關系抽取結果。

本文主要介紹了生物醫學文獻的分類和關系抽取,當前生物醫學文本挖掘的研究熱點主要集中在文獻分類、信息檢索、自動摘要、生物醫學領域實體識別、文獻信息關系抽取等方面。通過文本分類可以縮小搜索范圍,為后續的數據處理做準備;通過信息檢索可以幫助用戶在海量的文本信息中快速找到有價值的信息;通過自動摘要技術計算機可以自動地從原始生物醫學文獻中提取出主要內容,使研究者不用花費較多時間就可以從海量的生物醫學文獻中獲得有價值的信息。通過文獻信息關系抽取技術可以從生物醫學文獻中抽取出特定的事實信息,對生物知識網絡的建立、生物體關系的預測和新藥的研制等均具有重要的意義。

四、總結

文本挖掘是當今國內外學者研究的熱點問題,其在生物醫學領域的研究具有廣闊的應用前景和重要的現實意義。本文概述了在生物醫學文獻中文本挖掘的具體過程,重點論述了文本挖掘在生物醫學文獻的分類和關系抽取中的應用和研究狀況。文本挖掘技術在生物醫學文獻管理中的應用在近年來已取得了一定成果,但在很多方面仍需要更深入地研究和探索,文本挖掘技術的提升將會推動生物醫學領域的發展進步。

參考文獻:

[1]楊斌,孟志青.一種文本分類數據挖掘的技術[J].湘潭大學自然科學學報,2001,23(4):34-37

[2]王浩暢,趙鐵軍.生物醫學文本挖掘技術的研究與進展[J],中文信息學報,2008,22(3):89-98

主站蜘蛛池模板: 在线观看无码a∨| 久久夜色精品| 91精品国产一区自在线拍| 精品伊人久久久大香线蕉欧美| 九一九色国产| 蜜桃视频一区二区三区| 91在线中文| 欧洲成人在线观看| 亚洲高清中文字幕| 日本一区二区不卡视频| 大乳丰满人妻中文字幕日本| 国产精品午夜福利麻豆| 欧美精品在线视频观看| 国内精品久久久久久久久久影视| 日韩精品中文字幕一区三区| 久久精品国产亚洲麻豆| 亚洲色欲色欲www网| 亚洲91在线精品| 日韩二区三区| 久久精品无码中文字幕| 国产在线观看高清不卡| 国产一区二区三区视频| 无码一区中文字幕| 青青青视频免费一区二区| 国产精品午夜电影| 欧美无专区| 国产成人a毛片在线| 国产成人欧美| 日韩高清欧美| 国产打屁股免费区网站| 亚洲欧美综合在线观看| 99久久精品国产精品亚洲 | 欧美一级在线| 怡春院欧美一区二区三区免费| 亚洲国产91人成在线| 操国产美女| 久久久久久久久18禁秘| 毛片免费网址| 91视频青青草| 无码aaa视频| 欧美精品不卡| 久久午夜影院| 黄色一级视频欧美| 亚欧美国产综合| 欧美在线视频a| 99热这里只有精品免费| 日本精品αv中文字幕| 久久 午夜福利 张柏芝| 久久这里只有精品66| 91无码人妻精品一区二区蜜桃| 99re热精品视频国产免费| 精品1区2区3区| 午夜少妇精品视频小电影| 久久久久久国产精品mv| 欧美成人看片一区二区三区| 精品国产免费观看| 在线国产91| 久久男人资源站| 久久伊人操| 毛片在线区| 91国内外精品自在线播放| 久久国产精品夜色| 免费xxxxx在线观看网站| 亚洲h视频在线| 无码中文字幕乱码免费2| a色毛片免费视频| 波多野结衣中文字幕久久| 91香蕉国产亚洲一二三区 | 又大又硬又爽免费视频| 毛片网站免费在线观看| 欧美三級片黃色三級片黃色1| 99re精彩视频| 国产啪在线| 日韩一级毛一欧美一国产| 91区国产福利在线观看午夜| 国产午夜人做人免费视频| 免费在线一区| 亚洲综合色婷婷| 国产va在线观看免费| 亚洲国产高清精品线久久| 国产精品永久在线| 熟妇丰满人妻av无码区|