錢 慶(中國醫學科學院醫學信息研究所,北京 100020)
基于知識組織系統的生物醫學文本挖掘研究
錢慶
(中國醫學科學院醫學信息研究所,北京 100020)
隨著生物醫學信息技術的飛速發展,生物醫學文獻呈“指數型”增長,單純依靠人工閱讀獲取和理解所需知識變得異常困難,如何從海量生物醫學文獻中整合已有知識、挖掘新知識成為當前研究熱點。生物醫學領域的知識組織系統建設相比其他領域更加規范和完整,為生物醫學文本挖掘奠定了基礎,大量基于知識組織系統的文本挖掘方法、系統得到快速發展。本文主要梳理現有醫學知識組織系統,歸納生物醫學文本挖掘的主要流程,按照挖掘任務探討當前的主要研究和進展情況,并進一步分析基于知識組織系統的生物醫學文本挖掘的特點,對知識組織系統在生物醫學文本挖掘中發揮的主要作用和當前研究面臨的挑戰進行總結,以期為生物醫學工作者提供借鑒。
知識組織系統;文本挖掘;信息檢索;信息抽取;知識發現
隨著生物醫學信息技術的飛速發展,生物醫學信息資源增長快速,特別是文獻資源呈“指數型”增長。PubMed是生物醫學文獻的主要倉儲,包括MEDLINE、生命科學期刊和在線圖書等,現有數據2 300多萬條,以每年100多萬篇的速度增長,并且這個數字在未來還會不斷增加。在科學領域的開放獲取期刊中,生物醫學資源也是數量最多、增長最快的。急劇增長的生物醫學文獻為生物醫學研究提供了豐富的資源,但是也造成信息獲取的困難。……