999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡爬蟲和文本挖掘的實體關系研究與實現

2016-06-08 06:48:56謝文彬
現代計算機 2016年13期
關鍵詞:文本信息

謝文彬

(同濟大學電子與信息工程學院,上海 201804)

?

基于網絡爬蟲和文本挖掘的實體關系研究與實現

謝文彬

(同濟大學電子與信息工程學院,上海201804)

摘要:

關鍵詞:

0 引言

隨著科技不斷進步,越來越多的生物資源在網上發布,PubMed Central(PMC)[1]是一個免費的生物和生命科學文本全文數據庫。但是作為國外數據,數據下載速度慢,能夠下載的資料并不是完整的PMC數據,而且,僅僅只是下載原文,并不能給許多生物學者提供很多有價值的信息。現在PMC數據庫中總計大約擁有380萬篇全文數據,但是能夠通過FTP下載的文章只占到一半不到。其次,PMC自帶的搜索引擎并不能提供很好的實體關系搜索,例如要研究疾病和基因之間的關系。所以我們急需一種快捷有效的方法把生物學者所需的研究數據從網頁上下載下來,經過預處理,成為本地可以批量處理的數據,再通過本地的服務器對數據進行快速的搜索抽取工作。

1 系統體系結構

文本挖掘的主要用途是從原本未經處理的文本中提取出未知的知識,但是文本挖掘也是一項非常困難的工作,因為它必須處理那些本來就模糊而且非結構化的文本數據,所以它是一個多學科混雜的領域,涵蓋了信息技術、文本分析等技術,而且在網絡時代,原始數據的獲取主要通過網絡途徑,所以在實際挖掘過程中,系統分為4個大模塊:

1.1收集與實體相關的論文

在PMC中,有官方網頁提供的搜索引擎(http:// www.ncbi.nlm.nih.gov/pmc/),通過該搜索引擎,可以先做粗篩選。例如研究基因和疾病的關系,可以在搜索欄中輸入“Gene Disease”,結果搜索到大約74萬的論文,這樣可以去除數據庫中大部分與研究對象無關的論文,然后使用網站提供的下載功能抽出這些論文的編號,作為URL的部分地址。

1.2網絡爬蟲

將上一步收集的網頁編號,根據PMC論文自帶的論文URL地址,http://www.ncbi.nlm.nih.gov/pmc/articles/ PMC3578923/,其中“3578923”替換成任意待抓取的文章。批量抓取所需要研究的論文。

1.3數據處理與清洗

將從網頁上爬取的XML格式的文本數據進行去標記語言,識別論文所具有的編號、題目、摘要、論文主題、作者、引用等信息,存入本地用于文本挖掘。

1.4文本挖掘

在文本挖掘中,預先準備好兩種實體的詞庫,例如基因詞庫,包括基因的編號,正式名字和同義名的信息。然后將論文切分成句子,搜索兩類實體是否同時出現在一個句子里,若有則抽取出來,并認為兩個實體間很可能有關系,最后在進行所需研究。

圖1 系統基本結構和工作流程

2 關鍵技術和部分代碼

2.1網絡爬蟲

網絡爬蟲是捜索引擎抓取系統的重要組成部分。爬蟲的主要目的是將互聯網上的網頁下載到本地形成一個內容的鏡像備份。該網絡爬蟲模塊以python為基礎語言,調用thread、urllib2和socket三個程序包,編寫網絡爬蟲。

其中thread包的多線程爬取加速爬取速度,并且加入異常處理模塊,以下為部分代碼:

2.2去標記語言

使用正則表達式,去除無用標記語言,并識別XML網頁文件中所需信息,以下為部分代碼:

2.3倒排索引

在文本挖掘中,詞庫以字典作為存儲形式,每個疾病對應唯一編號和它的若干個疾病同義名。在查找句子中單詞所對應的疾病時,為了加速搜索,使用倒排索引記錄疾病詞庫信息。如表1,字典編號使用疾病的名字,對應的映射是疾病的編號。在檢索中,將字典按照名字排序,在使用二分查找對應疾病名字是否存在字典中,并找出對應編號。

表1 疾病倒排索引存儲形式

2.4停用詞表

停用詞表包含了文章中的常用詞。例如表示數量的詞語,語氣詞等。這些詞不僅可能和研究實體重名,導致嚴重的檢索錯誤,更會加重我們的檢索負擔。在實際檢索中,系統會先確定單詞是否屬于停用詞表,若屬于則不檢索該詞。

3 結果展示

疾病詞庫從DiseaseOntology[2]中下載整理,總共8944個不同疾病;基因詞庫從NCBI(http://www.ncbi. nlm.nih.gov/gene/)中下載整理,總共29521個不同的基因,從PMC中抓取總共74萬多篇文獻。使用文本挖掘系統檢索,結果共有140813條句子同時包含基因和疾病名字。

4 結語

隨著網絡資源的不斷膨脹,社會越來越需要各種自動化的技術來去除有用的信息,收集有價值的信息,并提取信息中的規律造福人類,例如某些基因導致某種疾病的產生。本文基于網絡爬蟲和文本挖掘的常用技術,為生物科學家對于實體間關系的研究,例如基因和疾病,疾病和藥物,藥物和蛋白質等各種關系,提供了便利的文本抽取方法。

參考文獻:

[1]Coordinators,N. R. "Database resources of the National Center for Biotechnology Information."[J]Nucleic Acids Res,2016 44(D1): D7-D19.

[2]Schriml,LM;Arze,C;Nadendla,S;Chang,YW;Mazaitis,M;Felix,V;Feng,G;Kibbe,WA . Disease Ontology: a Backbone for Disease Semantic Integration.[J]. Nucleic Acids Research 40(Database issue)2012: D940-6.

Research on Entity Relationship Based on Web Crawler and Text Mining

XIE Wen-bin
(School of Electronics and Information Engineering,Tongji University,Shanghai 201803)

Abstract:

Keywords:

隨著網絡資源的不斷膨脹,有關生物文獻資源越來越多,生物學家急需各種自動化的技術從海量文獻中抽取有價值的信息。基于網絡爬蟲和文本挖掘的技術,設計研發一個用于挖掘網絡上電子版論文中實體關系的系統,并且使用該系統,成功挖掘有關疾病和基因的關系。

網絡爬蟲;實體;文本挖掘;疾病;基因

文章編號:1007-1423(2016)13-0019-03

DOI:10.3969/j.issn.1007-1423.2016.13.005

作者簡介:

謝文彬(1990-),男,江蘇蘇州人,碩士研究生,研究方向為文本挖掘與關系抽取

收稿日期:2016-03-15修稿日期:2016-04-16

With the continuous increase of web resource,more and more document resource emerges,biologists are urgent to get valuable information from huge document by using a variety of automatics technique. Based on the development of web crawler and text mining,designs a novel system to excavate the entity relationship among electronic papers on the internet and apply successfully such system to catch the relation between disease and gene.

Web Crawler;Entity;Text Mining;Disease;Gene

猜你喜歡
文本信息
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产精品亚洲一区二区三区在线观看| 国产91视频观看| 日韩无码黄色| 农村乱人伦一区二区| AV不卡无码免费一区二区三区| 一级做a爰片久久毛片毛片| 国产不卡在线看| 99在线视频免费| 久久国产高清视频| 日韩成人在线视频| 国产在线自揄拍揄视频网站| 99久久国产综合精品女同| 亚洲精品动漫| 思思99思思久久最新精品| 乱人伦99久久| www.国产福利| 这里只有精品在线| 国产欧美视频在线| 亚洲av无码久久无遮挡| 免费AV在线播放观看18禁强制| 色有码无码视频| 5555国产在线观看| 天天躁夜夜躁狠狠躁图片| 91国语视频| 国产在线一二三区| 欧美午夜理伦三级在线观看| www.日韩三级| 国产综合欧美| 99精品免费在线| 亚洲欧美激情小说另类| 国产精品尹人在线观看| 国产超碰一区二区三区| 美女扒开下面流白浆在线试听 | 国产精品亚洲专区一区| 国产成人一区| 国产丝袜无码一区二区视频| 搞黄网站免费观看| 久久91精品牛牛| 日韩天堂网| 亚洲天堂网在线观看视频| 在线中文字幕网| AV片亚洲国产男人的天堂| 97久久超碰极品视觉盛宴| 国产精品私拍在线爆乳| 欧美成人综合在线| www.精品视频| 伊人久久精品无码麻豆精品| 国产喷水视频| 国产激爽爽爽大片在线观看| 91在线激情在线观看| 亚洲天堂成人| 一本大道无码日韩精品影视| 香蕉久久永久视频| 亚洲丝袜中文字幕| 亚洲午夜福利精品无码不卡 | 精品欧美一区二区三区久久久| 久草中文网| 青青极品在线| 亚洲三级网站| 国产亚洲精品在天天在线麻豆| 久久午夜夜伦鲁鲁片不卡| 欧美激情伊人| 又黄又湿又爽的视频| 国产精品美女自慰喷水| 亚洲第一中文字幕| 国产美女一级毛片| 国产新AV天堂| 国产精品久久久久鬼色| 毛片网站在线播放| 动漫精品啪啪一区二区三区| 亚洲AV无码一二区三区在线播放| 亚洲伊人天堂| 国产亚洲男人的天堂在线观看 | 欧美激情二区三区| 久久综合九色综合97婷婷| 九色在线观看视频| 久久免费视频6| 久久久国产精品免费视频| 99精品国产电影| 亚洲欧美激情另类| 中文字幕首页系列人妻| av色爱 天堂网|