999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分類器串聯(lián)融合的生物醫(yī)學命名實體識別

2011-12-14 06:58:14馬瑞民馬民艷王浩暢
東北石油大學學報 2011年2期
關鍵詞:特征融合方法

馬瑞民,馬民艷,王浩暢

(東北石油大學計算機與信息技術學院,黑龍江大慶 163318)

基于分類器串聯(lián)融合的生物醫(yī)學命名實體識別

馬瑞民,馬民艷,王浩暢

(東北石油大學計算機與信息技術學院,黑龍江大慶 163318)

鑒于生物醫(yī)學命名實體識別的多數模型使用單機器學習算法時識別效果不好,提出一種基于條件隨機域(CRFs)與最大熵(Maxent)分類器融合的方法,利用基分類器之間的相關性和互補性,結合有效的特征集合,進行再學習,得到融合模型.實驗表明,該模型的識別性能與單一分類器和JNLPBA專題會議相關的系統(tǒng)比較,取得很好成績,F測度達到70.7%,證明該融合方法有效.

條件隨機域;最大熵;分類器融合;特征提取;生物醫(yī)學命名實體識別

0 引言

生物醫(yī)學的快速發(fā)展產生大量的生物醫(yī)學數據,從生物醫(yī)學文獻中發(fā)掘出隱含的生物醫(yī)學知識是生物醫(yī)學信息抽取的重要意義所在.生物醫(yī)學命名實體識別是生物醫(yī)學信息抽取的一項重要任務,它主要是從醫(yī)學文獻中發(fā)現基因、蛋白質、DNA、RNA等生物醫(yī)學命名實體.目前,生物醫(yī)學命名實體識別的方法主要有基于字典、基于規(guī)則和基于機器學習3種方法[1].

在生物醫(yī)學命名實體識別的研究初期,常使用基于字典的方法,如 Krauthammer M等[2]利用DNA和蛋白質序列比較工具BLAST識別生物醫(yī)學命名實體.此方法簡單實用,對于字典中存在的生物醫(yī)學命名實體有極高的識別準確率;但由于新的生物醫(yī)學命名實體不斷出現,所以基于字典的方法對于自由文本的生物醫(yī)學命名實體識別效果不佳.

Olsson F等[3]利用基于規(guī)則的方法識別生物醫(yī)學命名實體,F達到67%.與基于詞典的方法比較,基于規(guī)則方法的識別性能有所增強,但它具有花費大量人工勞動、可移植性差等缺點.

近年來,基于機器學習的方法成為生物醫(yī)學命名實體識別的重要方法.文獻[4-7]分別提出基于隱馬爾可夫模型、感知器、支持向量機、最大熵的方法,這些方法把詞性、詞形等特征融入到機器學習模型中,利用訓練得到的學習模型從生物醫(yī)學文本集合中識別指定類型的名稱.Zhou Guodong等[4]的研究 F達到74%.

由于基于機器學習的方法能夠判別生物醫(yī)學命名實體數據庫中未包含的實體,方法靈活.該方法已成為生物醫(yī)學命名實體識別研究的主流方法.目前,生物醫(yī)學命名實體識別的多數識別模型是使用單機器學習算法,單機器學習算法不能夠取得非常好的識別效果.這說明單一算法結合豐富的特征并不能完全表達生物醫(yī)學命名實體的特點.通過對各種統(tǒng)計學習方法的分析可以發(fā)現,不同的學習模型之間存在著互補性和相關性,所以分類器融合是一種改進的新思路.

為此,筆者采用條件隨機域算法和最大熵算法二者融合的方法,結合豐富的特征集合,包括局部特征、全文特征和外部資源特征,以提高生物醫(yī)學命名實體識別的識別性能.

1 算法

1.1 條件隨機域算法

條件隨機域(Conditional Random Fields,CRFs)在自然語言處理領域當中適合解決標注序列化數據任務,模型的特性表明它非常適用于生物醫(yī)學領域的命名實體識別研究,該算法詳見文獻[8].

1.2 最大熵算法

最大熵(Maximum Entropy,Maxent)算法在自然語言處理方面也是一種主要的處理方法.該方法最大的優(yōu)點是,實驗者只需要考慮提取特征,而不用考慮如何使用這些特征,每個特征的貢獻由相應的權值來決定,而這些權值可由 GIS學習算法自動得到,該算法詳見文獻[9].

圖1 分類器融合圖示

1.3 融合方法

如果把單個分類器比作一個決策者,分類器融合的方法就相當于多個決策者共同進行一項決策.

分類器融合的基本思想見圖1.選用豐富的特征集合,首先利用條件隨機域算法訓練得到一個基本分類器M1,輸出結果為C1,然后把 C1添加到特征集合中,再利用最大熵算法進行訓練和測試,即將這2種基本分類器進行融合,得到分類器M2,最終的測試訓練結果為C2.

2 特征選取

生物醫(yī)學命名實體識別中常用的特征主要有:局部特征,包括文本符號本身的特征和文本符號局部的上下文特征及其周圍的詞或符號的特征;全文特征,即文本符號在整個篇章中的上下文特征;外部資源特征,如使用一些外部資源詞典等.

使用7種特征[10]:

(1)單詞本身.把單詞本身作為一個識別特征.

(2)詞形特征.由于生物醫(yī)學命名實體一般含有數字、大寫字母和特殊符號等,將這些簡單的表面特征定義為詞形特征.本實驗將大寫字母用‘A’替換,數字用‘0’替換,非英語字符用‘-’替換,小寫字母用‘a’替換.

(3)標準化拼寫特征.某些同類的生物醫(yī)學命名實體拼寫方式很類似,如NP-1and NP-5.對這些類似詞采取方法處理,如Jcllc-B,將它規(guī)范化為‘Aaaaa—A’,將連續(xù)相同的字符再縮短,即‘Aa—A’.此方法能夠將拼寫相似的命名實體提取的特征保持一致.

(4)詞性特征.生物醫(yī)學命名實體的大寫字母特征對其識別性能貢獻不大,并且生物醫(yī)學命名實體多是描述性的名稱而且名稱很長,所以,詞性特征對識別生物醫(yī)學命名實體邊界很有幫助.本系統(tǒng)使用 GEN IA tagger2.0.2[11]詞性標注器,該詞性標注器是生物醫(yī)學領域文本專用的詞性標注器.

(5)關鍵詞特征.利用統(tǒng)計方法在訓練集中統(tǒng)計出高頻的生物醫(yī)學命名實體關鍵詞,將這些詞是否出現作為特征.

(6)別名特征.把已經識別出來的生物醫(yī)學命名實體保存在一個表中,當系統(tǒng)開始識別某個詞時,生物醫(yī)學命名實體識別算法會對該詞是否是表中詞的別名做出決定.

(7)字典特征.使用一些字典資源作為特征加入特征向量空間,有Common Word詞典、Species詞典、Tissue詞典和 Endings of Chem icals詞典[12]等.

如句子:Number of GLucocorticoid(p rotein)recep to rs in lymphocytes(cell-type)and their sensitivity to hormone action特征提取見表1.

表1 特征提取實例

3 實驗與結果分析

實驗采用的語料是JNLPBA 2004,用它進行訓練和測試.JNLPBA的訓練語料由 GEN IA 3.02語料中的2 000篇摘要組成,測試語料由當時未出版的404篇M EDL INE摘要組成.

實驗使用2 000篇訓練語料,語料中的命名實體分為5類:DNA、RNA、Protein、Cell—line和 Cell—type.利用.net平臺、采用c#編程語言完成文中實驗系統(tǒng),實驗結果由精確率(P)、召回率(R)和 F測度(F)評價,且使用全部匹配模式.

表2 CRFs與Maxent融合模型各類別實體實驗結果

利用CRFs算法與Maxent算法進行融合,融合模型對各類別實體實驗結果見表2,其中O-verall為5類生物醫(yī)學命名實體的平均值.

為驗證融合方法的有效性,本實驗測試CRFs和Maxent單一分類器的識別性能,F測度分別為69.2%和67.5%,采用 CRFs與 M axent融合方法后,F測度達到70.7%,結果見表3.

表3 CRFs與Maxent單一分類器與融合后結果

由表3可以看出,CRFs的性能要高于M axent,而融合后的分類器比單一分類器的識別性能提高1.5%左右,證明該融合方法有效.

基于CRFs與Maxent融合的系統(tǒng)和JNLPBA專題會議相關系統(tǒng)比較的結果見表4.由表4可以看出,該方法取得較好的效果.

表4 CRFs與Maxent融合與JNLPBA相關系統(tǒng)結果

通過分析實驗數據,可以得到:

(1)最大熵模型獲得的是所有滿足約束條件的模型中信息熵極大的模型.此模型中二值化特征只是記錄特征的出現與否,而文本分類需要知道特征的強度,因此它在分類方法中不是最優(yōu)的;但是它能解決統(tǒng)計模型中參數平滑的問題.

(2)CRFs模型是在M axent模型的基礎上改進的,它能更好地利用待識別文本中所提供的上下文信息,并且避免嚴格的獨立性假設和數據歸納偏置問題.

(3)CRFs模型和最大熵模型融合后,系統(tǒng)性能明顯提高,F測度達到70.7%.這是因為CRFs模型能夠賦予M axent模型適當的權重,有效利用基分類器結果之間的互補性和相關性,從而提高識別性能.

4 結束語

提出了基于CRFs分類器和Maxent分類器融合的方法.該方法利用2種分類器之間的互補性和相關性,有效地彌補單一分類器的不足.實驗表明,結合有效特征集合,將CRFs分類器和M axent分類器融合是一種非常有效的融合方法,融合后識別性能明顯優(yōu)于基于單分類器的識別系統(tǒng),F測度達到70.7%,對于一定領域內的生物醫(yī)學命名實體識別任務有很好的效果.

[1]王浩暢,趙鐵軍.生物醫(yī)學文本挖掘技術的研究與進展[J].中文信息學報,2008,22(3):89-98.

[2]Krauthammer M,Rzhetsky A,Morozov P,et al.Using BLAST for identifying gene and p rotein names in journal articles[J].GENE,2000,259(1):245-252.

[3]Olsson F,Er iksson G,Franzen K,et al.Notions of co rrectness w hen evaluating p rotein name taggers[C/OL]//Proceedings of the 19 th international conference on computational linguistics.2002:765-771[2007-05-10].http://www.sics.se/~fredriko/papers/coling02.pdf.

[4]Zhou Guodong,Zhang Jie,Su Jian,et al.Recognizing names in biomedical texts:a machine learning app roach[J].Bioinformatics,2004,20(7):1178-1190.

[5]胡俊鋒,陳浩,陳蓉,等.基于感知器的生物醫(yī)學命名實體邊界識別算法[J].計算機應用;2007,27(12):3026-3031.

[6]王浩暢,趙鐵軍.基于SVM的生物醫(yī)學命名實體識別[J].哈爾濱工程大學學報,2006,27(增):570-574.

[7]L N Y F,TSA IT H,Chou W C,et al.A maximum entropy app roach to biomedical named entity recognition[C/OL]//4th workshop on datamining in bioinfo rmatics.2004:56-61[2007-05-01].http://iasl.iis.sinica.edu.tw/w ebpdf/paper-2004-A—Maximum—Entropy—App roach—to—Biomedical—Named_Entity—Recognition.pdf.

[8]Lafferty J,M ccallum A,Pereira F.Conditional random fields:p robabilistic models for segmenting and labeling sequence data.p roc.of the 18th international conference on machine learning[C].San Francisco:2001:282-289.

[9]Tom M.機器學習[M].北京:機械工業(yè)出版社,2000:166-170.

[10]馬瑞民,馬民艷.基于CRFs的多策略生物醫(yī)學命名實體識別[J].齊齊哈爾大學學報,2011,27(1):39-42.

[11]Yoshimasa T,Yuka T,Kim Jin-Dong,et al.Developing a robust part-of-speech tagger fo r biomedical text[A].Advances in Info rmatics-10th panhellenic conference on info rmatics[C].Japen,[s.l.]2005.

[12]M ika S R.Protein names peeled p recisely off free text[J].Bioinfo rmatics,2004,20:241-247.

[13]Finkel J,Dingare S,Nguyen H,et al.Exp loiting context fo r biomedical entity recognition:from syntax to the web[A].Proceedings of the joint wo rkshop on natural language p rocessing in biomedicine and its app lications(JNLPBA-2004)[C].Geneva:Sw itzerland,2004.

[14]Settles B.Biomedical named entity recognition using conditional random fields and novel feature sets[A].Proceedings of the joint wo rkshop on natural language p rocessing in biomedicine and its app lications(JNLPBA-2004)[C].Geneva,Sw itzerland,2004.

[15]Song Y,Km E,Lee G G,et al.POSB DTM-NER in the shared task of BioNLP/NLPBA 2004[C]//Proceedings of the joint wo rkshop on natural language p rocessing in biomedicine and its app lications,2004:100-103[2007-05-01].http://isoft.postech.ac.kr/publication/iconf/bionlp04—song.pdf.

Bio-entity recogn ition based on cascade generalization/2011,35(2):91-94

M A Rui-m in,M A M in-yan,WANG Hao-chang
(College of Com puter and Inform ation Technology,N ortheast Petroleum University,Daqing,Heilongjiang 163318,China)

Currently,most of methods for bio-entity recognition are based on a single machine learning algo rithm and it can not achieve better perfo rmance.Therefo re,in this paper,w e p ropose a cascade generalization method based on the CRFs and Maxentw hich makes use of the compensation and relativity among different classifiers.Experimental results show that the cascade generalization method isobviously superior to the individual classifier based method and the most state of the art system s in JNLPBA conferences.F value reached 70.7%,show ing that the fusion method is effective.

conditional random fields;maximum entropy;cascade generalization;feature extraction;bio-entity recognition

TP311.135

A

1000-1891(2011)02-0091-04

2010-11-03;審稿人:劉賢梅;編輯:陸雅玲

黑龍江省自然科學基金項目(F200603)

馬瑞民(1958-),男,教授,主要從事數據庫及相關技術方面的研究.

猜你喜歡
特征融合方法
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 九九九久久国产精品| 青草91视频免费观看| 小说 亚洲 无码 精品| 欧美日韩免费在线视频| 青青网在线国产| 不卡无码网| 欧美激情,国产精品| 黄色网址手机国内免费在线观看| 2020亚洲精品无码| 中国毛片网| 国产精品网址你懂的| 网友自拍视频精品区| 日韩人妻少妇一区二区| 婷婷午夜天| 91麻豆精品视频| 国产成人无码久久久久毛片| 亚洲综合一区国产精品| 久久精品无码专区免费| 亚洲—日韩aV在线| 最新国语自产精品视频在| 熟女成人国产精品视频| 亚洲一区二区无码视频| 国产麻豆aⅴ精品无码| 久久夜夜视频| 欧美中文字幕在线视频| 91午夜福利在线观看| 国产精品久久久久无码网站| 伊在人亚洲香蕉精品播放| 麻豆国产在线观看一区二区| 成人亚洲视频| 久久毛片基地| 精品久久国产综合精麻豆| 久久视精品| 成人中文在线| 国内99精品激情视频精品| 久久先锋资源| 国产精品久久久久久久久久久久| 四虎AV麻豆| 四虎影视8848永久精品| 99re经典视频在线| 欧美无遮挡国产欧美另类| 亚洲国产中文在线二区三区免| 久草视频中文| 国产凹凸视频在线观看| 91丨九色丨首页在线播放| 亚洲天堂免费| 亚洲黄网在线| 美女无遮挡免费网站| 有专无码视频| 伊人蕉久影院| 99久久国产综合精品2023| 国产喷水视频| 国产成人凹凸视频在线| 亚洲午夜天堂| h视频在线播放| 男人天堂伊人网| 日韩黄色精品| 五月婷婷综合网| 在线亚洲精品福利网址导航| 久久精品中文无码资源站| 精品一区二区无码av| 福利小视频在线播放| 国产成人精品综合| 一区二区自拍| 亚洲午夜福利精品无码不卡| 97国产成人无码精品久久久| 91香蕉视频下载网站| 激情亚洲天堂| 91午夜福利在线观看精品| 亚洲男人在线天堂| 69国产精品视频免费| 久久天天躁狠狠躁夜夜2020一| 欧美日韩国产在线播放| 亚洲日韩精品无码专区| 久久精品中文字幕免费| jijzzizz老师出水喷水喷出| 三上悠亚精品二区在线观看| 欧洲日本亚洲中文字幕| 亚洲福利网址| 中文字幕永久在线看| 日韩成人免费网站| av一区二区无码在线|