999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生物醫(yī)學(xué)文獻(xiàn)中的蛋白質(zhì)關(guān)系抽取研究

2018-08-17 07:10:44趙哲煥楊志豪林鴻飛
中文信息學(xué)報(bào) 2018年7期
關(guān)鍵詞:句法利用方法

趙哲煥,楊志豪,孫 聰,林鴻飛

0 引言

蛋白質(zhì)相互作用關(guān)系(protein-protein interactions,PPIs)對(duì)于構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)和研究生物過程中分子的工作機(jī)制有至關(guān)重要的作用。當(dāng)前,已經(jīng)存在許多PPI數(shù)據(jù)庫(如IntAct[1]、MINT[2]、BioGRID[3]等),但是還有許多PPI仍然隱藏在數(shù)目日益增長的相關(guān)生物醫(yī)學(xué)文獻(xiàn)中。由于人工從海量生物醫(yī)學(xué)文獻(xiàn)中挖掘出有價(jià)值的PPI需要大量的時(shí)間和精力,所以自動(dòng)從相關(guān)文獻(xiàn)中抽取出PPI信息變得非常重要。

針對(duì)蛋白質(zhì)關(guān)系抽取任務(wù),研究者們提出了許多方法[4-7],但是這些方法普遍停留在二元關(guān)系抽取上。即只判斷兩個(gè)蛋白質(zhì)是否存在交互關(guān)系,而不區(qū)分具體的交互關(guān)系類型(如綁定(bind)、抑制(inhibit)、激活(active)、磷酸化(phosphorylate)等),而關(guān)系類型信息對(duì)后續(xù)的蛋白質(zhì)交互作用研究是至關(guān)重要的。

在通用領(lǐng)域,一些研究利用開放式信息抽取(open information extraction,Open IE)方法解決關(guān)系類型丟失的問題[8-11]。Open IE方法可以自動(dòng)地抽取出實(shí)體間關(guān)系“實(shí)體1,關(guān)系詞,實(shí)體2”,其中“關(guān)系詞”是表示“實(shí)體1”和“實(shí)體2”之間關(guān)系類型的詞。Open IE可以抽取任意兩個(gè)實(shí)體間的關(guān)系,不需要提前確定實(shí)體類型。但是,在生物醫(yī)學(xué)領(lǐng)域,研究者只關(guān)心生物醫(yī)學(xué)實(shí)體(蛋白質(zhì)、基因、疾病、藥物等)之間的相互作用關(guān)系。因此,利用Open IE方法從生物醫(yī)學(xué)文獻(xiàn)中抽取生物醫(yī)學(xué)實(shí)體關(guān)系的過程中,需要對(duì)實(shí)體類型進(jìn)行限制。例如,在Nebot等人[12]提出的語義感知Open IE系統(tǒng)中,對(duì)于輸入的生物醫(yī)學(xué)文本,首先利用語義標(biāo)注工具[13]和UMLS[14]識(shí)別出所有的生物醫(yī)學(xué)實(shí)體。然后,通過模板匹配方法找出生物醫(yī)學(xué)實(shí)體之間的關(guān)系。而與Nebot等人的策略不同,Nguyen等人[15]首先利用謂詞—參數(shù)結(jié)構(gòu)(predicate-argument structure,PAS[16])模板從海量生物醫(yī)學(xué)文獻(xiàn)中抽取出大量的實(shí)體關(guān)系。然后,對(duì)于模板匹配出的關(guān)系,進(jìn)行如下兩步后處理,完成實(shí)體類型過濾工作: ①刪除實(shí)體的詞性不是名詞類型(動(dòng)詞、介詞、形容詞等)的關(guān)系; ②刪除實(shí)體不是生物醫(yī)學(xué)實(shí)體的關(guān)系。以上兩步后處理均利用MeteMap[17]工具完成。

利用Open IE方法可以自動(dòng)地從生物醫(yī)學(xué)文獻(xiàn)中抽取出PPI。但是,Open IE是基于規(guī)則的方法,由于無法通過人工總結(jié)出覆蓋所有情況的規(guī)則,導(dǎo)致在PPI抽取問題上,規(guī)則方法的召回率普遍低于機(jī)器學(xué)習(xí)方法的召回率[5-6,18-19]。

針對(duì)基于規(guī)則的OpenIE方法抽取PPI召回率較低的問題,本文利用機(jī)器學(xué)習(xí)方法可以獲得較高召回率的特點(diǎn),提出了一種混合的蛋白質(zhì)關(guān)系抽取框架。本文框架分為三個(gè)階段: 首先,利用多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)(multiple label convolutional neural network,ML-CNN)[20]從生物醫(yī)學(xué)文獻(xiàn)中識(shí)別出蛋白質(zhì)實(shí)體。然后,對(duì)上一步識(shí)別出的蛋白質(zhì)實(shí)體,利用句法卷積神經(jīng)網(wǎng)絡(luò)(syntax convolutional neural network,SCNN)模型[21]抽取出存在某種關(guān)系的蛋白質(zhì)實(shí)體對(duì)。最后,對(duì)于存在某種關(guān)系的蛋白質(zhì)實(shí)體對(duì),利用基于規(guī)則的關(guān)系詞抽取方法找出表示蛋白質(zhì)之間關(guān)系類型的關(guān)系詞。該方法在AImed[22]語料上進(jìn)行實(shí)驗(yàn),獲得了40.18%的F值,比Stanford Open IE方法的結(jié)果高出20.02%。其中,召回率的提升(39.9% vs. 6.7%)成為了F值提升的主要原因。最終,本文通過將機(jī)器學(xué)習(xí)方法與規(guī)則方法相結(jié)合,改善了規(guī)則方法召回率低的問題。

1 關(guān)系抽取方法

本文中提出了一種混合的關(guān)系抽取方法,具體的抽取流程在圖1中給出,分為三個(gè)步驟: 步驟1,利用ML-CNN 從生物醫(yī)學(xué)文獻(xiàn)中識(shí)別出蛋白質(zhì)實(shí)體。步驟2,利用SCNN在上一步驟找到的蛋白質(zhì)實(shí)體中抽取出有關(guān)系的蛋白質(zhì)對(duì)。步驟3,對(duì)于上一步驟抽取出的蛋白質(zhì)實(shí)體對(duì),利用1.3節(jié)提出的關(guān)系詞抽取方法找出表示當(dāng)前關(guān)系類型的關(guān)系詞,形成完整的蛋白質(zhì)關(guān)系“蛋白質(zhì)1,關(guān)系詞,蛋白質(zhì)2”(p1,r,p2)。下面對(duì)圖1中每個(gè)模塊用到的方法進(jìn)行詳細(xì)介紹。

圖1 混合關(guān)系抽取方法的流程圖

1.1 ML-CNN方法

對(duì)于蛋白質(zhì)實(shí)體識(shí)別工作,本文采用了ML-CNN模型[20]。如圖2所示,ML-CNN是一種基于卷積神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別模型,它建立在一個(gè)假設(shè)的基礎(chǔ)上,即一個(gè)詞的上下文信息足以判斷該詞是不是蛋白質(zhì)實(shí)體。因此,ML-CNN方法把蛋白質(zhì)實(shí)體識(shí)別任務(wù)抽象成一個(gè)詞級(jí)別的分類問題,只有目標(biāo)詞Wi和該詞的前后若干個(gè)詞(Wi-1,Wi+1,等)的信息作為模型的輸入。ML-CNN將輸入的每個(gè)詞,表示成對(duì)應(yīng)的詞向量、字符向量和詞典向量。其中,字符向量和詞典向量通過隨機(jī)初始化得到的,詞向量利用Word2Vec*http: //word2vec.googlecode.com/svn/trunk/對(duì)大規(guī)模的未標(biāo)注語料訓(xùn)練得到。上述三個(gè)向量將被當(dāng)作模型參數(shù)的一部分,會(huì)在訓(xùn)練模型的過程中自動(dòng)調(diào)整。以上三個(gè)輸入中只有詞典特征需要人工設(shè)計(jì),所以ML-CNN需要很少的特征工程。其次,本文方法提出多標(biāo)簽機(jī)制獲取相鄰輸出標(biāo)簽之間的依賴關(guān)系。多標(biāo)簽機(jī)制需要同時(shí)預(yù)測目標(biāo)詞和目標(biāo)詞的前后詞的標(biāo)簽,通過擴(kuò)充輸出層節(jié)點(diǎn)個(gè)數(shù)就可以實(shí)現(xiàn)。然而,其他深度學(xué)習(xí)方法[23-24]往往通過添加一個(gè)條件隨機(jī)場(conditional random field,CRF)[25]層獲取相鄰輸出標(biāo)簽之間的依賴關(guān)系。但是,添加一個(gè)CRF層需要額外維護(hù)一個(gè)狀態(tài)轉(zhuǎn)移概率矩陣,使深度學(xué)習(xí)模型更加復(fù)雜。ML-CNN模型的超參數(shù)使用原文中給出的最優(yōu)參數(shù)組合。

1.2 SCNN方法

對(duì)于在上一步抽取出的蛋白質(zhì)實(shí)體,本文利用SCNN方法[21]找出它們之間的關(guān)系。如圖3所示,SCNN方法是基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型。該方法提出包含句法信息的詞向量——句法詞向量,將對(duì)關(guān)系抽取問題有重要作用的句法信息[26]引入到模型中。其中,詞向量[27]指將每個(gè)單詞映射為相同維度實(shí)數(shù)向量的映射函數(shù)。每個(gè)單詞映射成句法詞向量之后,利用位置特征[28]和詞性特征對(duì)其進(jìn)一步擴(kuò)展,并通過卷積層和Max pooling操作得到卷積特征向量。除了卷積特征之外,該方法還抽取了上下文特征和最短路徑特征。其中最短路徑特征的表示形式(one-hot表示)為稀疏的0-1向量,而卷積特征和上下文特征(基于詞向量)的表示形式為稠密的實(shí)數(shù)向量。為了減少特征表示形式的差異對(duì)特征融合效果的影響,SCNN方法先將稀疏0-1向量(最短路徑特征)通過自編碼(auto-encoder[29])轉(zhuǎn)換成稠密的實(shí)數(shù)向量,再與卷積特征和上下文特征融合。

圖2 ML-CNN結(jié)構(gòu)圖

圖3 SCNN卷積特征抽取方法

1.3 關(guān)系詞抽取方法

識(shí)別出存在某種關(guān)系的蛋白質(zhì)實(shí)體對(duì)之后,本文進(jìn)一步抽取出表示兩個(gè)蛋白質(zhì)間關(guān)系類型的關(guān)系詞。Temkin等人[30]利用詞典匹配方法抽取表示兩個(gè)蛋白質(zhì)之間關(guān)系的關(guān)系詞。但是,該關(guān)系詞抽取方法的性能完全依賴于詞典的質(zhì)量和規(guī)模。而通過人工總結(jié)出的詞典很難保證其完整性。為了解決該問題,本文提出了結(jié)合詞典匹配和句法模板匹配的關(guān)系詞抽取方法。該關(guān)系詞抽取方法的具體流程在圖4中給出。

圖4 關(guān)系詞抽取流程圖

對(duì)于輸入的實(shí)例,首先,利用斯坦福句法分析器*https: //nlp.stanford.edu/software/lex-parser.html進(jìn)行句法分析,得到對(duì)應(yīng)的句法結(jié)構(gòu),并找出在句法結(jié)構(gòu)上連接兩個(gè)實(shí)體的最短路徑。然后,在最短路徑上,利用句法模板和關(guān)系詞詞典找出對(duì)應(yīng)的關(guān)系詞。具體步驟如下:

第1步,在實(shí)體間最短路徑上進(jìn)行句法模板匹配。如果匹配成功,且匹配出的關(guān)系詞包含在關(guān)系詞詞典里,則完成關(guān)系詞抽取。否則執(zhí)行第2步。

第2步,在最短路徑上進(jìn)行詞典匹配,如果匹配成功,則完成關(guān)系詞抽取。否則執(zhí)行第3步。

第3步,在擴(kuò)展的最短路徑上進(jìn)行詞典匹配。

如果匹配成功,則完成關(guān)系詞抽取。否則執(zhí)行第4步。其中,擴(kuò)展的最短路徑由與最短路徑上的節(jié)點(diǎn)直接相連的其他節(jié)點(diǎn)構(gòu)成。

第4步,在最短路徑上進(jìn)行句法模板匹配,如果匹配成功,則完成關(guān)系詞抽取。否則關(guān)系詞抽取失敗。

可以看出,本文算法認(rèn)為模板匹配出的關(guān)系詞同時(shí)也在關(guān)系詞詞典里出現(xiàn)的時(shí)候,該詞成為關(guān)系詞的可信度是最高的。其次是詞典匹配方法匹配出的關(guān)系詞。當(dāng)以上兩種策略均沒有成功匹配出關(guān)系詞的時(shí)候,使用句法模板方法進(jìn)行補(bǔ)充。

當(dāng)詞典匹配方法匹配出多個(gè)關(guān)系詞的時(shí)候,選擇優(yōu)先級(jí)最高的詞。其中,特定關(guān)系詞的優(yōu)先級(jí)高于通用關(guān)系詞(參考1.3.1節(jié));在一個(gè)句子中出現(xiàn)在兩個(gè)實(shí)體之間的關(guān)系詞的優(yōu)先級(jí)高于出現(xiàn)在其他位置的關(guān)系詞。

本文關(guān)系詞抽取算法將詞典匹配方法和句法模板匹配方法合理地結(jié)合在一起,并利用兩種方法的互補(bǔ)性,提升關(guān)系詞抽取的召回率。本文算法中用到的關(guān)系詞詞典和句法模板將在以下一節(jié)中進(jìn)行詳細(xì)介紹。

1.3.1 關(guān)系詞詞典

Temkin等人[30]整理出的表示蛋白質(zhì)之間關(guān)系的關(guān)系詞詞典,包含170個(gè)關(guān)系詞,其中包括一個(gè)詞的多種時(shí)態(tài)表示。例如,decrease關(guān)系可以產(chǎn)生decrease、decreased和decreases等三個(gè)關(guān)系詞。

通過人工閱讀和分析大量蛋白質(zhì)關(guān)系相關(guān)文獻(xiàn),本文在Temkin等人提供的關(guān)系詞詞典基礎(chǔ)上進(jìn)一步擴(kuò)展,得到包含581個(gè)表項(xiàng)的蛋白質(zhì)關(guān)系詞詞典。對(duì)于這些關(guān)系詞,又將其分成兩種類型: 通用關(guān)系詞和特定關(guān)系詞。

通用關(guān)系詞指可以用于描述任意兩種實(shí)體間關(guān)系的關(guān)系詞,這些關(guān)系詞不具有領(lǐng)域特殊性。通用關(guān)系詞包括interact、associate、affect等。特定關(guān)系詞指只能用于描述特定兩種實(shí)體類型之間關(guān)系的詞,如phosphorylate、negative、regulate、bind等,通常只用于描述蛋白質(zhì)之間的關(guān)系。

與Temkin等人的做法類似,我們將一個(gè)關(guān)系詞的多種時(shí)態(tài)表示,即一般現(xiàn)在時(shí)、一般過去時(shí)、動(dòng)名詞形式、名詞形式和名詞復(fù)數(shù)形式等,都作為某種關(guān)系的關(guān)系詞。例如,interact關(guān)系可以派生出interact、interacts、interacted、interaction、interactions等關(guān)系詞。

1.3.2 句法模板

本文使用斯坦福句法分析器對(duì)每個(gè)實(shí)例進(jìn)行句法分析,得到相應(yīng)的依存句法信息,并對(duì)其進(jìn)行詳細(xì)地分析,總結(jié)出如下七個(gè)句法模板(表1)。模板中E1和E2分別表示第一個(gè)蛋白質(zhì)實(shí)體和第二個(gè)蛋白質(zhì)實(shí)體;Key表示關(guān)系詞;X表示任意一個(gè)詞;“nmod: x”中的x表示具體的介詞;“nmod: x+”中的“+”表示“nmod: x”關(guān)系至少出現(xiàn)一次;appos、nmod: x、nsubj、acl: relcl和dobj為具體的依存關(guān)系類型,分別表示對(duì)應(yīng)的兩個(gè)詞之間存在同位語關(guān)系、主-謂關(guān)系、介詞關(guān)系、賓語從句關(guān)系和謂-賓關(guān)系。以模板1為例,該模板表示當(dāng)連接兩個(gè)蛋白質(zhì)實(shí)體E1和E2之間的最短路徑為E1-appos-Key-nmod: x-E2的時(shí)候,Key表示的詞就是對(duì)應(yīng)的關(guān)系詞。圖5給出了每個(gè)模板對(duì)應(yīng)的實(shí)例。

表1 句法模板

圖5 句法模板示例

圖5 句法模板示例

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)設(shè)定

本文選擇在AImed語料[22]驗(yàn)證中提出的混合關(guān)系抽取方法。該語料為目前PPI抽取問題上使用最廣泛的語料,由5 655個(gè)實(shí)例組成,其中包括1 000個(gè)正例和4 655個(gè)負(fù)例。每個(gè)實(shí)例中包含兩個(gè)蛋白質(zhì)實(shí)體的位置信息和該實(shí)體對(duì)是否存在關(guān)系的標(biāo)注信息。由于AImed語料沒有區(qū)分訓(xùn)練集和測試集,需要在該語料上進(jìn)行十倍交叉驗(yàn)證。本文采用信息抽取領(lǐng)域常用的三個(gè)評(píng)價(jià)指標(biāo): 準(zhǔn)確率(Precision,P)、召回率(Recall,R)和綜合分類率(F-score,F(xiàn))。其定義具體如下:

其中TP表示判斷為正例的實(shí)例中真實(shí)正例的個(gè)數(shù),TN表示判斷為負(fù)例的實(shí)例中真實(shí)負(fù)例的個(gè)數(shù),F(xiàn)P表示判斷為正例的實(shí)例中負(fù)例的個(gè)數(shù),F(xiàn)N表示判斷為負(fù)例的實(shí)例中正例的個(gè)數(shù)。

AImed語料中,只標(biāo)注了蛋白質(zhì)實(shí)體信息和二元關(guān)系信息,并沒有給出關(guān)系詞信息。因此,關(guān)系詞抽取的評(píng)價(jià)需要進(jìn)行人工審核。關(guān)系詞抽取可以看作是詞級(jí)別的分類問題,一個(gè)句子中關(guān)系詞是正例,剩下的詞都是負(fù)例。

2.2 關(guān)系詞抽取結(jié)果分析

關(guān)系詞抽取是本文的主要工作。因此,本節(jié)將對(duì)關(guān)系詞抽取方法的性能進(jìn)行詳細(xì)分析。關(guān)系詞抽取是指針對(duì)存在某種關(guān)系的實(shí)體對(duì)找出表示具體關(guān)系類型的關(guān)系詞的過程。本文的關(guān)系詞抽取方法結(jié)合了詞典匹配和句法模板匹配方法。將本文方法應(yīng)用到AImed語料中1 000個(gè)正例上,并對(duì)其抽取的結(jié)果進(jìn)行人工審核得到如下結(jié)果。對(duì)于語料中的1 000個(gè)正例,本文抽取出了914個(gè)關(guān)系詞,其中795個(gè)是正確的。本文還單獨(dú)將詞典匹配方法和句法模板匹配方法應(yīng)用到同樣的1 000個(gè)正例上,分別抽取出了881和378個(gè)關(guān)系詞,其中正確的關(guān)系詞數(shù)為731和297。根據(jù)以上統(tǒng)計(jì)數(shù)據(jù)可以計(jì)算出相應(yīng)的P/R/F值,詳細(xì)結(jié)果在表2中給出。

表2 關(guān)系詞抽取性能比較

從表2的數(shù)據(jù)可以看出,利用提出的關(guān)系詞抽取方法將詞典匹配方法和句法模板匹配方法整合之后,取得的性能相對(duì)于較高的詞典匹配方法提升了5.3%的F值。其中,召回率的提升是因?yàn)閮煞N方法具有互補(bǔ)性,利用句法模板可以匹配出部分詞典匹配方法遺漏的關(guān)系詞。準(zhǔn)確率的提升是因?yàn)楸疚年P(guān)系詞抽取方法將兩種方法合理地結(jié)合在一起,產(chǎn)生了相輔相成的效果。首先,本文算法在第1步抽取出滿足句法模板且屬于關(guān)系詞詞典的關(guān)系詞,其可信度比兩個(gè)獨(dú)立的方法高。該步驟抽取出294個(gè)關(guān)系詞,其中正確的為275個(gè),準(zhǔn)確率高達(dá)93.54%。之后,在第2步和第3步利用詞典匹配方法進(jìn)行關(guān)系詞抽取。在該部分抽取出的關(guān)系詞中,有60個(gè)實(shí)例也可以被句法模板匹配到。對(duì)于該60個(gè)關(guān)系詞,詞典匹配方法和句法模板匹配方法正確匹配的個(gè)數(shù)分別為46個(gè)和11個(gè)。即本文算法通過合理分配任務(wù),將對(duì)于句法模板匹配方法有難度的部分實(shí)例提前用詞典匹配方法進(jìn)行解決,從而提升整體的準(zhǔn)確率。

只利用句法模板匹配的方法可以正確地抽取297個(gè)關(guān)系詞。而該297個(gè)關(guān)系詞分別由表1中給出的七個(gè)句法模板匹配得到。圖6給出了每個(gè)模板抽取出的關(guān)系詞數(shù)目對(duì)應(yīng)的柱狀圖。從中可以看出模板7(E1-nsubj-Key-nmod: x+-E2)為描述兩個(gè)蛋白質(zhì)實(shí)體間關(guān)系最常用的句式。例如,“E1 interacts with E2”,“E1 is affected by E2”,“E1 associates with E2”,等等。而模板1(E1-appos-Key-nmod: x-E2)和模板4(E1-nsubj-X-dobj-Key-nmod: x-E2)匹配出的關(guān)系詞卻非常有限。

圖6 不同句法模版正確匹配出的關(guān)系詞數(shù)目

2.3 與Open IE方法的性能比較

研究者們通常使用Open IE方法從文獻(xiàn)中自動(dòng)地抽取完整的生物醫(yī)學(xué)實(shí)體關(guān)系“實(shí)體1,關(guān)系詞,實(shí)體2”。通用領(lǐng)域中的Open IE方法可以抽取任意兩個(gè)實(shí)體間的關(guān)系,但是在生物領(lǐng)域往往只關(guān)注特定的生物醫(yī)學(xué)實(shí)體間的關(guān)系。因此,Open IE在生物領(lǐng)域需要對(duì)實(shí)體類型進(jìn)行限制。例如,先識(shí)別生物醫(yī)學(xué)實(shí)體,再利用規(guī)則方法抽取對(duì)應(yīng)生物醫(yī)學(xué)實(shí)體間的關(guān)系[12];或者先抽取任意實(shí)體間的關(guān)系,再通過后處理過濾掉非生物醫(yī)學(xué)實(shí)體間的關(guān)系[15]。由于生物醫(yī)學(xué)領(lǐng)域的Open IE方法[12,15]沒有提供源碼,本文方法將與通用領(lǐng)域目前性能最優(yōu)的Stan-ford Open IE(SOIE)方法[11]進(jìn)行實(shí)驗(yàn)對(duì)比。模仿Nguyen等人[15]的做法,本文將利用AImed語料提供的蛋白質(zhì)實(shí)體信息,對(duì)SOIE方法抽取出的結(jié)果進(jìn)行后處理,只保留蛋白質(zhì)關(guān)系。AImed語料提供的實(shí)體信息為人工標(biāo)注產(chǎn)生,利用其進(jìn)行后處理顯然要比Nguyen等人提出的基于MetaMap的后處理方法更加可靠。為了保證實(shí)驗(yàn)結(jié)果的可比性,本文提出的方法利用ML-CNN進(jìn)行實(shí)體識(shí)別之后,同樣利用AImed語料提供的實(shí)體信息進(jìn)行后處理,只保留語料提供的蛋白質(zhì)實(shí)體。

SOIE方法是基于規(guī)則的方法,不需要訓(xùn)練模型,可以直接在AImed語料上進(jìn)行關(guān)系抽取。而本文提出的混合方法結(jié)合了機(jī)器學(xué)習(xí)方法和規(guī)則方法,實(shí)體識(shí)別和關(guān)系抽取階段需要訓(xùn)練模型。因此,在實(shí)體識(shí)別和關(guān)系抽取階段,先進(jìn)行十倍交叉驗(yàn)證,再將十倍交叉驗(yàn)證的預(yù)測結(jié)果合并在一起得到完整語料的預(yù)測結(jié)果。最后,在該完整語料的預(yù)測結(jié)果上計(jì)算性能評(píng)價(jià)指標(biāo)(P/R/F)。表3中給出了本文提出的混合方法與SOIE方法的關(guān)系抽取結(jié)果。首先,本文利用ML-CNN方法識(shí)別出所有的蛋白質(zhì)名稱,其識(shí)別結(jié)果可以達(dá)到90.92%的F值。然后,利用AImed語料提供的實(shí)體信息對(duì)其進(jìn)行過濾,只保留語料中給出的實(shí)體。語料中每個(gè)實(shí)例包含兩個(gè)蛋白質(zhì)信息,當(dāng)某個(gè)實(shí)例的兩個(gè)蛋白質(zhì)實(shí)體沒有都被ML-CNN方法識(shí)別出來時(shí),則該實(shí)例在二元關(guān)系抽取階段會(huì)被判為無關(guān)。而對(duì)于兩個(gè)實(shí)體都被ML-CNN方法識(shí)別出的實(shí)例,則利用SCNN方法進(jìn)行二元關(guān)系抽取,其結(jié)果達(dá)到48.44%的F值。對(duì)于識(shí)別出的關(guān)系蛋白質(zhì)對(duì),再利用1.3節(jié)提出的關(guān)系詞抽取算法抽取出表示當(dāng)前兩個(gè)實(shí)體間關(guān)系的關(guān)系詞,最終得到40.18%的F值。在關(guān)系抽取階段判斷正確的實(shí)例,如果抽取的關(guān)系詞是錯(cuò)的,則最終判為錯(cuò)誤的關(guān)系。SOIE方法并沒有對(duì)關(guān)系抽取工作分步處理,可以直接從AImed語料中抽取實(shí)體關(guān)系。然后,利用AImed語料中提供的實(shí)體信息進(jìn)行過濾,只保留蛋白質(zhì)關(guān)系,獲得的F值為11.42%。

表3 AImed語料上的性能對(duì)比

對(duì)于關(guān)系抽取結(jié)果,本文的混合方法優(yōu)于SOIE方法(取得的F值40.18% vs. 11.42%)。該文方法與SOIE方法相比,其準(zhǔn)確率很接近(40.47% vs. 38.73%),但是召回率差距巨大(39.9% vs. 6.7%)。SOIE方法是基于規(guī)則的方法,而基于規(guī)則的方法由于無法設(shè)計(jì)出覆蓋所有情況的規(guī)則,往往導(dǎo)致召回率較低。本文方法通過將機(jī)器學(xué)習(xí)方法與規(guī)則方法相結(jié)合,先利用ML-CNN方法和SCNN方法進(jìn)行實(shí)體識(shí)別和二元關(guān)系抽取,然后再利用規(guī)則方法進(jìn)行關(guān)系詞抽取,改善了只利用規(guī)則方法進(jìn)行關(guān)系抽取時(shí)召回率低的問題。

3 結(jié)論

本文提出了一種混合的蛋白質(zhì)關(guān)系抽取框架。該框架把關(guān)系抽取分成三步去解決。首先,利用ML-CNN方法識(shí)別出蛋白質(zhì)實(shí)體名稱。然后,利用SCNN二元關(guān)系抽取模型找出可能存在某種關(guān)聯(lián)的蛋白質(zhì)對(duì)。最后,結(jié)合句法模板和關(guān)系詞詞典匹配方法抽取出表示兩個(gè)蛋白質(zhì)實(shí)體間具體關(guān)系類型的關(guān)系詞。該混合方法在AImed語料上進(jìn)行實(shí)驗(yàn),取得了40.18%的F值。同時(shí),本文提出的關(guān)系詞抽取方法在AImed語料中正例上進(jìn)行實(shí)驗(yàn),取得了83.02%的F值。

目前,本文方法只對(duì)蛋白質(zhì)間關(guān)系進(jìn)行了抽取,而生物醫(yī)學(xué)文獻(xiàn)中蘊(yùn)含著豐富的生物醫(yī)學(xué)實(shí)體交互關(guān)系(蛋白質(zhì)—藥物關(guān)系,藥物—疾病關(guān)系,疾病—基因關(guān)系等)。因此,在未來的工作中,將對(duì)該方法進(jìn)行改進(jìn),構(gòu)建統(tǒng)一模型,可以同時(shí)完成不同實(shí)體間的關(guān)系抽取工作。

猜你喜歡
句法利用方法
利用min{a,b}的積分表示解決一類絕對(duì)值不等式
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結(jié)構(gòu)與英語句法配置
利用一半進(jìn)行移多補(bǔ)少
利用數(shù)的分解來思考
Roommate is necessary when far away from home
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯(lián)句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲午夜国产片在线观看| 欧美a网站| 国产香蕉国产精品偷在线观看| 欧美视频在线播放观看免费福利资源| 亚洲国产精品无码AV| 中文字幕乱码二三区免费| 伊人天堂网| 免费国产在线精品一区| 久久亚洲美女精品国产精品| 亚洲AⅤ波多系列中文字幕| 久久国产精品嫖妓| 蜜芽国产尤物av尤物在线看| 国产h视频在线观看视频| 日韩国产高清无码| 成人小视频在线观看免费| 欧美 亚洲 日韩 国产| 国产精品开放后亚洲| 91原创视频在线| 亚洲Av综合日韩精品久久久| 一级成人a毛片免费播放| 国产午夜小视频| 色综合天天娱乐综合网| 54pao国产成人免费视频| 最新日韩AV网址在线观看| 国产午夜无码片在线观看网站| 91精品啪在线观看国产60岁| 无码国产偷倩在线播放老年人| 乱人伦99久久| 538国产视频| 男人的天堂久久精品激情| 热久久综合这里只有精品电影| 首页亚洲国产丝袜长腿综合| 国产剧情伊人| 国产视频一二三区| 2019年国产精品自拍不卡| 亚洲一级毛片在线观| 亚洲天堂伊人| 欧美在线网| 好紧太爽了视频免费无码| 久久国语对白| 99精品视频九九精品| 日韩黄色大片免费看| 精品午夜国产福利观看| 亚洲av无码人妻| 亚洲成人高清在线观看| 天天综合网色中文字幕| 黄色福利在线| 色婷婷丁香| 一本无码在线观看| 婷婷开心中文字幕| 亚洲综合久久一本伊一区| 国产剧情国内精品原创| 国产一二三区在线| 91久草视频| 中国成人在线视频| 72种姿势欧美久久久大黄蕉| 国产成人高清亚洲一区久久| 国产精品美女网站| 国产成人精品一区二区三在线观看| 国产一在线观看| 91尤物国产尤物福利在线| 日韩毛片基地| 91视频精品| AV在线天堂进入| 综合亚洲网| 国产黄在线观看| 亚洲h视频在线| 国产成人精品一区二区秒拍1o| 欧美亚洲国产视频| 另类欧美日韩| 色精品视频| 日韩AV无码免费一二三区| 欧美在线精品怡红院| 亚洲天堂网在线播放| 欧美日韩国产系列在线观看| 欧美成人精品高清在线下载| 国产精品网址在线观看你懂的| 免费一级毛片| 不卡无码网| 欧美一区二区精品久久久| 色噜噜久久| 国产欧美亚洲精品第3页在线|