曹明宇 楊志豪 羅 凌 林鴻飛 王 健
(大連理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 遼寧大連 116024)
近年來,伴隨著生物醫(yī)學(xué)研究的發(fā)展,生物醫(yī)學(xué)文本的數(shù)量也迅速增長.生物醫(yī)學(xué)文本中包含著豐富實體關(guān)系信息,利用文本挖掘技術(shù)自動抽取這些信息,對生物醫(yī)學(xué)研究具有促進(jìn)作用.其中,藥物-藥物交互(drug-drug interaction, DDI)關(guān)系抽取近年來受到了研究者們廣泛關(guān)注,根據(jù)海量醫(yī)學(xué)文本中抽取出的DDI,可以推測藥物間隱含的相互作用及不良反應(yīng),對藥物的研究具有重要的意義.
為了促進(jìn)DDI關(guān)系抽取研究發(fā)展,2013年的國際語義評測(semantic evaluation exercises, SemEval)中包含了DDI關(guān)系抽取任務(wù)(DDI Extraction 2013, DDI2013)[1].DDI2013將DDI抽取具體分為了2個子任務(wù):1)藥物實體識別;2)DDI關(guān)系抽取.目前的研究基本都是將這2個任務(wù)分別地單獨研究,然后再通過串行流水線(pipeline)的方法來抽取DDI.即首先通過命名實體識別(named entity recognition, NER)提取出文本中的藥物實體,再對每個候選實體對進(jìn)行關(guān)系分類(relation classification, RC).對于實體識別子任務(wù),傳統(tǒng)的條件隨機(jī)場(conditional random field, CRF)方法具有良好的性能,該方法也在DDI2013的藥物實體識別任務(wù)上取得了第一的成績[2].隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度學(xué)習(xí)在NER上表現(xiàn)出了更好的性能,其中BiLSTM-CRF模型結(jié)合了循環(huán)神經(jīng)網(wǎng)絡(luò)和CRF的模型的優(yōu)點,廣泛地應(yīng)用于序列標(biāo)注任務(wù)[3].在生物醫(yī)學(xué)領(lǐng)域,Habibi等人[4]使用BiLSTM-CRF模型在5類生物醫(yī)學(xué)實體總共33個數(shù)據(jù)集上進(jìn)行了實驗并取得了不錯的效果.
在關(guān)系分類子任務(wù)上,Chowdhury等人[5]使用結(jié)合淺層語言核函數(shù)及最短路徑樹核函數(shù)的方法,在DDI2013評測關(guān)系抽取任務(wù)上取得了第一的成績;Zhao等人[6]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)模型,對詞特征及位置特征進(jìn)行學(xué)習(xí);Zhang等人[7]提出了分層的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)模型,底層的RNN用來分別地學(xué)習(xí)句子的詞特征、位置特征及句法依存特征,頂層的RNN對這3種特征學(xué)習(xí),同時引入了attention機(jī)制來加強(qiáng)對關(guān)鍵詞表示的信息的學(xué)習(xí),在DDI2013語料集上達(dá)到了最先進(jìn)的性能.盡管2個子任務(wù)的研究已經(jīng)分別取得了不錯的進(jìn)展,但是要獲得DDI關(guān)系抽取的結(jié)果,就需要先利用NER模型進(jìn)行實體識別,然后對識別出來的結(jié)果使用RC模型進(jìn)行關(guān)系分類.這種流水線的方式主要存在2個問題:1)分離訓(xùn)練的NER模型和RC模型忽略了這2個子任務(wù)間的相互影響,無法利用其交互信息來提升模型性能;2)RC的結(jié)果依賴于NER的結(jié)果,NER的錯誤會進(jìn)行傳播,導(dǎo)致最后的DDI抽取效果不佳.
不同于流水線方法,聯(lián)合抽取的方法旨在將2個相關(guān)任務(wù)一起學(xué)習(xí),目前在通用領(lǐng)域(如新聞領(lǐng)域)基于聯(lián)合抽取的關(guān)系抽取研究開始受到研究者們的關(guān)注;Miwa等人[8]提出了一種使用表格來同時表示實體和關(guān)系的方法,將實體識別和關(guān)系抽取轉(zhuǎn)化為填表問題,可以準(zhǔn)確表示句子中的所有實體和關(guān)系,但是該方法仍然依賴于特征工程及自然語言處理工具包;為了避免復(fù)雜的特征工程,Miwa等人[9]提出了一個基于端對端的神經(jīng)網(wǎng)絡(luò)的共享參數(shù)方法,2個子任務(wù)共享部分模型,又各自具有單獨的輸出,這種模型需要在實體預(yù)測的結(jié)果上進(jìn)行關(guān)系分類,仍然相當(dāng)于2個任務(wù)分開進(jìn)行,并產(chǎn)生冗余的信息;為了充分考慮2個子任務(wù)間的相互作用,Zheng等人[10]提出了一種同時包含實體和關(guān)系信息的標(biāo)注模式,將實體和關(guān)系的聯(lián)合抽取轉(zhuǎn)化為了端對端的序列標(biāo)注任務(wù),在通用領(lǐng)域取得了很好的效果.但該方法默認(rèn)實體只參與1個關(guān)系,無法識別重疊關(guān)系(重疊關(guān)系是指該關(guān)系的實體參與不止1個關(guān)系,同時也是另一個關(guān)系中的實體,存在重疊現(xiàn)象).而在生物醫(yī)學(xué)文本中,同一個實體常常參與多個關(guān)系,該方法匹配關(guān)系的方式可能會損失大量的關(guān)系.
為了緩解上述流水線方法存在的問題和生物醫(yī)學(xué)文本中存在大量實體重疊關(guān)系的問題,本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的藥物實體與關(guān)系聯(lián)合抽取方法.借鑒Zheng等人[10]的工作,將藥物實體和關(guān)系的聯(lián)合抽取看作序列標(biāo)注問題,然后提出了一種改進(jìn)的標(biāo)注模式,使用BiLSTM-CRF模型進(jìn)行標(biāo)注,最后根據(jù)標(biāo)注結(jié)果抽取藥物實體和關(guān)系.本文主要有2方面貢獻(xiàn):
1) 不同于以往將NER和RC獨立研究的工作,本文試圖使用聯(lián)合模型同時抽取藥物和藥物之間的關(guān)系,提出了一種基于神經(jīng)網(wǎng)絡(luò)的藥物實體與關(guān)系聯(lián)合抽取方法.
2) 針對生物醫(yī)學(xué)實體存在大量重疊關(guān)系的特點以及Zheng等人[10]提出的標(biāo)注方法沒有考慮重疊關(guān)系的問題,本文改進(jìn)了原始的標(biāo)注模式以及匹配策略,有效地緩解了重疊實體關(guān)系無法抽取的問題.
本文在DDI 2013語料集進(jìn)行實驗,與傳統(tǒng)的流水線方法相比,本文的聯(lián)合抽取方法取得了更好的表現(xiàn),藥物-藥物關(guān)系抽取的F-score達(dá)到67.3%.
在本節(jié)中,首先描述了本文使用的標(biāo)注模式,然后闡述如何根據(jù)標(biāo)簽序列產(chǎn)生實體和實體間關(guān)系,最后介紹本文使用的輸入特征和BiLSTM-CRF模型.
本文將藥物實體與關(guān)系聯(lián)合抽取轉(zhuǎn)化為每個詞預(yù)測標(biāo)簽的序列標(biāo)注任務(wù).本文借鑒了Zheng等人[10]提出的標(biāo)注模式,并針對他們標(biāo)注模式無法識別重疊實體關(guān)系的問題,改進(jìn)了標(biāo)注模式.此外,本文還增加了實體類別標(biāo)簽來豐富實體包含的信息.本文提出的標(biāo)簽最多由4個部分組成,分別為:實體邊界、實體類別、關(guān)系類別、實體位置.其中,實體邊界標(biāo)簽使用“BIOES”模式,B表示實體頭部,I表示實體中間,E表示實體末尾,S表示單一實體,O表示非實體;實體類別和關(guān)系類別標(biāo)簽是由語料集預(yù)定義的,在本文使用的DDI2013數(shù)據(jù)集中,分別為4種實體類別(drug,group,brand,drug_n)和4種藥物關(guān)系(mechanism,effect,advice,int).對于關(guān)系類別,本文增加了一個M標(biāo)簽來表示該詞所屬的實體參與多種不同類型的關(guān)系;實體位置表示實體在關(guān)系中的位置,由1,2,M定義,1表示該詞是關(guān)系中的第1個實體,2表示第2個實體,M表示該詞存在重疊關(guān)系中且分別是不同位置.最后抽取結(jié)果能被表示為三元組{實體1,關(guān)系類別,實體2}.
圖1中的例子解釋了本文的標(biāo)注模式.輸入句子包含2個三元組(metopirone,mechanism,aceta-minophen1)和(metopirone,effect,acetaminophen2),其中mechanism和effect是預(yù)定義的關(guān)系類別.每個詞都依據(jù)其實體信息和關(guān)系信息被標(biāo)注相應(yīng)的標(biāo)簽,例如:metopirone屬于單個實體,實體類別為drug,參與mechanism和effect這2種關(guān)系(重疊關(guān)系),且在關(guān)系中的位置都是第1個實體,故其標(biāo)簽為S-drug-M-1.Inhibits不屬于實體,故其標(biāo)簽為O.

Fig. 1 Tagging sample圖1 標(biāo)注樣例

Fig. 2 A relation sample which can’t be represented correctly by our tagging scheme圖2 標(biāo)注模式無法正確表示的關(guān)系樣例
由于并非所有的詞都是實體的組成部分,也并非所有的實體都參與關(guān)系,實際的標(biāo)簽格式有3種類型,共計257種標(biāo)簽類別,具體如表1所示.
此外,仍然有少量的關(guān)系無法使用本文的標(biāo)注模式和抽取規(guī)則來表示,如圖2所示的樣例,共有4個關(guān)系:(PURINETHOL,effect,TABLOID),(mercaptopurine,effect,TABLOID),(PURINETHOL,effect,Thioguanine),(mercaptopurine,effect,Thioguanine),按照標(biāo)注的關(guān)系產(chǎn)生圖中的標(biāo)簽序列.但是在抽取關(guān)系時,實體Thioguanine向前查找可匹配實體,與mercaptopurine匹配生成三元組(mercaptopurine,effect,Thioguani ne)便停止抽取,而關(guān)系(PURINETHOL,efect,Thioguanine)則由于抽取規(guī)則而損失.

Table 1 Three Tag Formats表1 3種標(biāo)簽格式
不同于Zheng等人[10]僅使用最近距離匹配原則抽取實體與關(guān)系,本文充分考慮了重疊關(guān)系提出了新的抽取規(guī)則來從已標(biāo)注的標(biāo)簽序列中抽取實體及關(guān)系:
1) 根據(jù)詞的實體邊界和實體類別標(biāo)簽抽取出實體,實體的關(guān)系類別和實體位置被定義為實體首詞的關(guān)系類別和實體位置.
2) 關(guān)系的抽取遵循最近距離匹配的原則,對于每個實體,查找與其距離最近的關(guān)系類別及實體位置可匹配的實體,組成一個關(guān)系三元組.
3) 關(guān)系類別為預(yù)定義的4種關(guān)系類別實體只能與相同關(guān)系類別的實體匹配,關(guān)系類別為M的實體可與任意關(guān)系類別的實體匹配,實體位置為1的實體可與實體位置為2,M的實體匹配,實體位置為2的實體可與實體位置為1,M的實體匹配,實體位置為M的實體可以與實體位置為1,2,M的實體匹配.
4) 查找距離最近的可匹配實體是有方向的,實體位置為1的實體只向后查找,實體位置為2的實體向前查找,實體位置為M的實體同時前后查找.

Fig. 3 Process of character-level features圖3 字符級特征的獲取
例如圖1中的樣例,首先根據(jù)規(guī)則1抽取到(metopirone,drug,M,1),(acetaminophen1,drug,ME,2),(acetaminophen2,drug,EF,2)三個實體.對于這3個實體,首先實體metopirone向后查找到實體acetaminophen1,由于2個實體的關(guān)系類別分別為M,ME,實體位置分別為1,2,故可以匹配,生成三元組{metopirone,mechanism,acetaminophen1};其次,實體acetaminophen1向前查找到實體metopirone,該三元組已存在不重復(fù)抽取;最后,實體acetaminophen2向前查找到實體metopirone,二者的關(guān)系類別分別為M,EF,實體位置分別為1,2,生成三元組{metopirone,effect,acetaminophen2}.
1) 詞向量.目前,在各種自然語言處理任務(wù)中,谷歌的word2vec技術(shù)[11]被廣泛地使用.傳統(tǒng)上表示詞向量的方法是one-hot編碼的詞向量表示法,詞與詞之間相互獨立,且向量的長度取決于語料庫詞數(shù),很容易造成維度災(zāi)難.word2vec是一種分布式的低維度、稠密詞向量表示,可以充分考慮詞的上下文信息,將語義相似的詞映射到向量空間的相近位置.為了獲得更高質(zhì)量的詞向量,本文使用基于PubMed下載的1 918 662篇MEDLINE摘要訓(xùn)練出的50維的詞向量表示作為詞的特征.
2) 字符向量.字符向量是詞的另一種表示,不同于詞向量更關(guān)注詞的語義特征,字符向量被用來表示詞本身的形態(tài)特征,比如首字母大寫、前綴后綴等.在生物醫(yī)學(xué)文本中,化學(xué)物的命名遵循一定的命名規(guī)范,所以字符向量更充分地表示化學(xué)物實體的形態(tài)特征.本文首先將字符隨機(jī)初始化為固定維度的字符向量,對于一個詞,使用其字符向量序列表示該詞的字符特征.然后經(jīng)過卷積和最大池化從字符向量序列中學(xué)習(xí)到向量,將其與詞向量拼接,作為詞最終的向量表示.字符級特征的獲取過程如圖3所示:
循環(huán)神經(jīng)網(wǎng)絡(luò)近年來常用于自然語言處理領(lǐng)域,與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,它最大的特點是可以接受序列的輸入產(chǎn)生序列的輸出,每個時刻學(xué)習(xí)到的信息不僅取決于當(dāng)前時刻的輸入,還依賴上一時刻的輸出.但是RNN不具備強(qiáng)大的記憶結(jié)構(gòu),距離當(dāng)前時刻越近的時刻,對當(dāng)前時刻的輸出影響越大,較遠(yuǎn)的時刻對當(dāng)前的影響十分微弱.這就導(dǎo)致RNN只能學(xué)習(xí)到離當(dāng)前時刻較近的信息,不能學(xué)習(xí)到距離較遠(yuǎn)的信息.

Fig. 4 The BiLSTM-CRF model圖4 BiLSTM-CRF模型
長短期記憶模型(long short-term memory, LSTM)[12]是對RNN的一種改進(jìn),它使用一種被稱為LSTM 記憶細(xì)胞的結(jié)構(gòu)來判別哪些信息應(yīng)該被保留,控制信息從前一時刻到后一時刻的傳輸.LSTM有效地解決了RNN具有的長期依賴問題,使當(dāng)前時刻學(xué)習(xí)到的信息能充分利用之前時刻學(xué)習(xí)到的有用信息.本文參考Huang等人[13]使用的LSTM神經(jīng)元,其數(shù)學(xué)模型為
it=tanh(Wxixt+Whiht-1+Wcict-1+bi),
(1)
ft=tanh(Wxfxt+Whfht-1+Wcfct-1+bf),
(2)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc),
(3)
ot=tanh(Wxoxt+Whoht-1+Wcoct+bo),
(4)
ht=ottanh(ct),
(5)
其中,W*是LSTM神經(jīng)元的參數(shù)矩陣;b*是LSTM神經(jīng)元的偏置項;tanh是激活函數(shù),為神經(jīng)網(wǎng)絡(luò)加入非線性信息.
由于LSTM具有方向性,當(dāng)前時刻只能參考之前時刻的學(xué)習(xí)到的特征.而在自然語言處理任務(wù)中,通常不僅需要參考上文信息,也需要參考下文信息,雙向長短時記憶循環(huán)模型(bi-directional LSTM,BiLSTM)被提出.BiLSTM由2個相反方向的LSTM組成,它們可以分別從前向和后向?qū)W習(xí)詞的上文特征ht,forward和下文特征ht,backward,再將2者拼接成[ht,forward,ht,backward],常被用于序列標(biāo)注任務(wù)進(jìn)行詞表示的學(xué)習(xí).
然而,當(dāng)前詞的標(biāo)簽不僅受到詞本身特征和上下文特征的影響,還受到上下文標(biāo)簽的影響.比如,在表示實體的“BIOES”標(biāo)注模式中,I必須在B之后,E必須在I之后,實體的前后被標(biāo)注為O標(biāo)簽,這些標(biāo)簽之間是相互依賴的,但基于BiLSTM的序列標(biāo)注模型不能充分考慮標(biāo)簽之間的依賴關(guān)系,每個詞標(biāo)簽的預(yù)測都是單獨的分類任務(wù),可能產(chǎn)生不合規(guī)則的標(biāo)簽序列,如B出現(xiàn)在I之后的情況.本文參考Huang等人[13]的方法,在BiLSTM模型之后加入CRF層對標(biāo)簽序列進(jìn)行全局優(yōu)化.CRF層可以學(xué)習(xí)整個句子的標(biāo)簽轉(zhuǎn)移概率,充分地考慮標(biāo)簽間的依賴關(guān)系.令x表示輸入的詞序列,fθi,t表示在BiLSTM模型參數(shù)為θ的條件下,為詞序列中的第t個詞分配第i個標(biāo)簽的分?jǐn)?shù).本文使用標(biāo)簽轉(zhuǎn)移矩陣Ai,j作為CRF層的參數(shù),表示前一時刻的標(biāo)簽為i時轉(zhuǎn)移到第j個標(biāo)簽的得分.最終,輸入詞序列x的得到標(biāo)簽序列y的分?jǐn)?shù)為
(6)
用于序列標(biāo)注的BiLSTM-CRF模型的基本結(jié)構(gòu)如圖4所示.首先由將輸入詞序列映射為50維的詞向量和15維的字符向量序列,將詞向量與CNN學(xué)習(xí)到的字符特征拼接,然后經(jīng)過雙向LSTM層進(jìn)行學(xué)習(xí),最后由CRF層來預(yù)測全局優(yōu)化的標(biāo)簽序列.
在整個模型上,本文使用自適應(yīng)學(xué)習(xí)率算法RMSprop[14]進(jìn)行參數(shù)的優(yōu)化,該算法可以為不同參數(shù)選擇不同的學(xué)習(xí)速率,在序列標(biāo)注問題上具有很好的收斂速度及收斂效果.
本文使用DDI 2013關(guān)系抽取語料集進(jìn)行實驗,該語料集標(biāo)注了4種類別的藥物實體(drug,group,brand,drug_n)和4種類別的藥物關(guān)系(mechanism,effect,advice,int).此外,本文還統(tǒng)計了該語料中存在重疊關(guān)系的數(shù)量,該語料集的信息如表2所示.從表2可以看到,整個數(shù)據(jù)集有60%的關(guān)系是重疊關(guān)系.

Table 2 Information of DDI2013 Corpus表2 DDI2013語料集信息
本文隨機(jī)地從訓(xùn)練集抽取了10%的樣本,在所有實驗中作為開發(fā)集,用于超參數(shù)的調(diào)整選擇,表3展示了本文模型主要的超參數(shù).此外,本文根據(jù)模型在開發(fā)集上的結(jié)果使用早停機(jī)制[15]選擇模型的訓(xùn)練迭代次數(shù).本文使用查準(zhǔn)率(precision,P)、召回率(recall,R)和F值(F-score,F)對預(yù)測結(jié)果進(jìn)行評價.對于藥物實體識別的結(jié)果,當(dāng)實體的左右邊界和實體類別均正確時,認(rèn)為其正確.對于藥物關(guān)系抽取的結(jié)果,當(dāng)其組成實體的左右邊界及關(guān)系類別均正確時,認(rèn)為其正確.

Table 3 Hyper-Parameters of the Model表3 模型的超參數(shù)
本節(jié)在使用詞向量及字符向量作為輸入特征,使用本文改善的標(biāo)注模式及抽取規(guī)則的情況下,對BiLSTM-CRF模型的雙向LSTM層數(shù)及是否增加單向LSTM層上進(jìn)行了對比實驗,實驗結(jié)果如表4所示:
Table 4 Performance Comparison of Different Models
表4 不同模型的性能比較

ModelNERREPRFPRFBiLSTM-CRF0.8780.9100.8940.6690.6660.668BiLSTM-LSTM-CRF0.8840.9150.8990.6650.6810.673BiLSTM-BiLSTM-CRF0.8680.9100.8880.6240.6870.654
Note: The bold text is the result of the best model.
由表4可以得到2個結(jié)論:
1) 用1個單向LSTM層對BiLSTM層學(xué)習(xí)到的信息進(jìn)行解碼,可以提高模型的性能.
2) 隨著BiLSTM層數(shù)的增加,模型未表現(xiàn)出更好的性能.因此在后續(xù)實驗中,都使用BiLSTM-LSTM-CRF模型.
本節(jié)在使用詞向量及字符向量作為輸入特征,使用BiLSTM-LSTM-CRF模型的情況下,對比了不同標(biāo)注模型以及抽取規(guī)則的性能.本文使用在Zheng等人[10]提出的標(biāo)注模式和最近匹配規(guī)則作為Baseline,然后逐次在原有基礎(chǔ)上加入改進(jìn)抽取規(guī)則、增加實體類別標(biāo)簽及增加重疊關(guān)系M標(biāo)簽方法進(jìn)行對比,結(jié)果如表5所示,可以得到3個結(jié)論:
1) Zheng等人[10]遵循的實體只參與1個關(guān)系的抽取規(guī)則在DDI語料集上會造成關(guān)系的損失,改進(jìn)抽取規(guī)則后關(guān)系抽取可達(dá)到18%的F值提升,其中重疊關(guān)系的召回率提升了45%,說明改進(jìn)后的抽取規(guī)則可以更充分地抽取重疊的藥物關(guān)系.
2) 增加實體類別標(biāo)簽后,關(guān)系抽取得到了1.1%的F值提升,證明了實體識別子任務(wù)對關(guān)系抽取子任務(wù)具有促進(jìn)作用,豐富的實體信息表示對關(guān)系抽取的性能有幫助.

Table 5 Performance Comparison of Tagging Scheme表5 標(biāo)注模式的性能比較
Note: The bold text is the result of the best tagging scheme.
3) 增加本文提出的M標(biāo)簽后,關(guān)系抽取得到1.5%的F值提升,其中重疊關(guān)系的召回率提升了3%,說明使用M標(biāo)簽來表示實體參與不同類別關(guān)系或?qū)嶓w處于關(guān)系的不同位置是有效果的,同時M標(biāo)簽是可以被深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的.
本節(jié)在使用改進(jìn)后的標(biāo)注模式及抽取規(guī)則的情況下,每次分別對預(yù)訓(xùn)練的詞向量、字符向量及CRF層等模型的1種成份進(jìn)行了消減實驗,以探究這些成份對于性能的影響,結(jié)果如表6所示:
Table 6 Performance Comparison of Model Components
表6 模型成分的性能比較

ModelNERREPRFPRFOur Method0.8840.9150.8990.6650.6810.673-CRF0.8870.8990.8930.6580.6640.661-Char Embedding0.8620.8860.8740.6650.6560.660-Pretrained Word Embedding0.7090.8240.7620.6110.5780.594
Note: The bold text is the result of our method.
由表6可以得到3個結(jié)論:
1) 使用預(yù)訓(xùn)練的詞向量,與使用隨機(jī)初始化的詞向量相比,在實體識別和關(guān)系抽取上都有更顯著的表現(xiàn),證明了預(yù)訓(xùn)練的詞向量更有利于表達(dá)詞本身的語義信息,而隨機(jī)初始化的詞向量盡管可以在訓(xùn)練的過程中被優(yōu)化,但其參考的僅僅是詞語在語料集中的上下文特征.
2) 增加字符向量來表示詞的形態(tài)特征,與只使用詞向量相比,顯著提升了藥物實體識別的準(zhǔn)確度(F值增加2.5%),也為關(guān)系抽取的F值帶來了提升.從以上2點中可以得到,充分的詞特征表示對實體識別和關(guān)系抽取的性能都具有促進(jìn)作用.
3) 增加CRF層對預(yù)測的標(biāo)簽序列進(jìn)行全局優(yōu)化,與只使用神經(jīng)網(wǎng)絡(luò)模型相比,提升了1.2%的關(guān)系抽取F值.
傳統(tǒng)的在DDI語料集上進(jìn)行關(guān)系抽取的研究都將其看作基于完全正確的標(biāo)注實體的關(guān)系分類任務(wù).而聯(lián)合抽取方法的關(guān)系抽取僅依賴于預(yù)測出的實體,直接進(jìn)行聯(lián)合抽取和關(guān)系分類的性能比較是忽略實體條件的.因此,本文搭建了流水線模型,先進(jìn)行實體識別,使用其結(jié)果生成實體對,再通過關(guān)系分類模型進(jìn)行關(guān)系的預(yù)測,將聯(lián)合抽取方法與流水線模型進(jìn)行比較.對于實體識別子任務(wù),本文使用主流的BiLSTM-CRF模型;對于關(guān)系分類子任務(wù),本文使用了BiLSTM模型作為基線系統(tǒng).進(jìn)一步,本文還使用Zhang等人[7]的方法來進(jìn)行關(guān)系分類,該方法使用了豐富的句法依存特征,并結(jié)合了RNN和CNN模型,在目前DDI關(guān)系分類任務(wù)上取得了先進(jìn)水平.此外,本文還與使用Zheng等人[10]提出的聯(lián)合抽取方法進(jìn)行對比.從表7的實驗結(jié)果可以看出:
1) 本文方法在只使用詞特征作為輸入的條件下,表現(xiàn)出了比使用詞特征及位置特征的流水線方法更好的關(guān)系抽取性能(F值提升3.4%).
2) 與加入句法依存特征的流水線方法相比,本文方法在更少輸入特征的情況下可以達(dá)到稍低的性能(F值相差1.9%),可以展望在加入更多輸入特征(如句法特征、位置特征)的情況下,本文方法具有進(jìn)一步研究的意義.

Table 7 Performance Comparison of Different Methods表7 不同方法的性能比較
Note: The bold text is the result of our method.
3) 與Zheng等人[10]的方法相比,本文改進(jìn)標(biāo)注模式及匹配規(guī)則后的方法更充分考慮了生物醫(yī)學(xué)文本中藥物關(guān)系的特點,顯著提升了關(guān)系抽取的性能.
本文進(jìn)一步對流水線Baseline方法、本文方法的關(guān)系抽取結(jié)果進(jìn)行對比,將3個典型的樣例展示在表8中,每個樣例包含3行,第1行是標(biāo)準(zhǔn)答案,第2行是流水線方法抽取的關(guān)系,第3行是本文方法抽取的關(guān)系.“[]”中為實體,角標(biāo)為該實體的關(guān)系及位置,加粗部分為抽取結(jié)果錯誤的實體.
對于樣例1,流水線方法在實體識別子任務(wù)上產(chǎn)生了實體邊界上的錯誤,該錯誤傳播給關(guān)系分類,即使關(guān)系分類正確也得到了錯誤的關(guān)系抽取結(jié)果,而聯(lián)合抽取方法則避免了該錯誤,證明了聯(lián)合抽取方法具有減少錯誤傳播的可能性.對于樣例2,句子中包含1個實體和5個并列實體存在的重疊關(guān)系,流水線方法分別對這5個實體對進(jìn)行關(guān)系分類,結(jié)果只抽取出了第1個關(guān)系,而聯(lián)合抽取方法則成功抽取出了5個并列關(guān)系,結(jié)合2種方法分析原因,聯(lián)合抽取的方法對5個關(guān)系同時進(jìn)行學(xué)習(xí),更充分地考慮了關(guān)系之間的依賴性,證明了聯(lián)合抽取方法不僅考慮實體和關(guān)系間的影響,也能學(xué)習(xí)到關(guān)系之間相互影響的可能性.對于樣例3,流水線方法和本文方法均未抽取出正確的關(guān)系,說明本文方法依然具有進(jìn)一步研究的空間.

Table 8 Comparisons of Different Methods’ Extraction Results表8 不同方法的關(guān)系抽取結(jié)果對比
本文提出了一種基于BiLSTM-CRF的藥物實體與關(guān)系聯(lián)合抽取方法.具體地,將藥物實體及關(guān)系的聯(lián)合抽取轉(zhuǎn)化為端對端的序列標(biāo)注任務(wù),使用詞向量及字符向量作為輸入特征,BiLSTM-CRF模型進(jìn)行標(biāo)注.針對生物醫(yī)學(xué)文本中大量存在的重疊關(guān)系,本文改進(jìn)了原始的標(biāo)注模式,增加了M標(biāo)簽來緩解重疊關(guān)系的問題,且增加了實體類別標(biāo)簽來更充分利用實體信息.此外還改進(jìn)了關(guān)系抽取規(guī)則,相比簡單的最近匹配規(guī)則,本文的方法能夠顯著提升重疊關(guān)系的召回率.實驗表明,與傳統(tǒng)的流水線模型相比,本文提出的方法可以更簡單地從預(yù)測的標(biāo)簽序列中同時抽取出實體及關(guān)系,具備與單獨的子任務(wù)性能相當(dāng)?shù)膶嶓w識別性能及更好的關(guān)系抽取性能.在DDI2013藥物-藥物關(guān)系抽取語料集上達(dá)到了67.3%的F值.
但是目前本文方法還未能完全覆蓋所有的重疊關(guān)系情況,未來工作中本文將進(jìn)行更深入的研究來解決重疊關(guān)系的問題.此外,在實體識別和關(guān)系分類子任務(wù)上,現(xiàn)存的研究已經(jīng)展示了額外特征(例如詞性、句法依存特征)能夠有效提升模型性能,探索這些額外特征對聯(lián)合學(xué)習(xí)的影響也是未來的研究工作.