基于門控多層次注意機制的事件主體抽取

2021-09-15 11:20:22冀相冰朱艷輝梁文桐

計算機應(yīng)用與軟件 2021年9期

冀相冰朱艷輝詹飛梁文桐張旭

(湖南工業(yè)大學(xué)計算機學(xué)院湖南株洲 412008)

(智能信息感知及處理技術(shù)湖南省重點實驗室湖南株洲 412008)

0 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)絡(luò)輿情事件呈爆炸式增長，使得人工提取信息的方法變得困難。過去幾年，自然語言處理(Natural Language Processing,NLP)研究人員著重關(guān)注復(fù)雜的信息抽取任務(wù)，例如事件抽取。事件抽取旨在從網(wǎng)絡(luò)文本中檢測能標(biāo)識事件的觸發(fā)詞、事件類型、事件元素和元素角色等。其中：事件觸發(fā)詞指可以清晰表明事件發(fā)生的核心詞匯；事件類型指事件所屬的類別；事件元素指事件的參與者或?qū)嶓w描述；元素角色指事件元素在事件中所充當(dāng)?shù)慕巧?，如主體、參與者和受害者等。事件抽取是構(gòu)建知識圖譜、實現(xiàn)智能問答和輿情監(jiān)控的基礎(chǔ)工作。事件主體是指事件發(fā)生的實施者，如公司、機構(gòu)或者個人等，主體抽取屬于事件元素角色識別任務(wù)，即已知一段文本和文本所屬的事件類型，從文本中抽取指定事件類型的事件主體，同一文本中可能存在多個事件和事件主體。命名實體識別的主要工作是從一段文本語料中識別出組織機構(gòu)名、地名和人名等各種類型的實體。命名實體識別屬于事件主體抽取的子任務(wù)，事件主體抽取在獲取句子中所有命名實體之后，進一步通過已知事件類型尋找事件觸發(fā)詞，然后根據(jù)各個命名實體與事件觸發(fā)詞的依賴關(guān)系，識別與指定事件類型密切相關(guān)的命名實體作為事件主體。如圖1所示的句子中，觸發(fā)詞為“短線交易”，其事件類型為“交易違規(guī)”，事件主體為“萬東醫(yī)療”，“吳光明”為事件主體實控人，“上交所”為監(jiān)管機構(gòu)。

圖1 事件示例

對于事件抽取相關(guān)任務(wù)，大多數(shù)方法將此問題視為分類任務(wù)，基于特征的方法依賴各種判別特征構(gòu)建統(tǒng)計模型，如句法特征、詞法特征和外部知識等。Huang等[1]利用順序結(jié)構(gòu)化的句子分類器識別與事件相關(guān)的上下文信息，實現(xiàn)了當(dāng)時最高的性能。Liu等[2]提出利用概率軟邏輯模型的形式編碼事件關(guān)聯(lián)之類的全局信息和細粒度實體類型等本地信息進行事件分類。Judea等[3]使用假設(shè)的特征把文檔級的上下文信息放入決策系統(tǒng)，對實體、事件和關(guān)系進行預(yù)測。Li等[4]在傳統(tǒng)特征上添加抽象意義表示(AMR)特征捕獲觸發(fā)詞的深層語義信息。雖然統(tǒng)計學(xué)習(xí)方法可以利用常用特征并取得良好的結(jié)果，但是無法捕捉隱含特征信息并且需要大量的人工特征。

深度學(xué)習(xí)方法可以自動抽取較復(fù)雜的隱藏特征而且避免了人工定義模版特征，已經(jīng)被廣泛應(yīng)用于事件抽取相關(guān)任務(wù)中。Liu等[5]通過監(jiān)督注意機制進行事件識別任務(wù)，在ACE 2005數(shù)據(jù)集上取得較好效果。Zeng等[6]使用遠程監(jiān)督方法生成大量高質(zhì)量訓(xùn)練數(shù)據(jù)進行事件抽取。Sha等[7]提出在RNN(Recurrent Neural Networks)中應(yīng)用依賴橋構(gòu)建模型，提取效果優(yōu)于順序RNN。Zhang等[8]提出雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)對句子建模進行關(guān)系分類，獲得了相關(guān)單詞的完整連續(xù)信息。Feng等[9]采用獨立于語言的模型獲取序列和塊信息，進行中文和西班牙文事件檢測。Zhou等[10]利用一種基于注意力(Attention)的模型學(xué)習(xí)分布式語義。Hong等[11]采用BiGRU網(wǎng)絡(luò)與注意力機制結(jié)合，關(guān)注更有意義的關(guān)鍵詞編碼更長的序列。Rao等[12]利用神經(jīng)網(wǎng)絡(luò)模型自動從抽象意義表示(AMR)中抽取生物醫(yī)學(xué)文本事件。Peters等[13]提出一種新的Word Embedding方法ELMo(Embeddings from Language Models)，處理多義詞在上下文中的動態(tài)變化。Huang等[14]利用可轉(zhuǎn)換架構(gòu)和組合神經(jīng)網(wǎng)絡(luò)應(yīng)用于新的事件類型檢測。

傳統(tǒng)抽取方法主要使用句子級信息，未能考慮候選詞的文檔級語義信息。通常在一個句子中可能存在多個事件的部分信息，僅以句子級信息進行事件主體抽取不能完全考慮每個事件的全部特征，很容易忽略事件的模糊性問題，限制了抽取系統(tǒng)的性能。

為了解決上述問題，本文提出一種基于門控多層次注意機制的ELMo-BiGRU神經(jīng)網(wǎng)絡(luò)模型用于事件主體抽取。首先把真實新聞?wù)Z料輸入ELMo預(yù)訓(xùn)練模型生成動態(tài)詞向量；然后用Stanford CoreNLP解析新聞文本獲取命名實體特征和詞性特征；其次將動態(tài)詞向量、命名實體(NE)向量、詞性(POS)向量和距離向量拼接表示為聯(lián)合輸入向量；接著把聯(lián)合向量輸入BiGRU深度學(xué)習(xí)網(wǎng)絡(luò)捕獲時間序列中時間步距離較大的依賴關(guān)系；之后利用門控多層次注意力層自動提取文本中每個候選事件主體的句子級信息和文檔級信息，并通過融合層動態(tài)整合上下文信息；最后輸出層通過SoftMax分類器預(yù)測最優(yōu)事件主體標(biāo)簽。

1 基于門控多層次注意機制的ELMo-BiGRU網(wǎng)絡(luò)模型構(gòu)建

本文使用基于門控多層次注意機制的BiGRU深度神經(jīng)網(wǎng)絡(luò)模型進行事件主體抽取，圖2描述了抽取模型的體系結(jié)構(gòu)，主要包括輸入層、詞嵌入層、BiGRU層、門控多層次注意機制層和輸出層五個部分。

圖2 事件主體抽取框架

對于存在嵌套關(guān)系的事件主體抽取算法如下：

Step1利用ELMo預(yù)訓(xùn)練模型訓(xùn)練獲取句子中每個候選事件主體的動態(tài)詞向量信息，ELMo模型根據(jù)同一事件主體上下文語境的不同，實時動態(tài)獲取不同的Embedding表示，解決部分存在嵌套關(guān)系的事件主體帶來的歧義問題。

Step2使用Stanford CoreNLP工具解析出新聞?wù)Z料中的命名實體和詞性信息，通過命名實體識別特征和詞性特征捕獲存在嵌套關(guān)系的事件主體之間的深層依賴關(guān)系。

Step3采用距離嵌入增強網(wǎng)絡(luò)模型獲取候選事件主體的距離嵌入信息，通過計算候選觸發(fā)詞與候選事件主體之間的相對距離，進一步獲取存在嵌套關(guān)系的事件主體的維度向量信息，根據(jù)就近原則，一般靠近事件觸發(fā)詞的候選事件主體的優(yōu)先級較高。

Step4將Step 1-Step 3獲取的ELMo動態(tài)詞向量、命名實體特征、詞性特征和距離向量特征聯(lián)合傳入下一層BiGRU層進行訓(xùn)練，BiGRU通過兩個單獨的GRU隱藏序列模擬句子中候選事件主體的語義表達和上下文語境信息。

Step5將Step 4輸出的向量輸入門控多層次注意機制層分別獲取句子級的信息和文檔級的信息，然后通過融合門動態(tài)融合存在嵌套關(guān)系的事件主體的句子級信息和文檔級信息，進一步獲得其綜合上下文信息。以上門控多層次注意機制可以對存在嵌套關(guān)系的事件主體分別賦予不同的注意力權(quán)重，方便對最優(yōu)事件主體的判斷識別。

Step6把Step 5輸出的聯(lián)合特征表示輸入Softmax層，抽取存在嵌套關(guān)系的事件的最優(yōu)事件主體。

1.1 Word Embedding

Word Embedding層使用ELMo向量、距離向量、命名實體特征與詞性特征聯(lián)合表示。

ELMo與傳統(tǒng)詞向量模型Word2vec、Glove等不同，是一種在詞嵌入中表示詞匯的新方法。通過ELMo訓(xùn)練新聞?wù)Z料庫獲得的是隨著上下文的語境而改變的動態(tài)詞向量，能夠處理復(fù)雜的語義和句法特征并在不同上下文語境下學(xué)習(xí)的詞匯多義性,計算式表示如下：

(1)

圖3 ELMo預(yù)訓(xùn)練

使用Stanford CoreNLP解析新聞文本語料獲取命名實體(NE)特征和每個命名實體的詞性(POS)特征，其可以提供對新聞文本結(jié)構(gòu)的細粒度解析，使得嵌入的語義特征更加豐富。

根據(jù)新聞?wù)Z料分析，發(fā)現(xiàn)若兩個命名實體之間的距離較短，則很可能構(gòu)成事件，因此，引入距離嵌入增強網(wǎng)絡(luò)模型[15]。例如在句子“萬東醫(yī)療實控人吳光明因短線交易被上交所處分”中，距離嵌入向量根據(jù)候選觸發(fā)詞與目標(biāo)詞“萬東醫(yī)療”和“上交所”的相對距離計算，“吳光明”與“萬東醫(yī)療”和“上交所”的相對距離分別是“-2”和“4”，所有相對距離都被映射為固定維度向量d(l)，計算式表示為：

d(l)=tanh(l/s)

(2)

式中：l為相對距離；s為句子中兩實體相對距離的最大值。若候選觸發(fā)詞到目標(biāo)詞“萬東醫(yī)療”和“上交所”的向量分別為d1和d2，則候選觸發(fā)詞的距離嵌入dt為d1和d2的串聯(lián)之和。

將獲取到的ELMo動態(tài)詞向量、命名實體特征、詞性特征和距離向量拼接成聯(lián)合嵌入向量，然后把聯(lián)合向量輸入BiGRU深度網(wǎng)絡(luò)進行訓(xùn)練更新操作。

1.2 BiGRU

門控循環(huán)單元(GRU)被視為長短期記憶(LSTM)的變體網(wǎng)絡(luò)，GRU保持了LSTM的效果同時又使結(jié)構(gòu)更加簡單，旨在解決標(biāo)準(zhǔn)RNN中出現(xiàn)的梯度消失問題。GRU根據(jù)輸入到單元的信號自適應(yīng)地記住并忘記其狀態(tài)[16]，模擬新聞文本中每個字詞的語義表示及其上下文信息。首先在時間狀態(tài)t，GRU單元利用重置機制考慮當(dāng)前輸入和狀態(tài)，之后不需要再被監(jiān)測到的特征就會被忘記，計算式表示為：

rj=σ([wrx]j+[urh〈t-1〉)]j)

(3)

(4)

更新門zj計算式如下:

zj=σ([wzx]j+[uzh〈t-1〉]j)

(5)

最后，通過更新機制獲取最新的內(nèi)存狀態(tài)，計算式如下：

(6)

上面介紹的是單向GRU的計算過程，只能處理之前的文本信息，不能處理后面的信息。而BiGRU可以很好地解決這個問題，雙向GRU可以通過兩個單獨的隱藏層在前后兩個方向處理數(shù)據(jù)。前向GRU和后向GRU的最后隱藏狀態(tài)產(chǎn)生的輸出向量[h1,h2,…,hn]可由矩陣D表示，其中n表示句子長度，D∈Rdw×n。在時間t狀態(tài)下的BiGRU網(wǎng)絡(luò)輸出公式如式(7)所示，其中f和b分別表示前向和后向。

(7)

1.3 門控多層次注意機制

根據(jù)對新聞?wù)Z料的分析，每個句子不同的字詞對整體語義表達具有不同的作用，采用門控多層次注意機制能夠捕獲影響輸出序列的重要信息。門控多層次注意機制包括句子級注意層、文檔級注意層和融合門層[17]。句子級注意力機制通過關(guān)注每個詞wt的語義能夠捕獲當(dāng)前詞的句子級信息，計算每個候選事件主體句子級語義信息sht的表達式如下：

(8)

文檔級注意機制主要通過當(dāng)前關(guān)注的句子獲取重要的文檔級別信息，句子中所有字詞均具有相同的文檔級信息，每條新聞文本中第i個句子的文檔級語義信息dhi的計算式為：

(9)

利用融合門動態(tài)整合新聞文本中每個候選事件主體wt的句子級信息sht和文檔級信息dhi，然后計算獲取其上下文信息crt，計算式如下：

crt=(Gt⊙sht)+((1-Gt)⊙dhi)

Gt=σ(wg[sht,dhi]+bg)

(10)

式中：σ為sigmoid函數(shù)；wg為權(quán)重矩陣；bg為偏差；融合門Gt表達了句子級信息sht和文檔級信息dhi所提供信息的置信度。

最后將候選事件主體wt的聯(lián)合詞嵌入信息和上下文信息crt合為單個向量xrt=[et,crt]作為聯(lián)合特征表示，輸入下一層softmax分類器，得到最優(yōu)事件主體標(biāo)簽的條件概率p(i|xrt,θ)和負對數(shù)似然損失函數(shù)J(θ)[5]，計算式如下：

(11)

式中：oi表示在參數(shù)為θ時，對于每個訓(xùn)練實例(xi,yi)，將單詞wt標(biāo)記為第i個標(biāo)簽的置信度得分；Nt為標(biāo)簽總數(shù)量；Nw為訓(xùn)練句子中詞的總數(shù)量。其中，訓(xùn)練優(yōu)化模型的方法采用隨機梯度下降法。

2 實驗與結(jié)果分析

2.1 實驗設(shè)置

2.1.1數(shù)據(jù)和評價指標(biāo)

實驗采用CCKS2019(全國知識圖譜與語義計算大會)任務(wù)四提供的語料，數(shù)據(jù)均來自金融領(lǐng)域的真實新聞文本并且經(jīng)過會議工作人員人工標(biāo)注篩選，總量為21 000條。采用交叉驗證的方法將語料集以8 ∶1 ∶1的比例分為訓(xùn)練集、驗證集和測試集。

經(jīng)統(tǒng)計分析發(fā)現(xiàn)，除去“其他”事件類型，語料庫共定義了21種金融事件類型，如圖4所示。超過1 000條以上數(shù)據(jù)的事件類型有8種，占比36.36%；有100～1 000條數(shù)據(jù)之間的事件類型有9種，占比40.91%；100條數(shù)據(jù)以下的事件類型有5種，占比22.73%，其中事件類型“公司股市異?！鄙儆?0條數(shù)據(jù)。

圖4 金融事件類型統(tǒng)計

評價指標(biāo)采用精確率(P)、召回率(R)、F1值(F)來評估事件主體抽取系統(tǒng)，公示如下：

(12)

式中：FP表示假正類，即事件實例為負類被預(yù)測成正類；FN表示假負類，即事件實例為正類被預(yù)測成負類；TP表示真正類，即事件實例為正類被預(yù)測成正類。

2.1.2實驗環(huán)境及超參數(shù)設(shè)置

整體模型基于Keras+Tensorflow的深度學(xué)習(xí)框架搭建，Keras版本號為2.2.4，Tensorflow版本號為1.8，GPU顯卡為NVIDIA Quadro K1200。

為了獲得最優(yōu)抽取模型，在驗證集上進行了參數(shù)優(yōu)化實驗。使用ELMo模型在語料集上訓(xùn)練詞嵌入，設(shè)定學(xué)習(xí)速率為0.025，窗口大小是5，詞向量維度設(shè)置為200。為了避免數(shù)據(jù)過擬合，設(shè)定Dropout為0.5。模型輸入batch_size為8，總迭代次數(shù)設(shè)置為120。

2.2 不同事件主體抽取模型對比實驗

為了檢驗本文方法的性能，實驗比較了基于門控多層次注意機制的ELMo-BiGRU模型(ELMo-BiGRU-GMAM)與傳統(tǒng)抽取方法在數(shù)據(jù)集上的性能，其中LSTM、GRU、GRU-Attention和BiGRU-Attention方法均使用傳統(tǒng)詞嵌入模型Word2vec訓(xùn)練詞向量，結(jié)果如表1所示。

表1 不同事件主體抽取方法對比實驗(%)

從表1可以觀察到，本文方法的表現(xiàn)明顯優(yōu)于其他方法。LSTM方法和GRU方法在綜合性能上面不分伯仲，但是因為GRU網(wǎng)絡(luò)的參數(shù)更少一點，在較小的數(shù)據(jù)集下可以更快收斂。GRU是沒有注意力機制的基本GRU模型，從表1結(jié)果看來，加入注意力機制的Attention-GRU模型表現(xiàn)優(yōu)越，P、R和F值均高于GRU模型，傳統(tǒng)僅使用GRU的模型在進行特征抽取時平等看待所有字詞且無法捕捉關(guān)鍵性信息，而加入注意力機制的方法可以給每個字詞分配不同的權(quán)重信息，一段文本中比較重要的句子加以大的權(quán)重，效果可以獲得明顯提升。運用雙向GRU網(wǎng)絡(luò)較單向GRU網(wǎng)絡(luò)相比優(yōu)勢不是很大，仔細觀察兩者召回率和F1值，雙向GRU模型要比單向更好一些，因為單方向GRU僅能保留過去的信息，而雙向GRU利用前后兩個隱藏狀態(tài)組合處理輸入的信息，可以在任何時間點保存過去和未來的信息，更方便地捕獲上下文信息。此外，在所有方法中，本文所提ELMo-BiGRU-GMAM模型表現(xiàn)最好，傳統(tǒng)方法僅利用句子級信息進行特征學(xué)習(xí)，本文方法融合了句子級信息和文檔級信息來增強特征學(xué)習(xí)，其P、R、F值可以在事件主體抽取上實現(xiàn)最佳性能，可以有效解決事件模糊性的問題。

為了更清晰地對比本文方法與傳統(tǒng)抽取方法的實驗效果，表2列舉了實驗語料實例，同時將傳統(tǒng)抽取模型與本文模型的抽取結(jié)果示例進行了對比，如表3所示。

表2 語料示例

表3 不同事件主體抽取模型的結(jié)果示例

從表2和表3可以觀察到，本文模型抽取的事件主體更加精確。示例語料中包含“興利集團”“歐瑞家具”“甲醛超標(biāo)”“專賣店”“海南椰島”“第一大股東變更”和“椰島品牌”等實體，包含“甲醛超標(biāo)”和“股東變更”兩個事件，語料指定事件類型為“實控人股東變更”，根據(jù)已知事件類型可排除與“甲醛超標(biāo)”事件相關(guān)的事件元素，將事件觸發(fā)詞定位為“第一大股東變更”。但是觸發(fā)詞前面的“專賣店仍在售海南椰島(600238)”文本中包括兩個事件的相關(guān)元素，且沒有標(biāo)點作為分隔符號，傳統(tǒng)抽取模型大部分僅利用句子級信息進行事件主體抽取任務(wù)，很容易造成事件模糊性問題，會將“海南”錯認(rèn)為“專賣店”的賓語，進而錯誤地將“椰島”判定為事件類型"實控人股東變更"相對應(yīng)的事件主體，其主要原因是沒有綜合考慮候選事件主體的上下文語義信息。本文模型采用門控多層次注意機制，可以同時獲取候選事件主體“海南椰島”的句子級信息和文檔級信息，然后通過融合門動態(tài)整合獲取具有上下文語義的特征，可以有效緩解“甲醛超標(biāo)”事件中噪聲元素“專賣店仍在售”對主體元素識別的干擾，最終將“海南椰島”判定為與事件類型“實控人股東變更”相對應(yīng)的事件主體，證明了本文事件主體抽取方法的有效性。

2.3 ELMo對實驗結(jié)果的影響

在深度學(xué)習(xí)模型訓(xùn)練過程中，詞嵌入對模型的整體效果起關(guān)鍵作用。為了ELMo的有效性，實驗對比了ELMo動態(tài)詞向量方法與傳統(tǒng)Word2vec、GloVe靜態(tài)詞向量方法在事件主體抽取系統(tǒng)上的性能。除了詞嵌入方法不同，其他網(wǎng)絡(luò)模型和參數(shù)設(shè)置均相同，結(jié)果如表4所示。

表4 ELMO相關(guān)證明實驗(%)

從表4可以看出，ELMo動態(tài)詞向量方法優(yōu)于傳統(tǒng)Word2vec、GloVe靜態(tài)詞向量方法。其中，ELMo的F值相比Word2vec方法提高2.82百分點，Word2vec獲得的F值相比GloVe更好一些，但是GloveR值比Word2vec稍微高一點，可能是因為GloVe使用了全局信息，算法較復(fù)雜且更容易并行化，而Word2vec是基于局部語料訓(xùn)練的，通過劃動窗口進行提取特征，可以進行在線學(xué)習(xí)且模型較簡單。ELMo的R值和F值均高于Word2vec方法，因為ELMo把整個句子作為輸入，根據(jù)每個詞的上下文環(huán)境實時訓(xùn)練動態(tài)詞向量，能夠很好地解決一詞多義的問題，驗證了使用ELMo方法的有效性。

2.4 門控多層次注意機制對實驗結(jié)果的影響

為了驗證門控多層次注意機制的對模型的影響程度，實驗對比了基于門控多層次注意機制的模型(ELMo-BiGRU-GMAM)與未加入任何注意力機制的模型(ELMo-BiGRU)、基于經(jīng)典注意力機制的模型(ELMo-BiGRU-Attention)、基于多頭注意機制的模型(ELMo-BiGRU-Multi headed Self attention)分別在事件主體抽取數(shù)據(jù)集上的性能。除了引入的注意力策略不同，其他網(wǎng)絡(luò)模型和參數(shù)設(shè)置均相同，實驗結(jié)果如表5所示。

表5 門控多層次注意機制相關(guān)證明實驗(%)

通過表5可以觀察到，基于門控多層次注意機制的模型(ELMo-BiGRU-GMAM)總體效果優(yōu)于其他模型。其中未加入任何注意機制的模型(ELMo-BiGRU)表現(xiàn)較差，基于經(jīng)典注意力機制之后，F(xiàn)1值提高了1.67百分點，未加入任何注意機制的模型在特征提取過程中容易獲取冗余信息，而基于經(jīng)典注意力機制的模型能捕獲每個候選詞的關(guān)鍵語義信息，提升模型的準(zhǔn)確率?；诙囝^自注意力機制較基于經(jīng)典注意力機制模型的F1值提高了3.05百分點，Multi-headed self-attention拼接了多個自注意力網(wǎng)絡(luò)，每個head允許在不同的表示子向量空間多次捕獲句子內(nèi)部的相關(guān)信息，頭的數(shù)量對捕獲長距離依賴有較大影響?；陂T控多層次注意機制與基于多頭注意力機制方法相比較，前者實驗總體效果明顯優(yōu)于后者。因為多頭注意機制僅利用句子級信息提取每個句子結(jié)構(gòu)內(nèi)的特征，每個句子中可能存在多個事件信息的部分特征，如果不考慮文檔級語義信息，很容易造成事件模糊性問題。而門控多層次注意機制可以同時獲得句子級的注意信息和文檔級的注意信息，更精確地提取融合每個候選詞的上下文特征，能夠很好地處理事件的模糊性問題，證明了使用門控多層次注意機制的有效性。

3 結(jié) 語

本文采用基于門控多層次注意機制的ELMo-BiGRU深度網(wǎng)絡(luò)模型實現(xiàn)了事件主體抽取。與句子級抽取方法相比，利用門控多層次注意機制可以動態(tài)整合候選詞句子級和文檔級的上下文信息，有效解決句子中存在的事件模糊性問題。為了解決傳統(tǒng)詞向量不能對一詞多義進行建模的問題，使用ELMo模型對語料進行預(yù)訓(xùn)練，動態(tài)生成包含豐富語義和句法信息的詞向量。采用BiGRU網(wǎng)絡(luò)捕獲長期序列信息且結(jié)構(gòu)更加簡單，避免了復(fù)雜的手工設(shè)計和梯度消失問題。加入命名實體特征和詞性特征，可以實現(xiàn)對文本結(jié)構(gòu)的細粒度解析，進一步增強了模型的性能，實驗結(jié)果表明了本文方法的有效性。未來計劃使用遠程監(jiān)督機制自動標(biāo)記訓(xùn)練數(shù)據(jù)，引入BERT預(yù)訓(xùn)練模型進行更復(fù)雜的事件抽取任務(wù)。