999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合上下文信息的篇章級事件時序關系抽取方法

2021-11-05 12:04:48史存會俞曉明程學旗
計算機研究與發展 2021年11期
關鍵詞:實驗信息方法

王 俊 史存會 張 瑾 俞曉明 劉 悅 程學旗,3

1(中國科學院計算技術研究所數據智能系統研究中心 北京 100190) 2(中國科學院網絡數據科學與技術重點實驗室(中國科學院計算技術研究所) 北京 100190) 3(中國科學院大學 北京 100049) (wyswangjun@163.com)

文章如新聞通常描述一系列事件的發生,這些事件看似離散地被敘述著,其實存在著一定的聯系,其中最重要的一種事件聯系為時序關系.時序關系表示事件發生的先后順序,其串聯了文章中事件的發展演化.如果能準確地抽取文章中的事件時序關系,將有助于理解文章信息,梳理事件脈絡.因此,事件時序關系抽取成為了一項重要的自然語言理解任務,受到越來越多的關注.

事件時序關系抽取的目標為抽取文本中包含的事件時序關系,如圖1中的例子,其包含4個事件:刺殺(E1)、暴行(E2)、屠殺(E3)和內戰(E4),其中可抽取出時序圖中的6對事件時序關系.圖1中時序關系BEFORE表示事件在另一個事件之前發生;時序關系INCLUDES表示一個事件包含另一個事件;時序關系VAGUE表示兩個事件之間不存在特定的時序關系.

Fig.1 An sample of event temporal relation extraction圖1 事件時序關系抽取樣例

目前,與實體關系抽取[1]類似,已有的事件時序關系抽取方法往往將事件時序關系抽取任務視為句子級事件對的分類問題,以事件對和事件對所在的句子信息作為輸入,使用基于規則、基于傳統機器學習或基于深度學習的方法識別事件對的時序關系類別.然而,這種句子級的事件時序關系抽取方法使用的事件對所在的句子信息十分有限,往往不足以支持事件時序關系的識別,限制了事件時序關系識別的精度.同時,句子級的事件時序關系抽取方法孤立地識別事件對的時序關系,未考慮文章中其他事件對的時序關系,其抽取的事件時序關系可能與其他事件時序關系沖突(即不滿足時序關系的自反性、傳遞性等),使得全文的事件時序關系一致性難以得到保證.

為此,本文提出一種融合上下文信息的篇章級事件時序關系抽取方法.該方法使用基于雙向長短期記憶(bidirectional long short-term memory, Bi-LSTM)的神經網絡模型學習文章中每個事件對的時序關系表示,再使用自注意力機制學習待識別事件對與其文章上下文中其他事件對的聯系,利用聯系結合上下文中其他事件對的信息,得到更優的事件對的時序關系表示,從而增強事件時序關系抽取模型的效果.為了驗證模型的性能,本文在TB-Dense(timebank dense)數據集[2]和MATRES(multi-axis temporal relations for start-points)數據集[3]上進行實驗,實驗結果證明本文方法的有效性.

1 相關工作

按照事件時序關系抽取研究的發展,其方法主要可以分為3類:基于規則的事件時序關系抽取方法、基于傳統機器學習的事件時序關系抽取方法和基于深度學習的事件時序關系抽取方法.

1.1 基于規則的事件時序關系抽取方法

事件時序關系抽取研究發展的早期,由于缺乏相關的成熟語料庫,主流的事件時序關系抽取方法通常是基于人工制定的規則展開的.Passonneau[4]提出使用文本中的時態與體態信息來構造規則,用以推斷事件的時序關系.Hitzeman和Moens等人[5]提出的話語時序結構分析方法,考慮了時態、體態、時間狀語和修辭結構的影響.

基于規則的方法實現簡單,但其效果極大地依賴于規則的數量和質量,其實用性不高.

1.2 基于傳統機器學習的事件時序關系抽取方法

隨著國際標準化組織制定了TimeML[6](time markup language)標注體系,以及時序關系抽取領域的一些重要標準數據集(如TimeBank[7])的構建.傳統的統計機器學習方法開始被廣泛應用于事件時序關系識別研究.Mani與Schiffman等人[8]提出基于決策樹分類模型的新聞事件時序關系識別方法,該方法使用時序關系連接詞、時態、語態和時間狀語等特征.之后,Mani等人[9]又提出基于最大熵分類算法的時序關系分類方法,使用數據集給定的TimeML特征(如事件類別、時態、體態等).Chambers等人[10]在Mani等人提出方法的特征之上,添加了詞性、句法樹結構等詞法和句法特征,以及WordNet中獲得的形態學特征,較之前的方法有了3%的提升.Ning等人[11]使用手工制作的特征作為輸入,在訓練過程中對全局的事件時序關系結構進行建模,利用結構化學習優化時間圖的全局一致性.

基于傳統機器學習的事件時序關系抽取的方法研究重點主要集中在特征工程,方法的有效性極大地依賴于特征工程的設計.

1.3 基于深度學習的事件時序關系抽取方法

隨著深度學習技術的發展與興起,神經網絡模型被引入到事件時序關系抽取任務中來.Meng等人[12]提出一種簡單的基于LSTM(long short-term memory)網絡結構的事件時序關系抽取模型.該模型以事件之間的最短的句法依賴關系路徑作為輸入,識別相同句子或相鄰句子中的事件時序關系類別,在TB-Dense數據集上取得不錯效果.類似地,Cheng等人[13]采取最短句法依賴關系路徑作為輸入,構造了一種基于雙向長短期記憶的神經網絡模型,同樣取得不錯的效果.之后,Han等人[14]提出了一種結合結構化學習的神經網絡模型.該模型包括遞歸神經網絡來學習成對事件時序關系的評分函數,以及結構化支持向量機(structured support vector machine, SSVM)進行聯合預測.其中神經網絡自動學習事件所在情境的時序關系表示,來為結構化模型提供魯棒的特征,而SSVM則將時序關系的傳遞性等領域知識作為約束條件,來做出更好的全局一致決策,通過聯合訓練提升整體模型性能.

基于深度學習的事件時序關系抽取方法,相較于基于傳統機器學習的方法,能自動學習并表示特征,無需繁雜的特征工程且模型性能更高而泛化性能力更強,如今已經成為了事件時序關系抽取領域的研究趨勢.

2 結合上下文的篇章級事件時序關系抽取

現有的事件時序關系抽取方法,無論是基于規則還是基于傳統機器學習或深度學習,其本質上都是一個句子級的事件對的時序關系分類器.其實現方式為

rij=f(sentij),

(1)

其中,rij表示任意事件對ei,ej的時序關系,f為時序關系分類器,sentij為事件對所在句子.可以看出時序關系rij僅基于事件對所在的句子信息,而這有限的局部信息導致識別的精度較低且無法保證全文整體的時序關系的一致性.

針對句子級事件時序關系抽取方法的局限性,本文提出結合上下文信息的篇章級事件時序關系抽取模型.可形式化為

rij=f(sentij,contextij),

(2)

其中,contextij為事件對ei,ej的上下文,即事件對所在文章信息.

2.1 上下文信息增強的事件時序關系抽取模型

本文提出篇章級的事件時序關系抽取模型,稱為上下文信息增強的事件時序關系抽取模型(context information enhanced event temporal relation extraction model, CE-TRE).模型的整體框架如圖2所示,主要包含3個部分:1)事件對的時序關系編碼模塊;2)事件對的上下文增強模塊;3)輸出模塊.其中,我們分別將每個事件對的句子級時序關系表示Sk通過全連接層得到Query:Qk,Key:Kk,Value:Vk.CE-TRE模型以文章作為基本輸入單元.按照事件對分句后,事件對的時序關系編碼模塊使用基于Bi-LSTM的神經網絡模型學習事件對的時序關系表示;事件對上下文增強模塊利用自注意力機制結合上下文中其他事件對的信息,得到更完備的事件對時序關系表示;輸出模塊根據事件對時序關系表示預測事件對的時序關系類別.

Fig.2 Context information enhanced event temporal relation extraction model圖2 上下文信息增強的事件時序關系抽取模型

2.2 時序關系編碼模塊

時序關系編碼模塊用于初步編碼每個事件對的句子級時序關系表示.CE-TRE模型以文章作為輸入單元,對于每個文章輸入,先將其按一個個事件對把文章分為一個個句子(存在一個句子包含多個事件對的情況),得到所有事件對的所在句子集合.時序關系編碼模塊就以每個事件對的所在句子作為輸入,編碼事件對的句子級時序關系表示.具體如圖3所示.

Fig.3 Temporal relation coding module圖3 時序關系編碼模塊

給定事件對所在的句子(可以是單獨的1個句子或連續的2個句子),表示為tk=(tk1,…,tki,…,tkj,…,tkL),其中k表示該句子是文章按事件對分句后的第k個句子,tki和tkj為事件對應的詞.

首先本文使用預訓練好的BERT[15]模型計算每個詞的詞嵌入vki,得到句子的向量表示sentk.使用BERT計算詞嵌入的目的是為了得到上下文有關的詞向量表示,使得后續模塊能更好地學習事件對的時序關系表示.因為預訓練的BERT只用于計算詞向量,不參與整體模型的訓練,因此不會影響整體模型的訓練難度.形式化過程為

sentk=(vk1,vk2,…,vkL)=EmbeddingBERT(tk).

(3)

接著,將事件對所在句子sentk通過Bi-LSTM模型,可以得到句子長度的隱藏狀態序列Hk=(hk1,…,hki,…,hkj,…,hkL).將2個事件的位置(i和j)相對應的隱藏狀態hki和hkj串聯起來,得到事件對的句子級時序關系向量表示Sk=(hki;hkj).上述過程可形式化為

(hk1,hk2,…,hkL),hkL=Bi_LSTM(sentk,hk0),

(4)

最后,1個句子可能包含多個事件對,因此本模塊針對1個句子輸入,可能輸出多個事件對向量表示,一起匯總成文章的事件對表示集合.

2.3 事件對上下文增強模塊

本文將時序關系編碼模塊得到的每個事件對的句子級的時序關系表示,輸入到事件對上下文增強模塊,得到上下文信息增強的事件對時序關系表示.具體如圖4所示:

Fig.4 Context enhancement module for event pairs圖4 事件對上下文增強模塊

Fig.5 Self-Attention diagram圖5 Self-Attention示意圖

(5)

(6)

該過程可簡寫為

(7)

2.4 輸出模塊

本模塊用于輸出事件對的時序關系的分類預測值.如圖6所示,本模塊將上下文增強后的事件對時序關系表示,通過一層全連接層和用于分類的softmax層,得到該事件對的T維的時序關系概率向量Rk.其中第j個元素表示將其判別為第j個時序關系類型的概率值.我們采用真實時序關系類型和預測概率的交叉熵誤差作為損失函數:

(8)

其中,N為事件對總數,I為指示函數.

Fig.6 Output module圖6 輸出模塊

3 實 驗

本節主要介紹實驗部分的相關細節.首先介紹本文所使用的公開數據集與實驗的評價指標,接著介紹實驗對比的基線方法,隨后介紹實驗的參數設置,最后對實驗結果進行分析與探討.

3.1 數據集與評價指標

本文在公開的TB-Dense和MATRES數據集上對模型的效果和性能進行評估,這2個數據集的規模信息如表1所示:

Table 1 Statistics of TB-Dense and MATRES Datasets表1 數據集TB-Dense和MATRES的規模統計

表1詳細說明為:

1) TB-Dense數據集是Cassidy等人[2]基于TimeBank數據集,通過標注相同或相鄰句子中的所有事件對的時序關系,構建的稠密標注語料,解決了TimeBank的標注稀疏性,近年來已被廣泛應用于事件時序關系抽取研究.TB-Dense包含6類時序關系:VAGUE,BEFORE,AFTER,SIMULTANEOUS,INCLUDES,IS_INCLUDED.

2) MATRES是Ning等人[3]在2018年基于TempRels3數據集(TempEval第3次評測任務[17]構建的數據集,包括TimeBank,AQUAINT(advanced question-answering for intelligence),Platinum)構建的新數據集.該數據集通過使用多軸注釋方案并采用事件起點比較時序來改進注釋者之間的一致性,進一步提高了數據質量,成為近幾年來值得關注的一個新數據集.MATRES只包含4類時序關系:VAGUE,BEFORE,AFTER,SIMULTANEOUS.

為了與已有相關研究進行對比,本實驗采用2套微平均F1值作為評價指標,具體為:

1) 針對數據集TB-Dense,使用全部6個時序關系類別的Micro-F1.

2) 針對數據集MATRES,使用除了“VAGUE”外的3個時序關系類別的Micro-F1.

3.2 基準方法

1) CAEVO.Chambers等人[18]于2014年提出的有序篩網式流水線模型.其中每個篩子可以是基于規則的分類器,也可以是機器學習模型.

2) CATENA.Mirza等人[19]于2016年提出了多重篩網式的事件關系抽取系統,可利用時序關系抽取模型和因果關系抽取模型之間的交互作用,增強時序和因果關系的提取和分類.

3) 文獻[13]方法.Cheng等人[13]于2017年提出了一種基于雙向長短期記憶(Bi-LSTM)的神經網絡模型,該模型采取最短句法依賴關系路徑作為輸入,能達到與基于人工特征相當的性能.

4) 文獻[20]方法.Vashishtha等人[20]于2019年提出了一個用于建模細粒度時序關系和事件持續時間的新語義框架,該框架將成對的事件映射到實值尺度,以構建文檔級事件時間軸.基于此框架,訓練模型聯合預測細粒度的時序關系和事件持續時間.

5) 文獻[21]方法.Meng等人[21]于2018年提出了上下文感知的事件時序關系抽取的神經網絡模型,模型以事件最短依存路徑作為輸入,按敘述順序儲存處理過的時序關系,用于上下文感知.

6) 文獻[22]方法.Han等人[22]于2019年提出了一種具有結構化預測的事件和事件時序關系聯合抽取模型.該模型讓事件抽取模塊和事件時序關系抽取模塊共享相同的上下文嵌入和神經表示學習模塊,從而改善了事件表示.利用結構化的推理共同分配事件標簽和時序關系標簽,避免了常規管道模型中的錯誤傳遞.

3.3 實驗參數設置

CE-TRE中,Bi-LSTM層的輸出維度為100,線性層的輸入維度為400和100;模型訓練的batch_size大小為1(因為篇章級的事件時序關系抽取以文章為基本單位 ,一篇文章包含若干的事件對).

此外由于篇章級時序關系抽取以文章為輸入單位,而不同文章包含的事件對的數目是不同的.這種差異導致不同batch包含的事件對數目存在明顯差異,如果使用一樣的學習率進行訓練,會使得模型更新不均衡,導致模型優化過程不穩定.因此,本文使用的解決策略為設置動態學習率,為包含事件對多的文章樣例增大學習率,即學習率與事件對數目正相關:

(9)

其中,lr_base為基準學習率,設置為0.000 1;lr_decay為學習率衰減,設置為0.9,每5輪進行1次衰減;rel_num為文本包含的事件對數目,學習率與其成正比.

3.4 實驗結果與分析

為了驗證本文提出的模型CE-TRE在不同數據集上的抽取效果,本文選取了近幾年的主流模型(如3.2節所述)與CE-TRE在公開的TB-Dense和MATRES數據集上進行對比實驗.

3.4.1 驗證CE-TRE模型性能

實驗1.在TB-Dense數據集上驗證CE-TRE模型性能.

在數據集TB-Dense上實驗的原因是該數據是事件時序關系抽取任務的傳統數據集,有著充分的前人工作可以對比.實驗結果如表2所示, 與近幾年的主流模型對比,本文提出的CE-TRE模型在TB-Dense取得了最高的Micro-F1評分,這說明CE-TRE模型很有競爭力.

實驗2.在MATRES數據集上驗證CE-TRE模型性能.

在數據集MATRES上實驗的原因是該數據是個新的標注質量更高且數據規模更大的數據集,可以進一步驗證本文提出模型的效果.實驗結果如表3所示,在MATRES數據集上,本文提出的CE-TRE模型的效果優于2019年最優的文獻[22]方法[22].

Table 2 Comparative Experiment of CE-TRE and 6 Baselines on TB-Dense

Table 3 Comparative Experiment of CE-TRE and the Best Baseline on MATRES

3.4.2 驗證結合上下文信息對模型的增強效果

實驗3.驗證結合上下文的有效性.

為了驗證結合上下文信息,是否對事件時序關系抽取模型有著增益效果,本實驗對比有無上下文信息增強的模型的效果.實驗結果如表4所示,在2個數據集上,結合上下文信息的CE-TRE模型均優于未結合上下文信息的TRE(without CE)模型.此結果表明,結合上下文信息確實能夠增強事件對時序關系抽取模型的效果.

Table 4 Comparative Experiment Between CE-TREand TRE (without CE)

此外,通過對比2個數據集上的實驗結果可以發現,CE-TRE模型相比于TRE模型,在數據集TB-Dense上的性能提升較為顯著(采用McNemar檢驗,所得p<0.005),而在數據集MATRES上的性能差距較小.本文認為原因是:MATRES數據集的標注類別只包含4類,相較于TB-Dense的6類,MATRES中的事件時序關系的識別難度較低.同時,MATRES數據集中的句子平均長度長于TB-Dense數據集,通常情況下,MATRES的句子包含的時序關系信息也會更多.這2點使得未結合上下文信息的TRE模型在MATRES數據集上也能取得較高的得分,從而CE-TRE模型相比TRE模型提升較小.同時,TRE(without CE)模型在2個數據集上的性能還優于許多基線模型,本文認為:TRE雖未結合上下文信息,但模型的訓練方式和CE-TRE一樣,以文章作為單位輸入,使得模型的每次更新優化只針對1篇文本的數據,可以集中學習每篇文章所屬文意的時序關系,從而學習出更優的模型.

3.4.3 實驗結果樣例分析

如表5中的樣例,需判斷事件E1與事件E2之間的時序關系.對于未結合上下文信息的事件對時序關系識別模型TRE,其預測結果為“VAGUE”,預測錯誤.而結合上下文信息的事件對時序關系識別模型CE-TRE的預測結果為“BEFORE”,預測正確.通過分析樣例可知,TRE預測錯誤的原因是樣例的句子信息不足以判別事件對的時序關系.而CE-TRE通過結合上文中的“1991年,查爾斯·基廷在州法院被判協助詐騙數千名投資者,這些投資者購買了基廷在林肯儲蓄貸款公司員工出售的高風險垃圾債券.”的信息可知,基廷于1991年被判協助詐騙,導致投資者購買了垃圾債券,之后債券變得一文不值.由此推斷1996年基廷的判決被推翻發生在債券變得一文不值之后.

Table 5 A Sample from TB-Dense Dataset表5 來自TB-Dense數據集的樣例

由TRE和CE-TRE在樣例上的預測結果進一步驗證了結合上下文的有效性.

綜合實驗1和實驗2的結果,本文提出的CE-TRE模型在2個數據集上均取得優于近年來的最新模型,說明了本文方法的有效性.其次通過對比有上下文增強的CE-TRE模型和無上下文增強的TRE(without CE)模型的評分,以及兩者在表5中樣例的預測結果可以看出,結合上下文信息確實能夠增強事件對時序關系抽取模型的效果.

4 總 結

事件時序關系抽取技術是一種從文本中獲取事件的時序結構信息的重要手段,有著很高的研究價值和實用價值.現有的事件時序關系抽取方法往往都是句子級的抽取方法,存在時序關系識別精度低且無法保證全文一致性的問題.本文提出了一種融合上下文信息的篇章級事件時序關系抽取方法,并通過TB-Dense數據集和MATRES數據集上的多組實驗驗證了本文方法的有效性.

目前事件時序關系抽取的數據集規模都較小,限制了神經網絡模型的抽取性能.在未來的工作中,我們將進一步研究如何豐富相關數據集或如何引入外部資源來進一步提升事件時序關系抽取模型的性能.

猜你喜歡
實驗信息方法
記一次有趣的實驗
做個怪怪長實驗
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产免费自拍视频| 久久人搡人人玩人妻精品| 中国特黄美女一级视频| 小13箩利洗澡无码视频免费网站| 波多野结衣无码中文字幕在线观看一区二区 | 看看一级毛片| 国产成人免费观看在线视频| 精品国产自在现线看久久| 国产亚洲欧美日韩在线一区| 波多野结衣一区二区三区四区视频| 国产玖玖玖精品视频| 亚洲无码熟妇人妻AV在线| 午夜成人在线视频| 色丁丁毛片在线观看| 欧美成人免费| 国产人人乐人人爱| 美女被躁出白浆视频播放| 国产美女在线观看| 欧美中文一区| 久久一本精品久久久ー99| 亚洲成人福利网站| 国产视频资源在线观看| 最新国产午夜精品视频成人| 亚洲成AV人手机在线观看网站| 狠狠v日韩v欧美v| 国产h视频在线观看视频| 国产99精品久久| 色综合激情网| 欧美精品高清| 九九精品在线观看| 亚洲欧美一区二区三区图片 | 久久影院一区二区h| 国产综合网站| 久久永久免费人妻精品| 99精品免费欧美成人小视频| 欧美午夜视频在线| 久久免费看片| 天堂网亚洲系列亚洲系列| 97人人做人人爽香蕉精品| 久久精品这里只有国产中文精品| 中文字幕亚洲第一| 欧美日韩国产在线观看一区二区三区| 久久国产免费观看| 国产成人综合久久| 日韩天堂视频| 91久久偷偷做嫩草影院免费看| 99偷拍视频精品一区二区| 亚洲婷婷在线视频| 婷婷六月激情综合一区| 久久久黄色片| 米奇精品一区二区三区| 亚洲天堂免费在线视频| 亚洲不卡av中文在线| 国产99久久亚洲综合精品西瓜tv| 久久国产拍爱| 在线观看91精品国产剧情免费| 色呦呦手机在线精品| 久久国语对白| 亚洲福利视频一区二区| 狠狠色综合网| 亚洲精品不卡午夜精品| 中文字幕波多野不卡一区| 一本视频精品中文字幕| 国产无码在线调教| 久久亚洲精少妇毛片午夜无码 | 欧美亚洲国产精品久久蜜芽| 日韩无码黄色| 国产亚洲精| 秋霞国产在线| 国产成人精品亚洲日本对白优播| 色综合色国产热无码一| 免费国产好深啊好涨好硬视频| 精品视频福利| 国产小视频在线高清播放| 欧美激情视频二区| 成人久久精品一区二区三区| 亚洲啪啪网| 国产白浆一区二区三区视频在线| 欧美色综合久久| 四虎国产精品永久一区| 国产a v无码专区亚洲av| 色爽网免费视频|