李 婧,徐 昇,李培峰
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
事件時序關系描述了不同事件發生的先后順序[1](如前(BEFORE),后(AFTER)等)。在該任務中,事件通常指一個單獨的詞語,例如,在句子S1中,事件“示威”發生在“受傷”之前,因此,“示威”和“受傷”的時序關系為“BEFORE”。事件時序關系識別是自然語言處理中的一個重要課題,獲得了越來越多的研究者的重視,該任務對于特定領域的相關工作有很大幫助。例如,在自動摘要[2]中,可以通過理清事件發展的順序而梳理文本脈絡,有效進行摘要的推理與生成;在自動問答[3]中,可以為一些涉及到時間關系的問題提供線索,為其匹配更加合理的答案。
S1: 在警方驅散示威人群的過程中,至少有5個人受傷。
近年來,比較流行的事件時序關系語料庫有TimeBank[4]和TimeBank-Dense[5]等,然而這些語料庫都只聚焦于句子級事件時序關系,即兩個事件出現在同句或者鄰句中。句子級事件時序關系不適合應用于篇章級別的自然語言處理任務中,如文本時間軸構建和故事時間線構造等。此外,受限于語料庫,目前絕大多數事件時序關系識別研究聚焦于英文,中文事件時序關系識別研究進展較慢。相對于英文而言,中文表達方式更多變,句間連接詞更少,給該任務帶來了更大挑戰[6]。
為了進一步挖掘整篇文章中各事件間的時序關系,本文將研究篇章級中文事件時序關系識別,研究對象包括同句、鄰句和跨句的中文事件時序關系。相較于句子級中文事件時序方法,篇章級方法可更多地考慮到相距較遠的兩個事件間的時序關系,這對于一些篇章級別的下游任務有很大的現實應用價值。……