事件圖譜的構(gòu)建、推理與應(yīng)用

2021-06-09 13:20:52胡志磊靳小龍陳劍赟黃冠利

大數(shù)據(jù) 2021年3期

胡志磊, 靳小龍, 陳劍赟, 黃冠利

1. 中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室，北京 100190；2. 中國科學(xué)院計(jì)算技術(shù)研究所，北京 100190；

3. 中國科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，北京 100049；4. 北京市信息技術(shù)研究所，北京 100091；

5. 北京電子科技職業(yè)學(xué)院，北京 100176

1 引言

隨著信息技術(shù)的飛速發(fā)展，目前整個社會已經(jīng)邁入了大數(shù)據(jù)時代。大數(shù)據(jù)時代下每時每刻都在產(chǎn)生龐大的數(shù)據(jù)。在龐大數(shù)據(jù)的背后，蘊(yùn)含著眾多有價(jià)值的信息。但是由于數(shù)據(jù)種類繁多、數(shù)據(jù)量龐大，難以高效、準(zhǔn)確地獲取有用的信息。為了更加高效地獲取數(shù)據(jù)背后的信息，提高獲取信息的效率，研究人員開始研究并使用自動化的工具從原始數(shù)據(jù)中抽取有價(jià)值的信息。這種自動化的技術(shù)被稱為信息抽取技術(shù)[1]，可以極大地提高工作效率，節(jié)省時間。與此同時，由于信息抽取技術(shù)逐漸走向成熟，一種新的數(shù)據(jù)組織形式逐漸形成，實(shí)現(xiàn)了知識互聯(lián)，適應(yīng)了用戶的認(rèn)知需求，其被稱為知識圖譜。

知識圖譜的概念由Google公司在2012年正式提出[2]，目的是提高搜索引擎的性能，提供更加友好的搜索結(jié)果。隨后知識圖譜在學(xué)術(shù)界受到了極大的關(guān)注，其構(gòu)建技術(shù)也在飛速發(fā)展。目前，知識圖譜已經(jīng)被廣泛地應(yīng)用到知識問答、智能搜索、個性化推薦、軟件復(fù)用[3]、政府治理[4]等多個領(lǐng)域。隨著技術(shù)的不斷發(fā)展，現(xiàn)有研究內(nèi)容已經(jīng)從知識圖譜的實(shí)體識別[5]、關(guān)系抽取[6]技術(shù)擴(kuò)展到了事件圖譜的構(gòu)建與推理技術(shù)。事件圖譜刻畫了現(xiàn)實(shí)世界中發(fā)生的事件，對事件信息進(jìn)行了準(zhǔn)確描述。事件圖譜中蘊(yùn)含眾多事件知識，事件知識的特點(diǎn)是擁有眾多維度，例如時間維度、邏輯維度、關(guān)系維度等。

本文對現(xiàn)有的關(guān)于事件知識的研究做了總結(jié)，從事件圖譜的構(gòu)建、推理與應(yīng)用3個方面闡述了相關(guān)技術(shù)的研究現(xiàn)狀。最后，本文展望了事件圖譜的發(fā)展方向。

2 知識圖譜與事件圖譜

知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)[7]，包含實(shí)體以及實(shí)體之間的關(guān)系。實(shí)體是知識圖譜中最基本的概念，一個實(shí)體代表了現(xiàn)實(shí)世界中的一個事物或者一個概念。關(guān)系代表的是實(shí)體和實(shí)體之間的關(guān)聯(lián)。另外，知識圖譜中的屬性代表的是實(shí)體具有的某個特征，其描述了實(shí)體的相關(guān)信息。知識圖譜刻畫了現(xiàn)實(shí)世界中的事物以及事物之間的各種關(guān)系，其主要表示形式是三元組，包括屬性三元組和關(guān)系三元組。知識圖譜存儲了結(jié)構(gòu)化數(shù)據(jù)，適合對數(shù)據(jù)進(jìn)行搜索和推理，已經(jīng)在知識問答、智能搜索等方面發(fā)揮了重要的作用。

事件是文本中包含的一種信息，其定義為在某個特定的時間以及特定的地點(diǎn)，由多個相關(guān)角色參與的一件事情或者一組事情[8]。隨著知識圖譜技術(shù)的發(fā)展，越來越多的研究者開始關(guān)注一種特殊的基于事件的知識圖譜，即事件圖譜。在此基礎(chǔ)上，本文將事件圖譜定義為：一種以事件為中心，用來描述事件信息以及事件之間各種關(guān)系的圖譜。事件圖譜和知識圖譜主要的不同點(diǎn)是事件圖譜主要的研究對象是事件，描述了與事件相關(guān)的知識、事件的演變過程以及事件間的關(guān)聯(lián)關(guān)系。而知識圖譜主要的研究對象是實(shí)體，主要描述的是實(shí)體屬性以及實(shí)體之間的關(guān)系。在事件圖譜中，圖的節(jié)點(diǎn)表示事件，圖上的連邊表示事件之間的時序、因果、順承、包含等關(guān)系。事件圖譜示例如圖1所示，圖1展示了收購事件、股價(jià)上漲事件和股價(jià)下跌事件的事件論元以及事件之間的關(guān)聯(lián)關(guān)系。從圖1中可以看到，收購事件的收購方是公司A，被收購方是公司B，收購金額是350億美元，收購時間是2020年10月27日。另外，由于收購事件導(dǎo)致了股價(jià)上漲事件和股價(jià)下跌事件的發(fā)生，因此收購事件分別與股價(jià)上漲事件、股價(jià)下跌事件之間具有因果關(guān)系以及隱含的時序關(guān)系。

圖1 事件圖譜示例

在事件圖譜的構(gòu)建、推理與應(yīng)用的過程中，需要用到多種智能化信息處理技術(shù)[9-10]，核心技術(shù)主要包括事件抽取技術(shù)、信息補(bǔ)全技術(shù)、關(guān)系推斷技術(shù)以及事件預(yù)測技術(shù)。面對開放網(wǎng)絡(luò)上的文本數(shù)據(jù)，首先要做的任務(wù)是事件抽取。事件抽取技術(shù)可以從非結(jié)構(gòu)化的文本數(shù)據(jù)中提取出與事件有關(guān)的信息，并將信息以結(jié)構(gòu)化的形式呈現(xiàn)出來。而信息補(bǔ)全技術(shù)是利用事件圖譜中已有的知識，推理補(bǔ)全事件圖譜中缺失的事件論元知識。關(guān)系推斷技術(shù)則是利用文本中的信息來推斷出事件之間的共指、時序以及因果等關(guān)系。最后，事件預(yù)測技術(shù)被用來預(yù)測未來可能發(fā)生的事件，分析事件的演變趨勢。構(gòu)建好的事件圖譜具有廣闊的應(yīng)用場景，主要包括熱點(diǎn)事件檢測、事件脈絡(luò)分析以及未來事件預(yù)測等。

3 事件抽取

事件是文本中包含的一種特殊信息，事件抽取就是從非結(jié)構(gòu)化的文本數(shù)據(jù)中抽取與事件有關(guān)的各種角色，將信息用結(jié)構(gòu)化數(shù)據(jù)表示。按照確定事件類別的方法，事件抽取可以被分為限定域事件抽取和開放域事件抽取。

3.1 限定域事件抽取

限定域事件抽取是指在進(jìn)行抽取任務(wù)之前，已經(jīng)確定好了相應(yīng)的目標(biāo)事件類型和相應(yīng)的結(jié)構(gòu)。另外，限定域事件抽取任務(wù)還會給出一些標(biāo)注數(shù)據(jù)。因?yàn)槭录?biāo)注較為復(fù)雜，需要耗費(fèi)一定的人力物力，所以數(shù)據(jù)集規(guī)模一般較小。在事件抽取領(lǐng)域中較為常用的標(biāo)準(zhǔn)數(shù)據(jù)集是ACE 2005語料庫。關(guān)于限定域事件抽取的研究較多，目前研究主要采用的是深度學(xué)習(xí)方法，幾種代表性的神經(jīng)網(wǎng)絡(luò)方法如下。

（1）基于注意力機(jī)制的方法

在進(jìn)行事件抽取時，許多研究者使用了注意力機(jī)制，以此來提升神經(jīng)網(wǎng)絡(luò)模型的效果。注意力機(jī)制是一種仿生技術(shù)，借鑒了人類的選擇性注意行為。選擇性注意行為是指人類在進(jìn)行觀察時，視覺會快速掃描全局圖像，從而確定要重點(diǎn)關(guān)注的內(nèi)容，抑制或忽略其他無關(guān)的信息。研究者受此啟發(fā)，提出了深度學(xué)習(xí)中的注意力機(jī)制，核心目標(biāo)就是在眾多信息中選擇對于當(dāng)前任務(wù)來說最關(guān)鍵的信息。

ACE 2005語料庫給出了每個事件的事件觸發(fā)詞和事件論元。但是之前的研究者并沒有充分利用數(shù)據(jù)集中的標(biāo)注信息，更多地依賴句子的語義信息，忽略了被標(biāo)注的論元信息。因此，Liu S等人[11]提出了一種新的方法，利用論元信息來加強(qiáng)對觸發(fā)詞的識別和分類。該方法將句子中的單詞信息、上下文的單詞信息、上下文的實(shí)體信息結(jié)合起來，組成單詞的觸發(fā)詞候選項(xiàng)。他們還采用了一種有監(jiān)督的注意力機(jī)制更加深入地提取句子中的有效信息，句子中的事件觸發(fā)詞會比其他上下文單詞獲得更多的注意。最后該方法使用了一個多分類的神經(jīng)網(wǎng)絡(luò)模型完成事件抽取任務(wù)，充分利用了語料庫中被標(biāo)注的論元信息。

上述方法將句子中的多個事件視為獨(dú)立事件，只是利用單個句子內(nèi)部的信息來檢測事件。但是句子中表達(dá)的事件是相互關(guān)聯(lián)的，單純地利用句子內(nèi)部的信息不能很好地區(qū)分某些事件。因此Chen Y等人[12]提出了一種分層的基于門控注意力機(jī)制的偏差標(biāo)記網(wǎng)絡(luò)，目的是融合句子和文檔的信息，從而進(jìn)行多事件識別和抽取。該方法采用了一種新的思路，將事件抽取看作一種序列標(biāo)注問題。模型中首次添加了一個層次化的基于循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）的標(biāo)簽層來捕捉所有事件的依賴關(guān)系，同時設(shè)計(jì)了一種偏差目標(biāo)函數(shù)來增強(qiáng)觸發(fā)標(biāo)簽對模型的影響。除此之外，為了充分利用事件候選項(xiàng)的上下文信息，該方法采用了一種基于門控的多層次注意力機(jī)制，可以自動提取句子和文檔中的信息，并進(jìn)行動態(tài)的集成。該方法充分利用了事件之間的關(guān)聯(lián)關(guān)系，融合了文檔信息來增強(qiáng)事件識別的結(jié)果。可以看到，基于注意力機(jī)制的方法實(shí)現(xiàn)了對信息的有效提取，使得事件識別更加準(zhǔn)確。

（2）基于預(yù)訓(xùn)練模型的方法

一般來說，為了更好地訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，需要為模型提供大規(guī)模的標(biāo)注數(shù)據(jù)。但是構(gòu)建大規(guī)模的標(biāo)注數(shù)據(jù)耗時耗力，難以滿足要求。相比之下，大規(guī)模未標(biāo)注的語料卻很容易構(gòu)建。為了利用大量的未標(biāo)注數(shù)據(jù)，研究人員提出了預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型可以從大規(guī)模的語料中提取隱含的語義信息，學(xué)習(xí)到更好的通用語義表示向量，從而提高下游任務(wù)的表現(xiàn)。

Yang S等人[13]針對現(xiàn)有遠(yuǎn)程監(jiān)督事件抽取方法中存在的問題，將目光轉(zhuǎn)向預(yù)訓(xùn)練的語言模型，希望利用從大規(guī)模語料庫中學(xué)習(xí)到的知識表示向量來提高模型的性能。其設(shè)計(jì)了一種基于預(yù)訓(xùn)練語言模型的事件抽取（pre-trained language model based event extractor，PLMEE）模型。該模型的結(jié)構(gòu)如圖2所示[13]。他們將事件抽取看作由兩個子任務(wù)組成，兩個子任務(wù)分別是觸發(fā)詞抽取和論元抽取，并提出了以預(yù)訓(xùn)練語言模型為基礎(chǔ)的觸發(fā)詞抽取器和論元抽取器。基于預(yù)訓(xùn)練模型的方法會使事件的語義表示更加精確。但是現(xiàn)有的方法將事件抽取看作兩個子任務(wù)，構(gòu)建的是流水線模型，存在明顯的錯誤傳遞問題。

（3）基于圖神經(jīng)網(wǎng)絡(luò)的方法

圖2 PLMEE模型結(jié)構(gòu)[13]

過去幾年深度學(xué)習(xí)技術(shù)興起，以神經(jīng)網(wǎng)絡(luò)為代表的技術(shù)被用來提取歐氏空間中的數(shù)據(jù)特征[14]。但是現(xiàn)實(shí)世界中還有眾多場景使用的是非歐氏空間數(shù)據(jù)，其中具有代表性的就是圖數(shù)據(jù)。圖數(shù)據(jù)被廣泛應(yīng)用在多種場景，如電子商務(wù)的推薦系統(tǒng)、知識圖譜的在線推理等。但是圖數(shù)據(jù)結(jié)構(gòu)復(fù)雜性較高，之前的神經(jīng)網(wǎng)絡(luò)方法無法直接被使用。因此，研究人員借鑒了卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及深度自動編碼器的思想，設(shè)計(jì)了一種專門用來處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)，即圖神經(jīng)網(wǎng)絡(luò)。圖卷積神經(jīng)網(wǎng)絡(luò)（graph convolutional network，GCN）是指在圖數(shù)據(jù)中應(yīng)用卷積操作，其核心思想是學(xué)習(xí)到一種函數(shù)對節(jié)點(diǎn)進(jìn)行表示。通過函數(shù)變換，一個節(jié)點(diǎn)自身的特征可以結(jié)合其臨近節(jié)點(diǎn)的特征，從而生成節(jié)點(diǎn)新的表示。

在事件抽取、關(guān)系抽取等任務(wù)中，一般利用詞嵌入等方法將輸入序列轉(zhuǎn)換為連續(xù)的向量，并沒有使用句子的結(jié)構(gòu)信息。為了在神經(jīng)網(wǎng)絡(luò)中引入句法結(jié)構(gòu)特征，Nguyen T等人[15]提出了一個基于句法依存樹的GCN模型用于事件抽取。在GCN中，每個節(jié)點(diǎn)的卷積向量是由相鄰節(jié)點(diǎn)的表示向量計(jì)算出來的，可以作為該節(jié)點(diǎn)的唯一特征進(jìn)行分類。另外，模型中通過對當(dāng)前單詞的卷積向量以及句子中提到的實(shí)體進(jìn)行池化操作，克服實(shí)體指稱無法捕捉的問題。池化操作聚合了卷積向量，從而為事件類型預(yù)測生成了單個向量表示。該方法在事件抽取中引入了GCN模型，將句法依存樹上的信息進(jìn)行聚合，首次利用了句子中的結(jié)構(gòu)信息。

除此之外，Liu X等人[16]設(shè)計(jì)了一個新的聯(lián)合多事件抽取（jointly multiple events extraction，JMEE）框架。該框架利用基于注意力機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行建模，并通過引入句法依存樹中的句法捷徑弧來增強(qiáng)信息流，以此來提升在一個句子中抽取多個事件的效果。使用句法捷徑弧可以減少將信息流從一個節(jié)點(diǎn)轉(zhuǎn)換到目標(biāo)節(jié)點(diǎn)的轉(zhuǎn)換次數(shù)。與基于序列的模型相比，該方法會使在同一個句子中從一個事件觸發(fā)詞跳到另一個事件觸發(fā)詞的跳數(shù)明顯減少。GCN會利用輸入的句法捷徑弧，聚合目標(biāo)節(jié)點(diǎn)一階鄰居的信息，為每個節(jié)點(diǎn)學(xué)習(xí)到其句法上下文的表示。之后，模型通過自注意力機(jī)制進(jìn)行信息聚合，保留了多個事件之間的信息，用于抽取事件觸發(fā)詞和論元。基于圖神經(jīng)網(wǎng)絡(luò)的方法有效地利用了句法依存樹中包含的信息。但是基于圖神經(jīng)網(wǎng)絡(luò)的模型的計(jì)算量比較大，且只適用于對構(gòu)建好的靜態(tài)圖進(jìn)行處理。

（4）其他神經(jīng)網(wǎng)絡(luò)方法

除了上述方法，還有眾多方法被應(yīng)用到事件抽取任務(wù)中，也取得了良好的效果。例如，Liu J等人[17]設(shè)計(jì)了一種新的基于對抗模仿的知識蒸餾方法，目的是從句子中獲取知識來進(jìn)行事件抽取。該方法首先構(gòu)建了一個教師模塊，充分利用標(biāo)注數(shù)據(jù)來學(xué)習(xí)知識表示，之后建立相應(yīng)的學(xué)生模塊用于測試。在訓(xùn)練過程中，鑒別器通過檢測教師模塊和學(xué)生模塊的輸出來區(qū)分兩者。同時，學(xué)生模塊會盡可能地模仿教師模塊，生成與教師模塊相似的向量來迷惑鑒別器。該方法有效地完成了知識蒸餾，得到的新模型參數(shù)量少，且性能接近復(fù)雜模型。

Hong Y等人[18]利用具有自我調(diào)節(jié)機(jī)制的生成式對抗網(wǎng)絡(luò)來完成事件抽取任務(wù)，提高事件抽取的性能。一般來說，生成模型產(chǎn)生的虛假特征往往來自語義上的偽相關(guān)上下文，在訓(xùn)練過程中神經(jīng)網(wǎng)絡(luò)可能會錯誤地、不自覺地保留記憶，從而產(chǎn)生虛假的特征。因此該模型采用了一種雙通道自調(diào)節(jié)的學(xué)習(xí)策略來調(diào)節(jié)學(xué)習(xí)過程，還添加了一對生成判別模型。在自學(xué)習(xí)過程中，生成模型被用來生成虛假特征，而判別模型被用來消除錯誤。該方法減輕了虛假特征對結(jié)果的影響，提升了事件抽取的效果。

3.2 開放域事件抽取

開放域事件抽取和限定域事件抽取的不同是事件類型不需要預(yù)先指定。因此，開放域事件抽取一般沒有人工標(biāo)注數(shù)據(jù)，主要使用無監(jiān)督的方法。這種方法主要基于統(tǒng)計(jì)的思想，當(dāng)事件觸發(fā)詞和事件論元相似時，其表達(dá)的事件類型也相似。在此過程中，聚類方法和概率模型的使用較為廣泛。

開放域事件抽取的目標(biāo)是抽取所有類型的事件，不對事件類型進(jìn)行限定，有更高的事件覆蓋率。Araki J 等人[19]提出了一種基于遠(yuǎn)程監(jiān)督的自動生成訓(xùn)練數(shù)據(jù)的方法，不依賴人工標(biāo)注的數(shù)據(jù)。該方法利用WordNet[20]進(jìn)行遠(yuǎn)程監(jiān)督，以此來生成高質(zhì)量的事件分類數(shù)據(jù)。之后，生成的數(shù)據(jù)被用來對事件判別器進(jìn)行訓(xùn)練。該方法可以生成大量的訓(xùn)練數(shù)據(jù)，但是訓(xùn)練數(shù)據(jù)的準(zhǔn)確程度無法保證，會導(dǎo)致判別器的結(jié)果較差。

除此之外，目前貝葉斯圖形模型（Bayesian graphical model）被用于對開放域事件進(jìn)行結(jié)構(gòu)化的表示，但是這種方法假定所有的單詞都是由單個事件產(chǎn)生的，具有一定的局限性。因此Wang R等人[21]提出了一種基于生成式對抗網(wǎng)絡(luò)的事件抽取模型，稱之為對抗神經(jīng)事件模型（adversarial-neural event model，AEM）。該模型使用狄利克雷分布對事件進(jìn)行建模，并利用生成器網(wǎng)絡(luò)捕捉潛在事件。該模型可以用來處理不同長度的文檔，適用范圍比較廣泛。另外，Naik A 等人[22]將對抗域自適應(yīng)（adversarial domain adaptation，ADA）框架應(yīng)用到開放域的事件觸發(fā)詞識別任務(wù)中。該方法是一個無監(jiān)督的過程，不需要目標(biāo)域的標(biāo)記數(shù)據(jù)，實(shí)驗(yàn)結(jié)果顯示了該框架的有效性。

事件抽取技術(shù)是用于構(gòu)建事件圖譜的基礎(chǔ)技術(shù)，影響著后續(xù)任務(wù)的精度，是極其重要的。針對這一任務(wù)，研究者提出了眾多新方法。研究者期望通過不斷探索，設(shè)計(jì)出更多適合此任務(wù)的神經(jīng)網(wǎng)絡(luò)，不斷提高事件抽取的準(zhǔn)確率。雖然目前已有的方法取得了不錯的結(jié)果，但是該領(lǐng)域的評估標(biāo)準(zhǔn)還不是很明確，所使用的標(biāo)準(zhǔn)數(shù)據(jù)集規(guī)模也比較小。未來需要進(jìn)一步明確評估標(biāo)準(zhǔn)，提出規(guī)模更大的標(biāo)準(zhǔn)數(shù)據(jù)集用于研究。

4 事件信息補(bǔ)全

事件抽取技術(shù)主要用于獲取事件知識，但是事件抽取的結(jié)果往往是不完整的，存在部分論元缺失、論元抽取不準(zhǔn)確等情況。為了對事件抽取的結(jié)果進(jìn)行補(bǔ)全，就需要用到信息補(bǔ)全技術(shù)。信息補(bǔ)全技術(shù)依托于相應(yīng)的事件圖譜，根據(jù)圖譜中的相關(guān)知識對缺失的知識進(jìn)行補(bǔ)全。目前，信息補(bǔ)全和鏈接預(yù)測也是知識圖譜領(lǐng)域的研究熱點(diǎn)，但是研究者們主要關(guān)注二元關(guān)系事實(shí)。二元關(guān)系事實(shí)通常表示為三元組，即(頭部實(shí)體,關(guān)系,尾部實(shí)體)。而在事件圖譜當(dāng)中，存在眾多的多元關(guān)系事實(shí)。多元關(guān)系事實(shí)一般通過引入虛擬實(shí)體分解為多個三元組，例如Freebase[23]中的復(fù)合值類型（compound value type，CVT）實(shí)體。目前研究者已經(jīng)開展了對多元關(guān)系推理的研究，提出了一些方法。而這些多元關(guān)系推理方法可以應(yīng)用在事件信息補(bǔ)全任務(wù)中，多元關(guān)系事實(shí)的預(yù)測對于事件圖譜的補(bǔ)全具有重要意義。

在將實(shí)體轉(zhuǎn)換為多個三元組實(shí)體的過程當(dāng)中，Wen J等人[24]認(rèn)為在轉(zhuǎn)換過程中會造成結(jié)構(gòu)信息的丟失，可能導(dǎo)致鏈接預(yù)測不準(zhǔn)確。因此他們提出了一種基于翻譯的方法m-TransH來對這些實(shí)例進(jìn)行建模。在該方法中，關(guān)系（二元關(guān)系或多元關(guān)系）是由對應(yīng)于該類型關(guān)系的一系列角色到其值的映射來定義的，每個特定的映射都是此關(guān)系的一個實(shí)例。但是m-TransH并沒有考慮在同一多元關(guān)系事實(shí)中各成分之間的相關(guān)性。在此基礎(chǔ)上，Zhang R C等人[25]提出了一種新穎的相關(guān)性關(guān)聯(lián)嵌入（r elatedness affiliated embedding，RAE）模型，還提出了一種可伸縮實(shí)例重構(gòu)（scalable instance reconstruction，SIR）算法。RAE通過對各成分之間的相關(guān)性進(jìn)行互補(bǔ)建模，進(jìn)一步改進(jìn)了m-TransH方法。這里的相關(guān)性是指兩個值在共同實(shí)例中共同參與的可能性。

而Guan S P等人[26]并沒有對多元關(guān)系事實(shí)進(jìn)行分解，而是將每個多元關(guān)系事實(shí)表示為一組角色-值對。他們提出了一種對多元關(guān)系數(shù)據(jù)進(jìn)行鏈接預(yù)測的方法NaLP，該方法對同一多元關(guān)系事實(shí)中所有角色-值對的相關(guān)性進(jìn)行了建模。在該方法中，他們認(rèn)為一個角色與其值是緊密相連的，因此應(yīng)該綁定在一起。同樣地，如果在同一個組中的所有角色-值對都緊密相關(guān)，就假定這組角色-值對很有可能構(gòu)成有效的關(guān)系事實(shí)。基于上述假設(shè)，NaLP方法中包含兩個關(guān)鍵組件，分別是角色值對嵌入和相關(guān)性評估。對于給定的關(guān)系事實(shí)，需要首先學(xué)習(xí)到角色-值對的嵌入表示，再在相關(guān)性評估組件中計(jì)算角色-值對的成對相關(guān)性。之后還需要估計(jì)關(guān)系事實(shí)的整體相關(guān)性，獲得最終的評估得分，并用于計(jì)算損失函數(shù)。該方法有效地建模了多元關(guān)系事實(shí)中角色和值之間的相關(guān)性，充分利用了多元關(guān)系事實(shí)中的內(nèi)部信息。另外，由于公開可用的多元關(guān)系數(shù)據(jù)集有限，他們基于Wikidata中的原始數(shù)據(jù)構(gòu)建了一個實(shí)用的多元關(guān)系數(shù)據(jù)集WikiPeople。

Guan S P等人[27]還進(jìn)一步提出了神經(jīng)網(wǎng)絡(luò)模型NeuInfer，用于對多元關(guān)系事實(shí)進(jìn)行知識推斷。NeuInfer不僅可以用于推斷整個事實(shí)的未知元素，還可以用于新型任務(wù)，進(jìn)行靈活知識推斷。該模型使用的事實(shí)是由主要三元組以及任意數(shù)量的輔助描述組成的。他們假設(shè)一個有效事件的主三元組是有效的，而不管其有沒有輔助描述。另外，每個輔助描述都與主三元組相關(guān)，可以作為主三元組的某個特征。該模型首先對主三元組的有效性進(jìn)行評估，得到相應(yīng)的有效性得分。之后再對主三元組與描述信息的兼容性進(jìn)行評估，得到兼容性得分。最后，模型將有效性得分和兼容性得分的加權(quán)和作為最終的分?jǐn)?shù)。該方法主要利用了事實(shí)中的主三元組以及輔助描述，可以根據(jù)部分知識進(jìn)行知識推理。

在事件信息補(bǔ)全的過程中，不僅需要對二元關(guān)系事實(shí)進(jìn)行補(bǔ)全，還需要對多元關(guān)系事實(shí)進(jìn)行補(bǔ)全。目前多數(shù)研究者認(rèn)為將多元關(guān)系事實(shí)分解為多個三元組會導(dǎo)致多元關(guān)系事實(shí)內(nèi)部的關(guān)系信息丟失，可能會加劇信息補(bǔ)全精度不夠高的問題。因此，上述方法都將多元關(guān)系事實(shí)看作一個整體，保留了原有數(shù)據(jù)的信息。目前用于事件信息補(bǔ)全的方法還比較少，補(bǔ)全精度還不夠高，需要進(jìn)行深入研究。

5 事件關(guān)系推斷

對于一篇給定的文本，文本中存在多個事件。與此同時，事件之間有可能是相互關(guān)聯(lián)的，可能存在多種關(guān)系。事件關(guān)系推斷技術(shù)則利用文本中的信息來推斷事件之間的關(guān)系，主要包括共指關(guān)系、時序關(guān)系以及因果關(guān)系等。早期基于規(guī)則的方法實(shí)現(xiàn)簡單，但依賴于人工制定的規(guī)則，實(shí)用性不高。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，眾多深度學(xué)習(xí)方法被應(yīng)用到關(guān)系推斷任務(wù)中，本文簡要介紹了相關(guān)的方法。

5.1 事件共指關(guān)系

事件共指關(guān)系指的是給定描述事件的文本，如果兩個事件指向同一個事件實(shí)例，則這兩個事件之間存在共指關(guān)系。當(dāng)文本中的多個事件指向一個事件實(shí)例時，則多個事件組成了一個共指事件鏈。在共指事件鏈中的任意兩個事件都具有共指關(guān)系。事件共指關(guān)系可以分為文檔內(nèi)事件共指和跨文檔事件共指。進(jìn)行事件共指關(guān)系的推斷有助于計(jì)算機(jī)更好地理解事件發(fā)展的脈絡(luò)，對于綜合全局信息、推測事件演變、預(yù)測未來事件具有重要的意義。

Zeng Y T等人[28]提出了一種新的基于事件轉(zhuǎn)述和論元感知語義嵌入的EPASE模型。該模型會在特定事件的上下文中識別深層次的轉(zhuǎn)述關(guān)系，并且可以涵蓋更多情況的事件轉(zhuǎn)述。另外，由于自變量角色的嵌入被編碼為事件嵌入，無須依賴固定數(shù)量和類型的自變量，因此該模型具有良好的可伸縮性。該方法首次將轉(zhuǎn)述關(guān)系引入了事件共指任務(wù)，通過句子中的完整語義信息來識別句子之間的轉(zhuǎn)述關(guān)系，充分利用了上下文信息。該方法有效地將自注意力機(jī)制和特殊事件的標(biāo)識結(jié)合起來，只對選取的特定事件進(jìn)行關(guān)注，排除了文本中噪聲信息的干擾。

5.2 事件時序關(guān)系

事件時序關(guān)系是指兩個事件發(fā)生的先后關(guān)系。時間是事件的一個天然屬性，事件發(fā)生時間的不同揭示了事件之間存在的先后關(guān)系。通過對時序關(guān)系的分析可以獲取事件從開始到結(jié)束的演化過程，有助于對未來事件進(jìn)行預(yù)測。事件時序關(guān)系抽取是自然語言處理領(lǐng)域中的重要研究方向，受到了越來越多研究者的關(guān)注。

Cheng F等人[29]提出了一個基于雙向長短期記憶的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行時序關(guān)系抽取。該方法使用了句子的依存路徑，將詞向量、詞性向量和依存關(guān)系向量拼接，并將拼接后的向量作為模型輸入的向量。在此基礎(chǔ)上，為了解決跨句子實(shí)體之間不存在依存路徑的問題，假設(shè)兩個相鄰的句子共享一個根節(jié)點(diǎn)。通過在模型中加入多種特征，該方法的實(shí)驗(yàn)結(jié)果取得了有效的提升。Han R J等人[30]為了解決在事件抽取和事件時序關(guān)系識別兩階段任務(wù)中存在的誤差傳遞問題，提出了一種聯(lián)合學(xué)習(xí)方法，同時進(jìn)行事件抽取以及時序關(guān)系識別。他們在兩個子任務(wù)中共享了事件表達(dá)，利用結(jié)構(gòu)化約束和整數(shù)線性規(guī)劃來優(yōu)化問題，提升了事件表達(dá)效果，緩解了誤差傳遞的問題。另外，他們還提出了深度結(jié)構(gòu)化學(xué)習(xí)框架[31]的方法，利用遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)事件的時序關(guān)系表示，同時采用結(jié)構(gòu)化支持向量機(jī)（structured support vector machine，SSVM）進(jìn)行預(yù)測。該方法在多個數(shù)據(jù)集上取得了優(yōu)秀的結(jié)果，作者還通過消融實(shí)驗(yàn)進(jìn)行了廣泛的誤差分析。

在此基礎(chǔ)上Han R J等人[32]還指出，之前的方法中只利用了例如硬約束的結(jié)構(gòu)化知識，同時因?yàn)橛?xùn)練數(shù)據(jù)有限，進(jìn)行時序關(guān)系分類時會引起偏差。因此他們提出了一個新的框架，通過概率領(lǐng)域知識構(gòu)建的分布約束來增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)的性能。新的方法還將拉格朗日松弛方法應(yīng)用到時序關(guān)系抽取任務(wù)中，取得了最優(yōu)性能。Wang H Y等人[33]設(shè)計(jì)了一種新的聯(lián)合約束學(xué)習(xí)框架，利用時間和子事件關(guān)系之間的邏輯約束對模型進(jìn)行正則化。同時，他們設(shè)計(jì)了新的事件復(fù)合結(jié)構(gòu)，用來描述事件提及之間的關(guān)系結(jié)構(gòu)。

5.3 事件因果關(guān)系

事件因果關(guān)系是指兩個事件之間的因果聯(lián)系，是一種復(fù)雜的語義關(guān)系。通過對事件因果關(guān)系進(jìn)行分析，事件發(fā)生的前因后果會更加清晰。清晰的因果關(guān)系有助于進(jìn)一步認(rèn)識事件發(fā)展的過程，使得事件推理與事件預(yù)測更加準(zhǔn)確，可以避免風(fēng)險(xiǎn)、提高收益，為決策者提供有力的支持。事件因果關(guān)系識別在事件預(yù)測中的重要性，吸引了眾多學(xué)者對其進(jìn)行研究。

因?yàn)樵谑录P(guān)系推斷任務(wù)中缺少標(biāo)準(zhǔn)數(shù)據(jù)集，所以Caselli T等人[34]提出了一個用于事件時序和因果關(guān)系檢測的數(shù)據(jù)集ESC（event storyline corpus）。ESC數(shù)據(jù)集的構(gòu)建為之后的研究提供了便利。針對文檔級事件因果關(guān)系的識別任務(wù)，Gao L等人[35]建模了粗粒度和細(xì)粒度的文檔級因果結(jié)構(gòu)，在ESC數(shù)據(jù)集上取得了不錯的效果。他們設(shè)計(jì)了豐富的特征進(jìn)行事件因果關(guān)系識別，包括詞法特征、因果潛在特征、句法特征，還利用事件共指鏈接將效果較差的句間預(yù)測問題轉(zhuǎn)換為句內(nèi)預(yù)測問題。最后，他們使用整數(shù)線性規(guī)劃的方法來進(jìn)行文檔級全局推理，用來抽取文檔中所有事件對的因果關(guān)系。該方法專門用于對事件因果關(guān)系進(jìn)行識別，但是其并沒有對因果關(guān)系的方向進(jìn)行區(qū)分。

Liu J等人[36]還利用外部知識來提升事件的表示，設(shè)計(jì)了一種事件提及屏蔽機(jī)制來挖掘歷史數(shù)據(jù)中存在的因果關(guān)系。該方法將ConceptNet[37]的知識引入了原有文本數(shù)據(jù)中，擴(kuò)展了已有事件，涵蓋了更多的信息。另外，為了處理數(shù)據(jù)中新出現(xiàn)的事件，該方法利用事件提及屏蔽機(jī)制來發(fā)現(xiàn)因果關(guān)系模式，增加對上下文信息的關(guān)注。最后，模型對兩個組件做了權(quán)衡，用來充分發(fā)揮兩個組件的優(yōu)點(diǎn)。實(shí)驗(yàn)結(jié)果顯示，該方法效果顯著，在跨主題應(yīng)用中也展現(xiàn)出很強(qiáng)的魯棒性。

事件關(guān)系推斷用于對事件之間的關(guān)系進(jìn)行判斷，在此基礎(chǔ)上可以對事件圖譜進(jìn)行完善，更好地刻畫事件之間的關(guān)系。之前研究者主要利用規(guī)則的方法進(jìn)行事件關(guān)系推斷，現(xiàn)在已經(jīng)引入了深度學(xué)習(xí)的方法，取得了不錯的效果。但是總體來說，目前對事件關(guān)系推斷技術(shù)的研究還不夠充分，尤其是事件因果關(guān)系這一方面。在事件因果關(guān)系的研究領(lǐng)域中缺少明確的任務(wù)定義以及足夠的標(biāo)準(zhǔn)數(shù)據(jù)集，這就需要研究人員在此領(lǐng)域中投入更多的精力，廣泛開展研究。

6 事件預(yù)測

事件預(yù)測主要指的是根據(jù)歷史事件來預(yù)測未來發(fā)生的事件。對未來事件進(jìn)行準(zhǔn)確預(yù)測具有十分重要的意義，既可以減少突發(fā)事件帶來的損失，也可以針對未來事件做出相應(yīng)的應(yīng)對部署，為整個社會帶來巨大的經(jīng)濟(jì)效益。但與此同時，對未來事件進(jìn)行預(yù)測是十分困難的，需要面臨很多的問題。這是因?yàn)閷τ谠S多事件來說，很難知道其發(fā)生的機(jī)制以及其背后的原因。隨著大數(shù)據(jù)時代的來臨，相關(guān)數(shù)據(jù)的規(guī)模不斷擴(kuò)大，為事件預(yù)測的研究提供了基礎(chǔ)。因此，眾多研究者開始探索如何進(jìn)行事件預(yù)測，提出了眾多有意義的方法。后文主要介紹腳本事件預(yù)測技術(shù)和基于圖卷積網(wǎng)絡(luò)的事件預(yù)測技術(shù)。

腳本事件預(yù)測技術(shù)根據(jù)給出故事的上下文來推斷出故事的結(jié)尾。在這一任務(wù)當(dāng)中，事件是用腳本結(jié)構(gòu)描述的，即利用腳本描述事件的參與者、事件類型、事件觸發(fā)詞等多個元素，之后利用現(xiàn)有腳本對未來的事件進(jìn)行預(yù)測。腳本事件預(yù)測是由Chambers N等人[38]在2008年提出的，需要在候選事件列表中選擇最有可能發(fā)生的事件，利用填空式的評估標(biāo)準(zhǔn)來評估模型，這種思路被稱為統(tǒng)計(jì)腳本學(xué)習(xí)。Chambers N等人[38]設(shè)計(jì)了點(diǎn)互信息（pointwise mutual information，PMI）來計(jì)算事件對之間的關(guān)系。

目前腳本事件預(yù)測任務(wù)廣泛使用的評測方法是多選項(xiàng)完形填空（multiple choice narrative cloze，MCNC），該方法是由Granroth-Wilding M等人[39]提出的。在MCNC任務(wù)中，完整的事件鏈中存在某處缺失，給定多個候選的后續(xù)事件，模型需要從多個候選項(xiàng)中選擇最符合邏輯的一項(xiàng)內(nèi)容。Granroth-Wilding M等人[39]采用深度學(xué)習(xí)的方法，設(shè)計(jì)了一種神經(jīng)網(wǎng)絡(luò)來對事件鏈進(jìn)行建模。他們設(shè)計(jì)了一個EventComp模型，使用孿生神經(jīng)網(wǎng)絡(luò)（siamese network）代替原有的PMI。模型結(jié)構(gòu)包含3層，分別是輸入層、論元組合層和事件組合層。最終，訓(xùn)練后的模型與統(tǒng)計(jì)學(xué)習(xí)方法相比取得了極大的進(jìn)步，證明深度學(xué)習(xí)方法在這一領(lǐng)域是有效的。

上述方法對事件對之間的關(guān)系進(jìn)行了建模，并取得了不錯的效果，但是文本中事件之間豐富的連接信息并沒有被充分地利用。正因如此，研究者開始利用圖的方法對事件之間的連接信息進(jìn)行建模。在事件構(gòu)成的圖中，圖的節(jié)點(diǎn)表示單個事件，節(jié)點(diǎn)之間的邊表示事件之間的關(guān)系。Li B等人[40]提出了一種眾包的構(gòu)建事件圖的方法。另外，Glava? G等人[41]提出了一種從文本中構(gòu)建事件圖的有效方法。在此基礎(chǔ)上，Li Z Y等人[42]提出了一種新的方法來充分利用事件之間稠密的連接信息。該方法首先構(gòu)建了敘事事理圖譜，之后基于事理圖譜進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí)，最后再利用得到的表示向量預(yù)測后續(xù)事件，模型結(jié)構(gòu)如圖3所示[42]。具體來說，在構(gòu)建敘事事理圖譜的過程中，首先需要抽取腳本事件鏈條，之后利用抽取出來的鏈條構(gòu)建圖譜。在構(gòu)建好事理圖譜之后，模型每次會從中抽取一個子圖，學(xué)習(xí)并更新所選子圖上的事件表示。其中每個子圖都包括故事上下文、所有候選事件的節(jié)點(diǎn)以及這些節(jié)點(diǎn)之間的有向邊。該方法通過構(gòu)建好的事理圖譜來學(xué)習(xí)事件表示，有效地利用了事件之間的關(guān)系。但是構(gòu)建事理圖譜的過程較為復(fù)雜，構(gòu)建好的圖譜規(guī)模較大，每次只能選取一個子圖來更新子圖上的事件表示。

圖3 SGNN模型結(jié)構(gòu)[42]

基于圖卷積網(wǎng)絡(luò)的事件預(yù)測技術(shù)主要指的是在時序知識圖譜上利用圖卷積網(wǎng)絡(luò)進(jìn)行推理的技術(shù)。時序知識圖譜主要由四元組構(gòu)成，是在原有知識圖譜的三元組上添加了時間維度得到的。通過引入時間維度，時序知識圖譜可以更好地描述事件信息。因此對時序知識圖譜的未來狀態(tài)進(jìn)行推理就是對未來的事件進(jìn)行預(yù)測。

Han Z等人[43]提出了一種全新的圖霍克斯神經(jīng)網(wǎng)絡(luò)（graph Hawkes neural network，GHNN）。該神經(jīng)網(wǎng)絡(luò)首次利用霍克斯過程[44]進(jìn)行建模，主要用于捕捉過去事件對未來事件的影響。通過捕捉時序知識圖譜上潛在的動態(tài)關(guān)系，該神經(jīng)網(wǎng)絡(luò)可以用于對大規(guī)模時序多關(guān)系型數(shù)據(jù)進(jìn)行分析，更加準(zhǔn)確地對未來某一時刻發(fā)生的事件進(jìn)行預(yù)測。與此同時，Jin W等人[45]提出了一種新的循環(huán)事件網(wǎng)絡(luò)（recurrent event network，RE-NET）來預(yù)測將要發(fā)生的事件。該網(wǎng)絡(luò)主要分為兩個部分，一部分是對歷史事件的信息進(jìn)行循環(huán)編碼，另一部分是對時序相鄰事件的信息進(jìn)行聚合。RE-NET充分利用了歷史事件的信息、時序相鄰事件的信息以及同時發(fā)生事件的信息。通過聚合多種信息，該方法給出了所有事件的聯(lián)合概率分布，用來預(yù)測未來事件發(fā)生的概率。基于圖卷積網(wǎng)絡(luò)的事件預(yù)測方法可以利用歷史數(shù)據(jù)中蘊(yùn)含的信息，捕捉到歷史事件對未來事件的影響。但是目前這種方法的準(zhǔn)確率還比較低，需要開展進(jìn)一步的研究。

對事件預(yù)測的研究是十分重要的，其具有廣闊的應(yīng)用場景，事件預(yù)測是對事件圖譜的高級應(yīng)用。目前在腳本事件預(yù)測任務(wù)中已經(jīng)有了相對清晰的評測方法，研究者也提出了許多方法對事件鏈以及事件圖進(jìn)行建模。除此之外，研究者還提出了基于圖卷積網(wǎng)絡(luò)的事件預(yù)測方法，采用新的方法對將來的事件進(jìn)行預(yù)測。總體來說，研究者對事件預(yù)測的關(guān)注度較高，期待取得更多的研究進(jìn)展。

7 事件圖譜的應(yīng)用場景

目前，知識圖譜已經(jīng)被應(yīng)用到各行各業(yè)，成為人工智能技術(shù)的重要組成部分。但是知識圖譜具有一定的局限性，只能描述與實(shí)體相關(guān)的知識。而現(xiàn)實(shí)世界中存在著大量的事件，事件是日常生活中不可或缺的一部分，充分利用與事件相關(guān)的知識會更加真實(shí)、具體地刻畫現(xiàn)實(shí)世界。因此，事件知識構(gòu)成的事件圖譜具有廣闊的應(yīng)用前景[9]。將事件圖譜應(yīng)用到人工智能技術(shù)中可以使產(chǎn)品的智能化水平更高，更加方便人們的生產(chǎn)和生活。具體來說，事件圖譜主要有熱點(diǎn)事件檢測、事件脈絡(luò)分析以及未來事件預(yù)測等應(yīng)用場景。

7.1 熱點(diǎn)事件檢測

事件圖譜可以用于對熱點(diǎn)事件進(jìn)行檢測。熱點(diǎn)事件發(fā)生突然，會在短時間內(nèi)形成，而且時時刻刻在發(fā)生變化，傳統(tǒng)的方法難以應(yīng)對。而采用與事件圖譜相關(guān)的分析技術(shù)可以對網(wǎng)絡(luò)上的輿論內(nèi)容進(jìn)行分析，實(shí)時地捕捉熱點(diǎn)事件。另外，還可以對行業(yè)熱點(diǎn)、地域熱點(diǎn)事件進(jìn)行檢測，從多個方面展現(xiàn)熱點(diǎn)事件。該技術(shù)可以被應(yīng)用到媒體機(jī)構(gòu)中，將檢測到的熱點(diǎn)事件實(shí)時地推送給用戶，讓用戶在第一時間獲得更多的熱點(diǎn)資訊。

7.2 事件脈絡(luò)分析

事件圖譜的另一重要應(yīng)用場景是事件脈絡(luò)分析。針對特定的事件，事件圖譜可以利用事件之間的關(guān)系，對事件的前因后果進(jìn)行關(guān)聯(lián)，形成事件發(fā)展的脈絡(luò)，并展示給用戶。具體來說，可以將事件圖譜與搜索引擎結(jié)合，當(dāng)用戶對感興趣的事件進(jìn)行搜索時，就可以得到事件發(fā)生的來龍去脈，清晰地反映事件發(fā)展的脈絡(luò)，極大地提高知識檢索的效率，給用戶提供更多的便利。

7.3 未來事件預(yù)測

事件圖譜還可以在未來事件預(yù)測方面發(fā)揮重要的作用。通過分析歷史事件的發(fā)展過程，可以預(yù)測未來可能發(fā)生的事件。在金融領(lǐng)域，可以基于歷史事件掌握行業(yè)動態(tài)，預(yù)測行業(yè)發(fā)展的趨勢。這樣就能夠準(zhǔn)確地把握市場發(fā)展動向，針對市場的變化做出相應(yīng)的調(diào)整。在輿情預(yù)警方面，可以在現(xiàn)階段發(fā)生事件的基礎(chǔ)上預(yù)測未來可能會發(fā)生的事件，對事件的演化過程做出預(yù)測[46]。一旦事件發(fā)生不良演變或者有不可控的趨勢，監(jiān)測系統(tǒng)可以及時發(fā)出預(yù)警，由相關(guān)部門第一時間介入處理。未來事件預(yù)測在現(xiàn)實(shí)生活中有重要的作用，可以做到預(yù)測預(yù)警，及時規(guī)避風(fēng)險(xiǎn)，創(chuàng)造出巨大的社會價(jià)值。

8 事件圖譜的研究展望

目前，在研究者的共同努力下，對事件圖譜的研究取得了不錯的進(jìn)展，越來越多的學(xué)者開始關(guān)注這一領(lǐng)域。對事件圖譜的研究有助于人們進(jìn)一步了解事件的發(fā)展歷程以及事件背后的影響因素，可以更加容易地獲取知識，提高生產(chǎn)效率。雖然事件圖譜具有廣闊的應(yīng)用場景，但是現(xiàn)在對事件圖譜相關(guān)技術(shù)的研究還不夠深入，距離事件圖譜的大規(guī)模應(yīng)用還有很長的路要走，還面臨很多新的挑戰(zhàn)。未來事件圖譜可向以下幾個方向發(fā)展。

（1）提升事件抽取與事件推理的精度

目前事件抽取的準(zhǔn)確率還不夠高，而事件抽取是事件圖譜構(gòu)建的基礎(chǔ)，只有從文本中準(zhǔn)確地抽取出事件知識，才能推動后續(xù)技術(shù)的發(fā)展，因此需要進(jìn)一步提升事件抽取的準(zhǔn)確率。之后是事件推理，雖然研究者對其進(jìn)行了眾多有意義的探索，但是目前提出的方法也存在準(zhǔn)確率低、限制條件多等問題。正因如此，需要繼續(xù)進(jìn)行廣泛的研究，不斷提高事件推理的精度，進(jìn)行更加準(zhǔn)確的事件預(yù)測。

（2）自動構(gòu)建事件抽取與事件關(guān)系推斷數(shù)據(jù)集

目前在事件抽取與事件關(guān)系推斷的研究中，缺少數(shù)據(jù)集是一個嚴(yán)重的問題。數(shù)據(jù)集的匱乏制約了事件抽取與事件關(guān)系推斷技術(shù)的發(fā)展。因此，未來應(yīng)當(dāng)關(guān)注數(shù)據(jù)集的構(gòu)造方法，目標(biāo)是實(shí)現(xiàn)自動化地構(gòu)建高質(zhì)量的數(shù)據(jù)集。自動構(gòu)建高質(zhì)量的事件抽取、事件關(guān)系推斷數(shù)據(jù)集具有重要的意義，是未來技術(shù)發(fā)展的重要方向。

（3）廣泛開展事件時序、因果關(guān)系研究

在事件圖譜中，事件之間的時序關(guān)系和因果關(guān)系占據(jù)重要的地位，但是目前對其進(jìn)行的研究還不夠多。只有獲取到準(zhǔn)確的時序關(guān)系以及因果關(guān)系，才能推斷出事件的發(fā)展歷程，實(shí)現(xiàn)對事件的溯源。另外，事件預(yù)測的研究也離不開事件時序關(guān)系以及因果關(guān)系的支撐。因此，廣泛開展事件時序、因果關(guān)系研究是十分必要的，也是十分有意義的，需要研究人員的共同努力。

（4）研究事件間關(guān)系可信性的界定方法

事件之間的關(guān)系是事件圖譜的重要組成部分，反映了復(fù)雜事件背后的關(guān)聯(lián)關(guān)系。在事件推理的過程中，必然要用到事件之間的關(guān)系。而事件之間的關(guān)系是否可信、如何界定事件間關(guān)系的可信性是個十分重要的問題，對事件推理技術(shù)的發(fā)展有重要的影響。因此事件間關(guān)系的可信性的界定方法值得研究者關(guān)注，需要在深入研究的基礎(chǔ)上提出較為合理的界定方法。

（5）深入研究復(fù)雜事件的推理

目前事件推理研究的內(nèi)容大多是簡單事件，缺乏對復(fù)雜事件的研究。為了更好地利用事件圖譜，對復(fù)雜事件的研究是不可或缺的。因?yàn)楝F(xiàn)實(shí)世界中的事件錯綜復(fù)雜，不再是單一的簡單事件，所以未來需要開展對復(fù)雜事件的研究，挖掘復(fù)雜事件之間的關(guān)聯(lián)。只有這樣才能不斷提高事件推理技術(shù)的水平，最終實(shí)現(xiàn)對事件的智能分析。

9 結(jié)束語

事件圖譜中包含大量的事件知識，現(xiàn)代社會智能化水平的提升需要事件圖譜的輔助。事件圖譜中的事件涉及的維度較多，導(dǎo)致事件圖譜的構(gòu)建與推理具有一定的難度。基于事件圖譜的重要性，研究人員已經(jīng)開始對這一領(lǐng)域展開積極的探索，推動著該領(lǐng)域的快速發(fā)展。本文簡單介紹了知識圖譜和事件圖譜，從事件圖譜的構(gòu)建、推理與應(yīng)用方面對事件圖譜的研究現(xiàn)狀做了總結(jié)。之后，本文給出了事件圖譜具體的應(yīng)用場景，并展望了事件圖譜的研究方向。

目前，事件圖譜是自然語言處理領(lǐng)域中的前沿研究方向。為了更好地發(fā)揮事件圖譜的價(jià)值，利用事件圖譜服務(wù)社會，需要更多研究者進(jìn)行深入研究。希望本文可以為事件圖譜相關(guān)的研究提供一些幫助。