999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

事件圖譜的構(gòu)建、推理與應(yīng)用

2021-06-09 13:20:52胡志磊靳小龍陳劍赟黃冠利
大數(shù)據(jù) 2021年3期
關(guān)鍵詞:信息方法模型

胡志磊, 靳小龍, 陳劍赟, 黃冠利

1. 中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190;

3. 中國科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049;4. 北京市信息技術(shù)研究所,北京 100091;

5. 北京電子科技職業(yè)學(xué)院,北京 100176

1 引言

隨著信息技術(shù)的飛速發(fā)展,目前整個社會已經(jīng)邁入了大數(shù)據(jù)時代。大數(shù)據(jù)時代下每時每刻都在產(chǎn)生龐大的數(shù)據(jù)。在龐大數(shù)據(jù)的背后,蘊(yùn)含著眾多有價(jià)值的信息。但是由于數(shù)據(jù)種類繁多、數(shù)據(jù)量龐大,難以高效、準(zhǔn)確地獲取有用的信息。為了更加高效地獲取數(shù)據(jù)背后的信息,提高獲取信息的效率,研究人員開始研究并使用自動化的工具從原始數(shù)據(jù)中抽取有價(jià)值的信息。這種自動化的技術(shù)被稱為信息抽取技術(shù)[1],可以極大地提高工作效率,節(jié)省時間。與此同時,由于信息抽取技術(shù)逐漸走向成熟,一種新的數(shù)據(jù)組織形式逐漸形成,實(shí)現(xiàn)了知識互聯(lián),適應(yīng)了用戶的認(rèn)知需求,其被稱為知識圖譜。

知識圖譜的概念由Google公司在2012年正式提出[2],目的是提高搜索引擎的性能,提供更加友好的搜索結(jié)果。隨后知識圖譜在學(xué)術(shù)界受到了極大的關(guān)注,其構(gòu)建技術(shù)也在飛速發(fā)展。目前,知識圖譜已經(jīng)被廣泛地應(yīng)用到知識問答、智能搜索、個性化推薦、軟件復(fù)用[3]、政府治理[4]等多個領(lǐng)域。隨著技術(shù)的不斷發(fā)展,現(xiàn)有研究內(nèi)容已經(jīng)從知識圖譜的實(shí)體識別[5]、關(guān)系抽取[6]技術(shù)擴(kuò)展到了事件圖譜的構(gòu)建與推理技術(shù)。事件圖譜刻畫了現(xiàn)實(shí)世界中發(fā)生的事件,對事件信息進(jìn)行了準(zhǔn)確描述。事件圖譜中蘊(yùn)含眾多事件知識,事件知識的特點(diǎn)是擁有眾多維度,例如時間維度、邏輯維度、關(guān)系維度等。

本文對現(xiàn)有的關(guān)于事件知識的研究做了總結(jié),從事件圖譜的構(gòu)建、推理與應(yīng)用3個方面闡述了相關(guān)技術(shù)的研究現(xiàn)狀。最后,本文展望了事件圖譜的發(fā)展方向。

2 知識圖譜與事件圖譜

知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)[7],包含實(shí)體以及實(shí)體之間的關(guān)系。實(shí)體是知識圖譜中最基本的概念,一個實(shí)體代表了現(xiàn)實(shí)世界中的一個事物或者一個概念。關(guān)系代表的是實(shí)體和實(shí)體之間的關(guān)聯(lián)。另外,知識圖譜中的屬性代表的是實(shí)體具有的某個特征,其描述了實(shí)體的相關(guān)信息。知識圖譜刻畫了現(xiàn)實(shí)世界中的事物以及事物之間的各種關(guān)系,其主要表示形式是三元組,包括屬性三元組和關(guān)系三元組。知識圖譜存儲了結(jié)構(gòu)化數(shù)據(jù),適合對數(shù)據(jù)進(jìn)行搜索和推理,已經(jīng)在知識問答、智能搜索等方面發(fā)揮了重要的作用。

事件是文本中包含的一種信息,其定義為在某個特定的時間以及特定的地點(diǎn),由多個相關(guān)角色參與的一件事情或者一組事情[8]。隨著知識圖譜技術(shù)的發(fā)展,越來越多的研究者開始關(guān)注一種特殊的基于事件的知識圖譜,即事件圖譜。在此基礎(chǔ)上,本文將事件圖譜定義為:一種以事件為中心,用來描述事件信息以及事件之間各種關(guān)系的圖譜。事件圖譜和知識圖譜主要的不同點(diǎn)是事件圖譜主要的研究對象是事件,描述了與事件相關(guān)的知識、事件的演變過程以及事件間的關(guān)聯(lián)關(guān)系。而知識圖譜主要的研究對象是實(shí)體,主要描述的是實(shí)體屬性以及實(shí)體之間的關(guān)系。在事件圖譜中,圖的節(jié)點(diǎn)表示事件,圖上的連邊表示事件之間的時序、因果、順承、包含等關(guān)系。事件圖譜示例如圖1所示,圖1展示了收購事件、股價(jià)上漲事件和股價(jià)下跌事件的事件論元以及事件之間的關(guān)聯(lián)關(guān)系。從圖1中可以看到,收購事件的收購方是公司A,被收購方是公司B,收購金額是350億美元,收購時間是2020年10月27日。另外,由于收購事件導(dǎo)致了股價(jià)上漲事件和股價(jià)下跌事件的發(fā)生,因此收購事件分別與股價(jià)上漲事件、股價(jià)下跌事件之間具有因果關(guān)系以及隱含的時序關(guān)系。

圖1 事件圖譜示例

在事件圖譜的構(gòu)建、推理與應(yīng)用的過程中,需要用到多種智能化信息處理技術(shù)[9-10],核心技術(shù)主要包括事件抽取技術(shù)、信息補(bǔ)全技術(shù)、關(guān)系推斷技術(shù)以及事件預(yù)測技術(shù)。面對開放網(wǎng)絡(luò)上的文本數(shù)據(jù),首先要做的任務(wù)是事件抽取。事件抽取技術(shù)可以從非結(jié)構(gòu)化的文本數(shù)據(jù)中提取出與事件有關(guān)的信息,并將信息以結(jié)構(gòu)化的形式呈現(xiàn)出來。而信息補(bǔ)全技術(shù)是利用事件圖譜中已有的知識,推理補(bǔ)全事件圖譜中缺失的事件論元知識。關(guān)系推斷技術(shù)則是利用文本中的信息來推斷出事件之間的共指、時序以及因果等關(guān)系。最后,事件預(yù)測技術(shù)被用來預(yù)測未來可能發(fā)生的事件,分析事件的演變趨勢。構(gòu)建好的事件圖譜具有廣闊的應(yīng)用場景,主要包括熱點(diǎn)事件檢測、事件脈絡(luò)分析以及未來事件預(yù)測等。

3 事件抽取

事件是文本中包含的一種特殊信息,事件抽取就是從非結(jié)構(gòu)化的文本數(shù)據(jù)中抽取與事件有關(guān)的各種角色,將信息用結(jié)構(gòu)化數(shù)據(jù)表示。按照確定事件類別的方法,事件抽取可以被分為限定域事件抽取和開放域事件抽取。

3.1 限定域事件抽取

限定域事件抽取是指在進(jìn)行抽取任務(wù)之前,已經(jīng)確定好了相應(yīng)的目標(biāo)事件類型和相應(yīng)的結(jié)構(gòu)。另外,限定域事件抽取任務(wù)還會給出一些標(biāo)注數(shù)據(jù)。因?yàn)槭录?biāo)注較為復(fù)雜,需要耗費(fèi)一定的人力物力,所以數(shù)據(jù)集規(guī)模一般較小。在事件抽取領(lǐng)域中較為常用的標(biāo)準(zhǔn)數(shù)據(jù)集是ACE 2005語料庫。關(guān)于限定域事件抽取的研究較多,目前研究主要采用的是深度學(xué)習(xí)方法,幾種代表性的神經(jīng)網(wǎng)絡(luò)方法如下。

(1)基于注意力機(jī)制的方法

在進(jìn)行事件抽取時,許多研究者使用了注意力機(jī)制,以此來提升神經(jīng)網(wǎng)絡(luò)模型的效果。注意力機(jī)制是一種仿生技術(shù),借鑒了人類的選擇性注意行為。選擇性注意行為是指人類在進(jìn)行觀察時,視覺會快速掃描全局圖像,從而確定要重點(diǎn)關(guān)注的內(nèi)容,抑制或忽略其他無關(guān)的信息。研究者受此啟發(fā),提出了深度學(xué)習(xí)中的注意力機(jī)制,核心目標(biāo)就是在眾多信息中選擇對于當(dāng)前任務(wù)來說最關(guān)鍵的信息。

ACE 2005語料庫給出了每個事件的事件觸發(fā)詞和事件論元。但是之前的研究者并沒有充分利用數(shù)據(jù)集中的標(biāo)注信息,更多地依賴句子的語義信息,忽略了被標(biāo)注的論元信息。因此,Liu S等人[11]提出了一種新的方法,利用論元信息來加強(qiáng)對觸發(fā)詞的識別和分類。該方法將句子中的單詞信息、上下文的單詞信息、上下文的實(shí)體信息結(jié)合起來,組成單詞的觸發(fā)詞候選項(xiàng)。他們還采用了一種有監(jiān)督的注意力機(jī)制更加深入地提取句子中的有效信息,句子中的事件觸發(fā)詞會比其他上下文單詞獲得更多的注意。最后該方法使用了一個多分類的神經(jīng)網(wǎng)絡(luò)模型完成事件抽取任務(wù),充分利用了語料庫中被標(biāo)注的論元信息。

上述方法將句子中的多個事件視為獨(dú)立事件,只是利用單個句子內(nèi)部的信息來檢測事件。但是句子中表達(dá)的事件是相互關(guān)聯(lián)的,單純地利用句子內(nèi)部的信息不能很好地區(qū)分某些事件。因此Chen Y等人[12]提出了一種分層的基于門控注意力機(jī)制的偏差標(biāo)記網(wǎng)絡(luò),目的是融合句子和文檔的信息,從而進(jìn)行多事件識別和抽取。該方法采用了一種新的思路,將事件抽取看作一種序列標(biāo)注問題。模型中首次添加了一個層次化的基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的標(biāo)簽層來捕捉所有事件的依賴關(guān)系,同時設(shè)計(jì)了一種偏差目標(biāo)函數(shù)來增強(qiáng)觸發(fā)標(biāo)簽對模型的影響。除此之外,為了充分利用事件候選項(xiàng)的上下文信息,該方法采用了一種基于門控的多層次注意力機(jī)制,可以自動提取句子和文檔中的信息,并進(jìn)行動態(tài)的集成。該方法充分利用了事件之間的關(guān)聯(lián)關(guān)系,融合了文檔信息來增強(qiáng)事件識別的結(jié)果。可以看到,基于注意力機(jī)制的方法實(shí)現(xiàn)了對信息的有效提取,使得事件識別更加準(zhǔn)確。

(2)基于預(yù)訓(xùn)練模型的方法

一般來說,為了更好地訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,需要為模型提供大規(guī)模的標(biāo)注數(shù)據(jù)。但是構(gòu)建大規(guī)模的標(biāo)注數(shù)據(jù)耗時耗力,難以滿足要求。相比之下,大規(guī)模未標(biāo)注的語料卻很容易構(gòu)建。為了利用大量的未標(biāo)注數(shù)據(jù),研究人員提出了預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型可以從大規(guī)模的語料中提取隱含的語義信息,學(xué)習(xí)到更好的通用語義表示向量,從而提高下游任務(wù)的表現(xiàn)。

Yang S等人[13]針對現(xiàn)有遠(yuǎn)程監(jiān)督事件抽取方法中存在的問題,將目光轉(zhuǎn)向預(yù)訓(xùn)練的語言模型,希望利用從大規(guī)模語料庫中學(xué)習(xí)到的知識表示向量來提高模型的性能。其設(shè)計(jì)了一種基于預(yù)訓(xùn)練語言模型的事件抽取(pre-trained language model based event extractor,PLMEE)模型。該模型的結(jié)構(gòu)如圖2所示[13]。他們將事件抽取看作由兩個子任務(wù)組成,兩個子任務(wù)分別是觸發(fā)詞抽取和論元抽取,并提出了以預(yù)訓(xùn)練語言模型為基礎(chǔ)的觸發(fā)詞抽取器和論元抽取器。基于預(yù)訓(xùn)練模型的方法會使事件的語義表示更加精確。但是現(xiàn)有的方法將事件抽取看作兩個子任務(wù),構(gòu)建的是流水線模型,存在明顯的錯誤傳遞問題。

(3)基于圖神經(jīng)網(wǎng)絡(luò)的方法

圖2 PLMEE模型結(jié)構(gòu)[13]

過去幾年深度學(xué)習(xí)技術(shù)興起,以神經(jīng)網(wǎng)絡(luò)為代表的技術(shù)被用來提取歐氏空間中的數(shù)據(jù)特征[14]。但是現(xiàn)實(shí)世界中還有眾多場景使用的是非歐氏空間數(shù)據(jù),其中具有代表性的就是圖數(shù)據(jù)。圖數(shù)據(jù)被廣泛應(yīng)用在多種場景,如電子商務(wù)的推薦系統(tǒng)、知識圖譜的在線推理等。但是圖數(shù)據(jù)結(jié)構(gòu)復(fù)雜性較高,之前的神經(jīng)網(wǎng)絡(luò)方法無法直接被使用。因此,研究人員借鑒了卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及深度自動編碼器的思想,設(shè)計(jì)了一種專門用來處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),即圖神經(jīng)網(wǎng)絡(luò)。圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)是指在圖數(shù)據(jù)中應(yīng)用卷積操作,其核心思想是學(xué)習(xí)到一種函數(shù)對節(jié)點(diǎn)進(jìn)行表示。通過函數(shù)變換,一個節(jié)點(diǎn)自身的特征可以結(jié)合其臨近節(jié)點(diǎn)的特征,從而生成節(jié)點(diǎn)新的表示。

在事件抽取、關(guān)系抽取等任務(wù)中,一般利用詞嵌入等方法將輸入序列轉(zhuǎn)換為連續(xù)的向量,并沒有使用句子的結(jié)構(gòu)信息。為了在神經(jīng)網(wǎng)絡(luò)中引入句法結(jié)構(gòu)特征,Nguyen T等人[15]提出了一個基于句法依存樹的GCN模型用于事件抽取。在GCN中,每個節(jié)點(diǎn)的卷積向量是由相鄰節(jié)點(diǎn)的表示向量計(jì)算出來的,可以作為該節(jié)點(diǎn)的唯一特征進(jìn)行分類。另外,模型中通過對當(dāng)前單詞的卷積向量以及句子中提到的實(shí)體進(jìn)行池化操作,克服實(shí)體指稱無法捕捉的問題。池化操作聚合了卷積向量,從而為事件類型預(yù)測生成了單個向量表示。該方法在事件抽取中引入了GCN模型,將句法依存樹上的信息進(jìn)行聚合,首次利用了句子中的結(jié)構(gòu)信息。

除此之外,Liu X等人[16]設(shè)計(jì)了一個新的聯(lián)合多事件抽取(jointly multiple events extraction,JMEE)框架。該框架利用基于注意力機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,并通過引入句法依存樹中的句法捷徑弧來增強(qiáng)信息流,以此來提升在一個句子中抽取多個事件的效果。使用句法捷徑弧可以減少將信息流從一個節(jié)點(diǎn)轉(zhuǎn)換到目標(biāo)節(jié)點(diǎn)的轉(zhuǎn)換次數(shù)。與基于序列的模型相比,該方法會使在同一個句子中從一個事件觸發(fā)詞跳到另一個事件觸發(fā)詞的跳數(shù)明顯減少。GCN會利用輸入的句法捷徑弧,聚合目標(biāo)節(jié)點(diǎn)一階鄰居的信息,為每個節(jié)點(diǎn)學(xué)習(xí)到其句法上下文的表示。之后,模型通過自注意力機(jī)制進(jìn)行信息聚合,保留了多個事件之間的信息,用于抽取事件觸發(fā)詞和論元。基于圖神經(jīng)網(wǎng)絡(luò)的方法有效地利用了句法依存樹中包含的信息。但是基于圖神經(jīng)網(wǎng)絡(luò)的模型的計(jì)算量比較大,且只適用于對構(gòu)建好的靜態(tài)圖進(jìn)行處理。

(4)其他神經(jīng)網(wǎng)絡(luò)方法

除了上述方法,還有眾多方法被應(yīng)用到事件抽取任務(wù)中,也取得了良好的效果。例如,Liu J等人[17]設(shè)計(jì)了一種新的基于對抗模仿的知識蒸餾方法,目的是從句子中獲取知識來進(jìn)行事件抽取。該方法首先構(gòu)建了一個教師模塊,充分利用標(biāo)注數(shù)據(jù)來學(xué)習(xí)知識表示,之后建立相應(yīng)的學(xué)生模塊用于測試。在訓(xùn)練過程中,鑒別器通過檢測教師模塊和學(xué)生模塊的輸出來區(qū)分兩者。同時,學(xué)生模塊會盡可能地模仿教師模塊,生成與教師模塊相似的向量來迷惑鑒別器。該方法有效地完成了知識蒸餾,得到的新模型參數(shù)量少,且性能接近復(fù)雜模型。

Hong Y等人[18]利用具有自我調(diào)節(jié)機(jī)制的生成式對抗網(wǎng)絡(luò)來完成事件抽取任務(wù),提高事件抽取的性能。一般來說,生成模型產(chǎn)生的虛假特征往往來自語義上的偽相關(guān)上下文,在訓(xùn)練過程中神經(jīng)網(wǎng)絡(luò)可能會錯誤地、不自覺地保留記憶,從而產(chǎn)生虛假的特征。因此該模型采用了一種雙通道自調(diào)節(jié)的學(xué)習(xí)策略來調(diào)節(jié)學(xué)習(xí)過程,還添加了一對生成判別模型。在自學(xué)習(xí)過程中,生成模型被用來生成虛假特征,而判別模型被用來消除錯誤。該方法減輕了虛假特征對結(jié)果的影響,提升了事件抽取的效果。

3.2 開放域事件抽取

開放域事件抽取和限定域事件抽取的不同是事件類型不需要預(yù)先指定。因此,開放域事件抽取一般沒有人工標(biāo)注數(shù)據(jù),主要使用無監(jiān)督的方法。這種方法主要基于統(tǒng)計(jì)的思想,當(dāng)事件觸發(fā)詞和事件論元相似時,其表達(dá)的事件類型也相似。在此過程中,聚類方法和概率模型的使用較為廣泛。

開放域事件抽取的目標(biāo)是抽取所有類型的事件,不對事件類型進(jìn)行限定,有更高的事件覆蓋率。Araki J 等人[19]提出了一種基于遠(yuǎn)程監(jiān)督的自動生成訓(xùn)練數(shù)據(jù)的方法,不依賴人工標(biāo)注的數(shù)據(jù)。該方法利用WordNet[20]進(jìn)行遠(yuǎn)程監(jiān)督,以此來生成高質(zhì)量的事件分類數(shù)據(jù)。之后,生成的數(shù)據(jù)被用來對事件判別器進(jìn)行訓(xùn)練。該方法可以生成大量的訓(xùn)練數(shù)據(jù),但是訓(xùn)練數(shù)據(jù)的準(zhǔn)確程度無法保證,會導(dǎo)致判別器的結(jié)果較差。

除此之外,目前貝葉斯圖形模型(Bayesian graphical model)被用于對開放域事件進(jìn)行結(jié)構(gòu)化的表示,但是這種方法假定所有的單詞都是由單個事件產(chǎn)生的,具有一定的局限性。因此Wang R等人[21]提出了一種基于生成式對抗網(wǎng)絡(luò)的事件抽取模型,稱之為對抗神經(jīng)事件模型(adversarial-neural event model,AEM)。該模型使用狄利克雷分布對事件進(jìn)行建模,并利用生成器網(wǎng)絡(luò)捕捉潛在事件。該模型可以用來處理不同長度的文檔,適用范圍比較廣泛。另外,Naik A 等人[22]將對抗域自適應(yīng)(adversarial domain adaptation,ADA)框架應(yīng)用到開放域的事件觸發(fā)詞識別任務(wù)中。該方法是一個無監(jiān)督的過程,不需要目標(biāo)域的標(biāo)記數(shù)據(jù),實(shí)驗(yàn)結(jié)果顯示了該框架的有效性。

事件抽取技術(shù)是用于構(gòu)建事件圖譜的基礎(chǔ)技術(shù),影響著后續(xù)任務(wù)的精度,是極其重要的。針對這一任務(wù),研究者提出了眾多新方法。研究者期望通過不斷探索,設(shè)計(jì)出更多適合此任務(wù)的神經(jīng)網(wǎng)絡(luò),不斷提高事件抽取的準(zhǔn)確率。雖然目前已有的方法取得了不錯的結(jié)果,但是該領(lǐng)域的評估標(biāo)準(zhǔn)還不是很明確,所使用的標(biāo)準(zhǔn)數(shù)據(jù)集規(guī)模也比較小。未來需要進(jìn)一步明確評估標(biāo)準(zhǔn),提出規(guī)模更大的標(biāo)準(zhǔn)數(shù)據(jù)集用于研究。

4 事件信息補(bǔ)全

事件抽取技術(shù)主要用于獲取事件知識,但是事件抽取的結(jié)果往往是不完整的,存在部分論元缺失、論元抽取不準(zhǔn)確等情況。為了對事件抽取的結(jié)果進(jìn)行補(bǔ)全,就需要用到信息補(bǔ)全技術(shù)。信息補(bǔ)全技術(shù)依托于相應(yīng)的事件圖譜,根據(jù)圖譜中的相關(guān)知識對缺失的知識進(jìn)行補(bǔ)全。目前,信息補(bǔ)全和鏈接預(yù)測也是知識圖譜領(lǐng)域的研究熱點(diǎn),但是研究者們主要關(guān)注二元關(guān)系事實(shí)。二元關(guān)系事實(shí)通常表示為三元組,即(頭部實(shí)體,關(guān)系,尾部實(shí)體)。而在事件圖譜當(dāng)中,存在眾多的多元關(guān)系事實(shí)。多元關(guān)系事實(shí)一般通過引入虛擬實(shí)體分解為多個三元組,例如Freebase[23]中的復(fù)合值類型(compound value type,CVT)實(shí)體。目前研究者已經(jīng)開展了對多元關(guān)系推理的研究,提出了一些方法。而這些多元關(guān)系推理方法可以應(yīng)用在事件信息補(bǔ)全任務(wù)中,多元關(guān)系事實(shí)的預(yù)測對于事件圖譜的補(bǔ)全具有重要意義。

在將實(shí)體轉(zhuǎn)換為多個三元組實(shí)體的過程當(dāng)中,Wen J等人[24]認(rèn)為在轉(zhuǎn)換過程中會造成結(jié)構(gòu)信息的丟失,可能導(dǎo)致鏈接預(yù)測不準(zhǔn)確。因此他們提出了一種基于翻譯的方法m-TransH來對這些實(shí)例進(jìn)行建模。在該方法中,關(guān)系(二元關(guān)系或多元關(guān)系)是由對應(yīng)于該類型關(guān)系的一系列角色到其值的映射來定義的,每個特定的映射都是此關(guān)系的一個實(shí)例。但是m-TransH并沒有考慮在同一多元關(guān)系事實(shí)中各成分之間的相關(guān)性。在此基礎(chǔ)上,Zhang R C等人[25]提出了一種新穎的相關(guān)性關(guān)聯(lián)嵌入(r elatedness affiliated embedding,RAE)模型,還提出了一種可伸縮實(shí)例重構(gòu)(scalable instance reconstruction,SIR)算法。RAE通過對各成分之間的相關(guān)性進(jìn)行互補(bǔ)建模,進(jìn)一步改進(jìn)了m-TransH方法。這里的相關(guān)性是指兩個值在共同實(shí)例中共同參與的可能性。

而Guan S P等人[26]并沒有對多元關(guān)系事實(shí)進(jìn)行分解,而是將每個多元關(guān)系事實(shí)表示為一組角色-值對。他們提出了一種對多元關(guān)系數(shù)據(jù)進(jìn)行鏈接預(yù)測的方法NaLP,該方法對同一多元關(guān)系事實(shí)中所有角色-值對的相關(guān)性進(jìn)行了建模。在該方法中,他們認(rèn)為一個角色與其值是緊密相連的,因此應(yīng)該綁定在一起。同樣地,如果在同一個組中的所有角色-值對都緊密相關(guān),就假定這組角色-值對很有可能構(gòu)成有效的關(guān)系事實(shí)。基于上述假設(shè),NaLP方法中包含兩個關(guān)鍵組件,分別是角色值對嵌入和相關(guān)性評估。對于給定的關(guān)系事實(shí),需要首先學(xué)習(xí)到角色-值對的嵌入表示,再在相關(guān)性評估組件中計(jì)算角色-值對的成對相關(guān)性。之后還需要估計(jì)關(guān)系事實(shí)的整體相關(guān)性,獲得最終的評估得分,并用于計(jì)算損失函數(shù)。該方法有效地建模了多元關(guān)系事實(shí)中角色和值之間的相關(guān)性,充分利用了多元關(guān)系事實(shí)中的內(nèi)部信息。另外,由于公開可用的多元關(guān)系數(shù)據(jù)集有限,他們基于Wikidata中的原始數(shù)據(jù)構(gòu)建了一個實(shí)用的多元關(guān)系數(shù)據(jù)集WikiPeople。

Guan S P等人[27]還進(jìn)一步提出了神經(jīng)網(wǎng)絡(luò)模型NeuInfer,用于對多 元關(guān)系事實(shí)進(jìn)行知識推斷。NeuInfer不僅可以用于推斷整個事實(shí)的未知元素,還可以用于新型任務(wù),進(jìn)行靈活知識推斷。該模型使用的事實(shí)是由主要三元組以及任意數(shù)量的輔助描述組成的。他們假設(shè)一個有效事件的主三元組是有效的,而不管其有沒有輔助描述。另外,每個輔助描述都與主三元組相關(guān),可以作為主三元組的某個特征。該模型首先對主三元組的有效性進(jìn)行評估,得到相應(yīng)的有效性得分。之后再對主三元組與描述信息的兼容性進(jìn)行評估,得到兼容性得分。最后,模型將有效性得分和兼容性得分的加權(quán)和作為最終的分?jǐn)?shù)。該方法主要利用了事實(shí)中的主三元組以及輔助描述,可以根據(jù)部分知識進(jìn)行知識推理。

在事件信息補(bǔ)全的過程中,不僅需要對二元關(guān)系事實(shí)進(jìn)行補(bǔ)全,還需要對多元關(guān)系事實(shí)進(jìn)行補(bǔ)全。目前多數(shù)研究者認(rèn)為將多元關(guān)系事實(shí)分解為多個三元組會導(dǎo)致多元關(guān)系事實(shí)內(nèi)部的關(guān)系信息丟失,可能會加劇信息補(bǔ)全精度不夠高的問題。因此,上述方法都將多元關(guān)系事實(shí)看作一個整體,保留了原有數(shù)據(jù)的信息。目前用于事件信息補(bǔ)全的方法還比較少,補(bǔ)全精度還不夠高,需要進(jìn)行深入研究。

5 事件關(guān)系推斷

對于一篇給定的文本,文本中存在多個事件。與此同時,事件之間有可能是相互關(guān)聯(lián)的,可能存在多種關(guān)系。事件關(guān)系推斷技術(shù)則利用文本中的信息來推斷事件之間的關(guān)系,主要包括共指關(guān)系、時序關(guān)系以及因果關(guān)系等。早期基于規(guī)則的方法實(shí)現(xiàn)簡單,但依賴于人工制定的規(guī)則,實(shí)用性不高。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,眾多深度學(xué)習(xí)方法被應(yīng)用到關(guān)系推斷任務(wù)中,本文簡要介紹了相關(guān)的方法。

5.1 事件共指關(guān)系

事件共指關(guān)系指的是給定描述事件的文本,如果兩個事件指向同一個事件實(shí)例,則這兩個事件之間存在共指關(guān)系。當(dāng)文本中的多個事件指向一個事件實(shí)例時,則多個事件組成了一個共指事件鏈。在共指事件鏈中的任意兩個事件都具有共指關(guān)系。事件共指關(guān)系可以分為文檔內(nèi)事件共指和跨文檔事件共指。進(jìn)行事件共指關(guān)系的推斷有助于計(jì)算機(jī)更好地理解事件發(fā)展的脈絡(luò),對于綜合全局信息、推測事件演變、預(yù)測未來事件具有重要的意義。

Zeng Y T等人[28]提出了一種新的基于事件轉(zhuǎn)述和論元感知語義嵌入的EPASE模型。該模型會在特定事件的上下文中識別深層次的轉(zhuǎn)述關(guān)系,并且可以涵蓋更多情況的事件轉(zhuǎn)述。另外,由于自變量角色的嵌入被編碼為事件嵌入,無須依賴固定數(shù)量和類型的自變量,因此該模型具有良好的可伸縮性。該方法首次將轉(zhuǎn)述關(guān)系引入了事件共指任務(wù),通過句子中的完整語義信息來識別句子之間的轉(zhuǎn)述關(guān)系,充分利用了上下文信息。該方法有效地將自注意力機(jī)制和特殊事件的標(biāo)識結(jié)合起來,只對選取的特定事件進(jìn)行關(guān)注,排除了文本中噪聲信息的干擾。

5.2 事件時序關(guān)系

事件時序關(guān)系是指兩個事件發(fā)生的先后關(guān)系。時間是事件的一個天然屬性,事件發(fā)生時間的不同揭示了事件之間存在的先后關(guān)系。通過對時序關(guān)系的分析可以獲取事件從開始到結(jié)束的演化過程,有助于對未來事件進(jìn)行預(yù)測。事件時序關(guān)系抽取是自然語言處理領(lǐng)域中的重要研究方向,受到了越來越多研究者的關(guān)注。

Cheng F等人[29]提出了一個基于雙向長短期記憶的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行時序關(guān)系抽取。該方法使用了句子的依存路徑,將詞向量、詞性向量和依存關(guān)系向量拼接,并將拼接后的向量作為模型輸入的向量。在此基礎(chǔ)上,為了解決跨句子實(shí)體之間不存在依存路徑的問題,假設(shè)兩個相鄰的句子共享一個根節(jié)點(diǎn)。通過在模型中加入多種特征,該方法的實(shí)驗(yàn)結(jié)果取得了有效的提升。Han R J等人[30]為了解決在事件抽取和事件時序關(guān)系識別兩階段任務(wù)中存在的誤差傳遞問題,提出了一種聯(lián)合學(xué)習(xí)方法,同時進(jìn)行事件抽取以及時序關(guān)系識別。他們在兩個子任務(wù)中共享了事件表達(dá),利用結(jié)構(gòu)化約束和整數(shù)線性規(guī)劃來優(yōu)化問題,提升了事件表達(dá)效果,緩解了誤差傳遞的問題。另外,他們還提出了深度結(jié)構(gòu)化學(xué)習(xí)框架[31]的方法,利用遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)事件的時序關(guān)系表示,同時采用結(jié)構(gòu)化支持向量機(jī)(structured support vector machine,SSVM)進(jìn)行預(yù)測。該方法在多個數(shù)據(jù)集上取得了優(yōu)秀的結(jié)果,作者還通過消融實(shí)驗(yàn)進(jìn)行了廣泛的誤差分析。

在此基礎(chǔ)上Han R J等人[32]還指出,之前的方法中只利用了例如硬約束的結(jié)構(gòu)化知識,同時因?yàn)橛?xùn)練數(shù)據(jù)有限,進(jìn)行時序關(guān)系分類時會引起偏差。因此他們提出了一個新的框架,通過概率領(lǐng)域知識構(gòu)建的分布約束來增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)的性能。新的方法還將拉格朗日松弛方法應(yīng)用到時序關(guān)系抽取任務(wù)中,取得了最優(yōu)性能。Wang H Y等人[33]設(shè)計(jì)了一種新的聯(lián)合約束學(xué)習(xí)框架,利用時間和子事件關(guān)系之間的邏輯約束對模型進(jìn)行正則化。同時,他們設(shè)計(jì)了新的事件復(fù)合結(jié)構(gòu),用來描述事件提及之間的關(guān)系結(jié)構(gòu)。

5.3 事件因果關(guān)系

事件因果關(guān)系是指兩個事件之間的因果聯(lián)系,是一種復(fù)雜的語義關(guān)系。通過對事件因果關(guān)系進(jìn)行分析,事件發(fā)生的前因后果會更加清晰。清晰的因果關(guān)系有助于進(jìn)一步認(rèn)識事件發(fā)展的過程,使得事件推理與事件預(yù)測更加準(zhǔn)確,可以避免風(fēng)險(xiǎn)、提高收益,為決策者提供有力的支持。事件因果關(guān)系識別在事件預(yù)測中的重要性,吸引了眾多學(xué)者對其進(jìn)行研究。

因?yàn)樵谑录P(guān)系推斷任務(wù)中缺少標(biāo)準(zhǔn)數(shù)據(jù)集,所以Caselli T等人[34]提出了一個用于事件時序和因果關(guān)系檢測的數(shù)據(jù)集ESC(event storyline corpus)。ESC數(shù)據(jù)集的構(gòu)建為之后的研究提供了便利。針對文檔級事件因果關(guān)系的識別任務(wù),Gao L等人[35]建模了粗粒度和細(xì)粒度的文檔級因果結(jié)構(gòu),在ESC數(shù)據(jù)集上取得了不錯的效果。他們設(shè)計(jì)了豐富的特征進(jìn)行事件因果關(guān)系識別,包括詞法特征、因果潛在特征、句法特征,還利用事件共指鏈接將效果較差的句間預(yù)測問題轉(zhuǎn)換為句內(nèi)預(yù)測問題。最后,他們使用整數(shù)線性規(guī)劃的方法來進(jìn)行文檔級全局推理,用來抽取文檔中所有事件對的因果關(guān)系。該方法專門用于對事件因果關(guān)系進(jìn)行識別,但是其并沒有對因果關(guān)系的方向進(jìn)行區(qū)分。

Liu J等人[36]還利用外部知識來提升事件的表示,設(shè)計(jì)了一種事件提及屏蔽機(jī)制來挖掘歷史數(shù)據(jù)中存在的因果關(guān)系。該方法將ConceptNet[37]的知識引入了原有文本數(shù)據(jù)中,擴(kuò)展了已有事件,涵蓋了更多的信息。另外,為了處理數(shù)據(jù)中新出現(xiàn)的事件,該方法利用事件提及屏蔽機(jī)制來發(fā)現(xiàn)因果關(guān)系模式,增加對上下文信息的關(guān)注。最后,模型對兩個組件做了權(quán)衡,用來充分發(fā)揮兩個組件的優(yōu)點(diǎn)。實(shí)驗(yàn)結(jié)果顯示,該方法效果顯著,在跨主題應(yīng)用中也展現(xiàn)出很強(qiáng)的魯棒性。

事件關(guān)系推斷用于對事件之間的關(guān)系進(jìn)行判斷,在此基礎(chǔ)上可以對事件圖譜進(jìn)行完善,更好地刻畫事件之間的關(guān)系。之前研究者主要利用規(guī)則的方法進(jìn)行事件關(guān)系推斷,現(xiàn)在已經(jīng)引入了深度學(xué)習(xí)的方法,取得了不錯的效果。但是總體來說,目前對事件關(guān)系推斷技術(shù)的研究還不夠充分,尤其是事件因果關(guān)系這一方面。在事件因果關(guān)系的研究領(lǐng)域中缺少明確的任務(wù)定義以及足夠的標(biāo)準(zhǔn)數(shù)據(jù)集,這就需要研究人員在此領(lǐng)域中投入更多的精力,廣泛開展研究。

6 事件預(yù)測

事件預(yù)測主要指的是根據(jù)歷史事件來預(yù)測未來發(fā)生的事件。對未來事件進(jìn)行準(zhǔn)確預(yù)測具有十分重要的意義,既可以減少突發(fā)事件帶來的損失,也可以針對未來事件做出相應(yīng)的應(yīng)對部署,為整個社會帶來巨大的經(jīng)濟(jì)效益。但與此同時,對未來事件進(jìn)行預(yù)測是十分困難的,需要面臨很多的問題。這是因?yàn)閷τ谠S多事件來說,很難知道其發(fā)生的機(jī)制以及其背后的原因。隨著大數(shù)據(jù)時代的來臨,相關(guān)數(shù)據(jù)的規(guī)模不斷擴(kuò)大,為事件預(yù)測的研究提供了基礎(chǔ)。因此,眾多研究者開始探索如何進(jìn)行事件預(yù)測,提出了眾多有意義的方法。后文主要介紹腳本事件預(yù)測技術(shù)和基于圖卷積網(wǎng)絡(luò)的事件預(yù)測技術(shù)。

腳本事件預(yù)測技術(shù)根據(jù)給出故事的上下文來推斷出故事的結(jié)尾。在這一任務(wù)當(dāng)中,事件是用腳本結(jié)構(gòu)描述的,即利用腳本描述事件的參與者、事件類型、事件觸發(fā)詞等多個元素,之后利用現(xiàn)有腳本對未來的事件進(jìn)行預(yù)測。腳本事件預(yù)測是由Chambers N等人[38]在2008年提出的,需要在候選事件列表中選擇最有可能發(fā)生的事件,利用填空式的評估標(biāo)準(zhǔn)來評估模型,這種思路被稱為統(tǒng)計(jì)腳本學(xué)習(xí)。Chambers N等人[38]設(shè)計(jì)了點(diǎn)互信息(pointwise mutual information,PMI)來計(jì)算事件對之間的關(guān)系。

目前腳本事件預(yù)測任務(wù)廣泛使用的評測方法是多選項(xiàng)完形填空(multiple choice narrative cloze,MCNC),該方法是由Granroth-Wilding M等人[39]提出的。在MCNC任務(wù)中,完整的事件鏈中存在某處缺失,給定多個候選的后續(xù)事件,模型需要從多個候選項(xiàng)中選擇最符合邏輯的一項(xiàng)內(nèi)容。Granroth-Wilding M等人[39]采用深度學(xué)習(xí)的方法,設(shè)計(jì)了一種神經(jīng)網(wǎng)絡(luò)來對事件鏈進(jìn)行建模。他們設(shè)計(jì)了一個EventComp模型,使用孿生神經(jīng)網(wǎng)絡(luò)(siamese network)代替原有的PMI。模型結(jié)構(gòu)包含3層,分別是輸入層、論元組合層和事件組合層。最終,訓(xùn)練后的模型與統(tǒng)計(jì)學(xué)習(xí)方法相比取得了極大的進(jìn)步,證明深度學(xué)習(xí)方法在這一領(lǐng)域是有效的。

上述方法對事件對之間的關(guān)系進(jìn)行了建模,并取得了不錯的效果,但是文本中事件之間豐富的連接信息并沒有被充分地利用。正因如此,研究者開始利用圖的方法對事件之間的連接信息進(jìn)行建模。在事件構(gòu)成的圖中,圖的節(jié)點(diǎn)表示單個事件,節(jié)點(diǎn)之間的邊表示事件之間的關(guān)系。Li B等人[40]提出了一種眾包的構(gòu)建事件圖的方法。另外,Glava? G等人[41]提出了一種從文本中構(gòu)建事件圖的有效方法。在此基礎(chǔ)上,Li Z Y等人[42]提出了一種新的方法來充分利用事件之間稠密的連接信息。該方法首先構(gòu)建了敘事事理圖譜,之后基于事理圖譜進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí),最后再利用得到的表示向量預(yù)測后續(xù)事件,模型結(jié)構(gòu)如圖3所示[42]。具體來說,在構(gòu)建敘事事理圖譜的過程中,首先需要抽取腳本事件鏈條,之后利用抽取出來的鏈條構(gòu)建圖譜。在構(gòu)建好事理圖譜之后,模型每次會從中抽取一個子圖,學(xué)習(xí)并更新所選子圖上的事件表示。其中每個子圖都包括故事上下文、所有候選事件的節(jié)點(diǎn)以及這些節(jié)點(diǎn)之間的有向邊。該方法通過構(gòu)建好的事理圖譜來學(xué)習(xí)事件表示,有效地利用了事件之間的關(guān)系。但是構(gòu)建事理圖譜的過程較為復(fù)雜,構(gòu)建好的圖譜規(guī)模較大,每次只能選取一個子圖來更新子圖上的事件表示。

圖3 SGNN模型結(jié)構(gòu)[42]

基于 圖卷積網(wǎng)絡(luò)的事件預(yù)測技術(shù)主要指的是在時序知識圖譜上利用圖卷積網(wǎng)絡(luò)進(jìn)行推理的技術(shù)。時序知識圖譜主要由四元組構(gòu)成,是在原有知識圖譜的三元組上添加了時間維度得到的。通過引入時間維度,時序知識圖譜可以更好地描述事件信息。因此對時序知識圖譜的未來狀態(tài)進(jìn)行推理就是對未來的事件進(jìn)行預(yù)測。

Han Z等人[43]提出了一種全新的圖霍克斯神經(jīng)網(wǎng)絡(luò)(graph Hawkes neural network,GHNN)。該神經(jīng)網(wǎng)絡(luò)首次利用霍克斯過程[44]進(jìn)行建模,主要用于捕捉過去事件對未來事件的影響。通過捕捉時序知識圖譜上潛在的動態(tài)關(guān)系,該神經(jīng)網(wǎng)絡(luò)可以用于對大規(guī)模時序多關(guān)系型數(shù)據(jù)進(jìn)行分析,更加準(zhǔn)確地對未來某一時刻發(fā)生的事件進(jìn)行預(yù)測。與此同時,Jin W等人[45]提出了一種新的循環(huán)事件網(wǎng)絡(luò)(recurrent event network,RE-NET)來預(yù)測將要發(fā)生的事件。該網(wǎng)絡(luò)主要分為兩個部分,一部分是對歷史事件的信息進(jìn)行循環(huán)編碼,另一部分是對時序相鄰事件的信息進(jìn)行聚合。RE-NET充分利用了歷史事件的信息、時序相鄰事件的信息以及同時發(fā)生事件的信息。通過聚合多種信息,該方法給出了所有事件的聯(lián)合概率分布,用來預(yù)測未來事件發(fā)生的概率。基于圖卷積網(wǎng)絡(luò)的事件預(yù)測方法可以利用歷史數(shù)據(jù)中蘊(yùn)含的信息,捕捉到歷史事件對未來事件的影響。但是目前這種方法的準(zhǔn)確率還比較低,需要開展進(jìn)一步的研究。

對事件預(yù)測的研究是十分重要的,其具有廣闊的應(yīng)用場景,事件預(yù)測是對事件圖譜的高級應(yīng)用。目前在腳本事件預(yù)測任務(wù)中已經(jīng)有了相對清晰的評測方法,研究者也提出了許多方法對事件鏈以及事件圖進(jìn)行建模。除此之外,研究者還提出了基于圖卷積網(wǎng)絡(luò)的事件預(yù)測方法,采用新的方法對將來的事件進(jìn)行預(yù)測。總體來說,研究者對事件預(yù)測的關(guān)注度較高,期待取得更多的研究進(jìn)展。

7 事件圖譜的應(yīng)用場景

目前,知識圖譜已經(jīng)被應(yīng)用到各行各業(yè),成為人工智能技術(shù)的重要組成部分。但是知識圖譜具有一定的局限性,只能描述與實(shí)體相關(guān)的知識。而現(xiàn)實(shí)世界中存在著大量的事件,事件是日常生活中不可或缺的一部分,充分利用與事件相關(guān)的知識會更加真實(shí)、具體地刻畫現(xiàn)實(shí)世界。因此,事件知識構(gòu)成的事件圖譜具有廣闊的應(yīng)用前景[9]。將事件圖譜應(yīng)用到人工智能技術(shù)中可以使產(chǎn)品的智能化水平更高,更加方便人們的生產(chǎn)和生活。具體來說,事件圖譜主要有熱點(diǎn)事件檢測、事件脈絡(luò)分析以及未來事件預(yù)測等應(yīng)用場景。

7.1 熱點(diǎn)事件檢測

事件圖譜可以用于對熱點(diǎn)事件進(jìn)行檢測。熱點(diǎn)事件發(fā)生突然,會在短時間內(nèi)形成,而且時時刻刻在發(fā)生變化,傳統(tǒng)的方法難以應(yīng)對。而采用與事件圖譜相關(guān)的分析技術(shù)可以對網(wǎng)絡(luò)上的輿論內(nèi)容進(jìn)行分析,實(shí)時地捕捉熱點(diǎn)事件。另外,還可以對行業(yè)熱點(diǎn)、地域熱點(diǎn)事件進(jìn)行檢測,從多個方面展現(xiàn)熱點(diǎn)事件。該技術(shù)可以被應(yīng)用到媒體機(jī)構(gòu)中,將檢測到的熱點(diǎn)事件實(shí)時地推送給用戶,讓用戶在第一時間獲得更多的熱點(diǎn)資訊。

7.2 事件脈絡(luò)分析

事件圖譜的另一重要應(yīng)用場景是事件脈絡(luò)分析。針對特定的事件,事件圖譜可以利用事件之間的關(guān)系,對事件的前因后果進(jìn)行關(guān)聯(lián),形成事件發(fā)展的脈絡(luò),并展示給用戶。具體來說,可以將事件圖譜與搜索引擎結(jié)合,當(dāng)用戶對感興趣的事件進(jìn)行搜索時,就可以得到事件發(fā)生的來龍去脈,清晰地反映事件發(fā)展的脈絡(luò),極大地提高知識檢索的效率,給用戶提供更多的便利。

7.3 未來事件預(yù)測

事件圖譜還可以在未來事件預(yù)測方面發(fā)揮重要的作用。通過分析歷史事件的發(fā)展過程,可以預(yù)測未來可能發(fā)生的事件。在金融領(lǐng)域,可以基于歷史事件掌握行業(yè)動態(tài),預(yù)測行業(yè)發(fā)展的趨勢。這樣就能夠準(zhǔn)確地把握市場發(fā)展動向,針對市場的變化做出相應(yīng)的調(diào)整。在輿情預(yù)警方面,可以在現(xiàn)階段發(fā)生事件的基礎(chǔ)上預(yù)測未來可能會發(fā)生的事件,對事件的演化過程做出預(yù)測[46]。一旦事件發(fā)生不良演變或者有不可控的趨勢,監(jiān)測系統(tǒng)可以及時發(fā)出預(yù)警,由相關(guān)部門第一時間介入處理。未來事件預(yù)測在現(xiàn)實(shí)生活中有重要的作用,可以做到預(yù)測預(yù)警,及時規(guī)避風(fēng)險(xiǎn),創(chuàng)造出巨大的社會價(jià)值。

8 事件圖譜的研究展望

目前,在研究者的共同努力下,對事件圖譜的研究取得了不錯的進(jìn)展,越來越多的學(xué)者開始關(guān)注這一領(lǐng)域。對事件圖譜的研究有助于人們進(jìn)一步了解事件的發(fā)展歷程以及事件背后的影響因素,可以更加容易地獲取知識,提高生產(chǎn)效率。雖然事件圖譜具有廣闊的應(yīng)用場景,但是現(xiàn)在對事件圖譜相關(guān)技術(shù)的研究還不夠深入,距離事件圖譜的大規(guī)模應(yīng)用還有很長的路要走,還面臨很多新的挑戰(zhàn)。未來事件圖譜可向以下幾個方向發(fā)展。

(1)提升事件抽取與事件推理的精度

目前事件抽取的準(zhǔn)確率還不夠高,而事件抽取是事件圖譜構(gòu)建的基礎(chǔ),只有從文本中準(zhǔn)確地抽取出事件知識,才能推動后續(xù)技術(shù)的發(fā)展,因此需要進(jìn)一步提升事件抽取的準(zhǔn)確率。之后是事件推理,雖然研究者對其進(jìn)行了眾多有意義的探索,但是目前提出的方法也存在準(zhǔn)確率低、限制條件多等問題。正因如此,需要繼續(xù)進(jìn)行廣泛的研究,不斷提高事件推理的精度,進(jìn)行更加準(zhǔn)確的事件預(yù)測。

(2)自動構(gòu)建事件抽取與事件關(guān)系推斷數(shù)據(jù)集

目前在事件抽取與事件關(guān)系推斷的研究中,缺少數(shù)據(jù)集是一個嚴(yán)重的問題。數(shù)據(jù)集的匱乏制約了事件抽取與事件關(guān)系推斷技術(shù)的發(fā)展。因此,未來應(yīng)當(dāng)關(guān)注數(shù)據(jù)集的構(gòu)造方法,目標(biāo)是實(shí)現(xiàn)自動化地構(gòu)建高質(zhì)量的數(shù)據(jù)集。自動構(gòu)建高質(zhì)量的事件抽取、事件關(guān)系推斷數(shù)據(jù)集具有重要的意義,是未來技術(shù)發(fā)展的重要方向。

(3)廣泛開展事件時序、因果關(guān)系研究

在事件圖譜中,事件之間的時序關(guān)系和因果關(guān)系占據(jù)重要的地位,但是目前對其進(jìn)行的研究還不夠多。只有獲取到準(zhǔn)確的時序關(guān)系以及因果關(guān)系,才能推斷出事件的發(fā)展歷程,實(shí)現(xiàn)對事件的溯源。另外,事件預(yù)測的研究也離不開事件時序關(guān)系以及因果關(guān)系的支撐。因此,廣泛開展事件時序、因果關(guān)系研究是十分必要的,也是十分有意義的,需要研究人員的共同努力。

(4)研究事件間關(guān)系可信性的界定方法

事件之間的關(guān)系是事件圖譜的重要組成部分,反映了復(fù)雜事件背后的關(guān)聯(lián)關(guān)系。在事件推理的過程中,必然要用到事件之間的關(guān)系。而事件之間的關(guān)系是否可信、如何界定事件間關(guān)系的可信性是個十分重要的問題,對事件推理技術(shù)的發(fā)展有重要的影響。因此事件間關(guān)系的可信性的界定方法值得研究者關(guān)注,需要在深入研究的基礎(chǔ)上提出較為合理的界定方法。

(5)深入研究復(fù)雜事件的推理

目前事件推理研究的內(nèi)容大多是簡單事件,缺乏對復(fù)雜事件的研究。為了更好地利用事件圖譜,對復(fù)雜事件的研究是不可或缺的。因?yàn)楝F(xiàn)實(shí)世界中的事件錯綜復(fù)雜,不再是單一的簡單事件,所以未來需要開展對復(fù)雜事件的研究,挖掘復(fù)雜事件之間的關(guān)聯(lián)。只有這樣才能不斷提高事件推理技術(shù)的水平,最終實(shí)現(xiàn)對事件的智能分析。

9 結(jié)束語

事件圖譜中包含大量的事件知識,現(xiàn)代社會智能化水平的提升需要事件圖譜的輔助。事件圖譜中的事件涉及的維度較多,導(dǎo)致事件圖譜的構(gòu)建與推理具有一定的難度。基于事件圖譜的重要性,研究人員已經(jīng)開始對這一領(lǐng)域展開積極的探索,推動著該領(lǐng)域的快速發(fā)展。本文簡單介紹了知識圖譜和事件圖譜,從事件圖譜的構(gòu)建、推理與應(yīng)用方面對事件圖譜的研究現(xiàn)狀做了總結(jié)。之后,本文給出了事件圖譜具體的應(yīng)用場景,并展望了事件圖譜的研究方向。

目前,事件圖譜是自然語言處理領(lǐng)域中的前沿研究方向。為了更好地發(fā)揮事件圖譜的價(jià)值,利用事件圖譜服務(wù)社會,需要更多研究者進(jìn)行深入研究。希望本文可以為事件圖譜相關(guān)的研究提供一些幫助。

猜你喜歡
信息方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 老色鬼久久亚洲AV综合| 日a本亚洲中文在线观看| 中文字幕在线一区二区在线| 成人精品视频一区二区在线| 欧美在线综合视频| 中文字幕无线码一区| 伊人成人在线视频| 亚洲伊人久久精品影院| 91午夜福利在线观看精品| 亚洲精品第一页不卡| 国产精品美乳| 日本一区二区不卡视频| 国产麻豆另类AV| 一级毛片在线播放免费| 国产超碰一区二区三区| 欧美成在线视频| 熟妇人妻无乱码中文字幕真矢织江 | 国产精品jizz在线观看软件| 99久久亚洲精品影院| 香蕉99国内自产自拍视频| 天堂久久久久久中文字幕| 美女被狂躁www在线观看| 精品自窥自偷在线看| 中文字幕调教一区二区视频| 一本色道久久88亚洲综合| 日韩精品无码免费专网站| 国产精品自在在线午夜| 99re精彩视频| 国产一区免费在线观看| 欧美.成人.综合在线| 国产免费久久精品99re不卡| 丁香五月激情图片| 99re在线免费视频| 国产成人a在线观看视频| 国产玖玖视频| 久久国产精品波多野结衣| 日韩欧美国产精品| 色综合五月| 亚洲系列中文字幕一区二区| 福利一区在线| 国产丝袜精品| 毛片在线播放a| 青青草原国产av福利网站| 极品私人尤物在线精品首页| 欧美h在线观看| 精品国产电影久久九九| 国产手机在线ΑⅤ片无码观看| 动漫精品中文字幕无码| 日韩精品无码不卡无码| 国产资源免费观看| 欧美精品啪啪| 国产欧美日韩一区二区视频在线| 亚洲有码在线播放| 亚洲最新网址| 午夜激情婷婷| 国产粉嫩粉嫩的18在线播放91| 免费a级毛片视频| 国产成人福利在线| 久久国产成人精品国产成人亚洲 | 成年人免费国产视频| 国产成人高清精品免费5388| 国产性生大片免费观看性欧美| 国产精品久久久久久久伊一| 一级黄色欧美| 91久久国产综合精品女同我| 欧洲成人在线观看| swag国产精品| 国产精品色婷婷在线观看| 精品无码日韩国产不卡av| 91探花国产综合在线精品| 国产精品黄色片| 国产精品亚洲综合久久小说| 成人精品在线观看| 高清久久精品亚洲日韩Av| 亚洲三级成人| 国产丝袜一区二区三区视频免下载| 91福利国产成人精品导航| 国产综合网站| 欧美a级完整在线观看| 亚洲a级毛片| 婷婷成人综合| 国内精品视频在线|