王先傳,劉宗田
(上海大學計算機工程與科學學院,上海200444)
事件是客觀存在的,事件的動作、對象、時間、環境等信息都是伴隨著事件的發生客觀存在的,而不依賴于語言.從事件語義學出發,許多自然語言中的句子都是一個特定的事件語義結構,句子本身的意義則是由這一事件語義結構來表示和體現.每一個具體的事件語義結構不是完全獨立的,而是具有事件語義關系.因此,在新聞文本中描述事件以及這些信息的語言符號都具有一定的語義.合理有效地表示事件、事件與事件之間的關系等語義信息已成為計算語言學、自然語言處理等領域的關注內容.
一些認知科學家認為,事件是人類認識和理解現實世界的基本單元[1].人們在描述或傳播信息時,通常也是以事件為基本單元進行的.如“2014年11月3—7日,在上海召開CIKM2014會議.”這樣的描述方式在人們做總結或計劃時經常出現的,是以事件(召開)為單位,并附有一定的時間(2014年11月3—7日)和地點(上海)等要素信息動態地描述已發生或將要發生的事件信息.因此,將事件概念運用到語義Web技術,實現計算機對互聯網信息基于事件的語義理解顯得非常合理.類似地,以事件為單位來描述事情的動態發展過程,在新聞文本中也有諸多呈現.新聞文本可以看作是由一系列含有這些語義角色信息的事件依據事件與事件之間內在本質的聯系所組成的.
形式化表示事件和事件關系是一項基礎性工作,以事件為知識表示單元,對新聞文本中的事件語義以及事件關系語義形式化,可以為事件本體以及基于事件的知識推理提供服務.
Jackendoff[2]認為,事件語義包括4個方面的內容.第一部分是事件本身,是指客觀世界中發生的事件,不依賴于語言符號.第二部分是語言本身,將其作為一種工具來描述或刻畫客觀世界中的事件.語言將客觀世界中的事件映射到語言中的事件,將語義信息賦予語言中的事件;語言是人類為了交流各自知曉的事情而產生的,是一個獨立的符號系統,人類通過語言描述或刻畫客觀世界中事件的方式與人類自身的知識系統和認知基礎相關[3].第三、四部分是描述者和接受者.描述者和接受者不僅是語言的使用者,同時也是事件的觀察人.描述事件的任務就是描述者通過語言的形式,直接或間接地把知曉的客觀世界中的事件傳達給接受者.
本體語言主要有RDF(S)[4],OWL[5]與DL等,主要是用于表示概念、概念與概念之間的分類關系.但是,事件是動態的,與靜態的概念不同,因此許多學者提出新的本體語言以表示事件語義.常亮等[6-7]在描述邏輯的基礎上,提出了動態描述邏輯,能同時表示和推理靜態和動態2個方面的知識,其中動態描述邏輯是一種統一的形式化框架;Liu等[8-9]考慮到事件的特征,使用動態描述邏輯的思想對OWL進行了擴展,并把這種方法運用在面向事件的本體建模中;Schank等[10]依據概念依賴理論提出腳本這一知識表示方法,用來表示特定領域內一些事件的發生序列,以表達預先構思好的特定知識或順序性動作及事件;Batsakis等[11]提出了一種可以描述時間-空間信息的本體建模語言,這種語言在數量和質量上對時空信息進行了處理,并提供了一個強大的操作集合,包括從已有的時空關系對未知的關系進行推理.
新戴維森方法源于形式語義學與事件語義學的結合.Davidson[12]認為,動詞描述了事件和事件論元之間的關系,語法論元也是語義謂詞的論元,將事件論元增加到邏輯表達式中,這就形成了事件語義的戴維森分析方法.之后,一些學者在戴維森分析法的基礎上,提出了很多針對邏輯形式分析法的局部修正意見,這些意見稱為新戴維森分析法.新戴維森方法認為,事件和事件論元間的關系是通過論旨角色聯系的,語法論元和事件間的聯系也是通過論旨角色聯系的[13-16].Landman[17]認為,動詞詞匯和一個或多個論旨角色聯合構成了事件謂詞;Kratzer[18]主張動詞描述事件和事件主旨之間的關系;Champollion[19]認為,戴維森事件語義與健壯的量化理論是一致的,其注重量化事件語義和鏈接語義之間的關系;Lasersohn[20]在事件上,針對隱含變量語義量化可以解決大量的語言學問題,基于事件的語義理論進行了不同于事件論元結構的表示與分析;Champollion[21]在新戴維森的基礎上,結合代數語義和分體論描述了事件語義中的量化、否定和聯接語義信息.
本體建模語言,特別是描述邏輯與OWL是基于對象的知識形式方法,建立在概念和關系之上,注重的是分類及其定義,適合于通過概念分類學來表示應用領域的靜態知識,是對特定模型進行形式化的有效方法.新戴維森方法更多的是從語言學視角出發,研究自然語言的事件語義結構,把語義角色引入事件結構,將與動詞相對應的事件謂詞處理為只帶有事件論元的一元謂詞.戴維森方法帶有3個論元,同戴維森事件形式化結果相比,新戴維森帶有更多的事件語義細節.新戴維森強調的是對具體的英語語料實例的研究,討論的修飾語現象相對較少,沒有涉及自然語言表達中更為廣泛的其他語言現象,對自然語言語義中的很多內容無法準確表達,如描述事件的不確定信息,復雜對象、環境以及事件關系等修飾事件的語義信息.事件與事件之間的關系是多樣化的,上述2種方法關注的是對獨立的事件語義表示,除了本體建模語言考慮了分類關系外,二者沒有考慮到事件與事件之間的其他關系.
我們引用劉宗田給出的事件定義.
定義1(事件) 事件是指在某個特定的時間和環境下發生的、由若干角色參與的、表現出若干動作特征的一件事情.形式上,事件可表示為e,定義為一個6元組:
其中,事件6元組中的A,O,T,V,P,L稱為事件要素,分別表示事件的動作要素、對象要素、時間要素、環境要素、斷言要素與語言表現要素.
由于客觀世界中事件之間具有固有的內在本質聯系,因此新聞文本中的事件之間也具有相應的聯系.2009年,劉宗田等[1]將事件之間的關系分為分類關系和非分類關系2大類,其中非分類關系包括因果、組成、伴隨與跟隨關系.
新聞文本中的句子不僅描述了單個事件以及該事件的時間、環境、動作和對象等語義信息,還描述了這一事件與另一事件之間的內在關系.因此,事件語義包括以下2方面內容:①事件的動作、環境、時間和對象等語義信息;②事件與事件之間的關系.
本工作給出對事件、事件類以及事件類關系形式化表示的各種語義符號(見表1).

表1 部分事件語義表示符號Table 1 Part of symbols about event semantic representation
在表1中,R表示事件關系;■,■,?分別描述邏輯中析取、合取與否定算子;?,?分別為全稱量詞和存在量詞;→,≮,?,‖分別表示事件的因果關系、組成關系、跟隨關系與伴隨關系;⊕為聚合算子.
本工作將事件謂詞看作僅包含事件論元的一元謂詞,把事件的6要素通過邏輯合取符號與事件謂詞形成新的事件形式化方法:

其中:?e表示存在一個事件,e為事件論元;eX(e)為事件謂詞;eA(e,A)為事件的動作,A為具體的動作內容;eO(e,O)為事件的對象,O為具體的對象內容;eT(e,T)為事件時間,T為具體的時間內容;eV(e,V)為事件發生的地點或環境,V為具體的地點或環境內容;eP(e,P)為事件的斷言,P為具體的斷言內容;eL(e,L)為事件的語言表現,L為具體的語言表現內容.
在新聞文本中有大量的模糊性詞語描述事件的對象多少、動作的程度、距離的遠近以及時間的長短等[22].針對這些模糊性的信息,本工作使用模糊集合理論進行表示[23-24].
定義2(模糊子集[24]) 論域U上的一個模糊子集A,就是給定論域U到區間[0,1]的一個映射:

其中,映射μA為模糊子集A的隸屬函數,?u∈U對應一個確定值μA(u)∈[0,1],μA(u)稱為u∈U對A的隸屬程度.
隸屬函數μA表征論域U上的模糊子集A,μA(u)的大小表示u對于模糊子集A的隸屬程度.μA(u)的值越接近1,u從屬于A的程度越大;μA(u)的值越接近0,u從屬于A的程度越小.
對于論域U上的模糊子集A,要反映出?u∈U對模糊子集A的隸屬度μA(u),可以使用Zadeh法、單點法、向量法、序偶法和隸屬函數法等來表示.
在新聞文本中,形容詞、副詞和動詞等帶模糊性的詞語最為常見,這些詞語作為前綴,形成許多模糊性的詞組.特別是有些詞,如“非常”“有點”“多半是”等,將其作為前綴會使語氣發生較大的變化,但是這些模糊信息與原來的模糊信息并沒有本質區別,只是表示程度不同.這里稱這類詞為算子或變換.
諸如“很”“極”“比較”“稍許”等詞可以使用語氣算子表示,“可能”“大約”與“近似”等模糊詞可以使用模糊化算子表示,“多半是”“屬于”等詞語可以使用判定化算子表示[24].
事件的動作要素主要是通過事件觸發詞、動作程度以及動作發生所使用工具進行描述,動作程度描述事件發生的程度是一種不精確的描述.在式(1)中的事件動作添加一個隸屬度μA(u),并將其單獨作為一個論元,表示事件動作要素的程度:

式中,μA(u)是對描述事件動作模糊程度的表示,μA(u)表示為隸屬程度.
事件對象有主體對象與客體對象之分,結合語義角色理論,分別以符號eO.Agent與eO.Theme表示事件的主體對象和客體對象,事件的形式化方法為式中:eO.Agent(e,O)為事件的主體對象,O為具體的主體對象內容;eO.Theme(e,O)為事件的客體對象,O為具體的客體對象內容.

例1 Jinke stabbed Qin violently.

可以解釋為:存在刺殺事件,事件的主體對象是Jinke,事件的客體對象是Qin,且刺殺程度是violently.
為了描述事件發生所使用的工具,引入工具的語義角色,并將其單獨作為事件動作的一個工具角色進行描述:

式中,eA.Tool(e,tool)為描述事件動作的工具,tool為具體使用的工具.
例2 Jinke stabbed Qin with a sword.

可以解釋為:存在刺殺事件,事件的主體對象是Jinke,客體對象是Qin,刺殺動作使用的工具是a sword.在例2的事件形式化表示中,對“with a sword”賦予動作的Tool語義角色,并作為事件動作的一個語義角色單獨進行形式化表示.
新聞文本中,有的事件有多個不同的主體對象或客體對象,有時使用具體的數字修飾,有時用模糊信息描述.對于事件中有多個不同的主體對象或客體對象的情況,引入聚合算子⊕對這些主體對象或客體對象進行聚合操作:

式中,O為聚合操作后的事件對象,Oi為某一事件的不同對象.
對于使用具體數字或模糊信息描述對象的數量,為對象引入數字或隸屬度μA(u),并將其作為對象的一個論元進行描述,這樣對象要素的事件形式化方法可表示為

使用描述邏輯的方法可以形式化表示對象要素中的一些概念.
例3 The driver and a passenger were injured.

可以解釋為:存在受傷事件,且事件的客體對象是駕駛員與一名乘客.
(E3)中客體對象駕駛員與乘客是2個不同的概念,使用描述邏輯可以將其形式化表示為

例4 Three people were injured.

可以解釋為:存在受傷事件,事件的客體對象是人,且受傷人員的數量是3個.
在新聞文本中描述的事件通常包括過去發生的事件、正在發生的事件和將要發生的事件3種類型,這3種事件在時間上分別對應過去時、進行時和將來時.描述事件的時間,通常又會有時間段、時間點2種情況.針對上述文本對時間要素的描述,這里借鑒新戴維森方法對事件時態的描述方法進行時間要素表示.
在新戴維森方法中,I和t是與事件中的時態表示有關,I為時間段,t為時間點,“t∈I”表示t是I集合的元素.I與now可以實現為“<”“=”與“>”,I<now表示過去時,I=now表示現在時,I>now表示將來時[25].
因此,在考慮事件發生的時態時,事件形式化方法可表示為

式中:I表示時間段,可以取值為I<now,I=now或I>now;Tense表示時態.這里,為了形式化表示的簡潔,在除例5外的描述實例中,沒有對事件的時態進行形式化表示.
例5 Jinke stabbed Qin.考慮事件發生的時態后,例5可以形式化為(E5)的形式:

可以解釋為:在過去的某個時間點存在刺殺事件,事件的主體對象是Jinke,客體對象是Qin.
在新聞文本中對事件環境要素的描述有單個地點環境、多個同等級的地點環境、多個不同等級的地點環境和地點環境變化4種情況.針對多個同等級的地點環境,使用符號⊕進行聚合操作;針對多個不同等級的地點環境,引入符號?表示2個地點環境的上下級關系,如中國?上海;針對地點環境變化的情況,引入符號■表示事件發生地點環境的變化,如北京■上海.
例6 Jinke stabbed Qin in the palace.

可以解釋為:存在刺殺事件,事件的主體對象是Jinke,客體對象是Qin,且事件的發生地點是在palace里.
例7 Obama visited China,Russia,and Korea.

可以解釋為:存在訪問事件,事件的主體對象是奧巴馬,事件的地點分別是中國、俄羅斯和韓國.
例8 The earthquake happened in Wenchuan County Sichuan Province.

可以解釋為:存在地震事件,事件發生的地點是汶川縣,汶川縣是四川省的一個地區.
例9 The airplane flew from Beijing to Shanghai.

可以解釋為:存在飛行事件,事件的主體對象是飛機,飛行的出發地是北京,目的地是上海.
本工作使用如式(8)所示的形式化方法,表示事件與事件之間的關系.

式中:ei,ej表示2個不同的事件;R(eiTej)表示這2個事件之間具有T類型的事件關系,T可以取如下表示事件關系的符號:→,≮,?,‖.
例10 The earthquake caused Tom to die.

可以解釋為:存在地震事件,存在死亡事件,死亡事件的客體對象是Tom,地震事件和死亡事件的關系是因果關系.
在新聞文本中,不僅有對新聞事件的描述,還有與該事件有關的一些新聞背景的描述.新聞背景是有關新聞事件發生的歷史、環境與原因的說明[26].新聞背景中的歷史也是事件,是在時間上發生于新聞事件之前的事件,可以使用式(1)的方法形式化表示歷史事件.新聞背景中的環境一種是從“點”上介紹新聞事件所處的環境,另一種是從“面”上介紹新聞事件與其他事件之間的關系,本質上反映的是這2個事件之間的關系,前者可以使用上述3.7節的方法形式化表示,后者可以使用式(8)的方法形式化表示.新聞背景中的原因主要是對新聞事件的對象、動作等要素做一些解釋和說明,其本質上是對事件要素所處狀態的一種描述.本工作采用如下形式化方法表示新聞背景中的原因:

式中:?s表示存在一個狀態;sX(s)為狀態詞,s為狀態論元;sO(s,O)為狀態的對象,O具體的對象內容;sT(s,T)為狀態所處的時間,T為具體的時間內容;sV(s,V)為狀態所處的地點或環境,V為具體的地點或環境內容.
例11 Tom stayed at home last week.

可以解釋為:存在staying狀態,狀態的對象是Tom,狀態所處的時間是last week,狀態所處的環境是at home.
本工作從事件語義出發,在新戴維森方法的基礎上,將事件謂詞看作僅包含事件論元的一元謂詞,將其與事件的6要素結合,給出了新的事件形式化表示方法.擴展模糊信息表示,擴展聚合操作算子、環境包含和變化算子,以及事件關系算子,給出了事件的動作、對象、環境、時態以及事件關系的形式化方法,使用描述邏輯方法表示了對象中的概念.實例表明,給出的事件語義形式方法能夠較好地闡述文本中的事件語義信息.在此基礎上,后續工作將研究事件類的表示以及基于事件類的知識推理.