999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于新聞事件片段的時序關(guān)系識別方法

2017-07-05 11:16:08李英俊張宏莉王星
關(guān)鍵詞:方法

李英俊,張宏莉,王星

(哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)

基于新聞事件片段的時序關(guān)系識別方法

李英俊,張宏莉,王星

(哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)

針對新聞文本,將事件片段定義為最小劃分單元,提出了一個兩階段的事件片段時序關(guān)系識別算法,第一階段時序映射和第二階段時序識別。使用真實網(wǎng)上新聞數(shù)據(jù)進(jìn)行實驗,結(jié)果表明,所提方法相比普通的分類器及強(qiáng)規(guī)則算法,準(zhǔn)確率提高了4%。

事件片段;時序映射;時序關(guān)系識別;全局優(yōu)化

1 引言

隨著搜索引擎分析技術(shù)的提高、數(shù)據(jù)挖掘技術(shù)的發(fā)展,事件時序識別逐漸成為研究熱點。事件是指在特定時間和環(huán)境下,某種行為或狀態(tài)的描述[1]。從時間角度上看,事件可能發(fā)生在一個時間區(qū)間或持續(xù)一段時間。因此,事件之間會存在一定的先后順序。事件的時序關(guān)系識別是根據(jù)事件時間線索特征進(jìn)行事件時間位序識別。對于新聞類的文本而言,其中包含多個事件和時間,通過事件?時間的對應(yīng)以及事件時序識別,可以更好地分析理解文本內(nèi)容。

例如,一篇新聞一般除了包含一個主題外,還包含多個事件,如表1中的例1所示,文本是節(jié)選自一篇新聞,事件分別用“「」”標(biāo)示出來,對應(yīng)的發(fā)生時間用下劃線標(biāo)出。從一篇新聞里抽取出多個事件,并對這些事件發(fā)生時間進(jìn)行排序,即事件時序關(guān)系識別。現(xiàn)有研究主要集中在句內(nèi)事件?時間關(guān)系和相鄰句中主要事件的時間關(guān)系。句內(nèi)事件?時間關(guān)系識別是對同一個句子中事件和時間表達(dá)式關(guān)系識別,如表1中的例2所示,“投資”和“近年”的關(guān)系是有交叉或投資發(fā)生于近年之后;相鄰句中主要事件的時間關(guān)系識別是指對相鄰句子中2個事件詞之間的時序關(guān)系識別,一般默認(rèn)這個事件詞是句子中的主要動詞,如表1中的例3,“撤離”和“結(jié)束”的關(guān)系是撤離先于結(jié)束發(fā)生。

表1 事件時序識別例子

針對上述問題,使用事件片段作為最小分析單元來表征一個事件。事件片段是將一篇新聞劃分為時間上獨立的文本片段,這段文本片段由一句或幾句話組成,并且敘述的事情都是發(fā)生在一個時間區(qū)間,如例1,包含2個事件片段,一個是以“今天”作為時間區(qū)間,事件片段是一整句話,另一個是以“今年”作為時間區(qū)間,事件片段是“今年……調(diào)整”這句話。這種劃分既保證事件的完整性也保證其獨立性。本文首先給出事件片段和事件時序識別的定義,提出了一個兩階段算法 two-stage-LTP算法(以下簡稱 tsLTP算法),第一步采用有監(jiān)督的機(jī)器學(xué)習(xí)算法,將一篇文章劃分為多個事件片段,然后再將識別出的時間區(qū)間與事件片段對應(yīng)起來。第二步采用整數(shù)線性規(guī)劃的全局優(yōu)化推理模型,得到事件片段間的時序關(guān)系。最后,構(gòu)建實際數(shù)據(jù)集,并將本文方法和現(xiàn)有的基準(zhǔn)方法進(jìn)行對比,實驗表明,本文方法在準(zhǔn)確率、召回率、平均準(zhǔn)確率和F1評分方面都有較大的提高。文本的研究成果不僅可以幫助用戶獲取到事件脈絡(luò),也可以應(yīng)用在輿情領(lǐng)域、趨勢演化中。

2 相關(guān)工作

事件時序識別的方法分為局部時序關(guān)系識別和全局時序關(guān)系識別兩類,局部時序關(guān)系識別只是識別同一個句子內(nèi)的 2個事件詞或事件?時間關(guān)系,和句內(nèi)事件?時間關(guān)系識別任務(wù)相似;全局時序關(guān)系識別除同一個句子內(nèi)的事件關(guān)系識別,也對相鄰句子以及跨句子之間的2個事件詞關(guān)系進(jìn)行識別。

2.1 局部時序關(guān)系識別

局部時序關(guān)系識別早期的研究是基于特殊規(guī)則的方法,由于規(guī)則的方法沒有普適性,而后學(xué)者們提出了使用機(jī)器學(xué)習(xí)的方法進(jìn)行時序關(guān)系識別。

研究學(xué)者使用規(guī)則的方法,一般是基于語言學(xué)知識、上下文特征定義好規(guī)則集,再進(jìn)行時序關(guān)系的分析和識別。Allen[3,4]將時序關(guān)系看作是事件時間信息之間的比較,提出了13種時序關(guān)系,利用比較后生成的時間區(qū)間關(guān)系定義了時序關(guān)系的推理規(guī)則。文獻(xiàn)[5~9]利用對時間關(guān)系影響的語言學(xué)知識和上下文特征,如時態(tài)、修辭關(guān)系、語用約束、實際慣例和背景知識建立規(guī)則。Chklovski等[10]定義了6種時序關(guān)系,利用觸發(fā)詞建立詞?句匹配模板抽取事件時序關(guān)系對,由于規(guī)則的方法具有主觀性以及強(qiáng)制適配性。雖然規(guī)則的方法識別結(jié)果準(zhǔn)確率高,但召回率不夠理想,沒有實際應(yīng)用價值。

研究學(xué)者使用機(jī)器學(xué)習(xí)的方法是把時序關(guān)系識別看作分類問題,將文本片段中抽取出的實體?時間對表示為特征向量,選擇適當(dāng)?shù)奶卣骱蜋C(jī)器學(xué)習(xí)分類模型進(jìn)行分類。TimeML[11]是國際標(biāo)準(zhǔn)化組織(ISO,International Organization for Standardization)為標(biāo)注事件和時間表達(dá)式而定義的一套標(biāo)注體系,TimeBank[12]語料庫是根據(jù)TimeML標(biāo)注體系進(jìn)行標(biāo)注的語料庫。大多數(shù)研究學(xué)者利用這個語料庫研究事件時序關(guān)系識別。使用的特征可以分為詞性特征,如時間詞、介詞、連詞等與表征時間關(guān)系的詞;事件特征,包括時態(tài)、體態(tài)和情態(tài);句法特征,如事件和時間構(gòu)成的句法分析樹;語義特征,如句子中事件動詞的語義角色、事件共指關(guān)系。Mani等[13]在假設(shè)TimeBank語料庫抽取的詞性語義信息全部正確的基礎(chǔ)上,使用最大熵分類模型對事件對——時序關(guān)系識別。Chambers等[14]在Mani的基礎(chǔ)上,加入了更多的事件、句法特征,并且提出了一個兩階段的時序關(guān)系識別方法,第一階段是提取事件屬性,第二階段是把第一階段的結(jié)果作為特征來識別事件之間的時序關(guān)系,實驗效果比Mani好一些。Bethard等[15]提出了一種結(jié)合句法關(guān)系和語義特征識別時序關(guān)系的方法。Souza等[16]提出了篇章級的特征,對系統(tǒng)性能的提高有一定的幫助。Mirza等[17]通過實驗發(fā)現(xiàn)使用一部分簡單的特征就可以獲取較好的效果。Li等[18]參考了部分英文事件時序識別常用的特征,使用貝葉斯分類的機(jī)器學(xué)習(xí)方法對中文事件時序關(guān)系識別。Cheng等[19]借鑒TimeML標(biāo)注準(zhǔn)則,構(gòu)建了一個中文事件時序的語料庫,同時利用事件的類型來識別中文事件時序關(guān)系。王風(fēng)娥[20]采用最大熵分類器識別句子內(nèi)的事件時序關(guān)系,實驗語料利用了TempEval-2提供的中文語料庫。以上研究表明,不同的特征、不同的時序識別目的以及不同的機(jī)器學(xué)習(xí)方法都會對實驗結(jié)果產(chǎn)生不同的影響。

局部時序關(guān)系識別更多地使用了詞法、句法語義特征,可以很好地判斷2個詞語的時序關(guān)系,然而這些特征卻不能直接用于判斷兩句話的時序關(guān)系。本文提出的方法則在事件?時間對應(yīng)的基礎(chǔ)上,加以全局優(yōu)化的方法,可以識別出句子級別的事件片段間的時序關(guān)系。

2.2 全局時序關(guān)系識別

機(jī)器學(xué)習(xí)方法解決了事件對之間的時序關(guān)系識別問題,而且效率也很高。但時序識別的最終目的是全局的時間關(guān)系,也就是時間鏈。因此,研究人員在機(jī)器學(xué)習(xí)方法的基礎(chǔ)上,提出了全局推理模型來識別。

Chambers等[21]在分類器結(jié)果的基礎(chǔ)上,使用整數(shù)線性規(guī)劃方法提高實驗性能。Denis[22]通過用區(qū)間端點表示事件和時間的方法控制推理方法的復(fù)雜性,并提出一種圖分解方法簡化圖的優(yōu)化問題。Do[23]提出一種聯(lián)合推理的事件時間鏈結(jié)構(gòu),即把一篇文章中的事件按照其發(fā)生的時間先后順序構(gòu)造成一條完整的事件鏈,然后,使用整數(shù)線性規(guī)劃模型優(yōu)化該事件鏈。另外,Do[23]還加入事件同指關(guān)系,使實驗結(jié)果有了顯著的提高。Ng[24]在 Do[23]的基礎(chǔ)上借助篇章結(jié)構(gòu)關(guān)系方面的技術(shù)進(jìn)一步提升了實驗的性能。而Yoshikawa[25,26]則使用馬爾可夫網(wǎng)絡(luò)推理模型提高機(jī)器學(xué)習(xí)方法的性能。然而,其中大多數(shù)使用的全局優(yōu)化模型的約束條件較單一,僅包含反轉(zhuǎn)性、傳遞性、時間表達(dá)式信息等規(guī)則。Chang等[27]提出了一個生活圈模型,對用戶的推特數(shù)據(jù)進(jìn)行分析,生成時間鏈。

全局模型解決了跨句子之間2個事件詞的時序關(guān)系,然而現(xiàn)有全局模型中的約束條件單一,還是主要依賴機(jī)器學(xué)習(xí)的結(jié)果。本文方法提出的約束條件,可以優(yōu)化句子間的關(guān)系,提高全局識別結(jié)果。

3 問題定義與描述

本文研究的問題是將一篇新聞文章劃分為多個事件片段,得到事件片段之間的時序關(guān)系,如圖 1所示,將一篇新聞劃分為多個事件片段。{e1,e2,…},然后將文章中抽取的時間和事件片段對應(yīng),最后進(jìn)行事件之間的時序識別,得到事件之間的時序關(guān)系。

定義1 時間區(qū)間t,包含起始時間tB和結(jié)束時間tE,t=[tB, tE]。

定義2 事件片段為e,敘述的事情發(fā)生在一個時間區(qū)間內(nèi)。一篇文章相當(dāng)于事件片段集合E,每個e∈E,e={s1,s2,…,sn, t}(n≥1),其中,s(ii∈[1, n])表示構(gòu)成事件片段e的一個子句。

圖1 問題定義

定義3 時序關(guān)系為Before、After、Overlap、Include、Simultaneous、None,具體描述如表2所示。

表2 時間關(guān)系定義

由上述定義可知,表1的例1中有2個事件e1和e2,分別對應(yīng)2個事件區(qū)間t1和t2,其中 e1和 e2的時序關(guān)系是同時發(fā)生,具體描述如下。

t1= 今天 { 2013年4月10日,2013年4月10日}

t2= 今年 {2013年1月1日,2013年12月31日}

e1= {由中國貿(mào)易促進(jìn)會廣東分會與香港中華總商會聯(lián)合主辦的“九六稅改及進(jìn)口原料臺賬制執(zhí)行實務(wù)研討會在廣州舉行,向客商介紹今年國家將實行的外經(jīng)貿(mào)三大政策調(diào)整。

e2= {國家將實行的外經(jīng)貿(mào)三大政策調(diào)整。

e1Overlap e2

4 tsLTP算法

本文提出一個兩階段算法,第一階段是時序映射,第二階段是時序識別。時序映射包含時間提取、事件劃分和事件?時間對應(yīng);時序識別包含機(jī)器學(xué)習(xí)識別獲得初始識別結(jié)果,全局優(yōu)化模型得到最優(yōu)識別結(jié)果。算法流程如圖2所示。

4.1 時序映射

1)時間提取

使用復(fù)旦大學(xué)的時間識別庫進(jìn)行時間提取。

2)事件劃分

一個事件片段是由多個句子構(gòu)成的,漢語句子中最小獨立單元是以逗號間隔的句子,因此,在識別完新聞中包含的時間信息后,對每個句子進(jìn)行分析、構(gòu)造事件片段,繼而完成事件片段的劃分,利用機(jī)器學(xué)習(xí)的方法,選取特征如表3所示。判斷2個最小單元是否屬于同一事件片段。

3)事件?時間對應(yīng)

一個事件片段往往對應(yīng)一個時間,本文使用如下的規(guī)則確定時間與事件片段的對應(yīng)關(guān)系。

① 根據(jù)語言學(xué)規(guī)律,時間詞語的管界方式一般都是后向管轄,因此,默認(rèn)一個事件片段的時間區(qū)間是與其最近的時間區(qū)間。

② 如果事件片段最近的是另外一個事件片段,則選擇文檔創(chuàng)建時間作為此事件片段的時間區(qū)間。

圖2 算法流程

表3 事件片段劃分特征集合

4.2 時序識別?機(jī)器學(xué)習(xí)

時序識別的第一步是用機(jī)器學(xué)習(xí),獲得識別的初始識別結(jié)果,本文也將機(jī)器學(xué)習(xí)方法作為基準(zhǔn)系統(tǒng)。由于本文研究的是同一文檔內(nèi)任意2個事件片段之間的時序關(guān)系,而現(xiàn)有方法所用到的一些詞法、句法等特征只限于單個句子內(nèi),對于句子級或相鄰較遠(yuǎn)的2個事件片段,此類特征可能不會發(fā)揮太大作用。因此,本文根據(jù)中文語言特點提出了篇章級別的特征,大致可歸納為語義特征、特殊詞、事件關(guān)系以及事件所處的上下文信息等幾類特征,如表4所示。

特征類別 具體特征語義特征 2個事件片段核心詞的語義相似度,用s i m表示2個事件片段核心詞是否為同義,用i f _ s y n表示時間區(qū)間是否是D C T,用i f _ d c t表示特殊詞時間區(qū)間先后順序,用o r d e r _ t表示時間區(qū)間時態(tài)信息先后,用o r d e r _ t e n s e 2個事件片段之間是否存在連接詞,用i f _ c o n j表示2個事件片段在文中出現(xiàn)的先后順序,用 o r d e r _ a表示上下文信息2個事件片段是否在同一個句子中,用i f _ i n表示2個事件片段間隔的句子數(shù)目,用n u m表示

針語義特征,2個句子的核心詞如果有一定的相似關(guān)系,就可以知道這 2個句子之間的時序關(guān)系。2個詞相似度越高,說明2個詞敘述的事件應(yīng)該是同一個,這樣即使2個句子間隔較遠(yuǎn),可知2個句子可能是同時或時間區(qū)間有交叉。

特殊詞,句子級別之間的時序比較,最重要的依賴應(yīng)該是特殊詞,因為特殊詞基本可以得出2個句子之間的關(guān)系。2個事件有明確的時間區(qū)間,基本就可以知道2個事件的時序關(guān)系。連接詞也可以輔助判斷。

上下文關(guān)系,中文的敘述,很注重上下文的銜接,因此,這個特征也可以有助于判斷事件之間的關(guān)系。

4.3 時序識別?全局優(yōu)化模型

由于事件時序分類器只是對每一對事件片段的關(guān)系進(jìn)行兩兩分類,沒有考慮事件片段對之間的聯(lián)系,因而會將一些本可以區(qū)分出時序關(guān)系的事件對區(qū)分錯誤。已有的全局優(yōu)化方法僅使用自反性和傳遞性約束條件,因為這2個條件是在已有識別結(jié)果上進(jìn)行優(yōu)化,如果結(jié)果準(zhǔn)確性及粒度不夠,就不能夠提高優(yōu)化的效果。因此,本文在已有全局優(yōu)化方法的基礎(chǔ)上,提出了幾個約束條件。事件時序分類器具有概率特性,而同時本文后續(xù)提出的約束條件也具有概率特性。因此,同樣可以將本文研究的內(nèi)容,轉(zhuǎn)化為一個全局最優(yōu)的問題,本文使用整數(shù)線性規(guī)劃方法解決這個優(yōu)化問題。

4.3.1 目標(biāo)函數(shù)

目標(biāo)函數(shù)定義如式(1)所示。

4.3.2 基本約束條件

1)唯一性

唯一性確保2個事件之間只能存在一種關(guān)系,即針對本文提出的6種關(guān)系,2個事件之間的關(guān)系只能是其中一種,因此,只有在對應(yīng)的關(guān)系上取值為1,其他關(guān)系時,取值為0。

2)自反性

3)傳遞性

傳遞性是指時序關(guān)系的傳遞閉包,即ei和ej具有關(guān)系ra,ej和ek具有關(guān)系ra,則ei和ek也具有關(guān)系ra。例如,ei和ej具有關(guān)系Before,即ei發(fā)生于ej之前,ej和ek具有關(guān)系Before,即ej發(fā)生于ek之前,則可以利用時序關(guān)系傳遞閉包的性質(zhì)推導(dǎo)得出ei和ek也具有關(guān)系Before,即ei發(fā)生于ek之前。

4.3.3 新增約束條件

基本約束條件在分類結(jié)果準(zhǔn)確性保障的前提下才是有效的。而分類器的結(jié)果是存在概率的,因此對 17 000篇搜狗爬取的新聞?wù)Z料統(tǒng)計分析后,新增加3個約束條件,分別是時間區(qū)間細(xì)粒度、時間?事件映射修正、篇章連接詞。

1)時間區(qū)間細(xì)粒度

時間區(qū)間粒度越細(xì),2個時間區(qū)間比較出來的結(jié)果可信度就越高。如果2個時間區(qū)間的粒度大,就降低了2個時間區(qū)間的準(zhǔn)確度,增加了時序關(guān)系的模糊度。因此可以將時間區(qū)間劃分為:年 Tyear,月 Tmonth,日 Tday,上、中、下午 Thour這幾個時間粒度不同的類型,同時對每一個類型設(shè)定一個閾值,稱作時間區(qū)間的置信度。時間區(qū)間粒度越細(xì),則置信度越高。有些事件片段的確發(fā)生在某一段時間內(nèi),雖然其對應(yīng)的時間區(qū)間是一個時間段,但可能存在時間段范圍過大的問題。例如,2012年五一黃金周黃果樹旅游景區(qū)游客暴增。事件片段對應(yīng)的是2012年,但可以知道這個事件指的是五一黃金周期間。通過對17 000篇新聞?wù)Z料統(tǒng)計,提取了出現(xiàn)次數(shù)較多的類似五一黃金周這類可以指向某一段時間的詞語,如表5所示。

表5 時間區(qū)間特殊詞

所以,除了對時間區(qū)間的粒度進(jìn)行閾值修正處理,還要對這一類有明確指向性的詞語進(jìn)行時間區(qū)間修正。

其中, Tti,Ttj表示ei、ej的時間區(qū)間細(xì)粒度。

2)時間?事件映射修正

通過已有統(tǒng)計,只有60%的文章存在時間區(qū)間,而且并不是每篇文章的每個句子間都存在時間區(qū)間。基于新聞?wù)Z料的統(tǒng)計,發(fā)現(xiàn)有一類顯示的時序功能詞,分別為時間副詞、關(guān)系連詞以及功能詞組合,這類功能詞,可以表示共時、順序和逆序關(guān)系。

共時關(guān)系是指事件發(fā)生時間具有共時特性。例如,“同時”和“并”這2個詞都可以明顯地看出來,表明詞語前后事件指明的發(fā)生時間是共時的。共時關(guān)系的詞一般位于2個事件中間。

順序關(guān)系是指事件發(fā)生時間具有順序特性,即事件發(fā)生具有先后次序。例如,“首先…其次…”這對連詞,連接的2個事件具有順序關(guān)系。

逆序關(guān)系是指事件發(fā)生時間具有逆序特性,即文字中事件的敘述先后次序和真實發(fā)生的次序剛好相反。

因此,一般新聞類事件,開頭多為時間區(qū)間,而后會使用這類時序功能詞完成一段話或一個事件的描述。根據(jù)本文事件片段劃分的方式,連接詞會將事件劃分為2個事件片段。此時,利用時序功能詞推出事件片段與前后事件的關(guān)系,繼而利用基本約束條件中的傳遞性,可以識別出全局事件時序關(guān)系。

其中,conj_t表示時序功能詞,r表示conj_t對應(yīng)的時序關(guān)系。

3)篇章連接詞

在漢語篇章中,句子與句子或子句與子句之間存在語義連接關(guān)系,如條件關(guān)系、轉(zhuǎn)折關(guān)系、因果關(guān)系等,連接詞主要指連接不同單位并表示這種語義關(guān)系的詞語。根據(jù)哈爾濱工業(yè)大學(xué)中文篇章關(guān)系語料庫的統(tǒng)計,連接詞的關(guān)系大致可以分為因果類、并列類、轉(zhuǎn)折類、解說類。將這4類篇章連接詞對應(yīng)到時序關(guān)系上,如因果連接詞,表明2個事件是有先后順序的。

盡管篇章連接詞可以表征時序關(guān)系,然而有些連接詞卻可以表示多種關(guān)系,如“而”這個連接詞,既可以表示遞進(jìn)關(guān)系、順承關(guān)系,也可以表示轉(zhuǎn)折關(guān)系和并列關(guān)系。這些關(guān)系對應(yīng)的時序關(guān)系是不同的,可以是先后順序、同時發(fā)生和沒有關(guān)系這3類。因此,根據(jù)統(tǒng)計結(jié)果,對每個可以表示多個關(guān)系的連接詞設(shè)定概率值,通過每個連接詞的統(tǒng)計結(jié)果表示概率值。

其中,conj_p表示篇章連接詞,r表示conj_p對應(yīng)的時序關(guān)系,連接詞表示r關(guān)系這一事件的概率用a表示。

5 實驗

5.1 實驗數(shù)據(jù)集

本文實驗所用的語料是從網(wǎng)絡(luò)上主流新聞媒體爬取下來的,包含 144篇新聞報道,預(yù)處理使用上文提到的方法進(jìn)行了事件片段劃分、時間?事件對應(yīng)。同時對任意2個事件片段的時序關(guān)系進(jìn)行人工標(biāo)注。實驗語料由 2位標(biāo)注者共同完成,標(biāo)注結(jié)果Kappa值達(dá)到0.85。Kappa值常用于協(xié)同標(biāo)注一致性判斷,大于0.8即可認(rèn)為完全一致,達(dá)到 0.85說明 2位標(biāo)注者對標(biāo)注規(guī)范理解是一致的。共計抽取出898個時間區(qū)間和劃分出1 113個事件片段以及標(biāo)注16 084個時序關(guān)系。實驗采用十折交叉的方法,定義評價標(biāo)準(zhǔn)指標(biāo)準(zhǔn)確率 P(precision)、召回率R(recall)及F1值。通過比較算法得到分類結(jié)果TP和標(biāo)注的結(jié)果TN,P、R、F1計算如下。

現(xiàn)有時序識別方法基本采用相同的機(jī)器學(xué)習(xí)算法流程,即將每一事件對構(gòu)造成向量形式,使用監(jiān)督學(xué)習(xí)的方式進(jìn)行時序識別,本文實驗采用4.2節(jié)中提到的特征,用于監(jiān)督學(xué)習(xí)算法成為一個基準(zhǔn)系統(tǒng),以此作為方法一。根據(jù)引用文獻(xiàn)[2]中提出的規(guī)則,實現(xiàn)了一個強(qiáng)規(guī)則推理的方法,作為方法二。與本文方法較為相似的 Do等提出的JIETC方法作為方法三,本文也做了實驗進(jìn)行對比。

5.2 實驗結(jié)果與分析

實驗結(jié)果如表6所示,本文研究的是事件片段之間的時序關(guān)系,因此,對比 Do的方法主要是其提出的全局優(yōu)化方法。

表6 各方法實驗性能比較

首先,比較準(zhǔn)確率這個指標(biāo),本文方法比其他最高值高出 5%,由于本文的方法是在機(jī)器學(xué)習(xí)的基礎(chǔ)上做了全局優(yōu)化,不僅考慮自反性、傳遞性這些基礎(chǔ)約束條件,而且針對新聞事件描述特性,加入了3個約束條件,有效地對結(jié)果進(jìn)行了優(yōu)化,提高了識別的準(zhǔn)確率。

其次,比較召回率這個參數(shù),由于強(qiáng)規(guī)則推理模式,依賴數(shù)據(jù)程度較高,因此召回率會比其他算法低10%左右;由基準(zhǔn)系統(tǒng)和Do方法可知,雖然 Do方法是在機(jī)器學(xué)習(xí)的結(jié)果上使用傳遞性和自反性進(jìn)行約束修正結(jié)果,但召回率只相差2%,說明單獨機(jī)器學(xué)習(xí)中的結(jié)果存在差錯,導(dǎo)致自反性和傳遞性的優(yōu)化存在錯誤;本文提出的 3個新增約束條件,考慮了一些引起錯誤的條件,進(jìn)行約束優(yōu)化,如事件?時間修正這一條件,可以把時間這一項修正為正確項,自然會提高識別結(jié)果。

再對每個約束條件進(jìn)行性能對比,如圖3所示,可以發(fā)現(xiàn),傳遞性對全局時序關(guān)系的識別,有一定影響和提高。比較本文提出的3個約束條件,可以看出時間?事件映射關(guān)系的修正以及篇章連接詞有效地提高了時序識別的準(zhǔn)確率,本文認(rèn)為,錯誤的時間與事件對應(yīng)的確導(dǎo)致了機(jī)器學(xué)習(xí)算法的識別準(zhǔn)確率,通過修正,提高機(jī)器學(xué)習(xí)的準(zhǔn)確率,加之傳遞性,使全局識別率提高很多。同理,篇章連接詞的提出可以保證相鄰2個句子的時序關(guān)系準(zhǔn)確性,繼而利用傳遞性,可以更準(zhǔn)確地識別2個事件的時序關(guān)系。

本文實驗所用新聞文本涉及領(lǐng)域廣泛,并沒有局限在某一領(lǐng)域,如醫(yī)藥、金融等。所以具有較高的擴(kuò)展性和通用性。

圖3 本文提出的約束條件性能對比

6 結(jié)束語

本文提出了一種新的事件時序識別方法,以事件片段作為最小粒度研究單元,保證了事件的完整性,避免了只以動詞或名詞構(gòu)成事件作為研究單元產(chǎn)生的不合理性和時間區(qū)間稀疏的問題。在片段劃分、時間區(qū)間與事件片段一一對應(yīng)的基礎(chǔ)上,在事件片段時序識別方面,優(yōu)化全局識別公式并提出多個有效的約束條件,提高了時序識別的準(zhǔn)確率。

在下一步工作中,將文字類敘述時間的知識庫建立起來,使這一部分的時間區(qū)間可以識別出來;另外,引入敘述類文本模板,將敘述類文本中的事件片段識別劃分的準(zhǔn)確率提高。

[1] 鄭新, 李培峰, 朱巧明,等. 中文事件時序關(guān)系的標(biāo)注和分類方法[J]. 計算機(jī)科學(xué), 2015, 42(7): 276-279.

ZHENG X, LI P F, ZHU Q M, et al. Annotation and classification of temporal relation between chinese events[J]. Computer Science, 2015, 42(7): 276-279.

[2] 龐黎多. 基于時間片段的時間關(guān)系識別系統(tǒng)的設(shè)計與實現(xiàn)[D].太原:山西大學(xué), 2014.

PANG L D. System of temporal relation based on temporal segmentation[D]. Taiyuan:Shanxi University, 2014.

[3] ALLEN J F.Maintaining knowledge about temporal intervals[J]. Communications of the ACM ,1983, 26(11): 832-843.

[4] ALLEN J F. Towards a general theory of action and time[J]. Artificial Intelligence,1984, 23(2):123-154.

[5] PASSONNEAU R J. A computational model of the semantics of tense and aspect[J].Computational Linguistics,1988,14(2):44-60.

[6] WEBBER B L. Tense as discourse anaphor[J]. Computational Linguistics,1988,14(2):61-73.

[7] LASCARIDES A, ASHER N.Temporal interpretation, discourse relations and commonsense entailment[J]. Linguistics and Philosophy, 1993,16(5):437-93.

[8] HITZEMAN J, MOENS M, GROVER C, et al. Algorithms for analysing the temporal structure of discourse[C]//The Seventh Conference on European Chapter of the Association for Computational Linguistics.1995.

[9] KEHLER A. Resolving temporal relations using tense meaning and discourse interpretation[C]//Formalizing the Dynamics of Information. 2000.

[10] CHKLOVSKI T, PANTEL P. Global path-based refinement of noisy graphs applied to verb semantics[C]//The International Conference on Natural Language Processing.2005: 792-803.

[11] SAURí R, LITTMAN J, GAIZAUSKAS R, et al. TimeML annotation guidelines, version 1.2.1[C]//Event London.2006.

[12] PUSTEJOVSKY J, HANKS P, SAURI R, et al. The timebank corpus[C]//Conference on Corpus linguistics. 2003.

[13] MANI I, VERHAGEN M, WELLNER B, et al. Machine learning of temporal relations[C]//The 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics.2006: 753-760.

[14] CHAMBERS N, WANG S, JURAFSKY D. Classifying temporal relations between events[C]//The 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. 2007: 173-176.

[15] BETHARD S, MARTIN J H. CU-TMP: Temporal relation classification using syntactic and semantic features[C]//The 4th International Workshop on Semantic Evaluations. 2007: 129-132.

[16] D'SOUZA J, NG V. Classifying temporal relations with rich linguistic knowledge[C]// HLT-NAACL. 2013.

[17] MIRZA P, TONELLI S. Classifying temporal relations with simple features[C]//EACL. 2014.

[18] LI W, WONG K F, CAO G, et al. Applying machine learning to Chinese temporal relation resolution[C]//The 42nd Annual Meeting on Association For Computational Linguistics. 2004: 582-588.

[19] CHENG Y, ASAHARA M, MATSUMOTO Y. Constructing a temporal relation tagged corpus of Chinese based on dependency structure analysis[C]//The 14th International Symposium on Temporal Representation and Reasoning. 2007:59-69.

[20] 王風(fēng)娥, 譚紅葉, 錢揖麗.基于最大熵的句內(nèi)時間關(guān)系識別[J].計算機(jī)工程.2012,38(04):37-9.

WANG F E,TAN H Y,QIAN Y L. Recognition of temporal relation in one sentence based on maximum entropy[J] Computer Engineering ,2012,38(4):37-9.

[21] CHAMBERS N, JURAFSKY D. Jointly combining implicit constraints improves temporal ordering[C]// The Conference on Empirical Methods in Natural Language Processing.2008: 698-706.

[22] DENIS P, MULLER P. Predicting globally-coherent temporal structures from texts via endpoint inference and graph decomposition[C]// IJCAI-11-International Joint Conference on Artificial Intelligence. 2011:1788-1793.

[23] DO Q X, LU W, ROTH D. Joint inference for event timeline construction[C] //The Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2012: 677-687.

[24] NG J P, KAN M Y, LIN Z,et al. Exploiting discourse analysis for article-wide temporal classification[J]. Annt Journal, 2013, 11(2): 9-26.

[25] YOSHIKAWA K, RIEDEL S, ASAHARA M. Jointly identifying temporal relations with markov logic. [C]//The Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language . 2009: 9-16.

[26] YOSHIKAWA K, ASAHARA M, IIDA R, et al. Identifying temporal relations by sentence and document optimizations joint inference for event timeline construction[C]//Association for Computational Linguistics.2012:677-687.

[27] CHANG Y, TANG J, YIN D, et al. Timeline Summarization from social media with life cycle models[C]// The Twenty-Fifth International Joint Conference on Artificial Intelligence (IJCAI-16). 2016.

Temporal relation recognition method based on news event fragments

LI Ying-jun, ZHANG Hong-li, WANG Xing

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Event fragments as the smallestr unit was defined and a two-stage event fragments temporal relation recognition algorithm was proposed. The first stage is sequential mapping and the second is sequence recognition. The real online data increased accuracy by 4% compared to common classifier and strong rule algorithm.

event fragments, sequential mapping, temporal relation reconition, global optimization

s: The National Natural Science Foundation of China (No. 61402137), The National Basic Research Program of China (973 Program)(No. 2013CB329602)

TP393

A

10.11959/j.issn.2096-109x.2017.00171

李英俊(1991-),男,黑龍江大慶人,哈爾濱工業(yè)大學(xué)碩士生,主要研究方向為網(wǎng)絡(luò)輿情、網(wǎng)絡(luò)安全。

張宏莉(1973-),女,吉林榆樹人,博士,哈爾濱工業(yè)大學(xué)教授、博士生導(dǎo)師,主要研究方向為網(wǎng)絡(luò)與信息安全、網(wǎng)絡(luò)測量與建模、網(wǎng)絡(luò)計算、并行處理等。

王星(1981-),男,黑龍江哈爾濱人,博士,哈爾濱工業(yè)大學(xué)助理研究員,主要研究方向為信息安全、網(wǎng)絡(luò)輿情、知識遷移等。

2017-04-07;

2017-05-10。通信作者:李英俊,lyjamare@163.com

國家自然科學(xué)基金資助項目(No.61402137);國家重點基礎(chǔ)研究發(fā)展計劃(“973”計劃)基金資助項目(No. 2013CB329602)

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 91网站国产| 国产精品13页| 97国产在线视频| 亚洲精品成人片在线观看| 欧美成在线视频| 综合色婷婷| 免费观看亚洲人成网站| 少妇极品熟妇人妻专区视频| 国产精品一区在线麻豆| 久久男人资源站| 中文国产成人精品久久| 国内精品久久久久鸭| 免费jizz在线播放| 伊人色在线视频| 国产黄网永久免费| 四虎亚洲国产成人久久精品| 亚洲国产中文精品va在线播放| 影音先锋亚洲无码| 亚洲性影院| 国产福利观看| 老司机午夜精品视频你懂的| 日韩资源站| 玩两个丰满老熟女久久网| 亚洲中文字幕国产av| 波多野结衣一区二区三区88| 亚洲福利视频网址| 国产精品永久在线| 69av在线| 无码人妻热线精品视频| 无码粉嫩虎白一线天在线观看| 欧美福利在线| 亚洲精品国产综合99| 国产亚洲精品va在线| 国产精品国产三级国产专业不 | 欧美日韩成人| 久久女人网| 欧美成人一级| 福利视频一区| 国产门事件在线| 国产激情无码一区二区免费| 欧洲欧美人成免费全部视频| 自慰高潮喷白浆在线观看| 日本成人不卡视频| 91亚瑟视频| 男人的天堂久久精品激情| 久久精品中文无码资源站| 天堂在线www网亚洲| 无码中文字幕精品推荐| 在线欧美国产| 国产精品视频系列专区| 99久久精彩视频| 久久窝窝国产精品午夜看片| 青青草综合网| 无遮挡一级毛片呦女视频| 日韩精品一区二区三区中文无码| 亚洲成人一区二区三区| 五月天在线网站| 久久久久久久久18禁秘| 国产亚洲精品97AA片在线播放| 亚洲欧美日韩精品专区| 亚洲色图欧美激情| 在线综合亚洲欧美网站| 亚洲av无码专区久久蜜芽| 精品91视频| 久久亚洲国产一区二区| 国产亚洲精品资源在线26u| 婷婷久久综合九色综合88| 日韩AV手机在线观看蜜芽| 精品无码一区二区三区电影| 四虎成人在线视频| 国产无码在线调教| 免费大黄网站在线观看| 亚洲国产成人综合精品2020 | 国产成人无码久久久久毛片| 国产浮力第一页永久地址| 久久精品人妻中文系列| 欧美色伊人| 国产99视频免费精品是看6| 国产欧美日韩一区二区视频在线| 欧美性精品| 亚洲欧美极品| 高清免费毛片|