摘要: 新事件檢測(cè)(New Event Detection,簡(jiǎn)稱NED)的目標(biāo)是從一個(gè)或多個(gè)新聞源中檢測(cè)出報(bào)道一個(gè)新聞話題的第一個(gè)新聞。初步實(shí)驗(yàn)發(fā)現(xiàn), 構(gòu)成事件的一項(xiàng)重要屬性是事件發(fā)生的特定時(shí)間,因此時(shí)間是區(qū)分不同事件的重要標(biāo)志。為此,提出時(shí)序話題模型(Temporal Topic Model,簡(jiǎn)稱TTM)。TTM將話題和報(bào)道切分為若干對(duì)應(yīng)不同時(shí)間表達(dá)式的事件。其中,時(shí)間表達(dá)式描述事件發(fā)生的特定時(shí)間。TTM基于時(shí)間表達(dá)式在話題中出現(xiàn)的頻率和增長(zhǎng)率,估量對(duì)應(yīng)時(shí)間表達(dá)式的事件作為種子事件或相關(guān)新穎事件的概率。此外,時(shí)間表達(dá)式的頻率與增長(zhǎng)率也用于衡量事件在相關(guān)性匹配中權(quán)重。在此基礎(chǔ)上,NED依賴時(shí)間特性快速遏制不同時(shí)間發(fā)生的事件匹配,并借助種子事件和新穎事件調(diào)整相關(guān)性判定的權(quán)重分配。
關(guān)鍵詞:
中圖分類號(hào): TP391 文獻(xiàn)標(biāo)識(shí)碼:B 文章編號(hào):2095-2163(2011)01-0074-05
0引言
新事件檢測(cè)(New Event Detection,簡(jiǎn)稱為NED)是T-DT[1]中一項(xiàng)重要子任務(wù),TDT課題致力于研究對(duì)于不同新聞來源的多語(yǔ)言新聞文本進(jìn)行有效的組織、搜索與結(jié)構(gòu)化的技術(shù),其目標(biāo)是檢測(cè)出報(bào)道一個(gè)新聞話題(topic)種子事件的第一個(gè)新聞(story),也可理解為新話題的識(shí)別。話題[2]由一個(gè)種子事件[3]以及后續(xù)直接相關(guān)的事件或活動(dòng)組成,子話題是針對(duì)其中某一事件的相關(guān)描述,事件則定義為發(fā)生于特定時(shí)間和特定地點(diǎn)的事情[4]。
1相關(guān)研究
NED研究體系主要包含如下三類分支。
(1)“報(bào)道-報(bào)道型”
基于“報(bào)道-報(bào)道型”(簡(jiǎn)寫為SS)的NED系統(tǒng)將待測(cè)報(bào)道與所有前期報(bào)道進(jìn)行相關(guān)性匹配,如果相關(guān)度都小于特定閾值,則判定該報(bào)道為新話題。SS[5]的主要缺陷涉及兩方面:一方面,報(bào)道之間的相關(guān)性并不能恰當(dāng)描述報(bào)道與整個(gè)話題的相關(guān)性,比如話題初期的報(bào)道更相關(guān)于話題的種子事件,后期的報(bào)道更相關(guān)于話題框架下的新穎事件,兩者盡管隸屬于同一話題,但SS往往給予其較低的相關(guān)度;另一方面,高昂的計(jì)算代價(jià)限制了SS的實(shí)用化。
(2)“報(bào)道-聚類型”
基于“報(bào)道-聚類型”(簡(jiǎn)寫為SC)的NED系統(tǒng)則對(duì)所有前期報(bào)道進(jìn)行聚類,將每個(gè)聚類作為話題模型,并通過匹配報(bào)道與聚類的相關(guān)性判斷該報(bào)道是否為新事件。SC可以顯著提高NED系統(tǒng)的效率,但準(zhǔn)確率改進(jìn)并不顯著[6-7]。
(3)“報(bào)道-聚類-報(bào)道型”
“報(bào)道-聚類-報(bào)道型”(簡(jiǎn)寫為SCS)建立了話題的樹型結(jié)構(gòu),將根節(jié)點(diǎn)用于宏觀地描述話題,葉節(jié)點(diǎn)趨向描述話題中的具體事件。檢測(cè)過程中,報(bào)道與根節(jié)點(diǎn)的匹配用于快速查詢最相近的話題,而報(bào)道與中間節(jié)點(diǎn)和葉節(jié)點(diǎn)的匹配用于精確查詢相關(guān)事件。SCS在不損失效率的同時(shí)顯著提高了精確率[7]。
2基于時(shí)序話題模型的新事件檢測(cè)
2.1基本思想
前面提到的檢測(cè)方法性能的不足主要體現(xiàn)在漏檢率過高,盡管后續(xù)研究融入的命名實(shí)體[4,8-9]和詞鏈[10]等語(yǔ)言信息改進(jìn)了現(xiàn)有NED系統(tǒng)的性能,但并未明顯減少漏檢現(xiàn)象。此外,時(shí)間是反映話題發(fā)展趨勢(shì)的主要脈絡(luò)。比如,話題的種子事件發(fā)生的時(shí)間最早,并長(zhǎng)期駐留于相關(guān)于話題的報(bào)道流中;與此相對(duì)地,話題的新穎事件往往發(fā)生的時(shí)間較晚,但論述新穎事件的報(bào)道會(huì)在短期內(nèi)有爆發(fā)式的增益。
針對(duì)上述問題,本文提出一種融合上述兩種新聞特性的時(shí)序話題模型(Temporal Topic Model,簡(jiǎn)稱TTM)。
2.2時(shí)序話題模型
2.2.1話題描述
時(shí)序話題模型(TTM)是在子話題建模基礎(chǔ)上提出的一種適應(yīng)新聞信息特性的話題模型。這是由一系列對(duì)應(yīng)于不同時(shí)間的事件組成的體系結(jié)構(gòu),其表示形式如下式:
此外,TTM利用時(shí)間表達(dá)式的增長(zhǎng)率(growth rate)描述事件作為新穎事件的概率,NED則相應(yīng)地利用TTM的這一屬性捕獲話題漂移后的相關(guān)報(bào)道,從而盡力削弱NED誤檢的概率。事件新穎性的概率估計(jì)如下式:
其中,W表示自從時(shí)間表達(dá)式t在話題中首次出現(xiàn)后,NED截至待測(cè)報(bào)道共檢測(cè)到的相關(guān)于話題的報(bào)道總量;α'為平滑參數(shù)。gt描述了時(shí)間表達(dá)式自出現(xiàn)后在話題內(nèi)的增長(zhǎng)率,gt越高,則時(shí)間t對(duì)應(yīng)的事件作為新穎事件的概率越高。對(duì)于最早出現(xiàn)于話題中的時(shí)間t,gt實(shí)際上描述這些時(shí)間對(duì)應(yīng)的事件作為種子的概率。因此,gt是一種融合種子事件和新穎事件概率估計(jì)的模型。相應(yīng)地,報(bào)道S和話題T的相關(guān)性計(jì)算如下式:
當(dāng)這一相關(guān)性高于閾值θ時(shí),NED系統(tǒng)判定待測(cè)報(bào)道S相關(guān)于舊話題T;否則判定該報(bào)道為新事件,即新話題的首次報(bào)道。
2.2.3話題模型更新
當(dāng)NED判定某一報(bào)道相關(guān)于舊話題后,話題的TTM需要基于這一報(bào)道進(jìn)行更新。當(dāng)更新過程將事件的某一語(yǔ)境首次嵌入話題的TTM時(shí),該語(yǔ)境的重現(xiàn)域隨即自動(dòng)開始倒計(jì)時(shí);如果該語(yǔ)境在其重現(xiàn)域計(jì)時(shí)為0時(shí),NED流程始終沒有發(fā)現(xiàn)該語(yǔ)境出現(xiàn)于任何新檢測(cè)到的相關(guān)報(bào)道中(該語(yǔ)境與這些報(bào)道中所有事件的相關(guān)性低于閾值η),則更新過程就會(huì)自動(dòng)將該語(yǔ)境從當(dāng)前話題的TTM中刪除。本文經(jīng)驗(yàn)性地設(shè)置重現(xiàn)域等于5,即從語(yǔ)境嵌入話題的TTM開始,如果NED流程新檢測(cè)到的5篇相關(guān)報(bào)道中從未出現(xiàn)該語(yǔ)境,則更新過程從話題的TTM中刪除這一語(yǔ)境。圖1為時(shí)序話題模型更新的一個(gè)樣例。
3 實(shí)驗(yàn)準(zhǔn)備
3.1語(yǔ)料與評(píng)測(cè)
實(shí)驗(yàn)采用TDT4英文形式的文本類語(yǔ)料(包括機(jī)器翻譯和轉(zhuǎn)錄的結(jié)果)進(jìn)行評(píng)測(cè)。本文實(shí)驗(yàn)部分將TDT2002的新聞話題與其相關(guān)報(bào)道作為訓(xùn)練語(yǔ)料, 將TDT2003的新聞話題與其相關(guān)報(bào)道作為測(cè)試語(yǔ)料。
實(shí)驗(yàn)基于NIST針對(duì)TDT發(fā)布的評(píng)測(cè)指南, 采用檢測(cè)錯(cuò)誤代價(jià)CDet分別從漏檢和誤檢兩個(gè)角度進(jìn)行評(píng)測(cè)。此外,本實(shí)驗(yàn)還采用DET曲線訓(xùn)練閾值,并在訓(xùn)練階段根據(jù)DET曲線的分布趨勢(shì)初步分析實(shí)驗(yàn)系統(tǒng)性能。
3.2實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)基于事件的時(shí)間屬性建立了五個(gè)NED系統(tǒng)。其中,兩個(gè)系統(tǒng)僅僅使用時(shí)間表達(dá)式的特征向量作為話題模型;其它三個(gè)系統(tǒng)則利用時(shí)間表達(dá)式及其對(duì)應(yīng)的事件建立話題的TTM模型。此外,實(shí)驗(yàn)重現(xiàn)了三個(gè)現(xiàn)有新事件檢測(cè)系統(tǒng),借以作為評(píng)價(jià)TTM性能優(yōu)劣的參考。
上述系統(tǒng)的組成結(jié)構(gòu)如下:
(1)Osystem1:該系統(tǒng)基于時(shí)間表達(dá)式的出現(xiàn)頻率描述話題模型;
(2)Osystem2:該系統(tǒng)與系統(tǒng)Osystem1類似,區(qū)別在于VSM中的特征權(quán)重為時(shí)間表達(dá)式的增長(zhǎng)率,如公式(6);
(3)Osystem3:該系統(tǒng)建立話題的TTM,即時(shí)間表達(dá)式為索引項(xiàng),且每個(gè)時(shí)間表達(dá)式對(duì)應(yīng)在這一時(shí)間發(fā)生的事件;但該系統(tǒng)在新事件判定過程中并不使用時(shí)間索引項(xiàng),而是僅僅檢驗(yàn)相關(guān)于話題的事件在話題中所占的比例。該系統(tǒng)側(cè)重檢驗(yàn)事件切分及其匹配對(duì)NED系統(tǒng)性能的影響;
(4)Osystem4:該系統(tǒng)建立話題的TTM,且基于“同時(shí)同事”原則和時(shí)間的頻率屬性進(jìn)行新事件的判定,如公式(5);
(5)Osystem5:該系統(tǒng)與Osystem4類似,區(qū)別是檢測(cè)過程在“同時(shí)同事”原則的基礎(chǔ)上融入時(shí)間的增長(zhǎng)率,如公式(7)。
實(shí)驗(yàn)中重現(xiàn)的現(xiàn)有NED系統(tǒng)包括:
采用“報(bào)道-報(bào)道”型檢測(cè)模型的SS-system;
采用“報(bào)道-聚類”型檢測(cè)模型的SC-system;
融合命名實(shí)體的“報(bào)道-聚類-報(bào)道”型的SC-S_system。
4實(shí)驗(yàn)結(jié)果及分析
4.1訓(xùn)練結(jié)果及分析
實(shí)驗(yàn)首先針對(duì)參數(shù)η和ε進(jìn)行訓(xùn)練。訓(xùn)練過程通過觀測(cè)上述參數(shù)對(duì)事件相關(guān)性判定的影響,估計(jì)其最優(yōu)取值。為此,訓(xùn)練過程預(yù)先標(biāo)注了2 659組事件的相關(guān)性。其中,每組包含兩個(gè)事件,且經(jīng)人工標(biāo)注為相關(guān)或不相關(guān)(10名不重復(fù)學(xué)生進(jìn)行標(biāo)注)。參數(shù)訓(xùn)練過程中,每個(gè)事件表示為ε個(gè)特征組成的向量空間模型,這與TTM中的事件描述方法一致;然后,基于向量夾角余弦計(jì)算每組事件相關(guān)度,如果相關(guān)度高于閾值η,則判定事件相關(guān),否則不相關(guān)。最后,將判定結(jié)果與人工標(biāo)注結(jié)果進(jìn)行比對(duì),且基于F值評(píng)測(cè)參數(shù)η 和ε的不同取值對(duì)判定結(jié)果的影響。F值最高時(shí),上述參數(shù)的取值將作為訓(xùn)練的最終結(jié)果。檢驗(yàn)結(jié)果如圖2所示,可驗(yàn)證當(dāng)參數(shù)η 和ε分別等于0.085和15時(shí),F值最高,即事件相關(guān)性判定最準(zhǔn)確。因此,后續(xù)實(shí)驗(yàn)將利用參數(shù)η 和ε的上述取值評(píng)價(jià)NED系統(tǒng)性能。
平滑系數(shù)α和α'的訓(xùn)練過程與上述參數(shù)的訓(xùn)練過程基本類似,如圖3所示。區(qū)別在于:訓(xùn)練過程使用訓(xùn)練語(yǔ)料評(píng)測(cè)其對(duì)NED系統(tǒng)性能的影響。
平滑系數(shù)α和α'用于調(diào)整新穎事件和種子事件在話題與報(bào)道相關(guān)性判定中的權(quán)重,而上述訓(xùn)練過程顯示α和α'的不同取值能夠影響NED系統(tǒng)的性能,因此這一訓(xùn)練結(jié)果驗(yàn)證了新穎事件和種子事件在識(shí)別新話題首次報(bào)道中的重要作用。但是,訓(xùn)練結(jié)果也顯示平滑系數(shù)α和α'取值過高和過低都不能改善NED系統(tǒng)的性能,即系統(tǒng)Osystem4和Osystem5的歸一化DET損耗仍然較高。
4.2測(cè)試結(jié)果及分析
實(shí)驗(yàn)首先基于訓(xùn)練語(yǔ)料(面向100個(gè)話題的6 085個(gè)相關(guān)報(bào)道),針對(duì)系統(tǒng)Osystem1至Osystem5繪制了DET性能曲線,如圖4所示。作為綜合評(píng)定誤檢率和漏檢率的工具,DET曲線越靠近所在坐標(biāo)系的原點(diǎn),則其對(duì)應(yīng)的NED系統(tǒng)性能越優(yōu)良。因此,圖4中DET曲線的評(píng)測(cè)結(jié)果顯示系統(tǒng)Osystem1和Osystem2的檢測(cè)性能最差。這一結(jié)果說明:僅用時(shí)間表達(dá)式構(gòu)建話題模型,且根據(jù)話題模型與報(bào)道是否包含相同時(shí)間表達(dá)式的多少裁定相關(guān)性,卻忽視事件本身的內(nèi)容,將無益于新話題首次報(bào)道的識(shí)別。
實(shí)驗(yàn)系統(tǒng)Osystem4和Osystem5嘗試融合時(shí)間表達(dá)式和事件內(nèi)容各自的優(yōu)點(diǎn)建立話題模型TTM。相對(duì)于系統(tǒng)Osystem1至Osystem3,系統(tǒng)Osystem4和Osystem5獲得了更優(yōu)的檢測(cè)性能。其中,系統(tǒng)Osystem5的檢測(cè)性能最優(yōu)。
系統(tǒng)Osystem5取得的改進(jìn)主要來源于較低的誤檢率。原因在于該系統(tǒng)不僅檢驗(yàn)報(bào)道是否包含舊話題的新穎事件,也檢驗(yàn)報(bào)道中是否存在舊話題的種子事件。此外,側(cè)重論述新穎事件的后續(xù)相關(guān)報(bào)道往往也與話題的TTM共有少量“同時(shí)同事”現(xiàn)象,尤其這類新穎事件成功嵌入TTM之前,這一情況更為嚴(yán)重。因此,新穎事件的挖掘與應(yīng)用也有益于話題與報(bào)道相關(guān)性的判別。對(duì)此,系統(tǒng)Osystem4判定報(bào)道是否包含舊話題的新穎事件,如果包含,則提高報(bào)道作為舊話題相關(guān)報(bào)道的概率,降低其作為新話題首次報(bào)道的概率,從而有助于降低NED系統(tǒng)誤檢上述側(cè)重論述新穎事件的相關(guān)報(bào)道,系統(tǒng)性能如圖4所示。其中,系統(tǒng)Osystem4的最小歸一化DET損耗低于系統(tǒng)Osystem1至Osystem3,但高于系統(tǒng)Osystem5。原因在于系統(tǒng)Osystem5更融入了種子事件的挖掘與應(yīng)用,從而獲得更低誤檢率。
實(shí)驗(yàn)額外建立名為OsystemX的NED系統(tǒng)用于檢驗(yàn)基于時(shí)間表達(dá)式的事件切分方法是否有助于TTM改進(jìn)NED系統(tǒng)的性能。該系統(tǒng)與系統(tǒng)Osystem3的構(gòu)建方法基本類似,區(qū)別是系統(tǒng)OsystemX基于TextTiling算法進(jìn)行事件切分。在此基礎(chǔ)上,實(shí)驗(yàn)對(duì)比了系統(tǒng)OsystemX與系統(tǒng)Osystem3至Osystem5的檢測(cè)性能,借以檢驗(yàn)TTM中基于時(shí)間表達(dá)式切分的事件對(duì)NED系統(tǒng)性能的影響,對(duì)比結(jié)果如圖5所示。實(shí)驗(yàn)結(jié)果顯示系統(tǒng)OsystemX的檢測(cè)性能略優(yōu)于系統(tǒng)Osystem3。
實(shí)驗(yàn)基于訓(xùn)練語(yǔ)料對(duì)3個(gè)現(xiàn)有的主流NED系統(tǒng)(即系統(tǒng)Esystem1、Esystem2和Esystem3)繪制了DET曲線,并將其與上述實(shí)驗(yàn)中性能最優(yōu)的系統(tǒng)Osystem4和Osystem5進(jìn)行對(duì)比,借以檢驗(yàn)基于TTM的NED系統(tǒng)是否具有更優(yōu)的性能。實(shí)驗(yàn)的對(duì)比結(jié)果如圖6所示。
所有實(shí)驗(yàn)系統(tǒng)的測(cè)試結(jié)果如表1所示。其中,Norm CDet表示系統(tǒng)基于訓(xùn)練中的最優(yōu)閾值在測(cè)試語(yǔ)料中獲得的歸一化DET損耗(訓(xùn)練中的最優(yōu)閾值對(duì)應(yīng)訓(xùn)練語(yǔ)料中系統(tǒng)的最小歸一化DET損耗);而Min Norm CDet表示系統(tǒng)在測(cè)試語(yǔ)料中可達(dá)到的最小歸一化DET損耗。
①α=0.5,ε=15,η=0.085
②α'=0.65,ε=15,η=0.085
③ε=15,η=0.085
④λ=3,δ=0.155
4.3TTM效率分析
實(shí)驗(yàn)根據(jù)系統(tǒng)在檢測(cè)過程中經(jīng)歷相關(guān)性匹配的總次數(shù)(Comparison times,即Cmp)作為評(píng)定其效率的標(biāo)準(zhǔn),所有實(shí)驗(yàn)系統(tǒng)在測(cè)試語(yǔ)料中的效率如表1所示。其中,系統(tǒng)Esystem1的效率最低。原因在于該系統(tǒng)的檢測(cè)過程中,每個(gè)待測(cè)報(bào)道都需要與所有已知的舊報(bào)道進(jìn)行相關(guān)性匹配。系統(tǒng)Esystem2的效率顯著優(yōu)于系統(tǒng)Esystem1。原因在于系統(tǒng)Esystem2的檢測(cè)過程中,舊報(bào)道通過聚類構(gòu)成話題的描述模型,每個(gè)待測(cè)報(bào)道實(shí)際上只與少量話題模型進(jìn)行相關(guān)性匹配。系統(tǒng)Esystem3建立了具有層次結(jié)構(gòu)的樹型話題模型,并抽選最優(yōu)匹配路徑上的聚類進(jìn)行報(bào)道與舊話題的相關(guān)性評(píng)定,這一檢測(cè)過程避免了待測(cè)報(bào)道與每個(gè)聚類都進(jìn)行相關(guān)性匹配,從而系統(tǒng)Esystem3獲得了略優(yōu)于系統(tǒng)Esystem2的效率。
系統(tǒng)Osystem1至Osystem5中,系統(tǒng)Osystem1和Osystem2的效率最高,原因在于其將報(bào)道和話題描述為若干時(shí)間表達(dá)式的向量,并直接匹配時(shí)間表達(dá)式判定相關(guān)性,而無需匹配話題與報(bào)道論述的內(nèi)容。
系統(tǒng)Osystem5、Esystem2和Esystem3的上述效率差異也可從圖7中的效率分布曲線得以驗(yàn)證(由于系統(tǒng)Osystem4和Osystem5的效率基本一致,因此系統(tǒng)Osystem4的效率未包含于圖7中的效率對(duì)比)。圖中每條曲線的產(chǎn)生方法如下:系統(tǒng)采用某一閾值對(duì)測(cè)試語(yǔ)料中的新聞報(bào)道流進(jìn)行NED檢測(cè),每隔500篇報(bào)道抽取一個(gè)報(bào)道樣本,并記錄報(bào)道與舊話題出現(xiàn)的匹配次數(shù),以此共獲得按時(shí)間順序平均分布于報(bào)道流中的10個(gè)報(bào)道樣本的匹配次數(shù),從而可繪制系統(tǒng)的效率沿報(bào)道流的演化趨勢(shì),即效率分布曲線。系統(tǒng)Osystem5、Esystem2和Esystem3統(tǒng)一采用相同的隨機(jī)閾值繪制效率分布曲線。圖7顯示,系統(tǒng)Esystem3在檢測(cè)初期的匹配次數(shù)最少,但是其匹配次數(shù)的增益比例最高,致使檢測(cè)后期系統(tǒng)Esystem3的匹配次數(shù)遠(yuǎn)大于系統(tǒng)Osystem5,甚至略大于系統(tǒng)Esystem2。原因在于:系統(tǒng)Esystem3的樹型話題模型隨著檢測(cè)過程不斷更新,而其更新過程中的樹型話題模型在深度和廣度上都不斷擴(kuò)展。相應(yīng)地,相關(guān)性匹配中的最優(yōu)路徑也將隨之不斷加長(zhǎng),從而最優(yōu)路徑上需要匹配的聚類數(shù)量也隨之持續(xù)增多。相對(duì)于系統(tǒng)Esystem3,系統(tǒng)Osystem5在檢測(cè)過程初期的匹配次數(shù)最多,但是其增益比例最低,從而維持了相對(duì)平穩(wěn)的檢測(cè)效率。
值得說明的是,上述實(shí)驗(yàn)系統(tǒng)的效率分析過程忽略了各自預(yù)處理消耗的時(shí)間。
5 結(jié)束語(yǔ)
本文提出一種時(shí)序話題模型(TTM)。這一模型將話題描述為對(duì)應(yīng)不同時(shí)間索引項(xiàng)的事件集合。基于這一模型的NED系統(tǒng)利用時(shí)間索引項(xiàng)快速查詢同時(shí)發(fā)生的事件,并基于“同時(shí)同事”現(xiàn)象在話題模型中的比例判定新事件概率。此外,該模型基于時(shí)間表達(dá)式在報(bào)道流中的分布趨勢(shì),挖掘話題的種子事件和新穎事件,并基于報(bào)道是否包含舊話題種子事件和新穎事件調(diào)整其作為新話題首次報(bào)道的概率。基于TTM
的檢測(cè)系統(tǒng)在實(shí)驗(yàn)中取得了優(yōu)異性能,檢測(cè)準(zhǔn)確性和效率相對(duì)現(xiàn)有主流NED系統(tǒng)都有顯著提高。
由于TDT語(yǔ)料集時(shí)間跨度較小,因此本文未能建立起用于預(yù)測(cè)當(dāng)前話題發(fā)展趨勢(shì)的歷史話題發(fā)展演化的完整過程。下一步工作需要從網(wǎng)絡(luò)上挖掘時(shí)間跨度較長(zhǎng)的新聞報(bào)道,建立合適的新聞?wù)Z料,研究如何利用建立歷史話題發(fā)展軌跡所提供的匹配模型預(yù)測(cè)新事件。
參考文獻(xiàn):
[1] http://www.nist.gov/speech/test/tdt/.
[2] ALLAN J. Topic detection and tracking:Event-based Information Organization. Springer-Verlag, 2002. 1-16.
[3] YANG Y, ZHANG J, CARBONELL J, et al. Topic conditionedNovelty Detection[c]// In Proceedings of the 8th ACM SIGKDDInternational Conference, ACM Press, 2002, 688-693.
[4] YANG Y, CARBONELL J, BROWN R, et al. Learning Appro- aches for Detecting and Tracking News Events [J]. In IEEE In- telligent Systems Special Issue on Applications of Intelligent In- formation Retrieval, volume 1999, 14(4):32-43.
[5] YANG Y, PIERCE T, CARBONELL J. A study on Retrospec- tive and On-Line Event detection [C]// Proceedings of the 21stannual international ACM SIGIR conference on Research anddevelopment in information retrieval.CMU, USA: ACM, 1998:28 -36.
[6] ALLAN J, LAVRENKO V, MALIN D, et al. Detections, Bounds, and Timelines: Umass and tdt-3[C]// In Proceedings of Topic D- etection and Tracking Workshop (TDT-3) [C], Vienna, VA, 20- 00:167-174.
[8] ZHANG Kuo, LI Juan Zi, WU Gang. New Event Detection B- ased on Indexing-tree and Named Entity[C]// Sigir2007 ACM:A- msterdam, 2007.
[9] JUHA M, HELENA AM, MARKO S. Applying Semantic Classes in Event Detection and Tracking[C]// In Proceedings of Interna- tional Conference on Natural Language Processing (ICON 2002). 2002:175-183.
[10] JUHA M, HELENA A M, MARKO S. Simple Semantics in T-opic Detection and Tracking [J]. Information Retrieval. 2004,7(3-4):347-368.
[11] NICOLA S, JOE C. Combining Semantic and Syntactic Docu-ment Classifiers to Improve First Story Detection[C]// Proceed-ings of the 24th Annual International ACM SIGIR Conference.New York, NY, USA. ACM Press. 2001:424-425.
[12] MARTI A H. Multi-paragraph segmentation of expository text[C]// Prosceedings of 32nd Annual Meeting of the ACL. 1994:9-16.