胡福玲 吳國文 趙臣升
摘 要:針對話題跟蹤的任務是從時序新聞報道流中實時識別和挖掘相關于特定新聞話題的報道,本文提出一種事件-時間關聯模型(Event-Time Relation Model,ETRM)用來展開話題跟蹤研究。ETRM將相關報道的時間屬性引入向量空間模型,話題跟蹤過程中將話題與相關報道相同特征項的時間相關度應用于相關性判定機制,同時基于時間的分布屬性調整特征向量的權重分配,實現話題模型的自適應學習更新。實驗采用DET曲線評測系統性能,結果顯示相比于傳統的話題模型,ETRM能夠更加準確的追蹤到話題焦點演化趨勢,有效提高了話題跟蹤系統的性能。
關鍵字:話題跟蹤;事件-時間關聯模型;時間相關度;DET曲線
中圖分類號: TP391.1 文獻標識碼: A 文章編號:2095-2163(2016)01-
Abstract:This paper proposes an Event-Time relation model (abbr.ETRM) to study topic tracking for its task that is to identify and mining subsequent on-topic stories in the temporal story stream. The ETRM introduces the time property of the story to the vector space model, apply time correlations of same feature to the correlation decision mechanism in topic tracking process, adjusting feature vector weight allocation based on time property to implement subject model of adaptive learning at the same time. Experiment adopts DET curve performance evaluation system, the results show that ETRM can more accurately track the topic focus of evolution trend compared with the traditional model of subject, effectively improve the performance of topic tracking system.
Keywords: topic track; event-time relation model; time correlation; DET curve
0 引 言
話題檢測與跟蹤[1] (Topic Detection and Tracking, TDT) 作為信息處理領域重要的研究分支正逐步成為國內新穎的研究熱點之一,話題跟蹤 (Topic Tracking, TT) 是其中的一個子任務。話題定義為由一個種子事件以及后續相關事件或活動組成[2],而事件定義為在特定時間特定地點發生的事情[3],可見時間是輔助話題模型區分不同的新聞事件的重要屬性。一般來說,話題的種子事件發生的時間總是最早,并長期駐留于相關話題的報道流中,而話題的新穎事件往往發生的時間較晚,并且論述新穎事件的報道會在短時間內爆發式地出現。所以時間也是反映話題發展趨勢的主要脈絡[4]。
針對上述新聞事件報道的時間特性,本文提出一種事件-時間關聯模型(ETRM),即在傳統的向量空間模型 (Vector Space Model, VSM) 的基礎上引入相關事件報道的時間屬性對話題進行描述,并基于ETRM對話題跟蹤過程中的相關算法提出以下改進:
(1)將相同特征項之間的時間相關度應用于報道與話題的相關性判定中,借以提高判定精度;
(2)在對話題模型中相關報道的特征項進行自學習更新時,基于其時間分布屬性進行相應權重調整,借以及時準確地追蹤到話題的焦點。實驗采用檢測錯誤權衡 (Detection Error Tradeoff, DET) 曲線[5]分別對基于VSM和基于ETRM兩種跟蹤系統性能進行評測,結果顯示后者有效提高了話題跟蹤演化趨勢的性能。
1 相關工作
1.1 傳統的文本表示模型
對新聞信息進行文本預處理時,需要將其轉化為計算機可以識別的形式[6]。傳統的話題跟蹤系統中,通常應用向量空間模型 (Vector Space Model, VSM)[7] 來對話題和報道進行描述。VSM將文本表示成一個空間向量,向量的每一維代表該文本的一個特征,并且每一維的取值(即權重),對應于該特征對相應文本的重要性。形如公式(1):
(1)
其中, 為特征詞, 為 對應的權重, , 為特征向量的維數。該模型要求各個特征項互異且無先后順序關系[8],后續可以通過計算特征向量之間的相似性來度量文本間的相似性。
VSM把對文本內容的處理簡化為向量空間中的向量運算,以空間上的相似度表達語義上的相似度。該模型直觀易懂,計算高效且操作靈活,目前廣泛應用于文本過濾和關鍵字檢索等信息處理領域。
1.2 文本特征選擇及其權重計算
將新聞報道用空間向量模型表示后,特征向量可能成百上千甚至更多,需要從中選出最具有代表性的特征項來進行后續研究。
TF-IDF加權策略[9]是一種常用的特征權重計算方法,其特點是特征項的重要性隨著自身在文檔中出現的頻數成正比增加,卻也會隨著自身在相關文檔集中出現的頻率成反比下降。新聞話題是動態地不斷向前發展的,在不同時段報道事件的內容可能不同,比如當突發的新穎事件報道大量出現時,一些高頻出現的特征詞能更好的代表目前階段話題的核心,此時反文檔頻率IDF將會降低高頻詞匯的影響力。所以在本文的特征權重計算中只考慮TF因子。具體地,在一篇新聞報道中,位于標題、首段、末尾的特征詞一般更能表述此篇文檔的主要內容,因此通過修正因子 對相關位置上的特征詞賦予較高的權重,具體的權重計算如公式(2)所示。
4 實驗分析
4.1 實驗數據集
為了更好地體現實驗語料的權威性和實時性,本文實驗用語料采用搜狗實驗室提供的采集自全網2012年6月~2012年7月期間多個頻道的新聞數據。該數據集共含有16080篇文檔,涉及16個話題,為了便于話題檢測與跟蹤結果測評,選擇前面的3054篇作為訓練集,后面13026篇作為測試集。
4.2實驗設計
本文分別基于傳統的向量空間模型和ETRM新模型,設計了兩個話題跟蹤系統,通過漏檢率和誤檢率以及歸一化開銷來衡量話題與跟蹤系統的性能。
4.2.1 設計實現一
系統采用傳統的向量空間模型(VSM)對新聞話題和報道進行文本表示。首先,對新聞語料進行文本預處理、分詞等操作,并通過公式(2)計算各特征詞權重;然后,選取訓練集中 篇相關報道中的特征詞及其相應權重來構成初始話題模型;接著采用傳統余弦公式(13)衡量新聞話題與報道之間相關度,如果相關度高于預設的閾值,則判定待測報道是相關于話題的,并實時更新話題模型的特征向量,否則判定為不相關;最后重復上一步驟來處理下一篇報道,直到所有新聞報道處理完為止。
4.2.2 設計實現二
系統對每個新聞話題和報道采用事件-時間模型(VSM)構建話題模型。同4.2.1一樣首先對新聞語料進行文本預處理和分詞等操作,用公式(2)計算各特征詞權重,并提取每個特征詞的時間信息;然后,采用 篇最早的相關報道作為訓練語料,從中抽取特征詞、特征詞的相應權重和時間對來構成初始的話題模型,如式(8)和式(9);接著按照公式(13) 計算話題與后續報道的相似度,若相似度大于設定的閾值,則把相關報道加入到相關文檔集中,并且把報道中新的特征詞更新到話題模型,更新過程如3.2節所述;最后重復上一步驟來處理下一篇報道,直到所有新聞報道處理完為止。
4.3實驗結果及分析
本實驗通過漏檢率( )、誤檢率( )和歸一化開銷 來衡量話題與跟蹤系統的性能。雖然本文沒有使用 TDT 會議提供的標準語料,但是通過自己從搜狗實驗室獲取的語料,同樣可以使用這些指標來評測話題檢測與跟蹤系統算法的性能,驗證本文提出的方法的有效性。
實驗在0.12~0.5的范圍內隨機設置相似度閾值,觀察不同閾值情況下基于兩個不同模型的話題跟蹤系統的漏檢率和誤檢率以及歸一損耗代價,如表1所示。
表1 不同閾值下兩種模型的實驗結果
Tab.1 Results of the two models under different thresholds
根據表1中不同閾值下的跟蹤結果繪制DET曲線,如圖1所示。DET曲線的橫坐標表示誤檢率,縱坐標表示漏檢率,曲線上的點代表相似度閾值不同時的漏檢率和誤檢率。曲線越接近原點,系統性能越好。由此得出,基于ETRM構建話題模型的跟蹤系統的誤檢率和漏檢率都有所降低,其性能效果明顯更好。
由圖2可以看出,隨著相似度閾值的增大,基于兩種不同模型的跟蹤系統的歸一化損耗都是先減小后增大。究其原因,一方面是因為閾值較小時,容易引入誤檢的新聞報道,導致誤檢率PFA較高,使得 損耗也較高;另一方面是因為閾值較高時,漏檢的新聞報道會逐漸增多,相應的漏檢率也會升高,導致 損耗也隨之增大。結合表1可以得知,當閾值為0.2時,兩種算法的 值達到最低,當閾值范圍在0.16~0.26之間時,系統的錯誤代價較低,則其性能將達到最優。具體地,當閾值 =0.2時,兩種模型算法的實驗結果對比如圖3所示。
由圖3結合表1可以得出,在基于VSM的話題跟蹤系統中,最小的 值為0.13148,而在基于ETRM的話題跟蹤系統中,最小的 值為0.0956,相比之下,后者大大降低了歸一化錯誤代價,使得跟蹤系統性能有了顯著的提高。
5 結束語
本文提出一種事件-時間關聯模型用于跟蹤新聞話題演化過程。在傳統向量空間模型中引入時間屬性,基于相同特征項之間的時間相關度改進話題與報道相關性判定機制,并應用于話題模型特征詞的更新過程中的權重調整。實驗采用傳統的基于VSM的話題模型與本文提出的新模型ETRM進行跟蹤性能的對比,結果表明,后者在漏檢率、誤檢率以及最小歸一化損耗代價上均有所降低,使得跟蹤系統的性能有了顯著的提高。但本文仍有不足之處,如特征項的時間屬性統一采用的是報道發布的時間,在某些情況下,報道事件不一定與事件發生時間一致。在今后的工作中還需要進一步改進。
參考文獻:
[1] 駱衛華, 劉群, 程學旗. 話題檢測與跟蹤技術的發展與研究[A]. 孫茂松,陳群秀. 語言計算與基于內容的文本處理——全國第七屆計算語言學聯合學術會議論文集[C]. 北京:清華大學出版社,2003:560-566.
[2]ALLAN J. Topic detection and tracking: Event-based Information Organization[M]. NewYork: Kluwer Academic Publishers,2002.
[3] YANG Y, CARBONELL JG , BROWN RD. Learning Approaches for Detecting and Tracking News Events[J]. 1999, 14(04):32-43.
[4] 倉玉, 洪宇, 姚建民, 朱巧明. 基于時序話題模型的新事件檢測[J]. 智能計算機與應用, 2011,1(3):74-78.
[5]MARTIN A,DODDINGTON G,KAMMETAL T.TheDETCurveinassessmentofdetectiontaskperformance[C] //Proceedingsof the Fifth European Conference on Speech Comunication and Technology, EUROSPEECH 1997. Rhodes, Greece:ACM,1997:1895-1898.
[6] LAVRENKO V, ALLAN J, DEGUZMAN E, et al. Relevance Models for Topic Detection and Tracking[C] //Proceedings of HLT2002 on Human Language Technology Research. San Francisco:ACM, 2002:115-121.
[7] 宋丹, 衛東, 陳英. 基于改進向量空間模型的話題識別跟蹤[J]. 計算機技術與發展, 2006, 9(16):62-67.
[8] 宗成慶.統計自然語言處理[M].清華大學出版社,2008:342-343.
[9]ALLAN J, LAVRENKO V, FREY D,et al. UMass at TDT 2000[C] // Proceedings of Topic Detection and Tracking Workshop. USA: National Institute of Standard and Technology, 2000:109-115.
[10] ALLAN J, CARBONELL J , DODDINGTON G, et al. Topic detection and tracking pilot study: Final report[C] //Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Virginia: DARPA, 1998: 194-218.
[11] 洪宇, 張宇,劉挺,等. 話題檢測與跟蹤的評測及研究綜述[J] .中文信息學報, 2007, 21(6):71-87.
[12] MAKKONEN J, AHONEN-MYKA H, SALMENKIVI M. Simple semantics in topic detection and tracking[J] . Information Retrieval, 2004, 7(3-4):347-368.